CN113299287A - 基于多模态的服务机器人交互方法、系统及存储介质 - Google Patents

基于多模态的服务机器人交互方法、系统及存储介质 Download PDF

Info

Publication number
CN113299287A
CN113299287A CN202110562984.2A CN202110562984A CN113299287A CN 113299287 A CN113299287 A CN 113299287A CN 202110562984 A CN202110562984 A CN 202110562984A CN 113299287 A CN113299287 A CN 113299287A
Authority
CN
China
Prior art keywords
service robot
information
current
voice
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110562984.2A
Other languages
English (en)
Inventor
王本强
李锐
王建华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong New Generation Information Industry Technology Research Institute Co Ltd
Original Assignee
Shandong New Generation Information Industry Technology Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong New Generation Information Industry Technology Research Institute Co Ltd filed Critical Shandong New Generation Information Industry Technology Research Institute Co Ltd
Priority to CN202110562984.2A priority Critical patent/CN113299287A/zh
Publication of CN113299287A publication Critical patent/CN113299287A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • B25J11/0005Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/20Instruments for performing navigational calculations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Robotics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mechanical Engineering (AREA)
  • General Health & Medical Sciences (AREA)
  • Automation & Control Theory (AREA)
  • Manipulator (AREA)

Abstract

本发明公开了基于多模态的服务机器人交互方法、系统及存储介质,属于服务机器人领域,本发明要解决的技术问题为如何突破服务机器人现有的简单交互模式,更有针对性地与人交互,提升用户与服务机器人的体验,技术方案为:该方法具体如下:利用声纹识别或人脸识别进行用户认证;实时监测并采集用户发出的语音信号以及对话的交互逻辑控制;对采集的语音信号进行语音识别;判断当前声音来源并控制服务机器人移动到说话人面前;通过语音识别的文本以及当前环境的信息并结合当前对话的上下文信息,服务机器人做出相应的回答。该系统包括安全认证模块、语音交互模块、对话管理模块及机器人移动模块。

Description

基于多模态的服务机器人交互方法、系统及存储介质
技术领域
本发明涉及服务机器人交互技术领域,具体地说是一种基于多模态的服务机器人交互方法、系统及存储介质。
背景技术
近年来,随着人工智能技术的快速发展,服务机器人成为产业界关注的一个热点,各种服务机器人层出不穷。
现有技术中在人与服务机器人交互的过程中,智能设备往往是固定不动的,如果用户与智能设备之间的距离较远时,不仅语音信号的识别受影响,而且会导致用户的体验感比较差。
目前服务机器人的交互方式和智能手机的交互比较相似,主要通过语音的方式进行基于固地场景交互,这种方式无法感知对话者当前所处的环境信息比如:天气、地理位置、日期、目前所处的姿态或者姿势等信息以及人物的一些信息比如,用户的年龄、性别、情绪、情感等,历史信息比如,与用户的交互历史、用户喜好等等,只能机械地回答问题,难以满足不同年龄、不同性别、不同情绪以及不同天气、地理位置、不同姿势或姿态下的用户的需求。故如何突破服务机器人现有的简单交互模式,让服务机器人变得更加智能,更有针对性地与人交互,提升用户与服务机器人的体验成为服务机器人行业亟需解决的技术问题。
发明内容
本发明的技术任务是提供一种基于多模态的服务机器人交互方法、系统及存储介质,来解决如何突破服务机器人现有的简单交互模式,让服务机器人变得更加智能,更有针对性地与人交互,提升用户与服务机器人的体验的问题。
本发明的技术任务是按以下方式实现的,一种基于多模态的服务机器人交互方法,该方法具体如下:
利用声纹识别或人脸识别进行用户认证;
实时监测并采集用户发出的语音信号以及对话的交互逻辑控制;
对采集的语音信号进行语音识别;
判断当前声音来源并控制服务机器人移动到说话人面前;
通过语音识别的文本以及当前环境的信息并结合当前对话的上下文信息,服务机器人做出相应的回答。
作为优选,服务机器人移动到说话人面前还包括如下情况:
当服务机器人有需要完成的指定任务时,则给服务机器人下发预先设定好的命令,使服务机器人完成指定任务。
作为优选,利用声纹识别进行用户认证具体如下:
声纹识别:用户通过按钮朗读一串具体的数字,服务机器人通过获取的语音片段提取语音特征并输入到声纹库中;根据阈值大小判断是否在声纹库中并判断是哪个用户的声纹:
若在且识别到具体用户,则启动服务功能;
若不在,则不启动服务功能;
或,
利用人脸识别进行用户认证具体如下:通过对人脸进行拍照,把提取的人脸特征与人脸特征库进行比对,根据相似度判断是哪个人:
若识别出具体用户,则启动功能服务;
若未识别出具体用户,则不启动功能服务。
作为优选,实时监测并采集用户发出的语音信号以及对话的交互逻辑控制具体如下:
离线唤醒:通过按钮或者呼叫唤醒词的方式,唤醒服务机器人,进行对话;若服务机器人检测到唤醒词,则断开当前播放的声音,并提示开始录音;
声音采集:对用户的声音进行录制采集,并把结果以文件方式保存下来,录音结束后,先提示结束录音,再把文件进行下一步的语音识别;
对采集的语音信号进行语音识别具体如下:
调用云端的语音识别模型,把语音转成文字信息;
输入一段语音片段,云端将识别的文字信息返回到服务机器人。
更优地,判断当前声音来源并控制机器人移动到说话人面前具体如下:
检测到的当前说话者的声音,判断声音来源,并计算出角度信息;
服务机器人通过导航地图信息以及获取的方向信息和距离信息,转向并向当前说话者的方向进行移动,具体如下:通过服务机器人的定位信息,计算出说话者在地图的位置信息,再通过路径规划算法A*得到规划路径信息,控制服务机器人底盘移动到说话者跟前;
通过服务机器人的超声波信号,在离当前说话者到达预设距离时,服务机器人停下,与当前说话者进行交谈并拍照做进一步的识别,此种方式得到更友好的交互体验及声音识别的更高的准确率。
作为优选,检测到的当前说话者的声音,判断声音来源,并计算出角度信息具体如下:
通过拾音设备检测到声源的方向后,服务机器人调整方向;
通过单目摄像头获取并计算出服务机器人与说话者的距离信息,并判断距离是否在阈值内:
若是,则不移动;
若否,则根据人在单目摄像头中成像的高度信息和预设比例,计算出服务机器人到说话者的实际距离,为了防止机器人离人员太近,再用实际距离减去预设距离得出服务机器人的移动距离,确保保持服务机器人与说话者之间一定的距离。
更优地,通过语音识别的文本以及当前环境的语义信息、人物的用户画像信息并结合当前对话的上下文信息,机器人做出相应的回答具体如下:
通过获取服务机器人导航地图的环境语义信息,对用户进行用户画像建模;其中,环境语境信息包括服务机器人目前所在的位置、推算出当前说话者所在的位置(厨房或卫生间)、当前的姿态或姿势、当前时间、通过第三方获取的天气状况、通过用户的历史对话记录信息以及已有的用户信息;
结合当前的对话的上下文信息,服务机器人完成用户的指令;其中,上下文信息包括当前说话者所在的位置信息、天气情况、当前的时间以及当前说话者的人物画像、年龄、性别、喜好及当前的情绪状态;比如用户要求播放一首音乐,要结合当前说话者所在的位置信息、天气情况、当前的时间;当前说话者的人物画像,年龄、性别、喜好、当前的情绪状态等;来给用户推荐一首歌曲。
一种基于多模态的服务机器人交互系统,该系统包括,
安全认证模块,用于利用声纹识别或人脸识别进行用户认证;
语音交互模块,用于实时监测并采集用户发出的语音信号以及对话的交互逻辑控制,具体是指唤醒词识别、声源定位、用户声音采集、声音合成及播放;
对话管理模块,用于对采集的语音信号进行语音识别,具体是指语言理解、对话上下文的状态信息管理、候选排序策略以及语言生成;对话管理模块包括,
技能模块,用于查天气、播放音乐及查火车票;
问答模块,用于通过语音识别的文本以及当前环境的信息并结合当前对话的上下文信息,服务机器人做出相应的回答;具体是指基于知识的问答;
任务型模块,用于多轮对话,完成具体的任务;
闲聊模块,用于聊天;
机器人移动模块,用于建图导航以及服务机器人的底盘运动控制,并判断当前声音来源并控制服务机器人移动到说话人面前。
更优地,所述机器人移动模块的工作过程具体如下:
(一)、到达新环境后,服务机器人对当前的环境做地图的构建,地图是指激光雷达和视觉的融合后的地图;
(二)、从地图中了解丰富的语义地图信息,地图信息是指每个位置的信息,哪个地方有什么东西,如门、窗、桌子在什么地方;
(三)、底盘运动控制利用驱动器对服务机器人的移动进行前后、左右、旋转的控制;
(四)、通过服务机器人的超声波信号,在离当前说话者到达预设距离时,服务机器人停下,与当前说话者进行交谈并拍照做进一步的识别;其中,预设距离获取具体如下:
(1)、通过拾音设备检测到声源的方向后,服务机器人调整方向;
(2)、通过单目摄像头获取并计算出服务机器人与说话者的距离信息,并判断距离是否在阈值内:
①、若是,则不移动;
②、若否,则根据人在单目摄像头中成像的高度信息和预设比例,计算出服务机器人到说话者的实际距离,为了防止机器人离人员太近,再用实际距离减去预设距离得出服务机器人的移动距离,确保保持服务机器人与说话者之间一定的距离。
一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序可被处理器执行以实现如上述的基于多模态的服务机器人交互方法。
本发明的基于多模态的服务机器人交互方法、系统及存储介质具有以下优点:
(一)本发明通过声源定位判断声音方向,自动移动到当前说话者面前,交互过程更自然、更亲切;
(二)本发明的服务机器人回答问题时,结合机器人导航地图的环境语义信息,通过用户的历史对话记录得到用户画像信息,以及对话的上下文信息做出回答;
(三)本发明提高了准确率,利用深度学习训练的模型,方向判定、身份证检测以及文本行的检测和识别等都有很大的提升。
附图说明
下面结合附图对本发明进一步说明。
附图1为基于多模态的服务机器人交互方法的流程框图;
附图2为基于多模态的服务机器人交互系统的结构框图。
具体实施方式
参照说明书附图和具体实施例对本发明的基于多模态的服务机器人交互方法、系统及存储介质作以下详细地说明。
实施例1:
如附图1所示,本发明的基于多模态的服务机器人交互方法,该方法具体如下:
S1、利用声纹识别或人脸识别进行用户认证;
S2、实时监测并采集用户发出的语音信号以及对话的交互逻辑控制;
S3、对采集的语音信号进行语音识别;
S4、判断当前声音来源并控制服务机器人移动到说话人面前;
S5、通过语音识别的文本以及当前环境的信息并结合当前对话的上下文信息,服务机器人做出相应的回答。
本实施例中步骤S4的服务机器人移动到说话人面前还包括如下情况:
当服务机器人有需要完成的指定任务时,则给服务机器人下发预先设定好的命令,使服务机器人完成指定任务。
本实施例中步骤S1的利用声纹识别进行用户认证具体如下:
(1)、用户通过按钮朗读一串具体的数字,服务机器人通过获取的语音片段提取语音特征并输入到声纹库中;
(2)、根据阈值大小判断是否在声纹库中并判断是哪个用户的声纹:
①、若在且识别到具体用户,则启动服务功能;
②、若不在,则不启动服务功能。
本实施例中步骤S2的实时监测并采集用户发出的语音信号以及对话的交互逻辑控制具体如下:
S201、离线唤醒:通过按钮或者呼叫唤醒词的方式,唤醒服务机器人,进行对话;若服务机器人检测到唤醒词,则断开当前播放的声音,并提示开始录音;
S202、声音采集:对用户的声音进行录制采集,并把结果以文件方式保存下来,录音结束后,先提示结束录音,再把文件进行下一步的语音识别;
本实施例中步骤S3的对采集的语音信号进行语音识别具体如下:
S301、调用云端的语音识别模型,把语音转成文字信息;
S302、输入一段语音片段,云端将识别的文字信息返回到服务机器人。
本实施例中步骤S4的判断当前声音来源并控制机器人移动到说话人面前具体如下:
S401、检测到的当前说话者的声音,判断声音来源,并计算出角度信息;具体如下:
S40101、通过拾音设备检测到声源的方向后,服务机器人调整方向;
S40102、通过单目摄像头获取并计算出服务机器人与说话者的距离信息,并判断距离是否在阈值内:
①、若是,则不移动;
②、若否,则根据人在单目摄像头中成像的高度信息和预设比例,计算出服务机器人到说话者的实际距离,为了防止机器人离人员太近,再用实际距离减去预设距离得出服务机器人的移动距离,确保保持服务机器人与说话者之间一定的距离;
S402、服务机器人通过导航地图信息以及获取的方向信息和距离信息,转向并向当前说话者的方向进行移动,具体如下:通过机器人的定位信息,可以计算出说话者在地图的位置信息,然后通过路径规划算法A*得到规划路径信息,控制机器人底盘移动到说话者跟前。
S403、通过服务机器人的超声波信号,在离当前说话者到达预设距离时,服务机器人停下,与当前说话者进行交谈并拍照做进一步的识别,此种方式得到更友好的交互体验及声音识别的更高的准确率。
本实施例中步骤S5的通过语音识别的文本以及当前环境的语义信息、人物的用户画像信息并结合当前对话的上下文信息,机器人做出相应的回答具体如下:
S501、通过获取服务机器人导航地图的环境语义信息,对用户进行用户画像建模;其中,环境语境信息包括服务机器人目前所在的位置、推算出当前说话者所在的位置(厨房或卫生间)、当前的姿态或姿势、当前时间、通过第三方获取的天气状况、通过用户的历史对话记录信息以及已有的用户信息;
S502、结合当前的对话的上下文信息,服务机器人完成用户的指令;其中,上下文信息包括当前说话者所在的位置信息、天气情况、当前的时间以及当前说话者的人物画像、年龄、性别、喜好及当前的情绪状态;比如用户要求播放一首音乐,要结合当前说话者所在的位置信息、天气情况、当前的时间;当前说话者的人物画像,年龄、性别、喜好、当前的情绪状态等;来给用户推荐一首歌曲。
实施例2:
本实施例中步骤S1的利用声纹识别进行用户认证具体如下:
通过对人脸进行拍照,把提取的人脸特征与人脸特征库进行比对,根据相似度判断是哪个人:
若识别出具体用户,则启动功能服务;
若未识别出具体用户,则不启动功能服务。
实施例3:
本实施例中基于多模态的服务机器人交互系统,该系统包括,
安全认证模块,用于利用声纹识别或人脸识别进行用户认证;
语音交互模块,用于实时监测并采集用户发出的语音信号以及对话的交互逻辑控制,具体是指唤醒词识别、声源定位、用户声音采集、声音合成及播放;
对话管理模块,用于对采集的语音信号进行语音识别,具体是指语言理解、对话上下文的状态信息管理、候选排序策略以及语言生成;其中,对话管理模块包括,
技能模块,用于查天气、播放音乐、查火车票等;
问答模块,用于通过语音识别的文本以及当前环境的信息并结合当前对话的上下文信息,服务机器人做出相应的回答;具体是指基于知识的问答,一般是某某的妻子是谁;某某的身高多高;
任务型模块,用于多轮对话,完成具体的任务。一般是如下:
用户:送水杯给小明;
机器人:请问送到哪个房间;
用户:书房;
机器人:好的;
闲聊模块,用于一般的聊天。
当问答模块接受到用户语音文本后,通过自然语言处理后对文本语义理解后,判断命中哪一个模块,完成相应的问答。
上下文信息主要是用在多轮对话中,任务型模块和闲聊模块,记录下每次对话的信息;环境信息包括时间、地点及天气。
用于某些个技能模块,如播放音乐,不同的技能用到不同的环境信息。
主要用到的用户信息:年龄、性别、喜好、情绪状态;情绪通过摄像头分析人脸获得;
比如用户要求播放一首音乐,要结合当前说话者所在的位置信息、天气情况、当前的时间;当前说话者年龄、性别、喜好、当前的情绪状态等;
机器人移动模块,用于建图导航以及服务机器人的底盘运动控制,并判断当前声音来源并控制服务机器人移动到说话人面前。
本实施例中机器人移动模块的工作过程具体如下:
(一)、到达新环境后,服务机器人对当前的环境做地图的构建,地图是指激光雷达和视觉的融合后的地图;
(二)、从地图中了解丰富的语义地图信息,地图信息是指每个位置的信息,哪个地方有什么东西,如门、窗、桌子在什么地方;
(三)、底盘运动控制利用驱动器对服务机器人的移动进行前后、左右、旋转的控制;
(四)、通过服务机器人的超声波信号,在离当前说话者到达预设距离时,服务机器人停下,与当前说话者进行交谈并拍照做进一步的识别;其中,预设距离获取具体如下:
(1)、通过拾音设备检测到声源的方向后,服务机器人调整方向;
(2)、通过单目摄像头获取并计算出服务机器人与说话者的距离信息,并判断距离是否在阈值内:
①、若是,则不移动;
②、若否,则根据人在单目摄像头中成像的高度信息和预设比例,计算出服务机器人到说话者的实际距离,为了防止机器人离人员太近,再用实际距离减去预设距离得出服务机器人的移动距离,确保保持服务机器人与说话者之间一定的距离。
实施例4:
本发明实施例还提供了一种计算机可读存储介质,其中存储有多条指令,指令由处理器加载,使处理器执行本发明任一实施例中的基于多模态的服务机器人交互方法。具体地,可以提供配有存储介质的系统或者装置,在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。
在这种情况下,从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此程序代码和存储程序代码的存储介质构成了本发明的一部分。
用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RYM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上下载程序代码。
此外,应该清楚的是,不仅可以通过执行计算机所读出的程序代码,而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作,从而实现上述实施例中任意一项实施例的功能。
此外,可以理解的是,将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中,随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作,从而实现上述实施例中任一实施例的功能。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种基于多模态的服务机器人交互方法,其特征在于,该方法具体如下:
利用声纹识别或人脸识别进行用户认证;
实时监测并采集用户发出的语音信号以及对话的交互逻辑控制;
对采集的语音信号进行语音识别;
判断当前声音来源并控制服务机器人移动到说话人面前;
通过语音识别的文本以及当前环境的信息并结合当前对话的上下文信息,服务机器人做出相应的回答。
2.根据权利要求1所述的基于多模态的服务机器人交互方法,其特征在于,服务机器人移动到说话人面前还包括如下情况:
当服务机器人有需要完成的指定任务时,则给服务机器人下发预先设定好的命令,使服务机器人完成指定任务。
3.根据权利要求1所述的基于多模态的服务机器人交互方法,其特征在于,利用声纹识别进行用户认证具体如下:
声纹识别:用户通过按钮朗读一串具体的数字,服务机器人通过获取的语音片段提取语音特征并输入到声纹库中;根据阈值大小判断是否在声纹库中并判断是哪个用户的声纹:
若在且识别到具体用户,则启动服务功能;
若不在,则不启动服务功能;
或,
利用人脸识别进行用户认证具体如下:通过对人脸进行拍照,把提取的人脸特征与人脸特征库进行比对,根据相似度判断是哪个人:
若识别出具体用户,则启动功能服务;
若未识别出具体用户,则不启动功能服务。
4.根据权利要求1所述的基于多模态的服务机器人交互方法,其特征在于,实时监测并采集用户发出的语音信号以及对话的交互逻辑控制具体如下:
离线唤醒:通过按钮或者呼叫唤醒词的方式,唤醒服务机器人,进行对话;若服务机器人检测到唤醒词,则断开当前播放的声音,并提示开始录音;
声音采集:对用户的声音进行录制采集,并把结果以文件方式保存下来,录音结束后,先提示结束录音,再把文件进行下一步的语音识别;
对采集的语音信号进行语音识别具体如下:
调用云端的语音识别模型,把语音转成文字信息;
输入一段语音片段,云端将识别的文字信息返回到服务机器人。
5.根据权利要求1-4中任一所述的基于多模态的服务机器人交互方法,其特征在于,判断当前声音来源并控制机器人移动到说话人面前具体如下:
检测到的当前说话者的声音,判断声音来源,并计算出角度信息;
服务机器人通过导航地图信息以及获取的方向信息和距离信息,转向并向当前说话者的方向进行移动,具体如下:通过服务机器人的定位信息,计算出说话者在地图的位置信息,再通过路径规划算法A*得到规划路径信息,控制服务机器人底盘移动到说话者跟前;
通过服务机器人的超声波信号,在离当前说话者到达预设距离时,服务机器人停下,与当前说话者进行交谈并拍照做进一步的识别。
6.根据权利要求5所述的基于多模态的服务机器人交互方法,其特征在于,检测到的当前说话者的声音,判断声音来源,并计算出角度信息具体如下:
通过拾音设备检测到声源的方向后,服务机器人调整方向;
通过单目摄像头获取并计算出服务机器人与说话者的距离信息,并判断距离是否在阈值内:
若是,则不移动;
若否,则根据人在单目摄像头中成像的高度信息和预设比例,计算出服务机器人到说话者的实际距离,再用实际距离减去预设距离得出服务机器人的移动距离。
7.根据权利要求2所述的基于多模态的服务机器人交互方法,其特征在于,通过语音识别的文本以及当前环境的语义信息、人物的用户画像信息并结合当前对话的上下文信息,机器人做出相应的回答具体如下:
通过获取服务机器人导航地图的环境语义信息,对用户进行用户画像建模;其中,环境语境信息包括服务机器人目前所在的位置、推算出当前说话者所在的位置、当前的姿态或姿势、当前时间、通过第三方获取的天气状况、通过用户的历史对话记录信息以及已有的用户信息;
结合当前的对话的上下文信息,服务机器人完成用户的指令;其中,上下文信息包括当前说话者所在的位置信息、天气情况、当前的时间以及当前说话者的人物画像、年龄、性别、喜好及当前的情绪状态。
8.一种基于多模态的服务机器人交互系统,其特征在于,该系统包括,
安全认证模块,用于利用声纹识别或人脸识别进行用户认证;
语音交互模块,用于实时监测并采集用户发出的语音信号以及对话的交互逻辑控制,具体是指唤醒词识别、声源定位、用户声音采集、声音合成及播放;
对话管理模块,用于对采集的语音信号进行语音识别,具体是指语言理解、对话上下文的状态信息管理、候选排序策略以及语言生成;对话管理模块包括,
技能模块,用于查天气、播放音乐及查火车票;
问答模块,用于通过语音识别的文本以及当前环境的信息并结合当前对话的上下文信息,服务机器人做出相应的回答;具体是指基于知识的问答;
任务型模块,用于多轮对话,完成具体的任务;
闲聊模块,用于聊天;
机器人移动模块,用于建图导航以及服务机器人的底盘运动控制,并判断当前声音来源并控制服务机器人移动到说话人面前。
9.根据权利要求7或8所述的基于多模态的服务机器人交互系统,其特征在于,所述机器人移动模块的工作过程具体如下:
(一)、到达新环境后,服务机器人对当前的环境做地图的构建,地图是指激光雷达和视觉的融合后的地图;
(二)、从地图中了解丰富的语义地图信息,地图信息是指每个位置的信息;
(三)、底盘运动控制利用驱动器对服务机器人的移动进行前后、左右、旋转的控制;
(四)、通过服务机器人的超声波信号,在离当前说话者到达预设距离时,服务机器人停下,与当前说话者进行交谈并拍照做进一步的识别;其中,预设距离获取具体如下:
(1)、通过拾音设备检测到声源的方向后,服务机器人调整方向;
(2)、通过单目摄像头获取并计算出服务机器人与说话者的距离信息,并判断距离是否在阈值内:
①、若是,则不移动;
②、若否,则根据人在单目摄像头中成像的高度信息和预设比例,计算出服务机器人到说话者的实际距离,再用实际距离减去预设距离得出服务机器人的移动距离。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序可被处理器执行以实现如权利要求1至7中任一所述的基于多模态的服务机器人交互方法。
CN202110562984.2A 2021-05-24 2021-05-24 基于多模态的服务机器人交互方法、系统及存储介质 Pending CN113299287A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110562984.2A CN113299287A (zh) 2021-05-24 2021-05-24 基于多模态的服务机器人交互方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110562984.2A CN113299287A (zh) 2021-05-24 2021-05-24 基于多模态的服务机器人交互方法、系统及存储介质

Publications (1)

Publication Number Publication Date
CN113299287A true CN113299287A (zh) 2021-08-24

Family

ID=77324037

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110562984.2A Pending CN113299287A (zh) 2021-05-24 2021-05-24 基于多模态的服务机器人交互方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN113299287A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114006747A (zh) * 2021-10-28 2022-02-01 平安普惠企业管理有限公司 交互安全管理方法、装置、计算机设备及可读存储介质
CN115691496A (zh) * 2022-12-29 2023-02-03 北京国安广传网络科技有限公司 基于tts的健康管理机器人语音交互模块
CN116913277A (zh) * 2023-09-06 2023-10-20 北京惠朗时代科技有限公司 基于人工智能的语音交互服务系统
CN118093835A (zh) * 2024-04-23 2024-05-28 国网山东省电力公司滨州市滨城区供电公司 基于大语言模型云服务的供电服务问答方法、系统及介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090228281A1 (en) * 2008-03-07 2009-09-10 Google Inc. Voice Recognition Grammar Selection Based on Context
CN106127156A (zh) * 2016-06-27 2016-11-16 上海元趣信息技术有限公司 基于声纹和人脸识别的机器人交互方法
CN106847285A (zh) * 2017-03-31 2017-06-13 上海思依暄机器人科技股份有限公司 一种机器人及其语音识别方法
CN106853641A (zh) * 2017-03-22 2017-06-16 北京京东尚科信息技术有限公司 机器人控制方法和装置、机器人及控制系统
CN107680593A (zh) * 2017-10-13 2018-02-09 歌尔股份有限公司 一种智能设备的语音增强方法及装置
CN109658928A (zh) * 2018-12-06 2019-04-19 山东大学 一种家庭服务机器人云端多模态对话方法、装置及系统
WO2019133694A1 (en) * 2017-12-29 2019-07-04 DMAI, Inc. System and method for intelligent initiation of a man-machine dialogue based on multi-modal sensory inputs
KR20190096862A (ko) * 2019-07-30 2019-08-20 엘지전자 주식회사 인공지능 장치를 이용한 음성 인식 기반 사용자 인증 방법 및 이를 위한 장치

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090228281A1 (en) * 2008-03-07 2009-09-10 Google Inc. Voice Recognition Grammar Selection Based on Context
CN106127156A (zh) * 2016-06-27 2016-11-16 上海元趣信息技术有限公司 基于声纹和人脸识别的机器人交互方法
CN106853641A (zh) * 2017-03-22 2017-06-16 北京京东尚科信息技术有限公司 机器人控制方法和装置、机器人及控制系统
CN106847285A (zh) * 2017-03-31 2017-06-13 上海思依暄机器人科技股份有限公司 一种机器人及其语音识别方法
CN107680593A (zh) * 2017-10-13 2018-02-09 歌尔股份有限公司 一种智能设备的语音增强方法及装置
WO2019133694A1 (en) * 2017-12-29 2019-07-04 DMAI, Inc. System and method for intelligent initiation of a man-machine dialogue based on multi-modal sensory inputs
CN109658928A (zh) * 2018-12-06 2019-04-19 山东大学 一种家庭服务机器人云端多模态对话方法、装置及系统
KR20190096862A (ko) * 2019-07-30 2019-08-20 엘지전자 주식회사 인공지능 장치를 이용한 음성 인식 기반 사용자 인증 방법 및 이를 위한 장치

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114006747A (zh) * 2021-10-28 2022-02-01 平安普惠企业管理有限公司 交互安全管理方法、装置、计算机设备及可读存储介质
CN115691496A (zh) * 2022-12-29 2023-02-03 北京国安广传网络科技有限公司 基于tts的健康管理机器人语音交互模块
CN116913277A (zh) * 2023-09-06 2023-10-20 北京惠朗时代科技有限公司 基于人工智能的语音交互服务系统
CN116913277B (zh) * 2023-09-06 2023-11-21 北京惠朗时代科技有限公司 基于人工智能的语音交互服务系统
CN118093835A (zh) * 2024-04-23 2024-05-28 国网山东省电力公司滨州市滨城区供电公司 基于大语言模型云服务的供电服务问答方法、系统及介质

Similar Documents

Publication Publication Date Title
US11017779B2 (en) System and method for speech understanding via integrated audio and visual based speech recognition
CN113299287A (zh) 基于多模态的服务机器人交互方法、系统及存储介质
US20190371318A1 (en) System and method for adaptive detection of spoken language via multiple speech models
US20220093101A1 (en) Dialog management for multiple users
US11222632B2 (en) System and method for intelligent initiation of a man-machine dialogue based on multi-modal sensory inputs
CN107818798B (zh) 客服服务质量评价方法、装置、设备及存储介质
US11017551B2 (en) System and method for identifying a point of interest based on intersecting visual trajectories
US20220101856A1 (en) System and method for disambiguating a source of sound based on detected lip movement
CN106201424B (zh) 一种信息交互方法、装置及电子设备
US8897500B2 (en) System and method for dynamic facial features for speaker recognition
CN103680497B (zh) 基于视频的语音识别系统及方法
CN108363706A (zh) 人机对话交互的方法和装置、用于人机对话交互的装置
US10785489B2 (en) System and method for visual rendering based on sparse samples with predicted motion
US20220215678A1 (en) System and method for reconstructing unoccupied 3d space
KR20190109868A (ko) 사운드 데이터를 처리하는 시스템 및 시스템의 제어 방법
US20190251350A1 (en) System and method for inferring scenes based on visual context-free grammar model
JP6633250B2 (ja) 対話ロボットおよび対話システム、並びに対話プログラム
US10755704B2 (en) Information processing apparatus
CN111199032A (zh) 身份认证的方法以及装置
CN110516083A (zh) 相册管理方法、存储介质及电子设备
US20230073265A1 (en) Information processing device and action mode setting method
EP3839719B1 (en) Computing device and method of operating the same
CN115985317A (zh) 信息处理方法、装置、车辆及存储介质
CN116189682A (zh) 文本信息显示方法、装置、电子设备及存储介质
CN117765952A (zh) 人机交互的方法、装置和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210824

RJ01 Rejection of invention patent application after publication