CN111210820B - 机器人的控制方法、装置、电子设备以及存储介质 - Google Patents

机器人的控制方法、装置、电子设备以及存储介质 Download PDF

Info

Publication number
CN111210820B
CN111210820B CN202010072075.6A CN202010072075A CN111210820B CN 111210820 B CN111210820 B CN 111210820B CN 202010072075 A CN202010072075 A CN 202010072075A CN 111210820 B CN111210820 B CN 111210820B
Authority
CN
China
Prior art keywords
robot
voice
processing mode
voice data
playing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010072075.6A
Other languages
English (en)
Other versions
CN111210820A (zh
Inventor
罗剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cloudminds Robotics Co Ltd
Original Assignee
Cloudminds Shanghai Robotics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cloudminds Shanghai Robotics Co Ltd filed Critical Cloudminds Shanghai Robotics Co Ltd
Priority to CN202010072075.6A priority Critical patent/CN111210820B/zh
Publication of CN111210820A publication Critical patent/CN111210820A/zh
Application granted granted Critical
Publication of CN111210820B publication Critical patent/CN111210820B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/34Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Manipulator (AREA)

Abstract

本发明涉及通信领域,公开了一种机器人的控制方法,包括:获取语音数据,并根据机器人当前的音频播放状态确定语音处理模式,其中,若机器人当前未播放音频,则确定语音处理模式为第一处理模式,若机器人当前在播放音频,则确定语音处理模式为第二处理模式;在第一处理模式下,对语音数据进行语音识别;在第二处理模式下,对语音数据包含的命令词进行检测,禁止对语音数据进行语音识别。本发明还公开了一种机器人的控制装置、电子设备以及存储介质。本发明提供的机器人的控制方法、装置、电子设备以及存储介质能够消除机器人自发声对人机语音交互的干扰。

Description

机器人的控制方法、装置、电子设备以及存储介质
技术领域
本发明实施例涉及通信领域,特别涉及一种机器人的控制方法、装置、电子设备以及存储介质。
背景技术
随着人工智能行业的发展,机器人与人类进行语音交互已经成为一项比较常见的技术。
目前,机器人使用语音识别技术(Automatic Speech Recognition,简称“ASR”)和人类进行语音交互,识别接收到的语音并进行语音答复。在机器人进行ASR时,会对接收到的所有声音进行识别,此时如果机器人正在进行语音答复或者播放音视频,机器人自己发出的声音的回音也会被机器人接收并识别,干扰人机语音交互。现有技术通常给机器人装配具备回音消除功能的麦克风来避免机器人自发声对人机语音交互的干扰。
然而,发明人发现相关技术中至少存在如下问题:由于给机器人装配具备回音消除功能的麦克风的成本较高,现在大部分机器人的麦克风不具备回音消除功能,这些机器人在进行人机语音交互时,仍会受到机器人自发声的干扰。
发明内容
本发明实施方式的目的在于提供一种机器人的控制方法、装置、电子设备以及存储介质,能够消除机器人自发声对人机语音交互的干扰。
为解决上述技术问题,本发明的实施方式提供了一种机器人的控制方法,包括:获取语音数据,并根据机器人当前的音频播放状态确定语音处理模式,其中,若所述机器人当前未播放音频,则确定所述语音处理模式为第一处理模式,若所述机器人当前在播放音频,则确定所述语音处理模式为第二处理模式;在所述第一处理模式下,对所述语音数据进行语音识别;在所述第二处理模式下,对所述语音数据包含的命令词进行检测,禁止对所述语音数据进行语音识别。
本发明的实时方式还提供了一种机器人的控制装置,包括:获取模块,用于获取语音数据;确定模块,用于根据机器人当前的音频播放状态确定语音处理模式,其中,若所述机器人当前未播放音频,则确定所述语音处理模式为第一处理模式,若所述机器人当前在播放音频,则确定所述语音处理模式为第二处理模式;第一处理模块,用于在所述第一处理模式下,对所述语音数据进行语音识别;第二处理模块,用于在所述第二处理模式下,对所述语音数据包含的命令词进行检测,禁止对所述语音数据进行语音识别。
本发明的实施方式还提供了一种电子设备,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述的机器人的控制方法。
本发明的实施方式还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述机器人的控制方法。
本发明实施方式相对于现有技术而言,获取语音数据,并根据机器人当前的音频播放状态确定语音处理模式,若机器人当前未播放音频,则确定语音处理模式为第一处理模式,对语音数据进行语音识别;若机器人当前在播放音频,则确定语音处理模式为第二处理模式,对语音数据包含的命令词进行检测,禁止对语音数据进行语音识别。通过在原来机器人只对语音数据进行语音识别增设第二语音处理模式,在机器人播放音频时停止语音识别并对在接收到的语音数据中检测命令词,使得机器人在播放音频时,不会因为识别到自己发出的声音执行错误的回应动作,并且仍可以通过命令词进行人机交互,从而消除了机器人自发声对人机语音交互的干扰。
另外,在所述根据机器人当前的音频播放状态确定语音处理模式之前,还包括:检测所述机器人的麦克风是否具备回音消除功能;若所述机器人的麦克风不具备回音消除功能,则再执行所述根据机器人当前的音频播放状态确定语音处理模式;若所述机器人的麦克风具备回音消除功能,则对所述语音数据进行语音识别。在机器人的麦克风具备回音消除功能的情况下,保持对语音数据进行语音识别,使得本发明实施例可以同时支持装配有具备回音消除功能的麦克风的机器人和装配不具备回音消除麦克风的机器人,一定程度上提升了对不同类型机器人的兼容性。
另外,所述对所述语音数据进行语音识别,包括:向云端服务器发送所述语音数据;接收所述云端服务器反馈的所述语音数据的识别结果。通过将语音数据上传至云端服务器进行语音识别,使得机器人的计算负担减小,无需装配语音识别模块,从而降低了机器人的制造成本。
另外,对所述语音数据进行语音识别之后,还包括:生成语音答复消息;播放所述语音答复消息。
另外,所述播放所述语音答复消息,包括:若当前机器人在进行语音播放,则停止所述语音播放并播放所述语音答复消息。通过停止语音播放并播放最新的语音答复消息,使得机器人总是能够第一时间反馈用户发出的语音数据,提升了机器人的智能化程度。
另外,所述播放所述语音答复消息,包括:若当前机器人在进行多媒体播放,则暂停所述多媒体播放并播放所述语音答复消息;播放所述语音答复消息之后,还包括:恢复所述多媒体播放。通过暂停多媒体播放并播放最新的语音答复消息,并在播放完语音答复消息后恢复多媒体播放,一方面,使得机器人在完成语音答复后用户可以继续观看多媒体内容;另一方面,使得机器人总是能够第一时间反馈用户发出的语音数据,提升了机器人的智能化程度。
另外,所述对所述语音数据包含的命令词进行检测之后,还包括:若检测到所述语音数据中包含停止命令,则将所述语音处理模式切换为第一处理模式。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定。
图1是根据本发明第一实施方式的机器人的控制方法的流程示意图;
图2是根据本发明第二实施方式的机器人的控制方法的流程示意图;
图3是根据现有技术中机器人的控制架构的结构示意图;
图4是根据本发明第三实施方式的机器人的控制方法的流程示意图;
图5是根据本发明第四实施方式的机器人的控制装置的结构示意图;
图6是根据本发明第五实施方式的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。
本发明的第一实施方式涉及一种机器人的控制方法,包括:获取语音数据,并根据机器人当前的音频播放状态确定语音处理模式,其中,若所述机器人当前未播放音频,则确定所述语音处理模式为第一处理模式,若所述机器人当前在播放音频,则确定所述语音处理模式为第二处理模式;在所述第一处理模式下,对所述语音数据进行语音识别;在所述第二处理模式下,对所述语音数据包含的命令词进行检测,禁止对所述语音数据进行语音识别。本实施方式能够消除机器人自发声对人机语音交互的干扰。下面对本实施方式的机器人的控制方法的实现细节进行具体的说明,以下内容仅为方便理解提供的实现细节,并非实施本方案的必须。
本实施方式中的机器人的控制方法如图1所示:
步骤101:获取语音数据。
具体地说,机器人通过声音采集设备(比如说麦克风)进行声音采集,将机器人接收到的声音信号转化为数字信号作为语音数据。
步骤102:判断机器人是否在进行音频播放并确定语音处理模式,如果否,进入步骤103,如果是,进入步骤104。
具体地说,判断机器人是否在进行音频播放,音频播放可以是播放音乐、播放有声视频或者是播放语音消息等。如果机器人未在进行音频播放,确定语音处理模式为第一处理模式,进入步骤103;如果机器人在进行音频播放,确定语音处理模式为第二处理模式,进入步骤104。
步骤103:语音处理模式为第一处理模式,对所述语音数据进行语音识别。
具体地说,在第一处理模式下,机器人对语音数据进行语音识别。由于机器人此时未进行音频播放,因此机器人在进行语音识别时不会受到自发声的干扰。
值得一提的是,在本步骤中,机器人对语音数据进行语音识别,可以包括:向云端服务器发送所述语音数据;接收所述云端服务器反馈的所述语音数据的识别结果。机器人可以借助云端服务器进行语音识别。通过将语音数据上传至云端服务器进行语音识别,使得机器人的计算负担减小,无需装配语音识别模块,从而降低了机器人的制造成本。
步骤104:语音处理模式为第二处理模式,对所述语音数据包含的命令词进行检测,禁止对所述语音数据进行语音识别。
具体地说,在第二处理模式下,机器人对语音数据包含的命令词进行检测,并禁止对语音数据进行语音识别。由于机器人此时正在进行音频播放,因此机器人如果进行语音识别会受到自己发生的声音的干扰,而如果不进行语音识别又无法达到人机语音交互的目的。在本步骤中,预设命令词(每个命令词对应一个动作),让机器人检测语音数据中的命令词并禁止机器人进行语音识别,由于命令词是预设的、特定的,机器人如果没有检测到特定的命令词就不会改变当前的控制状态,在这种情况下,机器人自己发出的声音中包含命令词的概率极低,机器人就可以规避自己发出的声音对自身控制状态产生的干扰。
进一步说,预设的命令词词库可以保存在机器人携带的存储器中,如此设置,一方面,当机器人进行命令词识别时,机器人可以是离线状态,即可识别出语音数据中包含的命令词;另一方面,由于机器人可以从自身存储器调取命令词词库并对语音数据进行检测是否包含预设的命令词,无需借助网络或其他设备,检测速度快。
需要说明的是,每个命令词对应一个动作,机器人在检测到命令词后会执行该命令词对应的动作。在一个例子中,预设的命令词包括“停止”命令,机器人若检测到所述语音数据中包含“停止”命令,则将所述语音处理模式切换为第一处理模式。
与现有技术相比,本发明实施方式获取语音数据,并根据机器人当前的音频播放状态确定语音处理模式,若机器人当前未播放音频,则确定语音处理模式为第一处理模式,对语音数据进行语音识别;若机器人当前在播放音频,则确定语音处理模式为第二处理模式,对语音数据包含的命令词进行检测,禁止对语音数据进行语音识别。通过在原来机器人只对语音数据进行语音识别增设第二语音处理模式,在机器人播放音频时停止语音识别并对在接收到的语音数据中检测命令词,使得机器人在播放音频时,不会因为识别到自己发出的声音执行错误的回应动作,并且仍可以通过命令词进行人机交互,从而消除了机器人自发声对人机语音交互的干扰。
本发明的第二实施方式涉及一种机器人的控制方法。第二实施方式在第一实施方式的基础上做了进一步改进,主要改进之处在于:在判断机器人是否在进行语音播放并确定语音处理模式这一步骤之前,还包括:检测机器人的麦克风是否具备回音消除功能;若机器人的麦克风不具备回音消除功能,则再执行根据机器人当前的音频播放状态确定语音处理模式;若机器人的麦克风具备回音消除功能,则对语音数据进行语音识别。
本实施方式中的机器人的控制方法如图2所示,包括:
步骤201:获取语音数据。
步骤201与第一实施方式中步骤101大致相同,为避免重复,此处不再赘述。
步骤202:判断机器人的麦克风是否具备回音消除功能,如果是,进入步骤203,如果否,进入步骤204。
步骤203:对所述语音数据进行语音识别。
具体地说,获取机器人的麦克风信息,并确定机器人的麦克风是否具备回音消除功能,如果是,则说明该机器人能够通过麦克风的回音消除功能,消除自身发出的声音的回音,从而避免自身发出的声音对人机语音交互的干扰,就无需根据机器人的音频播放状态确定语音处理模式,机器人可以保持对语音数据进行语音识别;如果否,则说明该机器人需要根据音频播放状态确定语音处理模式。
需要说明的是,在本实施方式中,步骤201即获取语音数据的步骤,与步骤202即判断机器人的麦克风是否具备回音消除功能的步骤之间并不限定先后关系,在实际应用中还可以先执行步骤202(先确定麦克风是否具备回音消除功能,再决定对后获取的语音数据的处理方式),再执行步骤201(后获取语音数据)。
步骤204:判断机器人是否在进行语音播放并确定语音处理模式,如果否,进入步骤205,如果是,进入步骤206。
步骤205:语音处理模式为第一处理模式,对所述语音数据进行语音识别。
步骤206:语音处理模式为第二处理模式,对所述语音数据包含的命令词进行检测,禁止对所述语音数据进行语音识别。
步骤204至步骤206分别与第一实施方式中步骤102至步骤104大致相同,为避免重复,在此不再一一赘述。
需要说明的是,现有技术中常见的机器人的控制架构如图3所示,每个机器人(Robot)本体包括机器人控制器单元(Robot Control Unit,简称“RCU”)、中央控制单元CCU(Central Control Unit,简称“CCU”)和机器人本体硬件。机器人通过一个通用标准化的RCU设备接入安全网络,并与云端服务器连接,RCU设备还连接中央控制单元(CCU)和机器人本体。机器人通过RCU设备与人类进行交互。CCU是作为机器人本体上中央处理器,主要功能包括但不限于对接入的多种机器人传感器驱动以及对环境数据的采集,本体肢体运动控制,移动定位导航,视觉前端的处理,多源媒体数据处理等。RCU作为一个标准化的硬件终端,可以安装在不同机器人本体上。由于不同机器人的硬件会有差异,因此RCU要实现支持不同类型的机器人有一定难度。而若RCU采用本实施方式中的机器人的控制方法,即可以在语音处理的控制上同时支持装配有具备回音消除功能的麦克风的机器人和装配不具备回音消除麦克风的机器人,从而提升RCU对不同类型机器人的兼容性。
与第一实施方式相比,本实施方式中,在根据机器人音频播放状态之前,还判断机器人的麦克风是否具备回音消除功能,并在机器人的麦克风不具备回音消除功能的情况下再根据机器人音频播放状态确定语音处理模式,使得本实施方式可以同时支持装配有具备回音消除功能的麦克风的机器人和装配不具备回音消除麦克风的机器人,一定程度上提升了本发明对不同类型机器人的兼容性。
本发明的第三实施方式涉及一种机器人的控制方法。第三实施方式是第一实施方式的进一步改进,主要改进之处在于:在语音处理模式为第一处理模式,对所述语音数据进行语音识别这一步骤之后,还包括:生成语音答复消息,播放所述语音答复消息。
本实施方式中的机器人的控制方法如图4所示,包括:
步骤301:获取语音数据。
步骤302:判断机器人是否在进行语音播放并确定语音处理模式,如果否,进入步骤303,如果是,进入步骤304。
步骤303:语音处理模式为第一处理模式,对所述语音数据进行语音识别。
步骤304:语音处理模式为第二处理模式,对所述语音数据包含的命令词进行检测,禁止对所述语音数据进行语音识别。
步骤301至步骤304分别与第一实施方式中步骤101至步骤104大致相同,为避免重复,在此不再一一赘述。
步骤305:生成语音答复消息、播放所述语音答复消息。
具体地说,机器人在对语音数据进行语音识别后,通过生成语音答复消息并播放所述语音答复消息(Text To Speech,简称“TTS”)来进行人机交互。其中,具体生成的语音答复内容根据语音识别的结果确定。
值得一提的是,当机器人生成语音答复消息,准备播放所述语音答复消息时,如果当前机器人正在进行语音播放(可以是上一次接收语音数据后进行的语音答复),则停止所述语音播放并播放所述语音答复消息。通过停止语音播放并播放最新的语音答复消息,使得机器人总是能够第一时间反馈用户发出的语音数据,提升了机器人的智能化程度。
类似的,当机器人生成语音答复消息,准备播放所述语音答复消息时,如果当前机器人正在进行多媒体播放(可以包括音频播放和视频播放),则暂停所述多媒体播放并播放所述语音答复消息,并在播放完语音答复消息后,恢复多媒体播放。通过暂停多媒体播放并播放最新的语音答复消息,并在播放完语音答复消息后恢复多媒体播放,使得机器人在完成语音答复后用户可以继续观看多媒体内容,从而提升了机器人的智能化程度。
需要说明的是,在本实施方式步骤305中在对语音数据进行语音识别后执行的动作,同样适用于第二实施方式中步骤203(对于麦克风具备回音消除的机器人,对语音数据进行语音识别),机器人完成语音识别之后。
与现有技术相比,本实施方式中,获取语音数据,并根据机器人当前的音频播放状态确定语音处理模式,若机器人当前未播放音频,则确定语音处理模式为第一处理模式,对语音数据进行语音识别;若机器人当前在播放音频,则确定语音处理模式为第二处理模式,对语音数据包含的命令词进行检测,禁止对语音数据进行语音识别。通过在原来机器人只对语音数据进行语音识别增设第二语音处理模式,在机器人播放音频时停止语音识别并对在接收到的语音数据中检测命令词,使得机器人在播放音频时,不会因为识别到自己发出的声音执行错误的回应动作,并且仍可以通过命令词进行人机交互,从而消除了机器人自发声对人机语音交互的干扰。
上面各种方法的步骤划分,只是为了描述清楚,实现时可以合并为一个步骤或者对某些步骤进行拆分,分解为多个步骤,只要包括相同的逻辑关系,都在本专利的保护范围内;对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计,但不改变其算法和流程的核心设计都在该专利的保护范围内。
本发明第四实施方式涉及一种机器人的控制装置,包括获取模块401、确定模块402、第一处理模块403和第二处理模块404,具体结构如图5所示:
获取模块401,用于获取语音数据;
确定模块402,用于根据机器人当前的音频播放状态确定语音处理模式,其中,若所述机器人当前未播放音频,则确定所述语音处理模式为第一处理模式,若所述机器人当前在播放音频,则确定所述语音处理模式为第二处理模式;
第一处理模块403,用于在所述第一处理模式下,对所述语音数据进行语音识别;
第二处理模块404,用于在所述第二处理模式下,对所述语音数据包含的命令词进行检测,禁止对所述语音数据进行语音识别。
在一个例子中,该机器人的控制装置还包括检测模块,用于在所述根据机器人当前的音频播放状态确定语音处理模式之前,检测所述机器人的麦克风是否具备回音消除功能;若所述机器人的麦克风不具备回音消除功能,则确定模块402再执行所述根据机器人当前的音频播放状态确定语音处理模式;若所述机器人的麦克风具备回音消除功能,则第一处理模块403对所述语音数据进行语音识别。
在一个例子中,第一处理模块403具体用于向云端服务器发送所述语音数据;接收所述云端服务器反馈的所述语音数据的识别结果。
在一个例子中,该机器人的控制装置还包括答复模块,用于在第一处理模块403对语音数据进行语音识别后,生成语音答复消息;播放所述语音答复消息。
在一个例子中,答复模块具体用于在机器人进行语音播放时,停止所述语音播放并播放所述语音答复消息。
在一个例子中,答复模块具体用于在机器人在进行多媒体播放时,暂停所述多媒体播放并播放所述语音答复消息;播放所述语音答复消息之后,还用于恢复所述多媒体播放。
在一个例子中,第二处理模块404还用于在检测到所述语音数据中包含停止命令时,将所述语音处理模式切换为第一处理模式。
不难发现,本实施方式为与第一实施方式相对应的装置实施例,本实施方式可与第一实施方式互相配合实施。第一实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在第一实施方式中。
值得一提的是,本实施方式中所涉及到的各模块均为逻辑模块,在实际应用中,一个逻辑单元可以是一个物理单元,也可以是一个物理单元的一部分,还可以以多个物理单元的组合实现。此外,为了突出本发明的创新部分,本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入,但这并不表明本实施方式中不存在其它的单元。
本发明第五实施方式涉及一种电子设备,如图6所示,包括至少一个处理器501;以及,与至少一个处理器501通信连接的存储器502;其中,存储器502存储有可被至少一个处理器501执行的指令,指令被至少一个处理器501执行,以使至少一个处理器501能够执行上述任一方法实施方式中的机器人的控制方法。
其中,存储器502和处理器501采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器501和存储器502的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器501处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器501。
处理器501负责管理总线和通常的处理,还可以提供各种功能,包括定时、外围接口、电压调节、电源管理以及其他控制功能。而存储器502可以被用于存储处理器501在执行操作时所使用的数据。
本发明的实施方式还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述任一方法实施方式中的机器人的控制方法。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域的普通技术人员可以理解,上述各实施方式是实现本发明的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。

Claims (9)

1.一种机器人的控制方法,其特征在于,包括:
获取语音数据,并根据机器人当前的音频播放状态确定语音处理模式,其中,若所述机器人当前未播放音频,则确定所述语音处理模式为第一处理模式,若所述机器人当前在播放音频,则确定所述语音处理模式为第二处理模式;
在所述第一处理模式下,对所述语音数据进行语音识别;
在所述第二处理模式下,对所述语音数据包含的命令词进行检测,禁止对所述语音数据进行语音识别;
其中,在所述根据机器人当前的音频播放状态确定语音处理模式之前,还包括:
检测所述机器人的麦克风是否具备回音消除功能;
若所述机器人的麦克风不具备回音消除功能,则再执行所述根据机器人当前的音频播放状态确定语音处理模式;
若所述机器人的麦克风具备回音消除功能,则对所述语音数据进行语音识别。
2.根据权利要求1所述的机器人的控制方法,其特征在于,所述对所述语音数据进行语音识别,包括:
向云端服务器发送所述语音数据;
接收所述云端服务器反馈的所述语音数据的识别结果。
3.根据权利要求1所述的机器人的控制方法,其特征在于,对所述语音数据进行语音识别之后,还包括:
生成语音答复消息;
播放所述语音答复消息。
4.根据权利要求3所述的机器人的控制方法,其特征在于,所述播放所述语音答复消息,包括:
若当前机器人在进行语音播放,则停止所述语音播放并播放所述语音答复消息。
5.根据权利要求3所述的机器人的控制方法,其特征在于,所述播放所述语音答复消息,包括:
若当前机器人在进行多媒体播放,则暂停所述多媒体播放并播放所述语音答复消息;
播放所述语音答复消息之后,还包括:
恢复所述多媒体播放。
6.根据权利要求1所述的机器人的控制方法,其特征在于,所述对所述语音数据包含的命令词进行检测之后,还包括:
若检测到所述语音数据中包含停止命令,则将所述语音处理模式切换为第一处理模式。
7.一种机器人的控制装置,其特征在于,包括:
获取模块,用于获取语音数据;
确定模块,用于根据机器人当前的音频播放状态确定语音处理模式,其中,若所述机器人当前未播放音频,则确定所述语音处理模式为第一处理模式,若所述机器人当前在播放音频,则确定所述语音处理模式为第二处理模式;
第一处理模块,用于在所述第一处理模式下,对所述语音数据进行语音识别;
第二处理模块,用于在所述第二处理模式下,对所述语音数据包含的命令词进行检测,禁止对所述语音数据进行语音识别;
其中,所述机器人的控制装置还包括检测模块,用于在所述根据机器人当前的音频播放状态确定语音处理模式之前,检测所述机器人的麦克风是否具备回音消除功能;
若所述机器人的麦克风不具备回音消除功能,则所述确定模块再执行所述根据机器人当前的音频播放状态确定语音处理模式;
若所述机器人的麦克风具备回音消除功能,则所述第一处理模块对所述语音数据进行语音识别。
8.一种电子设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至6中任一项所述的机器人的控制方法。
9.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的机器人的控制方法。
CN202010072075.6A 2020-01-21 2020-01-21 机器人的控制方法、装置、电子设备以及存储介质 Active CN111210820B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010072075.6A CN111210820B (zh) 2020-01-21 2020-01-21 机器人的控制方法、装置、电子设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010072075.6A CN111210820B (zh) 2020-01-21 2020-01-21 机器人的控制方法、装置、电子设备以及存储介质

Publications (2)

Publication Number Publication Date
CN111210820A CN111210820A (zh) 2020-05-29
CN111210820B true CN111210820B (zh) 2022-11-18

Family

ID=70789888

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010072075.6A Active CN111210820B (zh) 2020-01-21 2020-01-21 机器人的控制方法、装置、电子设备以及存储介质

Country Status (1)

Country Link
CN (1) CN111210820B (zh)

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105138110A (zh) * 2014-05-29 2015-12-09 中兴通讯股份有限公司 语音交互方法及装置
US10325591B1 (en) * 2014-09-05 2019-06-18 Amazon Technologies, Inc. Identifying and suppressing interfering audio content
CN105049591A (zh) * 2015-05-26 2015-11-11 腾讯科技(深圳)有限公司 处理来电的方法和装置
CN106098074A (zh) * 2016-05-20 2016-11-09 北京奇虎科技有限公司 一种数据处理方法和便携式多功能设备
US20180166073A1 (en) * 2016-12-13 2018-06-14 Ford Global Technologies, Llc Speech Recognition Without Interrupting The Playback Audio
CN106910500B (zh) * 2016-12-23 2020-04-17 北京小鸟听听科技有限公司 对带麦克风阵列的设备进行语音控制的方法及设备
CN108520742A (zh) * 2018-01-24 2018-09-11 联发科技(新加坡)私人有限公司 提高语音识别率的方法、语音识别装置和播放装置
CN109712623A (zh) * 2018-12-29 2019-05-03 Tcl通力电子(惠州)有限公司 语音控制方法、装置及计算机可读存储介质
CN113990309A (zh) * 2019-04-09 2022-01-28 百度国际科技(深圳)有限公司 语音识别方法及装置

Also Published As

Publication number Publication date
CN111210820A (zh) 2020-05-29

Similar Documents

Publication Publication Date Title
US11822857B2 (en) Architecture for a hub configured to control a second device while a connection to a remote system is unavailable
CN107591151B (zh) 远场语音唤醒方法、装置和终端设备
CN106910500B (zh) 对带麦克风阵列的设备进行语音控制的方法及设备
US20060195323A1 (en) Distributed speech recognition system
EP4084434A1 (en) Server-side processing method and server for actively initiating conversation, and voice interaction system capable of actively initiating conversation
US7689424B2 (en) Distributed speech recognition method
JP2016080750A (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
CN109949801A (zh) 一种基于耳机的智能家居设备语音控制方法及系统
CN109389978A (zh) 一种语音识别方法及装置
CN111210820B (zh) 机器人的控制方法、装置、电子设备以及存储介质
EP3923271A3 (en) Voice control method, vehicle, server and storage medium
US20220269479A1 (en) Audio presentation of conversation threads
CN110035346A (zh) 蓝牙耳机的通信方法、装置、蓝牙耳机及存储介质
CN113271491B (zh) 电子装置以及播放控制方法
CN211484452U (zh) 一种自移动清洁机器人
CN111145752B (zh) 智能音频装置、方法、电子设备及计算机可读介质
US11367429B2 (en) Road map for audio presentation of communications
JP6275606B2 (ja) 音声区間検出システム、音声始端検出装置、音声終端検出装置、音声区間検出方法、音声始端検出方法、音声終端検出方法およびプログラム
CN110111816B (zh) 录制音频的方法、音频处理的方法、电子设备和服务端
JP5770233B2 (ja) 制御装置、制御装置の制御方法、および、制御プログラム
US20210304731A1 (en) Control device for electronic apparatus, non-transitory computer-readable medium, control method, and electronic apparatus
CN112735451B (zh) 一种基于循环神经网络的调度音频码率切换方法、电子设备、存储介质
TWI718513B (zh) 電子裝置與語音辨識切換方法
WO2018207483A1 (ja) 情報処理装置、電子機器、制御方法、および制御プログラム
CN115273844A (zh) 用于唤醒语音设备的方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210207

Address after: 200245 2nd floor, building 2, no.1508, Kunyang Road, Minhang District, Shanghai

Applicant after: Dalu Robot Co.,Ltd.

Address before: 518000 Room 201, building A, No. 1, Qian Wan Road, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong (Shenzhen Qianhai business secretary Co., Ltd.)

Applicant before: CLOUDMINDS (SHENZHEN) ROBOTICS SYSTEMS Co.,Ltd.

CB02 Change of applicant information
CB02 Change of applicant information

Address after: 200245 Building 8, No. 207, Zhongqing Road, Minhang District, Shanghai

Applicant after: Dayu robot Co.,Ltd.

Address before: 200245 2nd floor, building 2, no.1508, Kunyang Road, Minhang District, Shanghai

Applicant before: Dalu Robot Co.,Ltd.

GR01 Patent grant
GR01 Patent grant