CN109249386B - 语音对话机器人及语音对话系统 - Google Patents
语音对话机器人及语音对话系统 Download PDFInfo
- Publication number
- CN109249386B CN109249386B CN201810382823.3A CN201810382823A CN109249386B CN 109249386 B CN109249386 B CN 109249386B CN 201810382823 A CN201810382823 A CN 201810382823A CN 109249386 B CN109249386 B CN 109249386B
- Authority
- CN
- China
- Prior art keywords
- unit
- movable
- origin
- robot
- movement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000033001 locomotion Effects 0.000 claims abstract description 68
- 238000000034 method Methods 0.000 claims description 48
- 238000004891 communication Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 description 39
- 230000006870 function Effects 0.000 description 18
- 230000009471 action Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 230000004886 head movement Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000004886 process control Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1602—Programme controls characterised by the control system, structure, architecture
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J11/00—Manipulators not otherwise provided for
- B25J11/0005—Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J19/00—Accessories fitted to manipulators, e.g. for monitoring, for viewing; Safety devices combined with or specially adapted for use in connection with manipulators
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1602—Programme controls characterised by the control system, structure, architecture
- B25J9/161—Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1679—Programme controls characterised by the tasks executed
- B25J9/1689—Teleoperation
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1694—Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
- B25J9/1697—Vision controlled systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/39—Robotics, robotics to robotics hand
- G05B2219/39441—Voice command, camera detects object, grasp, move
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Automation & Control Theory (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Manipulator (AREA)
Abstract
一种与用户进行语言对话的语言对话机器人,配备有:本体;可动部,所述可动部相对于所述本体能够相对移动;跟踪控制部,所述跟踪控制部使所述可动部移动,以使所述可动部跟踪所述用户;临时原点设定部,所述临时原点设定部根据由所述跟踪控制部引起的所述可动部的移动,设定所述可动部的临时原点;取得部,所述取得部取得所述可动部的动作指示;以及动作实施部,所述动作实施部以所述临时原点为基准,根据所述动作指示使所述可动部移动。
Description
技术领域
本发明涉及语音对话机器人及语音对话系统。
背景技术
语音对话机器人和智能手机等控制计算机协同动作的语音对话系统正在被人们所使用。在这种系统中,语音对话机器人被用作与用户的界面装置,智能手机或者智能手机所依赖的服务器装置进行语音识别处理或者响应语句制作处理。并且,智能手机对机器人终端进行话语指示。
这时,也存在着对机器人终端指示与话语内容相应的动作的情况。例如,一般认为在由智能手机使机器人发出“您好”的语言时,是指示机器人进行问候动作(例如,上下点头动作)。在有的情况下,这样的动作指示由以机器人本体为基准的坐标系中的移动方向、距离来指定。
另外,在与用户进行语音对话的语音对话机器人中,有的情况下,具有使机器人的脸朝向用户所在的方向的跟踪功能。例如,已知有使脸朝向用户的声音发出的方向的说话者跟踪功能、以及使机器人的脸朝向在摄影图像中检测出用户的脸的方向的人脸跟踪功能(专利文献1、2)。
在使语音对话机器人和智能手机等控制计算机协同动作的系统中,还存在着对用户的跟踪处理不是利于智能手机来进行而是在语音对话机器人内进行的情况。
现有技术文献
专利文献
专利文献1:日本特开2016-68197号公报
专利文献2:日本特开2008-87140号公报
发明内容
在语音对话机器人自己进行对用户的跟踪处理、不将动作状况通知控制计算机的情况下,不能由控制计算机来掌握语音对话机器人的动作状况。从而,当由控制计算机以初始位置为基准发出动作指示时,产生机器人的动作会偏离本来意图的动作的问题。
本发明的目的在于,在内部进行跟踪用户使可动部移动的处理的语音对话机器人中,即使在接收到来自未掌握可动部的动作状况的外部装置的动作指示的情况下,也能够恰当地实施被指示的动作。
本发明的一种方式是一种与用户进行语音对话的语音对话机器人,其特征在于,配备有:
本体;
可动部,所述可动部能够相对于所述本体相对地移动;
跟踪控制部,所述跟踪控制部使所述可动部移动,以使所述可动部跟踪用户;
临时原点设定部,所述临时原点设定部根据由所述跟踪控制部引起的所述可动部的移动,设定所述可动部的临时原点;
取得部,所述取得部取得所述可动部的动作指示;以及
动作实施部,所述动作实施部以所述临时原点为基准,根据所述动作指示使所述可动部移动。
本方式中的可动部也可以是任意的,但是,例如,在机器人是模仿人或者动物的机器人的情况下,可动部可以是头、手、足中的至少任一个。对于可动部的动作没有特定的限制,可以是旋转动作、直线动作或者它们的组合。另外,可动部的动作的自由度可以是一个自由度也可以是多个自由度。
在本方式中,也可以通过指定自预先确定的原点(零点)的移动量来控制可动部。该原点例如是可动部位于初始位置时的马达原点。本方式中的动作实施部也可以指定如下的移动量来使可动部移动,所述移动量是在通过动作指示而被指定的移动量上加上原点与临时原点的差量而得到的移动量。
这样,在本方式中,在可动部被跟踪控制部移动了的情况下,以临时原点为基准进行通过动作指示而被指定的动作。从而,即使是没有考虑可动部的状况的动作指示,也可以进行恰当的动作。
本方式中的跟踪控制部也可以使可动部移动,以使可动部朝向用户的方向。例如,也可以控制成使得可动部朝向用户的话语(语音)的到来方向,或者控制成使得可动部朝向摄影图像中的用户的脸的检出方向。本方式中的临时原点设定部也可以将由跟踪控制部使所述可动部移动后的位置设定为临时原点。
这里,当将通过跟踪控制而使可动部移动了时的位置设定为马达临时原点时,产生以临时原点为基准的动作会超过可动部的可动范围的情况。
为了应对这样的问题,可以调整临时原点的位置,以便使得由动作指示所指示的动作(设想的动作)落入可动范围。也可以在机器人中只设定一个这样的临时原点,以使得设想的全部动作落入可动范围。或者,对于每个设想的动作,分别设定临时原点,以便各个动作落入可动范围。
代替由跟踪处理控制部在可动部移动了时进行临时原点的设定,也可以在动作指示的取得之后进行临时原点的设定。在这种情况下,在即使以可动部的当前位置(由跟踪控制部引起的移动之后的位置)为基准实施由动作指示所指示的动作、也不会超过可动部的可动范围的情况下,所述临时原点设定部将当前位置设定为临时原点。另一方面,在当以当前位置为基准实施由动作指示所指示的动作时、会超过可动部的可动范围的情况下,临时原点设定部设定临时原点,以使得被指示的动作落入可动范围。
或者,临时原点也可以始终是由跟踪控制部使所述可动部移动后的位置。另外,在当以这样的临时原点为基准时,当前由动作指示所指示的动作超出可动范围的情况下,也可以暂时变更原点。例如,也可以暂时设定所指示的动作落入可动范围的第二原点,以该第二原点为基准进行所指示的动作。
在本方式中,在动作实施部基于动作指示而使可动部移动的期间,跟踪控制部优选不进行跟踪动作。这是因为,当进行跟踪动作时,变得不能恰当地进行所指示的动作。
本发明的第二种方式是一种语音对话系统,所述语音对话系统包括上述语音对话机器人和控制装置。控制装置配备有动作指示发送部,所述动作指示发送部通过无线电通信与语音对话机器人连接,对语音对话机器人发送所述动作指示。这里,控制装置也可以是不检测语音对话机器人的可动部的动作状况(例如,由跟踪控制部进行的移动)的装置。
另外,本发明也可以理解为配备有上述手段中的至少一部分的语音对话机器人或者语音对话系统。另外,本发明也可以理解为实施上述处理中的至少一部分的语音对话机器人的控制方法。另外,本发明也可以理解为在计算机中实施该方法用的计算机程序、或者可以理解为非暂时地存储了该计算机程序的计算机可读存储介质。各个上述手段以及处理可以进行的任何可能的相互组合以构成本发明。
根据本发明,在内部进行跟踪用户使可动部移动的处理的语音对话机器人中,即使在接收到来自于不掌握可动部的动作状况的外部装置的动作指示的情况下,也能够恰当地实施所指示的动作。
附图说明
图1是表示根据实施方式的语音对话系统的系统结构的图。
图2(A)~图2(D)是表示语音对话机器人的外观的图。
图3是表示根据实施方式的语音对话机器人的功能结构的图。
图4(A)以及图4(B)是表示由语音对话机器人进行的跟踪处理以及临时原点设定处理的流程的流程图。
图5(A)以及图5(B)是说明临时原点设定处理的图。
图6(A)以及图6(B)是说明临时原点设定处理的图。
图7是表示接收动作指示时的可动部控制处理的流程的流程图。
图8是表示接收动作指示时的可动部控制处理的流程的流程图。
图9(A)~图9(D)是说明在内部进行跟踪处理的语音对话机器人从不掌握可动部的动作状况的外部装置接收了动作指示的情况下的问题的图。
具体实施方式
下面,参照附图,示例性地详细说明本发明的优选的实施方式。
<概要>
图1是表示根据本实施方式的语音对话系统的系统结构的图。如图1所示,本实施方式的语音对话系统由相互通过无线通信连接起来的机器人(语音对话机器人)100、智能手机110、语言识别服务器200、对话服务器300构成。机器人100和智能手机110之间的通信可以采用蓝牙(注册商标)。智能手机100和语言识别服务器200以及对话服务器300之间的通信可以是便携式电话通信(LTE等),也可以是Wi-Fi,或者还可以是有线通信。
在本实施方式中,机器人100被用作具有麦克风以及扬声器的前端用户界面装置,输入到机器人100中的用户语音被输送给智能手机110。智能手机110利用语音识别服务器200进行语音识别处理,利用对话服务器300进行对话语句(响应语句)的生成。智能手机110将通过语音合成处理生成的对话语句的语音数据发送给机器人100,机器人100由扬声器对接收到的语音数据进行再生。通过反复进行该处理,进行用户与语音对话系统之间的对话。由于这种将处理分散化了的语音对话系统本身是公知的,所以,省略对于各个结构及处理的详细说明。
图2(A)表示机器人100的外观的概要。机器人100具有身体(本体)10及头部20。如图2(B)所示,头部20能够借助马达30相对于身体10相对旋转地构成。在本实施方式中,头部20通过具有两个自由度的关节体与身体10连接,能够进行图2(C)及图2(D)所示的旋转(摆头以及俯仰)。为了驱动关节以及取得关节的状态,采用伺服马达作为马达30。
机器人100也可以构成为,除了头部20之外,手或足等也可以移动,但是,在本说明书中,按照只有头部20能够移动进行说明。
本实施方式中的机器人100的语音输出处理或姿势控制处理(头部的移动控制处理),原则上,借助来自于智能手机110的指示来进行。但是,机器人100在内部自主地实施使头部朝向对话中的用户的方向的跟踪处理。这里,由跟踪处理导致的头部20的位置或状态不被通知给智能手机110。从而,存在着智能手机110不能掌握由跟踪处理导致的头部20的姿势,当从智能手机110发出机器人100的姿势控制命令时,机器人100的姿势不能恰当地动作的担忧。
在本实施方式中,从智能手机110对机器人100的动作指示以机器人100的坐标原点作为基准。从而,当通过跟踪功能而使机器人100的头部20从初始位置朝向不同的方向时,来自于智能手机110的动作指示不像打算的那样地动作。例如,即使当动作指示是希望进行以当前的头部的朝向为中心的摆头动作,但是,由于摆头动作变成以初始位置为中心的动作,所以,当通过跟踪处理而使头部从初始位置被移动到不同的位置时,在该处的摆头动作变得不能进行。
图9(A)表示机器人100与用户500面对面的状态。如图9(B)所示,当用户500移动时,机器人100通过跟踪处理而改变头部的朝向,使得头部(脸)与用户500面对面。在该状态下,当从智能手机110接收进行±20度的摆头动作的动作指示时,本来,无论如图9(C)所示进行从当前的状态起的摆头动作91是否恰当,都会不恰当地如图9(D)所示进行以原点90为基准的摆头动作92。
<结构>
在本实施方式中,为了解决这样的问题,使机器人100具有下面所述的功能。
图3表示在机器人100的结构之中主要与可动部(头部20)的动作有关的功能部。如图3所示,机器人100配备有:扬声器101、麦克风102、说话者跟踪部103、照相机104、人脸跟踪部105、临时原点设定部106、动作指示接收部107、动作指示实施部108、可动部控制部109。机器人100是包含有微处理器等运算装置、存储器等存储部、通信装置等的计算机,通过运算装置执行程序,实现说话者跟踪部103、人脸跟踪部105、临时原点设定部106、动作指示接收部107、动作指示实施部108、可动部控制部109的功能。它们中的一部分或者全部功能也可以用专用的电路来实现。
扬声器101输出从智能手机110接收的语音数据。麦克风102取得用户的说话语音。麦克风102将语音的模拟数据A/D变换成数字数据。数字语音数据通过通信被发送给智能手机110,并且,被输入到说话者跟踪部103。
说话者跟踪部(跟踪控制部)103根据向麦克风102输入的语音数据确定说话者的方向。说话者跟踪部103也可以将人的声音发出的方向确定为说话者的方向,在可以确定具体的说话者的情况下,也可以将具有特定的声纹的声音发出的方向确定为说话者的方向。说话者跟踪部103指示可动部控制部109,使头部20朝向被确定的说话者方向。
照相机104拍摄机器人100的周围的图像。由照相机104拍摄的图像数据通过通信被发送给智能手机110,并且,被输入给人脸跟踪部105。
人脸跟踪部(跟踪控制部)105从照相机104的拍摄图像数据中检测出人脸。人脸跟踪部105可以利用检测一般的人脸的人脸检测技术来检测用户的脸,在可以确定具体的说话者的情况下,利用检测特定的人脸的人脸检测技术(人脸核对技术)检测用户的脸。人脸跟踪部105指示可动部控制部109,以便将图像中人脸的位置相对于对于机器人变换成相对的位置,使头部20朝向该方向。
临时原点设定部106设定马达30的临时原点。在马达30中设定原点(也称为零点),以该原点为基准进行控制。在本实施方式中,为了移动头部20而采用两个马达30,对这两个马达30分别设置原点。原点是头部20相对于身体10在初始位置(典型地,头部20面向正面的状态)时的马达位置。临时原点设定部106,在头部20的朝向被说话者跟踪部103或人脸跟踪部105改变了的情况下,设定各个马达30的暂时的原点(临时原点)。即使在马达30中设定临时原点,原点也不被改变。
对于临时原点设定部106如何设定临时原点,在采用流程图的后面所述的说明中进行详细地描述。
另外,在说话者跟踪部103以及人脸跟踪部105两者都丢掉了用户的踪迹的情况下,临时原点设定部106解除临时原点的设定,或者将原点设定为临时原点。
动作指示接收部(取得部)107从智能手机110的动作指示发送部111接收动作指示,输送到动作指示实施部108。在动作指示中,作出“将头部20朝向水平方向20度的位置”或“使头部20在水平方向-10度~+10度的范围内往复运动”等指示。这里,在本实施方式中,来自于智能手机110的指示一般被解释为以马达的原点为基准。即,前一种指示被解释是使头部朝向初始位置+20度的位置的指示,后一种指示被解释为是使头部在从初始位置-10度到初始位置+10度的范围内往复动作的指示。
动作指示实施部(动作实施部)108,考虑到接收到的动作指示和由临时原点设定部106设定的临时原点,将所接收到的动作指示变换成以临时原点为基准的指示。具体地说,在设定有临时原点的情况下,动作指示实施部108将临时原点与原点的差确定为补偿量,并且指示可动部控制部109,使头部20移动到将补偿量加到由动作指示所指示的位置上得到的位置。由于可动部控制部109以原点为基准驱动头部20的马达,因此,为了进行以临时原点为基准的动作而加上上述的补偿量。
可动部控制部109控制对头部20进行驱动的马达30。可动部控制部109,作为输入,接收马达的控制位置,按照以马达原点为基准使马达移动到该控制位置的方式进行驱动。即,可动部控制部109接收对于距离马达原点的移动量的指定来控制头部20。
智能手机110的动作指示发送部111生成包含使机器人100进行的动作在内的动作指示,经由通信部发送给机器人100的动作指示接收部107。例如,智能手机110将动作指示与对话语句输出指示一起发送,使机器人发出诸如“您好”这样的话语,并且进行上下点头这样的动作。
<处理>
对于机器人100所做的处理进行说明
[1.跟踪处理及临时原点设定处理]
图4(A)是说明机器人100进行的跟踪处理的流程图。在步骤S102,判断说话者跟踪部103或者人脸跟踪部105是否已经检测出(或者正在检测)用户。即,在步骤S102中判断说话者跟踪部103是否能够根据来自麦克风102的输入语音确定说话者的方向,或者,人脸跟踪部105是否能够从照相机104的拍摄图像检测出人脸并确定其方向。
在说话者跟踪部103和人脸跟踪部105都没有检测到用户时(在步骤S102中为否),进入步骤S108。在步骤S108,可动部控制部109使头部20移动到初始位置(位于初始位置以外的情况)。并且,在步骤S110,临时原点设定部106解除临时原点的设定。临时原点的设定解除处理可以是未设定临时原点,也可以是将临时原点设定到原点位置。
在说话者跟踪部103和人脸跟踪部105中的至少任一个检测出用户时(在步骤S102中为是),进入步骤S104。在步骤S104,根据来自说话者跟踪部103或者人脸跟踪部105的指示,控制成使得头部20朝向用户的方向。另外,在说话者跟踪部103和人脸跟踪部105两者都检测出用户的方向的情况下,以人脸跟踪部105的检测结果优先。这是因为人脸跟踪部105的检测结果精度高。
在步骤S106,临时原点设定部106基于头部20的朝向来设定临时原点。临时原点设定处理的详细情况表示在图4(B)的流程图中。参照图4(B)说明临时原点设定处理S106的详细情况。
在步骤S202,临时原点设定部106判断在当前的人脸位置能否进行规定的动作。对于机器人100的头部20,预先设定其可动范围。规定动作是设想到由智能手机110指示的情况的动作。临时原点设定部106,在头部20以当前朝向的方向(位置)为基准进行了规定的动作的情况下,判断头部20是在可动范围中还是会超出可动范围。
在头部20的移动处于可动范围中的情况下(在S202中为是),临时原点设定部106将当前的头部20的位置(马达位置)设定在临时原点(S204)。另一方面,在头部20的移动超出可动范围的情况下(在S202为否),临时原点设定部106,在以临时原点为基准进行了规定的动作的情况下,将临时原点设定成使得头部20的移动范围进入可动范围(S206)。
参照图5、6,具体地进行说明。图5、6是从上侧观察机器人100的图。另外,这里,为了简化说明,只考虑在水平方向上的脸的摆动动作(摆头动作),但是,对于头的纵向摆动或者将纵向和横向组合起来的头部的移动也同样地进行处理。
如图5(A)所示,对于头部20,预先规定可动范围51。在本例中,头部20对于原点50(初始位置)能够在+45度至-45度的范围移动。在图5(A)的例子中,通过跟踪处理,脸(头部20)的朝向从原点旋转-10度(向左10度)。当前位置52表示跟踪处理后的头部的位置(马达位置)。这里,作为设想到由智能手机110指示的情况的动作,是使头部20以基准点为中心在±20度的范围内移动的动作(摆头动作)。图5(A)的范围53表示以头部20的当前位置52为基准进行了规定动作时的头部的移动范围。
在本例中,当以当前位置52为基准进行±20度的摆头动作(规定动作)时,头部以原点50为基准在-30度到+10度的范围中移动,头部20不超出可动范围(S202为是)。从而,如图5(B)所示,临时原点设定部106将头部20的当前位置52设定为临时原点54(S204)。
图6(A)是与图5(A)同样的图,但是,通过跟踪处理,脸(头部20)的朝向从原点旋转-30度(向左30度),头部20的位置处于用当前位置52’所示的位置。这里,当以当前位置52’为基准进行±20度的摆头动作(规定动作)时,变成头部以原点50为基准在从-50度到-10度的范围(表示为范围53’)中移动,头部20会超出可动范围(S202为否)。
因此,临时原点设定部106确定临时原点以满足以下的条件(S206)。
(条件1)在以临时原点为基准进行了规定动作(例:±20度的摆头动作)时,头部20的移动范围落入可动范围。
(条件2)临时原点是在满足条件1的位置之中的距离头部20的当前位置最近的位置。
在该例中,如图6(B)所示,以原点50为基准,设定-25度的位置作为临时原点54’。由此,以临时原点54’为基准进行了±20度的摆头动作时的头部的动作范围53”落入头部的可动范围51中。
[2.接收动作指示时的处理]
其次,参照图7,对于机器人100从智能手机110接收了动作指示时的处理进行说明。
在步骤S302,动作指示接收部107从智能手机110的动作指示发送部111接收动作指示。这样,在步骤S304中,机器人100,在进行基于动作指示的控制之前,关闭说话者跟踪部103以及人脸跟踪部105的跟踪处理功能。这是为了防止在根据动作指示使头部20移动的期间,跟踪功能起作用而使头部20进行与动作指示不同的动作。
在步骤S306,动作指示实施部108判断是否由临时原点设定部106设定了临时原点。在设定了临时原点的情况下(S306为是),进入步骤S308,动作指示实施部108确定临时原点与原点的差量、即“临时原点-原点”来作为补偿量,进入步骤S312。在没有设定临时原点的情况下(S306为否),在步骤S310中,将补偿量设定为零,进入步骤S312。
在步骤S312,动作指示实施部108,在由动作指示指定的移动量上加上补偿量,在此基础上,对可动部控制部109进行控制指示。另外,可动部控制部109以原点为基准进行头部20的控制,但是,由于如上所述作为补偿量加上了临时原点与原点的差量,所以,变成进行以临时原点为基准的动作。例如,在图5(A)的例子中,进行在图5(B)中以附图标记53表示的范围中的动作,在图6(A)的例子中,进行在图6(B)中用附图标记53”表示的范围中的动作。
<本实施方式的有利效果>
根据本实施方式,在从智能手机100指示机器人100的可动部(头部)的动作时,即使智能手机110不掌握机器人100的可动部的状态,通过以原点(初始位置)为基准的动作指示,也能够进行恰当的动作。具体地说,在进行对用户的跟踪处理,头部20的朝向从初始位置(原点)偏离的情况下,由于不进行以原点为基准的控制,而是以根据跟踪动作确定的临时原点为基准进行动作,因此,动作是恰当的。
另外,由于不是简单地将通过跟踪处理而移动后的可动部(头部)的位置设定为临时原点,而是考虑到设想了可动部的可动范围的动作来设定临时原点,所以,在进行了由智能手机110指示的动作时,不会超过可动范围。在该情况下,变成进行与以头部的当前位置为基准的动作不同的动作,但是,与要超出可动范围地进行控制相比,变为进行更遵循来自于智能手机110的指示的动作。
另外,在本实施方式中,由于不置换原点,保持原点不变地设定临时原点,所以,在设定临时原点的期间,也能够实施以原点为基准的处理,并且,也可以容易地再次设定原点。
<第一种实施方式的变形例>
在上面的说明中,以由智能手机100指示的设想动作只有一个的情况为例进行了说明,但是,容易理解,本发明也可以应用于在有多个设想动作的情况。例如,通过采用包括全部多个设想动作的动作范围的范围进行与上面所述同样的处理,可以进行应对。或者,在有多个设想动作的情况下,也可以对于每个设想动作设定临时原点。在这种情况下,在机器人100在接收到动作指示的情况下,可以判断被指定的动作对应于哪个设想动作,使用所对应的临时原点。
在上面的说明中,只以单轴旋转的动作作为对象进行了说明,但是,对于多轴旋转的动作,也可以进行同样的处理。另外,并不局限于旋转动作,对于直线动作也可以同样地进行处理。
在上面的说明中,在步骤S304、S314中明确地指示了说话者跟踪功能以及人脸跟踪功能的开关,但是,在可动部基于动作指示而被移动时,也可以自动地关闭跟踪功能。例如,按照如下方式构成即可:使得当由动作指示实施部108开始根据动作指示的可动部的动作时,说话者跟踪部103以及人脸跟踪部105检测到该情况,关闭跟踪功能。另外,说话者跟踪部103以及人脸跟踪部105也可以这样构成:使得在检测出在规定的时间(例如500毫秒)以上没有进行过根据动作指示的可动部的动作的情况下,打开跟踪功能。
另外,没有必要以临时原点为基准实施来自于智能手机110的全部动作指示。在从智能手机110向机器人100发送的动作指示中,包括表明应当以原点为基准实施还是应当以临时原点为基准实施的信息(标志或信息类别等),机器人100根据该信息对处理进行切换。
<第二种实施方式>
本实施方式具有基本上与第一种实施方式同样的结构,进行同样的处理,但是,临时原点设定处理的时点与第一种实施方式不同。在第一种实施方式中,在通过跟踪动作使头部20(可动部)移动了时,设定临时原点,而在本实施方式中,在取得了来自于智能手机110的动作指示之后,设定临时原点。
本实施方式中的跟踪处理基本上与第一种实施方式(图4(A))一样,但是,在不进行步骤S106及S110的处理这一点上不同。从而,省略其详细的说明。
图8是说明本实施方式中的接受动作指示时的处理的流程图。与第一种实施方式不同,在取得动作指示之后,并且在关闭跟踪控制之后(步骤S302-S304之后),设置临时原点设定处理S106。临时原点设定处理S106本身与第一种实施方式一样,如图4(B)所示。
在本实施方式中,也可以获得与第一种实施方式同样的效果。本实施方式,在存在有多个由智能手机110指示的设想动作时,与第一种实施方式相比,在以下方面是有利的。
在第一种实施方式中,与采用多个动作的全部动作范围来设定临时原点的方法相比较,能够抑制无论是否以当前位置作为基准而被指定的动作是否是可能的,都会以与当前位置不同的临时原点为基准进行动作的情况。从而,能够更忠实地实施由动作指示所指示的动作。
与在第一种实施方式中对于多个动作的每个动作设定临时原点的方法相比较,在本实施方式中,在没有必要计算、存储多个临时原点这一点上是有利的。
<变形例>
上述实施方式及变形例的结构,在不超出本发明的技术构思的范围内,可以适当地组合并利用。另外,不言而喻,本发明在不超出其技术构思的范围内加以适当变更来实现。
在上述说明中,跟踪用户的可动部为头部,但是,可动部并不一定必须是头部,也可以是手、足或者其它任意的部位。另外,机器人100没有必要是人形的,对于其形状没有特定的限制。例如,机器人100也可以是模仿动物或者机械的机器人。
对机器人100发送指示的装置没有必要是智能手机,可以是任意的计算机。例如,也可以是便携式计算机或者台式计算机等。
语音对话系统没有必要像上述实施方式那样由机器人、智能手机、语音识别服务器、对话服务器等构成。只要能够实现上述功能,也可以以任何方式构成整个系统。例如,也可以利用一个装置实施全部的功能。或者,也可以利用多个装置分担在上述实施方式中由一个装置实施的功能。另外,各个功能没有必要一定用上述装置实施。例如,也可以在机器人中实施由智能手机实施的处理的一部分。
上述说明,以借助于机器人100的可动部的跟踪处理、动作不被通知给智能手机110为前提。但是,也可以将通过跟踪处理导致的可动部的状态通知给智能手机。在这种情况下,通过利用本发明的方法,可以获得智能手机110不关注机器人100的可动部的状态,就能够恰当地控制可动部的效果。
Claims (8)
1.一种语音对话机器人,所述语音对话机器人是与用户进行语音对话的语音对话机器人,其中,配备有:
本体;
可动部,所述可动部相对于所述本体能够相对地移动;
跟踪控制部,所述跟踪控制部使所述可动部移动,以使所述可动部跟踪用户;
临时原点设定部,所述临时原点设定部根据由所述跟踪控制部引起的所述可动部的移动,设定所述可动部的临时原点;
取得部,所述取得部取得所述可动部的动作指示;以及
动作实施部,所述动作实施部以所述临时原点为基准,根据所述动作指示使所述可动部移动,
所述跟踪控制部使所述可动部移动,以使所述可动部朝向所述用户的方向,
在即使以被所述跟踪控制部移动后的所述可动部的当前位置为基准实施由所述动作指示所指示的动作,也不超过所述可动部的可动范围的情况下,所述跟踪控制部将所述当前位置设定为临时原点,
当以所述当前位置为基准实施由所述动作指示所指示的动作时,在超过所述可动部的可动范围的情况下,所述跟踪控制部将所述临时原点设定成使得所述所指示的动作落入所述可动范围。
2.如权利要求1所述的语音对话机器人,其中,
所述可动部是被指定距离预先确定的原点的移动量而被控制的可动部,
所述动作实施部,指定在由所述动作指示所指定的移动量上加上所述原点与所述临时原点的差量而得到的移动量,以使所述可动部移动。
3.如权利要求1所述的语音对话机器人,其中,
在所述动作实施部基于所述动作指示而使所述可动部移动的期间,所述跟踪控制部不进行跟踪动作。
4.如权利要求1所述的语音对话机器人,其中,
所述跟踪控制部使所述可动部移动,以使所述可动部朝向根据被照相机拍摄的图像求出的用户的方向、或者根据从麦克风取得的语音求出的用户的方向。
5.如权利要求1所述的语音对话机器人,其中,
所述取得部从没有检测到由所述跟踪控制部引起的所述可动部的移动的装置取得所述动作指示。
6.一种语音对话系统,配备有:
如权利要求1所述的语音对话机器人;
控制装置,所述控制装置是通过无线通信与所述语音对话机器人连接起来的控制装置,配备有对所述语音对话机器人发送所述动作指示的动作指示发送部。
7.一种语音对话机器人的控制方法,所述语音对话机器人具有本体和相对于所述本体能够相对移动的可动部,与用户进行语音对话,其中,所述语音对话机器人的控制方法配备有:
跟踪控制步骤,在所述跟踪控制步骤,使所述可动部移动以使所述可动部跟踪用户;
临时原点设定步骤,在所述临时原点设定步骤,根据在所述跟踪控制步骤中所述可动部的移动,设定所述可动部的临时原点;
取得步骤,在所述取得步骤,取得所述可动部的动作指示;以及
动作实施步骤,在所述动作实施步骤,以所述临时原点为基准,根据所述动作指示使所述可动部移动,
在所述跟踪控制步骤,使所述可动部移动,以使所述可动部朝向所述用户的方向,
在所述临时原点设定步骤,在即使以在所述跟踪控制步骤中被移动后的所述可动部的当前位置为基准实施由所述动作指示所指示的动作,也不超过所述可动部的可动范围的情况下,将所述当前位置设定为临时原点,
当以所述当前位置为基准实施由所述动作指示所指示的动作时,在超过所述可动部的可动范围的情况下,将所述临时原点设定成使得所述所指示的动作落入所述可动范围。
8.一种计算机可读存储介质,所述计算机可读存储介质非暂时地存储在计算机中实施如权利要求7所述的方法的各个步骤的程序。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017-088656 | 2017-04-27 | ||
JP2017088656A JP6610609B2 (ja) | 2017-04-27 | 2017-04-27 | 音声対話ロボットおよび音声対話システム |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109249386A CN109249386A (zh) | 2019-01-22 |
CN109249386B true CN109249386B (zh) | 2022-01-11 |
Family
ID=63915539
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810382823.3A Active CN109249386B (zh) | 2017-04-27 | 2018-04-26 | 语音对话机器人及语音对话系统 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10828773B2 (zh) |
JP (1) | JP6610609B2 (zh) |
CN (1) | CN109249386B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6886130B2 (ja) * | 2019-08-12 | 2021-06-16 | 学校法人拓殖大学 | 感性情報を用いたリハビリテーション支援ロボット |
KR20210078060A (ko) | 2019-12-18 | 2021-06-28 | 삼성전자주식회사 | 사용자와의 인터랙션 중 인터럽션(제3자로부터의 개입)을 방지하는 로봇 |
CN111309992B (zh) * | 2020-02-19 | 2023-06-13 | 深圳市天博智科技有限公司 | 智能机器人应答方法、系统、机器人和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012040655A (ja) * | 2010-08-20 | 2012-03-01 | Nec Corp | ロボット制御方法、プログラム、及びロボット |
WO2012172721A1 (ja) * | 2011-06-14 | 2012-12-20 | パナソニック株式会社 | ロボット装置、ロボット制御方法、及びロボット制御プログラム |
CN105234945A (zh) * | 2015-09-29 | 2016-01-13 | 塔米智能科技(北京)有限公司 | 一种基于网络语音对话及体感互动的迎宾机器人 |
CN106042005A (zh) * | 2016-06-01 | 2016-10-26 | 山东科技大学 | 仿生眼定位追踪系统及其工作方法 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2566550B2 (ja) * | 1984-01-31 | 1996-12-25 | ファナック 株式会社 | ロボツト動作に対するオペレ−タ保護方法 |
JP4022477B2 (ja) * | 2002-01-21 | 2007-12-19 | 株式会社東京大学Tlo | ロボットフォン |
JP3714268B2 (ja) * | 2002-03-18 | 2005-11-09 | ソニー株式会社 | ロボット装置 |
JP2008087140A (ja) * | 2006-10-05 | 2008-04-17 | Toyota Motor Corp | 音声認識ロボットおよび音声認識ロボットの制御方法 |
KR101479233B1 (ko) * | 2008-05-13 | 2015-01-05 | 삼성전자 주식회사 | 로봇 및 그 협조작업 제어방법 |
WO2009148089A1 (ja) * | 2008-06-05 | 2009-12-10 | 東芝機械株式会社 | ハンドリング装置、制御装置、制御方法およびプログラム |
JP5850560B2 (ja) * | 2010-07-23 | 2016-02-03 | 株式会社国際電気通信基礎技術研究所 | 遠隔操作ロボット |
WO2013176212A1 (ja) * | 2012-05-25 | 2013-11-28 | 学校法人立命館 | ロボット制御装置、ロボット制御方法、プログラム、記録媒体、ロボットシステム |
JP6203696B2 (ja) * | 2014-09-30 | 2017-09-27 | 富士ソフト株式会社 | ロボット |
DE102014226239A1 (de) * | 2014-12-17 | 2016-06-23 | Kuka Roboter Gmbh | Verfahren zum sicheren Einkoppeln eines Eingabegerätes |
JP2016185572A (ja) * | 2015-03-27 | 2016-10-27 | セイコーエプソン株式会社 | ロボット、ロボット制御装置およびロボットシステム |
TWI617908B (zh) * | 2016-06-02 | 2018-03-11 | 巨擘科技股份有限公司 | 機械手臂控制裝置,包含該控制裝置的機械手臂系統及機械手臂控制方法 |
-
2017
- 2017-04-27 JP JP2017088656A patent/JP6610609B2/ja active Active
-
2018
- 2018-04-20 US US15/958,602 patent/US10828773B2/en active Active
- 2018-04-26 CN CN201810382823.3A patent/CN109249386B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012040655A (ja) * | 2010-08-20 | 2012-03-01 | Nec Corp | ロボット制御方法、プログラム、及びロボット |
WO2012172721A1 (ja) * | 2011-06-14 | 2012-12-20 | パナソニック株式会社 | ロボット装置、ロボット制御方法、及びロボット制御プログラム |
CN105234945A (zh) * | 2015-09-29 | 2016-01-13 | 塔米智能科技(北京)有限公司 | 一种基于网络语音对话及体感互动的迎宾机器人 |
CN106042005A (zh) * | 2016-06-01 | 2016-10-26 | 山东科技大学 | 仿生眼定位追踪系统及其工作方法 |
Also Published As
Publication number | Publication date |
---|---|
US10828773B2 (en) | 2020-11-10 |
US20180311816A1 (en) | 2018-11-01 |
JP2018183856A (ja) | 2018-11-22 |
JP6610609B2 (ja) | 2019-11-27 |
CN109249386A (zh) | 2019-01-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109249386B (zh) | 语音对话机器人及语音对话系统 | |
JP5429462B2 (ja) | コミュニケーションロボット | |
US7653458B2 (en) | Robot device, movement method of robot device, and program | |
CN106328132A (zh) | 一种智能设备的语音交互控制方法和装置 | |
JP2007190641A (ja) | コミュニケーションロボット | |
JP2009222969A (ja) | 音声認識ロボットおよび音声認識ロボットの制御方法 | |
US20180009118A1 (en) | Robot control device, robot, robot control method, and program recording medium | |
JP2008087140A (ja) | 音声認識ロボットおよび音声認識ロボットの制御方法 | |
JP5975947B2 (ja) | ロボットを制御するためのプログラム、及びロボットシステム | |
JP2004216513A (ja) | コミュニケーションロボット | |
JP2009166184A (ja) | ガイドロボット | |
JP2024023193A (ja) | 情報処理装置及び情報処理方法 | |
KR20200093094A (ko) | 전자 장치 및 그 제어 방법 | |
JP2013136131A (ja) | ロボットの制御方法、ロボットの制御装置、及びロボット | |
JP5842245B2 (ja) | コミュニケーションロボット | |
JP2015150620A (ja) | ロボット制御システムおよびロボット制御プログラム | |
JP5324956B2 (ja) | 道案内ロボット | |
JP4198676B2 (ja) | ロボット装置、ロボット装置の移動追従方法、および、プログラム | |
US20180203506A1 (en) | Control method, control device, system and motor vehicle comprising such a control device | |
KR20140117771A (ko) | 움직임 센서 기반의 휴대용 자동 통역 장치 및 그의 제어방법 | |
KR102613040B1 (ko) | 영상 통화 방법 및 이를 구현하는 로봇 | |
CN111730608B (zh) | 控制装置、机器人、控制方法以及存储介质 | |
JP2001188551A (ja) | 情報処理装置および方法、並びに記録媒体 | |
US11400607B2 (en) | Image processing device, robot, image processing method, and recording medium | |
JP2019072787A (ja) | 制御装置、ロボット、制御方法、および制御プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |