CN107053186A - 对话装置、机器人、对话方法以及存储介质 - Google Patents

对话装置、机器人、对话方法以及存储介质 Download PDF

Info

Publication number
CN107053186A
CN107053186A CN201611019757.0A CN201611019757A CN107053186A CN 107053186 A CN107053186 A CN 107053186A CN 201611019757 A CN201611019757 A CN 201611019757A CN 107053186 A CN107053186 A CN 107053186A
Authority
CN
China
Prior art keywords
user
sounding
case
unit
interface
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611019757.0A
Other languages
English (en)
Other versions
CN107053186B (zh
Inventor
小野寺丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Publication of CN107053186A publication Critical patent/CN107053186A/zh
Application granted granted Critical
Publication of CN107053186B publication Critical patent/CN107053186B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • B25J11/0005Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/70Multimodal biometrics, e.g. combining information from different biometric modalities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Security & Cryptography (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Game Theory and Decision Science (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Toys (AREA)
  • Manipulator (AREA)
  • Collating Specific Patterns (AREA)

Abstract

本发明的对话装置在不使用户感到不谐调的情况下自然地进行认证。对话装置(1)的认证部(11)进行用户的认证。在认证部(11)不能进行认证的情况下,发声促进部(13)促使用户的发声。在认证部(11)根据被促使发声的用户的声音能够认证该用户的情况下,对话控制部(14)进行与认证了的该用户相应的对话。

Description

对话装置、机器人、对话方法以及存储介质
技术领域
本发明涉及机器人对用户进行认证并进行对话的技术。
背景技术
近来,对用户进行认证(例如,个人认证、年龄/性别等的认证)并配合该认证后的用户进行对话的机器人开始为人所知。
在此,在专利文献1中,关于由机器人进行的认证,公开了如下的机器人,即,在用户的面部未收入视场角的情况下用声音进行引导,使得用户的面部进入到视场角内。
在先技术文献
专利文献
专利文献1:日本特开2007-152444号公报
发明内容
发明要解决的课题
可是,用户与机器人的位置关系是多样的,有面对面的情况(用户的面部进入到视场角内的情况)、用户和机器人均朝向相同的方向的情况、用户抱着机器人的情况(用户的面部未进入到视场角内的情况)。在用户的面部未进入到视场角内的情况下,当像上述专利文献1记载的那样用声音进行引导时,用户会感到不谐调,根据情况有可能会对自然的会话带来障碍。
另一方面,尽管用户在附近,但是由于用户的面部未进入到视场角内,所以不进行该用户的认证就进行对话也并不优选。
因此,希望即使在不能进行用户的认证那样的状况(特别是,用户与机器人的距离靠近却不能进行认证的状况)下也能够在不使用户感到不谐调的情况下自然地进行认证(个人认证、年龄/性别等的认证)。
因此,本发明是鉴于上述的情况而完成的,其目的在于,提供一种在不使用户感到不谐调的情况下自然地进行用户的认证的对话装置等。
用于解决课题的技术方案
本发明的对话装置,其特征在于,具备:
认证单元,进行用户的认证;
发声促进单元,在所述认证单元不能认证所述用户的情况下,对所述用户促使发声;以及
对话控制单元,在所述认证单元根据被促使发声的所述用户的声音能够认证该用户的情况下,进行与认证了的该用户相应的对话。
发明效果
根据本发明,能够在不使用户感到不谐调的情况下自然地进行认证。
附图说明
图1是示出实施方式涉及的机器人的外观的图。
图2是示出实施方式涉及的机器人的结构的图。
图3是示出认证用DB(Data Base,数据库)的一个例子的图。
图4是示出个人信息DB的一个例子的图。
图5是示出提问模板的一个例子的图。
图6是示出答复模板的一个例子的图。
图7是示出实施方式涉及的对话处理的流程图的图。
图中,1-对话装置,10-控制部,11-认证部,12-保持判定部,13-发声促进部,14-对话控制部,15-重置部,30-存储部,31-认证用DB,32-个人信息DB,33-对话用DB,40-摄像机,41-传声器,42-扬声器,43-操作按钮,44-电池,45-加速度传感器,46-人感传感器,100-机器人。
具体实施方式
以下,参照图1对本发明的实施方式涉及的对话装置的概要进行说明。该对话装置1是对成为对话对象的用户进行认证并进行对话的对话引擎,内置于机器人100。通过内置对话装置1,从而机器人100具备作为交流机器人的人工智能,能够与用户进行对话。人工智能主体能够利用外部的服务器。
作为与用户的接口,机器人100在耳部具备收集用户的声音的传声器41,在口部具备向用户输出声音的扬声器42,在眼部具备拍摄用户的摄像机40。为使人感到亲切,该机器人100由抱着感觉舒服的材料制成,并具有可爱的外表。虽然在该实施方式中以机器人100为玩具用的情况为例进行说明,但是用途不限于玩具用,只要是需要交流的用途,就能够应用。
如图2所示,机器人100除了上述接口(摄像机40、传声器41、扬声器42)以外还具备操作按钮43、电池44、对话装置1。
操作按钮43是用于操作对话装置1的各种按钮,例如是电源按钮等。电池44是内置于机器人100的充电电池。
对话装置1具备加速度传感器45、人感传感器46、控制部10、存储部30。
加速度传感器45是测定XYZ方向(3个轴)上的加速度的传感器。像后面说明的那样,该加速度传感器45用于探测是否为保持状态,该保持状态包括用户抱着机器人100的状态。
人感传感器46是感知人的传感器。像后面说明的那样,该人感传感器46用于检测人是否在附近。
控制部10由CPU(Central Processing Unit:中央处理单元)、ROM(Read OnlyMemory:只读存储器)、RAM(Random Access Memory:随机存取存储器)等构成。控制部10通过执行存储在ROM的程序(例如,后面说明的对话处理涉及的程序),从而实现各部分(认证部11、保持判定部12、发声促进部13、对话控制部14、重置部15)的功能。
存储部30是闪速存储器等非易失性存储器。关于各数据库(认证用DB31、个人信息DB32、对话用DB33)将在后面进行说明。
接着,对控制部10的功能进行说明。
控制部10作为功能具备认证部11、保持判定部12、发声促进部13、对话控制部14。另外,可以将控制部10的全部或其中一部分设置在机器人100的外部,并从外部控制机器人100。
认证部11通过声音或图像进行用户的认证。在该实施方式中,以进行确定用户的个人信息(例如,昵称、简介等详细的信息)的个人认证的情况为例进行说明。在该情况下,认证部11使用声音或图像(特别是,面部图像)进行用户的个人认证。
具体地,认证部11为了进行个人认证而使用认证用DB31。如图3所示,认证用DB31是对每个用户名对应了该用户的面部图像和声纹的数据库。在进行个人认证的情况下,认证部11将用摄像机40拍摄的面部图像依次与认证用DB31存储的面部图像A1~Z1进行比较。然后,认证部11检索具有能够识别是本人的阈值以上的类似度的面部图像,并确定与该面部图像对应的用户名。另外,也可以是,在认证用DB31中代替面部图像而存储使用了SIFT(Scale-Invariant Feature Transform:尺度不变特征转变)等的每个用户的面部特征量,认证部11与从用摄像机40拍摄的面部图像提取的面部特征量进行比较,从而确定用户名。
另一方面,认证部11除了面部图像以外还使用声音进行个人认证。在该情况下,将根据用传声器41收集的声音求出的声纹(表示声音的频率分布的声谱图)依次与认证用DB31存储的声纹A2~Z2进行比较,确定与最类似的声纹对应的用户名。或者,也可以是,在认证用DB31中代替声纹而存储每个用户的音素(声音的最小单位),认证部11将收集的声音分解为音素,并按每个音素进行比较。
认证部11像这样使用声音(作为一个例子,使用声纹)或面部图像中的任一者进行用户的个人认证。若能够进行个人认证,则认证部11从个人信息DB32读出已认证的用户的个人信息。如图4所示,个人信息DB32是对每个用户名对应了个人信息(昵称、简介)的数据库。昵称是用户的称呼,简介是与用户对话时有用的信息(例如,生日、家族构成等)。例如,在认证部11能够认证用户A的情况下,在对话中可有效利用读出的用户A的个人信息(A先生/女士、a)。
返回到图2,保持判定部12判定是否为表示本机被用户保持的保持状态。在此,保持是指,用户抱着机器人100(对话装置1)等。使用加速度传感器45检测是否为保持状态。即,在用户未保持机器人100的状态下,静止中的机器人100的加速度在水平方向(XY分量)上为0G,在垂直方向(Z分量)上为1G(大约9.8m/s2)。即,将水平方向和垂直方向上的各分量进行合成的加速度的大小(由XYZ分量构成的加速度的大小)为大约1G。
另一方面,在用户保持机器人100的情况下,水平分量和垂直分量的加速度改变,加速度会波动。通常,由于该波动,由XYZ分量构成的加速度的大小会超过1G。因此,预先设定1G以上的第一阈值。然后,在该第一阈值以上的加速度在给定期间持续从加速度传感器45被输出的情况下,视为保持状态。即,在从加速度传感器45输出的水平、垂直方向上的加速度的平均值为第一阈值以上且该第一阈值以上的加速度在给定期间持续从加速度传感器45被输出的情况下,保持判定部12判定为保持状态。
在是保持状态时,如果用户从前面抱着机器人100,则当然收入摄像机40的视场角内的可能性高。因此,在保持判定部12判定是保持状态、且人感传感器46感知到人、且在摄像机40的视场角内未检测到用户的面部的情况下,控制部10判定用户从后面抱着机器人100。
在此,在实际使用机器人100的环境中,存在用户抱住机器人100之后第三者抱住机器人100的情况。在该情况下,通常,加速度的波动比第一阈值大。因此,设定比第一阈值大的第二阈值,在该第二阈值以上的加速度在给定期间持续从加速度传感器45被输出的情况下,视为不稳定保持状态。或者,在第三者代替用户抱着机器人100的情况下,存在由于机器人100反转等而使加速度传感器45的轴改变的可能性,因此也可以监视轴变化来探测不稳定保持状态。
像这样,保持判定部12使用加速度传感器45来判定用户未保持本机的状态(未保持状态)、用户保持本机的保持状态(稳定保持状态)、保持主体从用户替换为第三者的状态(不稳定保持状态)这3种状态中的任一种状态。另外,稳定保持状态是指加速度平均值为第一阈值以上的情况,不稳定保持状态是指加速度平均值为第二阈值以上的情况。
接着,在认证部11通过声音和面部图像不能进行个人认证的情况下,发声促进部13促使用户的发声。在此,在用户不发声且用户的面部未收入摄像机40的视场角那样的情况下,发声促进部13为了促使用户的发声而自发地进行提问。在该实施方式中,特别是,在认证部11不能认证用户且保持判定部12判定是由该用户保持的稳定保持状态的情况下,发声促进部13进行用于促使该用户的发声的提问。这是为了防止尽管用户抱着机器人100却不能进行个人认证的情形。
此外,人感传感器46感知到人是指,用户或第三者在机器人100的附近。因此,在尽管人感传感器46感知到人但是用户的面部却未收入摄像机40的视场角那样的情况下,发声促进部13也会为了促使用户的发声而自发地进行提问。即,尽管人感传感器46感知到人在机器人100的附近,但如果认证部11不能认证用户,则发声促进部13会自发地进行提问来促使用户的发声。然后,认证部11进行用户的认证(特别是,确定用户的个人信息的个人认证)。
在此,使用图5所示的对话用DB33的提问模板进行自发性的提问。即,发声促进部13从提问模板之中随机选择一个提问句,根据提问句的文本合成声音并向用户提问。提问只要是用于根据用户的答复声音来进行个人认证的疑问句即可,优选排除用户能够用“是”或“不是”简短地回答的封闭式问题。除此之外,尽量避免不自然的提问(例如,“你是谁?”等)而进行自然的提问,使得用户察觉不到未能进行个人认证为佳。例如,如图5所示的“今天的状态如何?”、“今天一天怎么样?”等类型。
接着,在认证部11能够认证用户的情况下,对话控制部14使用该用户的个人信息与该用户进行对话。另一方面,在认证部11未能认证用户的情况下,对话控制部14在不使用用户的个人信息的情况下与用户进行对话。对话控制部14在对话时使用对话用DB33。对话用DB33包括上述的图5所示的提问模板和图6所示的答复模板。答复模板是用于对来自用户的发声进行答复的模板,是对输入文本对应了输出文本、个人信息、以及感情表现用参数的模板。
输入文本是将用户发声的声音进行文本化的文本,输出文本是对输入文本的答复句,个人信息是从个人信息DB32读出的个人信息(昵称、简介),感情表现用参数是表示对话装置1与用户对话时的感情的良好程度的参数。
在完成个人认证而使用个人信息的情况下,个人信息栏变成认证了的用户名(在图6的例子中为A),另一方面,在不能进行个人认证的情况下,个人信息栏为空栏。此外,在完成了个人认证的情况下,对话装置1的感情表现用参数像图6那样是“好”,在不能进行个人认证的情况下,对话装置1的感情表现参数为“普通”。
在完成个人认证的情况下,对话控制部14对输出文本附加个人信息,且使感情表现用参数为“好”,来与用户进行对话。例如,如果输入文本为打招呼的“早上好。”,则对话控制部14对与其对应的输出文本“早上好。”附加作为个人信息的昵称“A先生/女士”,并将声音的音调提升为与“好”对应,来发声为“A先生/女士,早上好。”。同时,也可以使对话装置1的面部的表情变化为高兴的表情,使得与“好”对应。另一方面,在不能进行个人认证的情况下,对话控制部14不使用个人信息,且不使感情变化,对用户答复为“早上好。”。
另外,答复模板对打招呼等每个类型准备有多个输入文本,具有持续多轮会话程度的变化形式。此外,输入文本无需全文一致,可以类似一致或者是用户的发声所包含的名词等关键词。此外,显然,个人信息的有效利用方式(在句首附加昵称)是一个例子,当然也可以设为根据输出文本的内容考虑了家族构成、生日等简介的答复。顺带提一下,使用答复模板的对话的方式千差万别,实施方式只不过是一个例子。
返回到图2,在由保持判定部12判定第三者保持了本机的情况下,重置部15对由认证部11进行的用户的个人认证进行重置。即,若保持主体替换而成为不稳定保持状态,则重置部15对个人认证进行重置。例如,在保持主体从用户A变为用户B时,成为不稳定保持状态,因此重置部15对进行了个人认证的用户A进行重置。
以上参照图3至图6对对话装置1的各功能进行了说明。以下参照图7对对话处理进行说明。在机器人100的对话功能开启的期间,持续进行该处理。此外,机器人100为了进行个人认证而开启摄像机40和传声器41,同时并行地实施利用声音和面部图像的个人认证。
首先,认证部11判定是否完成了个人认证(步骤S11)。在此,完成了个人认证是指,通过面部图像或声音认证了用户。另一方面,未能进行个人认证是指,用面部图像和声音未能认证用户。
在此,在未能进行个人认证的情况下(步骤S11;否),保持判定部12判定是否为稳定保持状态(步骤S12)。如果不是稳定保持状态(步骤S12;否),即,如果是未保持状态或不稳定保持状态,则返回到步骤S11。另一方面,如果是稳定保持状态(步骤S12;是),则对话控制部14判定是否识别出了用户声音(步骤S13)。在识别出了用户声音的情况下(步骤S13;是),对话控制部14使用答复模板在不使用个人信息的情况下答复用户(步骤S15),并返回到步骤S11。此时,根据用户声音进行个人认证。
另一方面,在未识别出用户声音的情况下(步骤S13;否),发声促进部13使用提问模板向用户提问(步骤S14),并返回到步骤S11。此时,根据在针对自发性的提问的答复中得到的用户声音进行个人认证。像这样,在不能进行个人认证的情况下的稳定保持状态下,如果用户不发声,就自发地进行提问来促使用户的发声。
另一方面,在完成了个人认证的情况下(步骤S11;是),对话控制部14从个人信息DB32读出个人信息(步骤S16)。接着,保持判定部12判定是否为不稳定保持状态(步骤S17)。如果不是不稳定保持状态(步骤S17;否),即,如果是稳定保持状态或未保持状态,则对话控制部14判定是否识别出了用户声音(步骤S18)。如果未识别出用户声音(步骤S18;否),则返回到步骤S17。另一方面,在识别出了用户声音的情况下(步骤S18;是),对话控制部14使用个人信息答复用户(步骤S19),并返回到步骤S17。
像这样,在完成了个人认证的情况下,在未成为不稳定保持状态的期间(用户保持对话装置1的期间,或对话装置1以未保持状态处于静止中的期间),如果有用户声音则进行答复。这是考虑到用户在保持对话装置1的状态下正在做什么(例如,观看电视等),或者在未保持状态下用户对对话装置1的关注度低的情况。但是,即使在没有用户声音的情况下,也可以使用个人信息自发地进行提问(例如,“A先生/女士,今天一天怎么样?”等提问)。
在此,在成为不稳定保持状态的情况下(步骤S17;是),即,在保持主体从进行了个人认证的用户变为第三者的情况下,重置部15对个人认证进行重置(步骤S20),设为未完成个人认证的状态。此后,在步骤S13中,如果未识别出用户声音(步骤S13;否),即,如果第三者未发声,发声促进部13就自发地提问(步骤S14),进行第三者的个人认证。如果第三者发声,对话控制部14就在不使用个人信息的情况下答复第三者(步骤S15),进行第三者的个人认证。
以上,根据该实施方式涉及的对话装置1,通过具备认证部11和发声促进部13,从而能够在通过声音、面部图像不能进行认证的情况下,自发地进行提问来促使用户的发声并进行认证(特别是,个人认证)。尤其是,在该实施方式中,如果在保持判定部12判定是稳定保持状态的情况下未能进行个人认证,则自发地进行提问。因此,与为了利用面部图像进行个人认证而通过声音引导到视场角内的情况相比,用户只是回答被问的提问,因此不会特别意识到自己在被认证。因此,用户不会感到不谐调,能够在不能进行个人认证那样的状况(特别是,由于用户保持对话装置1,所以尽管双方的距离靠近却不能进行个人认证的状况)下进行自然的个人认证。
此外,在不稳定保持状态的情况下,即,在与已认证的用户进行对话的过程中该用户以外的第三者保持了本机的情况下,对用户的个人认证进行重置。因此,不存在尽管保持主体改变却仍使用前面的用户的个人信息与第三者进行对话的情况。因此,第三者在与对话装置1的对话中不会感到不谐调。除此以外,第三者通过自己说话或答复提问而被认证,因此能够顺利地切换认证主体。
此外,在完成了用户的个人认证的情况下,对话控制部14使用该用户的个人信息进行对话。因此,用户会产生亲近感,能够加深与对话装置1之间的羁绊。
以上,结束对实施方式的说明,但是显然,上述实施方式是一个例子,对话装置1的结构、对话处理的内容等不限于在上述实施方式中说明的结构、内容。
(变形例)
虽然在上述的实施方式中以个人认证为例进行了说明,但是不限于此。也可以进行用于认证用户的年龄或性别的年龄性别认证。该年龄性别认证是确定表示用户的年龄或性别中的至少任一者的年龄性别信息的认证。
在该变形例中,认证部11进行确定表示用户的年龄或性别的年龄性别信息的年龄性别认证。在年龄性别认证时,与为了确定个人信息而预先将每个个人的面部图像和声纹进行数据库化的个人认证不同,只要将足以确定年龄或性别的信息进行数据库化即可。
例如,如果是性别,则能够根据男女显著不同的声质(声音的音调的不同等)、骨骼、发型等进行判别。或者,如果是年龄,是孩子还是老人,能够与上述同样地根据声质、骨格、体格等进行判别。在详细推定年龄的情况(例如,以10几岁、20几岁、…、60几岁等年龄层来推定的情况)下,只要预先存储用于确定年龄段的信息(例如,10几岁的人的声音的采样数据等)即可。总之,与个人认证相比,在年龄性别认证的情况下,预先存储的信息量小,因此能够削减存储容量。
然后,在认证部11完成了用户的年龄性别认证的情况下,对话控制部14使用该用户的年龄性别信息与该用户进行对话。例如,如果用户是老人,则对话控制部14使用敬语,如果用户是孩子,则对话控制部14进行面向孩子的对话,等。此外,在不能通过声音和面部图像进行年龄性别认证的情况下进行的自发性的提问可以根据推测的用户的年龄性别而不同。例如,准备老人用和孩子用的提问模板,如果是老人用,则发声促进部13提问“身体状态怎么样?”,如果是孩子用,则提问“今天玩什么?”等为佳。
像这样,根据该变形例,在通过声音、面部图像不能对成为对话对象的用户进行年龄性别认证的情况下,能够自发地进行提问而自然地进行年龄性别认证。除此以外,能够在通过年龄性别认证对用户进行粗略分类之后根据其年龄性别与用户进行对话。
虽然在上述的实施方式和变形例中发声促进部13通过自发地提问来得到用户声音并进行认证(个人认证或年龄性别认证),但是不限于此。例如,发声促进部13可以代替设问类的提问而进行用户感兴趣的发言。例如,可以使对话装置1从云(互联网)等获取与季节对应的话题、最近的新闻等,并朗读它们。这是因为,只要从用户得到声音的反应就能够进行认证。或者,发声促进部13也可以改变对话装置1的动作(引起用户的兴趣的举动等)或表情等来促进用户的发声。总而言之,为了进行个人认证、年龄性别认证只要得到来自用户的声音即可,为此使用的方法无关紧要。
此外,虽然在上述的实施方式中个人信息DB32作为个人信息而存储昵称和简介,但不限于此。例如,也可以存储用户的兴趣爱好、喜欢的话题、过去的会话历史、总计的对话时间等对对话有用的信息。特别是,在根据过去的会话历史进行用户喜好的话题等的倾向分析并自发地提问的情况下,也可以对该话题进行提问。此外,在总计的对话时间与其它用户相比极低的情况下,视为认为对话装置1不好,即使进行个人认证,也可以不将感情表现参数设为“好”,而保持“普通”的状态。
此外,在上述的实施方式的对话处理中对完成了个人认证的情况和未能进行个人认证的情况进行了说明。但是,还存在虽然获取了声音或面部图像,但是探测到未在认证用DB31登记用户名的用户,即,未登记用户。在探测到这样的未登记用户的情况下,虽然也要看设计规格,但可以视为可疑人员而停止对话,也可以即使是不认识的人物也进行对话。在进行对话的情况下,只要与实施方式同样地,使用对话用DB33的提问模板和答复模板在不使用个人信息的情况下进行对话即可。
此外,虽然在上述的实施方式中以对话装置1内置于玩具用的机器人100的情况为前提进行了说明,但是不限于此。该对话装置1具备认证功能和对话功能,只要是使用这些功能的机器人就能嵌入。例如,可以将对话装置1嵌入到清扫机器人、搜索机器人等。
此外,本发明的对话装置1的各功能也能够通过通常的PC(Personal Computer:个人计算机)等计算机来实施。具体地,在上述实施方式中,设对话装置1进行的对话处理的程序预先存储在控制部10的ROM中而进行了说明。但是,也可以将程序保存在软盘、CD-ROM(Compact Disc Read Only Memory:只读式紧凑光盘)、DVD(Digital Versatile Disc:数字多功能光盘)以及MO(Magneto Optical Disc:磁光盘)等计算机可读的记录介质来发行,并将该程序安装在计算机,从而构成能够实现上述的各功能的计算机。
以上,对本发明的优选的实施方式进行了说明,但是本发明不限定于这样的特定的实施方式,本发明包括权利要求书记载的发明和与其均等的范围。

Claims (18)

1.一种对话装置,其特征在于,具备:
认证单元,进行用户的认证;
发声促进单元,在所述认证单元不能认证所述用户的情况下,对所述用户促使发声;以及
对话控制单元,在所述认证单元根据被促使发声的所述用户的声音能够认证该用户的情况下,进行与认证了的该用户相应的对话。
2.根据权利要求1所述的对话装置,其特征在于,
作为所述认证,所述认证单元进行确定所述用户的个人信息的个人认证,
在所述认证单元完成了所述用户的个人认证的情况下,所述对话控制单元使用该用户的个人信息与该用户进行适合该用户的对话。
3.根据权利要求1所述的对话装置,其特征在于,
作为所述认证,所述认证单元进行确定表示所述用户的年龄或性别的年龄性别信息的年龄性别认证,
在所述认证单元完成了所述用户的年龄性别认证的情况下,所述对话控制单元使用该用户的年龄性别信息与该用户进行对话。
4.根据权利要求1所述的对话装置,其特征在于,
所述认证单元使用声音和图像进行所述用户的认证。
5.根据权利要求4所述的对话装置,其特征在于,
所述对话装置还具备:摄像机,拍摄所述用户的面部,
在所述用户的面部未进入到所述摄像机的视场角内的情况下,所述发声促进单元对所述用户促使发声。
6.根据权利要求5所述的对话装置,其特征在于,
所述对话装置还具备:人感传感器,对人进行感知,
在尽管所述人感传感器感知到人但是用户的面部未进入到所述摄像机的视场角内的情况下,所述发声促进单元对所述用户促使发声。
7.根据权利要求5所述的对话装置,其特征在于,
在因为所述用户从后面抱着该对话装置所以用户的面部未进入到所述摄像机的视场角内的情况下,所述发声促进单元对所述用户促使发声。
8.根据权利要求5所述的对话装置,其特征在于,
所述对话装置还具备:保持判定单元,判定是否为表示本机被用户保持的保持状态,
在尽管所述保持判定单元判定是所述保持状态但是所述用户的面部未进入到所述摄像机的视场角内的情况下,所述发声促进单元对所述用户促使发声。
9.根据权利要求8所述的对话装置,其特征在于,
所述对话装置还具备:加速度传感器,测定3个轴的加速度,
在将所述加速度传感器测定出的各轴各自的分量进行合成而得到的加速度的大小持续给定时间超过第一阈值的情况下,所述保持判定单元判定是所述保持状态。
10.根据权利要求9所述的对话装置,其特征在于,
所述对话装置还具备:重置单元,对由所述认证单元进行的所述用户的认证进行重置,
在通过所述对话控制单元与所述用户进行对话的过程中,在将所述加速度传感器测定出的各轴各自的分量进行合成而得到的加速度的大小持续给定时间超过比所述第一阈值大的第二阈值的情况下,所述重置单元对由所述认证单元进行的所述用户的认证进行重置。
11.根据权利要求10所述的对话装置,其特征在于,
当持续给定期间从所述加速度传感器输出所述第二阈值以上的加速度,且探测到所述加速度传感器的轴变化时,所述保持判定单元判定本机被第三者保持。
12.根据权利要求4所述的对话装置,其特征在于,
在所述认证单元通过声音和图像不能认证所述用户的情况下,所述发声促进单元向该用户进行提问来促使发声,
所述认证单元根据针对所述提问的所述用户的声音进行该用户的认证。
13.根据权利要求4所述的对话装置,其特征在于,
在所述认证单元通过声音和图像不能认证所述用户的情况下,所述发声促进单元改变本机的动作或表情来对该用户促使发声,
所述认证单元根据针对所述动作或表情的所述用户的声音进行该用户的认证。
14.根据权利要求1所述的对话装置,其特征在于,
所述对话装置还具备:保持判定单元,判定是否为表示本机被用户保持的保持状态,
在所述认证单元不能认证所述用户且所述保持判定单元判定是被该用户保持的保持状态的情况下,所述发声促进单元对该用户促使发声。
15.根据权利要求14所述的对话装置,其特征在于,
所述对话装置还具备:
第三者保持判定单元,在通过所述对话控制单元与所述用户进行对话的过程中判定是否由该用户以外的第三者保持了本机;以及
重置单元,在由所述第三者保持判定单元判定所述第三者保持了本机的情况下,对由所述认证单元进行的所述用户的认证进行重置。
16.一种机器人,具备权利要求1所述的对话装置。
17.一种对话方法,其特征在于,包括:
认证步骤,进行用户的认证;
发声促进步骤,在所述认证步骤中不能认证所述用户的情况下,对所述用户促使发声;以及
对话控制步骤,在根据被促使发声的所述用户的声音在所述认证步骤中能够认证该用户的情况下,进行与认证了的该用户相应的对话。
18.一种存储介质,存储有用于使计算机作为如下单元而发挥作用的程序:
认证单元,进行用户的认证;
发声促进单元,在所述认证单元不能认证的情况下,促使所述用户的发声;以及
对话控制单元,在所述认证单元根据被促使发声的所述用户的声音能够认证该用户的情况下,进行与认证了的该用户相应的对话。
CN201611019757.0A 2015-12-14 2016-11-17 对话装置、机器人、对话方法以及存储介质 Active CN107053186B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2015243001A JP6693111B2 (ja) 2015-12-14 2015-12-14 対話装置、ロボット、対話方法及びプログラム
JP2015-243001 2015-12-14

Publications (2)

Publication Number Publication Date
CN107053186A true CN107053186A (zh) 2017-08-18
CN107053186B CN107053186B (zh) 2020-10-27

Family

ID=59018726

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611019757.0A Active CN107053186B (zh) 2015-12-14 2016-11-17 对话装置、机器人、对话方法以及存储介质

Country Status (3)

Country Link
US (1) US10614203B2 (zh)
JP (1) JP6693111B2 (zh)
CN (1) CN107053186B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107863108A (zh) * 2017-11-16 2018-03-30 百度在线网络技术(北京)有限公司 信息输出方法和装置
CN109756342A (zh) * 2019-01-16 2019-05-14 中民乡邻投资控股有限公司 一种基于声纹的对话交流式的账号身份认证方法及装置
CN110364164A (zh) * 2018-03-26 2019-10-22 卡西欧计算机株式会社 对话控制装置、对话系统、对话控制方法以及存储介质
CN111183322A (zh) * 2017-10-11 2020-05-19 三菱电机株式会社 空气调节用控制器

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10275651B2 (en) * 2017-05-16 2019-04-30 Google Llc Resolving automated assistant requests that are based on image(s) and/or other sensor data
JP6942557B2 (ja) * 2017-08-17 2021-09-29 京セラ株式会社 対話型電子機器、コミュニケーションシステム、方法、およびプログラム
CN107393541B (zh) * 2017-08-29 2021-05-07 百度在线网络技术(北京)有限公司 信息验证方法和装置
CN107808145B (zh) * 2017-11-13 2021-03-30 河南大学 基于多模态智能机器人的交互身份鉴别与跟踪方法及系统
CN108882032A (zh) * 2018-06-08 2018-11-23 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
JP7013331B2 (ja) * 2018-06-14 2022-01-31 ヤフー株式会社 抽出装置、抽出方法および抽出プログラム
JP7326707B2 (ja) * 2018-06-21 2023-08-16 カシオ計算機株式会社 ロボット、ロボットの制御方法及びプログラム
JP7107017B2 (ja) * 2018-06-21 2022-07-27 カシオ計算機株式会社 ロボット、ロボットの制御方法及びプログラム
JP6909189B2 (ja) * 2018-08-27 2021-07-28 Kddi株式会社 ユーザ発話テキストに応じてエージェントを交代させるプログラム、サーバ及び方法
CN109262621A (zh) * 2018-09-26 2019-01-25 苏州米机器人有限公司 底盘、包括这种底盘的自助服务机器人及其自主寻人方法
KR20200045821A (ko) 2018-10-23 2020-05-06 삼성전자주식회사 전자의무기록에 기반하여 대화서비스를 제공하는 전자 장치 및 방법
JP6667878B1 (ja) * 2018-12-14 2020-03-18 株式会社ポケモン 着ぐるみ演出支援装置、着ぐるみ演出支援システムおよび着ぐるみ演出支援方法
JP7329457B2 (ja) * 2018-12-14 2023-08-18 株式会社ポケモン 着ぐるみ演出支援装置、着ぐるみ演出支援システムおよび着ぐるみ演出支援方法
CN111326143B (zh) * 2020-02-28 2022-09-06 科大讯飞股份有限公司 语音处理方法、装置、设备及存储介质
CN113160826B (zh) * 2021-03-01 2022-09-02 特斯联科技集团有限公司 一种基于人脸识别的家庭成员通联方法和系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1591569A (zh) * 2003-07-03 2005-03-09 索尼株式会社 语音通信系统和方法、及机器人装置
CN1720520A (zh) * 2002-12-02 2006-01-11 索尼株式会社 对话控制设备和方法,以及机器人设备
US20100115114A1 (en) * 2008-11-03 2010-05-06 Paul Headley User Authentication for Social Networks
CN202257700U (zh) * 2010-08-05 2012-05-30 北京海鑫智圣技术有限公司 多认证模式出入控制系统
CN103729193A (zh) * 2014-01-11 2014-04-16 苏州思必驰信息科技有限公司 一种人机交互方法及装置
US20140172430A1 (en) * 2012-12-19 2014-06-19 Robert Rutherford System and method for voice authentication
CN203861914U (zh) * 2014-01-07 2014-10-08 深圳市中科睿成智能科技有限公司 一种宠物机器人

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4250635B2 (ja) * 1999-03-05 2009-04-08 株式会社バンダイナムコゲームス 仮想ペット装置及びその制御プログラム記録媒体
JP2002116792A (ja) * 2000-10-11 2002-04-19 Sony Corp ロボット制御装置およびロボット制御方法、並びに記録媒体
JP2002307354A (ja) * 2000-11-07 2002-10-23 Sega Toys:Kk 電子玩具
JP3879719B2 (ja) * 2003-08-22 2007-02-14 松下電器産業株式会社 画像入力装置およびそれを用いた認証装置
JP2006006586A (ja) * 2004-06-25 2006-01-12 Partners:Kk 玩具
US8255223B2 (en) * 2004-12-03 2012-08-28 Microsoft Corporation User authentication by combining speaker verification and reverse turing test
JP2006208964A (ja) * 2005-01-31 2006-08-10 Yec Co Ltd 会話装置
ATE524784T1 (de) * 2005-09-30 2011-09-15 Irobot Corp Begleitroboter für persönliche interaktion
JP2007152444A (ja) 2005-12-01 2007-06-21 Mitsubishi Heavy Ind Ltd 自走式ロボットおよび情報管理システム
JP2007156688A (ja) * 2005-12-02 2007-06-21 Mitsubishi Heavy Ind Ltd ユーザ認証装置およびその方法
TWI332179B (en) * 2007-04-13 2010-10-21 Univ Nat Taiwan Science Tech Robotic system and method for controlling the same
US20090083826A1 (en) * 2007-09-21 2009-03-26 Microsoft Corporation Unsolicited communication management via mobile device
JP2009178783A (ja) * 2008-01-29 2009-08-13 Toyota Motor Corp コミュニケーションロボット及びその制御方法
JP2010094799A (ja) * 2008-10-17 2010-04-30 Littleisland Inc 人型ロボット
JP2009151314A (ja) * 2008-12-25 2009-07-09 Sony Corp 情報処理装置及び情報処理方法
KR101041039B1 (ko) * 2009-02-27 2011-06-14 고려대학교 산학협력단 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법 및 장치
US9526006B2 (en) * 2010-11-29 2016-12-20 Biocatch Ltd. System, method, and device of detecting identity of a user of an electronic device
US8838988B2 (en) * 2011-04-12 2014-09-16 International Business Machines Corporation Verification of transactional integrity
US9548054B2 (en) * 2012-05-11 2017-01-17 Mediatek Inc. Speaker authentication methods and related methods of electronic devices using calendar data
US20160150124A1 (en) * 2014-11-24 2016-05-26 Kyocera Document Solutions Inc. Image Forming Apparatus with User Identification Capabilities
US20180165931A1 (en) * 2016-12-14 2018-06-14 Nanjing Avatarmind Robot Technology Co., Ltd. Robot security inspection method based on environment map and robot thereof

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1720520A (zh) * 2002-12-02 2006-01-11 索尼株式会社 对话控制设备和方法,以及机器人设备
CN1591569A (zh) * 2003-07-03 2005-03-09 索尼株式会社 语音通信系统和方法、及机器人装置
US20100115114A1 (en) * 2008-11-03 2010-05-06 Paul Headley User Authentication for Social Networks
CN202257700U (zh) * 2010-08-05 2012-05-30 北京海鑫智圣技术有限公司 多认证模式出入控制系统
US20140172430A1 (en) * 2012-12-19 2014-06-19 Robert Rutherford System and method for voice authentication
CN203861914U (zh) * 2014-01-07 2014-10-08 深圳市中科睿成智能科技有限公司 一种宠物机器人
CN103729193A (zh) * 2014-01-11 2014-04-16 苏州思必驰信息科技有限公司 一种人机交互方法及装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111183322A (zh) * 2017-10-11 2020-05-19 三菱电机株式会社 空气调节用控制器
CN111183322B (zh) * 2017-10-11 2021-12-10 三菱电机株式会社 空气调节用控制器
CN107863108A (zh) * 2017-11-16 2018-03-30 百度在线网络技术(北京)有限公司 信息输出方法和装置
CN107863108B (zh) * 2017-11-16 2021-03-23 百度在线网络技术(北京)有限公司 信息输出方法和装置
CN110364164A (zh) * 2018-03-26 2019-10-22 卡西欧计算机株式会社 对话控制装置、对话系统、对话控制方法以及存储介质
CN110364164B (zh) * 2018-03-26 2023-12-05 卡西欧计算机株式会社 对话控制装置、对话系统、对话控制方法以及存储介质
CN109756342A (zh) * 2019-01-16 2019-05-14 中民乡邻投资控股有限公司 一种基于声纹的对话交流式的账号身份认证方法及装置

Also Published As

Publication number Publication date
JP2017108767A (ja) 2017-06-22
CN107053186B (zh) 2020-10-27
US10614203B2 (en) 2020-04-07
JP6693111B2 (ja) 2020-05-13
US20170169203A1 (en) 2017-06-15

Similar Documents

Publication Publication Date Title
CN107053186A (zh) 对话装置、机器人、对话方法以及存储介质
US20240054118A1 (en) Artificial intelligence platform with improved conversational ability and personality development
US20190172448A1 (en) Method of performing multi-modal dialogue between a humanoid robot and user, computer program product and humanoid robot for implementing said method
US9724824B1 (en) Sensor use and analysis for dynamic update of interaction in a social robot
US10777199B2 (en) Information processing system, and information processing method
Mariooryad et al. Building a naturalistic emotional speech corpus by retrieving expressive behaviors from existing speech corpora
US10157619B2 (en) Method and device for searching according to speech based on artificial intelligence
JP5017534B2 (ja) 飲酒状態判定装置及び飲酒状態判定方法
CN110675871A (zh) 一种语音识别方法及装置
CN101292281A (zh) 发音诊断装置、发音诊断方法、存储媒介、以及发音诊断程序
Zhang et al. Multimodal Deception Detection Using Automatically Extracted Acoustic, Visual, and Lexical Features.
CN108810625A (zh) 一种多媒体数据的播放控制方法、装置及终端
CN106951433A (zh) 一种检索方法及装置
KR101315734B1 (ko) 텍스트의 정서 단어 추출을 통한 정서 분석 장치 및 방법, 그리고 그 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 기록매체
JPWO2018061839A1 (ja) 送信装置、送信方法及び送信プログラム
US20220035840A1 (en) Data management device, data management method, and program
JP7370050B2 (ja) 読唇装置及び読唇方法
US20230052442A1 (en) Analyzing Objects Data to Generate a Textual Content Reporting Events
Kay et al. Partial inversion in English
US20220036381A1 (en) Data disclosure device, data disclosure method, and program
KR102287325B1 (ko) 외형 이미지를 고려한 음성 합성 장치 및 음성 합성 방법
CN111967380A (zh) 内容推荐方法及系统
JP6930781B1 (ja) 学習方法、及びコンテンツ再生装置
JP7188601B2 (ja) 学習装置、推定装置、それらの方法、およびプログラム
US11658928B2 (en) Virtual content creation method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant