CN1507617A - 学习器材和学习方法,以及机器人设备 - Google Patents

学习器材和学习方法,以及机器人设备 Download PDF

Info

Publication number
CN1507617A
CN1507617A CNA038002256A CN03800225A CN1507617A CN 1507617 A CN1507617 A CN 1507617A CN A038002256 A CNA038002256 A CN A038002256A CN 03800225 A CN03800225 A CN 03800225A CN 1507617 A CN1507617 A CN 1507617A
Authority
CN
China
Prior art keywords
destination object
name
recognition
parts
new
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA038002256A
Other languages
English (en)
Other versions
CN1241168C (zh
Inventor
�´���
下村秀树
青山一美
����һ
山田敬一
浅野康治
־
大久保厚志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN1507617A publication Critical patent/CN1507617A/zh
Application granted granted Critical
Publication of CN1241168C publication Critical patent/CN1241168C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Robotics (AREA)
  • Manipulator (AREA)
  • Toys (AREA)
  • Image Analysis (AREA)

Abstract

以往的机器人设备等不能自然地进行名字学习。学习一个对象的名字是按以下方式进行的:通过与人类对话来得到目标对象的名字,该名字与对于目标对象所检测到的多项不同特征数据相关联而存储,并基于所存储的数据和关联信息识别新对象,得到了新人的名字和特征数据并存储了该关联信息。

Description

学习器材和学习方法,以及机器人设备
技术领域
本发明涉及学习器材和学习方法,以及机器人设备,并最适用于诸如娱乐机器人。
背景技术
近年,已开发了一定数量用于商业目的的家用娱乐机器人,用于商业化用途。其中一些娱乐机器人被装以诸如CCD(电荷耦合器件)照相机和麦克风等各种外传感器,从而被设计成基于此外传感器的输出而识别外部环境,并基于识别结果而自主活动。
若这种娱乐机器人能记住新对象(包括人类,下同)的与之关联的名字,则他们就更能游刃有余地与用户沟通,此外,他们还能够对例如由用户下达的“踢球”等各种与对象有关的指令而不仅是事先注册了名字的对象灵活地做出反应。注意到,如上述记住对象的与之关联的名字被表达成“学习名字”,而以下将这种功能称作“名字学习功能”。
进而,若通过在娱乐机器人中提供这种名字学习功能、就像人类会做的那样,以使娱乐机器人能通过对话来学习新对象的名字,则从贴近自然的角度看是上佳的,并能期待娱乐机器人的娱乐特性可增加更多。
以往的技术中存在的问题却是:难以让娱乐机器人判断摆在它面前的新对象的名字应不应该学习。
有鉴于此,在以往的技术中,用户下达一条清晰的话音指令或按下特定的触觉传感器、以将操作模式变成注册模式,从而使对象被识别并被注册其名字。然而,当考虑到用户与娱乐机器人之间的自然互动时,却存在以下问题:与这种清晰指示而响应的名字注册却十分不自然。
发明内容
本发明是考虑了以上几点而做出的,目的在于提出一种学习器材和学习方法,以及机器人设备,其可大大增强娱乐特性。
为了解决那些问题,在本发明中,学习器材包括:对话装置,其具有与人类对话的能力,用来通过对话从人类获得目标对象的名字;数个识别装置,用来检测目标对象的规定的不同特征,并用来基于检测结果、和与事先存储的已知对象对应的特征数据来识别目标对象;存储装置,用来存储关联信息,其中已知对象的名字与由识别装置获得的关于对象的识别结果互相关联;判断装置,用来基于由对话装置获得的目标对象的名字、由识别装置获得的目标对象的识别结果、和存储在存储装置中的关联信息,判断目标对象是不是新对象;和控制装置,用来当判断装置判断目标对象是新对象时,让识别装置存储目标对象的特征的对应数据,并让存储装置存储关于目标对象的关联信息。
结果,此学习器材可自然地通过与凡人的对话来学习新人、新对象等的名字,就像人类常做的那样,而不必为了响应给出声音指令或按下触觉传感器等用户的清晰指示而注册名字了。
同样,在本发明中,学习方法包括:第一步,与人类对话,并通过对话从人类获得目标对象的名字,以及检测目标对象的数个规定的不同特征,并基于检测结果、和事先存储的已知对象的特征数据来识别目标对象;第三步,基于:所获得的目标对象的名字、以目标对象各特征为基础的识别结果、和将事先存储的已知对象的名字与由识别装置产生的关于对象的识别结果相关联的关联信息,判断目标对象是不是新对象;和第四步,当判断目标对象是新对象时,存储目标对象的各特征的数据、和关于目标对象的关联信息。
结果,根据此学习方法,能够自然地通过与凡人的对话来学习新人、新对象等的名字,就像人类常做的那样,而不必为了响应给出声音指令或按下触觉传感器等用户的清晰指示而注册名字了。
进而,在本发明中,机器人设备包括:对话装置,其具有与人类对话的能力,用来通过对话从人类获得目标对象的名字;数个识别装置,用来检测目标对象的规定的不同特征,并用来基于检测结果、和与事先存储的已知对象对应的特征数据来识别目标对象;存储装置,用来存储关联信息,其将已知对象的名字与由识别装置获得的关于对象的识别结果相关联;判断装置,用来基于由对话装置获得的目标对象的名字、由识别装置获得的目标对象的识别结果、和存储在存储装置中的关联信息,判断目标对象是不是新对象;和控制装置,用来当判断装置判断目标对象是新对象时,让识别装置存储目标对象的特征的对应数据,并让存储装置存储关于目标对象的关联信息。
结果,此机器人设备可自然地通过与凡人的对话来学习新人、新对象等的名字,就像人类常做的那样,而不必为了响应给出声音指令或按下触觉传感器等用户的清晰指:而注册名字了。
附图说明
图1是表示本实施例中机器人的外部构造的透视图;
图2是表示本实施例中机器人的外部构造的透视图;
图3是用于解释本实施例中机器人的外部构造的原理图;
图4是用于解释本实施例中机器人的内部构造的原理图;
图5是用于解释本实施例中机器人的内部构造的原理图;
图6是用于解释主控制部件40有关名字学习功能的处理的框图;
图7是用于解释将FID和SID与内存中名字关联的概念图;
图8是表示名字学习处理例程的流程图;
图9是表示名字学习处理例程的流程图;
图10是表示名字学习处理中对话示例的原理图;
图11是表示名字学习处理中对话示例的原理图;
图12是用于解释FID和SID与名字的新注册的概念图;
图13是表示字学习处理中对话示例的原理图;
图14是表示字学习处理中对话示例的原理图;
图15是表示声音识别部件的构成框图;
图16是用于解释辞典的框图;
图17是用于解释语法规则的概念图;
图18是用于解释存储在特征向量缓冲中的内容的概念图;
图19是用于解释积分单的概念图;
图20是表示声音识别处理例程的流程图;
图21是表示未注册词处理例程的流程图;
图22是表示音群分割处理例程的流程图;
图23是表示仿真结果的概念图;
图24是表示在学习中的面孔识别部件的构成框图;
图25是表示在识别中的面孔识别部件的构成框图。
具体实施方式
以下,参照附图来详细说明实施本发明的一种方式。
(1)本实施例中的机器人的构造
在图1和2中,序号1表示本实施例中的两足直立行走机器人的全体,其中头部3置于躯干部2上,同属该构造的臂部4A、4B分别摆放在躯干部2的左上和右上侧,而同属该构造的腿部5A、5B则分别摆放在躯干部2的左下和右下侧。
躯干部2由形成上半身的框架10和形成下半身的腰基11构成,此二者皆经腰关节机构12连接,并将上半身设计成通过驱动固定在下半身的腰基11上的腰关节机构12的马达A1、A2,可绕如图3所示互相正交的前后向轴13和左右向轴14独立旋转。
而且,头部3固定在肩基15的上部中央,该肩基15经颈关节机构16固定在框架10的上端,并将该头部设计成通过驱动颈关节机构16的马达A3、A4,能够绕如图3所示互相正交的左右向轴17和上下向轴18独立旋转。
进而,臂部4A、4B经肩关节机构19分别固定在肩基15的左右,并被设计成通过驱动对应的肩关节机构19的马达A5、A6,能够绕如图3所示互相正交的左右向轴20和前后向轴21独立旋转。
在此情形下,对于各臂部4A、4B,形成上臂的马达A7的外向轴经肘关节机构22链接形成前臂的马达A8,而手部附加至前臂的前端。
并且,对于臂部4A、4B,其前臂被设计成通过驱动马达A7绕图3所示的上下向轴24旋转,并通过驱动马达A8绕图3所示的左右向轴25旋转。
另一方面,各腿部5A、5B经臀关节机构26附加至下半身的腰基11,并被设计成通过驱动对应的臀关节机构26的马达A9-A11能够绕如图3所示互相正交的上下向轴27、前后向轴28和左右向轴29独立旋转。
在此情形下,将构造设计成使得对于各腿部5A、5B,形成小腿的框架32经膝关节机构31链接形成大腿的框架30的下端,而足部34经踝关节机构33链接框架32的下端。
因此,对于腿部5A、5B,其小腿被设计成通过驱动形成膝关节机构31的马达A12能够绕图3所示的左右向轴35旋转,而其足部34通过驱动形成踝关节机构33的马达A13-A14能够绕如图3所示互相正交的左右向轴36和前后向轴37独立旋转。
另一方面,如图4所示,在形成躯干部2下半身的腰基11背面,设有控制部件42的小盒,其内装有主控制部件40,用来控制整个机器人的整个动作,包括电源电路和通信电路的周边电路41和电池45(图5)等。
并且,此控制部件42连接至子控制部件43A~43D、其设在各组成部位(躯干部2、头部3、臂部4A,4B、和腿部5A,5B)内,并将该控制部件设计成能够进行向这些子控制部件43A~43D提供必要的电源电压以及与这些子控制部件43A~43D通讯。
而且,各子控制部件43A~43D连接至对应组成部件的各马达A1~A14,这些子控制部件43A~43D被设计成能够以从主控制部件40给出的各种指令所指定的方式来驱动对应组成部件的各马达A1~A14
进而,如图5所示,在头部3上的所定位置设有组件,例如外传感器部件53,其由充当机器人1的“眼”的CCD(电荷耦合器件)照相机50和充当机器人1的“耳”的麦克风51,以及触觉传感器52,和充当“口”的扬声器54,而在控制部件42内部设有由电池传感器55和加速传感器56组成的内传感器部件57。
并且,外传感器部件53的CCD照相机50摄取周遭环境,而所摄视频信号S1A被发送至主控制部件,同时麦克风51收集的诸如作为声音输入的用户语音,其指示“行走”、“躺倒”和“追球”等各种指令,并将得到的音频信号S1B发送至主控制部件40。
而且,从图1和图2看很显然,触觉传感器52处于头部53的顶上,它检测由用户施加的“敲”和“拍”等物理作用而产生的压力,而该检测结果作为压力检测信号S1C被发送至主控制部件40。
进而,内传感器部件57中的电池传感器55在所定间隙处检测电池45的能量水平,而该检测结果作为电池水平检测信号S2A被发送至主控制部件40,同时加速传感器56在所定间隙处检测三轴(x轴,y轴,和z轴)向的加速,而该检测结果作为加速检测信号S2B被发送至主控制部件40。
主控制部件40基于分别从外传感器部件53的CCD照相机50、麦克风51、触觉传感器52等分别供给视频信号S1A、音频信号S1B、压力检测信号S1C等(以下将他们合称做“外传感器信号S1”),以及分别从内传感器部件57的电池传感器55、加速传感器等分别供给的电池水平检测信号S2A、加速检测信号S2B等(以下将他们合称做“内传感器信号S2”),判断机器人1的周围和内部状况、来自用户的指令、以及来自用户的影响的存在等。
主控制部件40基于判断结果、事先存储在内存40A中的控制程序、和存储在已安装的外存58中的各种控制参数,确定后续行动,并基于确定结果向相关子控制部件43A~43D发送控制指令。结果,对应的马达A1~A14基于控制指令并在子控制部件43A~43D的控制下被带动,从而让机器人1行动,例如抬头或低头、左转或右转头部3,举起臂部4A、4B,和行走。
在此关头,主控制部件40还按需要向扬声器54馈送所定音频信号S3,以基于音频信号S3而输入声音,或向置于头部3所定位置处的充当“眼”外形的LED馈送驱动信号,以使LED闪烁。
于是机器人1被设计成能够基于周遭和内部状况、指令、来自用户的影响而自主举止。
(2)主控制部件40有关名字学习功能的处理
其次,对安装在机器人1上的名字学习功能给出解释。
此机器人1安装有名字学习功能,以得到并学习与人关联的名字(该过程以下称做“名字学习”),其方式是:通过与人对话得到此人的名字,并基于来自麦克风51和CCD照相机50的输出,存储与语音的各声学特征和检测到的人的形貌特征相关联的名字,接着,基于已存储的数据发现未曾得到其名的新的出场人,以上述同样方式得到并存储名字、语音的声学特征和新人的形貌特征。注意到以下将与语音的声学特征和此人的形貌特征相关联而存储其名的人称做“熟人”,而未曾存储其名的人称做“新人”。
并且,此名字学习功能是由主控制部件40中的各种处理来实现的。
此处,主控制部件40有关名字学习功能的处理内容可按功能划分如下,如图6所示,声音识别部件60,用来识别人朗读的词;讲话者识别部件61,用来检测人的语音的声学特征,并用来基于检测到的声学特征识别和识别人;面孔识别部件62,用来检测人面孔的形貌特征,并用来基于检测到的形貌特征识别和识别人;对话控制部件63,其负责用于新人名字学习的各种控制,包括控制与人对话,还负责名字、语音的声学特征和熟人面孔的形貌特征的存储管理;以及声音合成器64,用来生成并向扬声器54(图5)发送音频信号S3,用于对话控制部件63控制下的各种对话。
在此情形下,声音识别部件60的功能是基于来自麦克风51(图5)的音频信号S1B、通过执行所定的声音识别处理而逐词识别音频信号S1B中的所含有的词,并被设计成将所识别的词作为字符串数据D1发送至对话控制部件63。
而且,讲话者识别部件61的功能是检测人的语音的声学特征,其来自麦克风所供给的音频信号S1B,这需利用在例如“隔离需识别的讲话者和讲话者识别(CH2977-7/91/0000~0837S1.00 1991 IEEE)”中记载的方法而进行所定的信号处理。
并且,在平常时候,讲话者识别部件61顺次将检测到的声学特征的数据与全部已存储的熟人的声学特征的数据做比较,并当在该时刻检测到的声学特征与任何熟人一致时,讲话者识别部件61将特定识别符(以下称做“SID”)通知给对话控制部件63,该识别符附加了与熟人的声学特征关联的声学特征,而当检测到的声学特征与任何熟人皆不一致时,将表示无法识别的SID(=-1)传达给对话控制部件63。
而且,当控制部件63识别人为新人时,讲话者识别部件61根据由对话控制部件63给的新学的开始和结束命令的时间周期的期间,检测语音的声学特征,并且,检测的语音的声学特征存储在相关联的新的SID内,该SID被传送到对话控制部件63。
注意到讲话者识别部件61被设计成能够进行积累学习,即积累地收集人的语音的声学特征,以及纠正学习,即纠正人的语音的声学特征,以响应从对话控制部件63给出的积累学习或纠正学习的起始和结束指令,从而正确地识别人。
面孔识别部件62的功能是一直注视着CCD照相机50(图5)所给的视频信号S1A,并基于视频信号S1A以规定的信号处理检测图像中所含的人面孔的外貌特征。
接着,在平常时候,面孔识别部件62顺次将检测到的形貌特征的数据与全部已存储的熟人的声学特征的数据做比较,并当在该时刻检测到的形貌特征与任何熟人一致时,面孔识别部件62将特定识别符(以下称做“FID”)通知给对话控制部件63,该识别符附加到与熟人的形貌特征关联的形貌特征,而当检测到的形貌特征与任何熟人皆不一致时,将表示无法识别的FID(=-1)传达给对话控制部件63。
而且,当对话控制部件63判断此人是新人时,面孔识别部件62检测图像所含的人面孔的形貌特征,该图像基于从CCD照相机50给出的视频信号S1A,且根据从对话控制部件63给出的学习起始指令和学习结束指令的期间的图像。而检测到的形貌特征与新的特定FID关联而存储,并将此FID传达给对话控制部件63。
注意到面孔识别部件62被设计成能够进行积累学习,即积累地收集人面孔的形貌特征,以及纠正学习,即纠正人面孔的形貌特征的数据,以响应从对话控制部件63给出的积累学习或纠正学习的起始和结束指令,从而正确地识别人。
声音合成器64的功能是将从对话控制部件63给出的字符串数据D2变换成音频信号S3,而如此得到的音频信号S3被发送至扬声器54(图5)。因此,基于音频信号S3的声音被设计成可由扬声器54输出。
如图7所示,对话控制部件63具有内存65(图6),以存储熟人的名字和与存储在讲话者识别部件61中的人的语音的声学特征的数据相关联的SID,其涉及与存储在面孔识别部件62中的人面孔的形貌特征的数据相关联的FID。
接着对话控制部件63被设计成在适宜时刻给予声音合成器64所定的字符串数据D2,以从扬声器54输出声音,从而询问谈话对方的名字或确认他的名字,并根据基于从此人在此刻的响应等的由声音识别部件60和讲话者识别部件61而产生的识别结果和由面孔识别部件62产生的此人的识别结果,以及上述熟人的名字和存储在内存65中的SID和FID的关联信息,判断此人是不是新人。
此后,当判断此人是新人时,对话控制部件63通过给予讲话者识别部件61和面孔识别部件62用于新学习的起始指令和结束指令,让讲话者识别部件61和面孔识别部件62收集和存储新人的语音的声学特征和面孔的形貌特征,结果是与分别从讲话者识别部件61和面孔识别部件62给出的新人的语音的声学特征和面孔的形貌特征相关联的SID和FID被存储在涉及从对话中得到的人名的内存65。
而且,当判断此人是熟人时,对话控制部件63通过给出如要求的用于积累学习和纠正学习的起始指令,让讲话者识别部件61和面孔识别部件62进行必要的积累学习和纠正学习,同时对话控制部件63被设计成进行对话控制,从而延续此人的聊侃,直到讲话者识别部件61和面孔识别部件62通过在适宜时刻顺次地将所定的字符串数据D2发送至声音合成器64,而能够收集适量的用于积累学习和纠正学习的必需数据。
(3)对话控制部件63有关名字学习功能的处理的具体处理
其次,对于由对话控制部件63处理的有关名字学习功能的具体内容给出解释。
对话控制部件63进行各种处理,用来根据如图8和图9所述的名字学习处理例程RT1、基于存储在外存58(图5)中的控制程序依次学习新人的名字。
即,当面孔识别部件62给出FID时,由于面孔识别部件62基于来自CCD照相机50的视频信号S1A识别人面孔,故对话控制部件63在步骤SP0处开始名字学习处理例程,并在下一步SP1处,基于存储在内存65中涉及带有对应SID和FID的熟人名字的信息(以下称之为“关联信息”),判断有无可能搜索对应于FID的名字(即,判断FID是不是意味着无法识别的“-1”)。
那末,在步骤SP1处得到肯定的结果意味着此人是熟人,带有存储在面孔识别部件62中的人面孔的形貌特征,并带有与存储在内存65中涉及此人名字的数据所对应的FID。然而,在此情形下,仍然可以想到:面孔识别部件62可能会将新人错认成熟人。
接着,当在步骤SP1处得到肯定的结果时,处理前进至步骤SP2,在此对话控制部件63将所定的字符串数据D2发送至声音合成器64,从而让扬声器54输出问询的声音,例如图10所示的“阁下是某某君吗?”,以确认此人的名字是否与使用FID检测到的名字(对应于上例中的某某君)一致。
此后,处理前往步骤SP3,在此对话控制部件63等候此人回答问题的声音识别结果,例如“是,我是。”或“不,我不是。”,其可望来自声音识别部件60。接着,当这一声音识别结果从声音识别部件60给出时、或当此刻讲话者识别结果的SID从讲话者识别部件61给出时,处理前进至步骤SP4,在此对话控制部件63基于来自声音识别部件60的声音识别结果,判断此人的回答是不是肯定性的。
在步骤SP4处获得肯定的结果意味着基于在步骤SP1处从面孔识别部件62给出的FID而检索的名字与此人的名字一致,并断定此人确实是要找的人,其名字是对话控制部件63检索的。
于是对话控制部件63此刻断定此人确实是要找的人,其名字是对话控制部件63检索的,并前进至步骤SP5,在此将积累学习的起始指令给予讲话者识别部件61。此刻,当首先从讲话者识别部件61给出的SID与可使用基于存储在内存65中关联信息的名字而检索的SID一致时,对话控制部件63此将积累学习的起始指令给予讲话者识别部件61,反之,而当不一致时,则给出纠正学习的起始指令。
此后,处理前往步骤SP6,在此对话控制部件63顺次将字符串数据D2发送至声音合成器64,以持续地寒暄而延长与此人的对话,例如图10所示的“今天天气不错,是吧?”而在过了所定的期间后,处理前进至步骤SP7,在此向讲话者识别部件61和面孔识别部件62发出积累学习或纠正学习的结束指令,而处理前进至步骤SP20,在此结束对于此人的名字学习处理。
另一方面,在步骤SP1处获得否定的结果意味着由面孔识别部件62识别面孔的人是新人,或面孔识别部件62将熟人错认成新人了。而且,在步骤SP4处等到否定的结果意味着使用从面孔识别部件62给出的FID而检索的名字与此人的名字不一致。在任一情形下,对话控制部件63被认为未处于正确认出此人的状态中。
接着,当在步骤SP1处得到否定的结果时,或当在步骤SP4处得到否定的结果时,处理前进至步骤SP8,在此对话控制部件63向声音合成器64馈送字符串D2,从而让扬声器54输出问询的声音,例如图11所示的“请问阁下尊姓?”,以获悉此人的名字。
接着处理前进至步骤SP9,在此对话控制部件63等候此人回答问题的声音识别结果(即,名字),例如“我是某某”,和在回答时刻讲话者识别部件61的讲话者识别结果(即,SID),其分别从声音识别部件60和讲话者识别部件61给出。
接着,当从声音识别部件60给出声音识别结果并从讲话者识别部件61给出SID时,处理前进至步骤SP10,在此对话控制部件63基于声音识别结果和SID,以及首先从面孔识别部件62给出的FID,判断此人是不是新人。
在该实施例的情形下,以上判断是由三种识别结果的多数决定做出的:由声音识别部件60识别声音的结果所得的名字,来自讲话者识别部件61的SID,和来自面孔识别部件62的FID。
例如,当来自讲话者识别部件61的SID和来自面孔识别部件62的FID双方皆显示意味着无法识别的“-1”时,并当按以上步骤基于来自声音识别部件60的声音识别结果而得到的人名不与内存65中的任何SID和FID关联时,判断此人为新人。此判断可根据某人长得不像任何一张面孔、语音也不像任何熟人而名字又是新名的情况而做出。
另一方面,当来自讲话者识别部件61的SID和来自面孔识别部件62的FID与内存65中的不同名字关联、或二者之一显示意味着无法识别的“-1”时,并当基于在步骤SP9处声音识别部件60的声音识别结果而得到的人名未存储在内存65中时,对话控制部件63判断此人是新人。这是因为,在各种识别处理的步骤中将此人判断为新人的置信度较高,因为一种新类别易于错误地被识别成任何已知类别,并考虑到听觉识别出的名字未注册的事实。
与此相反,当来自讲话者识别部件61的SID和来自面孔识别部件62的FID与内存65中的同一名字关联时,并当基于在步骤SP9处声音识别部件60的声音识别结果而得到的人名与SID和FID关联时,对话控制部件63判断此人是熟人。
而且,当来自讲话者识别部件61的SID和来自面孔识别部件62的FID与内存65中的不同名字关联时,并当基于在步骤SP9处声音识别部件60的声音识别结果而得到的人名与SID和FID之一关联时,对话控制部件63判断此人是熟人。在此情形下,判断由多数决定做出,因为讲话者识别部件61和面孔识别部件62的识别结果中可能有一个是错误的。
同时,当来自讲话者识别部件61的SID和来自面孔识别部件62的FID与内存65中的不同名字关联时,并当基于在步骤SP9处声音识别部件60的声音识别结果而得到的人名与内存65中的SID和FID皆不关联时,对话控制部件63不判断此人是熟人还是新人。在此情形下,可以想见:声音识别部件60、讲话者识别部件61、和面孔识别部件62之一或全部识别错了,但此时尚不能判断哪一个是错。所以在此情形下,判断被挂起。
在此判断处理之后,当在步骤S10处判断此人是新人时,处理前进至步骤SP11,在此对话控制部件63给予讲话者识别部件61和面孔识别部件62新学习的起始指令,而接着处理前往步骤SP12,在此对话控制部件63将字符串数据D2发送至声音合成器64,以继续谈话,从而延续此人的聊侃,例如图11所示的“我是机器人,幸会。”或“某某君,今天天气不错,是吧?”。
此后处理转往步骤SP13,在此对话控制部件63判断讲话者识别部件61中的声学特征数据和面孔识别部件62中的形貌特征数据二者的收集是否已达到足够量,而若得到否定的结果,则处理返回步骤SP12,并继而重复步骤SP12-SP13-SP12的循环,直到在步骤SP13处得到肯定的结果。
当在步骤SP13处得到肯定的结果,并且,讲话者识别部件61中的声学特征数据和面孔识别部件62中的形貌特征数据二者的收集已达到足够量时,处理前进至步骤SP14,在此对话控制部件63给予讲话者识别部件61和面孔识别部件62新学习的结束指令。结果,将声学特征数据存储在讲话者识别部件61中,且与新SID关联,并将形貌特征数据存储在面孔识别部件62中,且与新FID关联。
此后,处理前进至步骤SP15,在此对话控制部件63等候分别从讲话者识别部件61和面孔识别部件62给出SID和FID,并当给出它们时,例如图12所示,将它们在内存65中注册,与在步骤SP9处基于在步骤SP9处声音识别部件60的声音识别结果而得到的人名相关联。接着在对话控制部件63中的处理转向步骤SP20,并结束对于此人的名字学习处理。
另一方面,当在步骤SP10处判断此人是熟人时,处理前进至步骤SP16,当讲话者识别部件61和面孔识别部件62正确判断熟人(即,当讲话者识别部件61和面孔识别部件62输出同一SID或FID作为识别结果,而对应于作为关联信息存储在内存65中的熟人时)时,对话控制部件63给予讲话者识别部件61或面孔识别部件62积累学习的起始指令,而当讲话者识别部件61和面孔识别部件62不能正确判断熟人(当讲话者识别部件61和面孔识别部件62输出同一SID或FID作为识别结果,而对应于作为关联信息存储在内存65中的熟人时)时,对话控制部件63给予讲话者识别部件61或面孔识别部件62纠正学习的起始指令。
具体地说,当在步骤SP9处从讲话者识别部件61得到的SID和从面孔识别部件62给出的FID与内存65中同一名字关联时,同时当在步骤SP10处根据以下事实判断此人是熟人时:即基于声音识别部件60在步骤SP9处的识别结果而得到的名字是与SID和FID关联的名字,此时,对话控制部件63给予讲话者识别部件61和面孔识别部件62二者积累学习的起始指令。
而且,当在步骤SP9处从讲话者识别部件61得到的SID和从面孔识别部件62给出的FID与内存65中不同名字关联时,同时当在步骤SP10处根据以下事实判断此人是熟人时:即基于声音识别部件60在步骤SP9处的识别结果而得到的名字是与SID和FID之一关联的名字,此时,对话控制部件63给予讲话者识别部件61或面孔识别部件62之一积累学习的起始指令,其中识别部件61或面孔识别部件62已经产生了与基于声音识别部件60的识别结果而得到的名字相关联的SID或FID,并给予讲话者识别部件61或面孔识别部件62之一纠正学习的起始指令,其中识别部件61或面孔识别部件62已经产生了与基于声音识别部件60的识别结果而得到的名字无关联的SID或FID。
此后处理前往步骤SP17,在此对话控制部件63依次将一系列的字符串数据D2发送至声音合成器64以保持聊侃,从而延长与此人的对话,例如图13所示的“唉,阁下是某某君是吧,我想起您来了。今天天气不错,是吧?”或“我们何时见过面了?”而在过了所定的积累学习或纠正学习的足够期间后,处理前进至步骤SP18,在此向讲话者识别部件61和面孔识别部件62发出积累学习或纠正学习的结束指令,而处理前进至步骤SP20以终止对于此人的名字学习处理。
同时,当对话控制部件63在步骤SP10处判断无法确定此人是熟人还是新人时,处理前进至步骤SP19,并将一系列字符串数据D2依次发送至声音合成器64,以进行例如图14所示的聊侃:“噢,是吗?您好吗?”
并且,在此情形下,对话控制部件63不给予讲话者识别部件61或面孔识别部件62新学习、积累学习、或纠正学习的起始指令或结束指令(即,讲话者识别部件61和面孔识别部件62皆不得进行新学习、积累学习、或纠正学习),而在所定期间内处理前进至步骤SP20以终止对于此人的名字学习处理。
如此,对话控制部件63被设计成基于声音识别部件60、讲话者识别部件61、和面孔识别部件62的识别结果,而能够通过控制与人的对话和控制讲话者识别部件61和面孔识别部件62的操作来依次学习新人的名字。
(4)声音识别部件60和面孔识别部件62的具体构成
其次,对于声音识别部件60和面孔识别部件62的具体构成给出解释,以体现上述名字学习功能。
(4-1)声音识别部件60的具体构成
图15表示声音识别部件60的具体构成。
在此声音识别部件60中来自麦克风51的音频信号S1B进入AD(模数)变换器70。AD变换器70对供给的模拟信号的音频信号S1B进行取样和量化,使该模拟信号AD变换成数字信号的声音数据。将此声音数据馈送至特征抽取部件71。
特征抽取部件71基于合适的帧对输入的声音数据进行例如MFCC(Mel频率对数倒频谱系数,Mel Frequency Cepstrum Coefficient)分析,并向匹配部件72和未注册词处理部件76输出为特征向量(特征参数)MFCC,作为得到的分析结果。注意到特征抽取部件71能抽取诸如线性预测系数、对数倒频谱系数、线谱对、各所定频率的功率(滤波池的输出)等作为特征向量。
匹配部件72按需要参照声学模型存储部件73、辞典存储部件74、和语法存储部件75,基于诸如连续分布HMM(隐藏Markov模型),且使用来自特征抽取部件71的特征向量而识别进入麦克风51的音频态声音(输入声音)。
即,声学模型存储部件73存储声学模型(例如,HMM,或包括用作DP(动态编程)匹配的标准图谱等),其代表识别出的语言的单音素、音节和音素学等单词的声学特征。HMM(隐藏Markov模型)被用作声学模型是因为此处进行声音识别的基础是连续分布HMM方法。
辞典存储部件74识别辞典,其中,通过作为识别单位的音群而得到词音与词条的信息互相关联。
下面,图16表示存储在存储部件74中的辞典。
如图16所示,词条和在辞典音群中关联的音素系列在音素系列中为各对应词而构建。在图16的辞典中,一个条目(图16中的一行)对应于一个音群。
注意到图16中的条目以罗马字母和日本语字符(假名和汉字)二者、以及罗马字母中的音素系列来代表。然而,音素系列中的“N”却表明“N(ん)”,这是日本语中的鼻音音节。而且,图16中的一个音素系列被描述成一个条目,能将数个音素系列表述成一个条目。
返回图4,语法存储部件26存储语法规定,其描述在辞典存储部件25的辞典中注册的各词是如何链接(成句)的。
图17表示存储在语法存储部件75中的语法规定。注意到图17中的语法规定以EBNF(Extended Backus Naur Form)来描述。
在图17中,从一行开头到出现“;”的部分表达了一项语法规定。而且,以“$”开头的一群西文字母(行)表达了变量,同时不带“$”的一群西文字母(行)则表达了一个词条(图16中以罗马字母描述的条目)。此外,以一对〔〕括起来的部分可以省略,而标记〔|〕意味着应该选择摆在前后的任一词头(变量)。
因此,在图17中,例如在头一行(紧靠顶上的第一行)的语法规定“$col=〔kono|sono〕色は;”中,变量$col代表“konoiro wa(这个颜色)”或“sonoiro wa”(那个颜色)的一行词。
在图17所示的语法规定中,变量$sil和$garbage却未定义,变量$sil代表哑声学模型(哑模型),而变量$garbage本质上代表冗模型、其允许音素间的自由过渡。
再返回图15,匹配部件72参照辞典存储部件74的辞典,通过连接存储在声学模型存储部件73中的声学模型,而构成词的声学模型(词模型)。进而,匹配部件72参照存储在语法存储部件75中的语法规定而连接一些词模型,并基于字符向量,凭连续分布HMM方法,使用这些连接词识别输入麦克风51的声音。即,匹配部件72检测词模型系列,其从特征抽取部件71输出的时系列特征向量表示最高观察分值(可能性),并输出为与该词模型的系列对应的词条行的声音识别结果。
具体地说,匹配部件72将连接词模型与对应词链接起来,并基于字符向量,凭连续分布HMM方法,使用这些连接词识别输入麦克风51的声音。即,匹配部件72检测词模型系列,其从特征抽取部件71输出的时系列特征向量表示最高观察积分(可能性),并输出为与该词模型的系列对应的词条行的声音识别结果。
具体地说,匹配部件72就对应于连接词模型的一行词而言,累集各特征向量的出现概率(输出概率),以累集值作为积分,输出为积分最高的词条行的声音识别结果。
以上输出并输入麦克风51的声音识别结果作为字符串数据D1被输出至对话控制部件63。
在图17的实施例中,有一条语法规定「$pat1=$color1$garbage$color2;」(以下酌情称之为“非注册词规定”),其使用变量$garbage表明第9行(自顶上起第9行)上的冗模型,而当适用此非注册词规定时,匹配部件72检测对应于变量$garbage的声音部件作为非注册词的声音部件。此外,当使用非注册词规定时,匹配部件72检测非注册词的音素系,即作为变量$garbage所表明的冗模型中的过渡音素的音素系列。接着,当作为适用非注册词规定而得到了声音识别结果时,匹配部件72向非注册词处理部件76供给检测到的非注册词的声音部和音素系列。
注意到根据以上非注册词规定“$pat1=$color1$garbage$color2;”,在由变量$color1表明的注册在辞典中的词(行)的音素系列与由变量$color2表明的注册在辞典中的词(行)的音素系列之间检测到一个非注册词,然而,在此实施例中甚至也能将此非注册词规定使用于以下情形:即讲话中含数个非注册词,以及在辞典中注册的词(行)之间未放入非注册词的情形。
非注册词处理部件76暂时持有从特征抽取部件71供给的特征向量的系列(特征向量系列)。进而,当从匹配部件72收到非注册词的声音部和音素系列时,由于声音部出自暂时持有的特征向量系列,非注册词部处理部件76检测声音的特征向量系列。接着非注册词处理部件76将唯一的ID(身份)分配给来自匹配部件72的音素系列(非注册词),其与非注册词的音素系列和声音部中的特征向量系列一道被提供给特征向量缓冲77。
特征向量缓冲77暂时存储从非注册词处理部件76供给的非注册词ID、音素系列、和特征向量系列,其如图18所示互相关联。
在图18中,以1开始的序号作为识别符附于非注册词。因此,例如,在N个非注册词ID,音素系列和特征向量系列存储在特征向量缓冲77中的情形下,而当匹配部件72检测到非注册词的声音部和音素系列时,在非注册词处理部件76中将数值N+1附于非注册词作为ID,而非注册词的ID、音素系列和特征向量系列存储在特征向量缓冲77中,如图18中的虚线所示。
返回图15,音群部件78算出各其他非注册词(以下酌情称之为“新非注册词”)与早已存储在特征向量缓冲77中的非注册词(以下酌情称之为“早已存储的非注册词”)相关联的积分。
即,像在匹配部件72的情形下那样,将新非注册词作为输入声音、并将早已存储的非注册词作为在辞典中注册的词,音群部件78算出新非注册词与各早已存储的非注册词相对积分。具体地说,音群部件78通过参照特征向量缓冲77识别新非注册词的特征向量系列,并根据早已存储的非注册词的音素系列连接声学模型,凭所连接的声学模型算出积分,作为新非注册词的观察特征向量系列的可能性。
注意到存储在声学模型存储部件73中的声学模型用于此目的。
类似地,音群部件78算出新非注册词与各早已存储的非注册词相对的积分,并凭此积分更新存储在积分单存储部件79中的积分单。
进而,通过参照更新积分单,音群部件78从对早已得到的非注册词(早已存储的非注册词)进行音群化的音群中检测出附加新非注册词为新成员的音群。再进而,音群部件78基于同样的音群的成员将音群分成检测到新非注册词的音群的新成员,并基于分割结果,更新存储在积分单存储部件79中的积分单。
积分单存储部件79存储新非注册词与早已存储的非注册词相对积分,以及积分单,其相对于新非注册词而注册了早已存储的非注册词的积分及其他。
此处,图19表示积分单。
积分单由描述非注册词的“ID”、“音素系列”、“音群数”、“代表成员ID”和“积分”的条目组成。
同样存储在特征向量缓冲77中的内容由音群部件78注册为非注册词的“ID”、“音素系列”。“音群数”是指定该条目的非注册词是成员的音群的数,而该数由音群部件78指定并在积分单中注册。“代表成员ID”是作为代表成员的非注册词的ID,其代表该条目的非注册词是成员的音群,此代表成员ID使识别非注册词是成员的音群的代表成员成为可能。音群的代表成员由音群部件29得到,而代表成员ID注册至积分单上的代表成员ID。“积分”是各其他非注册词与此条目的非注册词相对的积分,如上述由音群部件78算出。
下面,假设例如N个非注册词的ID、音素系列、和特征向量系列存储在特征向量缓冲77中,注册至积分单上的是N个非注册词的ID、音素系列、音群数、代表ID、和积分。
而且,当新非注册词的ID、音素系列、和特征向量系列存储在特征向量缓冲77中时,积分单由图19中虚线所示在音群部件78中更新。
即,新非注册词的ID、音素系列、音群数、代表ID、和各早已存储的与新非注册词相对的非注册词积分(图19中的积分s(N+1,1),s(2,N+1),...s(N+1,N))被加到积分单。进而,新非注册词与各早已存储的非注册词相对的积分(图1 9中的积分s(N+1,1),s(2,N+1),...s(N+1,N))被附加到积分单。再进而,如后述,按需要对积分单上非注册词的音群数和代表成员ID进行置换。
在图19的实施例中,相对于ID为j的非注册词的ID为i的非注册词的积分(讲话)被表达成s(i,j)。
还将相对于ID为j的非注册词(的音素系列)的ID为i的非注册词的积分s(i,j)(讲话)也注册至积分单(图19)。因为积分s(i,j)是当检测到非注册词的音素系列时,在匹配部件72中算出的,故不必在音群部件78中进行计算。
再度返回图15,维护部件80基于在积分单存储部件79中更新的积分单而更新存储在辞典存储部件74中的辞典。
下面,按以下方式确定音群的代表成员。即,例如,从作为音群成员的非注册词中成为音群的代表成员,该代表成员是使得其余非注册词的积分总数最大的非注册词(其他置换做法可包括例如,由其余非注册词数去除总数所产生的平均值)。因此,在此情形下,假设属于音群的成员的成员ID以k表达,则代表成员是具有ID值为k(∈k)的成员,表达为以下表达式:
k=maxk{∑s(k3,k)}                    ......(1)
注意到在以上表达式(1)中,maxk{}意味着k使得{}内的值最大。而且,k3像k那样意味着属于音群的成员的ID。进而,∑意味着在全部属于音群的成员的ID上变化k3而产生的总数。
在如上确定代表成员的情形下,当音群成员是一两个非注册词时,不必要在确定代表成员中算出积分。即,当音群成员是单个非注册词时,该单个非注册词就是代表成员,而当音群成员是两个非注册词时,可以将两词中的任一个指定为代表成员。
绝不可能将确定代表成员的方法限制在上述一种,但是可能指定诸如一个非注册词为音群的代表成员,该非注册词是从使得特征向量空间中与各其余非注册词相对的距离总数最小的音群成员中拾取的非注册词。
在如上构造的声音识别部件60中,根据图20所示的声音识别处理例程RT2来进行声音识别处理,以识别输入麦克风51的声音,并进行对于非注册词的非注册词处理。
在实际中,当由人讲话而得到的音频信号S1B从麦克风51通过AD变换器70作为声音数据而提供给特征抽取部件71时,在声音识别部件60中,此声音识别处理例程RT2在步骤SP30处开始行动。
在下一步骤SP31中特征抽取部件71通过以所定的帧单位在声学上分析声音数据来抽取特征向量,而此特征向量的系列被提供给匹配部件72和非注册词处理部件76。
在后续步骤S32处,匹配部件76对于从特抽取部件71给出的特征向量系列进行上述积分计算,而在下一步骤S33处得到并输出词行的条目、其是基于积分计算得到的积分的声音识别结果。
进而,匹配部件72在下一步骤S34处判断在用户声音中含不含非注册词。
当在步骤S34处判断在用户声音中不含非注册词时,即,在没有应用上述非注册词规定“$pat1=$color1$garbage$color2;”而得到声音识别结果的情形下,处理前进至步骤S35,结果就终止了。
与以上相反,在步骤S34处,当判断在用户声音中含非注册词时,即,在应用上述非注册词规定“$pat1=$color1$garbage$color2;”而得到声音识别结果的情形下,在后续步骤S35处匹配部件23检测在非注册词规定中的变量$garbage对应的声音部来作为非注册词的声音部,并在此刻检测非注册词的音素系列,即作为在变量$garbage代表的冗模型中的音素过渡的音素系列,而非注册词的声音部和音素系列被提供给非注册词处理部件76,终止处理(步骤SP36)。
同时,暂时存储从特征抽取部件71供给的特征向量系列,当从匹配部件72供给的非注册词的声音部和音素系列时,非注册词部处理部件76在声音部中检测声音的特征向量系列。此外,非注册词部处理部件76将ID附加来自匹配部件72的非注册词(的音素系列),其与非注册词的音素系列和声音部中的特征向量系列一道被提供给特征向量缓冲77。
如以上方式,当新发现的非注册词(新非注册词)的ID、音素系列、和特征向量系列被存储在特征向量缓冲器77中时,根据图21所示非注册词处理例程RT3而开始非注册词处理的行动。
即,在声音识别部件60中,如上述,当新发现的非注册词(新非注册词)的ID、音素系列、和特征向量系列被存储在特征向量缓冲77中时,此非注册词处理例程在步骤SP40处开始行动,紧接着是步骤SP41,在此音群部件78读出来自特征向量缓冲77的新非注册词的ID和音素系列。
在下一步骤S42处,音群部件78通过参照积分单存储部件30中的积分单而判断是否存在早已得到(生成)的音群。
而且,当在步骤S42处判断不存在早已得到的音群时,即在新非注册词是头一个非注册词的情形下,而且积分单上不存在早已存储的非注册词的条目,则步骤前往步骤S43,在此音群部件78新生成一个以该新非注册词为代表成员的音群,并通过将关于新音群的信息和关于新非注册词的信息注册至积分单存储部件79中的积分单而更新积分单。
即,音群部件78将来自特征向量缓冲77的新非注册词的ID和音素系列注册至积分单(图19)。此外,音群部件78生成唯一的音群数,其作为新非注册词的音群数而注册至积分单。并且,音群部件78使新非注册词的ID注册至积分单中,而成为新非注册词的代表成员ID。在此情形下,因此,该新非注册词变成新音群的代表成员。
注意到在此时不进行积分计算,因为没有已存储的非注册词,无法籍以进行与新非注册词相对的积分计算。
在步骤S43的处理之后,处理前往步骤S52,在此维护部件80基于在步骤S43处更新的积分单而更新辞典存储部件74中的辞典,并终止处理(步骤SP54)。
即,在此情形下,由于生成了新音群,故维护部件31参照积分单中的音群数而识别新生成的音群。接着维护部件80将对应于音群的条目附加至辞典存储部件74中的辞典,并注册为新音群的代表成员的音素系列条目的音素系列,在此情形下即新非注册词的音素系列。
另一方面,当在步骤S42处判断存储已得到的音群时,即在新非注册词不是头一个非注册词的情形下,在积分单(图19)中存在已存储的非注册词的条目(行),处理前进至步骤S44,在此音群部件78算出已存储的非注册词与新非注册词相对的积分,并同时算出新非注册词与已存储的非注册词相对的积分。
换句话说,假设例如已存储的非注册词的ID为从1到N,而新非注册词的ID为N+1,则在音群部件78中算出N个已存储的非注册词与新非注册词相对的积分s(N+1,1),s(N+1,2),...s(N,N+1),其在图19中虚线所示的部分中,并算出新非注册词与N个已存储的非注册词相对的积分s(1,N+1),s(2,N+1),...s(N,N+1)。注意到在音群部件78中算出那些积分时必需新非注册词与N个已存储的非注册词的特征向量系列,不过,那些特征向量是参照特征向量缓冲28而识别的。
接着音群部件78将算出的积分与新非注册词的ID和音素系列附加至积分单,而处理前进至步骤S45。
在步骤S45,通过参照积分单(图19),音群部件78检测使得与新非注册词相对的积分s(N+1,i)(i=1,2,...,N)最高(最大)的代表成员的音群。换言之,音群部件78通过参照积分单上代表成员的ID而识别成为代表成员的已存储的非注册词,并进而通过参照积分单上的积分而检测已存储的非注册词,该词作为使得非注册词的积分最高的代表成员。而音群部件78检测具有已存储的非注册词的音群数的音群、其作为检测到的代表成员。
此后处理前往步骤S46,在此音群部件29将新非注册词附加至在步骤S45处检测到的音群的成员(以下酌情称之为“检测到的音群”)。即,音群部件78在积分单上将检测到的音群的代表成员的音群数写成新非注册词的音群数。
例如,在步骤S47处,音群部件78进行例如音群分割处理,以将检测到的音群一分为二,而处理前进至步骤S48。在步骤S48处,音群部件78判断检测到的音群是否已由步骤S47处的音群分割处理成功地一分为二了,而当判断分割成功时,处理前往步骤S49。在步骤S49处,音群部件78算出通过分割检测到的音群而产生的两个音群之间的音群距离(以下酌情将这两个音群称之为“第一子音群和第二子音群”)。
此处,第一子音群与第二子音群之间的音群距离例如定义如下。
假设第一子音群和第二子音群二者之中任一成员(非注册词)的ID由k代表,而第一子音群和第二子音群的任一代表成员(非注册词)由k1或k2代表,则在下式中:
D(k1,k2)=maxvalk{abs(log(s(k,k1))-log(s(k,k2)))}  ......(2)
值D(k1,k2)被定义成第一子音群与第二子音群之间的音群间距。
注意到在表达式(2)中abs()表明()中值的绝对值。而且,maxvalk{}指示{}中值的通过变化k而得到的最大值。而表达自然对数或常用对数。
下面,假设ID代表成员i作为成员#1,表达式(2)中的积分的倒数1/s(k,k1)对应于成员#k与代表成员k1之间的距离,而表达式(2)中的积分的倒数1/s(k,k2)对应于成员#k与代表成员k2之间的距离。根据表达式(2),因此,代表成员#k1与第一子音群的任何成员的间距,代表成员#k2与第二子音群的任何成员的间距,这两个间距之差的最大值即是第一与第二子音群之间的音群间距。
音群间距不限于上述,还可能指定以下作为音群间距,例如,由第一子音群的代表成员与第二子音群的代表成员的DP匹配而得到的特征向量空间中的距离累加。
在步骤S49的处理之后,处理前进至步骤S50,在此音群部件78判断第一与第二子音群之间的音群间距是否大于所定的阈值ξ(或所定的阈值ξ或更高)。
当在步骤S50处判断音群间距大于所定的阈值ξ时,即在作为检测到的音群的成员的多个非注册词将按声学特征被音群化为两个音群时,处理前往步骤S51,在此音群部件78将第一和第二子音群注册至积分单存储部件79中的积分单。
即,随着将唯一音群数分配给第一和第二子音群,音群部件78更新积分单,从而音群化至第一子音群的成员的音群数被指定为第一子音群的音群数,而音群化至第二子音群的成员的音群数被指定为第二子音群的音群数。
进而,音群部件78更新积分单,从而音群化至第一子音群的成员的成员ID被指定为第一子音群的代表成员ID,而音群化至第二子音群的成员的成员ID被指定为第二子音群的代表成员ID。
注意到有可能将检测到的音群的音群数分配给第一和第二子音群之一。
当由音群部件78按以上方式将第一和第二子音群注册至积分单时,处理从步骤S51转至步骤S52,在此维护部件80基于积分单而更新辞典存储部件74中的辞典,接着处理终止(步骤SP54)。
即,在此情形下,因为检测到的音群被分成第一和第二子音群,故维护部件80首先删除与检测到的音群对应的辞典中的条目。进而,维护部件80向辞典中附加与第一和第二子音群分别对应的两个条目,并将第一子音群的代表成员的音素系列注册为与第一子音群对应的条目的音素系列,同时将第二子音群的代表成员的音素系列注册为与第二子音群对应的条目的音素系列。
另一方面,当在步骤S48处判断步骤S47处的音群分割处理不能将检测到的音群一分为二,或当在步骤S50处判断第一与第二子音群的音群间距小于所定的阈值ξ时(换言之,在这种情形下:即作为检测到的音群的数个非注册词的声学特征不像第一和第二子音群,以致达到造成了音群化的地步),处理前进至步骤S53,在此音群部件78得到检测到的音群的新代表成员,并以此来更新积分单。
即,音群部件78对于附加了新非注册词的检测到的音群的各成员,通过参照积分单存储部件79中的积分单,而识别表达式(1)的计算的必要的积分s(k3,k)。进而,音群部件78使用识别出的积分s(k3,k)、基于表达式(1)而得到成为检测到的音群的新代表成员的成员ID。接着音群部件78将积分单(图19)中检测到的音群的各成员的代表成员ID改写成检测到的音群的新代表成员的ID。
此后处理前往步骤S52,在此维护部件80基于积分单而更新辞典存储部件74中的辞典,接着处理终止(步骤SP54)。
换句话说,在此情形下,维护部件80通过参照积分单而识别检测到的音群的新代表成员,并进而识别代表成员的音素系列。接着维护部件80将与辞典中检测到的音群对应的条目的音素系列置换成检测到的音群的新代表成员的音素系列。
下面,根据图22所示的音群分割处理例程RT4而进行图21中步骤SP47处的音群分割处理。
即,在声音识别处理部件60中,随着处理从图22的步骤SP46推进至步骤S47,音群分割处理例程RT4开始于步骤SP60处,而首先在步骤S61处音群部件78选择两个任意成员的组合,这两个成员从附加了新非注册词作为成员的检测到的音群中选出,皆是试验性代表成员。注意到以下酌情将此两个试验性代表成员称做“第一试验性代表成员”和“第二试验性代表成员”。
接着,在下一步骤S62处,音群部件78判断检测到的音群的成员是否可以一分为二,从而分别将第一试验性代表成员和第二试验性代表成员作为代表成员。
在此阶段有必要算出表达式(1)以确定第一或第二试验性代表成员是否可以作为代表成员,而用于此计算的积分s(k′,k)可通过参照积分单来识别。
当在步骤S62处判断检测到的音群的成员不可能一分为二、从而分别将第一试验性代表成员和第二试验性代表成员作为代表成员时,处理跳过步骤S62而前往步骤S64。
介时,当在步骤S62处判断检测到的音群的成员可以一分为二,从而分别将第一试验性代表成员和第二试验性代表成员作为代表成员时,处理前往步骤S63,接着音群部件78将检测到的音群的成员一分为二,从而分别将第一试验性代表成员和第二试验性代表成员作为代表成员,作为检测到的音群的分割结果,以分割出的一对双音群作为第一和第二子音群的候选(以下酌情称之为“一对候选音群”),而处理转至步骤S64。
在步骤S64处,音群部件78判断在检测到的音群的成员中是否还有一对成员未被选为第一和第二试验性代表成员对,而当判断是时,处理返回步骤S61,在此未被选为第一和第二试验性代表成员对的检测到的音群的一对成员被选择,随后重复相同处理。
而且,当在步骤S64处判断没有哪一对成员未被选为第一和第二试验性代表成员对时,处理前进至步骤S65,在此音群部件78判断是否有一对候选音群。
当在步骤S65处判断没有一对候选音群时,处理跳过步骤S66而返回。在此情形下,在图21的步骤S48处判断检测到的音群不可分割。
另一方面,当在步骤S65处判断存在一对候选音群时,处理前往步骤S66,在此音群部件78当有数对候选音群时,得到各对候选音群的两个音群的音群间距。接着音群部件78得到音群间距最小的一对候选音群,并分割此对候选音群以产生第一和第二子音群,而处理返回。注意到在仅有一对候选音群的情形下,他们被原样地作为第一和第二子音群。
在此情形下,在图21的步骤S48处判断检测到的音群已成功地进行了分割。
如上述,因为在音群部件78中附加了作为新成员的音群(检测到的音群)新非注册词被从进行了已得到的非注册词的音群化的音群中检测到,而随着新非注册词作为检测到的音群的新成员,检测到的音群基于检测到的音群的成员而被分割,容易将非注册词音群化至声学特征互相近似的那些(音群)。
此外,因为辞典是基于在维护部件80中的这种音群的结果而更新的,故容易将非注册词注册至防其变大的辞典。
而且,例如,若非注册词的声音部在匹配部件72中检测错了,则这一非注册词被音群化至另一音群,其与声音部通过分割检测到的音群而正确检测的非注册词分离。接着对应于此音群的条目被注册至辞典,不过,由于对应于此声音部的条目的音素系列检测不正确,故不会发生未来声音识别给出大积分的情况。因此,例如,一旦非注册词的声音部检测错了,则此错误几乎对未来声音识别没有影响。
现在,图23表示通过朗读非注册词而得到的音群化结果。注意到图23中的各条目(各行)表示一个音群。而且,图23的左列表示各音群的代表成员(非注册词)的音素系列,而图23的右列表示成为各音群的成员的非注册词的内容和数字。
即,例如,在图23中第一行的条目指示一个音群,其成员是仅朗读非注册词“furo(沐浴)”,而该代表成员的音素系列是“doroa:”。而且,例如第二行的条目指示一个音群,其成员是三次朗读非注册词“furo”,而该代表成员的音素系列是“kuro”。
进而,例如第七行的条目指示一个音群,其成员是四次朗读非注册词“hon(书)”,而该代表成员的音素系列是“NhoNde:su(ンホンデ一ス)”。而且,例如第八行的条目指示一个音群,其成员是一次朗读非注册词“orengi(橘子)”和十九(19)次朗读非注册词“hon(书)”,而该代表成员的音素系列是“ohoN(オホン)”。其他条目的指示类似。
根据图23,可见对于同样的非注册词的朗读进行了正确音群化。
对于图23中第8行的条目,将一次朗读非注册词“orengi(橘子)”和十九(19)次朗读非注册词“hon(书)”音群化至同一音群。根据朗读是音群成员,可认为此音群应是非注册词“hon(书)”的音群,不过,非注册词“orengi”的朗读也是该音群的成员。随着不断输入非注册词“hon(书)”的朗读,此音群也由音群化而分割,导致音群化可按如下方式进行:即产生音群,其成员仅是朗读非注册词“hon(书)”,以及音群,其成员仅是朗读非注册词“orengi”。
(4-2)面孔识别部件62的具体构成
下面,对于面孔识别部件62的具体构成给出解释。
如图24和25所示,面孔识别部件62能够在动态变化的环境下,在所定的周期内响应,该面孔识别部件62包括面孔抽取处理部件90,以基于从CCD照相机(图5)提供的视频信号S1A而从图像中抽取面孔图谱,以及面孔识别处理部件91基于抽取的面孔图谱而识别面孔。在此实施例中使用“Gabor滤波”进行面孔抽取处理以抽取面孔图谱,并使用“支持向量机:SVM”进行面孔识别处理以从面孔图谱中识别面孔。
面孔识别部件62被供以学习阶段,在此面孔识别处理部件91学习面孔图谱,以及识别阶段以基于学习数据识别从视频信号S1A中抽取的面孔图谱。
图24表示面孔识别部件62的学习阶段的构成,而图25表示面孔识别部件62的识别阶段的构成。
如图24所示,在学习阶段向由支持向量机组成的面孔识别处理部件91输入面孔抽取的结果,该面孔在由Gabor滤波器组成的面孔抽取处理部件90中从CCD照相机(图5)输入的已捕获的用户图像中抽取。在面孔识别处理部件91中通过使用从外部供给的学习用数据,即,教师数据,而得到暂时鉴别功能。
而且,如图25所示,在鉴别阶段向面孔识别处理部件91输入面孔抽取结果,其是在面孔抽取处理部件90中基于从CCD照相机50供给的视频信号S1A在图像内从人面孔中抽取的。在面孔识别处理部件91中通过以各种数据库上的图像来测试暂时得到的鉴别功能而检测面孔。接着,成功检测的内容输出作为面孔数据。同时,未成功检测的内容被附加至学习数据,作为非面孔数据,并进行进一步学习。
以下对于面孔抽取处理部件90中的Gabor滤波处理和面孔识别处理部件91中的支持向量机给出详细解释。
(4-2-1)Gabor滤波处理
早已知道在人类的视觉细胞中存在具有对某些特定方向的选择性的细胞。这些选择性细胞含有响应垂直线的细胞和响应水平线的细胞。在这种情形下,Gabor滤波是由数个具有方向选择性的空间滤波器组成的。
Gabor滤波在空间上以Gabor函数表达。Gabor函数g(x,y)如以下表达式所示,由载波s(x,y)组成、其含余弦分量和二维高斯解析包络Wr(x,y)。
g(x,y)=s(x,y)Wr(x,y)                    ......(3)
载波s(x,y)使用数个函数表达为以下的表达式(4)。此处,坐标值(u0,v0)指示空间频率,P指示余弦分量的相位。
此处,以下表达式表示载波,
s(x,y)=exp(j(2π(u0x+v0y)+P))              ......(4)
也可表示成以下表达式,
Re(s(x,y))=cos(2π(u0x+v0y)+P)
Im(s(x,y))=sin(2π(u0x+v0y)+P)             ......(5)
即分割成实数部Re(s(x,y))和虚数部Im(s(x,y))。
另一方面,使用以下表达式,由二维高斯分布组成的包络可表达如下:
Wr(x,y)=Kexp(-π(a2(x-x0)r 2+b2(y-y0)r 2))   ......(6)
此处,坐标轴(x0,y0)是函数的峰值,常数a和b是高斯分布的比例参数。而且,如以下表达式所示,下标r表明旋转动作。
(x-x0)r=(x-x0)cosθ+(y-y0)sinθ
(y-y0)r=-(x-x0)sinθ+(y-y0)cosθ    ......(7)
因此,根据上述表达式(4)和(6),Gabor滤波可表达成以下表达式所示的空间函数:
g(x,y)=Kexp(-π(a2(x-x0)r 2+b2(y-y0)r 2))
          exp(j(2π(u0x+v0y)+P))     ......(8)
此实施例中的面孔抽取处理部件90使用共计二十四(24)个Gabor滤波器来进行面孔抽取,这些Gabor滤波器使用八(8)个方向和三(3)种频率。
Gabor滤波器的响应以下面的表达式来表达,在此Gi是第i个Gabor滤波器,第i个Gabor结果(Gabor Jet)Ji和输入图像I:
Ji(x,y)=Gi(x,y)I(x,y)           ......(9)
实际上,使用高速傅立叶变换可加快表达式(9)的动作。
制造的Gabor滤波器的性能可通过重构由滤波所得的像素来检验。以下表达式:
H ( x , y ) = Σ i - 1 0 a i J i ( x , y ) - - - . . . . . . ( 10 )
表示重构的图像H。
并且,输入图像I与重构的图像H之间产生的误差E由以下表达式来表达:
E = 1 2 | | I ( x , y ) - H ( x , y ) | | 2 = 1 2 Σ x , y ( I ( x , y ) - H ( x , y ) ) 2 - - - . . . . . . ( 11 )
重构可通过得到使误差E最小的合适a来实现。
(4-2-2)支持向量机
在本实施例中,对于面孔识别处理部件91中的面孔识别,面孔识别是使用支持向量机(SVM)来进行的,该SVM使通用学习性能在图谱识别领域达到最高。
对于SVM自身,参照例如B·Sholkoph等人的报告(B·Sholkoph,C·Burges,A·Smola,“Advance in Kernel Support Vector Learning”,The MIT Press,1999)。根据本发明申请人做出的初步实验,可明确使用SVM的面孔识别方法带来更好的结果,比使用主要分量分析(PCA)和神经网络要好。
SVM是使用线性鉴别电路(感知器)的学习机器,SVM可通过使用核心函数扩张到非线性空间。而且,鉴别函数的学习是以采用类间最大分离空隙的方式而进行的,从而有可能通过解二维数学方程而得到解,这就在理论上得出了全局解。
通常,图谱识别的问题是为了得到鉴别函数f(x),其由下面相对测试样本x=(x1,x2,...,xn)的表达式给出:
f ( x ) = Σ j - 1 n w j x j + b - - - . . . . . . ( 12 )
此处,SVM学习用的教师标签由以下表达式建立:
y=(y1,y2,...,yn)            ......(13)
接着,以SVM来识别面孔图谱这一问题可视为:在限定条件下使权因子w的平方最小化,如以下表达式所示:
y1(wrxi+b)z1                    ......(14)
这一有限定问题可使用拉格朗日无定常数法来解。即,首先将拉格朗日(函数)引入以下表达式:
L ( w , b , a ) = 1 2 | | w | | 2 - Σ i = 1 1 a i ( y i ( x i r w + b ) - 1 ) - - - . . . . . . ( 15 )
此后,如以下表达式所示:
∂ L ∂ b = ∂ L ∂ w = 0 - - - . . . . . . ( 16 )
应该对b和w各进行偏微分。
结果,在SVM中的面孔鉴别可视为二次平面问题,由以下表达式来表示:
max Σai - 1 2 Σaiaiyiy i r xj
限定条件:ai≥0,∑aiyi=0      ......(17)
当特征空间的维数小于训练样本数时,引入划痕变量ξ0而使限定条件置换成以下表达式:
yi(wrxi+b)≥1-ξ1               ......(18)
至于优化,在以下表达式中:
1 2 | | w | | 2 + CΣ ξ 1 - - - . . . . . . ( 19 )
最小化目标函数。
在表达式(19)中,C是系数,籍以指定限定条件应该放宽到何地步,而此值必须由实验确定。
关于拉格朗日常数的问题被置换成以下表达式:
max Σai - 1 2 Σaiaiyiy i r xj
限定条件:0≤ai≤C,∑aiyi=0                ......(20)
然而,对于表达式(20),不可能解决非线性问题。在这种情况的实施例中,随着核心函数K(x,x3)的引入,一旦在高维空间(kernel trick)匹配,将会线性地分开。所以,同等的在初始空间非线性分开。
核心函数可使用某种映射φ。
K(x,y)=φ(xr)φ(x1)                        ......(21)
而且,表达式(12)所示的鉴别函数可由以下表达式来表达:
f(φ(x))=wrφ(x)+b
        =∑aiyiK(x,xi)+b                   ......(22)
而且,学习也可视为二维平面问题,如以下表达式所示:
max Σai - 1 2 ΣaiaiyiyixjK ( xi , xj )
限定条件:0≤ai≤C,∑aiyi=0                ......(23)
作为核心,可使用高斯核心(RBF(径向基础函数))等,如以下表达式所示。
K ( x , x 1 ) = exp [ - | x - x 1 | σ 2 ] - - - . . . . . . ( 24 )
对于Gabor滤波,可根据识别任务而变更滤波器种类。
在低频滤波中将向量赋予全部滤波后的图像是冗余的。因而可通过下降取样而降低向量的维数。二十四(24)种下降取样向量成为一条线的长向量。
而且,在此实施例中,由于供给面孔图谱识别的SVM是鉴别器,其将特征空间一分为二,以这种方式进行学习,即:判断受检面孔是“A人”或“非A人”。因此,首先从数据库中的图像中收集A人的面孔图像,接着在Gabor滤波后将“非A人”标签附加到向量。一般地,所收集的面孔图像数量最好大于特征空间的维数。同样,当需要识别十(10)人的面孔时,以“B人”、“非B人”方式为每各人设一个鉴别器。
这种学习有助于发现例如分离“A人”和“非A人”的支持向量。作为将特征空间一分为二的鉴别器,SVM在输入新面孔图谱时,取决于Gabor滤波的向量所在的构成所得支持向量的界面的一侧而产生识别结果的输出。因此,当相对于边界处于“A人”区时,被识别为“A人”。同样,当处于“非A人”区时,被识别为“非A人”。
从基于来自CCD照相机50的视频信号S1A的图像中剪出的面部区不固定。因而有这种可能,即:面孔被投射至远离特征空间中想识别的种类的一点。从而,有可能通过暗示具有目、鼻、和口的特征的部分并由仿射变换来拟态、而增强识别率。
而且能使用自举以增强识别能力。可使用另一用来学习的图像而独立拍摄的图像来自举。这意味着当进行学习的鉴别器产生错误识别结果的输出时,通过将输入图像输入学习指令集而再度进行学习。
另一种增强识别性能的方法是观察识别结果的时间变化。最简单的方法可以是例如当十次识别中有八次皆识别为“A人”时即识别“A人”。还提出了其他预测方法,例如使用Kalman滤波器的那种。
(5)本实施例的操作和效果
根据以上构成,此机器人1通过与新人对话而得到新人的名字,并基于来自麦克风51和CCD照相机50的输出,存储与语音的各声学特征和检测到的人的形貌特征相关联而存储名字,并同时基于由识别另一也将获得其名的新人的出场而存储的各种数据和学习人名,并通过以上述同样方式得到并存储名字、语音的声学特征和新人的形貌特征。
因此,此机器人1可自然地通过与凡人的对话来学习新人、新对象的名字,就像人类常做的那样,而不必随输入声音指令或按下触觉传感器等用户的清晰指示而注册名字了。
根据以上构成,有可能通过与新人对话而得到新人的名字,并基于来自麦克风51和CCD照相机50的输出,与语音的各声学特征和检测到的人的形貌特征相关联而存储名字,并同时基于由识别另一未获得其名的新人的出场而存储的各种数据、学习人名,并通过以上述同样方式得到并存储名字、语音的声学特征和新人的形貌特征,结果成功地学习人名,这就可能使机器人实现自然地通过与凡人的对话来学习新人、新对象等的名字,从而大大增强他们的娱乐特性。
(6)其他实施方式
在以上实施例中,对于将本发明应用于如图1构成的二足直立行走的机器人1的情形给出了解释,但本发明不限于此,并可广泛应用于各种其他机器人设备和非机器人器材。
而且,在以上实施例中,还对于以下情形给出了解释,即由具有与人类对话功能的对话装置与此人进行声音对话,从而得到人名,以及通过对话向人类学习而得到对象的名字,该对话装置包括声音识别部件60,对话控制部件63,声音合成器64,但本发明不限于此,而对话装置的构成可使人名凭例如键盘输入通过字符对话而得到。
进而,在以上实施例中,对于需要名字学习的对象是人类的情形给出了解释,但本发明不限于此,也可考虑各种其它物体成为需要名字学习的对象,而不仅是人类。
在执行以上实施例的情形下,对于以下情形给出了解释,即:由语音的声学特征和待学习的人的形貌特征来识别人,并基于其结果而判断此人是不是新人,但本发明不限于此,而是还有,例如,此人可由数种其他特征、包括体型和气味来识别,这就有可能识别一个生物固体,并基于其结果而判断此人是不是新人。而且,在名字学习用的待学习的对象是固体而非人类的情形下,可能基于从颜色、形状、图谱、和尺寸等与他物区分的各种特性识别此体而得到的结果,判断此对象是不是新的。并且,在此情形下,可设有数种识别装置,其检测各对象不同的和特定的特征,并基于检测结果和对应于事先存储的已知对象的特征数据,识别待学习的对象。
进而,在以上实施例中,对于内存构成存储装置的情形给出了解释,该存储装置,用来存储关联信息,其中已知对象的名字与由各识别装置(讲话者识别部件61和面孔识别部件62)获得的关于对象的识别结果互相关联,但本发明不限于此,而可广泛利用各种除内存外的存储装置来存储信息,例如可存储信息的盘状记录媒体。
进而,在以上实施例中,对于讲话者识别部件61和面孔识别部件62仅进行一次识别处理以识别待学习的人的情形给出了解释,但本发明不限于此,而在无法识别(SID=-1)的情形下,例如,也可不止一次地进行识别处理,而在其他情形下,也可进行数次识别处理。由此做法可改善识别结果的精度。
进而,在以上实施例中,对于对话控制部件63由数种识别装置(声音识别部件60、讲话者识别部件61、和面孔识别部件62)所产生的识别结果的多数决定来判断待学习的人是不是新人,但本发明不限于此,而可基于由数个识别装置使用除多数决定外的任何方法所产生的各识别结果来判断待学习的人是不是新人。
在此情形下,可广泛应用各种方法,例如在一种方法中,根据各识别装置的识别能力给数个识别装置的识别结果加权,并基于各加权结果判断一个目标对象是不是新的,而当基于识别能力最高的识别装置和另一识别装置所产生的识别结果判断是新人时,可应用各种其他方法,其中由其余识别装置产生的结果就不用了。
进而,在以上实施例中,对于以下情形给出了解释,即:当讲话者识别部件61和面孔识别部件62能正确识别人时,通过让讲话者识别部件61和面孔识别部件62进行累加学习而企图增强因统计稳定性造成的识别精度,但本发明不限于此,而同样,对于存储在内存65中的关联信息,也包含了一种功能,以通过让他们任意次地学习同一组合来改善关联信息的可靠性。在实践中,可利用一种使用神经网络的方法来作为这种功能的示例方法,其描述于“Theses of the Academic Society for Electronic Information andcommunication D-II,Vol.J82-DII,No.6,pp.1072-1081”。
根据以上所述的本发明,学习器材包括:对话装置,其具有与人类对话的能力,用来通过对话从人类获得目标对象的名字;数个识别装置,每个用来检测目标对象的规定的不同特征,并同时用来基于检测结果、和与事先存储的已知对象对应的特征数据来识别目标对象;存储装置,用来存储关联信息,其中已知对象的名字与由各识别装置获得的关于对象的识别结果互相关联;判断装置,用来基于由对话装置获得的目标对象的名字、由识别装置获得的目标对象的识别结果、和存储在存储装置中的关联信息,判断目标对象是不是新对象;和控制装置,用来当判断装置判断目标对象是新对象时,让识别装置存储对应于目标对象的特征数据,并同时让存储装置存储关于目标对象的关联信息,从而可能使机器人实现自然地通过与凡人的对话来学习新人、新对象等的名字,就像人类常做的那样,从而大大增强它们的娱乐特性。
而且,根据本发明,学习方法包括:第1步,与人类对话,并通过对话从人类获得目标对象的名字,以及检测目标对象的数个规定的不同特征,并同时基于检测结果、和事先存储的已知对象的特征数据来识别目标对象;第3步,基于所获得的目标对象的名字、以目标对象各特征为基础的识别结果、和将事先存储的已知对象的名字与由识别装置产生的关于对象的识别结果相关联的关联信息,判断目标对象是不是新对象;和第4步,当判断装置判断目标对象是新对象时,存储目标对象的各特征的数据和关于目标对象的关联信息,从而可能使学习方法实现自然地通过与凡人的对话来学习新人、新对象等的名字,就像人类常做的那样,从而大大增强其娱乐特性。
进而,根据本发明,机器人设备包括:对话装置,其具有与人类对话的能力,用来通过对话从人类获得目标对象的名字;数个识别装置,每个用来检测目标对象的规定的不同特征,并同时用来基于检测结果、和与事先存储的已知对象对应的特征数据来识别目标对象;存储装置,用来存储关联信息,其将已知对象的名字与由识别装置获得的关于对象的识别结果相关联;判断装置,用来基于由对话装置获得的目标对象的名字、由识别装置获得的目标对象的识别结果、和存储在存储装置中的关联信息,判断目标对象是不是新对象;和控制装置,用来当判断装置判断目标对象是新对象时,让识别装置存储对应于目标对象的特征数据,并同时让存储装置存储关于目标对象的关联信息,从而可能使机器人实现自然地通过与凡人的对话来学习新人、新对象等的名字,就像人类常做的那样,从而大大增强它们的娱乐特性。
产业可利用性
本发明应用于诸如娱乐机器人、个人计算机、安全系统等各种机器人。

Claims (15)

1.一种学习器材包括:
对话装置,用来通过对话获得目标对象的名字;
数个识别装置,用来检测所述目标对象的数个特征数据,并基于检测结果和已知对象的对应特征数据来识别目标对象;
存储装置,用来存储关联信息,其将所述已知对象的名字与所述识别装置的识别结果互相关联的信息;
判断装置,用来基于由所述对话装置获得的所述目标对象的名字、所述识别装置对于所述目标对象的识别结果和存储在所述存储装置中的关联信息,来判断目标对象是不是新对象;和
控制装置,用来当所述判断装置判断目标对象是新对象时,在对应的所述识别装置中存储所述目标对象的所述数个特征数据,并在所述存储装置中存储关于目标对象的关联信息。
2.根据权利要求1所述的学习器材,其中
所述控制装置控制正确识别所述目标对象的所述识别装置,以当所述判断装置判断目标对象是所述已知对象时进行积累学习。
3.根据权利要求1所述的学习器材,其中
所述控制装置控制未正确识别所述目标对象的所述识别装置,以当所述判断装置判断目标对象是所述已知对象时进行纠正学习。
4.根据权利要求1所述的学习器材,其中
所述判断装置通过参照存储在所述存储装置中的所述关联信息,由所述对话装置得到的所述目标对象的名字和所述识别装置对于对象的识别结果的多数决定,判断目标对象是不是新对象。
5.根据权利要求1所述的学习器材,其中
所述控制装置控制所述对话装置按需要延长所述对话。
6.一种学习方法包括:
对话步骤,其通过对话获得目标对象的名字;
数个识别步骤,其检测所述目标对象的数个特征数据,并基于检测结果和已知对象的对应特征数据来识别目标对象;
存储步骤,其存储关联信息,其将所述已知对象的名字与所述识别装置的识别结果互相关联;
判断步骤,其基于由所述对话装置获得的所述目标对象的名字、所述识别装置对于所述目标对象的识别结果、和存储在所述存储装置中的关联信息,判断目标对象是不是新对象;和
控制步骤,其当所述判断装置判断目标对象是新对象时,在对应的所述识别装置中存储所述目标对象的所述数个特征数据,并在所述存储装置中存储关于目标对象的关联信息。
7.根据权利要求6所述的学习方法,其中
在所述控制步骤中,当所述判断装置判断目标对象是所述已知对象时,对于正确识别的目标对象的所述特征进行积累学习。
8.根据权利要求6所述的学习方法,其中
在所述控制步骤中,当所述判断装置判断目标对象是所述已知对象时,对于未正确识别的目标对象的所述特征进行纠正学习。
9.根据权利要求6所述的学习方法,其中
在所述判断步骤中,通过参照所述关联信息,由所述目标对象的名字和所述特征的识别结果的多数决定,判断目标对象是不是新对象。
10.根据权利要求6所述的学习方法,其中
在所述对话步骤中,按需要延长所述对话。
11.一种机器人设备包括:
对话装置,用来通过对话获得目标对象的名字;
数个识别装置,用来检测所述目标对象的数个特征数据,并用来基于检测结果、和已知对象的对应特征数据来识别目标对象;
存储装置,用来存储关联信息,其将所述已知对象的名字与所述识别装置的识别结果互相关联;
判断装置,用来基于由所述对话装置获得的所述目标对象的名字、所述识别装置对于所述目标对象的识别结果、和存储在所述存储装置中的关联信息,判断目标对象是不是新对象;和
控制装置,用来当所述判断装置判断目标对象是新对象时,在对应的所述识别装置中存储所述目标对象的所述数个特征数据,并在所述存储装置中存储关于目标对象的关联信息。
12.根据权利要求11所述的机器人,其中
所述控制装置控制正确识别所述目标对象的所述识别装置,以当所述判断装置判断目标对象是所述已知对象时,进行积累学习。
13.根据权利要求11所述的机器人,其中
所述控制装置控制未正确识别所述目标对象的所述识别装置,以当所述判断装置判断目标对象是所述已知对象时进行纠正学习。
14.根据权利要求11所述的机器人,其中
所述判断装置通过参照存储在所述存储装置中的所述关联信息,由所述对话装置得到的所述目标对象的名字和所述识别装置对于对象的识别结果的多数决定,判断目标对象是不是新对象。
15.根据权利要求11所述的机器人,其中
所述控制装置控制所述对话装置按需要延长所述对话。
CNB038002256A 2002-03-06 2003-03-05 识别装置和识别方法,以及机器人设备 Expired - Fee Related CN1241168C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP60425/2002 2002-03-06
JP2002060425A JP3529049B2 (ja) 2002-03-06 2002-03-06 学習装置及び学習方法並びにロボット装置

Publications (2)

Publication Number Publication Date
CN1507617A true CN1507617A (zh) 2004-06-23
CN1241168C CN1241168C (zh) 2006-02-08

Family

ID=27784796

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB038002256A Expired - Fee Related CN1241168C (zh) 2002-03-06 2003-03-05 识别装置和识别方法,以及机器人设备

Country Status (7)

Country Link
US (1) US7720775B2 (zh)
EP (1) EP1482480B1 (zh)
JP (1) JP3529049B2 (zh)
KR (1) KR100988708B1 (zh)
CN (1) CN1241168C (zh)
DE (1) DE60318990T2 (zh)
WO (1) WO2003075261A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100351054C (zh) * 2004-09-14 2007-11-28 索尼株式会社 机器人设备和控制其行为的方法
CN100452710C (zh) * 2004-09-29 2009-01-14 上海赢思软件技术有限公司 一种短信机器人系统
CN108172226A (zh) * 2018-01-27 2018-06-15 上海萌王智能科技有限公司 一种可学习应答语音和动作的语音控制机器人
CN109689000A (zh) * 2016-09-12 2019-04-26 株式会社富士 介助装置
CN114761182A (zh) * 2019-09-30 2022-07-15 西门子股份公司 机器人控制系统和用于训练所述机器人控制系统的方法

Families Citing this family (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3951235B2 (ja) 2003-02-19 2007-08-01 ソニー株式会社 学習装置及び学習方法並びにロボット装置
JP3919726B2 (ja) * 2003-10-02 2007-05-30 株式会社東芝 学習装置及びその方法
JP4303602B2 (ja) * 2004-01-09 2009-07-29 本田技研工業株式会社 顔面像取得システム
GB0407260D0 (en) * 2004-03-31 2004-05-05 Ibm Accelerated solution of constraint satisfaction problems by partioning of the variable space
JP4569186B2 (ja) * 2004-06-15 2010-10-27 ソニー株式会社 画像処理装置および方法、記録媒体、並びにプログラム
JP4204541B2 (ja) 2004-12-24 2009-01-07 株式会社東芝 対話型ロボット、対話型ロボットの音声認識方法および対話型ロボットの音声認識プログラム
WO2008018136A1 (fr) * 2006-08-10 2008-02-14 Pioneer Corporation dispositif de reconnaissance d'un individu en fonction de sa voix, procédé de reconnaissance d'un individu en fonction de sa voix, etc.
EP2138958A1 (en) * 2008-06-27 2009-12-30 Honda Research Institute Europe GmbH Sensor signal processing with feature classifier cooperation
JP2010055375A (ja) * 2008-08-28 2010-03-11 Toshiba Corp 電子機器操作指示装置およびその操作方法
JP2012524663A (ja) * 2009-04-23 2012-10-18 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 物体学習ロボットおよび方法
US8566097B2 (en) 2009-06-02 2013-10-22 Honda Motor Co., Ltd. Lexical acquisition apparatus, multi dialogue behavior system, and lexical acquisition program
JP2011115898A (ja) * 2009-12-03 2011-06-16 Honda Motor Co Ltd ロボット
US8775341B1 (en) 2010-10-26 2014-07-08 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US9015093B1 (en) 2010-10-26 2015-04-21 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US8452451B1 (en) * 2011-05-06 2013-05-28 Google Inc. Methods and systems for robotic command language
US9566710B2 (en) 2011-06-02 2017-02-14 Brain Corporation Apparatus and methods for operating robotic devices using selective state space training
JP5698614B2 (ja) 2011-06-22 2015-04-08 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation コンテキスト情報処理システム及び方法
US20130343640A1 (en) 2012-06-21 2013-12-26 Rethink Robotics, Inc. Vision-guided robots and methods of training them
EP2689650B1 (en) * 2012-07-27 2014-09-10 Honda Research Institute Europe GmbH Trainable autonomous lawn mower
US9764468B2 (en) 2013-03-15 2017-09-19 Brain Corporation Adaptive predictor apparatus and methods
US9242372B2 (en) 2013-05-31 2016-01-26 Brain Corporation Adaptive robotic interface apparatus and methods
US9314924B1 (en) 2013-06-14 2016-04-19 Brain Corporation Predictive robotic controller apparatus and methods
US9792546B2 (en) 2013-06-14 2017-10-17 Brain Corporation Hierarchical robotic controller apparatus and methods
US9384443B2 (en) 2013-06-14 2016-07-05 Brain Corporation Robotic training apparatus and methods
US9436909B2 (en) 2013-06-19 2016-09-06 Brain Corporation Increased dynamic range artificial neuron network apparatus and methods
US20150032258A1 (en) * 2013-07-29 2015-01-29 Brain Corporation Apparatus and methods for controlling of robotic devices
EP3043348B1 (en) * 2013-09-03 2017-10-04 Panasonic Intellectual Property Corporation of America Voice interaction control method
US9296101B2 (en) 2013-09-27 2016-03-29 Brain Corporation Robotic control arbitration apparatus and methods
US9579789B2 (en) 2013-09-27 2017-02-28 Brain Corporation Apparatus and methods for training of robotic control arbitration
US9463571B2 (en) 2013-11-01 2016-10-11 Brian Corporation Apparatus and methods for online training of robots
US9597797B2 (en) 2013-11-01 2017-03-21 Brain Corporation Apparatus and methods for haptic training of robots
US9248569B2 (en) 2013-11-22 2016-02-02 Brain Corporation Discrepancy detection apparatus and methods for machine learning
US9358685B2 (en) 2014-02-03 2016-06-07 Brain Corporation Apparatus and methods for control of robot actions based on corrective user inputs
US9346167B2 (en) 2014-04-29 2016-05-24 Brain Corporation Trainable convolutional network apparatus and methods for operating a robotic vehicle
US9630318B2 (en) 2014-10-02 2017-04-25 Brain Corporation Feature detection apparatus and methods for training of robotic navigation
US9881349B1 (en) 2014-10-24 2018-01-30 Gopro, Inc. Apparatus and methods for computerized object identification
US9717387B1 (en) 2015-02-26 2017-08-01 Brain Corporation Apparatus and methods for programming and training of robotic household appliances
JP6084654B2 (ja) * 2015-06-04 2017-02-22 シャープ株式会社 音声認識装置、音声認識システム、当該音声認識システムで使用される端末、および、話者識別モデルを生成するための方法
EP3332923A4 (en) * 2015-08-04 2019-04-10 Beijing Evolver Robotics Co., Ltd MULTIFUNCTIONAL HOUSE ROBOT
JP6681800B2 (ja) * 2016-07-15 2020-04-15 株式会社日立製作所 制御装置、制御システム、および制御方法
WO2018038552A1 (ko) * 2016-08-25 2018-03-01 엘지전자 주식회사 이동 로봇 및 그 제어방법
US10430657B2 (en) 2016-12-12 2019-10-01 X Development Llc Object recognition tool
KR20180082033A (ko) * 2017-01-09 2018-07-18 삼성전자주식회사 음성을 인식하는 전자 장치
WO2018230345A1 (ja) * 2017-06-15 2018-12-20 株式会社Caiメディア 対話ロボットおよび対話システム、並びに対話プログラム
KR102433393B1 (ko) * 2017-12-12 2022-08-17 한국전자통신연구원 동영상 콘텐츠 내의 인물을 인식하는 장치 및 방법
US10593318B2 (en) * 2017-12-26 2020-03-17 International Business Machines Corporation Initiating synthesized speech outpout from a voice-controlled device
US11126257B2 (en) * 2018-04-17 2021-09-21 Toyota Research Institute, Inc. System and method for detecting human gaze and gesture in unconstrained environments
DE102018207513A1 (de) * 2018-05-15 2019-11-21 Siemens Aktiengesellschaft Verfahren zum rechnergestützten Lernen eines Roboters über einen Sprachdialog
US11597084B2 (en) 2018-09-13 2023-03-07 The Charles Stark Draper Laboratory, Inc. Controlling robot torque and velocity based on context
KR20200098225A (ko) 2019-02-12 2020-08-20 삼성전자주식회사 객체를 모니터링하는 방법 및 이를 지원하는 전자 장치
JP6921448B1 (ja) * 2020-05-20 2021-08-18 株式会社ルークシステム 新規物体操作ロボットの制御プログラムおよび制御方法、ならびに、新規物体操作システム
JPWO2022254829A1 (zh) 2021-06-04 2022-12-08
WO2023146118A1 (ko) * 2022-01-25 2023-08-03 삼성전자 주식회사 Hci를 통해 태그를 획득하고 물체에 대한 명령을 수행하는 방법 및 전자 장치

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6118888A (en) * 1997-02-28 2000-09-12 Kabushiki Kaisha Toshiba Multi-modal interface apparatus and method
JP3211186B2 (ja) * 1997-12-15 2001-09-25 オムロン株式会社 ロボット、ロボットシステム、ロボットの学習方法、ロボットシステムの学習方法および記録媒体
JP4366617B2 (ja) * 1999-01-25 2009-11-18 ソニー株式会社 ロボット装置
JP2002160185A (ja) * 2000-03-31 2002-06-04 Sony Corp ロボット装置、ロボット装置の行動制御方法、外力検出装置及び外力検出方法
JP2001300148A (ja) * 2000-04-18 2001-10-30 Casio Comput Co Ltd アクション応答システムおよびそのプログラム記録媒体
JP4296736B2 (ja) * 2000-10-13 2009-07-15 ソニー株式会社 ロボット装置
JP4108342B2 (ja) * 2001-01-30 2008-06-25 日本電気株式会社 ロボット、ロボット制御システム、およびそのプログラム
JP4143305B2 (ja) * 2001-01-30 2008-09-03 日本電気株式会社 ロボット装置、照合環境判定方法、及び照合環境判定プログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100351054C (zh) * 2004-09-14 2007-11-28 索尼株式会社 机器人设备和控制其行为的方法
CN100452710C (zh) * 2004-09-29 2009-01-14 上海赢思软件技术有限公司 一种短信机器人系统
CN109689000A (zh) * 2016-09-12 2019-04-26 株式会社富士 介助装置
CN109689000B (zh) * 2016-09-12 2021-05-28 株式会社富士 介助装置
US11096848B2 (en) 2016-09-12 2021-08-24 Fuji Corporation Assistance device for identifying a user of the assistance device from a spoken name
CN108172226A (zh) * 2018-01-27 2018-06-15 上海萌王智能科技有限公司 一种可学习应答语音和动作的语音控制机器人
CN114761182A (zh) * 2019-09-30 2022-07-15 西门子股份公司 机器人控制系统和用于训练所述机器人控制系统的方法
CN114761182B (zh) * 2019-09-30 2024-04-12 西门子股份公司 机器人控制系统和用于训练所述机器人控制系统的方法

Also Published As

Publication number Publication date
KR20040094289A (ko) 2004-11-09
DE60318990D1 (de) 2008-03-20
KR100988708B1 (ko) 2010-10-18
EP1482480A4 (en) 2005-12-14
EP1482480A1 (en) 2004-12-01
EP1482480B1 (en) 2008-02-06
JP3529049B2 (ja) 2004-05-24
DE60318990T2 (de) 2009-02-05
US7720775B2 (en) 2010-05-18
US20050004710A1 (en) 2005-01-06
WO2003075261A1 (fr) 2003-09-12
CN1241168C (zh) 2006-02-08
JP2003255989A (ja) 2003-09-10

Similar Documents

Publication Publication Date Title
CN1241168C (zh) 识别装置和识别方法,以及机器人设备
CN1290034C (zh) 机器人装置及其行为控制方法
CN1462428A (zh) 语音处理装置
CN1273912C (zh) 机器人装置、面容识别方法和面容识别装置
CN1238833C (zh) 语音识别装置以及语音识别方法
CN1199149C (zh) 会话处理设备及方法
CN1283428C (zh) 机器人设备、控制机器人设备动作的方法
CN100347741C (zh) 移动语音合成方法
CN1855224A (zh) 信息处理装置、信息处理方法及程序
CN1808414A (zh) 学习、识别和生成数据的方法和设备以及计算机程序
CN1162838C (zh) 抗噪声语音识别用语音增强-特征加权-对数谱相加方法
CN1168068C (zh) 语音合成系统与语音合成方法
CN1194337C (zh) 语音识别设备和方法以及记录了语音识别程序的记录媒体
CN1196103C (zh) 语音识别设备和方法以及记录了语音识别程序的记录媒体
CN1409527A (zh) 终端器、服务器及语音辨识方法
CN101042868A (zh) 群集系统、方法、程序和使用群集系统的属性估计系统
CN1692341A (zh) 信息处理设备、信息处理方法、程序以及存储介质
CN1465043A (zh) 语音识别装置和语音识别方法
CN1453767A (zh) 语音识别装置以及语音识别方法
CN1455916A (zh) 情绪探测方法,感受能力生成方法及其系统与执行软件
CN1102270C (zh) 信息处理方法和信息处理设备
CN1941077A (zh) 识别语音输入中的字符串的语音识别设备和方法
CN1838237A (zh) 情绪探测方法及其系统
CN1310825A (zh) 用于分类文本以及构造文本分类器的方法和装置
CN1879147A (zh) 文本到语音转换方法和系统、及其计算机程序产品

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20060208

Termination date: 20210305

CF01 Termination of patent right due to non-payment of annual fee