CN1855224A - 信息处理装置、信息处理方法及程序 - Google Patents
信息处理装置、信息处理方法及程序 Download PDFInfo
- Publication number
- CN1855224A CN1855224A CNA2006100898570A CN200610089857A CN1855224A CN 1855224 A CN1855224 A CN 1855224A CN A2006100898570 A CNA2006100898570 A CN A2006100898570A CN 200610089857 A CN200610089857 A CN 200610089857A CN 1855224 A CN1855224 A CN 1855224A
- Authority
- CN
- China
- Prior art keywords
- node
- unit
- som
- parameter
- winner
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 9
- 238000003672 processing method Methods 0.000 title claims description 7
- 238000012986 modification Methods 0.000 claims abstract description 135
- 230000004048 modification Effects 0.000 claims abstract description 135
- 238000011156 evaluation Methods 0.000 claims abstract description 20
- 238000003860 storage Methods 0.000 claims description 203
- 238000013507 mapping Methods 0.000 claims description 165
- 230000003750 conditioning effect Effects 0.000 claims description 55
- 239000003607 modifier Substances 0.000 claims description 13
- 230000004913 activation Effects 0.000 claims description 11
- 239000000284 extract Substances 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 description 71
- 238000000034 method Methods 0.000 description 68
- 238000013500 data storage Methods 0.000 description 56
- 238000000605 extraction Methods 0.000 description 56
- 230000006870 function Effects 0.000 description 35
- 241000238876 Acari Species 0.000 description 33
- 230000006855 networking Effects 0.000 description 31
- 230000008859 change Effects 0.000 description 23
- 230000006399 behavior Effects 0.000 description 19
- 238000010586 diagram Methods 0.000 description 18
- 238000005516 engineering process Methods 0.000 description 17
- 238000013528 artificial neural network Methods 0.000 description 15
- 238000006243 chemical reaction Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 12
- 238000012549 training Methods 0.000 description 10
- 230000004044 response Effects 0.000 description 9
- 230000000638 stimulation Effects 0.000 description 8
- 230000002708 enhancing effect Effects 0.000 description 7
- 230000001965 increasing effect Effects 0.000 description 7
- 239000000203 mixture Substances 0.000 description 7
- 238000013459 approach Methods 0.000 description 6
- 238000010276 construction Methods 0.000 description 5
- 241001269238 Data Species 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000009792 diffusion process Methods 0.000 description 3
- 230000008676 import Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000002194 synthesizing effect Effects 0.000 description 3
- 230000003313 weakening effect Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012905 input function Methods 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 229920002457 flexible plastic Polymers 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000003760 hair shine Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 229920000136 polysorbate Polymers 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000010977 unit operation Methods 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Manipulator (AREA)
Abstract
一种信息处理装置,包括:第一学习单元,适用于基于从观察值中提取的第一参数学习第一SOM(自组织映射);优胜者节点确定单元,适用于确定第一SOM上的优胜者节点;搜索单元,适用于搜索具有与优胜者节点的最高连接强度的第二SOM上的产生节点;参数产生单元,适用于从产生节点产生第二参数;修改单元,适用于修改从产生节点产生的第二参数;第一连接权重修改单元,适用于在满足最终条件时修改连接权重;第二连接权重修改单元,适用于根据用户作出的评价修改所述连接权重;和第二学习单元,适用于基于满足最终条件时所获得的第二参数对第二SOM执行学习。
Description
技术领域
本发明涉及一种信息处理装置、信息处理方法及程序,尤其涉及一种信息处理装置、信息处理方法及程序,其使得机器人或其他类似物能够更恰当地产生需要的信息以便主动改变该机器人的行为以使得该行为适应外部施加给该机器人的刺激。
背景技术
对于期望通过声音与人类用户进行通信的机器人,需要有一个和用户处理过的音素结构类似的音素结构,因此该机器人可以识别由用户发出的音素并且可以发出与用户发出的那些音素类似的音素。也就是说,机器人需要能够识别使用用户讲话的语言的话音和以此种语言发出话音(通过话音合成)。
在普通的话音识别/合成技术中,使用取决于用户所使用的语言制定的音素或单词的字典来识别或合成使用用户所使用的语言的话音。
在人类社会中,使用不同的音素和语言取决于国家或区域。因此,在使用提前制定的字典执行话音识别或话音合成的技术中,必须制定由国家或区域决定的不同的字典。
但是,字典的制定需要巨大的花费。因此,在通过声音与人类用户进行通信的机器人的技术中,近年来一直需要开发一种技术来通过诸如与用户对话而无需使用字典的相互作用获得与人类用户的那些音位结构类似的音位结构。
例如,在题目为“A Constructive Model of Mother-Infant Interactiontowards Infant’s Vowel Articulation”的论文(Y.Yoshikawa,J.Koga,M.Asada,和K.Hosoda,Proc.of the 3rd International Workshop onEpigenetic Robotics,页码139-146,2003(这里,该论文被称为非专利文件1))中,公开了具有发音器和听觉器、并且通过经由与户主的交互作用获取与人类社会中使用的音位结构相同的音位结构而能够识别本身的机器人。
在非专利文件1中公开的机器人中,发音器随机产生参数(发动命令),并根据所产生的参数发出声音。
称为户主的用户听到由该机器人发出的声音。如果户主识别出声音与人类社会中使用的音素中的一种相同,该户主发出该音素以便该机器人得知该声音与该音素相同。这种学习重复的进行从而该机器人获得人类社会中使用的许多音素。
该机器人具有一个与听觉器相关的自组织映射(以下称为听觉SOM(自组织映射))和一个与发音器相关的自组织映射(以下称为发音SOM)。
每个自组织映射(SOM)具有多个节点,并且每个节点具有一个参数。当输入数据(参数)被提供给自组织映射时,从所有的节点中选出具有与该输入数据最相似的参数的节点(以下,这样选出的节点被称为优胜者),优胜者的参数被修改以与输入数据更加的相似。在自组织映射中,与接近于优胜者节点的节点相关的参数也被稍微的朝该输入数据方向修改。
因此,如果大量的输入数据提供给自组织映射,则对自组织映射中的节点进行组织以便具有相似参数的节点相互之间靠近以及没有相似参数的节点相互之间远离。因此,对应于输入数据的模式的映射形成在自组织映射中。根据输入数据排列节点以便其参数相互之间类似的节点相互之间靠近和根据输入数据中包括的模式形成一幅映射被称为自组织。
在非专利文件1中公开的技术中,机器人选择发音SOM中的节点中的一个,随机改变所选择的节点的参数,并根据结果的参数发出声音。
户主听到由机器人发出的声音。如果户主识别出所发出的声音与人类社会中使用的音素中的一种相同,该户主发出该音素因此该机器人得知该声音与该音素相同。如果,响应于该机器人所发出的声音,该户主发出相同的声音,那么该机器人接受由户主发出的声音作为输入数据并且在听觉SOM中为该输入数据确定一个优胜者节点。此外,修改听觉SOM(与关心的节点和邻近节点相关的参数),并且增加发音SOM中的关心节点和听觉SOM中的优胜者节点之间的连接强度。
通过重复进行上面描述的处理,发音SOM和听觉SOM逐步建立起来,因此发音SOM的节点和听觉SOM的节点之间产生了连接,该连接是按照用于户主发出声音的优胜者节点响应听到的根据与发音SOM节点的相关参数所产生的声音而确定的,也就是说,与由该机器人用于产生声音的参数相关的发音SOM的节点和被确定为户主发出的与该机器人产生声音相同的声音的优胜者节点的听觉SOM节点之间的连接比其它节点之间的连接更为加强。这使得该机器人能够获得人类社会中实际使用的音素和输出与从外部输入的那些声音相类似的声音。
更确切地说,当话音从外部输入到机器人时,该机器人搜索具有与确定为输入话音的优胜者节点的听觉SOM的节点的最强连接的发音SOM的节点,并且根据与发音SOM中检测到的节点相关的参数发出声音。
在非专利文件1中公开的技术中,机器人执行有指导的学习以便当该机器人发出的声音与人类社会中实际使用的声音中的一种相同时,户主发出与该机器人发出的声音相同的声音以表明该声音是正确的答案。在该技术中,该机器人不能获得音素,除非户主通过发出与由该机器人(的发音器)发出的声音相同的声音提供正确的答案。换句话说,不可能执行其中没有提供正确的答案的无指导的学习。
另一方面,在“From Analogous to Digital Speech Sounds”(Oudeyer,P-Y,Tallerman M.,编者,Evolutionary Pre-Requisites for Language.Oxford University Press,2003)(以下,这被称为非专利文件2)公开的技术中,执行学习以获得音素以便于在尽可能小的几种假设下从连续的声音中产生音素成为可能。
也就是说,在非专利文件2中公开的学习方法中,当存在多个代理,其中每个代理具有对应于听觉器的听觉SOM和对应于发音器的发音SOM,其中听觉SOM的节点和发音SOM的节点之间相互映射(连接),发音SOM的各自节点的参数的初始值在开始学习之前均匀的和随机的分布在参数空间(发音空间)上。
注意在开始学习之前,与发音SOM的节点相关的参数在多个代理之间是不同的。
在学习中,如果不是由本代理发出的声音,也就是说由其它代理中的一个发出的声音被输入到本代理,则本代理确定输入声音的听觉SOM的优胜者节点并且修改与听觉SOM的节点相关的参数。本代理接着搜索具有与听觉SOM的优胜者节点最强连接的发音SOM节点并且使用与发音SOM中检测到的节点相关的参数作为参考修改发音SOM以便每个发音SOM节点的参数和具有与听觉SOM的优胜者节点的最强连接的发音SOM节点的参数更为相似。
每个代理选择由该代理拥有的发音SOM的特定节点和根据与所选择的节点相关的参数发出声音。如果与代理发出的相同声音被输入到代理,则该代理为该输入声音确定听觉SOM的优胜者节点和增强发音SOM的选择节点和听觉SOM的优胜者节点之间的连接。
通过上述处理的重复,多个代理中的每一个中都保留有一组相同的声音,也就是说,每个代理获得了一组相同的音素和所有的代理都能够发出一组相同的音素。
非专利文件2还公开了通过上面描述的学习,多个代理获得的音素会聚在一些音素上。
尽管根据非专利文件2公开的技术的学习在没有提供正确答案的无指导学习方式中进行,但是并不意图获得人类社会中实际使用的音素,因此代理不必获得与人类社会中实际使用的那些音素相同的音素。即使由人类用户发出的声音而不是其它代理发出的声音被输入到每个代理时,这也是真实的。
这是因为,在根据非专利文件2公开的技术的学习中,使用发音SOM的一些节点的参数作为参考(输入)来执行发音SOM的修改,因此发音SOM的节点的参数可以仅在参数的初始值分布的范围内变化(被修改)。为了每个代理可能获得与人类社会中实际使用的那些音素相同的音素,需要提供分布在整个范围内的值,其中包括有人类社会中使用的所有音素,来作为发音SOM的节点的参数的初始值。但是,很难提供这样的值。
用户有意向通过该用户和该机器人之间的对话来获得与该用户使用的音素结构相同的音素结构的机器人提供正确的答案是困难的。
综上所述,期望机器人通过人-机对话获得与该用户使用的音素结构相同的音素结构,其中在人-机对话中,该用户讲话时无需考虑提供正确的答案。
为了以上述方式获得音素结构,机器人必须能够响应于加到该机器人上的刺激而自适应地反应,也就是说,该机器人需要根据用户的话音自适应地讲话。也就是说,机器人需要自适应的改变由该机器人作为动作发出的声音和自我评价所发出的声音,即,该机器人需要评价(判断)该机器人所发出的声音是否与用户发出的声音相类似。
发明内容
综上所述,在机器人或其他类似物主动改变机器人的行为和自我评价该行为以使该行为适应从外界提供的刺激的技术方面,本申请人已经公开了一个申请(日本专利申请号2005-015533,以下本申请仅被称为在先申请)。
在先申请公开的技术中,使用一个HMM和多个SOM的组合的自组织算法被用于与听觉和发音(听觉SOM和发音SOM)相关的自组织映射,机器人通过使用一种采用每个听觉SOM节点和每个发音SOM节点之间的映射的机制(使用每个听觉SOM节点和每个发音SOM节点之间的连接权重)模仿用户发出的音素来自组织地获得人类社会中使用的音素。利用获得音素的处理,该机器人能够更好的模仿音素。
就是说,在先申请公开的技术中,当声音从外界输入到该机器人时,该机器人试图发出类似于该输入声音的声音。如果该机器人成功的发出了类似的声音,则获得了一个用于发出该声音的连接权重。通过重复的执行连接权重的修改(学习),该机器人开始能够发出实质上与外界使用的那些声音相同的声音。换句话说,在先申请公开的技术中,机器人基于自我评价学习连接权重,即该机器人通过无指导学习优化连接权重。
在先申请公开的学习方法使实质上仅基于自我评价建立合适的映射成为可能。
但是,仅基于机器人的自我评价建立的映射是不完善的,尽管它非常出色。当机器人所做的自我评价是错误的时候,该机器人不能识别出自我评价是错误的,因此错误地建立了映射。
更准确地说,例如,当与听觉和发音相关的自组织映射(听觉SOM和发音SOM)和这些自组织映射之间的映射(连接权重)通过基于该机器人所做的自我评价的学习建立起来时,如果人类用户发出的某个音素,诸如“a”,错误地关联到对应于诸如“e”的错误音素的发音SOM节点,很难(实际上不可能)通过自我评价改正这个错误的映射。
有这样一种可能,即在发音SOM上,在语言中实际使用的某个音素,诸如“u”,关联到对应于错误音素的节点,诸如在该语言中不会使用的“v”。也很难(实际上不可能)通过自我评价改正这样一个错误的映射。
总之,在先申请公开的学习方法的简单使用可以导致下面两种类型的错误中的一种。
第一种类型的错误是尽管由机器人基于发音参数产生的某个音素包括在人类社会实际使用的音素中,但是该音素映射到一个错误的音素。
第二种类型的错误是由机器人基于发音参数产生的某个音素没有包括在人类社会实际使用的音素中,并且这个音素映射到人类社会中实际使用的一个特定音素。
综上所述,期望将第一种和第二种类型的错误的出现次数减少到尽可能低的水平,即期望机器人能够通过主动的改变该机器人的行为以使该行为适应从外部施加给该机器人的刺激来建立更多的精确的映射(连接权重)。
换句话说,期望机器人能够更准确的产生主动改变该机器人的行为所需要的信息(表示映射或连接权重),以使该行为适应从外部施加到该机器人的刺激。
根据本发明的一个实施例,提供了一种信息处理装置,包括连接网络存储装置,用于存储包括有第一自组织映射和第二自组织映射的连接网络,其中每个自组织映射都包括多个节点,且该网络还包括表示第一自组织映射和第二自组织映射之间的节点的连接强度的连接权重;第一学习装置,用于基于从观察装置输出的观察值中提取的第一参数学习第一自组织映射,所述观察装置观察外界和输出观察值;优胜者节点确定装置,用于检测具有在第一自组织映射中的节点上观察到的第一参数的最大相似性的节点,确定所检测到的节点为优胜者节点;搜索装置,用于在第二自组织映射内搜索具有与该优胜者节点的最高连接强度的节点和将所检测到的节点用作产生节点;参数产生装置,用于从第二产生节点产生第二参数;确定装置,用于确定进行第二参数最终修改的最终条件是否被满足,其中,根据优胜者节点执行修改,和优胜者节点是根据当驱动装置根据第二参数执行驱动操作时由所述观察装置观察到的值来确定的;第一连接权重修改装置,用于在满足最终条件时修改连接权重;第二连接权重修改装置,用于当用户对在所述驱动装置执行的驱动结果的评价是由用户作为奖励提供的时候,修改所述连接权重;第二学习装置,基于满足最终条件时所获得的第二参数学习第二自组织映射。
根据本发明的一个实施例,提供了一种信息处理方法,包括步骤:基于从观察装置输出的观察值中提取的第一参数学习存储在连接网络存储装置中的第一自组织映射,所述观察装置观察外界和输出观察值,所述连接网络存储装置存储包括有第一自组织映射和第二自组织映射的连接网络,其中每个自组织映射都包括多个节点,且该网络还包括表示第一自组织映射和第二自组织映射之间的节点的连接强度的连接权重;通过检测具有在第一自组织映射中的节点上观察到的第一参数的最大似然性的节点来确定优胜者节点,和确定所检测到的节点为优胜者节点;在第二自组织映射内搜索具有与该优胜者节点的最高连接强度的节点和将所检测到的节点用作产生节点;从第二产生节点产生第二参数;修改从所述产生节点产生的第二参数;确定进行第二参数最终修改的最终条件是否被满足,其中,根据优胜者节点执行修改,和优胜者节点是根据当驱动装置根据第二参数执行驱动操作时由所述观察装置观察到的值来确定的;在满足最终条件时修改连接权重;当用户对在所述驱动装置执行的驱动结果的评价是由用户作为奖励提供的时候,修改所述连接权重;和基于满足最终条件时所获得的第二参数学习第二自组织映射。
根据本发明的一个实施例,提供了一种程序,包括步骤:基于从观察装置输出的观察值中提取的第一参数学习存储在连接网络存储装置中的第一自组织映射,所述观察装置观察外界和输出观察值,所述连接网络存储装置存储包括有第一自组织映射和第二自组织映射的连接网络,其中每个自组织映射都包括多个节点,以及该网络还包括表示第一自组织映射和第二自组织映射之间的节点的连接强度的连接权重;通过检测具有在第一自组织映射中的节点上观察到的第一参数的最大似然性的节点来确定优胜者节点,和确定所检测到的节点为优胜者节点;在第二自组织映射内搜索具有与该优胜者节点的最高连接强度的节点和将所检测到的节点用作产生节点;从第二产生节点产生第二参数;修改从所述产生节点产生的第二参数;确定进行第二参数最终修改的最终条件是否被满足,其中,根据优胜者节点执行修改,和优胜者节点是根据当驱动装置根据第二参数执行驱动操作时由所述观察装置观察到的值来确定的;在满足最终条件时修改连接权重;当用户对在所述驱动装置执行的驱动结果的评价是由用户作为奖励提供的时候,修改所述连接权重;和基于满足最终条件时所获得的第二参数学习第二自组织映射。
本发明中,基于从观察装置输出的观察值中提取的第一参数,对存储在连接网络存储装置中的第一自组织映射执行学习,所述观察装置观察外界和输出观察值,所述连接网络存储装置存储包括有第一自组织映射和第二自组织映射的连接网络,其中每个自组织映射都包括多个节点,且该网络还包括表示第一自组织映射和第二自组织映射之间的节点的连接强度的连接权重。在第一自组织映射的节点中,确定与在该节点观察到的第一参数具有最大似然性的节点为优胜者节点,和从第二自组织映射中搜索具有与该优胜者节点的最强连接的节点作为产生节点。于是修改从产生节点产生的第二参数。基于根据当驱动装置根据修改的第二参数执行驱动操作时由所述观察装置观察到的值来确定的优胜者节点,进行关于是否满足修改第二参数的最终处理的最终条件的确定。如果满足最终条件则修改连接权重。当对所述驱动装置执行的驱动结果的评价是由用户作为奖励提供的时候,也修改所述连接权重。此外,基于满足最终条件时所获得的第二参数执行第二自组织映射上的学习。
从上面的讨论中应到理解到,本发明提供了更大的优点。也就是说,机器人或其他类似物可以主动改变它的行为并且可以自我评价该行为以使该行为适应外界所给予的刺激。即,机器人可以更准确的产生(修改)信息,诸如表示需要主动改变机器人的行为以使该行为适应从外界应用到机器人的刺激的映射或连接权重。
附图说明
图1示出了根据本发明实施例的信息处理装置的方框图;
图2示出了为连接网络的结构的实例的示意图;
图3示出了一种每个听觉SOM节点连接到所有发音SOM节点的方式;
图4示出了听觉SOM(发音SOM)的结构的实例;
图5示出了一个节点结构的实例;
图6示出了听觉SOM(发音SOM)的结构的又一个实例;
图7示出了听觉SOM(发音SOM)的结构的又一个实例;
图8示出了学习单元的结构的实例的方框图;
图9示出了一种确定一确定权重的方法;
图10示出了一种修改学习数据存储单元中存储的学习数据的方法的示意图;
图11示出了由学习单元执行的学习处理的流程图;
图12示出了识别单元的结构的实例的方框图;
图13示出了由识别单元执行的识别处理的流程图;
图14示出了产生单元的结构的实例的方框图;
图15示出了由产生单元执行的产生处理的流程图;
图16示出了学习单元的结构的实例的方框图;
图17示出了由学习单元执行的学习处理的流程图;
图18示出了信息处理装置的操作的流程图;
图19示出了一种基于奖励的连接权重的有指导学习的方法;
图20示出了基于自我评价学习连接权重的协议的实例;
图21示出了基于奖励执行连接权重的有指导学习的协议的实例;
图22示出了基于奖励执行连接权重的有指导学习的协议的实例;
图23示出了根据本发明的一个实施例的信息处理装置的方框图。
具体实施方式
在描述本发明的实施例之前,首先描述实施例中的部分/步骤的具体实例和各自的权利要求中的那些部分/步骤之间的对应关系。该描述意图确保在该说明书中描述了支持所请求的发明的实施例。因此,即使以下实施例的部件没有描述为与本发明的某个特征相关,也不意味着该部件与权利要求的特征不相关。相反地,即使部件在这里描述为与权利要求的某个特征相关,也不意味着该部件与权利要求的其他特征不相关。
此外,该描述不应当被解释为限制权利要求中描述的实施例所公开的本发明的所有方面。也就是说,本说明书并不否定存在着该发明申请中没有要求的本发明的方面,即,存在的本发明的方面将来可能以分案申请的形式来请求,或者通过附页附加请求。
根据本发明的一个实施例,提供了一种信息处理装置,包括有用于存储连接网络的连接网络存储装置(例如,图1中示出的存储单元4),其中连接网络包括第一自组织映射和第二自组织映射,每个映射包括多个节点,且该网络还包括表示第一自组织映射和第二自组织映射之间的连接权重;第一学习装置(例如,图1中示出的学习单元3),基于从观察装置(例如,图1中示出的观察单元1)输出的观察值提取的第一参数(例如,声学参数)观察外界和执行第一自组织映射的学习;优胜者节点装置(例如,图12中示出的优胜者节点确定单元52),用于检测在第一自组织映射中的该节点观察到的与第一参数具有最高似然性的节点并确定所检测到的节点为优胜者节点;搜索装置(例如,图14中示出的产生节点确定单元61),用于在第二自组织映射内搜索具有与优胜者节点最高连接强度的节点并将所检测到的节点用作产生节点;参数产生装置(例如,图14中示出的时序数据产生单元63),用于从所述产生节点产生第二参数(例如,发音参数);修改装置(例如,图14示出的模式参数修改单元62),用于修改所述产生节点产生的第二参数;确定装置(例如,图1中示出的控制单元9),用于确定进行第二参数最终修改的最终条件是否被满足,其中根据优胜者节点执行修改,和优胜者节点是根据当驱动装置(例如,图1中示出的驱动单元8)根据第二参数执行驱动操作时由所述观察装置观察到的值来确定的;第一连接权重修改装置(例如,图16示出的自学习连接权重修改单元76),用于在满足最终条件时修改连接权重;第二连接权重修改装置(例如,图16示出的有指导的学习连接权重修改单元77),用于当用户对在所述驱动装置执行的驱动结果的评价是由用户作为奖励提供的时候,修改所述连接权重;第二学习装置(例如,图1中示出的学习单元7),用于当满足最终条件时基于第二参数学习第二自组织映射。
根据本发明的一个实施例,提供了一种信息处理方法,包括步骤:基于从观察装置(例如图1中示出的观察单元1)输出的观察值中提取的第一参数(例如声学参数)学习存储在连接网络存储装置(例如图1中示出的存储单元4)中的第一自组织映射,所述观察装置观察外界和输出观察值,所述连接网络存储装置存储包括有第一自组织映射和第二自组织映射的连接网络,其中每个自组织映射都包括多个节点,且该网络还包括表示第一自组织映射和第二自组织映射之间的节点的连接强度的连接权重(例如图18中示出的步骤S105);通过检测具有与在第一自组织映射中的该节点上观察到的第一参数最大似然性的节点来确定优胜者节点,和确定所检测到的节点为优胜者节点(例如图18中示出的步骤S104);在第二自组织映射内搜索具有与该优胜者节点的最高连接强度的节点和将所检测到的节点用作产生节点(例如图18中示出的步骤S106);从第二产生节点产生第二参数(例如发音参数)(例如图18中示出的步骤S109);修改从所述产生节点产生的第二参数(例如图18中示出的步骤S108);确定进行第二参数最终修改的最终条件是否被满足,其中,根据优胜者节点执行修改,和优胜者节点是根据当驱动装置(例如图1中示出的驱动单元8)根据第二参数执行驱动操作时由所述观察装置观察到的值来确定的(例如图18中示出的步骤S114);在满足最终条件时修改连接权重(例如图18中的步骤S115执行的图17中的步骤S47);当用户对在所述驱动装置执行的驱动结果的评价是由用户作为奖励提供的时候,修改所述连接权重(例如图18中的步骤S115执行的图17中的步骤S48);和当满足最终条件时基于所获得的第二参数学习第二自组织映射(例如图18中的步骤S115执行的步骤S45)。
根据本发明的一个实施例,提供了一种计算机执行的程序,所述程序包括步骤:基于从观察装置(例如图1中示出的观察单元1)输出的观察值中提取的第一参数(例如声学参数)学习存储在连接网络存储装置(例如图1中示出的存储单元4)中的第一自组织映射,所述观察装置观察外界和输出观察值,所述连接网络存储装置存储包括有第一自组织映射和第二自组织映射的连接网络,其中每个自组织映射都包括多个节点,且该网络还包括表示第一自组织映射和第二自组织映射之间的节点的连接强度的连接权重(例如图18中示出的步骤S105);通过检测具有与在第一自组织映射中的该节点上观察到的第一参数最大似然性的节点来确定优胜者节点,和确定所检测到的节点为优胜者节点(例如图18中示出的步骤S104);在第二自组织映射内搜索具有与该优胜者节点的最高连接强度的节点和将所检测到的节点用作产生节点(例如图18中示出的步骤S106);从第二产生节点产生第二参数(例如发音参数)(例如图18中示出的步骤S109);修改从所述产生节点产生的第二参数(例如图18中示出的步骤S108);确定进行第二参数最终修改的最终条件是否被满足,其中,根据优胜者节点执行修改,和优胜者节点是根据当驱动装置(例如图1中示出的驱动单元8)根据第二参数执行驱动操作时由所述观察装置观察到的值来确定的(例如图18中示出的步骤S114);在满足最终条件时修改连接权重(例如图18中的步骤S115执行的图17中的步骤S47);当用户对在所述驱动装置执行的驱动结果的评价是由用户作为奖励提供的时候,修改所述连接权重(例如图18中的步骤S115执行的图17中的步骤S48);和当满足最终条件时基于所获得的第二参数学习第二自组织映射(例如图18中的步骤S115执行的步骤S45)。
现在,在下文结合附图对根据本发明的具体实施例进行描述。
图1示出了根据本发明实施例的信息处理装置。
这个信息处理装置可以应用于,例如负责与机器人的语音/声音相关的处理的部分,机器人例如是双足或四足会走的机器人。
观察单元1观察外界并输出一个观察值。观察单元1包括,例如,传感器,诸如用于检测语音(声音)的麦克风,放大器和模数转换器。如果观察单元1检测到用户发出的语音和其他声音,该观察单元1将所获得的表示观察值的语音/声音数据提供给特征提取单元2。
注意,在上述处理中,观察单元1检测从外部输入的语音(声音)的声音持续时间,并在该声音持续时间内检测到的语音/声音数据提供给特征提取单元2。但是,从观察单元1向特征提取单元2提供的语音/声音数据并不需要具有与声音持续时间相等的长度,但是语音/声音数据可以具有合适的确定的长度。例如,观察单元1可以以通过停顿划界的音素、词语、句子或段落为单位向特征提取单元2提供语音/声音数据。从观察单元1特征向提取单元2提供的语音/声音数据可以通过固定方法或可变方法进行划界。
尽管在本发明实施例中,假定观察单元1观察到在外界中出现的语音/声音,诸如由用户发出的语音,和观察单元1输出语音/声音数据作为观察值,然而受到观察的事件不仅限于语音/声音。例如观察单元1可以包括一个照相机,其作为传感器来观察出现在外界中的光线并输出图像数据作为观察值。可选地,观察单元1可以包括传感器,用于观察另一个物理量,诸如周围温度、外界应用的压力等。
观察单元1观察到两种类型的语音/声音。第一种类型的语音/声音是用户发出的那些,第二种类型的语音/声音是后面将要描述的由驱动单元8输出的(合成的)那些。驱动单元8输出的语音/声音进一步分为两组;用户给予奖励的语音/声音和用户没有给予奖励的语音/声音。注意图1中的信息处理装置构造为奖励采集单元9获得的奖励不仅提供给学习单元7(随后进行详细描述),还提供给观察单元1,因此,如果需要,观察单元1可以将表示是否已经给予奖励的信息与语音/声音数据一起提供给特征提取单元2。
特征提取单元2从观察单元1输出的数据中提取特征值(第一参数)和把提取的特征值输出给学习单元3和识别单元5。也就是说,特征提取单元2提取声学参数作为从观察单元1输出的语音/声音数据的特征值和把所提取的声学参数提供给学习单元3和识别单元5。更准确地说,特征提取单元2周期地执行诸如对观察单元1提供的语音/声音的频率分析的处理来提取诸如适于话音识别的MFCC(Mel Frequency Cepstrum Coefficient)的声学参数,特征提取单元2把所提取的声学参数提供给学习单元3和识别单元5。
因为从观察单元1向特征提取单元2提供的语音/声音数据是以时序数据的形式并且特征提取单元2输出的声学参数是通过以时序数据的形式在语音/声音数据上周期地执行处理获得的,特征提取单元2输出的声学参数也是时序数据的形式。
在下文中,时序数据形式的声学参数简单的称为声学参数序列。
基于特征提取单元2提供的声学参数序列,学习单元3在听觉SOM方面执行学习(修改),这是与连接网络相关的自组织映射并且存储在存储单元4中。随后将详细描述听觉SOM。
更准确地说,大量的声学参数序列从特征提取单元2输入到学习单元3,学习单元3获得表示模式(时序模式),其特征为通过无指导学习的方法以自组织方式的大量声学参数序列。因此,从特征提取单元2向学习单元3提供的大量声学参数序列的模式表示以高度有效的方式存储在与存储单元4中存储的连接网络相关的听觉SOM中。即,从特征提取单元2向学习单元3和识别单元5提供的大量声学参数序列可被分类为表示模式(时序模式),并且学习单元3执行学习以在听觉SOM中存储声学参数序列的典型时序模式。
存储单元4还存储连接网络。连接网络包括听觉SOM和发音SOM,它们都是自组织映射,其中每个自组织映射都包括多个节点,且该网络还包括表示听觉SOM的节点和发音SOM的节点之间的连接强度的连接权重。随后将详细描述连接网络。
识别单元5使用特征提取单元2根据与存储单元4中存储的连接网络相关的听觉SOM提供的声学参数序列,在观察单元1观察到的语音/声音上执行话音识别处理,并且识别单元5向产生单元6提供语音/声音的识别结果。
基于识别单元5提供的识别结果,产生单元6在存储单元4中搜索与连接网络相关的发音SOM的特定节点。使用检测到的节点,产生单元6于是产生用作第二参数的发音参数来驱动驱动单元8,并且向学习单元7和驱动单元8提供所产生的发音参数。
产生单元6输出的发音参数也是以与特征提取单元2输出的声学参数相同的时序数据的形式。在下文中,时序数据形式的发音参数将被称为发音参数序列。
注意产生单元6产生的参数被用于驱动驱动单元8,并且只要驱动单元8能够访问产生单元6产生的参数,则对于该参数类型没有特定的限制。例如,当驱动单元8是一个发动机,其接受表示旋转角度或旋转速度的命令并且根据该命令旋转,该命令是由产生单元6作为参数产生的。在一个实例中,驱动单元8是根据输入矢量合成语音的语音合成器,该矢量是由产生单元6作为参数产生的,其中输入矢量的元素包括与要产生的语音波形相关的音素、重音、音调频率等。
基于产生单元6提供的发音参数序列,学习单元7以一种和学习单元3在听觉SOM上执行的学习相类似的方式执行发音SOM方面的学习(修改),这是与存储单元4中存储的连接网络相关的自组织映射。
学习单元7还执行与存储单元4中存储的连接网络相关的连接权重的学习(修改)。如下将要进行详细描述的,连接权重的学习(修改)以一种有指导方式或无指导方式进行。在无指导的学习方式中,基于信息处理装置输出的(合成的)语音/声音上的自我评价执行学习。在有指导的学习方式中,信息处理装置输出的(合成的)语音/声音由用户进行评价并且用户根据评价给予奖励。使用所给予的奖励作为训练信号,执行学习。
驱动单元8根据产生单元6提供的发音参数执行驱动操作。更准确地说,驱动单元8包括,例如,语音合成器、放大器、数模转换器和扬声器,驱动单元8根据发音参数合成语音并且输出最后合成的语音。
至于用作驱动单元8的语音合成装置,可以使用适用于于合成对应于输入文本信息的语音的TTS(Text To Speech,文本向话音转换)的模块,即适用于于根据输入文本信息的分析结果获得的矢量来合成语音的模块。在本例中,发音参数序列是基于输入文本数据的分析获得的矢量时序。
尽管在本实施例中,语音合成装置用作驱动单元8来产生合成的声音,但是该驱动单元8不限于语音合成装置。例如,可以采用激励器(发动机)作为驱动单元8来移动机器人的一部分,诸如胳膊或脚。在本例中,产生用于驱动激励器的参数并提供给学习单元7和驱动单元8。
奖励采集单元9获得由用户基于信息处理装置本身输出的合成语音给予的作为奖励的评价,并且奖励采集单元9把获得的评价提供给观察单元1和学习单元7。正如随后将要详细描述的,有两种类型的奖励,其中之一是当用户评价由信息处理装置输出的合成语音实质上等于从外部输入的语音时给予的肯定奖励,另外一种类型是当用户评价合成语音不同于外部输入的语音时给予的否定奖励。
控制单元10从各种部分(包括观察单元1到奖励采集单元9)接收必要的数据(信息),并且控制单元10根据接收的数据控制各自部分(包括观察单元1到奖励采集单元9)。控制单元10通过连接线连接到各自部分(包括观察单元1到奖励采集单元9)以向它们发送数据/从它们接收数据。但是,出于简化目的,图1中没有示出连接线。
图2示出了图1中所示的存储单元4中存储的连接网络的结构的实例的示意图。
如上所述,连接网络包括听觉SOM、发音SOM和连接权重。
听觉SOM和发音SOM是自组织映射,每个都包括多个节点。在常规的自组织映射中,每个自组织映射的每个节点有一个参数,每个参数的形式是具有特定数量的元素的矢量形式。与此相反,在与连接网络相关的听觉SOM和发音SOM的自组织映射中,每个自组织映射的每个节点有表示时序模式的时序模式模型。随后将详细描述与连接网络相关的听觉SOM和发音SOM的自组织映射。
在与连接网络相关的听觉SOM和发音SOM中,如图3所示,听觉SOM的每个节点与发音SOM的所有节点相连接。在连接网络中,定义了表示听觉SOM的每个节点和发音SOM的每个节点之间的连接强度的连接权重。
连接网络的自组织映射,即听觉SOM和发音SOM,形成了包括多个节点的网络,其中每个节点具有表示时序模式的时序模式模型,因此可以说它们是其中存储有时序模式的时序模式存储网络。时序模式存储网络存储与时序模式存储网络中的节点一样多(分组)的时序模式。
图4示出了时序模式存储网络的实例的示意图。
在图4所示的实例中,时序模式存储网络包括六个节点N1到N6。
时序模式存储网络的每个节点Ni(在图4所示的实例中,i=1,2,...,6)具有一种表示时序模式的时序模式的方式。每个节点Ni与另外一个节点Nj(在图4所示的实例中,j=1,2,...,6)具有连接。这种连接称为链接。在图5所示的时序模式存储网络中,例如,节点N1之间链接到节点N2和N3。另一方面,节点N3之间链接到节点N1、N2、N5和N6,因此节点N5和N6通过节点N3间接的链接到节点N1。两个节点Ni和Nj之间的连接关系通过两个节点Ni和Nj之间的最短连接路径来定义。
使用时序数据作为无指导的学习方式下的学习数据来执行时序模式存储网络的学习,在无指导的学习方式下,不提供表示学习数据所属的种类(分类)的正确答案。
图5示出了一个时序模式存储网络的节点Ni的结构的实例的示意图。
节点Ni包括表示时序模式的时序模式模型21和适用于于存储学习数据的学习数据存储单元22,其中的学习数据是在时序模式模型21的学习中使用的时序数据。
在图5所示的实例中,状态转换几率模型之一的HMM(连续的HMM),被用作时序模式模型21。在图5所示的实例中,HMM有三个状态S1、S2和S3,每个HMM是从左到右的类型,其中仅允许有一个自环和一种向下一个状态(右边的)的转换。在图5所示的时序模式模型21中,每个圆表示一种状态,每个箭头表示一种状态转换。注意用作时序模式模型21的HMM不限于从左到右的类型,并且状态的数目不限于3种。
诸如在图5所示的HMM用作时序模式模型21的情况中,通过状态转换几率来定义用作时序模式模型21的HMM并且输出几率密度函数(当HMM是离散HMM时,输出是纯量的离散符号的几率。)
状态转换几率称为出现在HMM中的状态转换的几率,图5所示的时序模式模型21中的每个箭头表示的每种状态转换定义状态转换几率。输出几率密度函数表示当一种状态转换出现时从HMM观察到的值的几率密度。例如,一种被污染的正常的分布函数被用作输出几率密度函数。HMM的参数(状态转换几率和输出几率密度函数)的学习(估计)可以利用例如Baum-Welch方法来进行。
在节点Ni,学习数据存储单元22中存储的学习数据的统计特征,即学习数据存储单元22中存储的学习数据的时序模式,由时序模式模型21来学习,因此学习数据存储单元22中存储的学习数据与时序模式模型21相关。
在以时序模式存储网络形式的听觉SOM的节点Ni处,声学参数序列在学习数据存储单元22中存储为学习数据。另一方面,在发音SOM的节点Ni处以时序模式存储网络的形式,发音参数序列在学习数据存储单元22中被存储为学习数据。
图6示出了时序模式模型网络的另外一个实例的示意图。
在图6所示的实例中,时序模式模型网络包括以二维方式排列的九个节点N1到N9。更准确地说,在图6所示的实例中,九个节点N1到N9在二维平面上以3×3阵列的形式排列。
在图6所示的时序模式存储网络中,九个二维排列的节点N1到N9是如此链接的,在水平方向上相互之间直接相邻的节点相互之间链接,在垂直方向上相互之间直接相邻的节点相互之间链接。通过在时序模式存储网络中的节点中如此链接,定义了二维空间排列结构。
在时序模式存储网络中,任意两个节点间的距离基于空间节点排列结构通过节点间的链接来定义,并且两个节点间的距离可以用作表示两个时序模式之间的距离的模式间距离,其中两个时序模式是时序模式模型21在两个节点处提供的(注意这种方式定义的模式间距指示了两个时序模式之间的相似性)。
通过两个节点之间的距离定义的两个时序模式间的模式间距可以被称为基于两个节点间的连接(链接)关系而定义的。
两个节点间的距离可以通过两个节点间的最短路径中包括的链接数量来定义。这样,当提供一个关心节点时,具有到该关心节点的直接链接的节点(在图6所示的实例中,在水平方向或垂直方向上直接相邻到关心节点的节点)具有到该关心节点的最短距离,并且通过来自具有到该关心节点直接链接的节点的一个或多个进一步的链接可以到达的节点,是远离该关心节点的,以及该距离随着来自该关心节点的路径中包括的链接数量而增加。
注意节点间的链接不限于图4或图6中示出的那些。尽管在图4和图6示出的实例中,链接定义了二维节点排列结构,但是链接可以是由链接定义的一维或三维节点排列结构。注意节点不是必定需要具有链接。
图7示出了时序模式存储网络的另一个实例的示意图。
在图7所示的实例中,时序模式存储网络与图4中所示的时序模式存储网络类似,是因为它有六个节点N1到N6,但是它的不同在于,这些六个节点N1到N6中的任何一个都有一个链接。因此,在图7所示的时序模式存储网络的实例中,节点N1到N6没有通过链接定义的空间排列结构。注意没有空间排列结构可以被说成是没有空间限制的排列结构。
当两个节点间没有链接时,不可能在该两个节点间定义空间距离,因此不可能使用基于连接(链接)关系的模式间距来表示通过两个各自节点(的时序模式模型21)表示的时序模式之间的距离。这种情况下,模式间距可以通过对应于特定时序数据(观察值)和关心节点的相似性顺序的值给出。注意对于与时序数据最为相似的节点相似性顺序是1,对于第二相似的节点是2,对于第三相似的节点是3,等等。下文中,以这种方式定义的顺序被简单的称为相似性顺序。
也就是说,通过节点到给定时序数据表示的时序模式的相似性可以被定义为节点的相似性。这里,如果在时序模式存储网络中的所有节点中,具有与给定时序数据最高相似性的节点被称为优胜者节点,那么由该优胜者节点表示的时序模式和由时序模式存储网络中的任意节点表示的时序模式之间的模式间距可以通过对应于该节点和时序数据的相似性的顺序(相似性顺序)的值给出。
更准确地说,时序模式存储网络的所有节点中,优胜者节点具有第一相似性顺序,因此可以提供这个节点(优胜者节点)到优胜者节点的模式间距(更严格地,是由这些各自的节点表示的时序节点之间的模式间距),例如通过从相似性顺序中减去1而获得的值,即模式间距提供为0。
在时序模式存储网络中,具有第二相似性顺序的节点和优胜者节点之间的模式间距可以通过例如从相似性顺序中减去1获得的值来提供。类似的,优胜者节点和任意节点之间的模式间距可以通过从这个任意节点的相似性顺序中减去1获得的值来提供。
通过对应于一个节点在与特定时序数据相似性方面的相似性顺序的值给出的模式间距,可以说成是基于该节点到该时序数据的相似性的模式间距。
图8示出了图1中所示的学习单元3的结构的实例。
声学参数序列(在由观察单元1检测的声音持续时间中)作为新时序数据被从特征提取单元2(图1)提供到学习单元3。学习单元3基于从特征提取单元2提供的新时序数据,通过修改时序模式存储网络,自组织存储单元4中以时序模式存储网络形式存储的连接网络中的听觉SOM。
更准确地说,分数计算单元41为以时序模式存储网络形式存储在存储单元4中的听觉SOM的所有节点,计算指示节点和特征提取单元2以时序数据形式提供的新声学参数序列的相似性的分数,并且分数计算单元41向优胜者节点确定单元42提供所计算的各自节点的分数。例如,当诸如图5所示的HMM用作每个节点的时序模式模型21,分数计算单元41根据用作每个节点的时序模式模型21的HMM,确定观察到的特征提取单元2提供的新声学参数序列的似然性,和分数计算单元41将所计算的似然性作为各自节点的分数提供给优胜者节点确定单元42。
优胜者节点确定单元42从以时序模式存储网络的形式存储在存储单元4中的听觉SOM的所有节点中选择出一个与特征提取单元2提供的新声学参数序列最相似的节点,优胜者节点确定单元42将所选择的节点作为优胜者节点。
也就是说,优胜者节点确定单元42从存储单元4中存储的听觉SOM的节点中检测到一个具有通过分数计算单元41计算的最高分数的节点,和优胜者节点确定单元42确定所检测到的节点作为优胜者节点。优胜者节点确定单元42将表示优胜者节点的信息提供给修改权重确定单元43。
为了识别时序模式存储网络的节点,可以给各个节点分配节点标记,分配给优胜者节点的节点标记可以用作表示优胜者节点的信息。注意节点标记仅识别出节点而不表示正确的答案。
依据优胜者节点确定单元42提供的节点标记表示的优胜者节点,修改权重确定单元43为存储单元4中存储的听觉SOM的每个节点确定一个确定权重,这将在后面进行详细描述,并且修改权重确定单元43将确定的每个节点的确定权重提供给学习数据修改单元44。
更准确地说,修改权重确定单元43根据每个节点和优胜者节点之间的模式间距确定存储单元4中存储的听觉SOM的每个节点(包括优胜者节点)的确定权重,并且修改权重确定单元43将确定的每个节点的确定权重提供给学习数据修改单元44。
因此,使用特征提取单元2提供的新声学参数序列来修改每个节点的时序模式模型21(图5)。在时序模式模型21的修改中,确定权重规定了新声学参数序列对修改的影响程度。例如,当特定节点的确定权重为0时,该节点的时序模式模型21不受新声学参数序列的影响(不被修改)。
对于在确定存储单元4中存储的听觉SOM的每个节点的确定权重的处理中由修改权重确定单元43使用的模式间距,基于某个节点和优胜者节点之间的连接关系的模式间距可以用于这种情况,即听觉SOM的节点具有象图4或图6所示的实例那样的链接。在听觉SOM的节点如同图7所示的实例那没有链接的情况下,可以基于听觉SOM的每个节点与特征提取单元2提供的新声学参数序列的相似性顺序来定义模式间距离。
更准确地说,修改权重确定单元43检查存储单元4中存储的听觉SOM来基于听觉SOM的每个节点和优胜者节点之间的连接关系确定模式间距,其中所述的优胜者节点是由优胜者节点确定单元42提供的节点标记表示的,修改权重确定单元43基于所述的模式间距离确定听觉SOM的每个节点的确定权重。
可选地,修改权重确定单元43以与分数计算单元41确定分数相似的方式检查存储单元4中存储的听觉SOM来确定表示听觉SOM的每个节点与特征提取单元2提供的新声学参数序列的相似性的分数。修改权重确定单元43可以进一步基于每个节点的分数确定对应于该相似性顺序的值和基于听觉SOM的每个节点到新声学参数序列的相似性将该值用作模式间距。基于所述模式间距,可以确定每个听觉SOM节点的确定权重。
可以通过修改权重确定单元43确定每个节点的分数,或通过分数计算单元41确定的分数可以提供给修改权重确定单元43。
学习数据修改单元44为存储单元4中存储的听觉SOM的每个节点修改学习数据存储单元22(图5)中存储的学习数据。
更准确地说,对于每个节点,学习数据修改单元44以对应于修改权重确定单元43提供的每个节点的确定权重的比率,把学习数据存储单元22中存储的现有学习数据和特征提取单元2中提供的新声学参数序列混合在一起,和学习数据修改单元44将结果作为新学习数据存储到学习数据存储单元22中从而修改学习数据存储单元22中的内容。
当学习数据修改单元44以上述方式修改了学习数据存储单元22(图5)中存储的学习数据之后,学习数据修改单元44将完成通知提供给模型学习单元45以通知修改完成。
如果模型学习单元45从学习数据修改单元44接收到完成通知,模型学习单元45通过使用学习数据对时序模式模型21执行学习以便修改存储单元4中存储的听觉SOM的每个节点的时序模式模型21,其中所述的学习数据是由数据修改单元44修改的并且是存储在学习数据存储单元22(图5)中的。
因此,在模型学习单元45为了修改每个节点的时序模式模型21而进行的处理中,修改是基于与学习数据存储单元22(图5)中存储的每个节点相关的学习数据(的部分)和基于特征提取单元2提供的新声学参数序列执行的。因为学习数据存储单元22的内容依据确定权重进行修改,可以说模型学习单元45执行的对时序模式模型21的修改是基于确定权重的。
图9示出了由图8所示的修改权重确定单元43确定一个确定权重的方法。
修改权重确定单元43例如根据一个曲线(距离-权重曲线)来确定每个节点的确定权重,其中曲线表示确定权重(α)在该节点和优胜者节点之间的模式间距(d)上的关系曲线(注意如图9所示确定权重(α)随模式间距(d)的增大而减小)。根据距离-权重曲线,确定为每个节点的确定权重(α),这样确定权重(α)随着每个节点和优胜者节点之间的模式间距(d)的减小而增加,以及确定权重(α)随着每个节点和优胜者节点之间的模式间距(d)的增加而减小。
在图9所示的距离-权重图中,水平轴表示修改权重α(从左到右增加),垂直轴表示模式间距d(从上到下增加)。
在图9中,基于节点连接关系定义模式间距d,即通过从优胜者节点到每个节点的距离来定义模式间距d,并且听觉SOM的六个节点N1到N6拉到沿水平轴的位置,这样图9中的每个节点Ni的位置表示每个节点Ni离优胜者节点的距离。
图9中,听觉SOM的六个节点N1到N6离优胜者节点的距离从N1到N6的顺序增加。在听觉SOM的六个节点N1到N6中,节点N1到优胜者节点的距离是最小的(等于0),即节点N1本身是优胜者节点。
诸如图6所示的,在听觉SOM具有二维节点排列结构的情况下,例如,节点N6是优胜者节点,节点N6和优胜者节点(节点N6本身)之间的距离等于0(即最小的),节点N6和优胜者节点(节点N6本身)之间的模式间距也等于0(即最小的)。从优胜者节点N6到N3、N5和N9中的每个节点的距离等于1(即第二最小的),从N3、N5和N9中的任意节点到优胜者节点N6的模式间距也等于1。从优胜者节点N6到N2、N4和N8中的每个节点的距离等于2(即第三最小的),从N2、N4和N8中的任意节点到优胜者节点N6的模式间距也等于2。从优胜者节点N6到N1和N7中的每个节点的距离等于3(即最大的),从N1和N7中的任一个节点到优胜者节点N6的模式间距离也等于3。
另一方面,在其节点不具有如图7所示的听觉SOM的链接的听觉SOM中,每个节点和优胜者节点之间的模式间距d基于每个节点与作为新时序数据提供的声学参数序列的相似性顺序来定义,即通过对应于每个节点与提供的新声学参数序列的相似性顺序的值提供模式间距d。这样,具有最高分数的节点(即优胜者节点本身)和优胜者节点之间的模式间距d为0,具有第二最高分数的节点和优胜者节点之间的模式间距d为1。类似地,具有第k最高分数的节点和优胜者节点之间的模式间距d为k-1。
注意在听觉SOM上的每个节点和优胜者节点之间的模式间距d的定义与T.Kohonen为定义SOM上的距离或Neural-Gas算法中的距离所采用的定义相同。
表示确定权重α在模式间距d上的依赖程度的距离-权重曲线,诸如图9所示的,可以通过等式(1)提供。
其中,当使用SMA(Soft-Max Adaptation最软修正)作为修改听觉SOM的方法时,G是表示优胜者节点的确定权重的常量,γ是表示衰减常量的常量,范围为0<γ<1,和Δ是用于调整邻近优胜者节点的节点(即具有到优胜者节点很小的模式间距d的节点)的修改权重α的变量。
当使用SMA修改包括有多个元素(诸如节点)的SOM(诸如听觉SOM)时,不仅修改与新的输入有最小距离的元素(不仅修改具有最高分数的元素)还修改位于相当短距离范围内的元件。众所周知,当仅有一个靠近新的输入的元素被通过使用WTA(Winner-Take-All优胜者带走全部)方法进行修改时,就会出现陷入局部解决的问题,而SMA能避免这个问题。
当确定为优胜者节点的一个节点的模式间距为0时,而根据到优胜者节点的距离或相似性顺序,其它节点的模式间距离为1、2、3等,如果等式(1)中G=8,γ=0.5,Δ=1,则优胜者节点的确定权重α为8(=G)。类似地,对于其它节点,确定权重α为4、2、1等,因此确定权重α随着到优胜者节点的距离或与优胜者节点的相似性顺序的增加而减少。
当等式(1)中的衰减系数Δ很大时,确定权重α随着模式间距d的改变逐渐地改变。相反,当衰减系数Δ接近于0时,确定权重α随着模式间距d的改变极大地改变。
因此,如果在逐渐将衰减系数Δ从1减少到0时调整衰减系数Δ,那么确定权重α的变化随着模式间距d的变化而变得更大,并且确定权重α随着模式间距d的增加而减少。当衰减系数Δ变得接近于0时,不是优胜者节点的其它节点的确定权重α变得几乎等于0。这样,实质上以与使用上述WTA方法的情况相同的方式来修改听觉SOM。
在使用SMA方法修改听觉SOM的情况中,通过以上述方式调整衰减系数Δ可以调整优胜者节点的邻近区域内的节点的确定权重α。
衰减系数Δ可以在开始修改(学习)听觉SOM时设置为一个很大的值,衰减系数Δ可以随着时间的流逝而减少,即随着时间数目的增大执行修改。这样,在最初修改听觉SOM时,每个节点的确定权重α根据距离-权重曲线来确定,其中距离-权重曲线的值表示确定权重α随着模式间距d的改变而改变。随着修改(学习)处理的进行,距离-权重曲线具有一个确定权重α的变化与模式间距d的变化的更大比率,听觉SOM的每个节点的确定权重α根据距离-权重曲线来确定,其中在距离-权重曲线中,确定权重α的变化与模式间距d的变化的比率是增加的。
即不考虑修改(学习)处理的进行,执行优胜者节点的修改以便于特征提取单元2提供的时序数据形式的新声学参数序列具有很大的作用。另一方面,执行不是优胜者节点的节点的修改以便于在开始修改(学习)处理时新声学参数序列在关于优胜者节点的模式间距(d)的大范围内对节点的修改具有很大的影响。随着修改(学习)处理的进行,执行不是优胜者节点的节点的修改以便于新声学参数序列在关于优胜者节点的模式间距(d)的下降范围内对节点的修改具有很大的影响。
图8所示的修改权重确定单元43以上述方式确定听觉SOM的每个节点的确定权重α,学习数据修改单元44根据所确定的确定权重α为每个节点修改学习数据存储单元22中存储的学习数据。
现在,参考图10,以下描述为每个节点修改学习数据存储单元22中存储的学习数据的方法。
在下面的讨论中,假定与节点Ni相关的学习数据已经存储到学习数据存储单元22中,节点Ni的时序模式模型21已经正在使用学习数据存储单元22中存储的现有学习数据进行学习。
如上所述,学习数据修改单元44将学习数据存储单元22中存储的与节点Ni相关的现有的学习数据(下文中,这样的学习数据将被简单的称为旧学习数据)与特征提取单元2提供的时序数据形式的新声学参数序列以一个比率进行混合,其中所述的比率是由修改权重确定单元43根据节点Ni专用的确定权重α来确定的,学习数据修改单元44将该结果作为新学习数据存储到学习数据存储单元22中。因此,使用新学习数据更新了学习数据存储单元22中存储的数据内容。
也就是说,学习数据修改单元44通过将旧学习数据与提供的时序数据形式的新声学参数序列以根据确定权重α确定的比率进行混合产生新学习数据。
如果新声学参数序列和旧学习数据以1∶0的比率进行混合,那么作为结果的新学习数据与新声学参数序列相同。相反,如果新声学参数序列和旧学习数据以0∶1的比率进行混合,那么作为结果的新学习数据与旧学习数据相同。当使用新学习数据修改与节点Ni相关的时序模式模型21(图5)时,新声学参数序列对时序模式模型21的修改的影响可以通过改变新声学参数序列和旧学习数据的混合比率而改变。
对于节点Ni,新声学参数序列和旧学习数据的混合比率例如是根据确定权重α确定的,因此新声学参数序列和旧学习数据的混合比率随着确定权重α确定的增大而增大。
更准确地说,为了节点Ni的学习,特定数量的时序数据形式的声学参数序列(学习数据)存储到学习数据存储单元22中。下文中,特定数量的声学参数序列以H来标记。这样,总是使用H个学习数据(时序数据形式的H个声学参数序列)来执行与节点Ni相关的时序模式模型21的学习。
在特定数量(H)的学习数据总是存在于学习数据存储单元22的情况中,需要通过混合旧数据和新声学参数序列来产生与H一样多的新学习数据。将新声学参数序列和旧学习数据以对应于节点Ni专用的确定权重α的比率进行混合的方法之一是将新声学参数序列和旧学习数据以α∶H-α的比率进行混合。
将新声学参数序列和旧学习数据以α∶H-α的比率进行混合的具体方法是通过把α个新声学参数序列增加到整个H个旧学习数据的H-α个旧学习数据中产生H个新数据,如图10所示。
更准确地说,如果学习数据存储单元22中存储的时序数据形式的学习数据的数量H,例如是100,节点Ni的确定权重α例如是8,通过将8个新声学参数序列加到整个100个旧学习数据中的92个旧学习数据,学习数据存储单元22中存储的数据内容改变为100个新学习数据。
把新α个声学参数序列增加到整个H个旧学习数据的H-α个旧学习数据中的方法之一是在已经获得所有的新α个声学参数序列时执行附加操作。但是,这种方法中,不可能在每次获得一个新声学参数序列时更新学习数据存储单元22中存储的数据内容。
在本实施例中,为了避免上述问题,在每次获得一个新声学参数序列(例如声音持续时间中的一个声学参数序列)时通过把新α个声学参数序列增加到H-α个旧学习数据来更新学习数据存储单元22中存储的数据内容。更准确地说,当提供一个新声学参数序列时,通过复制提供的一个新声学参数序列来产生新α个声学参数序列,将新的α个声学参数序列和通过将最旧的α个学习数据的从整个H个旧学习数据中移除而获得的H-α个旧学习数据相加,从而更新了学习数据存储单元22中存储的数据内容。这种方法中,每次获得一个新声学参数序列时,则更新在学习数据存储单元22中存储的数据内容。
通过以上述方式更新学习数据存储单元22中存储的数据内容,最新的H个时序数据(声学参数序列)总是存储在学习数据存储单元22中,其中根据确定权重α调整新声学参数序列与整个数量的学习数据的比率。
现在,参考图11所示的流程图,下面描述图8所示的学习单元3执行的听觉SOM方面的学习(修改)处理。
如果学习单元3从特征提取单元2中接收作为新时序数据的声学参数序列,学习单元3开始学习处理以修改存储单元4中存储的听觉SOM。
也就是说,在学习单元3(图8)中,在步骤S1,分数计算单元41计算表示存储单元4中存储的听觉SOM的每个节点与特征提取单元2提供的新声学参数序列的相似性的分数。
更准确地说,当如图5所示的HMM用作每个节点的时序模式模型21时,观察到的新声学参数序列的对数似然性被确定为来自HMM的分数。例如可以使用维特比(Viterbi)算法来计算对数似然性。
如果已经为听觉SOM的所有节点计算了与新声学参数序列相关的分数,分数计算单元41向优胜者节点确定单元42提供每个节点的分数。此后,处理从步骤S1进行到步骤S2。
在步骤S2中,优胜者节点确定单元42从听觉SOM的所有节点中选择一个具有通过分数计算单元41计算的最高分数的节点,优胜者节点确定单元42将所选择的节点作为优胜者节点。优胜者节点确定单元42向修改权重确定单元43提供一个作为表示优胜者节点的信息的节点标记。此后,处理从步骤S2进行到步骤S3。
在步骤S3中,例如通过使用作为参考的从优胜者节点确定单元42提供的节点标记表示的优胜者节点,修改权重确定单元43确定用于听觉SOM的所有节点的确定权重。
更准确地说,如上参考图9进行的描述,修改权重确定单元43根据等式(1)所表示的距离-权重曲线确定听觉SOM的所有节点的确定权重,其中随着修改(学习)听觉SOM的进行,确定权重α的改变对于模式间距d的改变变得更为敏感,并且修改权重确定单元43向学习数据修改单元44提供每个节点的作为结果的确定权重α。
接着处理从步骤S3进行到步骤S4。在步骤S4,学习数据修改单元44根据修改权重确定单元43确定的确定权重为听觉SOM的每个节点修改学习数据存储单元22中存储的学习数据。更准确地说,学习数据修改单元44通过将特征提取单元2提供的新声学参数序列和学习数据存储单元22中存储的节点的旧学习数据以α∶H-α的比率进行混合来获得H段学习数据,其中每个α是与每个节点相关的确定权重,如上参考图10的描述。因此,通过H段的新学习数据来修改学习数据存储单元22中存储的数据内容。
如果学习数据修改单元44为听觉SOM的所有节点修改学习数据存储单元22(图5)中的内容,学习数据修改单元44向模型学习单元45提供完成通知以通知修改完成。
如果模型学习单元45从学习数据修改单元44接收到完成通知,处理从步骤S4进行到步骤S5。在步骤S5,模型学习单元45修改听觉SOM的参数(以时序模式存储网络形式的每个听觉SOM节点的时序模式模型21(图5)的参数(下文中简称为模型参数))。如果完成了所有节点的模型参数的修改,则结束学习处理。
也就是说,模型学习单元45通过使用由学习数据修改单元44修改并且存储在学习数据存储单元22中的新学习数据对时序模式模型21执行学习来修改听觉SOM的每个节点的时序模式模型21。
更准确地说,例如,当使用HMM作为每个节点的时序模式模型21时,使用存储在学习数据存储单元22中的新学习数据为每个节点执行HMM的学习。在这个学习处理中,例如,使用HMM的当前状态转换几率和输出几率密度函数作为初始值以及使用新学习数据通过Baum-Welch方法确定新状态转换几率和新输出几率密度函数。根据新状态转换几率和新输出几率密度函数,听觉SOM的模型参数,即HMM的状态转换几率和输出几率密度函数(更准确地说,平均矢量、协方差矩阵等)被修改。
在图11所示的学习处理中,当一个声学参数序列作为新时序数据被获得时,根据听觉SOM的节点确定该新声学参数序列的优胜者节点。因此,使用优胜者节点作为参考,为听觉SOM的每个节点确定一个确定权重。此后,根据确定权重,修改听觉SOM的每个节点的时序模式模型21(图5)的模型参数(本实例中HMM的状态转换几率和输出几率密度函数)。
也就是说,在图11所示的学习处理中,为一个新声学参数序列执行一次听觉SOM的节点的模型参数的修改,并且每次获得一个新声学参数序列时以类似的方式执行节点的模型参数的修改。因此,以自组织方式执行学习。
通过执行有效的学习,听觉SOM的每个节点的时序模式模型21获得特定的时序模式。听觉SOM的时序模式的总数量等于听觉SOM的节点的总数量。因此,例如,当听觉SOM的节点的总数量等于100时,为与100个同样多的时序模式执行学习。
图12示出了图1所示的识别单元5的结构的实例。
如上参考图1的描述,声学参数序列作为新时序数据从特征提取单元2提供给识别单元5,该新声学参数序列提供给分数计算单元51。
分数计算单元51计算表示存储单元4中存储的听觉SOM的每个节点与特征提取单元2提供的新声学参数序列的相似的分数,并且分数计算单元51将所计算的分数提供给优胜者节点确定单元52。更准确地说,例如,当诸如图5所示的HMM用作每个节点的时序模式模型21时,分数计算单元51根据表示每个节点的时序模式模型21的HMM确定观察到的特征提取单元2提供的新声学参数序列的似然性,分数计算单元51将所计算的似然性作为每个节点的分数提供给优胜者节点确定单元52。
如同学习单元3(图8)的优胜者节点确定单元42,优胜者节点确定单元52从存储单元4中存储的听觉SOM的节点中选择出一个与特征提取单元2提供的新声学参数序列具有最大相似的节点,优胜者节点确定单元52确定所选择的节点为优胜者节点。
也就是说,优胜者节点确定单元52从存储单元4中存储的听觉SOM的节点中检测到一个具有分数计算单元51计算的最高分数的节点,和优胜者节点确定单元52确定所检测到的节点作为优胜者节点。优胜者节点确定单元52输出一个节点标记作为表示为特征提取单元2提供的新声学参数序列确定的优胜者节点的学习的信息,或确定为语音识别的结果,观察单元1从该结果中提取和观察新声学参数序列。
注意识别单元5的分数计算单元51和学习单元3(图8)的分数计算单元41中的一个可以用于执行识别单元5和学习单元3中需要的计算。注意识别单元5的优胜者节点确定单元52和学习单元3(图8)的优胜者节点确定单元42中的一个既可以用于识别单元5的确定单元又可以用于学习单元3的确定单元。因此,通过使得学习单元3的分数计算单元41运行的与识别单元5的分数计算单元51相同以及优胜者节点确定单元42运行的与识别单元5的优胜者节点确定单元51相同,识别单元5可以构造为学习单元3的一部分。
现在,参考图13所示的流程图,给出关于图12所示的识别单元5执行的识别处理的解释来识别一个语音,其中从该语音中,特征提取单元2提取出一个声学参数序列。
如果识别单元5从特征提取单元2接收到一个作为新时序数据的声学参数序列,识别单元5开始一个识别处理以使用存储单元4中存储的听觉SOM识别出一个语音,从该语音中,特征提取单元2提取出一个声学参数序列(即观察单元1观察到的语音)。
也就是说,在识别单元5(图13)中,在步骤21,分数计算单元51计算表示存储单元4中存储的每个听觉SOM节点与特征提取单元2提供的新声学参数序列的相似性的分数。
更准确地说,例如,当HMM用作每个节点的时序模式模型21(图5)时,观察到的新声学参数序列的对数似然性被确定为来自HMM的分数。
如果已经为听觉SOM的所有节点计算了与新声学参数序列相关的分数,分数计算单元51向优胜者节点确定单元52提供每个节点的分数。此后,处理从步骤S21进行到步骤S22。
在步骤S22中,优胜者节点确定单元52从听觉SOM的节点中选择一个具有最高的由分数计算单元51计算的分数的节点,并将所选择的节点作为优胜者节点。于是处理从步骤S22进行到步骤S23。在步骤S23中,优胜者节点确定单元52将一个表示优胜者节点的节点标记作为语音识别结果提供给产生单元6。因此识别处理完成。
使用听觉SOM的上述识别处理允许它识别具有很高的由听觉SOM节点的数目确定的分辨率的语音。
图14示出了图1所示的产生单元6的结构的实例。
如果表示存储单元4中存储的听觉SOM节点的优胜者节点的节点标记作为语音识别结果从识别单元5提供给产生单元6,该节点标记被输入到在产生单元6中的产生节点确定单元61。
产生节点确定单元61在存储单元4中存储的连接网络中搜索一个具有与听觉SOM的优胜者节点最高连接强度的节点,其中的优胜者节点是由识别单元5提供的节点标记表示的,即产生节点确定单元61搜索一个具有与优胜者节点最大连接权重的节点。如果产生节点确定单元61从发音SOM的节点中检测到一个具有与听觉SOM的优胜者节点的最大连接权重的节点,其中的优胜者节点是由识别单元5提供的节点标记表示的,那么产生节点确定单元61将所检测到的节点作为产生节点以用于产生发音参数,并且产生节点确定单元61将标识产生节点的节点标记提供给模型参数修改单元62。
模型参数修改单元62从存储单元4中存储的发音SOM的节点中检测到通过产生节点确定单元61提供的节点标记标识的产生节点并执行修改控制处理以修改产生节点所产生的声学参数序列。
发音SOM的每个节点具有诸如图5所示的时序模式模型21,使用发音参数序列通过学习单元7来执行与每个发音SOM节点相关的时序模式模型21的学习(修改),从而发音SOM的每个节点的时序模式模型21可以产生一个发音参数序列,其中发音参数序列是一个驱动驱动单元8的参数。
更确切地说,例如,当HMM用作每个节点的时序模式模型21时,HMM可以产生具有表示观察到的发音参数序列的似然性的最大输出几率的发音参数序列。
使用HMM产生包括发音参数序列的时序数据的方法来产生根据动态特征值平滑地改变的时序数据。这样一种产生时序数据的具体实例在题目为“基于HMM的语音合成的语音参数产生算法(SPEECH PARAMETER GENERATIONALGORITHMS FOR HMM-BASED SPEECH SYNTHESIS)”(K.Tokuda,T.Yoshimura,T.Masuko,T.Kobayashi,和T.Kitamura,Proc.of ICASSP 2000,第3卷,第1315-1318页,2000年6月)的技术论文中公开。
使用HMM产生时序数据的另一种方法是基于随机试验使用HMM的参数重复地产生时序数据和使用产生的时序数据的平均值。这样一种产生时序数据方法的具体实例公开在,例如“使用连续的HMM提取和重存时序数据的主要帧(Extraction and restore of keyframes of time-series data using acontinuous HMM)”(Inamura等人,Proc.of 2003 ROBOMEC,2P1-3F-C6).
当HMM用作时序模式模型21时,其中的模型参数是HMM的状态转换几率和输出几率密度函数(更确切地说,其中的平均矢量和协方差矩阵)。可能通过改变状态转换几率和输出几率密度函数来改变由HMM产生的时序数据,即HMM的模型参数。
因此模型参数修改单元62控制位于下一步的时序数据产生单元63以改变与发音SOM的产生节点相关的模型参数和使用所改变的模型参数产生时序数据形式的发音参数序列。更确切地说,模型参数修改单元62将产生节点的改变的模型参数提供给时序数据产生单元63并且控制时序数据产生单元63以使用产生节点的改变的模型参数产生发音参数序列。在这个处理中,因为时序数据产生单元63使用与产生节点相关的改变的模型参数产生发音参数,因此在产生节点产生的发音参数序列出现了变化。
注意,通过模型参数修改单元62改变发音SOM产生节点的模型参数是在控制单元10的控制下进行的。
时序数据产生单元63从模型参数修改单元62提供的产生节点的时序模式模型21(图5)的模型参数中产生发音参数序列,时序数据产生单元63将所产生的发音参数序列提供给学习单元7(图1)和驱动单元8。
现在,参考图15所示的流程图,下面描述通过图14所示的产生单元6执行的产生发音参数序列的产生处理。
如果表示听觉SOM的优胜者节点的节点标记作为识别结果从识别单元5提供给产生单元6,则产生单元6开始产生处理。
也就是说,在步骤S31,产生单元6(图14)中的产生节点确定单元61检测到存储单元4中存储的发音SOM节点中的一个节点具有与优胜者节点最大连接权重,所述的优胜者节点是存储单元4中存储的听觉SOM节点中的一个并且由识别单元5提供的节点标记来表示的,产生节点确定单元61确定所检测到的节点作为产生节点。接着产生节点确定单元61将表示产生节点的节点标记提供给模型参数修改单元62。此后,处理从步骤S31进行到S32。
在步骤S32,模型参数修改单元62从存储单元4中存储的发音SOM的节点中检测出由产生节点确定单元61提供的节点标记所标识的产生节点,和模型参数修改单元62从存储单元4中读取该产生节点(更严格地说,与产生节点相关的时序模式模型21(图5)的模型参数)。此外,模型参数修改单元62根据控制单元10(图1)提供的命令修改或不修改产生节点(严格来讲,与产生节点相关的时序模式模型21的模型参数),和模型参数修改单元62将结果的产生节点提供给时序数据产生单元63。此后,处理从步骤S32进行到S33。
在步骤S33,时序数据产生单元63根据模型参数修改单元62提供的产生节点(严格来讲,与产生节点相关的时序模式模型21的模型参数)产生发音参数序列,和时序数据产生单元63将所产生的发音参数序列提供给学习单元7(图1)和驱动单元8。因此,产生处理完成。
图16示出了图1所示的学习单元7的结构的实例。
如果学习单元7从产生单元6(图1)中接收时序数据形式的发音参数序列,那么在控制单元10(图1)的控制下,学习单元7根据产生单元6提供的发音参数序列以自组织方式修改存储单元4中存储的时序模式存储网络,即连接网络的发音SOM。
更确切地说,分数计算单元71为存储单元4中以时序模式存储网络形式存储的每个发音SOM节点确定表示与产生单元6提供的时序数据形式的新发音参数序列有关的相似性分数,其方式与图8所示的分数计算单元41执行的计算相同,并且分数计算单元71将每个节点的作为结果的分数提供给优胜者节点确定单元72。因此,在诸如图5所示的HMM用作发音SOM的每个节点的时序模式模型21的情况下,分数计算单元71根据表示每个节点的时序模式模型21的HMM确定观察到的产生单元6提供的新发音参数序列的似然性,和分数计算单元71将所计算的似然性作为节点的分数提供给优胜者节点确定单元72和自学习连接权重修改单元76。
优胜者节点确定单元72从存储单元4存储的时序模式存储网络形式的发音SOM的节点中检测出一个具有与产生单元6提供的新发音参数序列最相似的节点,优胜者节点确定单元72将所检测到的节点确定为优胜者节点。
也就是说,优胜者节点确定单元72从存储单元4中存储的发音SOM节点中检测出一个具有分数计算单元71计算的最高分数的节点,优胜者节点确定单元72确定所检测到的节点为优胜者节点。优胜者节点确定单元72将表示优胜者节点的节点标记提供给修改权重确定单元73。
修改权重确定单元73基于以优胜者节点确定单元72提供的节点标记表示的优胜者节点确定存储单元4中存储的每个发音SOM节点的确定权重,其方式与图8所示的修改权重确定单元43确定确定权重的方式相同,和修改权重确定单元73将每个节点的结果的确定权重提供给学习数据修改单元74。
也就是说,修改权重确定单元73根据每个节点和优胜者节点之间的模式间距确定存储单元4中存储的发音SOM的每个节点(包括优胜者节点)的确定权重,修改权重确定单元73将每个节点的结果的确定权重提供给学习数据修改单元74。
每个发音SOM节点的分数可以通过修改权重确定单元73来确定或者分数计算单元71确定的分数可以提供给修改权重确定单元73。
学习数据修改单元74为存储单元4中存储的每个发音SOM节点修改学习数据存储单元22(图5)中存储的学习数据,其方式与图8所示的学习数据修改单元44修改学习数据的方式相同。
更确切地说,学习数据修改单元74将与学习数据存储单元22中存储的每个发音SOM节点相关的现有学习数据和产生单元6提供的新发音参数序列以一个比率进行混合,该比率是根据与修改权重确定单元73提供的节点相关的确定权重来确定的,和学习数据修改单元74将该结果作为新学习数据存储到学习数据存储单元22中从而更新学习数据存储单元22中的内容。
当学习数据修改单元74以上述方式修改了学习数据存储单元22(图5)中存储的学习数据后,学习数据修改单元74将完成通知提供给模型学习单元75以通知修改完成。
如果模型学习单元75从学习数据修改单元74接收到完成通知,模型学习单元75通过使用学习数据修改单元74修改的并且存储到学习数据存储单元22(图5)中的学习数据,对时序模式模型21执行学习来修改存储单元4存储的每个发音SOM节点的时序模式模型21(更严格的讲,时序模式模型21的模型参数)。
因此,在模型学习单元75执行的修改每个发音SOM节点的时序模式模型21的处理中,基于与学习数据存储单元22(图5)中存储的每个节点相关的学习数据(的部分)以及基于产生单元6提供的新发音参数序列来执行修改。
在奖励采集单元9(图1)不提供奖励的情况下,自学习连接权重修改单元76根据分数计算单元71提供的关于产生单元6提供的新发音参数序列的分数,为每个发音SOM节点修改存储单元4中存储的连接网络(表示听觉SOM的节点和发音SOM的节点之间的连接强度)的连接权重。另一方面,如果奖励采集单元9提供了奖励,自学习连接权重修改单元76不激活连接权重的修改。
如果奖励采集单元9提供了奖励,有指导学习连接权重修改单元77使用所接收的奖励作为训练信号和根据该训练信号修改存储单元4中存储的连接权重(表示听觉SOM的节点和发音SOM的节点之间的连接强度)。另一方面,如果奖励采集单元9提供了奖励,有指导学习连接权重修改单元77不激活连接权重的修改。
现在,参考图17的流程图,下面描述学习单元7执行的学习(修改)发音SOM和连接权重的学习处理。
如果产生单元6提供了一个时序数据形式的新发音参数序列并且接收到来自控制单元10的一个使用新发音参数序列执行学习的命令,学习单元7开始学习处理以修改存储单元4中存储的发音SOM和连接权重。
也就是说,在学习单元7(图16)中,分数计算单元71计算表示存储单元4中存储的每个发音SOM节点与特征提取单元2提供的新发音参数序列的相似性的分数。
更准确地说,例如,当HMM用作发音SOM的每个节点的时序模式模型21时,根据HMM使用例如维特比(Viterbi)算法来确定观察到的新声学参数序列的对数似然性,和作为结果的对数似然性可为每个发音SOM节点用作产生单元6提供的新发音参数序列方面的分数。
如果已经为发音SOM的所有节点计算了与新声学参数序列相关的分数,分数计算单元71向优胜者节点确定单元72和自学习连接权重修改单元76提供每个节点的分数。此后,处理从步骤S41进行到步骤S42。
在步骤S42中,优胜者节点确定单元72从发音SOM的节点中检测出一个具有通过分数计算单元71计算的最高分数的节点,并确定所检测出的节点作为优胜者节点。优胜者节点确定单元72向修改权重确定单元73提供一个表示优胜者节点的节点标记。此后,处理从步骤S42进行到步骤S43。
在步骤S43中,通过使用优胜者节点确定单元72提供的用节点标记表示的优胜者节点作为参考,修改权重确定单元73确定发音SOM的每个节点的确定权重。
如上参考图9进行的描述,修改权重确定单元73根据等式(1)所表示的距离-权重曲线确定每个发音SOM节点的确定权重α,该曲线随着修改(学习)发音SOM的进行,确定权重α的改变对于模式间距d的改变变得更为敏感,并且修改权重确定单元73向学习数据修改单元44提供每个节点的作为结果的确定权重。
接着处理从步骤S43进行到步骤S44。在步骤S44,学习数据修改单元74根据修改权重确定单元73确定的确定权重为每个发音SOM节点修改学习数据存储单元22(图5)中存储的学习数据。更准确地说,学习数据修改单元74通过将产生单元6提供的新发音参数序列和学习数据存储单元22中存储的发音SOM的节点的旧学习数据以α∶H-α的比率进行混合来获得H段新学习数据,其中α是与每个节点相关的确定权重,如上参考图10的描述。因此,通过H片新学习数据来修改学习数据存储单元22中存储的数据内容。
如果学习数据修改单元74为发音SOM的所有节点修改学习数据存储单元22(图5)中的内容,学习数据修改单元74向模型学习单元75提供完成通知以通知修改完成。
如果模型学习单元75从学习数据修改单元74接收到完成通知,处理从步骤S44进行到步骤S45。在步骤S5,模型学习单元75更新与发音SOM相关的模型参数。
也就是说,模型学习单元75通过使用由学习数据修改单元74修改并且存储在学习数据存储单元22中的新学习数据对时序模式模型21执行学习以便修改发音SOM的每个节点的时序模式模型21。
更准确地说,例如,当HMM用作发音SOM的每个节点的时序模式模型21时,使用存储在学习数据存储单元22中的新学习数据为每个节点执行HMM的学习。在这个学习处理中,例如,使用HMM的当前状态转换几率和输出的几率密度函数(模型参数)作为初始值以及使用新学习数据通过Baum-Welch方法确定新状态转换几率和新输出几率密度函数。根据新状态转换几率和新输出几率密度函数,发音SOM的模型参数,即HMM的状态转换几率和输出几率密度函数(更准确地说,平均矢量、协方差矩阵等)被修改。
接着处理从步骤S45进行到步骤S46。在步骤S46中,自学习连接权重修改单元76和有指导学习连接权重修改单元77确定奖励采集单元9是否已经提供了奖励。
如果在步骤S46确定没有提供奖励,则处理进行到步骤S47。在步骤S47中,按照在产生单元6为发音SOM的各个节点提供的新发音参数序列,自学习连接权重修改单元76根据分数计算单元71在步骤S41提供的分数修改存储单元4中存储的连接网络的连接权重(下文中,该修改处理将称为自学习连接权重的修改)。如果步骤S47完成了,则学习处理结束。
另一方面,如果在步骤S46确定已经提供了奖励,则处理进行到步骤S48。在步骤S48中,有指导学习连接权重修改单元77根据奖励采集单元9在步骤S46提供的奖励修改存储单元4中存储的连接权重(下文中,该修改处理称为有指导学习连接权重的修改)。在完成步骤S48之后,学习处理结束。
现在,参考图18所示的流程图,下面描述图1所示的信息处理装置的操作。在下面的讨论中,假定给出了例如以HMM形式的与每个发音SOM节点相关的时序模式模型21(图5)。
首先,在步骤S101中,控制单元10初始化存储单元4中存储的连接网络。此后,处理继续到步骤S102。
更准确地说,控制单元10设置合适的值(如随机数)作为与存储单元4中存储的连接网络的听觉SOM和发音SOM的每个节点相关的HMM的模型参数,并且控制单元10还设置合适的值(如随机数)作为听觉SOM和发音SOM之间的连接权重。
在步骤S102,如果用户发出话音,观察单元1检测到一个声音持续时间并将检测到的声音持续时间中的语音/声音提供给特征提取单元2。此后,处理从步骤S102进行到步骤S103。
在步骤S103,特征提取单元2从观察单元1提供的语音/声音中提取声学参数和将所提取的时序数据形式的声学参数序列提供给学习单元3和识别单元5。此后,处理继续到步骤S104。
在步骤S104,识别单元5使用特征提取单元2提供的声学参数序列,即用户以和上面参考图13描述的方式相同的方式发出的话音的声学参数序列,执行识别处理,识别单元5将表示听觉SOM的优胜者节点的节点标记作为用户发出的话音的识别结果提供给产生单元6和控制单元10。此后,处理继续到步骤S105。
下文中,为用户发出的话音获得的听觉SOM的优胜者节点将被称为话音优胜者节点。
在步骤S105,学习单元3使用特征提取单元2提供的声学参数序列,即用户以上面参考图11描述的方式相同的方式发出的话音的声学参数序列,执行学习处理。结果,存储单元4中存储的听觉SOM被更新。此后,处理继续到步骤S106。
在步骤S106到S109,产生单元6执行上述参考图15描述的产生处理。
也就是说,在步骤S106,如图15所示的步骤S31,产生单元6(图14)中的产生节点确定单元61检测到存储单元4中存储的发音SOM的节点中的一个节点具有与话音优胜者节点最大连接权重,所述的话音优胜者节点是存储单元4中存储的听觉SOM的节点中的一个并且由识别单元5在紧接前面的步骤S104中提供的节点标记来表示的,产生节点确定单元61确定所检测到的节点作为产生节点。接着产生节点确定单元61将表示产生节点的节点标记提供给模型参数修改单元62。此后,处理从步骤S106进行到S107。
在步骤S107,如同图15所示的步骤S32,产生单元6(图14)中的模型参数修改单元62从存储单元4中存储的发音SOM的节点中检测出由产生节点确定单元61提供的节点标记所标识的产生节点,和模型参数修改单元62从存储单元4中读取该产生节点(更确切地说,与产生节点相关的时序模式模型21(图5)的模型参数)。
此后,处理从步骤S107进行到步骤S108。在步骤S108,根据控制单元10提供的命令,模型参数修改单元62修改或不修改与从存储单元4中读取的产生节点相关的时序模式模型21的模型参数(下文中,简单称为产生节点的模型参数),和模型参数修改单元62将产生节点的作为结果的模型参数提供给时序数据产生单元63。此后,处理继续到步骤S109。
从S108到S114的步骤形成一个循环,在由于用户发出的话音而获得的一个声音持续时间内为语音/话音数据至少执行一次该循环。当在用户发出的话音的一个声音持续时间内为语音/话音数据第一次执行步骤S108时,控制单元10控制模型参数修改单元62以便于产生节点的模型参数直接、不作修改地提供给时序数据产生单元63。在步骤S108的第二次和随后的进行处理中,控制单元10控制模型参数修改单元62以便于修改产生节点的模型参数并且结果的模型参数提供给时序数据产生单元63。
在步骤S109,如同图15所示的步骤S33,产生单元6(图14)的时序数据产生单元63根据模型参数修改单元62提供的产生节点的模型参数(严格来讲,是通过产生节点的模型参数定义的HMM形式的时序模式模型21)产生发音参数序列,以及时序数据产生单元63将所产生的发音参数序列提供给学习单元7和驱动单元8。因此,处理继续到步骤S110。
时序数据产生单元63以上述方式根据模型参数修改单元62提供的产生节点的模型参数产生发音参数序列。因此,在模型参数修改单元62提供给时序数据产生单元63的产生节点的模型参数在步骤S108中进行修改的情况下,在步骤S109从模型参数中产生的发音参数序列出现变化。
在步骤S110,驱动单元8根据产生单元6提供的发音参数序列执行驱动操作,即驱动单元8使用产生单元6提供的发音参数序列合成一个声音。所合成的声音从驱动单元8输出出去。此后,处理从步骤S110进行到S111。
在前面步骤S110由驱动单元8输出的合成声音被观察单元1观察到。在步骤S111,观察单元1基于观察值检测到合成声音的声音持续时间,以及观察单元1将声音持续时间内的语音/话音数据提供给特征提取单元2。此后,处理继续到步骤S112。
在步骤S112,如同步骤S103,特征提取单元2从观察单元1提供的语音/话音数据中提取声学参数和将所提取的时序数据形式的声学参数序列提供给识别单元5。此后,处理继续到步骤S113。
在步骤S113,如同步骤S104,识别单元5以与上述参考图13的方式相同的方式,使用特征提取单元2提供的声学参数序列,即驱动单元8输出的合成声音的声学参数序列,执行识别处理,识别单元5将表示听觉SOM的优胜者节点的节点标记作为从驱动单元8输出的合成声音的识别结果提供给控制单元10。此后,处理继续到步骤S114。
下文中,为从驱动单元8输出的合成声音而获得的听觉SOM的优胜者节点将被称为合成声音优胜者节点。
在步骤S114,基于步骤S104从识别单元5提供的节点标记所表示的话音优胜者节点以及基于步骤S113从识别单元5提供的节点标记所表示的合成声音优胜者节点,控制单元10确定最终条件是否满足在步骤S109由产生单元6产生的发音参数序列的最终修改以及在步骤S108产生节点的模型参数的修改。
最终条件可以是例如作为用户发出的话音的识别结果提供的听觉SOM的话音优胜者节点与作为驱动单元8输出的合成声音的识别结果提供的合成声音优胜者节点相同。当满足最终条件时,驱动单元8输出的合成声音的识别结果(作为识别结果提供的听觉SOM的优胜者节点)与用户发出的话音的识别结果(作为识别结果提供的听觉SOM的优胜者节点)相同,因此驱动单元8输出的合成声音可以被认为与用户发出的话音在听觉SOM不能识别的一个错误范围之内相同。注意用户作为奖励(肯定奖励或否定奖励)提供一个判断,该判断是关于驱动单元8输出的合成声音是否被认为与用户发出的话音在不能识别用户的听觉感的一个错误范围之内相同。因此最终条件的满足不一定意味着驱动单元8输出的合成声音可以被认为与用户发出的话音在无法识别用户的一个错误范围之内相同,但是意味着信息处理装置(机器人)已经确定驱动单元8输出的合成声音与用户发出的话音相同。
最终条件的另一个实例是作为驱动单元8输出的合成声音的识别结果提供的合成声音优胜者节点和作为用户发出的话音的识别结果提供的听觉SOM的话音优胜者节点之间的模式间距已经等于或小于预定的阈值(例如1)。
在从步骤S108到S114的循环中步骤S114的第二次或以后进一步的执行中,最终条件可以是合成声音优胜者节点和话音优胜者节点之间的模式间距等于或大于在该循环的前一次执行中获得的模式间距(即已经获得了合成声音优胜者节点和话音优胜者节点之间的模式间距的最小值)。
如果在步骤S114确定终结产生节点的模型参数的修改的最终条件没有满足,即如果合成声音优胜者节点和话音优胜者节点之间的模式间距没有大于阈值,并且因此信息处理装置已经确定驱动单元8输出的合成声音与用户发出的话音不相似,那么处理返回到步骤S108以重复上述处理。
当在该循环的第二次或进一步的反复中执行步骤S108时,控制单元10控制模型参数修改单元62以便根据第一次执行该循环中获得的参数修改产生节点的模型参数并且将作为结果的修改后的模型参数提供给时序数据产生单元63。
也就是说,在控制单元10的控制下,模型参数修改单元62修改在步骤S107从存储单元4中读取的产生节点的模型参数和将作为结果的修改后的模型参数提供给时序数据产生单元63。
与产生节点相关的HMM的模型参数可以根据下述方法之一进行修改。
第一种方法是首先在与产生节点相关的HMM的模型参数和与属于发音SOM并且具有与话音优胜者节点的第二最大连接权重的节点相关的HMM的模型参数之间确定一个内部区分点,和接着将通过内部区分点表示的HMM的模型参数用作产生节点的修改后的模型参数。确定HMM的模型参数之间的内部区分点的该方法的具体实例公开在“From Stochastic Motion Generation andRecognition to Geometric Symbol Development and Manipulation”(Tetsunari Inamura,Hiroaki Tanie和Yoshihiko Nakamura,Proc.ofInt’1 Conf.On Humanoid Robots(Humanoids2003))。该方法的另一个实例公开在例如“Construction of proto-type symbol space for relationshipdescription be tween abstract motion by Hidden Markov Models”(Inamura等,Proc.of ROBOMEC 2003,2P2-3F-B2)。
第二种方法是首先在与产生节点相关的HMM的模型参数和与除了产生节点的任意发音SOM节点相关的HMM的模型参数之间确定一个外部区分点,和接着将通过外部区分点表示的HMM的模型参数用作产生节点的修改后的模型参数。HMM的模型参数的外部区分点以与内部区分点相似的方式进行确定。
第三种方法是随机修改与产生节点相关的HMM的模型参数。
注意修改与产生节点相关的HMM的模型参数的方法不限于上述三种方法。还应注意与产生节点相关的HMM的模型参数的修改不一定需要使用上述三种固定的方法,而方法可以随着需要改变。
例如,当作为前述步骤S113中合成声音的识别结果获得的话音优胜者节点和合成声音优胜者节点之间的模式间距相当小(不很大)时,使用第一种方法修改模型参数。另一方面,当模式间距很大时,使用第二或第三种方法修改模型参数。
如果步骤S108完成,即如果模型参数修改单元62已经以上述方式修改了产生节点的模型参数并将该修改后的模型参数提供给时序数据产生单元63,则处理继续到步骤S109。在步骤S109,产生单元6(图14)的时序数据产生单元63根据模型参数修改单元62提供的产生节点的(HMM形式的时序模式模型21的)模型参数产生一个发音参数序列并将所产生的发音参数序列提供给学习单元7和驱动单元8。此后,处理继续到步骤S110。在步骤S110,驱动单元8使用产生单元6提供的发音参数序列产生合成声音并输出作为结果的合成声音。此后,处理从步骤S110进行到S111。
在这种具体情况中,因为模型参数修改单元62提供给时序数据产生单元63的产生节点的模型参数在步骤S108中进行修改,在当前步骤S109从该模型参数中产生的发音参数序列与步骤S109的前次运行中产生的发音参数序列不同。因此,在步骤S110的当前运行中从该发音参数序列产生的合成声音也与步骤S110的前次运行中产生的合成声音不同。
此后,以与上述相似的方式执行步骤S111到S113,表示听觉SOM的优胜者节点的节点标记被从识别单元5提供给控制单元10,所述的优胜者节点是在前一步骤S110产生的合成声音上获得的作为图13所示的识别处理的结果。此后,处理继续到步骤S114。
如果在步骤S114确定终结产生节点的模型参数的修改的最终条件被满足,即例如,如果作为从步骤S108到S114的循环反复运行的结果,作为基于步骤S108中修改的HMM的模型参数所产生的发音参数序列而产生的合成声音的识别结果而获得的合成声音优胜者节点已经与话音优胜者节点相同,或者如果合成声音优胜者节点和话音优胜者节点之间的模式间距已经等于或小于预定的阈值并且因此信息处理装置已经确定驱动单元8输出的合成声音与用户发出的话音相似,那么处理继续到步骤S115。在步骤S115,控制单元10控制学习单元7来修改发音SOM和存储单元4中存储的连接网络的连接权重。此后,处理返回到步骤S102以等待用户发出下一个话音。如果发出下一个话音,则重复上述处理。
这种情况下,如果没有提供奖励(即如果图17所示的步骤S46的回答是否),那么学习单元7在控制单元10的控制下修改自学习连接权重(图17所示的步骤S47)。更确切地说,学习单元7根据前一步骤S109中由产生单元6提供的发音参数序列,即根据已经满足最终条件的发音参数序列,(通过学习)修改发音SOM和存储单元4中存储的连接网络的连接权重,其方式与上面参考图17的描述相类似。
另一方面,在已经提供奖励的情况下(即对图17所示的步骤S46的回答为是),那么学习单元7在控制单元10的控制下修改有指导学习连接权重(图17所示的步骤S48)。更确切地说,学习单元7根据前一步骤S109中由产生单元6提供的发音参数序列,即根据已经满足最终条件的发音参数序列,(通过学习)修改存储单元4中存储的连接网络的发音SOM,和学习单元7还根据奖励(作为训练信号)为前一步骤S110中通过驱动单元8输出的音素以与上面参考图17的描述相类似的方式修改存储单元4中存储的连接网络的连接权重。
现在,接下来详细描述修改自学习连接权重的处理和修改有指导的学习连接权重的处理。
首先,详细描述修改自学习连接权重的处理。
也就是说,在学习单元7(图16)中,如同上述图17中的步骤S41,分数计算单元71计算表示存储单元4中存储的发音SOM的每个节点与前一步骤S109中从产生单元6提供的新发音参数序列的相似分数,和分数计算单元71向优胜者节点确定单元72和自学习连接权重修改单元76提供所计算的分数。
作为响应,如同上述图17中的步骤S42,优胜者节点确定单元72从发音SOM的所有节点中选择出一个具有通过分数计算单元71计算的最高分数的节点,和优胜者节点确定单元72将所选择的节点用作优胜者节点。优胜者节点确定单元72向修改权重确定单元73提供一个表示优胜者节点的节点标记。作为响应,如同上述图17中的步骤S43,依据每个节点和由优胜者节点确定单元72提供的节点标记表示的优胜者节点之间的模式间距,修改权重确定单元73确定发音SOM的每个节点的确定权重,修改权重确定单元73将每个节点作为结果的确定权重提供给学习数据修改单元74。
学习数据修改单元74以类似于图17中步骤S44的方式通过将产生单元6提供的新发音参数序列和学习数据存储单元22中存储的发音SOM的节点的旧学习数据以一个比率进行混合来获得新学习数据,所述的比率是根据与每个节点相关的确定权重进行确定的。因此,通过新学习数据来更新学习数据存储单元22中存储的数据内容。
接着,如同上述图17中的步骤S45,模型学习单元75通过使用由学习数据修改单元74修改并且存储在学习数据存储单元22中的新学习数据对时序模式模型21(HMM)执行学习以便修改发音SOM的每个节点的时序模式模型21。
另一方面,在没有提供奖励的情况下,自学习连接权重修改单元76根据分数计算单元71在步骤S41提供的关于由产生单元6提供的新发音参数序列的分数,为发音SOM的每个节点修改存储单元4中存储的连接网络的连接权重,其方式类似于上述图17中的步骤S46和S47的方式。
也就是说,自学习连接权重修改单元76修改听觉SOM的每个节点和发音SOM的优胜者节点之间的连接权重,所述的优胜者节点是具有分数计算单元71计算的最高分数并因此具有与观察到的在满足最终条件时(在前一步骤S109中从产生单元6提供的发音参数序列)获得的发音参数序列的最高似然性,这样听觉SOM的话音优胜者节点和发音SOM的优胜者节点之间的连接权重极大增加(增强)。
更确切地说,自学习连接权重修改单元76根据下面的等式修改连接权重。
cwnew(W,j)=cwold(W,j)+βscore_in(j)score_out(W) (2)
其中,W是表示属于发音SOM并具有在满足最终条件时观察到的发音参数序列的最高似然性的节点的索引(即具有分数计算单元71计算的最高分数的优胜者节点),j是表示听觉SOM的节点的索引。当听觉SOM的节点的总数量为N时,索引j取值1,2,...,N。
这里,如果发音SOM中由索引W表示的节点(具有在满足最终条件时观察到的发音参数序列的最高似然性的节点)被标记为节点#W,听觉SOM中由索引j表示的节点被标记为节点#j,那么等式(2)中的cwnew(W,j)表示发音SOM中的节点#W和听觉SOM的节点#j之间的修改的连接权重,和cwold(W,j)表示发音SOM的节点#W和听觉SOM的节点#j之间的前一个连接权重。
在等式(2)中,β是一个常量,score_in(j)表示为用户发出的话音确定的听觉SOM节点#j的分数,而score_out(W)表示为满足最终条件时获得的发音参数序列确定的发音SOM节点#W的分数,即作为满足最终条件时获得的发音参数序列的优胜者节点的发音SOM节点#W的分数。
在等式(2)中,自学习连接权重修改单元76从分数计算单元71提供的分数中获得发音SOM节点#W的分数score_out(W),和从控制单元10中获得听觉SOM的每个节点#j的分数score_in(j)。也就是说,控制单元10从识别单元5中获得为用户发出的话音确定的听觉SOM的每个节点#j的分数score_in(j)并将其提供给自学习连接权重修改单元76。自学习连接权重修改单元76使用控制单元10提供的分数score_in(j)计算等式(2)。
在步骤S115,自学习连接权重修改单元76还可以修改存储单元4中存储的连接网络的连接权重,如下所示。
也就是说,自学习连接权重修改单元76修改听觉SOM的每个节点和发音SOM的优胜者节点之间的连接权重,所述的优胜者节点具有分数计算单元71计算的最高分数,以便在具有观察到的在满足最终条件时(在前一步骤S109中产生单元6提供的发音参数序列)获得的发音参数序列的最大似然性的发音SOM节点和为观察单元1输出的观察值确定的听觉SOM的优胜者节点之间的连接权重获得最大增量,所述发音SOM的节点即具有分数计算单元71计算的最高分数的优胜者节点,所述观察值是作为驱动单元8根据发音SOM的优胜者节点产生的发音参数输出的合成声音的观察值。
更确切地说,自学习连接权重修改单元76根据下面的等式修改连接权重。
cwnew(W,j)=cwold(W,j)+βscore_in’(j)score_out(W) (3)
其中,W,j,cwnew(W,j),cwold(W,j),β,和score_out(W)与等式(2)中的相同,score_in’(j)表示由驱动单元8根据发音SOM节点#W产生的发音参数序列产生的合成声音确定的听觉SOM节点#j的分数。
当根据等式(3)修改连接权重时,需要获得为驱动单元8根据发音SOM节点#W产生的发音参数序列产生的合成声音确定的听觉SOM节点#j的分数score_in’(j)。
出于上述目的,控制单元10控制产生单元6从通过学习单元7修改的发音SOM的节点#W中产生发音参数序列。更确切地说,在控制单元10的控制下,产生单元6(图14)的模型参数修改单元62从存储单元4中读取发音SOM的节点#W的模型参数并将其直接提供给时序数据产生单元63。
时序数据产生单元63从模型参数修改单元62提供的节点#W的模型参数(通过模型参数定义的时序模式模型21的HMM)中产生发音参数序列,时序数据产生单元63将所产生的发音参数序列提供给驱动单元8。
控制单元10控制驱动单元8使用产生单元6提供的发音参数序列来产生合成声音。驱动单元8输出的合成声音被观察单元1观察到。观察单元1基于该观察值检测到合成声音的声音持续时间,并且观察单元1将声音持续时间内的语音/声音数据提供给特征提取单元2。特征提取单元2从观察单元1提供的语音/声音数据中提取一个声学参数并将所提取的时序数据形式的声学参数序列提供给学习单元3和识别单元5。识别单元5使用特征提取单元2提供的声学参数序列,即驱动单元8输出的合成声音的声学参数序列,来执行识别处理,其方式类似于上述参考图13的方式。
控制单元10通过识别单元5在控制单元10的控制下执行的识别处理获得因合成声音获得的声学参数序列的听觉SOM节点#j的分数score_in’(j),控制单元10将所获得的分数score_in’(j)提供给自学习连接权重修改单元76。自学习连接权重修改单元76使用控制单元10提供的分数score_in’(j)计算等式(3)。
在步骤S115通过等式(3)修改连接权重的情况下,在完成连接权重的修改之后处理继续到图18所示的虚线表示的框内的步骤S116。在步骤S116,控制单元10控制学习单元3使用由驱动单元8根据发音SOM节点#W产生的发音参数序列产生的合成声音的声学参数序列来修改存储单元4中存储的听觉SOM。
也就是说,驱动单元8根据发音SOM节点#W产生的发音参数序列产生的合成声音的声学参数序列如上所述被特征提取单元2提供给学习单元3和识别单元5。在控制单元10的控制下,学习单元3使用所接收的合成声音的声学参数序列执行上述参考图11的学习从而修改存储单元4中存储的听觉SOM。
上面已经详细描述了自学习连接权重的修改。
现在,下面详细描述有指导学习连接权重的修改。
有指导学习连接权重修改单元77修改听觉SOM的每个节点和发音SOM的一个节点之间的连接权重,所述的发音SOM的一个节点具有观察到的在满足最终条件时(在前一步骤S109中产生单元6提供的发音参数序列)获得的发音参数序列的最高似然性,即具有分数计算单元71计算的最高分数的优胜者节点,因此在提供肯定的奖励时与听觉SOM的话音优胜者节点相关的连接权重最大程度地增加,同时在提供否定的奖励时与听觉SOM的话音优胜者节点相关的连接权重最大程度地减少。
更确切地说,当提供肯定的奖励时,有指导学习连接权重修改单元77例如根据下面的等式修改连接权重。
cwnew(W,j)=(1+Ge)cwold(W,j) (4)
另一方面,当提供否定的奖励时,有指导学习连接权重修改单元77例如根据下面的等式修改连接权重。
cwnew(W,j)=(1-Ge)cwold(W,j) (5)
在等式(4)和(5)中,Ge是连接权重cwold(W,j)的增益。增益Ge在0到1的范围内变化。连接权重的增加或减少的程度随增益Ge的增加而增加。
确定增益Ge的值的方法没有特别的限制。例如,增益Ge可以如下进行确定。即,增益Ge的值通过函数进行确定,因此在步骤S106为听觉SOM的优胜者节点和发音SOM的节点执行最强的学习,其中发音SOM的节点具有观察到的在满足最终条件时(在前一步骤S109中产生单元6提供的发音参数序列)获得的发音参数序列的最高似然性,所述发音SOM节点即具有分数计算单元71计算的最高分数的优胜者节点,并且函数在增益Ge的值上的影响随着发音SOM的节点和听觉SOM的节点之间的模式间距的增加而减少。
在图9所示的使用HMM和多个SOM的组合确定学习中的修改权重方法的实例中,根据高斯(Gaussian)曲线修改所述修改权重。该方法还可以用于确定增益Ge的值。即,增益Ge的值可以根据高斯曲线进行确定。如果使用了该方法,增益Ge的值随着发音SOM的节点和听觉SOM的节点之间的模式间距的增加而减少(趋向于零)。
不使用上述方法,可以考虑奖励对学习(有指导学习连接权重的修改)的影响程度来确定增益Ge的值。下面参考图19描述该方法的一个具体实例。
在有指导学习连接权重的修改中,如上所述,以奖励的形式从外部提供一个正确的答案。当听觉SOM和发音SOM处于收敛状态时,如果执行学习(修改)以便于增加加强或减弱的程度,则可能在听觉SOM和发音SOM之间快速建立映射(节点连接权重)。
这里,收敛状态指的是这样一种状态,在该状态中,建立(听觉SOM和发音SOM)自组织映射以便于其中的任意一个节点表示某个音素,另一个节点表示另一个音素,等等。
在有指导学习连接权重的修改处理的早期阶段中,听觉SOM和发音SOM还没有收敛。在听觉SOM和发音SOM还没有收敛的这样一种状态中,如果执行学习以便于在有指导学习连接权重中增加或减少的程度随着学习进行而增加,那么随着学习进行,可能出现节点开始表示与听觉SOM和发音SOM不同的类别。这种情况下,如果听觉SOM和发音SOM之间的节点的连接已经被加强了,则很难执行准确的学习。
为了避免上述问题,在图19所示的确定增益Ge的值的方法中,定义等式(4)和(5)中的增益Ge项,例如,通过下面所示的等式(6),等式(6)的右侧的值g在有指导学习连接权重的修改处理的早期阶段固定为0直到有指导学习连接权重已经被修改了多于预定值n次的很多次,但是值g在图19所示的修改处理的早期阶段的末端被转换为一个预定值(例如1.0)。
Ge=g*C (6)
其中,如上所述,依据已经修改的连接权重的次数来确定值g,C是变量,其值由有指导学习连接权重修改单元77根据发音SOM和听觉SOM的节点之间的模式间距以及还根据需要的附加信息进行控制。
因此,在该方法中,在连接权重已经修改了小于预定次数n的次数和听觉SOM和发音SOM因此还没有收敛的早期阶段,即使提供了奖励(训练),有指导学习连接权重实质上没有被修改,如同可以从等式(4)和(5)中看到的,即,有指导学习连接权重不受奖励(训练)的影响。
当连接权重已经修改了预定次数(n),并且因此听觉SOM和发音SOM已经被转换到某个程度时,有指导学习连接权重的修改实质上开始了。即,在已经修改了预定次数(n)的连接权重之后执行的修改中,所述修改受受奖励(训练)的影响。在该修改模式中,有指导学习连接权重修改单元77准确地改变等式(6)中的值C,因此准确地改变了连接权重中增加或减少的程度,从而准确地调整奖励(训练)影响的程度。更确切地说,在连接权重已经修改了n+1次时的时间点实质上开始了学习,因此有指导学习连接权重修改单元77控制等式(6)右侧的值C以便于连接权重中增加或减少的程度在学习的早期阶段维持得低(直到连接权重已经修改了n+1次),但是连接权重的增强或减弱的程度随着学习的进行而增加(在连接权重已经修改了n+1次),因此听觉SOM和发音SOM(严格来说,其中的自组织映射)正被收敛。也就是说,当提供了肯定的奖励时执行增加连接权重的增强或减弱的程度从而增加cwnew(W,j)的值,但是当提供了否定的奖励时减少cwnew(W,j)的值。这使得能够更快速和更准确地学习映射(即听觉SOM的每个节点和发音SOM的每个节点之间的连接权重)。
尽管通过有指导学习连接权重已经被修改的次数来定义连接权重已经被修改的次数,但是还可以通过有指导学习连接权重已经被修改的次数和自评价连接权重已经被修改的次数的求和来定义连接权重已经被修改的次数。
上面已经详细描述了修改自学习连接权重的处理以及修改有指导学习连接权重的处理。
当期望进一步增加用户提供的奖励(训练)的影响时,通过修改有指导学习连接权重增强(或减弱)的程度比自学习连接权重增强(或减弱)的程度增加得更多。
在图18所示的实例中,当步骤S114的回答为是的时候,在步骤S115执行有指导学习连接权重的修改。但是,在有指导学习连接权重的修改的时间上没有特殊的限制,并且该修改可以在提供了一个奖励之后的任意一个时间点进行,而不用考虑步骤S114的回答。
在如上所述图1所示的信息处理装置中,基于用户发出的话音的声学参数序列来学习(修改)听觉SOM,并且听觉SOM中的一个具有为用户发出的话音的声学参数计算的最高分数的节点被确定为优胜者节点。而且,搜索具有与听觉SOM的优胜者节点的最大连接权重的发音SOM的一个节点,以及一个检测到的节点被用作产生节点。而且,在图1所示的信息处理装置中,产生节点产生的发音参数序列通过修改与该产生节点相关的模型参数来修改,和根据作为结果的发音参数序列来产生合成声音。而且,基于为这个合成声音确定的听觉SOM的优胜者节点(合成声音优胜者节点)和基于为用户发出的话音确定的听觉SOM的优胜者节点(话音优胜者节点),确定是否满足最终条件。如果满足了最终条件,则修改连接权重,而且,基于在满足最终条件时获得的发音参数序列来学习(修改)发音SOM。
因此,在使用图1所示的信息处理装置的机器人或者类似的装置中,有可能有效改变机器人的行为,自我评价作为结果的行为,和使该行为适应从外界应用到该机器人的刺激。更确切地说,例如,有效改变作为机器人的行为发出的话音(合成声音),作为结果的合成声音经过了自我评价,和使合成声音适应于由用户作为外部刺激提供的话音。
也就是说,图1所示的信息处理装置(和使用它的机器人)根据图20所示的协议P201能够执行包括与用户通信的处理。
协议P201包括步骤S201-1和S201-2,如下所述。
在步骤S201-1,用户通过发出一个话音向机器人提供该用户所属的社会中实际使用的模型音素。该机器人使用听觉SOM识别该用户发出的话音并发出通过模仿该用户发出的话音而产生的合成声音。在合成声音的产生中,该机器人修改发音SOM的发音参数,根据修改的发音参数合成一个声音,和输出该合成声音。
在步骤S201-2,该机器人搜索与用户发出的话音相似的语音和自评价该语音。更确切地说,该机器人通过使用听觉SOM在由该机器人本身输出的合成声音上执行语音识别,和通过确定是否满足最终条件来自评价该合成声音是否与用户发出的话音相似。如果自评价是合成声音与用户发出的话音充分地相似(即,如果满足最终条件),借助于无指导的学习通过发音SOM和听觉SOM的对应节点的映射来获得发音SOM和听觉SOM的节点之间的准确连接(映射),通过发音SOM和听觉SOM的对应节点的映射也就是,通过加强允许它产生与用户发出的话音相似的合成声音的发音SOM节点和作为合成声音或用户发出的话音的识别结果获得的听觉SOM节点之间的连接。
在该技术中,如果用户发出一个话音,机器人(即图1所示的信息处理装置)通过修改时序模式模型21(图5)的模型参数来修改发音参数以实现目标(发音目标),该目标即为允许它产生与用户发出的话音相似的合成声音的发音参数(序列),其中所述的时序模式模型21与发音SOM的关心节点相关。而且,在该机器人(即图1所示的信息处理装置)中,驱动单元8根据修改后的发音参数产生合成声音。使用听觉SOM识别作为结果的合成声音,并通过确定是否满足最终条件来对作为结果的合成声音进行自我评价以确定合成声音是否与用户发出的话音充分的相似。而且,在该机器人(即图1所示的信息处理装置)中,修改发音SOM和听觉SOM之间的映射(连接权重)以便于增强发音SOM的节点和听觉SOM的节点之间的连接,所述发音SOM的节点允许其产生与用户发出的话音相似的合成声音,所述听觉SOM的节点是作为合成声音或用户发出的话音的识别结果而获得的。
因此,通过以上述方式把图1所示的信息处理装置应用到机器人或类似的装置,实现这样一种机器人成为可能,即当用户发出一个话音,该机器人重复地产生合成声音直到该合成声音充分与用户发出的话音相似,即该机器人可以直接模仿用户发出的话音。
可以通过使用两种方法之一来产生模仿用户发出的话音的合成声音。第一种方法是使用字典在用户发出的话音上执行语音识别和根据语音识别的结果产生合成声音。第二种方法是记录用户发出的话音和播放它。
在第一种方法中,因为使用字典执行语音识别,不可能识别出字典内没有登记的单词以及不可能合成这样的一个单词。即,在第一种方法中,可能在字典登记的单词的范围内直接模仿用户发出的话音。
在第二种方法中,用户发出的话音仅被记录并播放,因此任何微小的差别或不同会出现在用户发出的话音和机器人发出的声音之间。这种类型的机器人不会有太多人感兴趣。在第二种方法中,合成声音可以通过一个过滤器来将合成声音转换成具有与用户发出的话音的频率成分不同的频率成分的声音。
例如,在日本未审查的专利申请公开号11-9847,日本专利号1758551,PCT日本译本专利公开号2001-522471,日本未审查的专利申请公开号09-179572和日本未审查的专利申请公开号2000-122699中公开了直接模仿用户发出的话音的技术的具体实例和转换合成声音的技术的实例。
当第一种或第二种方法应用到机器人时,该机器人通过模仿用户发出的话音仅发出一个话音,因此用户没有感觉到作为机器人的成长结果该机器人已经能够模仿用户发出的话音。
另一方面,当图1所示的信息处理装置应用到机器人时,可能实现这样一种机器人,它能够学习如何讲话和能够通过学习处理越来越好的模仿用户发出的话音。由该机器人产生的合成声音受到担任发音器的发音SOM的限制(例如,受到发音SOM的节点总数、节点排列结构、用作发音参数的参数和用作时序模式模型21(图5)的模型的限制)。这限制了机器人模仿用户发出的话音的能力,和该机器人输出作为模仿用户发出的话音的最佳努力的结果获得的合成声音。这允许机器人在模仿用户发出的话音方面具有特定的个性。而且,该用户可以感觉到在学习的早期阶段不能很好地模仿用户发出的话音的机器人开始能够通过学习处理越来越好地模仿用户发出的话音。
如上所述,图1所示的信息处理装置通过基于自评价的无指导的学习能够获得听觉SOM和发音SOM之间的映射(听觉SOM和发音SOM之间的节点连接权重)。一旦获得了映射,信息处理装置可以识别出用户发出的话音(语音),和可以产生类似于用户发出的语音的合成语音。
而且,通过以自组织方式学习(修改)听觉SOM,图1所示的信息处理装置可以获得区分任意音素的能力,并且因此可以获得识别任意音素的能力。也就是说,信息处理装置可以获得模仿一组任意音素(的模型)的能力而无需使用准备好的定义音素的字典,即信息处理装置可以获得用户使用的音素和模仿用户使用的音素。
如果用户发出一个话音,图1所示的信息处理装置(重复地)输出一个合成声音来找出与用户发出的话音更类似的合成声音。这种行为让用户感觉到信息处理装置模仿用户发出的话音。而且,对于用户来说,似乎信息处理装置随着连接网络上的学习(修改)的进行开始能够越来越好地模仿了,连接网络即听觉SOM、发音SOM和连接权重。
因为图1所示的信息处理装置不仅随机地产生合成声音而且还获得与用户发出的那些声音相似的声音,该用户感觉到信息处理装置正试图模仿该用户发出的话音。
对于用户来说,由图1所示的信息处理装置执行的学习(修改)连接网络的处理好像信息处理装置正在播放直接模仿用户发出的声音的一个游戏。对于用户来说这是非常有趣的。
图1所示的信息处理装置在担任发音器的发音SOM的限制范围内输出作为模仿用户发出的话音的最佳努力的结果获得的合成声音。因此,不像通过记录话音和播放它们来简单地模仿用户发出的话音,可能在模仿用户发出的话音方面有特定的个性。
而且,在图1所示的信息处理装置中,每次用户发出一个话音,实时执行连接网络的学习(修改),用户可以观察到越来越好的获得模仿用户发出的话音的能力的处理。
但是,在图1所示的信息处理装置中,如早先所述,当听觉SOM和发音SOM之间的映射(节点连接权重)通过仅基于自我评价的无指导的学习来获得时,如果自我评价是错误的,获得的映射也是错误的。
可以有两种类型的错误映射。在第一种类型的错误映射中,尽管由机器人基于发音参数产生的某个音素包括在人类社会中实际使用的音素中,但是该音素映射到一个错误的音素。在第二种类型的错误映射中,由机器人基于发音参数产生的某个音素没有包括在人类社会中实际使用的音素中,并且该音素映射到人类社会中实际使用的一个特定音素。
在图1所示的信息处理装置中,为了避免上述问题,如上所述,除了无指导的学习之外,通过执行基于用户作为训练信号提供的奖励的有指导的学习来建立更准确的映射。更确切地说,例如,图1所示的信息处理装置(和使用它的机器人)根据图21所示的协议P202或图22所示的协议P203通过执行包括与用户通信的处理来建立正确的映射。
首先,在协议P202中,用户教给机器人音素,其方式类似于人类成年人教给人类小孩音素。更确切地说,用户提供各种模型音素给机器人,机器人基于所提供的模型音素学习听觉SOM和发音SOM之间的映射(节点连接权重)。当该机器人已经学习映射到某个程度时,用户让机器人根据协议P203运行一个处理。也就是说,用户让机器人随机发出声音(随机输出合成声音)和根据合成声音(音素)提供奖励给机器人。该机器人根据所提供的奖励学习与合成声音相关的映射。这使得该机器人能够获得更准确的映射。
下面进一步详细描述协议P202和P203。
首先参考图21,描述协议P202。
协议P202包括步骤S202-1、S202-2和S202-3。
步骤S202-1和S202-2基本上类似于上面参考图20描述的协议P201的步骤S201-1和S201-2,和因此省略了其中的重复解释。
当机器人发出一个音素作为步骤S202-2中的处理的结果时,如果用户评价它与用户在步骤S202-1提供的模型音素中的一个的类别相同,那么在步骤S202-3,用户提供肯定的奖励给机器人。响应于接收到肯定的奖励,该机器人修改连接权重以便于增强听觉SOM的HMM的节点和发音SOM的HMM的节点之间的连接权重,所述的听觉SOM的HMM的节点对应于步骤S202-1中识别的模型音素,所述的发音SOM的HMM的节点对应于机器人在步骤S202-2中发出的音素。
另一方面,当机器人发出一个音素作为步骤S202-2中的处理的结果时,如果用户评价它与用户在步骤S202-1提供的模型音素中的一个的类别不相同,那么在步骤S202-3,用户提供否定的奖励给机器人。响应于接收到否定的奖励,该机器人修改连接权重以便于减弱听觉SOM的HMM的节点和发音SOM的HMM的节点之间的连接权重,所述的听觉SOM的HMM的节点对应于步骤S202-1中识别的模型音素,所述的发音SOM的HMM的节点对应于机器人在步骤S202-2中发出的音素。这导致该机器人越来越不频繁地发出这个音素。
现在参考图22,下面描述协议P203。
在任意一个时间点,如上所述,机器人使用该机器人(图1所示的信息处理装置)的发音器基于发音SOM的HMM的节点产生一个发音参数(发音参数序列)和根据所产生的发音参数发出一个合成声音(音素)。用户也可以对机器人本能发出的这样一个声音提供奖励。图22所示的协议P203是提供这样一种奖励的协议的实例。
协议P203包括步骤S203-1和S203-2。
在步骤S203-1,机器人发出对应于发音SOM随机选择的节点的声音。
例如,当在步骤S203-1由机器人发出的合成声音与用户也可以发出的声音相同时,也就是说当机器人发出的合成声音与人类社会中实际使用的声音中的一种相同时,那么在步骤S203-2,用户提供肯定的奖励给机器人。响应于接收到肯定的奖励,机器人将用于识别在步骤S203-1由机器人本身发出的合成声音(音素)的听觉SOM的节点确定为听觉SOM的话音优胜者节点。而且,该机器人将用于合成在步骤S203-1发出的声音的发音SOM的节点确定为发音SOM的优胜者节点。该机器人于是修改发音SOM的优胜者节点和听觉SOM的每个节点之间的连接权重以便于发音SOM的优胜者节点和听觉SOM的话音优胜者节点之间的连接权重被最大程度地增加(增强)。
另一方面,当步骤S203-1由机器人发出的合成声音是一个用户所属的人类社会中没有使用的声音时,那么,在步骤S203-2,用户提供一个否定的奖励给机器人。响应于接收到否定的奖励,机器人将用于识别在步骤S203-1由机器人本身发出的合成声音(音素)的听觉SOM的节点确定为听觉SOM的话音优胜者节点。而且,该机器人将用于合成在步骤S203-1发出的声音的发音SOM的节点确定为发音SOM的优胜者节点。该机器人于是修改发音SOM的优胜者节点和听觉SOM的每个节点之间的连接权重,以便于发音SOM的优胜者节点和听觉SOM的话音优胜者节点之间的连接权重被最大程度地减少(减弱)。这导致该机器人此后以更少频率地发出在步骤S203-1中发出的这个音素。
在上述实施例中,图21所示的协议P202和图22所示的协议P203一起使用。可选地,这些协议可以单独使用。
例如,通过单独使用图22所示的协议P203,有可能准确地从机器人产生的音素中删除人类社会中不使用的音素。
参考图21和22,作为学习听觉SOM和发音SOM之间的映射(节点连接权重)的协议的实例,协议202和203已经在上面进行了描述。
在协议202和203中,在用户提供奖励给机器人的方法上没有特定限制。在上述协议202和203的具体实例中,假定图1所示的信息处理装置应用到机器人,因此可能实施下述的两种方法之一。
在第一种方法中,为了提供肯定的奖励给机器人,用户轻拍机器人的头部从而提供一个肯定的奖励信号给配置在机器人的头部上的触摸传感器(未示出)。另一方面,为了提供否定的奖励给机器人,用户轻打机器人的头部从而提供一个否定的奖励信号给配置在机器人的头部上的触摸传感器。
在第二种方法中,为了提供肯定的奖励给机器人,用户温柔地模仿机器人发出的声音。另一方面,为了提供否定的奖励给机器人,用户不理睬机器人发出的声音(即,用户不响应机器人发出的声音)。当使用第二种方法时,期望奖励采集单元9构造为有语音输入功能或构造在观察单元(语音输入单元)1中以便于奖励采集单元9可以使用观察单元1的语音输入功能。
如上所述,图1所示的信息处理装置不仅能够根据自我评价通过图20所示的协议P201中的无指导的学习来学习听觉SOM和发音SOM之间的映射(节点连接权重),还能够根据基于肯定或否定的奖励的有指导学习(有指导学习连接权重的修改)以更准确地建立所述映射,其中有指导学习例如是通过图21所示的协议P202或图22所示的协议P203的学习。即使当图1所示的信息处理装置发出一个人类社会实际不使用的音素(合成声音)时,与该音素相关的映射通过有指导学习逐渐减弱,因此发出这样一个音素的频率逐渐减少。最终,根本不会发出该音素。
上述处理序列可以通过硬件或软件来执行。当通过硬件执行所述处理时,软件程序内置在通用计算机或类似的设备上。
图23描述了发明的一个实施例,其中用于运行上述处理的程序内置在计算机上。
所述程序可以提前存储在配置在计算机内部的硬盘105或作为存储介质的ROM 103。
可选地,所述程序可以临时或永久地存储(记录)到可移动存储介质111,诸如软磁盘、CD-ROM(光盘只读存储器)、MO(磁性)光盘、DVD(数字化视频光盘)、磁盘或半导体存储器。以所谓的软件包的形式来提供这样的可移动存储介质111。
除了将程序从可移动存储介质111安装到计算机上之外,该程序还可以由数字广播卫星通过无线传输或通过诸如LAN(局域网)、因特网的网络以有线通信的方式从下载站点传递到计算机。这种情况下,计算机使用通信单元108接收以上述方式传送的程序并将该程序安装到配置在计算机中的硬盘105。
该计算机包括CPU(中央处理单元)102。CPU 102通过总线101连接到输入/输出接口110。如果CPU 102通过输入/输出接口110接收用户使用输入单元107发布的命令,输入单元107包括键盘、鼠标、麦克风或其它类似的设备,CPU 102运行存储在ROM(只读存储器)103中的程序。可选的,CPU102可以运行RAM(随机存取存储器)104内下载的程序,其中该程序被通过以下方式下载到RAM 104中:通过将硬盘105中存储的程序传递到RAM 104,或通过传递一个经由通信单元108被从卫星或网络接收到后又被安装到硬盘105上的程序,或通过传递一个被从装载于驱动109的可移动记录介质111上读取到后又被安装到硬盘105上的程序。通过运行所述程序,CPU 102参考流程图或方框图执行上述处理。如需要,CPU 102通过输入/输出接口110输出所述处理的结果到包括有LCD(液晶显示器)和/或扬声器的输出单元106。所述处理的结果也可以通过通信单元108进行传送或存储到硬盘105上。
在本发明中,由计算机运行的执行各种处理的程序中描述的处理步骤并不需要根据流程图中描述的次序以时间序列运行。相反,处理步骤可以并行或者单独的进行(通过并行处理或对象处理)。
该程序或者可以由单个计算机运行或者可以以分布方式由多个计算机运行。该程序可以传递到位于远程位置的计算机从而被运行。
图1所示的信息处理装置不仅可以应用到实际的机器人还可以应用到虚拟的机器人,例如显示器上显示的人物。
尽管在上述实施例中,属于状态转换几率模型之一的HMM,被用作与听觉SOM和发音SOM的每个节点相关的时序模式模型21(图5),然而另一种状态转换几率模型也可以用作时序模式模型21。
可用作时序模式模型21的这样一种状态转换几率模型的具体实例是Bayesian网络。
在Bayesian网络中,通过使用图表结构表示变量之间的依赖关系和分配一个条件几率给每个节点来执行建模。在这种结构中,通过沿时间轴建立一个状态转换模型来对时序数据进行建模。
Bayesian网络中的图表结构可以通过例如考虑学习数据的似然性和图表结构的复杂性进行确定,条件几率可以例如使用最大似然性估计方法或EM(Expectation Maximization)算法来进行估计。Bayesian网络的更多的细节可以参见例如“作为不确定的建模的表示的Bayesian网络(Bayesiannetworks as representation for uncertainty modeling)”(Yoichi Kimura,Tutorial on Bayesian Networks,2001)。
至于时序模式模型21(图5),不仅可以如上所述使用诸如HMM或Bayesian网络的状态转换几率模型,还可以使用近似一个函数的模型(以下称为函数近似模型)。
在函数近似模型中,通过函数f()以差分等式{x(t)}’=f(x(t))的形式或以差分等式x(t+1)=f(x(t))来表示该模型,由此,通过函数f()表现时序模式,其中t表示时间(取样点),x(t)表示时序数据在时间t的取样值或在时间t观察到的时序数据,{x(t)}’表示时序数据x(t)关于时间t的一阶差分。
根据学习数据确定表示时序模式的函数f()被称为函数近似。函数近似的具体实例是使用一个多项式表达函数f()和根据学习数据确定多项式中的系数。另一个实例是使用一个神经网络表达函数f()和根据学习数据确定神经网络中的参数。
在使用由多项式表达函数f()的函数近似中,多项式的系数可以使用例如最速下降方法来确定。在使用由神经网络表达函数f()的函数近似的情况中,神经网络的参数可以使用反向扩散方法来确定。在反向扩散方法中,输入数据和输出数据被提供给神经网络,并且神经网络的参数被学习到,因此满足输入数据和输出数据之间的关系。
例如,当一个函数近似模型被用作时序模式模型21来使用差分等式z(t+1)=f(x(t))形式的函数f()表示时序模式时,输入层x(t)和输出层x(t+1)之间的连接权重(中间层)是神经网络的参数,并且使用学习数据(时序数据)学习到这个参数。可以使用反向扩散方法来为准确提供的初始值执行神经网络的参数的学习。至于神经网络,例如,可以使用链形神经网络。
在听觉SOM和发音SOM中的每个都包含具有使用神经网络表示的函数f()的时序模式模型21的节点的情况下,需要在神经网络的学习中确定优胜者节点,如同使用HMM表示时序模式模型21的情况。为了确定优胜者节点,需要为听觉SOM和发音SOM的每个节点计算作为新时序数据提供的声学参数序列或发音参数序列的分数。
所述分数可以通过例如新时序数据的观察值(实际值)和根据使用神经网络表示的函数f()的时序模式模型21确定的新时序数据的理论值之间的差值的平方和来定义。这种情况下,具有最小分数的节点被确定为与新时序数据最匹配的优胜者节点。
在确定优胜者节点之后,确定每个节点的修改权重。随后,与每个节点相关的(神经网络的)参数以类似于使用HMM为时序模式模型21执行修改的方式进行修改。
注意,对于听觉SOM和发音SOM,与各自节点相关的时序模式模型21不一定需要是同一种类型。例如HMM可以用作听觉SOM的每个节点的时序模式模型21,同时神经网络可以用作发音SOM的每个节点的时序模式模型21。
在上述实施例中,如上参考图5的描述,听觉SOM的每个节点具有表示时序模式的时序模式模型21和用于存储在时序模式模型21的学习中使用的时序数据形式的学习数据的学习数据存储单元22。但是,听觉SOM的每个节点并不一定需要时序模式模型21和学习数据存储单元22。例如,听觉SOM的每个节点可以具有一个像诸如非专利文件1公开的常规自组织映射的简单参数(声学参数)。当用声音时序模式模型21实现听觉SOM的每个节点时,可能为输入的时序数据确定优胜者节点(即可能识别输入时序数据),以及还可能为输入的节点标记产生时序数据,但是当使用像常规自组织映射中的简单参数(声学参数)实现听觉SOM的每个节点时,仅可能为固定长度的输入数据确定听觉SOM中的优胜者节点和产生固定长度的数据。换句话说,很难确定可变长度的时序数据的优胜者节点,以及很难产生可变长度的时序数据。对于发音SOM这也是事实。
在上述实施例中,准备了用于识别语音(合成声音)的听觉SOM和用于产生合成声音的发音SOM。使用听觉SOM识别用户发出的话音。使用发音SOM产生一个合成声音,和使用所述听觉SOM识别该合成声音。修改听觉SOM和发音SOM之间的节点连接权重,即建立听觉SOM和发音SOM之间的映射,因此可以使用听觉SOM识别出用户发出的话音和可以使用听觉SOM产生与使用听觉SOM识别出的听觉SOM类似的合成声音。可选地,可以在与上述映射类型不同的自组织映射之间建立映射。
例如,在通过驱动激励器能够移动的机器人中,准备了用于识别图像的自组织映射(以下称为视觉SOM)和用于驱动激励器的自组织映射(或用于产生一个参数从而驱动该激励器)(以下称为运动SOM)。使用视觉SOM识别用户的运动。使用运动SOM驱动激励器,和使用视觉SOM识别机器人的作为结果的运动。建立视觉SOM和运动SOM之间的映射以便于使用视觉SOM识别用户的运动和使用运动SOM通过驱动激励器创建与使用视觉SOM识别的运动类似的运动。通过在合适的位置配置一面镜子使用视觉SOM和观察镜子中机器人的图像来识别机器人自己的运动。
在通过驱动激励器能够移动的机器人的一个可选的实例中,准备了听觉SOM和运动SOM。使用听觉SOM识别出由用户通过播放音乐器具创建的音乐声音的曲调。使用运动SOM驱动激励器来播放音乐器具,和使用听觉SOM识别出由机器人创建的作为结果的曲调。听觉SOM和运动SOM之间的映射被建立起来从而可以使用听觉SOM识别出由用户通过播放音乐器具创建的曲调和使用运动SOM通过驱动激励器来创建与使用听觉SOM识别出的曲调类似的曲调。
这种情况下,除了听觉SOM和运动SOM之外,可以进一步准备视觉SOM以便于可以使用视觉SOM识别用户播放音乐器具的运动。在该机器人中,可以建立视觉SOM和运动SOM之间的映射以便于可以使用视觉SOM识别出使用运动SOM通过驱动激励器创建的机器人的运动,和使用运动SOM通过驱动激励器创建与使用视觉SOM识别出的用户的运动类似的机器人的运动。在该机器人中,具有与听觉SOM的优胜者节点的最大连接权重的运动SOM的节点不必与具有与视觉SOM的优胜者节点的最大连接权重的运动SOM的节点相同。在这样一种情况下,需要确定运动SOM中的哪一个节点应该被用作产生节点来产生用于驱动激励器的参数(第二参数)。例如,进行确定以便与听觉SOM优胜者节点的连接权重和与视觉SOM优胜者节点的连接权重之和为最大的运动SOM节点被用作产生节点。
应当理解,本领域的技术人员可以根据设计需要和其它因素在所附权利要求书或其等价物的范围之内作出各种修改、组合、子组合以及改变。
Claims (7)
1.一种信息处理装置,包括:
连接网络存储装置,用于存储包括有第一自组织映射和第二自组织映射的连接网络,其中的每个自组织映射都包括多个节点,以及该连接网络还包括表示第一自组织映射和第二自组织映射之间的节点的连接强度的连接权重;
第一学习装置,用于基于从观察装置输出的观察值中提取的第一参数学习第一自组织映射,所述观察装置观察外界和所述输出观察值;
优胜者节点确定装置,用于检测具有与在第一自组织映射中的节点上观察到的第一参数的最大似然性的节点,以及将所检测到的节点确定为优胜者节点;
搜索装置,用于在第二自组织映射内搜索具有与该优胜者节点的最高连接强度的节点和将所检测到的节点用作产生节点;
参数产生装置,用于从产生节点产生第二参数;
修改装置,用于修改从产生节点产生的第二参数;
确定装置,用于确定进行第二参数最终修改的最终条件是否被满足,其中根据优胜者节点执行修改,和优胜者节点是根据当驱动装置根据第二参数执行驱动操作时由所述观察装置观察到的值确定的;
第一连接权重修改装置,用于在满足最终条件时修改连接权重;
第二连接权重修改装置,用于当用户对在所述驱动装置执行的驱动结果的评价是由用户作为奖励提供的时候,修改所述连接权重;
第二学习装置,基于满足最终条件时所获得的第二参数对第二自组织映射执行学习。
2.根据权利要求1的信息处理装置,其中
所述奖励是肯定的奖励或否定的奖励;和
第二连接权重修改装置执行修改以便于当用户提供肯定的奖励时增加连接权重,而当用户提供否定的奖励时减少连接权重。
3.根据权利要求2的信息处理装置,其中,第二连接权重修改装置修改连接权重以便于通过第二连接权重修改装置增加或减少连接权重的比率大于通过第一连接权重修改装置增加或减少连接权重的比率。
4.根据权利要求2的信息处理装置,其中,第二连接权重修改装置根据已经修改的连接权重的次数,通过改变增加或减少连接权重的比率来修改连接权重。
5.一种信息处理方法,包括步骤:
基于从观察装置输出的观察值中提取的第一参数学习存储在连接网络存储装置中的第一自组织映射,所述观察装置观察外界和输出观察值,所述连接网络存储装置存储包括有第一自组织映射和第二自组织映射的连接网络,其中每个自组织映射都包括多个节点,以及该网络还包括表示第一自组织映射和第二自组织映射之间的节点的连接强度的连接权重;
通过检测具有在第一自组织映射中的节点上观察到的第一参数的最大似然性的节点来确定优胜者节点,和确定所检测到的节点为优胜者节点;
在第二自组织映射内搜索具有与该优胜者节点的最高连接强度的节点和将所检测到的节点用作产生节点;
从产生节点产生第二参数;
修改从所述产生节点产生的第二参数;
确定进行第二参数最终修改的最终条件是否被满足,其中,根据优胜者节点执行修改,和优胜者节点是根据当驱动装置根据第二参数执行驱动操作时由所述观察装置观察到的值来确定的;
在满足最终条件时修改连接权重;
当用户对在所述驱动装置执行的驱动结果的评价是由用户作为奖励提供的时候,修改所述连接权重;和
基于满足最终条件时所获得的第二参数学习第二自组织映射。
6.一种由计算机执行的程序,该程序包括步骤:
基于从观察装置输出的观察值中提取的第一参数学习存储在连接网络存储装置中的第一自组织映射,所述观察装置观察外界和输出观察值,所述连接网络存储装置存储包括有第一自组织映射和第二自组织映射的连接网络,其中每个自组织映射都包括多个节点,以及该网络还包括表示第一自组织映射和第二自组织映射之间的节点的连接强度的连接权重;
通过检测具有在第一自组织映射中的节点上观察到的第一参数的最大似然性的节点来确定优胜者节点,和确定所检测到的节点为优胜者节点;
在第二自组织映射内搜索具有与该优胜者节点的最高连接强度的节点和将所检测到的节点用作产生节点;
从产生节点产生第二参数;
修改从所述产生节点产生的第二参数;
确定进行第二参数最终修改的最终条件是否被满足,其中,根据优胜者节点执行修改,和优胜者节点是根据当驱动装置根据第二参数执行驱动操作时由所述观察装置观察到的值来确定的;
在满足最终条件时修改连接权重;
当用户对在所述驱动装置执行的驱动结果的评价是由用户作为奖励提供的时候,修改所述连接权重;和
基于满足最终条件时所获得的第二参数学习第二自组织映射。
7.一种信息处理装置,包括:
连接网络存储单元,适用于存储包括有第一自组织映射和第二自组织映射的连接网络,其中每个自组织映射都包括多个节点,以及该网络还包括表示第一自组织映射和第二自组织映射之间的节点的连接强度的连接权重;
第一学习单元,适用于基于从观察单元输出的观察值中提取的第一参数学习第一自组织映射,所述观察单元适用于观察外界和输出观察值;
优胜者节点确定单元,适用于检测具有与在第一自组织映射中的节点上观察到的第一参数的最大似然性的节点,以及确定所检测到的节点为优胜者节点;
搜索单元,适用于在第二自组织映射内搜索具有与该优胜者节点的最高连接强度的节点和将所检测到的节点用作产生节点;
参数产生单元,适用于从产生节点产生第二参数;
修改单元,适用于修改从产生节点产生的第二参数;
确定单元,适用于确定进行第二参数最终修改的最终条件是否被满足于,其中,根据优胜者节点执行修改,和优胜者节点是根据当驱动单元根据第二参数执行驱动操作时由所述观察单元观察到的值来确定的;
第一连接权重修改单元,适用于在满足最终条件时修改连接权重;
第二连接权重修改单元,适用于当用户对在所述驱动单元执行的驱动结果的评价是由用户作为奖励提供的时候,修改所述连接权重;
第二学习单元,适用于基于当最终条件被满足时所获得的第二参数学习第二自组织映射。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005108185A JP4843987B2 (ja) | 2005-04-05 | 2005-04-05 | 情報処理装置、情報処理方法、およびプログラム |
JP108185/05 | 2005-04-05 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1855224A true CN1855224A (zh) | 2006-11-01 |
CN1855224B CN1855224B (zh) | 2010-06-16 |
Family
ID=37084341
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2006100898570A Expired - Fee Related CN1855224B (zh) | 2005-04-05 | 2006-04-05 | 信息处理装置、信息处理方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US7499892B2 (zh) |
JP (1) | JP4843987B2 (zh) |
KR (1) | KR20060107329A (zh) |
CN (1) | CN1855224B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101771780A (zh) * | 2008-12-26 | 2010-07-07 | 富士施乐株式会社 | 信息处理装置和信息处理方法 |
CN105830058A (zh) * | 2013-12-16 | 2016-08-03 | 三菱电机株式会社 | 对话管理器 |
CN106940998A (zh) * | 2015-12-31 | 2017-07-11 | 阿里巴巴集团控股有限公司 | 一种设定操作的执行方法及装置 |
CN111837083A (zh) * | 2018-01-12 | 2020-10-27 | 佳能株式会社 | 信息处理装置、信息处理系统、信息处理方法和程序 |
Families Citing this family (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1738258A4 (en) | 2004-03-13 | 2009-10-28 | Cluster Resources Inc | SYSTEM AND METHOD IMPLEMENTING OBJECT TRIGGERS |
US8782654B2 (en) | 2004-03-13 | 2014-07-15 | Adaptive Computing Enterprises, Inc. | Co-allocating a reservation spanning different compute resources types |
US20070266388A1 (en) | 2004-06-18 | 2007-11-15 | Cluster Resources, Inc. | System and method for providing advanced reservations in a compute environment |
US8176490B1 (en) | 2004-08-20 | 2012-05-08 | Adaptive Computing Enterprises, Inc. | System and method of interfacing a workload manager and scheduler with an identity manager |
CA2827035A1 (en) | 2004-11-08 | 2006-05-18 | Adaptive Computing Enterprises, Inc. | System and method of providing system jobs within a compute environment |
US9075657B2 (en) | 2005-04-07 | 2015-07-07 | Adaptive Computing Enterprises, Inc. | On-demand access to compute resources |
US8863143B2 (en) | 2006-03-16 | 2014-10-14 | Adaptive Computing Enterprises, Inc. | System and method for managing a hybrid compute environment |
US9231886B2 (en) | 2005-03-16 | 2016-01-05 | Adaptive Computing Enterprises, Inc. | Simple integration of an on-demand compute environment |
JP2008032834A (ja) * | 2006-07-26 | 2008-02-14 | Toshiba Corp | 音声翻訳装置及びその方法 |
CN101136106B (zh) * | 2006-08-30 | 2010-07-07 | 国际商业机器公司 | 基于双曲几何显示加权树的方法和计算机系统 |
JP4188989B2 (ja) * | 2006-09-15 | 2008-12-03 | 本田技研工業株式会社 | 音声認識装置、音声認識方法、及び音声認識プログラム |
US8301449B2 (en) * | 2006-10-16 | 2012-10-30 | Microsoft Corporation | Minimum classification error training with growth transformation optimization |
US7877343B2 (en) * | 2007-04-02 | 2011-01-25 | University Of Washington Through Its Center For Commercialization | Open information extraction from the Web |
US7987484B2 (en) | 2007-06-24 | 2011-07-26 | Microsoft Corporation | Managing media content with a self-organizing map |
US8041773B2 (en) | 2007-09-24 | 2011-10-18 | The Research Foundation Of State University Of New York | Automatic clustering for self-organizing grids |
JP2011033680A (ja) * | 2009-07-30 | 2011-02-17 | Sony Corp | 音声処理装置及び方法、並びにプログラム |
US11720290B2 (en) | 2009-10-30 | 2023-08-08 | Iii Holdings 2, Llc | Memcached server functionality in a cluster of data processing nodes |
US10877695B2 (en) | 2009-10-30 | 2020-12-29 | Iii Holdings 2, Llc | Memcached server functionality in a cluster of data processing nodes |
JP5633734B2 (ja) * | 2009-11-11 | 2014-12-03 | ソニー株式会社 | 情報処理装置、情報処理方法、及び、プログラム |
US20110224982A1 (en) * | 2010-03-12 | 2011-09-15 | c/o Microsoft Corporation | Automatic speech recognition based upon information retrieval methods |
US9015093B1 (en) | 2010-10-26 | 2015-04-21 | Michael Lamport Commons | Intelligent control with hierarchical stacked neural networks |
US8775341B1 (en) | 2010-10-26 | 2014-07-08 | Michael Lamport Commons | Intelligent control with hierarchical stacked neural networks |
US20130257877A1 (en) * | 2012-03-30 | 2013-10-03 | Videx, Inc. | Systems and Methods for Generating an Interactive Avatar Model |
US9764468B2 (en) | 2013-03-15 | 2017-09-19 | Brain Corporation | Adaptive predictor apparatus and methods |
PL403724A1 (pl) * | 2013-05-01 | 2014-11-10 | Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie | System rozpoznawania mowy i sposób wykorzystania dynamicznych modeli i sieci Bayesa |
US9242372B2 (en) | 2013-05-31 | 2016-01-26 | Brain Corporation | Adaptive robotic interface apparatus and methods |
US9792546B2 (en) * | 2013-06-14 | 2017-10-17 | Brain Corporation | Hierarchical robotic controller apparatus and methods |
US9314924B1 (en) | 2013-06-14 | 2016-04-19 | Brain Corporation | Predictive robotic controller apparatus and methods |
US9786296B2 (en) * | 2013-07-08 | 2017-10-10 | Qualcomm Incorporated | Method and apparatus for assigning keyword model to voice operated function |
US9597797B2 (en) | 2013-11-01 | 2017-03-21 | Brain Corporation | Apparatus and methods for haptic training of robots |
US9177549B2 (en) * | 2013-11-01 | 2015-11-03 | Google Inc. | Method and system for cross-lingual voice conversion |
US9183830B2 (en) * | 2013-11-01 | 2015-11-10 | Google Inc. | Method and system for non-parametric voice conversion |
US9358685B2 (en) | 2014-02-03 | 2016-06-07 | Brain Corporation | Apparatus and methods for control of robot actions based on corrective user inputs |
US9630318B2 (en) | 2014-10-02 | 2017-04-25 | Brain Corporation | Feature detection apparatus and methods for training of robotic navigation |
US9542927B2 (en) | 2014-11-13 | 2017-01-10 | Google Inc. | Method and system for building text-to-speech voice from diverse recordings |
US10917788B2 (en) * | 2014-11-19 | 2021-02-09 | Imprivata, Inc. | Inference-based detection of proximity changes |
US9717387B1 (en) | 2015-02-26 | 2017-08-01 | Brain Corporation | Apparatus and methods for programming and training of robotic household appliances |
US9984154B2 (en) * | 2015-05-01 | 2018-05-29 | Morpho Detection, Llc | Systems and methods for analyzing time series data based on event transitions |
JP2017027145A (ja) * | 2015-07-16 | 2017-02-02 | ソニー株式会社 | 表示制御装置、表示制御方法、及び、プログラム |
US10541817B2 (en) * | 2016-03-14 | 2020-01-21 | Ricoh Company, Ltd. | Data generation apparatus, data recording system, and program product |
US9928408B2 (en) * | 2016-06-17 | 2018-03-27 | International Business Machines Corporation | Signal processing |
CN107833572A (zh) * | 2017-11-06 | 2018-03-23 | 芋头科技(杭州)有限公司 | 一种模拟用户说话的语音合成方法及系统 |
JP7205533B2 (ja) * | 2018-03-20 | 2023-01-17 | ソニーグループ株式会社 | 情報処理装置及び情報処理方法、並びにロボット装置 |
US10810993B2 (en) * | 2018-10-26 | 2020-10-20 | Deepmind Technologies Limited | Sample-efficient adaptive text-to-speech |
WO2022244047A1 (ja) * | 2021-05-17 | 2022-11-24 | 日本電信電話株式会社 | 学習装置、学習方法及びプログラム |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3312149B2 (ja) * | 1993-12-27 | 2002-08-05 | シャープ株式会社 | 文字や音声の認識装置における認識評価閾値の作成方法 |
US5729662A (en) * | 1995-06-07 | 1998-03-17 | Rozmus; J. Michael | Neural network for classification of patterns with improved method and apparatus for ordering vectors |
US6456991B1 (en) * | 1999-09-01 | 2002-09-24 | Hrl Laboratories, Llc | Classification method and apparatus based on boosting and pruning of multiple classifiers |
AU2001280581A1 (en) * | 2000-07-18 | 2002-01-30 | Correlogic Systems, Inc. | A process for discriminating between biological states based on hidden patterns from biological data |
JP2002239952A (ja) * | 2001-02-21 | 2002-08-28 | Sony Corp | ロボット装置、ロボット装置の行動制御方法、プログラム及び記録媒体 |
JP2003099089A (ja) * | 2001-09-20 | 2003-04-04 | Sharp Corp | 音声認識・合成装置および方法 |
DE10216117A1 (de) * | 2002-04-12 | 2003-10-23 | Philips Intellectual Property | Verfahren und System zur Spracherkennung von Symbolfolgen |
JP2004030628A (ja) * | 2002-05-10 | 2004-01-29 | Sony Corp | 情報処理装置および方法、プログラム格納媒体、並びにプログラム |
US7197503B2 (en) * | 2002-11-26 | 2007-03-27 | Honeywell International Inc. | Intelligent retrieval and classification of information from a product manual |
CN1217290C (zh) * | 2003-07-07 | 2005-08-31 | 西安理工大学 | 二维条码身份证件防伪系统自动识读方法 |
JP4639784B2 (ja) * | 2004-12-06 | 2011-02-23 | ソニー株式会社 | 学習装置および学習方法、並びにプログラム |
-
2005
- 2005-04-05 JP JP2005108185A patent/JP4843987B2/ja not_active Expired - Fee Related
-
2006
- 2006-04-04 US US11/397,299 patent/US7499892B2/en not_active Expired - Fee Related
- 2006-04-05 CN CN2006100898570A patent/CN1855224B/zh not_active Expired - Fee Related
- 2006-04-05 KR KR1020060030847A patent/KR20060107329A/ko not_active Application Discontinuation
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101771780A (zh) * | 2008-12-26 | 2010-07-07 | 富士施乐株式会社 | 信息处理装置和信息处理方法 |
CN101771780B (zh) * | 2008-12-26 | 2014-02-12 | 富士施乐株式会社 | 信息处理装置和信息处理方法 |
CN105830058A (zh) * | 2013-12-16 | 2016-08-03 | 三菱电机株式会社 | 对话管理器 |
CN105830058B (zh) * | 2013-12-16 | 2019-11-22 | 三菱电机株式会社 | 对话管理器 |
CN106940998A (zh) * | 2015-12-31 | 2017-07-11 | 阿里巴巴集团控股有限公司 | 一种设定操作的执行方法及装置 |
CN111837083A (zh) * | 2018-01-12 | 2020-10-27 | 佳能株式会社 | 信息处理装置、信息处理系统、信息处理方法和程序 |
CN111837083B (zh) * | 2018-01-12 | 2024-05-31 | 佳能株式会社 | 信息处理装置、信息处理方法和存储介质 |
US12045056B2 (en) | 2018-01-12 | 2024-07-23 | Canon Kabushiki Kaisha | Information processing apparatus, information processing method, and medium |
Also Published As
Publication number | Publication date |
---|---|
KR20060107329A (ko) | 2006-10-13 |
US7499892B2 (en) | 2009-03-03 |
JP2006285882A (ja) | 2006-10-19 |
CN1855224B (zh) | 2010-06-16 |
US20060230140A1 (en) | 2006-10-12 |
JP4843987B2 (ja) | 2011-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1855224A (zh) | 信息处理装置、信息处理方法及程序 | |
CN1808414A (zh) | 学习、识别和生成数据的方法和设备以及计算机程序 | |
CN1241168C (zh) | 识别装置和识别方法,以及机器人设备 | |
CN1159704C (zh) | 信号分析装置 | |
CN1238833C (zh) | 语音识别装置以及语音识别方法 | |
CN1252620C (zh) | 信息处理装置和信息处理方法 | |
CN1290034C (zh) | 机器人装置及其行为控制方法 | |
CN1842702A (zh) | 声音合成装置和声音合成方法 | |
CN1283428C (zh) | 机器人设备、控制机器人设备动作的方法 | |
CN1162838C (zh) | 抗噪声语音识别用语音增强-特征加权-对数谱相加方法 | |
CN1102270C (zh) | 信息处理方法和信息处理设备 | |
CN1199149C (zh) | 会话处理设备及方法 | |
CN1338980A (zh) | 机器人设备及其控制方法,和机器人性格判别方法 | |
CN1234109C (zh) | 语调生成方法、语音合成装置、语音合成方法及语音服务器 | |
CN1095105C (zh) | 控制可移动装置的设备与方法 | |
CN1409527A (zh) | 终端器、服务器及语音辨识方法 | |
CN1237502C (zh) | 生成声音模型的方法、装置和生成声音模型的计算机程序 | |
CN1728152A (zh) | 用于使用软计算优化器的机动车的智能强健控制系统 | |
CN1449511A (zh) | 多变量矩阵处理控制 | |
CN1692341A (zh) | 信息处理设备、信息处理方法、程序以及存储介质 | |
CN1105464A (zh) | 能识别口述命令的交互式计算机系统 | |
CN1647133A (zh) | 电子学习教程结构 | |
CN1461463A (zh) | 语音合成设备 | |
CN1518489A (zh) | 用于机器人的行为控制系统和行为控制方法及机器人装置 | |
CN1244850C (zh) | 响应指定型的设备控制系统和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20100616 Termination date: 20130405 |