CN1236422C

CN1236422C - 机器人装置、字符识别方法和装置

Info

Publication number: CN1236422C
Application number: CNB028021843A
Authority: CN
Inventors: 广江厚夫; 南野活树; 河本献太; 佐部浩太郎; 大桥武史
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2001-05-02
Filing date: 2002-05-01
Publication date: 2006-01-11
Anticipated expiration: 2022-05-01
Also published as: CN1465042A; KR100940630B1; WO2002091356A1; US20030152261A1; US7088853B2; KR20030018041A

Abstract

发音信息生成单元(150)生成从CCD摄像机(20)拍摄的图像的字符识别结果推导出的多个字符、从该字符推导出的多个假名读音以及与该假名读音对应的发音信息，将获得的多个读音与话筒(23)采集到的用户的发音进行匹配以从多个生成的候选中指定一个假名读音和发音信息(读音)。

Description

机器人装置、字符识别方法和装置

技术领域

本发明涉及根据机器人装置的内部状态来自主行动的机器人装置、字符识别方法和装置、控制程序和记录媒体。特别涉及：一种机器人装置，其中在出示字符并发出语音时，根据拍摄到的图像来识别字符，对应于该字符来新登录采集到的语音作为该字符的发音；一种字符识别方法和装置，在出示字符并发出语音时，根据拍摄到的图像来识别该字符，新登录采集到的语音作为该字符的发音；一种控制程序，用来执行识别发出语音时出示的字符、和新登录采集到的语音作为该字符的发音的处理；以及一种记录媒体，其上记录有该控制程序。

背景技术

使用电或磁操作来完成类似作为生物的人的运动的机械装置被定义为机器人。在日本，机器人在六十年代末开始使用。使用的大多数机器人是机械手或运输机器人等工业机器人，目的是使工厂中的生产操作自动化以节省人力。

最近，正在开发作为人的伴侣来支持人的生活、即在我们的日常生活中的各种情况下支持人的活动的实用机器人。与工业机器人不同，实用机器人能够学习使自己适应不同个性的主人或人的生存环境的不同情况下的各个方面的方法。例如，模拟猫狗等四足动物的形体机构或运动的宠物型机器人等有腿可移动机器人、或仿照人类直立双腿行走的身体机构和行为而设计的人形机器人已经投入实用。与工业机器人不同，这些有腿可移动机器人的外形极其接近动物或人，行为也类似动物或人，并且能够完成各种娱乐型动作，有时被称为娱乐机器人。

在有腿可移动机器人中，有些具有相当于眼睛的小型摄像机、和相当于耳朵的拾音话筒。在此情况下，有腿可移动机器人对采集到的图像执行图像处理来识别作为图像信息而输入的周围环境，或者根据输入的周围声音来识别“语言”。

特别是，识别从外界采集到的语音并将其转换为字符、或者识别语音以进行回答的技术不仅用于有腿可移动机器人，还用于个人计算机等各种电子设备。

在现有语音识别技术中，使用语音识别词典(以下称为识别词典)来进行语音识别，在该识别词典中存储有给定的单词的发音及其记号。这种技术的缺点是，不能识别未登录在识别词典中的单词。此外，在识别句子等单词序列的发音时，必须组合识别词典中登录的多个单词。即，如果句子中包含识别词典中尚未被登录的单词，则会错误识别、或者不能识别该句子。

以“北品川(站名，读作kitashinagawa)”为例，如果识别词典中未登录“北品川”，则不能识别“北品川”的发音或包含“北品川”的发音、例如“北品川は、どこですか。(北品川在哪儿？读作kitashinagawa，dokodesuka)”等包含单词序列的语音，或者会错误识别“北品川”部分。这样，为了能够识别未登录在识别词典中的单词，需要另外新登录未登录的单词。

在能够进行语音识别的语音识别装置拥有的识别词典中，给定的单词的“单词符号”作为将该单词与其他单词区别开来的标识符，对应于表示该关注单词的发音信息的“PLU序列”。PLU(phoneme-like unit，音素类单位)是声学或语音学单位。发出的语音一定能够表示为PLU的组合(PLU序列)。

因此，如果要将单词登录到识别词典中，则只需添加单词符号和对应的PLU序列。但是应该指出，为了这样添加单词符号和对应的PLU序列，必须能够使用键盘等合适的输入设备来直接输入“北品川”或“kitashinagawa”的记号。

这样，例如在机器人装置没有这种键盘等输入设备的情况下，有一种方法是按照语音通过声音识别采集到的单词的发音来获得未知单词的PLU序列。在此情况下，识别使用无用模型(garbage model)。无用模型只应用于日语，它将语音表示为发音的基本单位——“音素”的组合、或单词读音的基本单位——假名(日文假名表)的组合。

在现有语音识别装置中，应用无用模型来获得语音识别结果，对识别结果赋予单词符号，并且将它们对应地登录到识别词典中作为新词。

应该指出，“音素”和“PLU”的意思大致相同，而“PLU序列”表示多个PLU连接而成的单词的发音。

使用无用模型的现有语音识别技术的缺点是，识别率会由于下述原因而降低：这是由于不同用户的发音信息有细微的差别，尽管发出的单词相同；某些音素很微弱，例如单词开头部分的/s/，必然容易错误识别；周围噪声使音素变化；或者检测语音域(speech domain)失败。

特别是，如果将语音识别装置应用于机器人装置，则语音识别装置端的拾音话筒在大多数情况下远离用户，所以经常容易发生错误识别。

在识别“きたしながわ(站名“北品川”，读作kitashinagawa)”的情况下，识别结果容易被识别为例如PLU序列“hitotsunanoga”或“itasunaga：”，它们在发音上类似但是不同于“きたしながわ”。如果使用识别词典来进行语音识别，用这种方法向识别词典中登录单词，则不仅识别率降低，而且会由于错误的识别而产生显示错误。即，由于向新登录的单词赋予了错误的PLU序列，所以该单词的识别率降低。

在发出单词的用户不是输入该单词的用户的情况下，尽管在识别词典中已登录了“きたしながわ”，但是由于不同用户的音调不同，有时仍然不能识别包含单词“きたしながわ”的发音。

此外，如果将语音识别结果转换为字符来显示，有时会显示错误的字符，因为尚未向新登录的单词赋予关于显示的信息。如果在用语音登录了“きたしながわ”后，用户向语音识别装置发出“北品川に行きたい。(我想去北品川，读作kitashinagawa ni yukitai)”，则显示可能是“hitotsunanogaに行きたい(我想去hitotsunanoga，读作hitotsunanoga ni yukitai)”或“ひとつなのがに行きたい(我想去hitotsunanoga，读作hitotsunanoga ni yukitai)”，尽管语音识别装置已正确地识别出发音“きたしながわ”。还有一个问题是，在语音识别装置用语音合成来重复作为识别结果的PLU序列时，只有合成的新识别单词的PLU序列部分的发音在整个PLU序列中连接得不自然。

此外，如果用无用模型来登录新词，则不能登录部分语音或含义等与登录的单词的属性有关的信息。例如，如果登录了“北品川”，则不能登录关于该单词是名词还是地名的信息。其结果是，如果在例如对话语法或识别语言模型中预先记录了“<地名を表す语>+は+どこ+です+か(<表示地名的单词>在哪儿？读作<chimeiwo arawasugo>+wa+doko+desu+ka)”等特定表达方式的语法规则，则不能将这种规则应用于新登录的单词。尽管单词属性可以用语音来输入，但是在登录时，要求用户意识到单词属性。此外，对用户来说，不仅输入单词还要输入单词属性来进行登录很麻烦。

发明内容

鉴于现有技术的上述状况，本发明的目的在于提供一种机器人装置，其中，根据拍摄的图像来识别字符，采集并识别随出示的字符发出的语音作为该字符的发音，以便能够将未登录的单词登录到识别词典中作为新词，并且能够正确地识别新登录的单词。本发明的另一目的在于提供一种字符识别装置，其中，根据拍摄的图像来识别字符，采集并识别随出示的字符发出的语音作为该字符的发音，以便能够将未登录的单词登录到识别词典中作为新词，并且能够正确地识别新登录的单词。本发明的另一目的在于提供一种字符识别方法，包括：对出示的字符进行成像，根据拍摄的图像来识别字符，采集随该出示的字符发出的语音，并且识别随该出示发出的语音作为采集并识别出的字符的发音，以便登录到识别词典中作为新词。本发明的另一目的在于提供一种控制程序，用来执行识别字符、和新登录采集到的语音作为该字符的发音的处理；以及一种记录媒体，其上记录有该控制程序。

为了实现上述目的，本发明提供一种机器人装置，根据机器人装置的内部状态来自主行动，包括：语音识别存储部件，作为语音识别词典，存储有单词和其发音信息之间的对应关系；单词语音表达存储部件，作为单词语音表达(word sound expression)表，存储有单词和其单词语音表达字母之间的对应关系；成像部件，用于拍摄物体；图像处理字符识别单元，用于根据成像部件拍摄的图像来提取字符；拾音部件，用于采集周围声音；语音识别部件，用于根据拾音部件拾取的声音来识别语音；读音信息生成部件，用于根据单词读音属性表，向字符识别部件提取出的字符赋予多个单词语音表达字母，并且用于对这样赋予的多个单词语音表达字母中的每个分别生成发音信息和与读音对应的语音波形；以及存储控制部件，用于将读音信息生成部件生成的语音波形与语音识别部件识别出的语音的语音特征进行比较，并且将最接近的语音波形新存储到语音识别词典中作为提取出的字符发音信息。

采用本机器人装置，根据单词发音表，向图像处理字符识别单元提取出的字符赋予多个语音表达字母，对赋予的多个单词语音表达字母中的每个分别生成与读音对应的发音信息和语音波形，将发音信息生成部件生成的每个语音波形与语音识别部件识别出的语音的语音波形进行比较，并且将最接近的语音波形新存储为提取出的字符的发音信息。

本发明还提供一种字符识别装置，包括：语音识别存储部件，作为语音识别词典，存储有单词和其发音信息之间的对应关系；单词语音表达存储部件，作为单词读音属性表，存储有单词和其单词语音表达字母之间的对应关系；成像部件，用于拍摄物体；图像识别部件，用于根据成像部件拍摄的图像来提取；拾音部件，用于采集周围声音；语音识别部件，用于根据拾音部件拾取的声音来识别语音；读音信息生成部件，用于根据单词读音属性表，向图像处理字符识别单元提取出的字符赋予多个单词语音表达字母，并且用于对这样赋予的多个单词语音表达字母中的每个分别生成发音信息和与读音对应的语音波形；以及存储控制部件，用于将读音信息生成部件生成的语音波形与语音识别部件识别出的语音的语音波形进行比较，并且将最接近的语音波形新存储到语音识别词典中作为提取出的字符的发音信息。

采用本字符识别装置，根据单词语音表达字母表，向图像处理字符识别单元提取出的字符赋予多个单词语音表达字母，对赋予的多个单词语音表达字母中的每个分别生成发音信息和与读音对应的语音波形，将发音信息生成部件生成的每个语音波形与语音识别部件识别出的语音的语音波形进行比较，并且将最接近的语音波形新存储为提取出的字符的发音信息。

本发明还提供一种字符识别方法，包括：成像步骤，拍摄物体；图像识别步骤，根据成像步骤拍摄的图像来提取字符；拾音步骤，用于采集周围声音；语音识别步骤，根据拾音步骤获取的声音来识别语音；读音信息生成步骤，根据单词读音属性表，向字符识别步骤提取出的字符赋予多个单词语音表达字母，该单词读音属性表存储有单词和单词的语音表达字母之间的对应关系；并且对这样赋予的多个单词语音表达字母中的每个分别生成发音信息和与读音对应的语音波形；以及存储控制步骤，将读音信息生成步骤生成的语音波形与语音识别步骤识别出的语音的语音波形进行比较，并且将最接近的语音波形新存储到语音识别词典中作为提取出的字符的发音信息。

采用本字符识别方法，根据单词语音表达字母表，向图像处理字符识别单元提取出的字符赋予多个单词语音表达字母，对赋予的多个单词语音表达字母中的每个分别生成发音方式和与读音对应的语音波形，将发音信息生成步骤生成的每个语音波形与语音识别步骤识别出的语音的语音波形进行比较，并且将最接近的语音波形新存储为提取出的字符的发音信息。

本发明还提供一种程序，使机器人装置执行：成像步骤，拍摄物体；图像识别步骤，根据所述成像步骤拍摄的图像来提取字符；拾音步骤，用于采集周围声音；语音识别步骤，根据所述拾音步骤获取的声音来识别语音；读音信息生成步骤，根据单词读音属性表，向所述图像识别步骤提取出的字符赋予多个单词语音表达字母，该单词读音属性表存储有单词和所述单词的语音表达字母之间的对应关系；并且对这样赋予的多个单词语音表达字母中的每个分别生成发音信息和与读音对应的语音波形；以及存储步骤，将所述读音信息生成步骤生成的语音波形与所述语音识别步骤识别出的语音的语音波形进行比较，并且将最接近的语音波形新存储到语音识别词典中作为所述提取出的字符的发音信息。也可以将上述控制程序记录在记录媒体上并以该形式来提供。

附图说明

图1是作为本发明示例性结构的机器人装置的外形透视图。

图2是作为本发明示例性结构的机器人装置的结构方框图。

图3是作为本发明示例性结构的机器人装置的图像语音识别单元的结构方框图。

图4示出作为本发明示例性结构的机器人装置的语音识别词典。

图5示出作为本发明示例性结构的机器人装置的单词读音属性表。

图6示出作为本发明示例性结构的机器人装置的字母或字符读音表。

图7是作为本发明示例性结构的机器人装置向语音识别词典中登录新词的处理流程图。

图8示出作为本发明示例性结构的机器人装置的新词识别词典。

图9是用于生成作为本发明示例性结构的机器人装置识别出的字母或字符串的发音(读音)方式的处理的流程图。

图10是作为本发明示例性结构的机器人装置的控制程序的软件结构方框图。

图11是作为本发明示例性结构的机器人装置的控制程序的中间件层的结构方框图。

图12是作为本发明示例性结构的机器人装置的控制程序的应用层的结构方框图。

图13是作为本发明示例性结构的机器人装置的控制程序的动作模型库的结构方框图。

图14示意性地示出作为本发明示例性结构的机器人装置的动作确定算法的有限概率自动机(finite probability automaton)。

图15示出作为本发明示例性结构的机器人装置的确定动作的状态转移条件。

图16是作为本发明示例性结构的人形机器人装置的外形的正面透视图。

图17是作为本发明示例性结构的人形机器人装置的外形的背面透视图。

图18示意性地示出作为本发明示例性结构的人形机器人装置的自由度形成模型。

图19示出作为本发明示例性结构的人形机器人装置的控制系统结构。

图20A示意性地示出将“音素”作为基本单位的应用无用模型的现有语音识别方法。

图20B示意性地示出将“假名”作为基本单位的应用无用模型的现有语音识别方法。

具体实施方式

作为本发明示例性结构的机器人装置是根据机器人装置的内部状态来自主行动的机器人装置。该机器人装置是有腿可移动机器人，至少具有上肢、躯干和下肢，上下肢或只用下肢作运动部件。在有腿可移动机器人中，有一种模拟四足运动动物的形体机构的或其运动宠物型机器人，和一种模拟双腿行走的动物、即只将下肢用作运动部件的动物的身体机构或其运动的机器人装置。本发明的机器人装置是四足行走的有腿可移动机器人。

该机器人装置是在生活环境等人的日常生活中的各种情况下支持人的活动的实用机器人。它是一种娱乐机器人，不仅能够根据机器人装置的内部状态来行动，例如喜怒哀乐，而且能够表达四足行走动物所做的基本运动。

具体地说，该机器人装置模拟“狗”，具有头、躯干、前肢、后肢、尾巴等。在各个身体部位的连接部位和关节上，设有预定数目的致动器和与运动自由度对应的电位计。目标运动可以在未图示的控制器的控制下来实现。

该机器人装置包括：成像单元，用于采集周围状态作为图像数据；话筒单元，用于拾取周围语音；以及各种传感器，用于检测来自外界的操作。成像器采用小型CCD(电荷耦合器件)单元。

本发明的机器人装置包括图像识别装置和语音识别装置，根据CCD摄像机拍摄的图像来提取字符，并赋予由提取出的字符估计出的多个假名发音(读音)，并且对应于这样赋予的多个假名发音(读音)来生成多个语音波形。将该语音波形与话筒单元采集到的语音的语音波形进行比较，将最接近的语音波形设为提取出的字符的发音信息(读音)并将该波形新存储到语音识别词典中。

下面参照附图来说明作为本发明示例性结构的机器人装置。

如图1所示，在本实施例中，机器人装置1是模拟“狗”的所谓的宠物型机器人。机器人装置1包括：躯干单元2；腿单元3A、3B、3C和3D，连接在躯干单元2的前、后、左、右侧；头单元4，连接在躯干单元2的最前部；以及尾巴单元5，连接在躯干单元2的后部。

躯干单元2包括：控制器16；以及电池17，用作机器人装置1的电源。控制器16包括通过内部总线15互连的CPU(中央处理单元)10、DRAM(动态随机存取存储器)11、闪速ROM(只读存储器)12、PC(个人计算机)卡接口电路13、以及信号处理电路14。在躯干单元2中，装有角速度传感器18和加速度传感器19。

头单元4包括：CCD(电荷耦合器件)摄像机20，用于对外部状态进行成像；接触传感器21，用于检测用户的“抚摸”或“击打”等身体动作的压力；距离传感器22，用于测量到前方物体的距离；话筒23，用于拾取外部声音；扬声器24，用于输出悲号等声音；以及预定位置上的LED(发光器件)，相当于机器人装置1的“眼睛”。CCD摄像机20能够以预定的视角对头单元4面向的方向上的物体进行成像。

在腿单元3A至3D的关节部位、腿单元3A至3D和躯干单元2之间的连接部位、头单元4和躯干单元2之间的连接部位、以及尾巴单元5和尾巴5A之间的连接部位上，设有与多个自由度对应的多个致动器25₁至25_n和多个电位计26₁至26_n。致动器25₁至25_n例如由伺服电机构成。腿单元3A至3D由伺服电机的驱动来控制，以便转移到目标方向或运动。

各种传感器即角速度传感器18、加速度传感器19、接触传感器21、距离传感器22、话筒23、扬声器24、电位计26₁至26_n、多个LED以及致动器25₁至25_n分别通过关联的集线器(hub)27₁至27_n连接到控制器16的信号处理电路14，而CCD摄像机20和电池17直接连接到信号处理电路14。

信号处理电路14依次获取各个传感器提供的传感器数据、图像数据以及语音数据，以通过内部总线15将数据依次存储到DRAM 11中的预定地址。信号处理电路14还从电池17获取电池余量数据以存储到DRAM 11中的预定地址。

这样存储到DRAM 11中的传感器数据、图像数据、语音数据以及电池余量数据在CPU 10管理机器人装置1的操作控制时使用。

在接通机器人装置1的电源的初始阶段，CPU 10读出闪速ROM 12中存储的控制程序以存储到DRAM 11中。或者，CPU 10经PC卡接口电路13读出存储卡28等安装在躯干单元2的未图示的PC卡槽中的半导体存储设备中存储的控制程序，以存储到DRAM 11中。

CPU 10根据从信号处理电路14依次存储到DRAM 11中的传感器数据、图像数据、语音数据以及电池余量数据，来确认自身状态和周围状态以及是否存在用户的命令或用户的动作。

CPU 10还根据这些确认结果和DRAM 11中存储的控制程序来确定该动作。CPU 10根据确认结果，让致动器25₁至25_n中的所需的致动器使头单元4上下或左右运动，使尾巴单元5的尾巴运动，或者驱动腿单元3A至3D以便行走。CPU 10还生成所需的语音数据以通过信号处理电路14将生成的语音数据发送到扬声器24。CPU 10还生成命令LED接通或切断的信号以接通或切断LED。

CPU 10如上所述自主控制机器人，还响应对话管理单元110的请求来驱动机器人。

通过该基本结构，机器人装置1响应其自身状态、周围状态以及来自用户的命令或动作来自主行动。

机器人装置1在躯干单元2的控制器16中还包括图像语音识别单元100，用于登录识别出的语音和识别出的字符之间的对应关系作为新识别出的单词。参照图3，图像语音识别单元100包括对话管理单元110、语音识别单元120、输出生成单元130、图像处理字符识别单元140以及语音发音信息生成单元150。参照图4，语音识别词典是列出作为用以区别于其他单词的标识符的“单词符号”和表示与单词对应的发音信息的“PLU序列”的列表。可以参照该词典来提取单词的发音信息(读音)或与发出的语音对应的单词的记号。

具体地说，对话管理单元110根据输入到话筒23的用户的发音方式和对话滞后来生成对输入语音的回答。对话管理单元110根据对话规则表111中存储的各种对话规则，对输入语音生成回答样式(pattern)。

语音识别单元120将用户的对话变换为文本、句法分析或对话框等对话管理单元110可以处理的形式。具体地说，语音识别单元120包括语音识别词典121、声学模型122、语言模型123、声学分析单元124等。在声学分析单元124中对每个极短的时间段提取识别所需的特征。例如，提取采集到的语音信号的能量、过零数、音调、频率响应及其变化量。频率分析采用线性预测分析(LPC)、快速傅里叶变换(FFT)以及带通滤波器(BPF)。

语音识别单元120使用声学模型122和语言模型123来确定与声学分析单元124生成的特征序列对应的单词序列。识别技术例如采用隐马尔可夫模型(HMM)。

HMM是具有状态转移概率和概率密度函数的状态转移模型。通过在状态转移时积累概率值、输出特征序列来确定似然率。使用作为得分的似然值来匹配语音识别词典中存储的单词的发音信息和向后述图像处理字符识别单元识别出的字符赋予的发音信息。转移概率和概率密度函数是根据学习数据通过学习过程来预先学习和准备的。

可以对音素(PLU)、音节、短语或句子等每个单位准备声学模型。例如，如果声学模型将假名(日文假名表)“あ(读作a)”、“い(读作i)、“う(读作u)”、“え(读作e)”、“お(读作o)”、“か(读作ka)”、“き(读作ki)”、...、“ん(读作n)”作为单位，则可以将它们适当地组合互连以形成“はい(是，读作hai)”、“いいえ(不，读作iie)”、“おはよぅ(早上好，读作ohayou)”或“いまなんじですか(现在几点钟？读作ima nanji desuka？)”等表达方式。音素是表示单词发音信息的声学和音节单位。在本说明书中，不加区分地使用音素和PLU(音素类单位)。发出的语音一定能够表示为音素或PLU的组合(PLU序列)。

采用HMM，可以将如上所述形成的语音和话筒23采集到的语音的特征序列之间的相似性计算为得分。作为用于根据声学模型来形成“语音”的信息采用语言模型123和语音识别词典121。语音识别词典121是指示用于形成待识别的每个单词(这里示出单个假名字母“あ(读作a)”、“い(读作i)”等)的声学模型的连接方式的词典。语言模型123表示单词之间的连接规则。

在本例中，如下所示，“单词”表示从识别处理的观点来看在发音上可以方便地作为一个整体对待的单位，不一定与作为语言单位的语言学上的单词吻合。例如，尽管有时将“北品川(地名，读作Kita-Shinagawa)”作为一个单词对待，但是也可以将它作为两个分离的单词“北(北，读作kita)”和“品川(站名，读作Shinagawa)”对待。此外，在发出“北品川駅(北品川站，读作Kita-Shinagawa eki)”或发出“北品川駅はどこですか(北品川站在哪儿？读作kitashinagawaekiwa doko desuka)”时也可以将它作为一个单词对待。

在本说明书中，“假名或读音用日文字母”是表示汉字或英语单词的读法的平假名或片假名，而“发音方式”用罗马字(用罗马字母来表示日文字母的方式)或罗马字和符号的组合来表示假名的实际发音，在语言学上相当于“音标”。

以句子“～时から、～时まで(从...点钟到...点钟，读作...jikara，...jimade)”为例。在此情况下，通过参照“0(零，读作ze-ro)”、“1(一，读作ichi)”...“24(二十四，读作nijuu-yon)”、“时(点钟，读作ji)”、“から(从，读作kara)”以及“まで(到，读作made)”等单词的单词模型122来确定各个单词的互连方式。

接着，通过参照“(表示数字的单词)”、“时”、“から”、“(表示数字的单词)”、“时”、以及“まで”等单词的单词模型123来确定各个单词造句时的互连方式。

通过应用HMM，使用语音识别词典121和语言模型123，可以将“1时から2时まで(从1点钟到2点钟，读作ichijikara-nijimade)”或“2时から5时まで(从2点钟到5点钟，读作nijikara-gojimade)”等句子和输入特征序列之间的相似性计算为得分。输出具有最大得分的单词序列组成的句子作为语音识别结果。

有时通过综合评价声学模型122给出的声学得分和语言模型123给出的语言学得分来进行语音识别处理中的得分计算。

根据n个连续单词之间的转移概率或连接概率来给出语言学得分。转移概率是从大量的文本中统计出的值，这里称为“n-gram。

有时语言模型除了用语法或n-gram来直接描述单词之外，还描述(根据某些标准或属性将单词分类而得到的)单词分类。

例如，如果收集表示地名的单词并给以类名<地名>，则能够表述例句“<地名>+は+どこ+です+か(<地名>在哪儿？读作<chimei>+wa+doko+desu+ka)”，或者提供“<地名>+は+どこ(读作<chimei>+wa+doko)”的转移概率。在此情况下，n＝3，转移概率精确地是P(“<地名>|は、どこ|(读作<chimei>|wa，doko|”)。

输出生成单元130将对话管理单元110生成的回答样式变换为实际操作。例如，如果对话管理单元110生成响应样式“左右摇摆脖子+发出(No)”，则输出生成单元130响应此而生成与“左右摇摆脖子”对应的动作样式并将其发送到CPU 10，同时生成与“No”对应的语音波形并将其输出到扬声器24。

图像处理字符识别单元140根据字符图案数据库141来鉴别CCD摄像机20获取的图像中包含的字符串。在字符图案数据库141中，存储有平假名、片假名、汉字、字母排列的字母、符号或所需的各种语言的字母的图像图案。图像处理字符识别单元140匹配来自CCD摄像机20的输入图像和字符图案数据库141中存储的图像图案来识别输入图像中包含的字符串。

发音信息生成单元150生成与图像处理字符识别单元140识别出的字符序列对应的发音信息，即字符序列的假名读音，还生成发音信息(读音)。例如，如果根据输入图像识别出字符序列“北品川”，则生成假名读音“きたしながわ(地名“北品川”，读作kitashinagawa)”并且根据PLU序列来生成发音信息“kitashinagawa”。

如图4所示，单词读音属性表151是表述一组单词(字符序列)、假名读音以及属性的表。属性表示给定的单词的固有含义，例如“地名”、“姓名”或“动物”。

如果图像处理字符识别单元140识别出的字符序列包含在该表中，则可以从该表中提取假名读音以根据假名读音来确定字符序列的发音信息(读音)。单词读音属性表151是独立于语音识别词典121而准备的。

识别速度、识别率或处理制约对语音识别词典中的单词数(词汇)设定了上限。然而，在单词读音属性表151中可以独立于这些限制来表述单词。该单词读音属性表151可以根据其他语言资源再分类，例如假名-汉字转换程序或词素分析程序中使用的词典。

如图6所示，字符读音表152是描述字符和假名读音之间的对应关系的表。它表述每个符号、拉丁字母以及汉字的假名读音。如果对全部可用字符表述了假名读音，则可以根据假名读音向任意字符序列赋予发音信息(读音)。

读音赋予表153表述在只使用两个表不能赋予假名读音的情况下赋予假名读音的一组规则、和指定不能指定的假名读音的另一组规则。例如，用于统一音读(按汉字音来读)和训读(按日本发音来读汉字)、用于长音、连浊音、重复符号的多组规则和用于向英语单词赋予读音的多组规则。

具体地说，用于长音的一组规则是用于将“...おう(读作...ou)”或“...えい、(读作...ei)”变换为“...お一(读作...o-)”或“...え一(读作...e-)”的规则。通过这些规则，将“とうきよう(日本的首都“东京”，读作toukyou)”变换为“と一きよ一(读作to-kyo-)”。连浊音的规则是，在由“しながわ(品川)(地名，读作shinagawa)”和“くち(口)(口，读作kuchi)”的组合来生成“品川口(品川口，读作shinagawa-guchi)”的读音时，将“くち(读作kuchi)”浊化为“ぐち(读作guchi)”。用于重复符号的规则是用于向“

、丶、ミ、

”等重复符号赋予假名读音的规则。用于向英语单词赋予假名读音的规则是，如果给定的英语单词以“e”结束，则不读该“e”，而将紧前的元音读作该元音的读音。例如，在向“take”赋予读音假名“テ一ク(读作te-ku)”时，向“a”赋予假名读音“エ一(读作e-)”，而向“ke”赋予读音假名“ク(读作ku)”。

参照图7来具体说明向识别词典中登录新词的处理。

首先，在步骤S1中，转移到用于登录单词的单词登录模式。为了转移到单词登录模式，机器人装置1例如以用户发出的“登录モ一ド(登录模式，读作tourokumoodo)”或“言叶を覚えて(学习单词，读作kotobawo oboete)”等单词为契机而转移到单词登录模式。也可以提供一个操作按钮以便在按下该操作按钮时转移到单词登录模式。

在步骤S2中，机器人装置1提醒用户在机器人装置1的CCD摄像机20前出示想要登录的单词并且/或者除了出示之外还发出想要登录的单词的读音。

给用户的命令可以通过机器人装置1发出的语音，也可以通过在未图示的显示单元上显示命令内容。以句子“北品川(读作kitashinagawa)”为例。用户出示的字符可以是汉字、假名、用于表示日文字母的罗马字或PLU序列。具体地说，机器人装置1能够识别“北品川”、“きたしながわ、“キタシナがワ”或“kitashinagawa”中的任一种记号。

在步骤S3中，机器人装置1确认是只出示了字符，还是结合字符发出了语音。如果只出示了字符，则机器人装置1前进到步骤S4；而如果结合字符发出了语音，则机器人装置1前进到步骤S8，如后所述。否则，即，如果只发出了语音，则像以往那样通过无用模型来执行识别处理。

首先，说明只出示了字符的情况。如果只出示了字符，则机器人装置1根据字符图案数据库141来进行OCR(光学字符识别)，以便检查在CCD摄像机20拍摄的图像中包含什么字符序列。如果不能将字符识别结果的范围缩小到一个候选，则图像处理字符识别单元140保留多个候选。例如，如果对字符“北品川”获得识别结果“比晶川(河名，读作hishogawa)”，则也保留该“比晶川”。

然后，在步骤S5中，机器人装置1中的语音发音信息生成单元150对作为步骤S4的识别结果而获得的字符序列生成发音信息(读音)。以下说明生成发音的细节。发音生成处理向字符序列赋予发音信息(读音)。如果有多个识别出的字符序列并且/或者一个字符序列有多个发音，则应用所有发音样式。

在步骤S6中，机器人装置1请用户检查如上所述生成的字符序列的发音信息(读音)是否正确，或者采用哪一种发音方式。如果只有一种发音(读音)方式，则机器人装置问：“读音正确吗？”如果用户回答“正确”或“是”，则机器人装置1前进到步骤S7。

如果有多个发音(读音)方式，则机器人装置对每种不同的读音方式问：“读音正确吗？”。机器人装置1接受用户回答“正确”或“是”的读音方式，并且前进到步骤S7。

如果接收到回答“No”，即如果没有正确的读音，则机器人装置1返回到步骤S2或步骤S4的处理。

在通过上述处理确定了新词的读音后，机器人装置1前进到步骤S7以将新词登录到识别词典中，使获得的字符序列和字符序列的发音信息(读音)相互对应。在添加新词时，在图4所示的单词符号栏中使用出示的字符的识别结果。在PLU序列栏中，对应于字符符号，表述步骤S6中确定的发音信息(读音)。在登录了新词后，终止登录模式。然后进行重新启动语音识别程序等使更新过的识别词典反映到语音识别中的处理。

下面说明在步骤S3中用户出示了字符并且同时发出所出示的字符的情况。如果在出示字符的同时进行发音，则协调地使用从两者获得的信息来生成发音信息，更确切地说是PLU序列。

具体地说，生成由字符的识别结果估计出的多个字符、由这些字符估计出的多个假名读音以及这样获得的发音信息(读音)。通过匹配这样获得的多个发音(读音)和话筒23采集到的用户的发音，可以从如上所述生成的多个候选中指定一种假名读音和发音信息(读音)。

在出示字符的同时进行发音时，机器人装置1中的图像处理字符识别单元140在步骤S8中根据CCD摄像机20拍摄的图像来识别字符。应该指出，如果图像处理字符识别单元140未能将字符的识别结果的范围缩小到一个候选，则它保留多个候选。

接着，在步骤S9中，机器人装置1的语音发音信息生成单元150对作为步骤S8的识别结果而获得的字符序列生成假名读音。通过语音生成处理向字符序列赋予发音信息(读音)。如果有多个识别出的字符序列，并且/或者一个字符序列有多个读音，则赋予所有发音样式。

接着，在步骤S10中，根据字符序列和发音信息(读音)来临时生成临时识别词典。以下将该词典称为新词识别词典。例如，假设图像处理字符识别单元140将CCD摄像机20成像的字符“北品川”识别为两种，即“北品川”和“比晶川”。语音发音信息生成单元150向“北品川”和“比晶川”赋予假名读音。语音发音信息生成单元向“北品川”赋予“きたしながわ”，而向“比晶川”赋予两种假名读音，即“ひしよぅがわ(读作hishogawa)”和“くらあきらがわ(读作kuraakiragawa)”，同时生成其各种发音或读音方式，即PLU序列。图8示出此情况下的新词识别词典。

在步骤S11中，借助于新词识别词典对用户的发音进行语音识别。这里的语音识别不是连续语音识别，而是孤立词语音识别。如果用户在生成新词识别词典前发音，则记录语音并且对记录的语音进行语音识别。步骤S11中的语音识别是在新词识别词典中找到一个声音最接近用户发音的登录单词。然而应该指出，在步骤S11的处理中，认为单词符号相同、但是具有不同的PLU序列的单词是不同的单词。

在图8中，寻找3个登录单词中最接近用户发出的“きたしながわ”的一个单词。应该指出，两个“比晶川”是不同的单词。结果，指定一组单词符号和PLU序列。

在已指定了一组单词符号和PLU序列时，在步骤S7中将该组登录到正式语音识别词典121中。在登录了新词后，终止登录模式。然后进行重新启动语音识别程序等使更新过的识别词典反映到语音识别中的处理。

通过上述处理，机器人装置1能够将正式语音识别词典121中未存储的单词登录为新词。

参照图9来详细说明在上述步骤S5和S9中如何生成字符序列的发音信息(读音)。

首先，在步骤S21中，检查图像处理字符识别单元140识别出的字符序列是否仅由假名字母形成。其中，这里的假名字母除了包括平假名和片假名字母，还包括长音符号“一”、重复符号“

、...”。如果字符序列仅由假名字母构成，则在步骤S22中将识别出的假名字母作为字符序列的读音。此时可能要稍微修正发音，例如涉及长音。

另一方面，在步骤S21中，如果图像处理字符识别单元140识别出的字符序列包含假名字母以外的字符，则在步骤S23中检查在单词读音属性表151中是否包含该字符序列。

如果在单词读音属性表151中包含该字符序列，则从表中获取假名读音，进而生成发音信息(读音)(步骤S24)。如果在单词读音属性表151中表述了单词属性，则同时获取该属性。以下说明利用该属性的方式。

如果在单词读音属性表151中不包含该字符序列，则在步骤S25中通过将根据最长匹配原则(longest match principle)、发音基本模块法(articulationbasic block method)、字符读音表152来赋予读音与根据读音赋予规则来赋予读音相结合来获得假名读音。

最长匹配原则和发音基本模块法是，试验是否不能够通过组合单词读音属性表151中包含的多个单词来形成与输入字符序列相同的字符序列。例如，如果输入字符序列是“北品川駅前(北品川站前，读作Kita-Shinagawa ekimae)”，则在单词读音属性表151中不包含“北品川駅前”而包含“北品川”和“駅前(站前，读作eki mae)”的情况下，可以根据“北品川”和“駅前”来形成“北品川駅前”，其结果是，获得读音“きたしながわえきまえ(北品川站前，读作Kita-Shinagawa eki mae)”。如果有多个形成方法，则选择包含更长单词(最长匹配原则)的读音或可以由更少单词(发音基本模块法)形成的读音。

根据字符读音表152来赋予读音的方法是，以字符为单位来分割字符序列，并且以字符为单位从字符读音表152中获取读音。在汉字的情况下，可以向一个汉字赋予多个假名读音，从而整个字符序列的假名读音是各个汉字的假名读音的组合。这样，根据字符读音表来赋予读音的方法通过应用“音读和训读只能在极其罕见的情况下共存”的规则来减少组合数。

然后，在步骤S26中，对通过上述方法获取的各个候选假名读音计算得分或可信度，并且选择说轮次较高的得分或可信度。这样向输入字符序列赋予假名读音。根据得到的假名读音来生成发音信息(读音)。

在步骤S22、S24以及S26后，根据长音或连浊音的规则来修正假名读音的发音信息(读音)。

现在详细说明单词读音属性表151。如果要应用语言模型123中记录的单词连接规则，则只向语音识别词典121中新登录单词是不够的。例如，如果将“北品川”另登录到语音识别词典121中，则这不足以生成“北品川”的语法或连接“北品川”和其他单词的概率。因此，使语言模型的连接规则反映到新登录的单词中的理想方法是添加语法或根据文本数据来重新计算连接概率以重建语言模型。或者，也可以在通过下述更简单的方法进行新登录后应用语言模型。

首先，对语言模型中未包含的单词给出类名<未知单词>。在语言模型中，表述了<未知单词>和其他单词的连接概率。认为新登录的单词是<未知单词>，根据<未知单词>和其他单词的连接概率来计算该新登录的单词和其他单词的连接概率。

类表示根据某种准则或属性对单词进行的分类。例如，可以根据含义对单词进行分类，将各个类提名为<地名>、<姓氏>或<国名>。或者，可以根据部分语音对单词进行分类，将各个类命名为<名词>、<动词>或<形容词>。

在语言模型中，不是表述单词之间的连接概率，而是表述类之间或类和单词之间的连接概率。在求单词之间的连接概率时，首先检查给定的单词属于哪个类。然后求相关类的连接概率来计算单词之间的连接概率。

至于新登录的单词，可以在登录时估计该关注单词属于哪个类以便应用类模型。

根据上述，对未知单词的模型赋予相同值的连接概率。相反，类模型的值因该关注单词属于哪个类而异。这样，在使用类模型的情况下，新登录的单词的语言学得分一般更适当，结果，可以更适当地识别。

这样，在用语音识别来进行单词登录时，可以容易地输入以前难以输入的类名。即，如果在单词读音属性表151中包括字符识别中获得的字符序列(单词)，则可以从该表的属性栏中获取类名。其中，在图5的属性栏中只表述了一种属性。或者，可以表述<地名>、<专有名词>或<站名>等多个属性。在此情况下，如果有<地名>类，则从<地名>、<专有名词>或<站名>中采用与该类名吻合的分类名称。这里，与该类名吻合的分类名称是<地名>，从而采用<地名>。

在字符识别中，与逐个字符进行识别相比，在识别中将字符的连接信息再分类有时能提高识别率。这样，通过将语音识别词典中的“单词符号”栏或单词读音属性表151中的“单词”栏用作与字符的连接有关的信息，可以提高字符识别率。

应该指出，本实施例的机器人装置1能够根据机器人装置的内部状态来自主行动。机器人装置1中的控制程序的软件结构如图10所示。该控制程序被预先存储在闪速ROM 12中，在接通机器人装置1的电源的初始状态时被读出。

参照图10，设备驱动程序层30被设置为控制程序的最低层，它由多个设备驱动程序构成的设备驱动程序组31组成。应该指出，每个设备驱动程序是用来直接访问CCD摄像机20(图2)或定时器等通用计算机中使用的硬件的对象(object)，在从关联的硬件接收到中断时进行处理。

机器人服务器对象32被设置为设备驱动程序层30的最低层，包括：虚拟机器人33，由提供用于访问上述各种传感器或致动器251至25n等硬件的接口的软件组构成；电源管理器34，由监视电源通断的软件组构成；设备驱动程序管理器35，由监视各种其他设备驱动程序的软件组构成；以及设计机器人(designed robot)36，由监视机器人装置1的机构的软件构成。

管理器对象37由对象管理器38和服务管理器39构成。对象管理器38包括：监视机器人服务器对象32中包括的软件组的启动或结束的软件组；中间件层40；以及应用层41。服务管理器39由根据存储卡28(图2)中存储的连接文件中表述的对象之间的连接信息来监视各个对象的连接的软件组构成。

中间件40位于机器人服务器对象32的上层，由提供图像处理或语音处理等机器人装置1的基本功能的软件构成。应用层41位于中间件层40的上层，由根据形成中间件层40的软件组的处理结果来确定机器人装置1的读作的软件组构成。

图11示出中间件层40和应用层41的具体软件结构。

参照图11，中间件层40由识别系统60、输出语义转换器模块68和输出系统69构成，识别系统60具有用于检测噪声、温度、亮度、音阶、距离或方向、作为接触传感器、用于检测运动和用于识别颜色的信号处理模块50至58，输出系统69具有用于方向管理、跟踪、运动重现、行走、摔倒爬起、LED发光以及声音重现的信号处理模块61至67。

识别系统60的信号处理模块50至58获取与机器人服务器对象32的虚拟机器人33从DRAM 11(图2)中读出的传感器数据、图像数据以及语音数据有关的数据，对其进行预定处理，并且将处理结果发送到输入语义转换器模块59。例如，将虚拟机器人33设计为根据预定通信格式来交换或变换信号的单元。

输入语义转换器模块59根据来自信号处理模块50至58的处理结果来识别“吵闹”、“热”、“亮”、“检测到球”、“检测到摔倒”、“被抚摸”、“被击打”、“听到音阶do、mi以及so”、“检测到运动物体”或“检测到障碍物”等自身状态或周围状态、以及来自用户的命令或动作，并将识别结果输出到应用层41。

参照图12，应用层41由5个模型构成，即动作模型库70、动作切换模块71、学习模块72、感情模块73以及本能模块74。

参照图13，动作模型库70包括与“电池余量正在减少”、“摔倒爬起”、“躲避障碍物”、“表达感情”以及“检测到球”等几个与预选的条件项目对应的独立的模型。

在从输入语义转换器模块59发送来识别结果时，或者在从提供上次识别结果起经过预定时间时，动作模型参照感情模型73中保存的关联的情绪值的参数值、或本能模型74中保存的关联的情绪值的参数值，来确定下一动作。然后，动作模型将判定结果输出到动作切换模块71。

其中，在本实施例中，各个动作模型将称为“有限概率自动机”的算法用作确定下一动作的技术。该有限概率自动机用于根据对连接图14所示的节点NODE₀至NODE_n的圆弧ARC₁至ARC_n-1设置的转移概率P₁至P_n，来确定从节点NODE₀至NODE_n中的一个节点转移到节点NODE₀至NODE_n中的哪个节点。

具体地说，每个动作模型对每个节点NODE₀至NODE_n包括图15所示的状态转移表80，分别形成与NODE₀至NODE_n对应的自己的动作模型。

在该状态转移表80中，在“输入事件名”栏中按优先级列出作为每个节点NODE₀至NODE_n的转移条件的输入事件(识别结果)，在“数据名”和“数据范围”的关联项目中表述转移条件的其他条件。

这样，在图15的状态转移表80所示的NODE₁₀₀中，如果给出识别结果“检测到球(“球(BALL)”)”或识别结果“检测到障碍物(“障碍物(OBSTACLE)”)”，则与识别结果一起给出的范围为“0至1000的球尺寸(“尺寸(SIZE)”)”或“范围为0至100的障碍物距离”等数据分别表示转移到其他节点的条件。

此外，对于当前节点NODE₁₀₀，在没有识别结果的输入，但是在动作模型周期性地参照的感情模型73和本能模型74中保存的各种情绪和欲望的参数中，感情模型73中保存的参数“喜悦”、“惊奇”以及“悲哀”之一的范围为“50至100”时，转移到其他节点。

此外，在状态转移表80中，在“转移到其他节点的概率”项目的“转移目的节点”行中列出可以从节点NODE₀至NODE_n转移到的节点名。在“转移到其他节点的概率”项目中的相应位置上表述在满足“输入事件名”、“数据名”以及“数据范围”栏中表述的所有条件时可以转移到其他节点NODE₀至NODE_n的概率，而在“转移到其他节点的概率”项目中的“输出行为”行中表述在转移到NODE₀至NODE_n时输出的动作。其中，“转移到其他节点的概率”项目中的各行概率值的总和是100％。

这样，在图15的状态转移表80中表达的NODE₁₀₀中，如果给出的识别结果是“检测到球(BALL)”并且球的尺寸(SIZE)在“0至1000的范围”内，则可以以“30％”的概率转移到“NODE₁₂₀(节点120)”，然后输出动作“ACTION1”。

每个动作模型由状态转移表80中表述的一系列节点NODE₀至NODE_n形成，使得在已从输入语义转换器模块59给出识别结果时，利用节点NODE₀至NODE_n的相应的状态转移表来随机地确定下一行为，并且将这样确定的结果输出到动作切换模块71。

图12所示的动作切换模块71选择预定优先级最高的从动作模型输出的动作，并且向中间件层40的输出语义转换模块68发出执行选择出的动作的命令。以下将该命令称为动作命令。在本实施例中，给定的动作模型在图13中的位置越低，则其优先级越高。

此外，动作切换模块71在动作完成后根据输出语义转换模块68提供的动作完成信息，向学习模块72、感情模块73、本能模块74通知动作结束。

另一方面，在输入语义转换器模块59提供的识别结果中，向学习模块72提供作为“击打”或“抚摸”等来自用户的动作而接收到的训练(teaching)的识别结果。

学习模块72根据这些识别结果和来自动作切换模块71的通知，来改变动作模型库70中的相应的动作模型的相应的转移概率，使得动作的发生概率根据机器人是否被“击打(叱责)”或“抚摸(赞扬)”来分别降低或提高。

另一方面，感情模块73对“喜悦”、“悲哀”、“愤怒”、“惊奇”、“厌恶”以及“害怕”这6种情绪分别保存表示情绪强度的参数。感情模块73根据来自输入语义转换器模块59的“被击打”或“被抚摸”等指定的识别结果、经过的时间以及来自动作切换模块71的通知，来周期性地更新这些情绪的参数值。

具体地说，感情模型73按照下式(1)，由根据输入语义转换器模块59提供的识别结果、机器人装置1采取的动作、从上次更新起经过的时间等计算出的情绪的变化量ΔE[t]、情绪的当前参数值E[t]、以及表示情绪灵敏度的系数k_e，来计算下一周期的参数值E[t+1]。

E[t+1]＝E[t]+k_e×ΔE[t] (1)

并且用它来替换情绪的当前参数值E[t]以更新情绪的参数值。感情模型73类似地更新所有情绪的参数值。

其中，确定各个识别结果或来自输出语义转换模块68的通知对各种情绪的变化量ΔE[t]的影响程度，例如识别结果“被击打”或“被抚摸”分别明显影响“愤怒”情绪的参数值变化量ΔE[t]或“喜悦”情绪的参数值变化量ΔE[t]。

来自输出语义转换模块68的通知可以被称为动作反馈信息(动作完成信息)，是关于动作发生结果的信息。感情模型73还使感情随该信息而改变。例如，“犬吠”动作降低愤怒的感情级别。其中，还将输出语义转换模块68的通知输入到学习模块72，使得学习模块72根据该通知来改变动作模型的相应的转移概率。

其中，可以通过动作切换模块71的输出来反馈动作结果(感情加上动作)。

另一方面，本能模型74对4种相互独立的欲望即“兴奋”欲望、“爱慕”欲望、“食欲”以及“好奇心”分别保存表达欲望强度的参数。本能模型74根据输入语义转换器模块59给出的识别结果、经过的时间以及来自动作切换模块71的通知来周期性地更新这些欲望的参数值。

具体地说，对于“兴奋”欲望、“爱慕”欲望以及“好奇心”，本能模型74使用下式(2)，由通过预定的计算式根据例如识别结果、经过的时间以及来自输出语义转换模块68的通知而计算出的欲望的变化量ΔI[k]、欲望的当前参数值I[k]以及表示欲望灵敏度的系数k_i，来计算这些欲望在下一周期的参数值I(k+1)：

I[k+1]＝I[k]+k_i×ΔI[k] (2)

并且用计算结果来替换欲望的当前参数值I[k]以更新欲望的参数值。本能模型74类似地更新“食欲”以外的各种欲望的参数值。

其中，确定例如识别结果和来自输出语义转换模块68的通知对各种欲望的参数值的变化量ΔI[k]的影响程度，例如来自输出语义转换模块68的通知明显影响“疲劳”的参数值的变化量ΔI[k]。

其中，控制各种情绪和欲望(本能)的参数值在0至100的范围内变化，同时对各种情绪和欲望分别设置各个系数ke和ki的值。

另一方面，如图11所示，中间件层40的输出语义转换模块68将如上所述应用层41的动作切换模块71给出的“前进”、“快乐”、“哭喊”或“跟踪(球)”等抽象动作命令提供给输出系统69的信号处理模块61至67。

在给出动作命令时，信号处理模块61至67生成伺服命令值以发送到关联的致动器251至25n(图2)来采取动作，生成声音的语音数据以从扬声器24(图2)输出，或者生成驱动数据以发送到作为眼睛的LED，并且依次通过机器人服务器对象32的虚拟机器人33和信号处理电路14(图2)，将这些数据依次输出到关联的致动器251至25n、扬声器24或LED。

这样，机器人装置1能够根据控制程序，响应其自身状态(内部状态)和周围状态(外部状态)来采取自主动作。这样，可以使没有用于执行上述字符识别的程序的机器人装置读入用于执行下述处理的控制程序来执行图7所示的字符识别处理：通过语音识别处理根据周围声音来识别语音，根据识别出的语音来确定通过字符识别处理由图像提取出的字符的发音信息。

这种控制程序通过以机器人装置1可读的形式记录的记录媒体来提供。记录控制程序的记录媒体例如可以是磁带、软盘(floppy(注册商标)disc)或磁卡等磁可读记录媒体，或CD-ROM、MO、CD-R或DVD等光可读记录媒体。记录媒体还包括半导体存储器、长方形或正方形等任意形状的所谓的存储卡、或IC卡。控制程序还可以通过例如因特网来提供。

这些控制程序例如由专用读入驱动器或个人计算机来重现，以便通过有线连接或无线路径传输到机器人装置1以读入其中。如果设有用于IC卡等小型记录媒体的驱动器，则机器人装置1能够直接从记录媒体读出控制程序。机器人装置1还能够从存储卡28读入控制程序。

应该指出，本发明不限于上述实施例，在不脱离其范围的情况下可以进行变更。尽管在本实施例中描述了四足行走的机器人装置，它也可以双腿行走。此外，运动部件不限于腿运动系统。

现在详细说明本发明的变形——人形机器人。图16、17分别示出从正面和背面看到的人形机器人装置200。图18示意性地示出人形机器人装置200固有的关节自由度的结构。

参照图16，人形机器人装置200由机器人行走所用的左右下肢201L、201R、躯干202、左右上肢203L、203R、以及头单元204构成。

左右下肢201L、201R由大腿205L、205R、膝关节206L、206R、小腿207L、207R、脚踝208L、208R以及脚面209L、209R构成，并且通过臀关节201L、201R连接到躯干202的大致最下端。左右上肢203L、203R由上臂211L、211R、肘关节212L、212R以及前臂213L、213R构成，并且分别连接到躯干202的左右上边缘的左右肩关节214L、214R。头单元204被连接到躯干202的最上端的大致中央的颈关节255。

头单元204有3个自由度，即支持头单元的颈关节的左右摇摆轴(yawaxis)302、俯仰轴(pitch axis)303以及转动轴(roll axis)304。

臂关节由肩关节俯仰轴308、肩关节转动轴309、上臂左右摇摆轴310、肘关节俯仰轴311、前臂左右摇摆轴312、腕关节俯仰轴313、腕关节转动轴314以及手单元315构成。手单元315实际上是由多个手指构成的多关节多自由度结构。然而，手单元315的运动对人形机器人装置200的方向控制或行走控制的影响很小，所以这里假设手单元的自由度为零。这样，各个臂单元分别有7个自由度。

躯干具有3个自由度，即躯干俯仰轴305、躯干转动轴306以及躯干左右摇摆轴307。

形成下肢的各个腿由臀关节左右摇摆轴316、臀关节俯仰轴317、臀关节转动轴318、膝关节俯仰轴319、踝关节俯仰轴320、踝关节转动轴321以及脚单元322构成。在本说明书中，臀关节俯仰轴317和臀关节转动轴318的交叉点限定了人形机器人装置200的臀关节位置。与脚单元322对应的人的脚实际上是多关节多自由度结构，然而人形机器人装置200的脚的自由度为零。这样，每个脚单元具有6个自由度。

综上所述，人形机器人装置200总共具有3+7×2+3+6×2＝32个自由度。应该指出，娱乐型人形机器人装置200的自由度数不限于32，而是可以根据设计或准备的约束条件或所需的特定设计参数来适当增加或减少自由度数、即关节数。

实际上，人形机器人装置200拥有的上述各个自由度由致动器来实现。根据外形不能过度臃肿和双腿行走的不稳定结构的方向控制的要求，致动器最好是小型和轻型的。

图19示意性地示出人形机器人装置200的控制系统结构。如图所示，人形机器人装置200包括：代表人的四肢的结构单元330、340、350L/R、360L/R；以及用于进行自适应控制来实现各个结构单元之间的协调运动的控制单元380。应该指出，L和R分别是表示左和右的后缀。

人形机器人装置200的整体运动由控制单元380综合控制，控制单元380包括：未图示的主控制器381，由CPU(中央处理单元)或存储器等主要电路元件构成；以及外围电路382，包括未图示的电源电路、以及未图示的用于交换命令的接口。对控制单元380的安装位置没有特别的限制。尽管在本实施例中将控制单元380安装在躯干单元上，但是也可以将其安装在头单元330上。或者，也可以将控制单元380安排在人形机器人装置200之外，通过有线或无线路径与人形机器人装置200的主要部分进行通信。

图19所示的人形机器人装置200的各个关节的自由度由关联的致动器来实现。即，头单元330设有颈关节左右摇摆轴致动器A₂、颈关节俯仰轴致动器A₃以及颈关节转动轴致动器A₄，分别表达颈关节左右摇摆轴302、颈关节俯仰轴303以及颈关节转动轴304。

头单元330还设有：CCD(电荷耦合器件)摄像机，用于对外部状态进行成像；距离传感器，用于测量到前方物体的距离；话筒，用于拾取外部声音；扬声器，用于输出语音；以及接触传感器，用于检测用户的抚摸或击打等身体动作的压力。

躯干单元340设有躯干左右摇摆轴致动器A₅、躯干俯仰轴致动器A₆以及躯干转动轴致动器A₇，分别表达躯干左右摇摆轴305、躯干俯仰轴306以及躯干转动轴307。此外，躯干单元340设有作为电源的电池，用于启动人形机器人装置200的操作。该电池由可充电电池形成。

臂单元350L/R被分割为上臂单元351L/R、肘关节单元352L/R以及前臂单元353L/R。具体地说，臂单元350L/R设有肩关节俯仰轴致动器A₈、肩关节转动轴致动器A₉、上臂左右摇摆轴致动器A₁₀、肘关节俯仰轴致动器A₁₁、肘关节转动轴致动器A₁₂、腕关节俯仰轴致动器A₁₃以及腕关节转动轴致动器A₁₄，分别表达肩关节俯仰轴308、肩关节转动轴309、上臂左右摇摆轴310、肘关节俯仰轴311、肘关节转动轴312、腕关节俯仰轴313以及腕关节转动轴314。

腿单元360L/R被分割为大腿单元361L/R、膝单元362L/R以及小腿单元363L/R。具体地说，腿单元360L/R设有臀关节左右摇摆轴致动器A₁₆、臀关节俯仰轴致动器A₁₇、臀关节转动轴致动器A₁₈、膝关节俯仰轴致动器A₁₉、踝关节俯仰轴致动器A₂₀以及踝关节转动轴致动器A₂₁，分别表达臀关节左右摇摆轴316、臀关节俯仰轴317、臀关节转动轴318、膝关节俯仰轴319、踝关节俯仰轴320以及踝关节转动轴321。每个致动器A₂、A₃...由装入在直接连接到齿轮上的电机单元上的小型伺服致动器形成，其中伺服控制系统是单片构成的，装入在电机单元上。

对于各个结构单元，即头单元330、躯干单元350以及各个腿单元360，分别设有致动器驱动控制器的子控制器335、345、355L/R以及365L/R。还设有用于检测腿单元360L、360R的脚底是否接触地面的着地传感器391、392，而在躯干单元340中设有用于测量方向的方向传感器393。

着地传感器391、392由例如设在脚底的接近(proximity)传感器和/或微型开关形成。方向传感器393例如由加速度传感器和陀螺(gyro)传感器组合而成。

根据来自着地传感器391、392的输出，可以确定左右腿在行走或奔跑过程中当前处于站立状态还是处于跑动状态。此外，根据来自方向传感器393的输出，可以提取躯干部分的斜度或方向。

主控制器381可以响应传感器391至393的输出来动态地修正控制目标。更具体地说，主控制器381能够进行子控制器335、345、355L/R以及365L/R的自适应控制来实现人形机器人装置200的全身运动样式，其中协调地驱动上肢、躯干和下肢。

至于人形机器人装置200的全身运动，将用于设置脚运动、ZMP(zeromoment point，零力矩点)轨迹、躯干运动、上肢运动以及腰部高度和用于跟随设置内容来指示运动的命令传送到各个子控制器335、345、355L/R以及365L/R。各个子控制器335、345、...解释从主控制器381接收到的命令并将驱动控制信号输出到致动器A₂、A₃...。“ZMP”是指在行走过程中由于地面的反作用而使地面上力矩为零的点，而“ZMP轨迹”是指在人形机器人装置200行走期间ZMP运动的轨迹。

在行走过程中，行走系统由于重力和加速度而将重力和惯性力及其力矩作用到地面上。所谓的“达朗伯定律(D′Alembert′s prnciple)”指出，上述重力和惯性力及其力矩与地面对行走系统的反作用力及其力矩相互平衡。作为力学推导的结论，俯仰轴力矩和转动轴力矩等于零的点、或“ZMP(zero momentpoint)”存在于脚底和地面的着地点定义的支撑多边形的一个边上或内侧。

迄今对有腿可移动机器人的方向稳定性控制和在行走过程中防止摔倒的大多数方案都将该ZMP作为准则来确认行走稳定性。根据ZMP准则来推导双腿行走样式有下述优点：能够预定脚底着地点，容易考虑为了满足地面形状而对脚底施加的运动约束条件。此外，将ZMP用作确认行走稳定性的准则意味着不是将力而是将轨迹作为运动控制的目标值对待，从而增加技术可行性。其中，应用ZMP概念和将ZMP用作确认移动机器人稳定性的准则可参见Miomir Vukobratovic，LEEGED LOCOMOTIVE ROBOTS(Ichiro Kato et al.，“Movable robot and artificial leg”，Nikkan Kogyo Shimbun-sha((日本)日刊工业新闻社)出版。

总之，与四足机器人相比，人形机器人装置等双腿可移动机器人在行走过程中重心高，ZMP稳定区窄。因此，地面状态的改变带来的方向控制问题对双腿可移动机器人特别关键。

对于上述人形机器人装置200，子控制器335、345、...解释从主控制器381接收到的命令并且将驱动控制信号输出到各个致动器A₂、A₃...以控制各个单元的驱动。这使得人形机器人装置200能够稳定地转移到目标方向以使人形机器人装置能够沿稳定的方向行走。

此外，人形机器人装置200中的控制单元380不仅如上所述进行方向控制，而且综合处理来自加速度传感器、接触传感器或着地形态传感器等各种传感器的图像信息、来自CCD摄像机的图像信息或来自话筒的语音信息。在控制单元380中，加速度传感器、接触传感器或着地形态传感器等各种传感器、各种致动器、CCD摄像机以及电池经关联的集线器连接到主控制器381。

主控制器381依次获取上述各个传感器提供的传感器数据或图像数据，并将这些数据通过内部接口依次存储到DRAM的预定位置上。主控制器381依次获取电池提供的电池余量数据，并将该数据存储到DRAM的预定位置上。在主控制器381控制人形机器人装置200的运动时利用这样存储到DRAM中的传感器数据、图像数据、语音数据以及电池余量数据。

在接通人形机器人装置200的电源的初始阶段，主控制器381读出控制程序并将读出的程序存储到DRAM中。主控制器381还根据依次存储到DRAM中的各种传感器数据、图像数据、语音数据以及电池余量数据，来确认自我和周围状态，或用户是否已发出命令或动作。此外，主控制器381根据该状态，根据确认结果和DRAM中存储的控制程序，来确定机器人的动作，同时根据确定结果使致动器按需要被驱动以使人形机器人装置200采取体态、手势或运动等动作。

这样，人形机器人装置200能够根据控制程序来确认其自身状态和周围状态，以响应来自用户的命令和动作来自主行动。人形机器人装置200还根据由提取出的字符推导出的读音与拾音话筒拾取的语音的匹配，来确定根据由CCD摄像机拍摄的图像提取出的字符的发音信息(读音)。其结果是，改善了人形机器人装置200的语音识别率，从而能够向语音识别词典中登录新词。

产业上的可利用性

如上所述，本发明的机器人装置包括一种机器人装置，根据机器人装置的内部状态来自主行动，包括：语音识别存储部件，作为语音识别词典，存储有单词和其发音信息之间的对应关系；单词语音表达存储部件，作为单词读音属性表，存储有单词和其单词语音表达字母之间的对应关系；成像部件，用于拍摄物体；图像处理字符识别单元，用于根据成像部件拍摄的图像来提取字符；拾音部件，用于采集周围声音；语音识别部件，用于根据拾音部件拾取的声音来识别语音；读音发信信息生成单元，用于根据单词读音属性表，向图像处理字符识别单元提取出的字符赋予多个单词语音表达字母，并且用于对这样赋予的多个单词语音表达字母中的每个分别生成发音信息和与读音对应的语音波形；以及存储控制部件，用于将读音发信信息生成单元生成的语音波形与语音识别部件识别出的语音的语音波形进行比较，并且将最接近的语音波形新存储到语音识别词典中作为提取出的字符的发音信息。

采用本发明的机器人装置，根据单词发音表，向字符识别部件提取出的字符赋予多个语音表达字母，对赋予的多个单词语音表达字母中的每个分别生成发音信息和与发音对应的语音波形，将发音信息生成部件生成的各个语音波形与语音识别部件识别出的语音的语音波形进行比较，并且将最接近的语音波形确定为提取出的字符的发音信息。

这样，采用本发明的机器人装置，能够抑制下述原因造成的不利影响：错误识别包含单词开头部分的/s/等微弱音素的发音、周围噪声使输入音素变化、或者检测语音域失败，从而在登录新词时提高识别率。这使得能够向语音识别词典中存储正确的发音方式，从而提高作为新词登录的单词的识别率。

本发明的机器人装置包括单词信息存储部件，其中存储由单词、单词语音表达字母和单词属性作为单词读音属性表。存储控制部件对应于相应的单词属性来存储新存储的字符、和新字符的发音信息。

因此，采用本发明的机器人装置，用户无需输入应用语法规则或对话规则来输入或输出语音所需的单词属性信息，从而更容易使用该装置。此外，即使用户不通知属性信息，也能够输入，从而更容易使用该装置。

本发明的字符识别装置包括：语音识别存储部件，作为语音识别词典，存储有单词和其发音信息之间的对应关系；单词语音表达存储部件，作为单词读音属性表，存储有单词和其单词语音表达字母之间的对应关系；成像部件，用于拍摄物体；图像处理字符识别单元，用于根据成像部件拍摄的图像来提取预定的图像图案；拾音部件，用于采集周围声音；语音识别部件，用于根据拾音部件拾取的声音来识别语音；读音发信信息生成单元，用于根据单词读音属性表，向图像处理字符识别单元提取出的字符赋予多个单词语音表达字母，并且用于对这样赋予的多个单词语音表达字母中的每个分别生成发音信息和与读音对应的语音波形；以及存储控制部件，用于将读音发信信息生成单元生成的语音波形与语音识别部件识别出的语音的语音波形进行比较，并且将最接近的语音波形新存储到语音识别词典中作为提取出的字符的发音信息。

这样，采用本发明的字符识别装置，能够抑制下述原因造成的不利影响：错误识别包含单词开头部分的/s/等微弱音素的发音、周围噪声使输入音素变化、或者检测语音域失败，从而在登录新词时提高识别率。这使得能够向语音识别词典中存储正确的发音方式，从而提高作为新词登录的单词的识别率。

本发明的字符识别装置包括单词信息存储部件，其中存储由单词、单词语音表达字母和单词属性作为单词读音属性表。存储控制部件对应于相应的单词属性来存储新存储的字符、和新字符的发音信息。

因此，采用本发明的字符识别装置，用户无需输入应用语法规则或对话规则来输入或输出语音所需的单词属性信息，从而更容易使用该装置。此外，即使用户不知道属性信息，也能够输入，从而更容易使用该装置。

本发明的图像识别方法包括：成像步骤，拍摄物体；图像识别步骤，根据成像步骤拍摄的图像来提取字符；拾音步骤，用于采集周围声音；语音识别步骤，根据拾音步骤获取的声音来识别语音；读音信息生成步骤，根据单词读音属性表，向图像识别步骤提取出的字符赋予多个单词语音表达字母，该单词读音属性表存储有单词和单词的语音表达字母之间的对应关系；并且对这样赋予的多个单词语音表达字母中的每个分别生成发音信息和与读音对应的语音波形；以及存储控制步骤，将读音信息生成步骤生成的语音波形与语音识别步骤识别出的语音的语音波形进行比较，并且将最接近的语音波形新存储到语音识别词典中作为提取出的字符的发音信息。

这样，采用本发明的字符识别方法，能够抑制下述原因造成的不利影响：错误识别包含单词开头部分的/s/等微弱音素的发音、周围噪声使输入音素变化、或者检测语音域失败，从而在登录新词时提高识别率。这使得能够向语音识别词典中存储正确的发音方式，从而提高作为新词登录的单词的识别率。

本发明的字符识别方法包括单词信息存储部件，其中存储由单词、单词语音表达字母和单词属性作为单词读音属性表。存储控制部件对应于相应的单词属性来存储新存储的字符、和新字符的发音信息。

因此，采用本发明的字符识别方法，用户无需输入应用语法规则或对话规则来输入或输出语音所需的单词属性信息，从而更容易使用该装置。此外，即使用户不知道属性信息，也能够输入，从而更容易使用该装置。

此外，本发明的控制程序用来使机器人装置执行：成像步骤，拍摄物体；图像识别步骤，根据所述成像步骤拍摄的图像来提取字符；拾音步骤，用于采集周围声音；语音识别步骤，根据所述拾音步骤获取的声音来识别语音；读音信息生成步骤，根据单词读音属性表，向所述字符识别步骤提取出的字符赋予多个单词语音表达字母，该单词读音属性表存储有单词和所述单词的语音表达字母之间的对应关系；并且对这样赋予的多个单词语音表达字母中的每个分别生成发音信息与读音对应的语音波形；以及存储步骤，将所述读音信息生成步骤生成的语音波形与所述语音识别步骤识别出的语音的语音波形进行比较，并且将最接近的语音波形新存储到语音识别词典中作为所述提取出的字符的发音信息。

这样，采用本发明的控制程序，能够抑制下述原因造成的不利影响：错误识别包含单词开头部分的/s/等微弱音素的发音、周围噪声使输入音素变化、或者检测语音域失败，从而在登录新词时提高识别率。这使得能够向语音识别词典中存储正确的发音方式，从而提高作为新词登录的单词的识别率。

通过将上述控制程序记录在记录媒体上并以该形式来提供，能够提高可读入该记录媒体、包括图像处理字符识别单元和语音识别部件的电子设备登录新词的识别率。由于可以存储正确的发音方式，所以能够提高作为新词登录的单词的识别率。

Claims

1、一种机器人装置，根据机器人装置的内部状态来自主行动，包括：

语音识别存储部件，作为语音识别词典，存储有单词和其发音信息之间的对应关系；

单词语音表达存储部件，作为单词读音属性表，存储有单词和其单词语音表达字母之间的对应关系；

成像部件，用于拍摄物体；

图像处理字符识别单元，用于根据所述成像部件拍摄的图像来提取字符；

拾音部件，用于采集周围声音；

语音识别部件，用于根据所述拾音部件拾取的声音来识别语音；

读音信息生成部件，用于根据所述单词读音属性表，向所述图像处理字符识别单元提取出的字符赋予多个单词语音表达字母，并且用于对这样赋予的多个单词语音表达字母中的每个分别生成与读音对应的发音信息和语音波形；以及

存储控制部件，用于将所述读音信息生成部件生成的语音波形与所述语音识别部件识别出的语音的语音波形进行比较，并且将最接近的发音信息新存储到所述语音识别词典中作为所述提取出的字符的发音信息。

2、如权利要求1所述的机器人装置，还包括：

临时存储部件，作为临时识别词典，用于临时存储根据所述图像提取出的多个字符和向所述字符赋予的多个发音之间的对应关系。

3、如权利要求1所述的机器人装置，还包括：

单词信息存储部件，作为单词读音属性表，存储有包括单词、所述单词的单词语音表达字母以及所述单词属性在内的单词信息，所述存储控制部件使所述单词属性对应于新登录的所述字符和所述字符的发音信息而存储到所述语音识别词典中。

4、如权利要求3所述的机器人装置，还包括：

对话管理部件，用于生成对所述语音识别部件识别出的语音的回答；所述对话管理部件将所述单词属性用于对该语音的回答规则。

5、如权利要求1所述的机器人装置，其中，所述语音识别部件根据隐马尔可夫模型法来识别语音。

6、一种字符识别装置，包括：

成像部件，用于拍摄物体；

拾音部件，用于采集周围声音；

读音信息生成部件，用于根据所述单词读音属性表，向所述图像处理字符识别单元提取出的字符赋予多个单词语音表达字母，并且用于对这样赋予的多个单词语音表达字母中的每个分别生成发音信息和与读音对应的语音波形；以及

存储控制部件，用于将所述读音信息生成部件生成的语音波形与所述语音识别部件识别出的语音的语音波形进行比较，并且将最接近的语音波形新存储到所述语音识别词典中作为所述提取出的字符的发音信息。

7、如权利要求6所述的字符识别装置，还包括：

临时存储部件，作为临时识别词典，用于临时存储根据所述图像提取出的多个字符和向所述字符赋予的多个发音信息之间的对应关系。

8、如权利要求6所述的字符识别装置，还包括：

单词信息存储部件，作为单词读音属性表，存储有包括单词、所述单词的单词语音表达字母以及所述单词的属性在内的单词信息，所述存储控制部件使所述单词属性对应于新登录的所述字符和所述字符的发音信息而存储到所述语音识别词典中。

9、如权利要求8所述的字符识别装置，还包括：

10、如权利要求6所述的字符识别装置，其中，所述语音识别部件根据隐马尔可夫模型法来识别语音。

11、一种字符识别方法，包括：

成像步骤，拍摄物体；

图像识别步骤，根据所述成像步骤拍摄的图像来提取字符；

拾音步骤，用于采集周围声音；

语音识别步骤，根据所述拾音步骤获取的声音来识别语音；

读音信息生成步骤，根据单词读音属性表，向所述图像识别步骤提取出的字符赋予多个单词语音表达字母，该单词读音属性表存储有单词和所述单词的语音表达字母之间的对应关系；并且对这样赋予的多个单词语音表达字母中的每个分别生成发音信息和与读音对应的语音波形；以及

存储控制步骤，将所述读音信息生成步骤生成的语音波形与所述语音识别步骤识别出的语音的语音波形进行比较，并且将最接近的语音波形新存储到所述语音识别词典中作为所述提取出的字符的发音信息。

12、如权利要求11所述的字符识别方法，还包括：

临时存储步骤，临时存储根据所述图像提取出的多个字符和向所述字符赋予的多个发音信息之间的对应关系作为临时识别词典。

13、如权利要求11所述的字符识别方法，其中，在所述存储控制步骤中，将单词属性对应于新登录的所述字符和所述字符的发音信息而存储到所述语音识别词典中。

14、如权利要求13所述的字符识别方法，还包括：

对话管理步骤，用于生成对所述语音识别步骤识别出的语音的回答；所述对话管理步骤将所述单词属性用于对该语音的回答规则。

15、如权利要求11所述的字符识别方法，其中，所述语音识别步骤根据隐马尔可夫模型法来识别语音。