JP2001154685A - Device and method for voice recognition and recording medium - Google Patents

Device and method for voice recognition and recording medium

Info

Publication number
JP2001154685A
JP2001154685A JP34046899A JP34046899A JP2001154685A JP 2001154685 A JP2001154685 A JP 2001154685A JP 34046899 A JP34046899 A JP 34046899A JP 34046899 A JP34046899 A JP 34046899A JP 2001154685 A JP2001154685 A JP 2001154685A
Authority
JP
Japan
Prior art keywords
voice recognition
robot
unit
dictionary
growth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP34046899A
Other languages
Japanese (ja)
Inventor
Katsuki Minamino
活樹 南野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP34046899A priority Critical patent/JP2001154685A/en
Priority to US09/723,512 priority patent/US7313524B1/en
Publication of JP2001154685A publication Critical patent/JP2001154685A/en
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Abstract

PROBLEM TO BE SOLVED: To improve entertaining capability of a robot by realizing a voice recognition process that changes in accordance with the growing state of the robot. SOLUTION: A growing score setting section 46 sets a growing score for each word registered in the word dictionary of a dictionary storage section 44 based on the growing state of the robot. A matching section 42 conducts voice recognition with respect to the words registered in the dictionary while considering the growing scores set to the words.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、音声認識装置およ
び音声認識方法、並びに記録媒体に関し、音声認識機能
を有するロボットに用いて好適な音声認識装置および音
声認識方法、並びに記録媒体に関する。
The present invention relates to a voice recognition device, a voice recognition method, and a recording medium, and more particularly to a voice recognition device, a voice recognition method, and a recording medium suitable for a robot having a voice recognition function.

【0002】[0002]

【従来の技術】例えば、音響モデル、辞書、文法などに
基づいて、音響スコアおよび言語スコアを求め、入力音
声の音声認識結果としての単語系列が決定される音声認
識技術が知られている。また、ある命令信号に対応し
て、ロボットの動作を制御する制御方法が、FA(Factor
y Automation)などのロボットに用いられている。さら
に、これらの音声認識技術およびロボット制御技術を組
み合わせ、音声認識結果に基づいて、ロボットの動作を
制御するシステムも実現されている。そのようなシステ
ムとしては、例えば、荷物の仕分けにおいて、音声認識
を利用して荷物の振り分け先を変更するシステムがあ
る。なお、ロボットの他、コンピュータのコントロール
(コマンド入力等)などを、音声認識を利用して行うこ
とも、近年広く行われるようになってきている。
2. Description of the Related Art For example, there is known a speech recognition technique in which an acoustic score and a linguistic score are obtained based on an acoustic model, a dictionary, a grammar, and the like, and a word sequence is determined as a speech recognition result of an input speech. In addition, the control method for controlling the operation of the robot in response to a certain command signal is called FA (Factor
y Automation). Further, a system that controls the operation of the robot based on the result of the voice recognition by combining the voice recognition technology and the robot control technology has been realized. As such a system, for example, there is a system in which sorting of packages is changed using voice recognition in sorting of packages. In addition, in addition to the robot, control of a computer (command input or the like) or the like using voice recognition has been widely performed in recent years.

【0003】また、上述のようないわゆる産業用ロボッ
トの他、疑似ペットとしての、エンタテイメント用のロ
ボット(ぬいぐるみ状のものを含む)においても、使用
者の発話を音声認識し、その音声認識結果に基づいて、
各種の行動を起こすものが製品化されつつある。
[0003] In addition to the above-mentioned industrial robots, a robot for entertainment (including a stuffed animal) as a pseudo pet also recognizes a user's utterance as a speech and outputs the speech recognition result. On the basis of,
Products that perform various actions are being commercialized.

【0004】[0004]

【発明が解決しようとする課題】ところで、特に、エン
タテイメント用のロボットについては、実際のペットが
成長していくのと同様の感覚を、使用者に享受させるこ
とが望まれる。即ち、例えば、最初は、使用者の発話を
理解(音声認識)できないが、成長するにつれて、使用
者の発話を徐々に理解することができるようにすれば、
ロボットの娯楽性を格段的に向上させることができる。
In particular, it is desired for a robot for entertainment to allow the user to enjoy the same feeling as a real pet growing. That is, for example, at first, the utterance of the user cannot be understood (speech recognition), but as the user grows up, the utterance of the user can be gradually understood.
The entertainment of the robot can be significantly improved.

【0005】本発明は、このような状況に鑑みてなされ
たものであり、ロボットの成長等の状態にあわせて変化
する音声認識処理を行うことができるようにするもので
ある。
The present invention has been made in view of such a situation, and it is an object of the present invention to perform a voice recognition process that changes in accordance with the state of a robot, such as growth.

【0006】[0006]

【課題を解決するための手段】本発明の音声認識装置
は、音声を認識する音声認識手段と、ロボットの状態に
基づいて、音声認識手段を制御する制御手段とを備える
ことを特徴とする。
According to the present invention, there is provided a voice recognition apparatus comprising: voice recognition means for recognizing voice; and control means for controlling the voice recognition means based on a state of the robot.

【0007】制御手段には、ロボットの成長、感情、ま
たは本能の状態に基づいて、音声認識手段を制御させる
ことができる。
The control means can control the voice recognition means based on the growth, emotion, or state of the instinct of the robot.

【0008】また、制御手段には、ロボットの状態に基
づいて、音声認識手段の音声認識精度を変更させること
ができる。
The control means can change the speech recognition accuracy of the speech recognition means based on the state of the robot.

【0009】音声認識手段には、音声認識の対象とする
語彙が登録された辞書を記憶する辞書記憶手段を設け、
制御手段には、辞書に登録された語彙に対して、ロボッ
トの状態に対応する重みを付して音声認識を行うよう
に、音声認識手段を制御させることができる。
The speech recognition means includes dictionary storage means for storing a dictionary in which vocabularies to be subjected to speech recognition are registered.
The control means can control the voice recognition means so that the vocabulary registered in the dictionary is subjected to voice recognition with a weight corresponding to the state of the robot.

【0010】また、音声認識手段には、音声認識の対象
とする語彙が分けて登録された複数の辞書を記憶する辞
書記憶手段を設け、制御手段には、複数の辞書に対し
て、ロボットの状態に対応する重みを付して音声認識を
行うように、音声認識手段を制御させることができる。
The voice recognition means includes dictionary storage means for storing a plurality of dictionaries in which vocabularies to be subjected to voice recognition are separately registered. The voice recognition means can be controlled so that voice recognition is performed with weights corresponding to the states.

【0011】さらに、音声認識手段には、音声認識の対
象とする語彙が、他の語彙と対応付けられて登録された
辞書を記憶する辞書記憶手段を設け、制御手段には、ロ
ボットの状態に基づいて、辞書において、音声認識結果
としての語彙に対応付けられている他の語彙を、最終的
な音声認識結果として出力するように、音声認識手段を
制御させることができる。
Further, the speech recognition means is provided with a dictionary storage means for storing a dictionary in which the vocabulary to be subjected to speech recognition is registered in association with another vocabulary, and the control means is provided for controlling the state of the robot. Based on the dictionary, the speech recognition unit can be controlled so that another vocabulary associated with the vocabulary as the speech recognition result is output as the final speech recognition result.

【0012】辞書には、音声認識の対象とする語彙を、
その語彙と音響的に類似しているまたは意味的に関連す
る他の語彙と対応付けて登録しておくことができる。
In the dictionary, vocabulary to be subjected to speech recognition is
The vocabulary can be registered in association with another vocabulary acoustically similar or semantically related to the vocabulary.

【0013】音声認識手段には、音声認識の対象とする
語彙が登録される辞書を記憶する辞書記憶手段を設け、
制御手段には、ロボットの状態に基づいて、辞書に登録
可能な語彙の数を制御させることができる。
[0013] The speech recognition means is provided with a dictionary storage means for storing a dictionary in which vocabularies to be subjected to speech recognition are registered.
The control means can control the number of words that can be registered in the dictionary based on the state of the robot.

【0014】ロボットは、音声認識手段が出力する音声
認識結果に基づいて、所定の行動を起こすものとするこ
とができる。
[0014] The robot can take a predetermined action based on the voice recognition result output by the voice recognition means.

【0015】本発明の音声認識方法は、音声を認識する
音声認識ステップと、ロボットの状態に基づいて、音声
認識ステップを制御する制御ステップとを備えることを
特徴とする。
The voice recognition method according to the present invention includes a voice recognition step for recognizing voice, and a control step for controlling the voice recognition step based on a state of the robot.

【0016】本発明の記録媒体は、音声を認識する音声
認識ステップと、ロボットの状態に基づいて、音声認識
ステップを制御する制御ステップとを備えるプログラム
が記録されていることを特徴とする。
[0016] The recording medium of the present invention is characterized in that a program comprising a voice recognition step for recognizing voice and a control step for controlling the voice recognition step based on the state of the robot is recorded.

【0017】本発明の音声認識装置および音声認識方
法、並びに記録媒体においては、ロボットの状態に基づ
いて、音声認識処理が制御される。
In the voice recognition device, the voice recognition method, and the recording medium according to the present invention, voice recognition processing is controlled based on the state of the robot.

【0018】[0018]

【発明の実施の形態】図1は、本発明を適用したロボッ
トの一実施の形態の外観構成例を示しており、図2は、
その電気的構成例を示している。
FIG. 1 shows an example of the appearance of a robot according to an embodiment of the present invention, and FIG.
An example of the electrical configuration is shown.

【0019】本実施の形態では、ロボットは、犬形状の
ものとされており、胴体部ユニット2には、その前端に
頭部ユニット3が配設され、また、その前後左右の各隅
部には、それぞれ、大腿部ユニット4A,4B,4C,
4Dおよび脛部ユニット5A,5B,5C,5Dからな
る脚部ユニット6A,6B,6C,6Dが取り付けられ
ている。さらに、胴体部ユニット2の後端には、尻尾ユ
ニット1が取り付けられている。
In the present embodiment, the robot has a dog shape, a head unit 3 is disposed at the front end of the body unit 2, and a head unit 3 is provided at each of the front, rear, left and right corners. Are the thigh units 4A, 4B, 4C,
A leg unit 6A, 6B, 6C, 6D composed of 4D and shin unit 5A, 5B, 5C, 5D is attached. Further, a tail unit 1 is attached to a rear end of the body unit 2.

【0020】尻尾ユニット1と胴体部ユニット2、頭部
ユニット3と胴体部ユニット2、大腿部ユニット4A乃
至4Dそれぞれと胴体部ユニット2、および大腿部ユニ
ット4A乃至4Dそれぞれと脛部ユニット5A乃至5D
それぞれを連結する各関節機構には、アクチュエータと
してのモータ71,72,・・・,7Nが配設されてお
り、これにより、対応するモータ71乃至7Nを駆動する
ことによって、尻尾ユニット1および頭部ユニット3
を、x軸、y軸、z軸の3軸それぞれを中心とする方向
に自在に回転させ、腿部ユニット4A乃至4Dを、x
軸、y軸の2軸それぞれを中心とする方向に自在に回転
させ、かつ脛部ユニット5A乃至5Dを、x軸の1軸を
中心とする方向に回転させ得るようになっており、これ
により、ロボットは、各種の行動を行うことができるよ
うになっている。
The tail unit 1 and the torso unit 2, the head unit 3 and the torso unit 2, the thigh units 4A to 4D and the torso unit 2, and the thigh units 4A to 4D and the shin unit 5A respectively. Through 5D
Motors 7 1 , 7 2 ,..., 7 N as actuators are provided in the respective joint mechanisms connecting the respective motors, and by driving the corresponding motors 7 1 to 7 N , Tail unit 1 and head unit 3
Is freely rotated in directions around the three axes x, y, and z axes, and the thigh units 4A to 4D are
Axis and two axes of the y-axis can be freely rotated in the directions thereof, and the shin unit 5A to 5D can be rotated in the direction of one of the x-axes. The robot is capable of performing various actions.

【0021】頭部ユニット3には、カメラ(CCD(Cha
rge Coupled Device)カメラ)8、マイク(マイクロフ
ォン)9、および圧力センサ10がそれぞれ所定位置に
配設されており、また、胴体部ユニット2は、制御部1
1を内蔵している。カメラ8では、使用者を含む周囲の
状況の画像が撮像され、マイク9では、使用者の音声を
含む周囲の音声が集音される。また、圧力センサ10で
は、使用者等によって与えられる圧力が検出される。そ
して、カメラ8により撮像された周囲の状況の画像や、
マイク9により集音された周囲の音声、圧力センサ10
により検出された、使用者により頭部に与えられた圧力
は、それぞれ画像データ、音声データ、圧力検出データ
として、それぞれ制御部11に与えられる。
The head unit 3 has a camera (CCD (Cha)
rge Coupled Device (camera) 8, a microphone (microphone) 9, and a pressure sensor 10 are respectively provided at predetermined positions, and the body unit 2 includes a control unit 1
1 is built in. The camera 8 captures an image of the surrounding situation including the user, and the microphone 9 collects surrounding sounds including the user's voice. Further, the pressure sensor 10 detects a pressure applied by a user or the like. Then, an image of the surrounding situation captured by the camera 8,
Ambient sound collected by the microphone 9, pressure sensor 10
Are supplied to the control unit 11 as image data, audio data, and pressure detection data, respectively.

【0022】各関節機構に対応する各モータ71乃至7N
については、それぞれに対応させてロータリエンコーダ
121乃至12Nが設けられており、各ロータリエンコー
ダ121乃至12Nでは、対応するモータ71乃至7Nの回
転軸の回転角度が検出される。ロータリエンコーダ12
1乃至12Nで検出された回転角度は、それぞれ角度検出
データとして制御部11に与えられる。
Each motor 7 1 to 7 N corresponding to each joint mechanism
For are rotary encoders 12 1 to 12 N are provided corresponding to each of the respective rotary encoders 12 1 to 12 N, the rotation angle of the rotating shaft of the corresponding motor 7 1 to 7 N is detected. Rotary encoder 12
The rotation angles detected at 1 to 12 N are given to the control unit 11 as angle detection data.

【0023】制御部11は、カメラ8からの画像デー
タ、マイク9からの音声データ、圧力センサ10からの
圧力検出データ、およびロータリエンコーダ121乃至
12Nそれぞれからの角度検出データに基づいて、周囲
の状況や自分の姿勢等を判断するとともに、予めインス
トールされている制御プログラムに基づいて続く行動を
決定し、その決定結果に基づいて、必要なモータ71
至7Nを駆動させるようになっている。
The control unit 11, the image data from the camera 8, based audio data from the microphone 9, a pressure detection data from the pressure sensor 10, and the angle detection data from the rotary encoder 12 1 to 12 N respectively, around as well as determine the conditions and their orientation, etc. in advance based on the installed control program determines the subsequent actions, based on the determination result, so as to drive the required motor 7 1 to 7 N I have.

【0024】これにより、ロボットは、尻尾ユニット1
や、頭部ユニット2、各脚部ユニット6A乃至6Dを動
かして所望状態にし、自律的に行動する。
Thus, the robot can move the tail unit 1
Alternatively, the user moves the head unit 2 and each of the leg units 6A to 6D to a desired state and acts autonomously.

【0025】次に、図3は、図2の制御部11の構成例
を示している。
FIG. 3 shows an example of the configuration of the control unit 11 shown in FIG.

【0026】制御部11は、CPU(Central Processi
ng Unit)20、プログラムメモリ21、RAM(Rando
m Access Memory)22、不揮発性メモリ23、インタ
フェース回路(I/F)24、およびモータドライバ2
5が、バス26を介して接続されて構成されている。
The control unit 11 has a CPU (Central Process
ng Unit) 20, program memory 21, RAM (Rando
m Access Memory) 22, nonvolatile memory 23, interface circuit (I / F) 24, and motor driver 2
5 are connected via a bus 26.

【0027】CPU(Central Processing Unit)20
は、プログラムメモリ21に記憶されている制御プログ
ラムを実行することにより、ロボットの行動を制御す
る。プログラムメモリ21は、例えば、EEPROM(E
lectrically Erasable Programmable Read Only Memor
y)等で構成され、CPU20が実行する制御プログラム
や必要なデータを記憶している。RAM22は、CPU
20の動作上必要なデータ等を一時記憶するようになっ
ている。不揮発性メモリ23は、後述するような感情/
本能モデルや、行動モデル、成長モデル、単語辞書、音
韻モデル、文法規則等の、電源がオフ状態とされた後も
保持する必要のあるデータを記憶するようになってい
る。インタフェース回路24は、カメラ8や、マイク
9、圧力センサ10、ロータリエンコーダ121乃至1
Nから供給されるデータを受信し、CPU20に供給
するようになっている。モータドライバ25は、CPU
20の制御にしたがい、モータ71乃至7Nを駆動(ドラ
イブ)するための駆動信号を、モータ71乃至7Nに供給
するようになっている。
CPU (Central Processing Unit) 20
Controls the behavior of the robot by executing a control program stored in the program memory 21. The program memory 21 is, for example, an EEPROM (E
lectrically Erasable Programmable Read Only Memor
y) and the like, and stores a control program executed by the CPU 20 and necessary data. RAM 22 is a CPU
20 temporarily stores necessary data and the like. The nonvolatile memory 23 stores an emotion /
Data such as an instinct model, a behavior model, a growth model, a word dictionary, a phonological model, a grammar rule, and the like, which need to be retained even after the power is turned off, are stored. Interface circuit 24, a camera 8 and a microphone 9, the pressure sensor 10, rotary encoder 12 1 to 1
The data supplied from 2 N is received and supplied to the CPU 20. The motor driver 25 is a CPU
Under the control of 20, a drive signal for driving the motor 7 1 to 7 N (drive), and supplies it to the motor 7 1 to 7 N.

【0028】制御部11は、CPU20において、プロ
グラムメモリ21に記憶された制御プログラムが実行さ
れることにより、機能的に、図4に示すような構成とな
って、ロボットの行動を制御する。
When the control program stored in the program memory 21 is executed by the CPU 20, the control unit 11 functionally controls the behavior of the robot as shown in FIG.

【0029】即ち、図4は、制御部11の機能的な構成
例を示している。
That is, FIG. 4 shows an example of a functional configuration of the control unit 11.

【0030】センサ入力処理部30は、外部から与えら
れる刺激や、外部の状態を、マイク9や、カメラ8、圧
力センサの出力に基づいて認識し、成長モデル部31、
感情/本能モデル部32、および行動決定部33に供給
するようになっている。なお、センサ入力処理部30
は、必要に応じて、成長モデル部31の出力を用いて処
理を行うようになっている。この点については後述す
る。
The sensor input processing unit 30 recognizes a stimulus given from the outside and an external state based on the outputs of the microphone 9, the camera 8, and the pressure sensor.
The information is supplied to the emotion / instinct model unit 32 and the action determination unit 33. The sensor input processing unit 30
Performs processing using the output of the growth model unit 31 as necessary. This will be described later.

【0031】成長モデル部31は、ロボットの成長の状
態を表す成長モデルを管理しており、センサ入力処理部
30の出力や、時間経過に基づいて、ロボットの成長状
態を変化させ、その変化後の成長状態を、センサ入力処
理部30および行動決定部33に供給するようになって
いる。
The growth model unit 31 manages a growth model representing the growth state of the robot. The growth model unit 31 changes the growth state of the robot based on the output of the sensor input processing unit 30 and the passage of time. Is supplied to the sensor input processing unit 30 and the behavior determination unit 33.

【0032】感情/本能モデル部32は、ロボットの感
情と本能の状態をそれぞれ表現する感情モデルと本能モ
デルを管理しており、センサ入力処理部30の出力や、
行動決定部33の出力、時間経過に基づいて、感情モデ
ルや本能モデルを規定するパラメータを変更すること
で、ロボットの感情や本能の状態を変化させるようにな
っている。この変化後の感情や本能の状態は、行動決定
部33に供給されるようになっている。
The emotion / instinct model unit 32 manages an emotion model and an instinct model that express the emotion of the robot and the state of the instinct, respectively.
By changing the parameters defining the emotion model and the instinct model based on the output of the action determination unit 33 and the passage of time, the state of the emotion and the instinct of the robot is changed. The state of the emotion and the instinct after the change are supplied to the action determining unit 33.

【0033】行動決定部33は、行動モデル記憶部33
Aを内蔵しており、この記憶内容や、センサ入力処理部
30の出力、成長モデル部31で管理されている成長モ
デル、感情/本能モデル部32で管理されている感情モ
デルおよび本能モデル、時間経過に基づいて、その後に
ロボットが行う行動を決定して、その情報(以下、適
宜、行動情報という)を、姿勢遷移部34に供給するよ
うになっている。
The action determining section 33 includes an action model storage section 33
A, the memory contents, the output of the sensor input processing unit 30, the growth model managed by the growth model unit 31, the emotion model and the instinct model managed by the emotion / instinct model unit 32, and the time. Based on the progress, an action to be performed by the robot is determined, and the information (hereinafter, appropriately referred to as action information) is supplied to the posture transition unit 34.

【0034】姿勢遷移部34は、行動決定部33から供
給される行動情報に対応する行動をロボットに行わせる
ためのモータ71乃至7Nの回転角や回転速度等の制御デ
ータを演算し、モータ制御部35に出力する。
The posture transition section 34 calculates the control data such as rotation angle or rotational speed of the motor 7 1 to 7 N for causing the robot actions corresponding to the action information supplied from the action decision unit 33, Output to the motor control unit 35.

【0035】モータ制御部35は、姿勢遷移部34から
の制御データにしたがって、モータ71乃至7Nを回転駆
動するようになっている。
The motor controller 35 drives the motors 7 1 to 7 N to rotate in accordance with the control data from the attitude transition unit 34.

【0036】以上のように構成される制御部11では、
入力センサ処理部30において、カメラ8から供給され
る画像データや、マイク9から供給される音声データ、
圧力センサ10から出力される圧力検出データに基づい
て、特定の外部状態や、使用者からの特定の働きかけ、
使用者からの指示等が認識され、その認識結果が、成長
モデル部31、感情/本能モデル部32、および行動決
定部33に出力される。
In the control unit 11 configured as described above,
In the input sensor processing unit 30, image data supplied from the camera 8, audio data supplied from the microphone 9,
Based on the pressure detection data output from the pressure sensor 10, a specific external state, a specific action from the user,
An instruction or the like from the user is recognized, and the recognition result is output to the growth model unit 31, the emotion / instinct model unit 32, and the action determination unit 33.

【0037】即ち、センサ入力処理部30は、カメラ8
が出力する画像データに基づいて、画像認識を行い、例
えば、「ボールがある」とか、「壁がある」といったこ
とを認識して、その認識結果を、成長モデル部31、感
情/本能モデル部32、および行動決定部33に供給す
る。また、センサ入力処理部30は、マイク9が出力す
る音声データに基づいて、音声認識を行い、その音声認
識結果を、成長モデル部31、感情/本能モデル部3
2、および行動決定部33に供給する。さらに、センサ
入力処理部30は、圧力センサ10から与えられる圧力
検出データを処理し、例えば、所定の閾値以上で、かつ
短時間の圧力を検出したときには「たたかれた(しから
れた)」と認識し、また、所定の閾値未満で、かつ長時
間の圧力を検出したときには「なでられた(ほめられ
た)」と認識して、その認識結果を、成長モデル部3
1、感情/本能モデル部32、および行動決定部33に
供給する。
That is, the sensor input processing unit 30
Performs image recognition on the basis of the image data output by the device, and recognizes, for example, "there is a ball" or "there is a wall", and outputs the recognition result to the growth model unit 31, the emotion / instinct model unit. 32 and an action determining unit 33. The sensor input processing unit 30 performs voice recognition based on the voice data output from the microphone 9, and outputs the voice recognition result to the growth model unit 31 and the emotion / instinct model unit 3.
2, and the action determination unit 33 is supplied. Further, the sensor input processing unit 30 processes the pressure detection data given from the pressure sensor 10 and, for example, when it detects a pressure that is equal to or more than a predetermined threshold value and for a short time, “hits”. When the pressure is detected below a predetermined threshold value and for a long time, it is recognized as “patched (praised)”, and the recognition result is used as the growth model unit 3
1, supply to the emotion / instinct model unit 32 and the action determination unit 33.

【0038】成長モデル部31は、ロボットの成長状態
を規定するための成長モデルを管理している。成長モデ
ルは、例えば、図5(A)に示すようなオートマトンで
構成される。このオートマトンでは、成長状態は、ノー
ド(状態)NODE0乃至NODEGで表現され、成長、
つまり成長状態の遷移は、ある成長状態に対応するノー
ドNODEgから、次の成長状態に対応するノードNO
DEg+1への遷移を表すアークARCg+1で表現される
(g=0,1,・・・,G−1)。
The growth model unit 31 manages a growth model for defining the growth state of the robot. The growth model is composed of, for example, an automaton as shown in FIG. In this automaton, the growth state is represented by nodes (states) NODE 0 to NODE G , and the growth,
That transition growth state, the node NODE g corresponding to growth state, the node NO corresponding to the next growth state
It is represented by an arc ARC g + 1 representing a transition to DE g + 1 (g = 0, 1,..., G-1).

【0039】ここで、本実施の形態では、成長の状態
は、図5(A)(後述する図5(B)においても同様)
において、左のノードから右方向のノードに遷移してい
くようになっている。従って、図5(A)において、例
えば、最も左のノードNODE 0は、生まれたばかりの
「新生児」の状態を表し、左から2番目のノードNOD
1は、「幼児」の状態を表し、左から3番目のノード
NODE2は「児童」の状態を表す。以下、同様にし
て、右方向のノードほど、より成長した状態を表し、最
も右のノードNODEGは、「高齢」の状態を表す。
In this embodiment, the state of growth
Is shown in FIG. 5A (the same applies to FIG. 5B described later).
Transitions from the left node to the right node
It has become. Therefore, in FIG.
For example, the leftmost node NODE 0Is just born
Indicates the state of "newborn" and the second node NOD from the left
E1Represents the state of "infant", and the third node from the left
NODETwoIndicates the state of "child". The same applies to the following
The more nodes to the right, the more grown
Also the right node NODEGIndicates an "elderly" state.

【0040】そして、あるノードNODEgから、右隣
のノードNODEg+1への遷移を表すアークARCg+1
は、その遷移が生じるための条件(入力)Ptg+1が設定
されており、ノードの遷移(成長)は、この条件に基づ
いて決定される。即ち、アークARCg+1においては、
その遷移が生じるために要求される、カメラ8や、マイ
ク9、圧力センサ10からの出力、時間経過等について
の条件Ptg+1が設定されており、その条件Ptg+1が満た
された場合に、ノードNODEgから右隣のノードNO
DEg+1への遷移が生じ、ロボットが成長する。
An arc ARC g + 1 representing a transition from a certain node NODE g to the right node NODE g + 1 is set with a condition (input) P tg + 1 for causing the transition. The transition (growth) of a node is determined based on this condition. That is, in the arc ARC g + 1 ,
The condition P tg + 1 regarding the output from the camera 8, the microphone 9, the pressure sensor 10, the passage of time, and the like required to cause the transition are set, and the condition P tg + 1 is satisfied. in the case, the node nODE g from the right adjacent node NO
The transition to DE g + 1 occurs and the robot grows.

【0041】なお、図5(A)に示した成長モデルにお
いては、左のノードから右方向のノードに遷移していく
パスが1つで固定であるため、成長過程は、その1つの
パスにしたがった一定のものとなるが、成長モデルとし
ては、成長過程が複数パターン存在する、例えば、図5
(B)に示すようなものを用いるようにすることも可能
である。
Note that, in the growth model shown in FIG. 5A, since there is only one fixed path that transitions from the left node to the right node, the growth process is performed on that one path. According to the growth model, a plurality of growth processes exist, for example, as shown in FIG.
It is also possible to use the one shown in FIG.

【0042】即ち、図5(B)においては、成長モデル
は、木構造になっており、例えば、「新生児」に対応す
るノードNODE0からは、「幼児」に対応するノード
NODE1-0またはNODE1-1のうちのいずれかに遷移
し得る。「幼児」に対応する2つのノードNODE1-0
およびNODE1-1は、例えば、人間で言えば、異なる
人格の幼児を表しており、ノードNODE1-0またはN
ODE1-1のうちのいずれに遷移するかは、カメラ8
や、マイク9、圧力センサ10からの出力、時間経過等
に基づいて決定される。従って、この場合、受けた刺激
等によって、ロボットの成長過程を異なるものとするこ
とができる。
That is, in FIG. 5B, the growth model has a tree structure. For example, from the node NODE 0 corresponding to “newborn”, the nodes NODE 1-0 corresponding to “infant” or It may transition to any of NODE 1-1 . Two nodes NODE 1-0 corresponding to "infants"
And NODE 1-1 represent, for example, in human terms, infants of different personalities, nodes NODE 1-0 or N
Which one of the ADEs 1-1 to transition to is determined by the camera 8
Or based on the output from the microphone 9, the pressure sensor 10, the passage of time, and the like. Therefore, in this case, the growth process of the robot can be made different depending on the received stimulus or the like.

【0043】なお、成長モデルとしては、木構造の他、
グラフ構造等のオートマトンで表現可能な構造を採用す
ることができる。
As a growth model, in addition to the tree structure,
A structure that can be expressed by an automaton such as a graph structure can be adopted.

【0044】成長モデル部31は、以上のような成長モ
デルに基づいて、ロボットの成長状態を管理し、現在の
成長状態を、センサ入力処理部30および行動決定部3
3に出力する。
The growth model unit 31 manages the growth state of the robot based on the above growth model, and displays the current growth state on the sensor input processing unit 30 and the action determination unit 3.
Output to 3.

【0045】一方、感情/本能モデル部32は、ロボッ
トの、例えば、「うれしさ」や、「悲しさ」、「怒り」
等の、いわゆる喜怒哀楽の感情の状態を表現する感情モ
デルと、例えば、「食欲」や、「睡眠欲」、「運動欲」
等の本能の状態を表現する本能モデルとを管理してい
る。
On the other hand, the emotion / instinct model section 32 is used to control the robot, for example, to be "happy", "sad", "angry", etc.
And emotion models expressing so-called emotional and emotional states, such as “appetite”, “sleep desire”, and “exercise desire”
And an instinct model expressing the state of the instinct.

【0046】即ち、感情モデルと本能モデルは、それぞ
れ、ロボットの感情と本能の状態を、例えば、0乃至1
00の範囲の整数値で表すもので、感情/本能モデル部
32は、感情モデルや本能モデルの値を、センサ入力処
理部30の出力や、行動決定部33の出力、時間経過に
基づいて変化させる。従って、ここでは、ロボットの感
情および本能の状態は、センサ入力処理部30が出力す
る外部の認識結果の他、行動決定部33の出力や、時間
経過にも基づいて変化する。そして、感情/本能モデル
部32は、変更後の感情モデルおよび本能モデルの値
(ロボットの感情および本能の状態)を、行動決定部3
3に供給する。
That is, the emotion model and the instinct model indicate the emotion and the state of the instinct of the robot, for example, from 0 to 1 respectively.
The emotion / instinct model unit 32 changes the values of the emotion model and the instinct model based on the output of the sensor input processing unit 30, the output of the action determination unit 33, and the passage of time. Let it. Therefore, here, the state of the robot's emotions and instinct changes based on the output of the action determining unit 33 and the passage of time, in addition to the external recognition result output by the sensor input processing unit 30. Then, the emotion / instinct model unit 32 stores the values of the emotion model and the instinct model after the change (the emotions of the robot and the state of the instinct) into the action determination unit 3
Supply 3

【0047】なお、感情モデルや本能モデルは、その
他、例えば、オートマトン等で構成することも可能であ
る。
Note that the emotion model and the instinct model can also be constituted by, for example, an automaton or the like.

【0048】ここで、ロボットの感情および本能の状態
は、行動決定部33の出力に基づいて、例えば、次のよ
うに変化する。
Here, the state of the emotion and the instinct of the robot changes as follows, for example, based on the output of the action determining unit 33.

【0049】即ち、行動決定部33から感情/本能モデ
ル部32に対しては、ロボットがとっている現在の行動
または過去にとった行動の内容(例えば、「そっぽを向
いた」など)を示す行動情報が供給されるようになって
いる。
That is, the action determination section 33 indicates the current action or the action taken in the past (for example, "turned away") of the robot to the emotion / instinct model section 32. Behavior information is provided.

【0050】いま、ロボットにおいて、「怒り」の感情
が高いときに、使用者から何らかの刺激を受け、ロボッ
トが、「そっぽを向く」行動をとったとする。この場
合、行動決定部33から感情/本能モデル部32に対し
て、行動情報「そっぽを向いた」が供給される。
Now, suppose that the robot receives a certain stimulus from the user when the feeling of "anger" is high, and the robot takes an action "turns in the direction". In this case, the behavior information “turned away” is supplied from the behavior determination unit 33 to the emotion / instinct model unit 32.

【0051】一般に、怒っているときに、そっぽを向く
ような不満を表現する行動をとると、その行動によっ
て、怒りが幾分か静まることがある。そこで、感情/本
能モデル部32は、行動決定部33から、行動情報「そ
っぽを向いた」が供給された場合、「怒り」を表す感情
モデルの値を、小さい値に変更する(「怒り」の度合い
が小さくなるように変更する)。
In general, when an angry person takes an action that expresses dissatisfaction such as turning to the side, anger may be somewhat calmed down by the action. Therefore, when the behavior information “turned away” is supplied from the behavior determination unit 33, the emotion / instinct model unit 32 changes the value of the emotion model representing “anger” to a small value (“anger”). To reduce the degree of

【0052】行動決定部33は、センサ入力処理部30
が出力する外部の認識結果や、成長モデル部31におけ
る成長モデル、感情/本能モデル部32における感情モ
デルおよび本能モデル、行動モデル記憶部33Aの記憶
内容、時間経過等に基づいて、次にとる行動を決定し、
その行動を表す行動情報を、感情/本能モデル部32お
よび姿勢遷移部34に供給する。
The action determining unit 33 includes the sensor input processing unit 30
Based on the external recognition result output by the user, the growth model in the growth model unit 31, the emotion model and the instinct model in the emotion / instinct model unit 32, the storage contents of the action model storage unit 33A, the elapsed time, and the like. And determine
The behavior information representing the behavior is supplied to the emotion / instinct model unit 32 and the posture transition unit 34.

【0053】ここで、行動モデル記憶部33Aは、ロボ
ットの行動を規定する、例えば、図6に示すような行動
モデルを記憶している。
Here, the behavior model storage unit 33A stores a behavior model that defines the behavior of the robot, for example, as shown in FIG.

【0054】即ち、本実施の形態では、行動モデルは、
例えば、確率オートマトンで構成される。この確率オー
トマトンでは、行動は、ノード(状態)NODE0乃至
NODEMで表現され、行動の遷移は、ある行動に対応
するノードNODEm0から、他の行動(同一の行動であ
る場合もある)に対応するノードNODEm1への遷移を
表すアークARCm1で表現される(m0,m1=0,
1,・・・,M)。
That is, in the present embodiment, the behavior model is
For example, it is composed of a stochastic automaton. In this stochastic automaton, an action is represented by nodes (states) NODE 0 to NODE M , and a transition of an action is performed from a node NODE m0 corresponding to a certain action to another action (the same action may be performed). It is represented by an arc ARC m1 representing a transition to the corresponding node NODE m1 (m0, m1 = 0,
1,..., M).

【0055】なお、図6においては、図が煩雑になるの
を避けるため、M+1個のノードからなる確率オートマ
トンに関して、ノードNODE0から、他のノード(自
身を含む)NODE0乃至NODEMへのアークARC0
乃至ARCMのみを示してある。
In FIG. 6, in order to avoid complication, the stochastic automaton composed of M + 1 nodes is transferred from node NODE 0 to other nodes (including itself) NODE 0 to NODE M. Arc ARC 0
ARC M only are shown.

【0056】あるノードNODEm0から、他のノードN
ODEm1への遷移を表すアークARCm1には、その遷移
が生じる遷移確率Ptm1が設定されており、また、各ノ
ードNODEm(m=0,1,・・・,M)には、そのノー
ドNODEmに対応する行動が生起する生起確率Pnm
設定されている。そして、行動モデルでは、ある行動の
次に、どのような行動をとるかは、アークに設定されて
いる遷移確率と、ノードに設定されている生起確率とか
ら決定される。
From one node NODE m0 to another node N
An arc ARC m1 representing a transition to ODE m1 is set with a transition probability P tm1 at which the transition occurs, and each node NODE m (m = 0, 1,..., M) has An occurrence probability P nm at which an action corresponding to the node NODE m occurs is set. In the action model, what action to take after a certain action is determined from the transition probability set for the arc and the occurrence probability set for the node.

【0057】行動決定部33は、行動モデルの、現在の
行動(以下、適宜、現在行動という)に対応するノード
から、どのノードに遷移するかを、現在行動に対応する
ノードから延びるアークに設定されている遷移確率、お
よびそのアークによって示される遷移先のノードに設定
されている生起確率の他、成長モデル部31における成
長モデルや、感情/本能モデル部32における感情モデ
ルおよび本能モデル、時間経過、センサ入力処理部30
が出力する外部の認識結果に基づいて決定し、遷移後の
ノードに対応する行動(以下、適宜、遷移行動という)
を表す行動情報を、感情/本能モデル部32および姿勢
遷移部34に供給する。
The action determining unit 33 sets a transition from a node corresponding to the current action (hereinafter, appropriately referred to as a current action) to an arc extending from the node corresponding to the current action in the action model. In addition to the transition probabilities set and the occurrence probabilities set in the transition destination node indicated by the arc, the growth model in the growth model unit 31, the emotion model and the instinct model in the emotion / instinct model unit 32, and the time course , Sensor input processing unit 30
Is determined based on the external recognition result output by the node, and an action corresponding to the node after the transition (hereinafter, appropriately referred to as a transition action)
Is supplied to the emotion / instinct model unit 32 and the posture transition unit 34.

【0058】従って、行動決定部33では、例えば、セ
ンサ入力処理部30が出力する外部の認識結果が同一の
ものであっても、成長モデルが表す成長の状態によって
は、異なる行動を起こすことが決定される。
Accordingly, even if the external recognition results output by the sensor input processing unit 30 are the same, for example, the behavior determining unit 33 may take different actions depending on the growth state represented by the growth model. It is determined.

【0059】ここで、行動決定部33は、成長モデルに
基づいて、行動モデルの各ノードに設定された生起確率
を変更するようになっている。
Here, the behavior determining unit 33 changes the occurrence probability set for each node of the behavior model based on the growth model.

【0060】具体的には、例えば、いま、行動モデルに
おける各アークに設定された遷移確率を無視して、各ノ
ードに設定された生起確率だけを考えると、各ノードに
設定された生起確率の総和は、1となる。例えば、い
ま、行動モデルにおいて、行動として、「寝る」、「立
ち上がる」、「歩く」、および「走る」の4つが存在す
るとして、ある行動の生起確率を、P(行動)で表す
と、P(「寝る」)+P(「立ち上がる」)+P(「歩
く」)+P(「走る」)は、1となる。
More specifically, for example, ignoring the transition probability set for each arc in the action model and considering only the occurrence probability set for each node, for example, the occurrence probability set for each node is considered. The sum is 1. For example, assuming that there are four behaviors, “sleep”, “rise”, “walk”, and “run”, in the behavior model, if the occurrence probability of a certain behavior is represented by P (behavior), P (“Sleep”) + P (“stand up”) + P (“walk”) + P (“run”) is 1.

【0061】ロボットの成長によっては、各ノードに設
定された生起確率の総和が1であることは変わらない
が、行動決定部33では、各ノードに対応する行動の生
起確率が、ロボットの成長にしたがって変更される。
Depending on the growth of the robot, the sum of the occurrence probabilities set for each node remains the same, but the action determination unit 33 determines that the occurrence probability of the action corresponding to each node is Therefore it is changed.

【0062】即ち、例えば、成長モデルにおいて、成長
状態が「新生児」を表している場合においては、行動決
定部33は、行動「寝る」の生起確率を1にし、他の行
動「立ち上がる」、「歩く」、および「走る」の生起確
率を0にする。この場合、ロボットは、「寝る」以外の
行動はしない。
That is, for example, in the growth model, when the growth state represents “newborn”, the behavior determining unit 33 sets the occurrence probability of the behavior “sleep” to 1, and sets the other behaviors “rise” and “ The occurrence probabilities of “walk” and “run” are set to 0. In this case, the robot does not take any action other than “sleep”.

【0063】その後、時間経過等に基づいて、成長モデ
ルにおいて、成長状態が「幼児」になると、行動決定部
33は、行動「寝る」の生起確率を幾分小さくするとと
もに、行動「立ち上がる」の生起確率を、その分高くす
る。さらに、行動決定部33は、ロボットが成長するに
つれて、行動「歩く」、「走る」の順に、それぞれの生
起確率を徐々に高くしていく。これにより、ロボット
は、最初は、「寝る」ことしかしないが、成長するにつ
れて、「立ち上がる」ようになり、さらに、「歩く」、
「走る」といった行動をとるようになる。即ち、起こし
得る行動パターンが増加していく。
After that, when the growth state becomes “infant” in the growth model based on the lapse of time or the like, the behavior determining unit 33 reduces the occurrence probability of the behavior “sleep” and reduces the probability of the behavior “rise”. Increase the probability of occurrence. Furthermore, as the robot grows, the behavior determining unit 33 gradually increases the occurrence probability of each of the behaviors “walk” and “run”. This allows the robot to initially only "sleep", but "grow up" as it grows up, and "walk"
You will take actions such as running. That is, possible behavior patterns increase.

【0064】行動決定部33では、以上のようにして、
センサ入力処理部30が出力する外部の認識結果が同一
のものであっても、成長状態によって異なる行動を起こ
すことが決定される他、感情モデルや本能モデルの値に
よっても、異なる行動を起こすことが決定される。
In the action determining unit 33, as described above,
Even if the external recognition results output by the sensor input processing unit 30 are the same, it is determined that different actions are taken depending on the growth state, and different actions are taken depending on the values of the emotion model and the instinct model. Is determined.

【0065】具体的には、例えば、センサ入力処理部3
0の出力が、「目の前に手のひらが差し出された」旨を
示すものである場合において、「怒り」の感情モデルが
「怒っていない」ことを表しており、かつ「食欲」の本
能モデルが「お腹がすいていない」ことを表していると
きには、行動決定部33は、目の前に手のひらが差し出
されたことに応じて、遷移行動として「お手」を行わせ
ることを決定する。
Specifically, for example, the sensor input processing unit 3
In the case where the output of 0 indicates that "the palm is put in front of the eyes", the emotion model of "anger" indicates "not angry" and the instinct of "appetite" When the model indicates “not hungry”, the action determining unit 33 determines to perform “hand” as a transition action in response to the palm being presented in front of the eyes. I do.

【0066】また、例えば、上述の場合と同様に、セン
サ入力処理部30の出力が、「目の前に手のひらが差し
出された」旨を示すものであり、かつ「怒り」の感情モ
デルが「怒っていない」ことを表しているが、「食欲」
の本能モデルが「お腹がすいている」ことを表している
場合には、行動決定部33は、遷移行動として、「手の
ひらをぺろぺろなめる」ような行動を行わせることを決
定する。
For example, as in the case described above, the output of the sensor input processing unit 30 indicates that "the palm is put in front of the eyes" and the emotion model of "anger" is "Not angry" means "appetite"
If the instinct model indicates that the user is hungry, the action determining unit 33 determines to perform an action such as “licking the palms” as the transition action.

【0067】さらに、センサ入力処理部30の出力が、
「目の前に手のひらが差し出された」旨を示すものであ
るが、「怒り」の感情モデルが「怒っている」ことを表
している場合には、「食欲」の本能モデルの値にかかわ
らず、行動決定部33は、遷移行動として、「ぷいと横
を向く」ような行動を行わせることを決定する。
Further, the output of the sensor input processing unit 30 is
It indicates that "the palm is in front of you", but if the emotion model of "anger" indicates "angry", the value of the instinct model of "appetite" Regardless, the action determining unit 33 determines that an action such as “turn to the side” is performed as the transition action.

【0068】なお、行動決定部33は、所定のトリガ(t
rigger)があった場合に、行動モデルのノードを遷移
し、遷移行動を決定する。即ち、行動決定部33は、例
えば、ロボットが現在行動を開始してから所定の時間が
経過した場合や、音声認識結果等の特定の認識結果がセ
ンサ入力処理部30から出力された場合、成長モデル部
31における成長モデルが、ある成長状態を表している
場合、感情/本能モデル部32における感情モデルや本
能モデルの値が所定の閾値に達した場合等に、遷移行動
を決定する。
Note that the action determining unit 33 outputs a predetermined trigger (t
rigger), transition the nodes of the behavior model and determine the transition behavior. That is, for example, when a predetermined time has elapsed since the robot started the current action, or when a specific recognition result such as a voice recognition result is output from the sensor input processing unit 30, When the growth model in the model unit 31 represents a certain growth state, the transition behavior is determined when the value of the emotion model or the instinct model in the emotion / instinct model unit 32 reaches a predetermined threshold.

【0069】また、行動決定部33は、ロータリエンコ
ーダ121乃至12Nの出力に基づいて、現在のロボット
の姿勢を認識し、その姿勢から、自然な形で遷移行動を
起こすことができるような行動情報を、姿勢遷移部34
に出力するようになっている。
The action determining unit 33 recognizes the current posture of the robot on the basis of the outputs of the rotary encoders 12 1 to 12 N , and performs a transition action in a natural manner from the posture. The behavior information is transferred to the posture transition unit 34
Output.

【0070】姿勢遷移部34は、行動決定部33から供
給される行動情報に基づいて、現在の姿勢から次の姿勢
に遷移するための姿勢遷移情報を生成し、モータ制御部
35に出力する。即ち、姿勢遷移部34は、現在の姿勢
を、行動決定部33を介して、ロータリエンコーダ12
1乃至12Nの出力に基づいて認識し、行動決定部33か
らの行動情報に対応する行動(遷移行動)を、ロボット
にとらせるためのモータ71乃至7Nの回転角や回転速度
等を計算し、姿勢遷移情報として、モータ制御部35に
出力する。
The posture transition unit 34 generates posture transition information for transitioning from the current posture to the next posture based on the behavior information supplied from the behavior determining unit 33, and outputs it to the motor control unit 35. That is, the posture transition unit 34 determines the current posture via the action determination unit 33 and the rotary encoder 12.
The rotation angles and rotation speeds of the motors 7 1 to 7 N for recognizing based on the outputs of 1 to 12 N and causing the robot to take an action (transition action) corresponding to the action information from the action determining unit 33 are described. The calculated value is output to the motor control unit 35 as attitude transition information.

【0071】モータ制御部35は、姿勢遷移部34から
の姿勢遷移情報にしたがって、モータ71乃至7Nを駆動
するための駆動信号を生成し、モータ71乃至7Nに供給
する。これにより、モータ71乃至7Nは回転駆動し、ロ
ボットは、遷移行動を行う。
The motor control unit 35 generates a drive signal for driving the motors 7 1 to 7 N according to the posture transition information from the posture transition unit 34 and supplies the drive signals to the motors 7 1 to 7 N. Thus, the motors 7 1 to 7 N are driven to rotate, and the robot performs a transition action.

【0072】次に、図7は、図4のセンサ入力処理部3
0のうち、マイク9からの音声データを用いて音声認識
を行う部分(以下、適宜、音声認識装置という)の機能
的構成例を示している。
Next, FIG. 7 shows the sensor input processing unit 3 of FIG.
0 shows a functional configuration example of a portion that performs voice recognition using voice data from the microphone 9 (hereinafter, appropriately referred to as a voice recognition device).

【0073】この音声認識装置においては、マイク9に
入力された音声が、例えば、連続分布HMM(Hidden Ma
rkov Model)法にしたがって認識され、その音声認識結
果が出力されるようになっている。
In this speech recognition apparatus, the speech input to the microphone 9 is, for example, a continuous distribution HMM (Hidden Matrix).
(rkov Model) method, and the speech recognition result is output.

【0074】即ち、特徴パラメータ抽出部41には、マ
イク9からの音声データが供給されるようになってお
り、特徴パラメータ抽出部41は、そこに入力される音
声データについて、適当なフレームごとに、例えば、M
FCC(Mel Frequency Cepstrum Coefficient)分析を行
い、その分析結果を、特徴パラメータ(特徴ベクトル)
として、マッチング部42に出力する。なお、特徴パラ
メータ抽出部41では、その他、例えば、線形予測係
数、ケプストラム係数、線スペクトル対、所定の周波数
帯域ごとのパワー(フィルタバンクの出力)等を、特徴
パラメータとして抽出することが可能である。
That is, audio data from the microphone 9 is supplied to the characteristic parameter extraction unit 41. The characteristic parameter extraction unit 41 converts the audio data input thereto into appropriate frames. , For example, M
FCC (Mel Frequency Cepstrum Coefficient) analysis is performed, and the analysis result is used as a feature parameter (feature vector).
Is output to the matching unit 42. The feature parameter extraction unit 41 can also extract, for example, a linear prediction coefficient, a cepstrum coefficient, a line spectrum pair, power (output of a filter bank) for each predetermined frequency band, and the like as feature parameters. .

【0075】マッチング部42は、特徴パラメータ抽出
部41からの特徴パラメータを用いて、音響モデル記憶
部43、辞書記憶部44、および文法記憶部45を必要
に応じて参照しながら、マイク9に入力された音声(入
力音声)を、連続分布HMM法に基づいて音声認識す
る。
The matching unit 42 uses the feature parameters from the feature parameter extraction unit 41 to input to the microphone 9 while referring to the acoustic model storage unit 43, the dictionary storage unit 44, and the grammar storage unit 45 as necessary. The input speech is subjected to speech recognition based on the continuous distribution HMM method.

【0076】即ち、音響モデル記憶部43は、音声認識
する音声の言語における個々の音素や音節などの音響的
な特徴を表す音響モデルを記憶している。ここでは、連
続分布HMM法に基づいて音声認識を行うので、音響モ
デルとしては、HMM(Hidden Markov Model)が用いら
れる。辞書記憶部44は、認識対象の各単語について、
その発音に関する情報(音韻情報)が記述された単語辞
書を記憶している。文法記憶部45は、辞書記憶部35
の単語辞書に登録されている各単語が、どのように連鎖
する(つながる)かを記述した文法規則を記憶してい
る。ここで、文法規則としては、例えば、文脈自由文法
(CFG)や、統計的な単語連鎖確率(N−gram)
などに基づく規則を用いることができる。
That is, the acoustic model storage unit 43 stores acoustic models representing acoustic features such as individual phonemes and syllables in the language of the speech to be recognized. Here, since speech recognition is performed based on the continuous distribution HMM method, HMM (Hidden Markov Model) is used as an acoustic model. The dictionary storage unit 44 stores, for each word to be recognized,
A word dictionary in which information (phonological information) related to the pronunciation is described is stored. The grammar storage unit 45 includes the dictionary storage unit 35
Grammar rules that describe how the words registered in the word dictionary are linked (connected). Here, the grammar rules include, for example, context-free grammar (CFG) and statistical word chain probability (N-gram).
Rules based on such as can be used.

【0077】マッチング部42は、辞書記憶部44の単
語辞書を参照することにより、音響モデル記憶部43に
記憶されている音響モデルを接続することで、単語の音
響モデル(単語モデル)を構成する。さらに、マッチン
グ部42は、幾つかの単語モデルを、文法記憶部45に
記憶された文法規則を参照することにより接続し、その
ようにして接続された単語モデルを用いて、特徴パラメ
ータに基づき、連続分布HMM法によって、マイク9に
入力された音声を認識する。即ち、マッチング部42
は、特徴パラメータ抽出部41が出力する時系列の特徴
パラメータが観測されるスコア(尤度)が最も高い単語
モデルの系列を検出し、その単語モデルの系列に対応す
る単語列を、音声の認識結果として出力する。
The matching section 42 refers to the word dictionary in the dictionary storage section 44 and connects the acoustic models stored in the acoustic model storage section 43 to form a word acoustic model (word model). . Further, the matching unit 42 connects some word models by referring to the grammar rules stored in the grammar storage unit 45, and uses the word models connected in this manner, based on the feature parameters, The voice input to the microphone 9 is recognized by the continuous distribution HMM method. That is, the matching unit 42
Detects a sequence of a word model having the highest score (likelihood) at which a time-series feature parameter output from the feature parameter extraction unit 41 is observed, and recognizes a word string corresponding to the sequence of the word model as speech recognition. Output as result.

【0078】具体的には、マッチング部42は、接続さ
れた単語モデルに対応する単語列について、時系列に入
力される特徴パラメータの出現確率を累積し、その累積
値をスコアとして、そのスコアを最も高くする単語列
を、音声認識結果として出力する。マッチング部42に
よる音声認識結果は、センサ入力処理部30の出力とし
て、上述したように、成長モデル部31、感情/本能モ
デル部32、および行動決定部33に出力される。
More specifically, the matching unit 42 accumulates the appearance probabilities of the characteristic parameters input in time series with respect to the word string corresponding to the connected word model, and uses the accumulated value as a score. The highest word string is output as a speech recognition result. The speech recognition result by the matching unit 42 is output as an output of the sensor input processing unit 30 to the growth model unit 31, the emotion / instinct model unit 32, and the action determination unit 33, as described above.

【0079】ここで、辞書記憶部44における単語辞書
に登録されているすべての単語によってとり得る単語列
を対象として、スコアを計算すると、その計算量が莫大
になることから、どのような単語列を対象として、スコ
アの計算を行うかは、文法記憶部45に記憶された文法
規則により制限される。また、マッチング部42では、
出現頻度の高い単語列についてのスコアを高くするよう
な重みが付される場合もある。
Here, if a score is calculated for a word string that can be obtained by all the words registered in the word dictionary in the dictionary storage unit 44, the amount of calculation becomes enormous. Whether or not to calculate a score for is limited by the grammar rules stored in the grammar storage unit 45. In the matching unit 42,
In some cases, weights may be assigned to increase the score of a word string having a high frequency of appearance.

【0080】マッチング部42におけるスコア計算は、
例えば、音響モデル記憶部43に記憶された音響モデル
によって与えられる音響的なスコア(以下、適宜、音響
スコアという)と、文法記憶部45に記憶された文法規
則によって与えられる言語的なスコア(以下、適宜、言
語スコアという)とを総合評価することで行われる。
The score calculation in the matching unit 42 is as follows.
For example, an acoustic score given by an acoustic model stored in the acoustic model storage unit 43 (hereinafter, appropriately referred to as an acoustic score) and a linguistic score given by a grammar rule stored in the grammar storage unit 45 (hereinafter, referred to as an acoustic score) , A language score, as appropriate).

【0081】即ち、あるN個の単語からなる単語列にお
けるk番目の単語をWkとして、その単語Wkの音響スコ
アをA(Wk)と、言語スコアをL(Wk)と、それぞれ
表すとき、その単語列のスコアSは、例えば、次式にし
たがって計算される。
That is, assuming that the k-th word in a word string composed of a certain N words is W k , the acoustic score of the word W k is A (W k ), and the language score is L (W k ). When represented, the score S of the word string is calculated, for example, according to the following equation.

【0082】 S=Σ(A(Wk)+Ck×L(Wk)) ・・・(1) 但し、Σは、kを1からNに変えてのサメーションをと
ることを表す。また、C kは、単語Wkの言語スコアL
(Wk)にかける重みを表す。
S = Σ (A (Wk) + Ck× L (Wk)) (1) where Σ is the summation of changing k from 1 to N
It represents that. Also, C kIs the word WkLanguage score L
(Wk).

【0083】なお、音声認識装置が有する辞書記憶部4
4に記憶された単語辞書は、ロボットが扱うことのでき
る語彙を規定するから、その点で、非常に重要である。
即ち、単語辞書に登録しておく単語数が多いほど、ロボ
ットは、各種の発話に対して対処することができる。
The dictionary storage unit 4 included in the speech recognition device
The word dictionary stored in No. 4 defines the vocabulary that can be handled by the robot, and is very important in that respect.
That is, as the number of words registered in the word dictionary increases, the robot can deal with various utterances.

【0084】但し、図7の音声認識装置は、図3のCP
U20がプログラムを実行することにより機能的に実現
されるものであり、この場合、CPU20の処理能力
や、CPU20が利用可能なRAM22の空き領域の大
きさ等によって、単語辞書における語彙数は制限を受け
る。
However, the speech recognition device shown in FIG.
The function is realized by the U20 executing the program. In this case, the number of vocabularies in the word dictionary is limited by the processing capacity of the CPU 20, the size of the free area of the RAM 22 available to the CPU 20, and the like. receive.

【0085】また、音声波形は、例えば、同一の語彙が
同一人により発話されたとしても、完全に一致すること
は、ほとんどなく、このため、マッチング部42におけ
るマッチング処理(スコア計算)は、曖昧性を有する入
力に対する処理となることから、発話されていない単語
列が音声認識結果とされる誤認識が生じる場合がある
が、このような誤認識は、一般に、単語辞書に登録され
た語彙数が多くなると、類似する単語も多くなることに
起因して増加する。
Further, even if, for example, the same vocabulary is uttered by the same person, the voice waveform hardly matches completely, so that the matching process (score calculation) in the matching unit 42 is ambiguous. In some cases, erroneous recognition in which an unuttered word string is regarded as a speech recognition result may occur due to the processing of an input having a characteristic, but such erroneous recognition is generally caused by the number of vocabularies registered in the word dictionary. Increases, the number of similar words also increases.

【0086】従って、単語辞書に登録する語彙は、CP
U20の処理能力やRAM22の容量の他、要求される
認識精度によっても制限を受ける。
Therefore, the vocabulary registered in the word dictionary is CP
In addition to the processing capacity of the U20 and the capacity of the RAM 22, the required recognition accuracy is limited.

【0087】成長スコア設定部46は、成長モデル部3
1における成長モデルに基づいて、音声認識装置による
音声認識処理を制御する。即ち、図7の実施の形態で
は、成長スコア設定部46は、成長モデルに基づいて、
辞書記憶部44における単語辞書を操作し、これによ
り、音声認識処理の制御を行うようになっている。
The growth score setting section 46 controls the growth model section 3
The speech recognition processing by the speech recognition device is controlled based on the growth model in 1. That is, in the embodiment of FIG. 7, the growth score setting unit 46 sets the
The word dictionary in the dictionary storage unit 44 is operated, thereby controlling the speech recognition processing.

【0088】具体的には、例えば、成長スコア設定部4
6は、成長モデルに基づき、単語辞書に登録された各単
語について、ロボットの成長状態において理解すること
ができる度合いを表す成長スコアを計算する。例えば、
いま、ある単語Wを、ロボットの成長状態において理解
することができる確率をP(W)と表すと、成長スコア
設定部46は、単語Wに対する成長スコアG(W)を、
例えば、次式にしたがって計算する。
Specifically, for example, the growth score setting unit 4
6 calculates, based on the growth model, a growth score indicating the degree of understanding of each word registered in the word dictionary in the growth state of the robot. For example,
Now, assuming that the probability that a certain word W can be understood in the growth state of the robot is P (W), the growth score setting unit 46 sets the growth score G (W) for the word W as
For example, it is calculated according to the following equation.

【0089】 G(W)=−log(P(W)) ・・・(2)G (W) = − log (P (W)) (2)

【0090】さらに、成長スコア設定部46は、成長ス
コアを、辞書記憶部44における単語辞書の、対応する
単語に対応付ける。従って、単語辞書は、一般には、単
語の表記等の単語を識別するための情報と、その単語の
音韻情報とが登録されたものとなっているが、辞書記憶
部44における単語辞書は、例えば、図8に示すよう
に、単語の表記と音韻情報の他、その単語に対する成長
スコアも登録されたものとなっている。ここで、図8に
おいては、単語「走れ」、「起きろ」、「歩け」、「お
手」、「お座り」、・・・に対して、10,20,3
0,40,50,・・・の成長スコアがそれぞれ登録さ
れている。
Further, the growth score setting section 46 associates the growth score with a corresponding word in the word dictionary in the dictionary storage section 44. Therefore, the word dictionary generally stores information for identifying a word such as a word notation and phonological information of the word. The word dictionary in the dictionary storage unit 44 is, for example, As shown in FIG. 8, the growth score for the word is registered in addition to the word notation and phonological information. Here, in FIG. 8, the words “run”, “get up”, “walk”, “hand”, “sit”,.
The growth scores of 0, 40, 50,... Are registered.

【0091】辞書記憶部44における単語辞書に、図8
に示したように、成長スコアが登録されている場合、マ
ッチング部42では、単語列に対するスコアが、音韻ス
コアおよび言語スコアだけでなく、成長スコアも考慮し
て求められる。即ち、マッチング部42では、式(1)
に替えて、例えば、式(3)にしたがって、スコアSが
計算される。
In the word dictionary in the dictionary storage unit 44, FIG.
As shown in (1), when the growth score is registered, the matching unit 42 obtains the score for the word string in consideration of not only the phonological score and the language score but also the growth score. That is, in the matching unit 42, the expression (1)
, The score S is calculated according to, for example, Expression (3).

【0092】 S=Σ(A(Wk)+Ck×L(Wk)+Dk×G(Wk)) ・・・(3) 但し、Gk(Wk)は、k番目の単語Wkに対する成長ス
コアを表し、Dkは、その成長スコアG(Wk)にかける
重みを表す。
S = Σ (A (W k ) + C k × L (W k ) + D k × G (W k )) (3) where G k (W k ) is the k-th word W represents a growth score for k , and D k represents a weight applied to the growth score G (W k ).

【0093】以上のように、マッチング部42における
スコアSの計算にあたって、成長スコアを導入すること
により、ロボットの成長状態に応じて、音声認識装置に
よる音声の認識精度が変化される。
As described above, when calculating the score S in the matching unit 42, the accuracy of speech recognition by the speech recognition device is changed according to the growth state of the robot by introducing a growth score.

【0094】即ち、例えば、成長状態が「幼児」である
場合には、図8の単語辞書において、単語「走れ」の成
長スコアが、他の単語の成長スコアに比較して小さくさ
れ、これにより、発話「走れ」の音声認識精度が低くさ
れる。その結果、例えば、「走れ」と発話がされた場合
には、その発話を正確に音声認識して、ロボットに「走
る」という行動をとらせるのが一般的であるが、ここで
は、いわば故意に、発話「走れ」を誤認識させて、ロボ
ットが「走る」という行動をとらせないようにする(あ
るいは、「走る」以外の行動をとらせるようにする)。
That is, for example, when the growth state is “infant”, the growth score of the word “run” in the word dictionary of FIG. 8 is made smaller than the growth scores of the other words. , The speech recognition accuracy of the utterance “run” is lowered. As a result, for example, when "Run" is uttered, it is common to make the robot take the action of "Run" by accurately recognizing the utterance as a voice, but here, so to speak, intentionally Then, the utterance "run" is erroneously recognized, and the robot is prevented from taking the action of "running" (or is caused to take an action other than "running").

【0095】そして、ロボットが成長するにしたがっ
て、単語「走れ」の成長スコアが徐々に大きくされ、そ
の結果、発話「走れ」が正確に音声認識されるようにな
り、ロボットは、その発話にしたがって、「走る」とい
う行動をとるようになる。
Then, as the robot grows, the growth score of the word “run” is gradually increased, and as a result, the utterance “run” is accurately recognized by speech, and the robot follows the utterance. , "Run".

【0096】ここで、例えば、人間を例にすれば、成長
(あるいは、学習)するにつれて、理解することのでき
る語彙が増加することから、上述のようにして、成長ス
コアに基づいて、音声認識精度を、成長モデルにしたが
って変化させることは、実際の人間の成長に合致するこ
とになる。
Here, for example, in the case of a human being, the vocabulary that can be understood increases as the person grows up (or learns). Therefore, the speech recognition is performed based on the growth score as described above. Changing the accuracy according to the growth model will be consistent with actual human growth.

【0097】次に、図9のフローチャートを参照して、
図7の音声認識装置の動作について、さらに説明する。
Next, referring to the flowchart of FIG.
The operation of the voice recognition device of FIG. 7 will be further described.

【0098】マイク9に音声が入力され、その音声に対
応するディジタルの音声データが、センサ入力処理部3
0に供給されると、その音声データは、特徴パラメータ
抽出部41に供給される。
A voice is input to the microphone 9, and digital voice data corresponding to the voice is input to the sensor input processing unit 3.
When the audio data is supplied to 0, the audio data is supplied to the feature parameter extraction unit 41.

【0099】特徴パラメータ抽出部41では、ステップ
S1において、音声データが音響分析されることによ
り、その特徴パラメータが時系列に抽出され、マッチン
グ部42に供給される。マッチング部42は、ステップ
S2において、特徴パラメータ抽出部41からの特徴パ
ラメータを用いて、式(3)にしたがい、成長スコアを
考慮したスコアの計算(マッチング)を行い、そのスコ
アに基づいて、マイク9に入力された音声の音声認識結
果を決定する。そして、ステップS3に進み、マッチン
グ部42は、その音声認識結果を、成長モデル部31、
感情/本能モデル部32、および行動決定部33に出力
し、処理を終了する。
In the feature parameter extracting section 41, in step S 1, the voice data is subjected to acoustic analysis, whereby the feature parameters are extracted in time series and supplied to the matching section 42. In step S2, the matching unit 42 uses the feature parameters from the feature parameter extraction unit 41 to calculate (match) a score in consideration of the growth score according to Expression (3), and based on the score, 9 to determine the speech recognition result of the speech input. Then, the process proceeds to step S3, where the matching unit 42 outputs the speech recognition result to the growth model unit 31,
The output is sent to the emotion / instinct model unit 32 and the action determination unit 33, and the process ends.

【0100】なお、上述の場合には、単語辞書に登録さ
れた単語の成長スコアを、成長モデルから得られるロボ
ットの成長状態に応じて変化(適応)させることで、音
声認識装置の音声認識精度を変えるようにしたが、音声
認識精度は、その他、例えば、ロボットの成長状態に応
じて、音響モデル記憶部43における音響モデルや、文
法記憶部45に記憶された文法規則を規定するパラメー
タを変更すること等によって変えるようにすることも可
能である。
In the above case, by changing (adapting) the growth score of a word registered in the word dictionary according to the growth state of the robot obtained from the growth model, the speech recognition accuracy of the speech recognition apparatus is changed. However, the speech recognition accuracy may be changed by changing, for example, an acoustic model in the acoustic model storage unit 43 or a parameter defining a grammar rule stored in the grammar storage unit 45 in accordance with a growth state of the robot. It is also possible to change it by doing.

【0101】また、音声認識装置では、単語辞書に登録
されている単語を対象として音声認識が行われるため、
単語辞書に登録する単語を変更することで、音声認識装
置が音声認識の対象とする単語を変えるようにすること
が可能である。即ち、例えば、成長モデルから得られる
ロボットの成長状態に応じて、順次、単語辞書に単語を
登録したり、あるいは、単語辞書に登録された単語を削
除し、音声認識の対象とする単語を変えるようにするこ
とが可能である。
In the speech recognition device, speech recognition is performed on words registered in the word dictionary.
By changing the words registered in the word dictionary, it is possible for the voice recognition device to change words to be subjected to voice recognition. That is, for example, in accordance with the growth state of the robot obtained from the growth model, words are sequentially registered in the word dictionary, or words registered in the word dictionary are deleted, and words to be subjected to speech recognition are changed. It is possible to do so.

【0102】さらに、上述の場合には、ロボットの成長
状態に応じて、音声認識装置の音声認識精度を変化させ
るようにしたが、音声認識精度は、ロボットの感情や本
能の状態に応じて変化させることも可能である。音声認
識精度を、ロボットの感情や本能の状態に応じて変化さ
せる場合には、図4に点線で示すように、感情/本能モ
デル部32からセンサ入力処理部30に対して、感情モ
デルおよび本能モデルを供給するようにするとともに、
図7に点線で示すように、これを、成長スコア設定部4
6で受信し、感情モデルや本能モデルから、成長スコア
と同様の感情スコアや本能スコアを求めて、単語辞書に
登録すれば良い。この場合、マッチング部42におい
て、感情スコアや本能スコアを考慮して、最終的なスコ
アを求めるようにすることで、音声認識精度を、ロボッ
トの感情や本能の状態に応じて変化させることができ
る。
Further, in the above case, the voice recognition accuracy of the voice recognition device is changed according to the growth state of the robot. However, the voice recognition accuracy is changed according to the emotion and the state of the instinct of the robot. It is also possible to make it. When the voice recognition accuracy is changed according to the state of the robot's emotion or instinct, the emotion / instinct model unit 32 sends the emotion model and instinct to the sensor input processing unit 30 as shown by the dotted line in FIG. To supply the model,
As shown by the dotted line in FIG.
6, the emotion score and the instinct score similar to the growth score are obtained from the emotion model and the instinct model and registered in the word dictionary. In this case, the matching unit 42 calculates the final score in consideration of the emotion score and the instinct score, so that the voice recognition accuracy can be changed according to the emotion and the state of the instinct of the robot. .

【0103】即ち、感情スコアや本能スコアを考慮する
場合には、ロボットの機嫌が良い状態のときには、例え
ば、単語「お手」や「お座り」の音声認識精度を向上さ
せ、これにより、発話「お手」や「お座り」を正しく音
声認識させ、対応する行動を起こさせることができる。
また、ロボットの機嫌が悪い状態のときには、例えば、
単語「お手」や「お座り」の音声認識精度を低下させ、
これにより、発話「お手」や「お座り」を誤認識させ
て、発話と関係ない行動を起こさせて、ロボットの不機
嫌さを表現することができる。
That is, when the emotion score and the instinct score are taken into consideration, when the robot is in a good mood, for example, the speech recognition accuracy of the words “hand” and “sit” is improved. "Hands" and "sitting" can be correctly recognized by speech, and corresponding actions can be taken.
Also, when the robot is in a bad mood, for example,
Decreases the voice recognition accuracy of the words "hand" and "sitting"
This makes it possible to misrecognize the utterance “hand” or “sitting”, cause an action unrelated to the utterance, and express the discomfort of the robot.

【0104】なお、図7の音声認識装置には、人間の音
声以外にも、例えば、拍手の音や、ロボットの各部を叩
く音、楽器の音、ロボットの周辺で発生する環境音、音
楽(曲)等の各種の音を音声として音声認識させること
が可能である。即ち、例えば、連続分布HMM法によっ
て音声認識が行われる場合には、音声認識対象とする音
声(音)をHMMにモデル化しておけば良い。そして、
人間の音声以外の音声(音)を対象として音声認識を行
う場合にも、その音声認識精度を、ロボットの成長状態
や、感情の状態、本能の状態に応じて変化させることが
可能である。
In addition to the human voice, the voice recognition device shown in FIG. 7 includes, for example, the sound of applause, the sound of hitting each part of the robot, the sound of musical instruments, the environmental sound generated around the robot, and the music ( Various sounds such as music) can be recognized as voice. That is, for example, when speech recognition is performed by the continuous distribution HMM method, the speech (sound) to be subjected to speech recognition may be modeled in the HMM. And
Even in the case of performing voice recognition on voices (sounds) other than human voices, the voice recognition accuracy can be changed according to the robot's growth state, emotional state, and instinct state.

【0105】次に、音声認識を行う場合には、音声認識
の対象とする単語すべてを、1つの単語辞書に登録して
おく他、音声認識の対象とする単語を、複数のグループ
に分け(但し、異なるグループに、同一の単語が属して
いてもかまわない)、各グループに属する単語ごとに、
単語辞書を構成しておくことがある。このように、音声
認識対象とする単語を複数のグループに分けて、複数の
単語辞書を用意する場合には、ある発話に対する音声認
識処理は、一般に、その複数の単語辞書の全部ではな
く、そのうちの1つ、あるいは2以上の単語辞書を用い
て行われる。
Next, when performing speech recognition, all words to be subjected to speech recognition are registered in one word dictionary, and words to be subjected to speech recognition are divided into a plurality of groups ( However, the same word may belong to different groups), and for each word belonging to each group,
Sometimes a word dictionary is constructed. As described above, when a plurality of word dictionaries are prepared by dividing words to be subjected to speech recognition into a plurality of groups, speech recognition processing for a certain utterance is generally performed not on all of the plurality of word dictionaries but on the whole. Is performed using one or two or more word dictionaries.

【0106】即ち、ある発話に対して、音声認識の対象
とする語彙数は、上述のように、CPU20の処理能力
やRAM22の容量の他、要求される認識精度によって
も制限を受ける。
That is, the number of words to be subjected to speech recognition for a certain utterance is limited by the required recognition accuracy in addition to the processing capacity of the CPU 20 and the capacity of the RAM 22 as described above.

【0107】そこで、複数の単語辞書を用意しておき、
ある発話の音声認識が、要求される認識精度等に基づい
て、用いる単語辞書を選択して行われる場合がある。
Therefore, a plurality of word dictionaries are prepared,
In some cases, voice recognition of a certain utterance is performed by selecting a word dictionary to be used based on required recognition accuracy or the like.

【0108】また、音声認識の対象とする単語を、例え
ば、旅行、野球、ニュースなどといったドメイン(テー
マ)ごとにグループ化して、複数の単語辞書を構成し、
音声認識が行われる場面に応じて、用いる単語辞書を選
択するようにして、特定のテーマに含まれる固有名詞
(例えば、地域名や、野球選手の名前、会社名など)な
どの音声認識性能を向上させる場合もある。
Also, words to be subjected to voice recognition are grouped for each domain (theme) such as travel, baseball, news, etc., to form a plurality of word dictionaries.
Select a word dictionary to be used according to the situation where speech recognition is performed, and improve the speech recognition performance of proper nouns (for example, names of regions, names of baseball players, company names, etc.) included in a specific theme. In some cases, it can be improved.

【0109】このように、複数の単語辞書を構成して、
用いる単語辞書を選択し、音声認識を行うことは、図7
の音声認識装置にも適用することができる。
Thus, a plurality of word dictionaries are constructed,
Selecting a word dictionary to be used and performing speech recognition is performed by using the method shown in FIG.
The present invention can also be applied to a voice recognition device.

【0110】即ち、例えば、いま、音声認識の対象とす
る単語を、Q個のグループに分け、これにより、各グル
ープに対応するQ個の単語辞書D1,D2,・・・,DQ
を構成して、辞書記憶部44に記憶させておく。
That is, for example, the words to be subjected to speech recognition are now divided into Q groups, whereby the Q word dictionaries D 1 , D 2 ,..., D Q corresponding to each group are obtained.
And stored in the dictionary storage unit 44.

【0111】さらに、成長スコア設定部46には、上述
のQ個の単語辞書D1乃至DQそれぞれについて、ロボッ
トの成長状態に応じて割り当てる成長スコアを対応付け
た、例えば、図10に示すような辞書成長スコアテーブ
ルを作成して記憶させておく。
Further, the growth score setting section 46 is associated with a growth score to be assigned to each of the Q word dictionaries D 1 to D Q according to the growth state of the robot. For example, as shown in FIG. A new dictionary growth score table is created and stored.

【0112】ここで、図10においては、例えば、図5
(A)に示した成長モデルの各ノードで表されるロボッ
トの成長状態に対して、各単語辞書D1乃至DQそれぞれ
に対する成長スコアが設定されている。
Here, in FIG. 10, for example, FIG.
A growth score for each of the word dictionaries D 1 to D Q is set for the growth state of the robot represented by each node of the growth model shown in FIG.

【0113】図10の辞書成長スコアテーブルによれ
ば、現在のロボットの成長状態(を表すノード)から、
単語辞書D1乃至DQそれぞれに対する成長スコアが決定
される。
According to the dictionary growth score table shown in FIG. 10, from the current robot growth state (node representing),
A growth score for each of the word dictionaries D 1 to D Q is determined.

【0114】成長スコア設定部46は、単語辞書D1
至DQそれぞれの単語に対して、辞書成長スコアテーブ
ルに基づいて決定される成長スコアを、上述した場合と
同様に登録し、マッチング部42では、その成長スコア
を考慮して、マッチング処理が行われる。
The growth score setting unit 46 registers the growth score determined based on the dictionary growth score table for each of the words in the word dictionaries D 1 to D Q in the same manner as described above, and Then, a matching process is performed in consideration of the growth score.

【0115】但し、ある1つの単語が、2以上の単語辞
書に登録されている場合には、その単語には、その2以
上の単語辞書に対する成長スコアのうち、例えば、最も
大きい値が登録される。また、いまの場合、例えば、成
長スコアが0の単語は、音声認識の対象とされない。即
ち、ここでは、0より大きい値の成長スコアが設定され
ている単語辞書に登録されている単語だけを対象とし
て、音声認識が行われる。
If a certain word is registered in two or more word dictionaries, for example, the largest value among the growth scores for the two or more word dictionaries is registered in the word. You. In this case, for example, a word having a growth score of 0 is not targeted for speech recognition. That is, here, speech recognition is performed only for words registered in a word dictionary in which a growth score greater than 0 is set.

【0116】以上のように、単語辞書に対して、成長ス
コアを設定することによっても、ロボットの成長状態に
応じて、音声認識精度を変化させることができる。
As described above, by setting a growth score for the word dictionary, the speech recognition accuracy can be changed according to the growth state of the robot.

【0117】即ち、例えば、いま、図10の辞書成長ス
コアテーブルにおいて、成長状態が「新生児」である場
合の、単語辞書D1に対する成長スコアを70とすると
ともに、単語辞書D2に対する成長スコアを30とし、
他の単語辞書D3乃至DQに対する成長スコアを0として
おく。さらに、成長状態が「幼児」である場合の、単語
辞書D1乃至D3に対する成長スコアを、それぞれ40,
10,50とするとともに、他の単語辞書D4乃至DQ
対する成長スコアを0としておく。
[0117] That is, for example, now, in the dictionary growth score table of FIG. 10, when the growth status is "neonatal", together with the growth scores for the word dictionary D 1 and 70, the growth score for the word dictionary D 2 30 and
Growth scores for other word dictionary D 3 to D Q keep zero. Further, when the growth state is “infant”, the growth scores for the word dictionaries D 1 to D 3 are 40, respectively.
With a 10, 50, keep the 0 growth score for another word dictionary D 4 to D Q.

【0118】この場合、成長状態が「新生児」のときに
は、単語辞書D1に登録された単語と、単語辞書D2に登
録された単語のみを対象に音声認識が行われる。従っ
て、単語辞書D1とD2に登録されている単語が、例え
ば、「はいはい」、「パパ」、および「ママ」の3単語
だけであれば、この3単語に対応する発話のみが、正確
に音声認識される。
In this case, when the growth state is “newborn”, speech recognition is performed only on the words registered in the word dictionary D 1 and the words registered in the word dictionary D 2 . Therefore, if the words registered in the word dictionaries D 1 and D 2 are, for example, only three words “yes yes”, “papa”, and “mama”, only the utterance corresponding to these three words is accurate. Is recognized.

【0119】なお、いまの場合、単語辞書D1に対する
成長スコアを70とするとともに、単語辞書D2に対す
る成長スコアを30としており、従って、単語辞書D1
の成長スコアの方が、単語辞書D2の成長スコアよりも
大きいため、単語辞書D2に登録されている単語より
は、単語辞書D1に登録されている単語の方が、より正
確に音声認識される。
In this case, the growth score for the word dictionary D 1 is set to 70, and the growth score for the word dictionary D 2 is set to 30, so that the word dictionary D 1
Towards growth score is larger than the growth score of the word dictionary D 2, from the words registered in the word dictionary D 2, found the following words registered in the word dictionary D 1, more accurately speech Be recognized.

【0120】その後、ロボットが成長し、成長状態が
「幼児」になると、単語辞書D1およびD2の他、単語辞
書D3に登録された単語も対象として音声認識が行われ
る。従って、単語辞書D3に登録されている単語が、例
えば、「お手」および「お座り」の2単語であれば、上
述の「はいはい」、「パパ」、および「ママ」の3単語
に加えて、「お手」や「お座り」に対応する発話も、正
確に音声認識することができるようになる。
[0120] Then, the robot grows, the growth state becomes "infant", another word dictionary D 1 and D 2, even words registered in the word dictionary D 3 speech recognition is performed as a target. Therefore, if the words registered in the word dictionary D 3 are, for example, two words “hand” and “sitting”, the words “yes yes”, “papa”, and “mama” are three words. In addition, utterances corresponding to “hand” and “sitting” can be accurately recognized.

【0121】なお、いまの場合、成長状態が「新生児」
から「幼児」になると、単語辞書D 1に対する成長スコ
アは70から40に、単語辞書D2に対する成長スコア
は30から10に、それぞれ低下する。従って、単語辞
書D1およびD2に登録された単語の認識精度は、成長状
態が「新生児」から「幼児」になると低下する。さら
に、成長状態が「幼児」の場合には、単語辞書D3に対
する成長スコアは50であり、単語辞書D1およびD2
対する成長スコアのいずれよりも大きい。その結果、成
長状態が「幼児」になると、上述のように、「はいは
い」、「パパ」、および「ママ」の3単語に加えて、
「お手」や「お座り」に対応する発話も音声認識するこ
とが可能となるが、「はいはい」、「パパ」、および
「ママ」に対応する発話の音声認識精度は、「お手」お
よび「お座り」に対する発話の音声認識精度よりも劣化
する。即ち、成長するにつれて、ロボットは、「はいは
い」、「パパ」、および「ママ」といった幼児期に使用
される単語を理解することができなくなっていく。
In this case, the growth state is “newborn”
From the word "infant", the word dictionary D 1Growth against
A from 70 to 40, word dictionary DTwoGrowth score for
Decreases from 30 to 10, respectively. Therefore, the word letter
Letter D1And DTwoThe recognition accuracy of words registered in
It decreases when the condition changes from "newborn" to "infant". Further
If the growth state is "infant", the word dictionary DThreeTo
Growth score is 50, and the word dictionary D1And DTwoTo
Greater than any of the growth scores. As a result,
When the long state becomes "infant", as described above, "Yes
I "," Daddy ", and" Mama "
Speech corresponding to "hand" or "sitting" can also be recognized.
Is possible, but "yes yes", "papa", and
The speech recognition accuracy of the utterance corresponding to "Mama" is
Deterioration of speech utterances for "sit" and "sit down"
I do. In other words, as they grow, robots say, "Yes
Used in early childhood such as "I", "Dad", and "Mama"
You will not be able to understand the word.

【0122】以上のように、複数の単語辞書を構成し
て、用いる単語辞書を選択し、音声認識を行うことは、
ハードウェア上等の制約がある場合には、その制約の範
囲内で音声認識を行うことが可能となるから便宜であ
る。
As described above, configuring a plurality of word dictionaries, selecting a word dictionary to be used, and performing speech recognition is as follows.
When there is a restriction on hardware or the like, it is convenient because speech recognition can be performed within the range of the restriction.

【0123】なお、上述のように複数の単語辞書を用意
して音声認識を行う場合には、各単語辞書に対して成長
スコアを割り当てる他、上述の感情スコアや本能スコア
を割り当てるようにすることも可能である。
When a plurality of word dictionaries are prepared and speech recognition is performed as described above, a growth score is assigned to each word dictionary, and the emotion score and the instinct score described above are assigned. Is also possible.

【0124】また、成長モデルとして、図5(A)では
なく、図5(B)に示したような木構造状のものを用い
る場合には、図10の辞書成長スコアテーブルには、図
5(B)の各ノードに対応する成長状態に、単語辞書の
成長スコアを割り当てることが可能である。この場合、
図5(B)において、例えば、「幼児」の成長状態は、
ノードNODE1-0とNODE1-1の2状態があるが、同
じ「幼児」の成長状態であっても、ノードNODE1-0
に対応する成長状態となった場合と、ノードNODE
1-1に対応する成長状態となった場合とで、音声認識可
能な単語や、音声認識精度を、異なるものとすることが
できる。
When a tree model as shown in FIG. 5B is used instead of the growth model shown in FIG. 5A, the dictionary growth score table shown in FIG. It is possible to assign a growth score of the word dictionary to a growth state corresponding to each node in (B). in this case,
In FIG. 5B, for example, the growth state of “infant”
There are two states of nodes NODE 1-0 and NODE 1-1, even in growing conditions of the same "infant", the node NODE 1-0
And the node NODE
The speech recognizable word and the speech recognition accuracy can be different between the case where the growth state corresponds to 1-1 .

【0125】即ち、例えば、ノードNODE0に対応す
る成長状態「新生児」から、ノードNODE1-0に対応
する成長状態「幼児」に成長した場合には、成長状態が
「新生児」のときに音声認識可能であった発話「はいは
い」、「パパ」、および「ママ」に加えて、「お手」や
「お座り」に対応する発話も音声認識可能なようにする
ことができる。これに対して、ノードNODE0に対応
する成長状態「新生児」から、ノードNODE1-1に対
応する成長状態「幼児」に成長した場合には、成長状態
が「新生児」のときに音声認識可能であった発話「はい
はい」、「パパ」、および「ママ」は音声認識不可にし
て、「お手」や「お座り」に対応する発話だけ音声認識
可能なようにすることができる。
That is, for example, when the growth state “newborn” corresponding to the node NODE 0 grows to the growth state “infant” corresponding to the node NODE 1-0 , the voice is output when the growth state is “newborn”. In addition to the recognizable utterances “Yes Yes”, “Dad”, and “Mama”, utterances corresponding to “Hand” and “Sit” can be recognized by voice. On the other hand, when the child grows from the growth state “newborn” corresponding to the node NODE 0 to the growth state “infant” corresponding to the node NODE 1-1 , voice recognition is possible when the growth state is “newborn”. The utterances "Yes Yes", "Dad", and "Mama" can be made speech-recognizable and only the speech corresponding to "hand" or "sitting" can be speech-recognized.

【0126】次に、図7の音声認識装置において、辞書
記憶部44における単語辞書に登録されていない単語
(未知語)に対応する発話については、正確な音声認識
結果を得ることができない。
Next, in the speech recognition apparatus of FIG. 7, an accurate speech recognition result cannot be obtained for an utterance corresponding to a word (unknown word) not registered in the word dictionary in the dictionary storage unit 44.

【0127】そこで、未知語の正確な音声認識を可能と
するために、単語辞書には、新たに、単語を登録するよ
うにすることができる。単語辞書への単語の登録は、例
えば、ロボットに、入力用のインタフェースを設けてキ
ーボード等を接続し、そのキーボードを操作することに
より、新たな単語の表記と読み(音韻)を与えること等
によって行うことが可能である。
Therefore, in order to enable accurate speech recognition of an unknown word, a new word can be registered in the word dictionary. Registration of words in the word dictionary is performed, for example, by providing a robot with an input interface, connecting a keyboard or the like, and operating the keyboard to give new word expressions and pronunciations (phonemes). It is possible to do.

【0128】単語辞書に登録して音声認識の対象とする
単語の数は、上述したように、CPU20やRAM2
2、あるいは認識精度上の問題から制約されることがあ
るが、ここでは、そのような問題による制約を受けない
範囲で、単語辞書に新たに登録する単語の数を制限する
ようにすることができる。
As described above, the number of words registered in the word dictionary and subjected to voice recognition can be determined by the CPU 20 or the RAM 2.
2. In some cases, the number of words to be newly registered in the word dictionary is limited within a range that is not restricted by such problems. it can.

【0129】即ち、単語辞書に新たに登録する単語の数
は、ロボットの成長状態に応じて制限することができ
る。具体的には、例えば、成長状態が「新生児」の場合
は、新たに登録可能な単語数は、数単語とし、ロボット
が成長するにしたがって、数十単語、数百単語と増加さ
せていくことができる。この場合、ロボットが理解可能
な単語が、成長に伴って増加していくことになる。
That is, the number of words newly registered in the word dictionary can be limited according to the growth state of the robot. Specifically, for example, when the growth state is "newborn", the number of words that can be newly registered is set to several words, and is increased to tens or hundreds of words as the robot grows. Can be. In this case, the words that the robot can understand will increase with growth.

【0130】なお、単語辞書に新たに登録する単語の数
は、その他、上述の感情スコアや本能スコアに基づいて
変化させることが可能である。
Note that the number of words newly registered in the word dictionary can be changed based on the emotion score and the instinct score described above.

【0131】また、センサ入力処理部30では、音声認
識の他、カメラ8からの画像の認識が行われるが、この
画像認識においても、あらかじめ認識可能な色や顔等の
パターンに加えて、後から、新たに画像認識対象とする
色や顔のパターンを登録することが可能である。そし
て、この場合も、新たに登録可能な色や顔のパターン数
を、ロボットの成長状態や、感情または本能の状態応じ
て変化させることが可能である。
The sensor input processing unit 30 recognizes an image from the camera 8 in addition to the voice recognition. In this image recognition, in addition to a pattern such as a color and a face which can be recognized in advance, the image is recognized later. Thus, it is possible to newly register a color or a face pattern to be subjected to image recognition. Also in this case, the number of colors and face patterns that can be newly registered can be changed according to the growth state of the robot and the state of emotion or instinct.

【0132】次に、図7の音声認識装置では、上述した
ように、スコアを最も高くする単語列が、音声認識結果
として出力されるが、一般に、音声認識結果は、正確な
ことが望ましい。
Next, in the speech recognition apparatus of FIG. 7, as described above, the word string having the highest score is output as the speech recognition result. In general, it is desirable that the speech recognition result be accurate.

【0133】しかしながら、ロボットに適用される図7
の音声認識装置では、故意に誤認識結果を出力すること
で、ロボットとのやりとりを楽しくすることが可能とな
る。即ち、例えば、漫才においては、会話の相手が、発
話者の発話した単語を、音響的に類似する単語に捉え
て、いわゆる「ボケ」を演出し、その「ボケ」に対し
て、発話者が、いわゆる「ツッコミ」を行う場合がある
が、音声認識装置において、故意に、誤った音声認識結
果を出力することで、このような「ボケ」や「ツッコ
ミ」を、ロボットに行わせることが可能となる。
However, FIG.
In the voice recognition device of the above, it is possible to make the interaction with the robot fun by intentionally outputting an erroneous recognition result. That is, for example, in the case of a comic artist, the conversation partner views a word spoken by the speaker as an acoustically similar word, and produces a so-called “bokeh”. In some cases, so-called "tsukkomi" is performed, but in a voice recognition device, such "blurring" or "tsukkomi" can be performed by a robot by intentionally outputting an incorrect voice recognition result. Becomes

【0134】「ボケ」は、例えば、次のようにして実現
することができる。
“Blur” can be realized, for example, as follows.

【0135】即ち、単語辞書には、図11に示すよう
に、音声認識対象とする単語の表記および音韻情報に、
その単語と音響的に類似しているが意味が異なる単語、
あるいはその単語と音響的には類似していないが、その
単語から連想される単語(以下、適宜、置換単語情報)
を対応付けて登録しておく。そして、マッチング部42
には、音声認識結果として得た、単語辞書に登録された
単語ではなく、その単語に対応付けられている置換単語
情報を、最終的な音声認識結果として出力させる。
That is, in the word dictionary, as shown in FIG.
Words that are acoustically similar to the word but have a different meaning,
Alternatively, a word that is not acoustically similar to the word but is associated with the word (hereinafter referred to as replacement word information as appropriate)
Are registered in association with each other. Then, the matching unit 42
, Instead of words registered in the word dictionary obtained as a result of speech recognition, replacement word information associated with the words is output as a final speech recognition result.

【0136】この場合、行動決定部33では、その最終
的な音声認識結果である置換単語情報に基づいて、次に
起こす行動が決定されるため、ロボットは、使用者の発
話内容に対応しない「ボケ」た行動を行うことになる。
In this case, since the action determining unit 33 determines the action to be performed next based on the replacement word information as the final speech recognition result, the robot does not correspond to the utterance content of the user. You will be performing a blurred action.

【0137】なお、このような「ボケ」は、その他、例
えば、上述のように、複数の単語辞書を用意しておき、
ある単語辞書を用いるべきところを、他の単語辞書を用
いて音声認識を行うことで、使用者の発話した単語と音
響的に類似した他の単語を、音声認識結果として得るこ
とができるようにすることによっても実現可能である。
In addition, such a “bokeh” is prepared by preparing a plurality of word dictionaries as described above, for example.
By performing speech recognition using a certain word dictionary and using another word dictionary, other words that are acoustically similar to the words spoken by the user can be obtained as speech recognition results. This can also be realized.

【0138】ここで、上述のように、音声認識装置に、
故意に、誤った音声認識結果を出力させることは、例え
ば、「ボケ」るか、「ボケ」ないかの2状態を有する状
態遷移モデル等を用いて、ランダムに、しかも稀に行う
ようにするのが望ましい。また、この場合、状態遷移モ
デルにおける状態の遷移の仕方は、例えば、成長モデル
や、感情モデル、本能モデルに基づいて変更することが
可能である。
Here, as described above, the voice recognition device
Intentionally outputting an erroneous speech recognition result is performed randomly and rarely using, for example, a state transition model having two states of “blurred” and “blurred”. It is desirable. Further, in this case, the way of state transition in the state transition model can be changed based on, for example, a growth model, an emotion model, or an instinct model.

【0139】次に、使用者が「ボケ」た発話を行った場
合には、ロボットにおいて、その「ボケ」に対して、
「ツッコミ」の行動を行うようにすることが、例えば、
上述の「ボケ」を実現する場合と同様に可能である。
Next, when the user makes an utterance that is “blurred”, the robot responds to the “blurred”
Performing "tsukkomi" actions, for example,
This is possible as in the case of realizing the above-described “blur”.

【0140】即ち、音声認識装置において、使用者が
「ボケ」た発話(誤った発話)を行ったかどうかを認識
することは困難であるから、図11に示したように、音
声認識対象とする単語の表記および音韻情報に、置換単
語情報を対応付けて、単語辞書に登録しておき、マッチ
ング部42には、音声認識結果として得た、単語辞書に
登録された単語ではなく、その単語に対応付けられてい
る置換単語情報を、最終的な音声認識結果として出力さ
せる。
That is, it is difficult for the voice recognition device to recognize whether or not the user has made a "blurred" utterance (erroneous utterance). Therefore, as shown in FIG. Replacement word information is associated with the notation and phonological information of the word and registered in the word dictionary, and the matching unit 42 uses the word, not the word registered in the word dictionary, obtained as a speech recognition result, but the word. The associated replacement word information is output as the final speech recognition result.

【0141】使用者が「ボケ」た発話を行った場合に
は、その発話に対応して、音声認識装置が出力する音声
認識結果としての置換単語情報は、使用者が本来発話す
べきであった単語となり、行動決定部33では、そのよ
うな置換単語情報に基づいて、次に起こす行動が決定さ
れるため、ロボットは、使用者の「ボケ」た発話に対し
て、「ツッコミ」の行動を行うことになる。
When the user utters a “blurred” utterance, the replacement word information as the speech recognition result output by the speech recognition device should correspond to the utterance, and the user should originally utter the utterance. Since the action determining unit 33 determines the next action to be taken based on such replacement word information, the robot determines the action of "tsukkomi" in response to the user's "blurred" utterance. Will be done.

【0142】以上のように、ロボットの状態に基づい
て、音声認識処理を制御するようにしたので、ロボット
の成長等の状態にあわせて変化する音声認識処理が行わ
れ、その結果、エンタテイメント性の高いロボットを提
供すること等が可能となる。
As described above, since the voice recognition processing is controlled based on the state of the robot, the voice recognition processing that changes in accordance with the state of the robot, such as growth, is performed. It is possible to provide a high robot and the like.

【0143】なお、本実施の形態においては、本発明
を、エンターテイメント用のロボット(疑似ペットとし
てのロボット)に適用した場合について説明したが、本
発明は、これに限らず、例えば、産業用のロボット等の
各種のロボットに広く適用することが可能である。
In this embodiment, the case where the present invention is applied to an entertainment robot (robot as a pseudo pet) has been described. However, the present invention is not limited to this. It can be widely applied to various robots such as robots.

【0144】また、本実施の形態においては、ロボット
に行動を行わせるための駆動手段としてモータ71乃至
Nを用いるようにしたが、本発明はこれに限らず、要
は、外界に対して作用をもたらす行動(動作)を発現で
きるのであれば、駆動手段として、他のアクチュエータ
や、スピーカ、ブザー、照明装置等を広く用いることが
できる。
[0144] Further, in this embodiment, has been to use a motor 7 1 to 7 N as a driving means for causing an action to the robot, the present invention is not limited to this, short, with respect to the outside world Other actuators, speakers, buzzers, lighting devices, and the like can be widely used as the driving means as long as the action (operation) that brings about the action can be realized.

【0145】さらに、本実施の形態においては、上述し
た一連の処理を、CPU20にプログラムを実行させる
ことにより行うようにしたが、一連の処理は、それ専用
のハードウェアによって行うことも可能である。
Furthermore, in the present embodiment, the above-described series of processing is performed by causing the CPU 20 to execute a program, but the series of processing may be performed by dedicated hardware. .

【0146】なお、プログラムは、あらかじめプログラ
ムメモリ21(図3)に記憶させておく他、フロッピー
ディスク、CD-ROM(Compact Disc Read Only Memory),M
O(Magneto optical)ディスク,DVD(Digital Versatile
Disc)、磁気ディスク、半導体メモリなどのリムーバブ
ル記録媒体に、一時的あるいは永続的に格納(記録)し
ておくことができる。そして、このようなリムーバブル
記録媒体を、いわゆるパッケージソフトウエアとして提
供し、ロボット(プログラムメモリ21)にインストー
ルするようにすることができる。
The program is stored in the program memory 21 (FIG. 3) in advance, and is stored on a floppy disk, CD-ROM (Compact Disc Read Only Memory), M
O (Magneto optical) disc, DVD (Digital Versatile)
Disc), a magnetic disk, a semiconductor memory, or another removable recording medium, which can be temporarily or permanently stored (recorded). Then, such a removable recording medium can be provided as so-called package software, and can be installed in the robot (program memory 21).

【0147】また、プログラムは、リムーバブル記録媒
体からインストールする他、ダウンロードサイトから、
ディジタル衛星放送用の人工衛星を介して、無線で転送
したり、LAN(Local Area Network)、インターネットと
いったネットワークを介して、有線で転送し、プログラ
ムメモリ21にインストールすることができる。
In addition to installing the program from a removable recording medium, the program can be downloaded from a download site.
It can be transmitted wirelessly via an artificial satellite for digital satellite broadcasting, or transmitted via a cable via a network such as a LAN (Local Area Network) or the Internet, and can be installed in the program memory 21.

【0148】この場合、プログラムがバージョンアップ
されたとき等に、そのバージョンアップされたプログラ
ムを、プログラムメモリ21に、容易にインストールす
ることができる。
In this case, when the program is upgraded, the upgraded program can be easily installed in the program memory 21.

【0149】ここで、本明細書において、CPU20に
各種の処理を行わせるためのプログラムを記述する処理
ステップは、必ずしもフローチャートとして記載された
順序に沿って時系列に処理する必要はなく、並列的ある
いは個別に実行される処理(例えば、並列処理あるいは
オブジェクトによる処理)も含むものである。
Here, in this specification, processing steps for describing a program for causing the CPU 20 to perform various processes do not necessarily have to be processed in chronological order according to the order described in the flowchart, and may be performed in parallel. Alternatively, it also includes processing executed individually (for example, parallel processing or processing by an object).

【0150】また、プログラムは、1のCPUにより処
理されるものであっても良いし、複数のCPUによって
分散処理されるものであっても良い。
Further, the program may be processed by one CPU or may be processed by a plurality of CPUs in a distributed manner.

【0151】さらに、本実施の形態では、連続分布HM
M法にしたがって、音声認識を行うようにしたが、音声
認識は、連続分布HMM法による他、例えば、スペクト
ル波形どうしのマッチング等によって行うことも可能で
ある。
Further, in the present embodiment, the continuous distribution HM
Although the speech recognition is performed in accordance with the M method, the speech recognition may be performed by, for example, matching between spectral waveforms in addition to the continuous distribution HMM method.

【0152】[0152]

【発明の効果】本発明の音声認識装置および音声認識方
法、並びに記録媒体によれば、ロボットの状態に基づい
て、音声認識処理が制御されるので、ロボットの成長等
の状態にあわせて変化する音声認識処理を実現すること
ができ、その結果、ロボットのエンタテイメント性の向
上等を図ることが可能となる。
According to the voice recognition apparatus, the voice recognition method, and the recording medium of the present invention, the voice recognition processing is controlled based on the state of the robot, so that it changes according to the state of the robot such as growth. The voice recognition processing can be realized, and as a result, it is possible to improve the entertainment property of the robot.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明を適用したロボットの一実施の形態の外
観構成例を示す斜視図である。
FIG. 1 is a perspective view illustrating an external configuration example of a robot according to an embodiment of the present invention.

【図2】ロボットの内部構成を示すブロック図である。FIG. 2 is a block diagram illustrating an internal configuration of the robot.

【図3】制御部11のハードウェア構成例を示すブロッ
ク図である。
FIG. 3 is a block diagram illustrating a hardware configuration example of a control unit 11;

【図4】制御部11がプログラムが実行することにより
実現される、制御部11の機能的構成例を示すブロック
図である。
FIG. 4 is a block diagram illustrating a functional configuration example of the control unit 11, which is realized by the control unit 11 executing a program.

【図5】成長モデルを示す図である。FIG. 5 is a diagram showing a growth model.

【図6】行動モデルを示す図である。FIG. 6 is a diagram showing an action model.

【図7】センサ入力処理部30における音声認識を行う
部分としての音声認識装置の構成例を示すブロック図で
ある。
FIG. 7 is a block diagram showing a configuration example of a voice recognition device as a portion for performing voice recognition in a sensor input processing unit 30;

【図8】単語辞書を示す図である。FIG. 8 is a diagram showing a word dictionary.

【図9】図7の音声認識装置の動作を説明するためのフ
ローチャートである。
FIG. 9 is a flowchart for explaining the operation of the speech recognition device in FIG. 7;

【図10】辞書成長スコアテーブルを示す図である。FIG. 10 is a diagram showing a dictionary growth score table.

【図11】「ボケ」を実現するための単語辞書を示す図
である。
FIG. 11 is a diagram showing a word dictionary for realizing “blur”.

【符号の説明】[Explanation of symbols]

1 尻尾ユニット, 2 胴体部ユニット, 3 頭部
ユニット, 4A乃至4D 大腿部ユニット, 5A乃
至5D 脛部ユニット, 6A乃至6D 脚部ユニッ
ト, 71乃至7N モータ, 8 カメラ, 9 マイ
ク, 10 圧力センサ, 11 制御部, 121
至12N ロータリエンコーダ, 20 CPU, 2
1 プログラムメモリ, 22 RAM, 23 不揮
発性メモリ,24 I/F, 25 モータドライバ,
30 センサ入力処理部, 31成長モデル部, 3
2 感情/本能モデル部, 33 行動決定部, 33
A行動モデル記憶部, 34 姿勢遷移部, 35 モ
ータ制御部, 41 特徴パラメータ抽出部, 42
マッチング部, 43 音響モデル記憶部, 44 辞
書記憶部, 45 文法記憶部, 46 成長スコア設
定部
1 tail unit, 2 body unit, 3 head unit, 4A to 4D thigh units, 5A to 5D shin unit, 6A to 6D leg units 7 1 to 7 N motor, 8 cameras, 9 microphone, 10 Pressure sensor, 11 control unit, 12 1 to 12 N rotary encoder, 20 CPU, 2
1 program memory, 22 RAM, 23 non-volatile memory, 24 I / F, 25 motor driver,
30 sensor input processing unit, 31 growth model unit, 3
2 Emotion / Instinct Model Department, 33 Action Decision Department, 33
A behavior model storage unit, 34 posture transition unit, 35 motor control unit, 41 feature parameter extraction unit, 42
Matching unit, 43 acoustic model storage unit, 44 dictionary storage unit, 45 grammar storage unit, 46 growth score setting unit

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 15/06 G10L 3/00 521F 15/10 521V 531G ──────────────────────────────────────────────────続 き Continued on the front page (51) Int.Cl. 7 Identification symbol FI Theme coat ゛ (Reference) G10L 15/06 G10L 3/00 521F 15/10 521V 531G

Claims (11)

【特許請求の範囲】[Claims] 【請求項1】 ロボットに内蔵される音声認識装置であ
って、 音声を認識する音声認識手段と、 前記ロボットの状態に基づいて、前記音声認識手段を制
御する制御手段とを備えることを特徴とする音声認識装
置。
1. A voice recognition device built in a robot, comprising: voice recognition means for recognizing voice; and control means for controlling the voice recognition means based on a state of the robot. Voice recognition device.
【請求項2】 制御手段は、前記ロボットの成長、感
情、または本能の状態に基づいて、前記音声認識手段を
制御することを特徴とする請求項1に記載の音声認識装
置。
2. The speech recognition apparatus according to claim 1, wherein the control means controls the speech recognition means based on a growth, an emotion, or an instinct state of the robot.
【請求項3】 前記制御手段は、前記ロボットの状態に
基づいて、前記音声認識手段の音声認識精度を変更する
ことを特徴とする請求項1に記載の音声認識装置。
3. The speech recognition device according to claim 1, wherein the control unit changes the speech recognition accuracy of the speech recognition unit based on a state of the robot.
【請求項4】 前記音声認識手段は、音声認識の対象と
する語彙が登録された辞書を記憶する辞書記憶手段を有
し、 前記制御手段は、前記辞書に登録された語彙に対して、
前記ロボットの状態に対応する重みを付して音声認識を
行うように、前記音声認識手段を制御することを特徴と
する請求項1に記載の音声認識装置。
4. The speech recognition unit has a dictionary storage unit that stores a dictionary in which vocabulary to be subjected to speech recognition is registered, and the control unit is configured to control a vocabulary registered in the dictionary.
The voice recognition device according to claim 1, wherein the voice recognition unit is controlled so as to perform voice recognition with a weight corresponding to the state of the robot.
【請求項5】 前記音声認識手段は、音声認識の対象と
する語彙が分けて登録された複数の辞書を記憶する辞書
記憶手段を有し、 前記制御手段は、前記複数の辞書に対して、前記ロボッ
トの状態に対応する重みを付して音声認識を行うよう
に、前記音声認識手段を制御することを特徴とする請求
項1に記載の音声認識装置。
5. The speech recognition unit includes a dictionary storage unit that stores a plurality of dictionaries in which vocabularies to be subjected to speech recognition are separately registered. The control unit is configured to: The voice recognition device according to claim 1, wherein the voice recognition unit is controlled so as to perform voice recognition with a weight corresponding to the state of the robot.
【請求項6】 前記音声認識手段は、音声認識の対象と
する語彙が、他の語彙と対応付けられて登録された辞書
を記憶する辞書記憶手段を有し、 前記制御手段は、前記ロボットの状態に基づいて、前記
辞書において、音声認識結果としての語彙に対応付けら
れている前記他の語彙を、最終的な音声認識結果として
出力するように、前記音声認識手段を制御することを特
徴とする請求項1に記載の音声認識装置。
6. The voice recognition unit includes a dictionary storage unit that stores a dictionary in which a vocabulary to be subjected to voice recognition is registered in association with another vocabulary. Controlling, based on the state, the voice recognition unit to output the other vocabulary associated with the vocabulary as a voice recognition result in the dictionary as a final voice recognition result. The voice recognition device according to claim 1.
【請求項7】 前記辞書には、音声認識の対象とする語
彙が、その語彙と音響的に類似しているまたは意味的に
関連する他の語彙と対応付けられて登録されていること
を特徴とする請求項6に記載の音声認識装置。
7. A vocabulary to be subjected to speech recognition is registered in the dictionary in association with another vocabulary acoustically similar or semantically related to the vocabulary. The voice recognition device according to claim 6, wherein
【請求項8】 前記音声認識手段は、音声認識の対象と
する語彙が登録される辞書を記憶する辞書記憶手段を有
し、 前記制御手段は、前記ロボットの状態に基づいて、前記
辞書に登録可能な語彙の数を制御することを特徴とする
請求項1に記載の音声認識装置。
8. The speech recognition means has a dictionary storage means for storing a dictionary in which vocabulary to be subjected to speech recognition is registered, and the control means registers in the dictionary based on a state of the robot. The speech recognition device according to claim 1, wherein the number of possible vocabularies is controlled.
【請求項9】 前記ロボットは、前記音声認識手段が出
力する音声認識結果に基づいて、所定の行動を起こすこ
とを特徴とする請求項1に記載の音声認識装置。
9. The voice recognition device according to claim 1, wherein the robot takes a predetermined action based on a voice recognition result output by the voice recognition unit.
【請求項10】 ロボットに内蔵される音声認識装置の
音声認識方法であって、 音声を認識する音声認識ステップと、 前記ロボットの状態に基づいて、前記音声認識ステップ
を制御する制御ステップとを備えることを特徴とする音
声認識方法。
10. A voice recognition method for a voice recognition device built in a robot, comprising: a voice recognition step of recognizing voice; and a control step of controlling the voice recognition step based on a state of the robot. A speech recognition method characterized in that:
【請求項11】 ロボットに音声認識を行わせるため
に、コンピュータが実行するプログラムが記録されてい
る記録媒体であって、 音声を認識する音声認識ステップと、 前記ロボットの状態に基づいて、前記音声認識ステップ
を制御する制御ステップとを備えるプログラムが記録さ
れていることを特徴とする記録媒体。
11. A recording medium storing a program to be executed by a computer for causing a robot to perform voice recognition, wherein the voice recognition step recognizes voice, and the voice based on a state of the robot. A recording medium characterized by recording a program comprising a control step for controlling a recognition step.
JP34046899A 1999-11-30 1999-11-30 Device and method for voice recognition and recording medium Withdrawn JP2001154685A (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP34046899A JP2001154685A (en) 1999-11-30 1999-11-30 Device and method for voice recognition and recording medium
US09/723,512 US7313524B1 (en) 1999-11-30 2000-11-28 Voice recognition based on a growth state of a robot

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP34046899A JP2001154685A (en) 1999-11-30 1999-11-30 Device and method for voice recognition and recording medium

Publications (1)

Publication Number Publication Date
JP2001154685A true JP2001154685A (en) 2001-06-08

Family

ID=18337262

Family Applications (1)

Application Number Title Priority Date Filing Date
JP34046899A Withdrawn JP2001154685A (en) 1999-11-30 1999-11-30 Device and method for voice recognition and recording medium

Country Status (2)

Country Link
US (1) US7313524B1 (en)
JP (1) JP2001154685A (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010190995A (en) * 2009-02-16 2010-09-02 Toshiba Corp Speech processing device, speech processing method, and speech processing program
JP6134043B1 (en) * 2016-11-04 2017-05-24 株式会社カプコン Voice generation program and game device
WO2017200075A1 (en) * 2016-05-20 2017-11-23 日本電信電話株式会社 Dialog method, dialog system, dialog scenario generation method, dialog scenario generation device, and program
US9886947B2 (en) 2013-02-25 2018-02-06 Seiko Epson Corporation Speech recognition device and method, and semiconductor integrated circuit device
JP2018072805A (en) * 2017-04-20 2018-05-10 株式会社カプコン Voice generation program and game device

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7571101B2 (en) * 2006-05-25 2009-08-04 Charles Humble Quantifying psychological stress levels using voice patterns
US20080119959A1 (en) * 2006-11-21 2008-05-22 Park Cheonshu Expression of emotions in robot
JP5187128B2 (en) * 2008-10-16 2013-04-24 富士通株式会社 SEARCH DEVICE, SEARCH METHOD, AND PROGRAM
JP2011033680A (en) * 2009-07-30 2011-02-17 Sony Corp Voice processing device and method, and program
US8738377B2 (en) 2010-06-07 2014-05-27 Google Inc. Predicting and learning carrier phrases for speech input
FR2962048A1 (en) * 2010-07-02 2012-01-06 Aldebaran Robotics S A HUMANOID ROBOT PLAYER, METHOD AND SYSTEM FOR USING THE SAME
WO2013163494A1 (en) * 2012-04-27 2013-10-31 Interactive Itelligence, Inc. Negative example (anti-word) based performance improvement for speech recognition
EP2933067B1 (en) * 2014-04-17 2019-09-18 Softbank Robotics Europe Method of performing multi-modal dialogue between a humanoid robot and user, computer program product and humanoid robot for implementing said method
WO2018094272A1 (en) 2016-11-18 2018-05-24 Robert Bosch Start-Up Platform North America, LLC, Series 1 Robotic creature and method of operation
KR102228866B1 (en) * 2018-10-18 2021-03-17 엘지전자 주식회사 Robot and method for controlling thereof
KR102295836B1 (en) * 2020-11-20 2021-08-31 오로라월드 주식회사 Apparatus And System for Growth Type Smart Toy

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5860064A (en) * 1993-05-13 1999-01-12 Apple Computer, Inc. Method and apparatus for automatic generation of vocal emotion in a synthetic text-to-speech system
JP3254994B2 (en) * 1995-03-01 2002-02-12 セイコーエプソン株式会社 Speech recognition dialogue apparatus and speech recognition dialogue processing method
DE69830295T2 (en) * 1997-11-27 2005-10-13 Matsushita Electric Industrial Co., Ltd., Kadoma control method
US6243680B1 (en) * 1998-06-15 2001-06-05 Nortel Networks Limited Method and apparatus for obtaining a transcription of phrases through text and spoken utterances
US6754631B1 (en) * 1998-11-04 2004-06-22 Gateway, Inc. Recording meeting minutes based upon speech recognition
US6766036B1 (en) * 1999-07-08 2004-07-20 Timothy R. Pryor Camera based man machine interfaces
US6347261B1 (en) * 1999-08-04 2002-02-12 Yamaha Hatsudoki Kabushiki Kaisha User-machine interface system for enhanced interaction
US6446056B1 (en) * 1999-09-10 2002-09-03 Yamaha Hatsudoki Kabushiki Kaisha Interactive artificial intelligence

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010190995A (en) * 2009-02-16 2010-09-02 Toshiba Corp Speech processing device, speech processing method, and speech processing program
US8650034B2 (en) 2009-02-16 2014-02-11 Kabushiki Kaisha Toshiba Speech processing device, speech processing method, and computer program product for speech processing
US9886947B2 (en) 2013-02-25 2018-02-06 Seiko Epson Corporation Speech recognition device and method, and semiconductor integrated circuit device
WO2017200075A1 (en) * 2016-05-20 2017-11-23 日本電信電話株式会社 Dialog method, dialog system, dialog scenario generation method, dialog scenario generation device, and program
JP6134043B1 (en) * 2016-11-04 2017-05-24 株式会社カプコン Voice generation program and game device
JP2018072765A (en) * 2016-11-04 2018-05-10 株式会社カプコン Voice generation program and game device
JP2018072805A (en) * 2017-04-20 2018-05-10 株式会社カプコン Voice generation program and game device

Also Published As

Publication number Publication date
US7313524B1 (en) 2007-12-25

Similar Documents

Publication Publication Date Title
US7065490B1 (en) Voice processing method based on the emotion and instinct states of a robot
US7228276B2 (en) Sound processing registering a word in a dictionary
JP2001157976A (en) Robot control device, robot control method, and recording medium
US6980956B1 (en) Machine apparatus and its driving method, and recorded medium
JP4296714B2 (en) Robot control apparatus, robot control method, recording medium, and program
JP4150198B2 (en) Speech synthesis method, speech synthesis apparatus, program and recording medium, and robot apparatus
JP2001154685A (en) Device and method for voice recognition and recording medium
Rosen et al. Automatic speech recognition and a review of its functioning with dysarthric speech
JP2003271174A (en) Speech synthesis method, speech synthesis device, program, recording medium, method and apparatus for generating constraint information and robot apparatus
JP2002268699A (en) Device and method for voice synthesis, program, and recording medium
JP2002116792A (en) Robot controller and method for robot control and recording medium
JP4587009B2 (en) Robot control apparatus, robot control method, and recording medium
JP4600736B2 (en) Robot control apparatus and method, recording medium, and program
JP2001154693A (en) Robot controller and robot control method and recording medium
JP2002268663A (en) Voice synthesizer, voice synthesis method, program and recording medium
JP2001154692A (en) Robot controller and robot control method and recording medium
JP2003271172A (en) Method and apparatus for voice synthesis, program, recording medium and robot apparatus
JP2004170756A (en) Unit and method for robot control, recording medium, and program
JP2004286805A (en) Method, apparatus, and program for identifying speaker
JP4656354B2 (en) Audio processing apparatus, audio processing method, and recording medium
JP2002258886A (en) Device and method for combining voices, program and recording medium
JP2002372988A (en) Recognition dictionary preparing device and rejection dictionary and rejection dictionary generating method
JP4639533B2 (en) Voice recognition apparatus, voice recognition method, program, and recording medium
JP4742415B2 (en) Robot control apparatus, robot control method, and recording medium
JP2003271181A (en) Information processor, information processing method, recording medium and program

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20070206