JP2003271172A - 音声合成方法、音声合成装置、プログラム及び記録媒体、並びにロボット装置 - Google Patents

音声合成方法、音声合成装置、プログラム及び記録媒体、並びにロボット装置

Info

Publication number
JP2003271172A
JP2003271172A JP2002073384A JP2002073384A JP2003271172A JP 2003271172 A JP2003271172 A JP 2003271172A JP 2002073384 A JP2002073384 A JP 2002073384A JP 2002073384 A JP2002073384 A JP 2002073384A JP 2003271172 A JP2003271172 A JP 2003271172A
Authority
JP
Japan
Prior art keywords
prosody data
natural
data
voice
natural prosody
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002073384A
Other languages
English (en)
Other versions
JP2003271172A5 (ja
Inventor
Kenichiro Kobayashi
賢一郎 小林
Nobuhide Yamazaki
信英 山崎
Makoto Akaha
誠 赤羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2002073384A priority Critical patent/JP2003271172A/ja
Publication of JP2003271172A publication Critical patent/JP2003271172A/ja
Publication of JP2003271172A5 publication Critical patent/JP2003271172A5/ja
Pending legal-status Critical Current

Links

Landscapes

  • Toys (AREA)

Abstract

(57)【要約】 【課題】 感情表現など多様な表情を持った、人間の声
に近い自然な音声を合成する。 【解決手段】 音声合成装置200において、自然韻律
辞書記憶部213の自然韻律辞書には、予め種々の単語
又は文とその自然韻律データとが登録される。入力され
たテキストの言語処理の結果、自然韻律辞書に登録され
ている部分については、対応する自然韻律データを選択
し、韻律データ調整部222において音素片記憶部22
3の音素片データに基づいて、そのパラメータを調整す
る。一方、自然韻律辞書に登録されていない部分につい
ては、音声記号生成部214で音声記号列を生成してか
ら、韻律生成部221で韻律データを生成する。そし
て、波形生成部224において、韻律データ及び自然韻
律データに基づいて必要な音素片データを接続し、音声
波形データを生成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、人間の声に近い自
然な音声を合成するための音声合成方法、音声合成装
置、プログラム及び記録媒体、並びに音声を出力するロ
ボット装置に関する。
【0002】
【従来の技術】電気的又は磁気的な作用を用いて人間
(生物)の動作に似た運動を行う機械装置を「ロボッ
ト」という。我が国においてロボットが普及し始めたの
は、1960年代末からであるが、その多くは、工場に
おける生産作業の自動化・無人化等を目的としたマニピ
ュレータや搬送ロボット等の産業用ロボット(Industri
al Robot)であった。
【0003】最近では、人間のパートナーとして生活を
支援する、すなわち住環境その他の日常生活上の様々な
場面における人的活動を支援する実用ロボットの開発が
進められている。このような実用ロボットは、産業用ロ
ボットとは異なり、人間の生活環境の様々な局面におい
て、個々に個性の相違した人間、又は様々な環境への適
応方法を自ら学習する能力を備えている。例えば、犬、
猫のように4足歩行の動物の身体メカニズムやその動作
を模した「ペット型」ロボット、或いは、2足直立歩行
を行う人間等の身体メカニズムや動作をモデルにしてデ
ザインされた「人間型」又は「人間形」ロボット(Huma
noid Robot)等のロボット装置は、既に実用化されつつ
ある。
【0004】これらのロボット装置は、産業用ロボット
と比較して、エンターテインメント性を重視した様々な
動作を行うことができるため、エンターテインメントロ
ボットと呼称される場合もある。また、そのようなロボ
ット装置には、外部からの情報や内部の状態に応じて自
律的に動作するものがある。
【0005】この自律的に動作するロボット装置に用い
られる人工知能(AI:artificialintelligence)は、
推論・判断等の知的な機能を人工的に実現したものであ
り、さらに感情や本能等の機能をも人工的に実現するこ
とが試みられている。このような人工知能の外部への表
現手段としての視覚的な表現手段や聴覚的な表現手段等
のうちで、聴覚的なものの一例として、音声を用いるこ
とが挙げられる。
【0006】
【発明が解決しようとする課題】ところで、このような
ロボット装置に適用する音声合成装置の合成方式として
は、録音編集方式や規則音声合成方式等が挙げられる。
前者は、人間が発声した単語、文節、定型文等を登録し
ておき、合成したい言葉に応じて、それらを繋ぎ合わせ
て文章を作成するものであり、人間の肉声に近い明瞭で
自然な音声が得られる可能性があるが、合成できる語彙
や文章の種類が限られるという問題がある。一方、後者
は、音素や音節などの細かい単位で音声データを蓄積し
て任意の語彙の合成を可能とするものであるが、音質的
に録音編集方式に劣り、特に音素のピッチ、継続時間
長、音量等の韻律パターンを規則によって付与するた
め、機械的で不自然な音声となる。
【0007】ここで、両者の欠点を補うため、録音編集
方式と規則音声合成方式とを混在させ、定型部分を録音
編集で行い、任意語彙部分のみを規則音声合成で行うこ
とも考えられるが、2つの方式で出力音声の声質が異な
るため、その繋ぎ目で不自然さが目立つなど、自然で滑
らかな音声を合成することができなかった。
【0008】本発明は、このような従来の実情に鑑みて
提案されたものであり、感情表現など多様な表情を持っ
た、人間の声に近い自然な音声を合成する音声合成方
法、音声合成装置、プログラム及び記録媒体、並びにそ
のような音声を出力するロボット装置を提供することを
目的とする。
【0009】
【課題を解決するための手段】本発明に係る音声合成方
法及び装置は、上述した目的を達成するために、入力さ
れたテキストを解析し、当該テキスト中に所定の単語又
は文が存在する場合に、予め人間の発声から抽出された
上記所定の単語又は文に対応する自然韻律データを記憶
手段から選択し、上記所定の単語又は文以外の部分につ
いて、上記テキストの音声記号列を作成し、上記音声記
号列から韻律データを作成し、上記自然韻律データ又は
上記韻律データに基づいて音声を合成することを特徴と
している。
【0010】ここで、上記記憶手段には、同一表記に対
して、例えば異なる種類の感情又はキャラクタを表す複
数種類の自然韻律データが記憶されており、上記自然韻
律データ生成する際には、上記複数種類の自然韻律デー
タから、選択制御情報によって指定された1種類が選択
される。この選択制御情報は、例えば外部から与えられ
た情報又は上記テキストに埋め込まれたタグの情報であ
る。
【0011】このような音声合成方法及び装置は、予め
記憶手段に種々の単語又は文を記憶しておき、テキスト
の言語処理の結果、記憶手段に記憶されている単語又は
文については、この記憶手段に登録されている自然韻律
データから、例えば外部から与えられた情報又は上記テ
キストに埋め込まれたタグの情報によって指定された種
類の自然韻律データを選択する。一方、登録されていな
い単語については、通常のテキスト音声合成と同様に、
音声記号列を生成してから、韻律データを生成する。そ
して、韻律データ又は自然韻律データに基づいて音声波
形データを生成する。
【0012】また、本発明に係るプログラムは、上述し
たような音声合成処理をコンピュータに実行させるもの
であり、本発明に係る記録媒体は、このプログラムが記
録されたコンピュータ読み取り可能なものである。
【0013】また、本発明に係るロボット装置は、上述
した目的を達成するために、供給された入力情報に基づ
いて動作を行う自律型のロボット装置であって、所定の
単語又は文と、予め人間の発声から抽出された上記所定
の単語又は文に対応する自然韻律データとが記憶されて
いる記憶手段と、発話するテキストを解析し、当該テキ
スト中に上記所定の単語又は文が存在する場合に、当該
所定の単語又は文に対応する自然韻律データを上記記憶
手段から選択する自然韻律データ選択手段と、上記所定
の単語又は文以外の部分について、上記テキストの音声
記号列を作成する音声記号列作成手段と、上記音声記号
列から韻律データを作成する韻律データ作成手段と、上
記自然韻律データ又は上記韻律データに基づいて音声を
合成する音声合成手段とを備えることを特徴としてい
る。
【0014】ここで、上記記憶手段には、同一表記に対
して、例えば異なる種類の感情又はキャラクタを表す複
数種類の自然韻律データが記憶されており、上記自然韻
律データ生成手段は、上記複数種類の自然韻律データか
ら、選択制御情報によって指定された1種類を選択す
る。この選択制御情報は、例えば感情モデルの感情状態
情報又は上記テキストに埋め込まれたタグの情報であ
る。
【0015】このようなロボット装置は、予め記憶手段
に種々の単語又は文を記憶しておき、発話するテキスト
の言語処理の結果、記憶手段に記憶されている単語又は
文については、この記憶手段に登録されている自然韻律
データから、例えば感情モデルの感情状態情報又は上記
テキストに埋め込まれたタグの情報によって指定された
種類の自然韻律データを選択する。一方、登録されてい
ない単語については、通常のテキスト音声合成と同様
に、音声記号列を生成してから、韻律データを生成す
る。そして、韻律データ又は自然韻律データに基づいて
音声波形データを生成する。
【0016】
【発明の実施の形態】以下、本発明を適用した具体的な
実施の形態について、図面を参照しながら詳細に説明す
る。
【0017】先ず、本実施の形態における音声合成装置
の概略構成を図1に示す。ここで、この音声合成装置
は、少なくとも感情モデル、音声合成手段及び発音手段
を有する例えばロボット装置に適用することを想定して
いるが、これに限定されず、各種ロボット装置や、ロボ
ット以外の各種コンピュータAI(artificial intelli
gence) 等への適用も可能であることは勿論である。ま
た、以下では、主として日本語の単語或いは文章を合成
する場合について説明するが、これに限定されず、種々
の言語に適用可能であることは勿論である。
【0018】図1に示すように、音声合成装置200
は、言語処理部210と、音声合成部220とで構成さ
れる。ここで、言語処理部210は、タグ処理部211
と、言語解析部212と、自然韻律辞書記憶部213
と、音声記号生成部214とを有している。また、音声
合成部220は、韻律生成部221と、韻律データ調整
部222と、音素片記憶部223と、波形生成部224
とを有している。
【0019】言語処理部210において、タグ処理部2
11は、入力されたテキストにタグが付されている場合
には、通常のテキストとタグとに分割し、テキスト部分
を言語解析部212に供給すると共に、タグの情報を言
語解析部212に供給する。入力されたテキストにタグ
が付されていない場合には、タグ処理部211は、入力
されたテキストをそのまま言語解析部212に供給す
る。なお、詳細は後述するが、このタグは、最終的に合
成される音声に様々な感情やキャラクタ性等を付与する
ことを指定するものである。
【0020】言語解析部212は、タグ処理部211か
ら供給されたテキストを、図示しない単語辞書記憶部や
文法規則記憶部を参照しながら言語処理する。すなわ
ち、単語辞書記憶部には、各単語の品詞情報や、読み、
アクセント等の情報が記述された単語辞書が記憶されて
おり、また、文法規則記憶部には、単語辞書記憶部の単
語辞書に記述された単語について、単語連鎖に関する制
約等の文法規則が記憶されている。そして、言語解析部
212は、この単語辞書及び文法規則に基づいて、タグ
処理部211から供給されるテキストの形態素解析や構
文解析等の解析を行う。ここで、言語解析部212は、
自然韻律辞書記憶部213の自然韻律辞書に登録されて
いる単語については、タグ情報を参照しながら、この自
然韻律辞書に登録されている自然韻律データを選択し、
後述する韻律データ調整部222に供給する。この自然
韻律辞書及び自然韻律データについての詳細は後述す
る。一方、言語処理部212は、自然韻律辞書記憶部2
13の自然韻律辞書に登録されていない単語について
は、解析結果を音声記号生成部214に供給する。
【0021】音声記号生成部214は、アクセント規則
及びフレーズ規則を参照しながら、言語解析部212か
ら供給される解析結果に基づいて、テキストに対応する
音声記号列を生成する。ここで、アクセント規則とは、
アクセントを付与する規則であり、音声記号生成部21
4は、このアクセント規則に従って、音声記号に、アク
セントを表すタグを挿入する。また、フレーズ規則と
は、フレーズを決定する際の規則であり、音声記号生成
部214は、このフレーズ規則に従って、音声記号に、
フレーズを表すタグを挿入する。
【0022】音声合成部220において、韻律生成部2
21は、音声記号生成部214から供給された音声記号
列に基づいて韻律データを作成し、この韻律データを波
形合成部224に供給する。この韻律生成部221は、
例えば音声記号列から抽出したアクセント型、文中での
アクセント句の数、文中での当該アクセントの位置、当
該アクセント句の音韻数、アクセント句内での当該音韻
の位置、当該音韻の種類といった情報を用いて、数量化
一類等の統計的手法により当該音韻のピッチ周期、継続
時間長、音量等のパラメータを表現した韻律データを生
成する。
【0023】また、韻律生成部221は、アプリケーシ
ョンによってピッチ周期、話速、音量等が指定されてい
る場合には、これを考慮して韻律データのパラメータの
調整を行う。さらに、韻律生成部221は、タグ情報に
よって、韻律データのパラメータの調整を行い、感情或
いはキャラクタ性の伴われた音声を合成可能とすること
ができる。
【0024】韻律データ調整部222は、音素片記憶部
223から、標準で出力する際の音声の平均ピッチ周
期、平均話速、平均音量等のデータを得て、言語解析部
212から供給された自然韻律データのパラメータがそ
の平均ピッチ周期等になるように、ピッチ周期、継続時
間長、音量の調整を行う。また、韻律データ調整部22
2は、アプリケーションによってピッチ周期、話速、音
量等が指定されている場合には、これを考慮して、自然
韻律データのパラメータの調整を行う。
【0025】波形生成部224は、韻律生成部221か
ら供給された韻律データと韻律データ調整部222から
供給された自然韻律データとを用いて音声波形を生成す
る。この波形生成部224は、音素片記憶部223を参
照しながら、韻律データ又は自然韻律データに示される
音韻系列、ピッチ周期、音量等をもとに、なるべくこれ
に近い音素片データを検索してその部分を切り出して並
べ、音声波形データを生成する。すなわち、音素片記憶
部223には、例えば、CV(Consonant, Vowel)や、
VCV、CVC等の形で音素片データが記憶されてお
り、波形生成部224は、韻律データ又は自然韻律デー
タに基づいて、必要な音素片データを接続し、さらに、
ポーズ、アクセント、イントネーション等を適切に付加
することで、音声波形データを生成する。
【0026】得られた音声波形データは、D/A(Digi
tal/Analog)変換器やアンプ等を介してスピーカに送ら
れることにより、実際の音声として発せられる。例え
ば、ロボット装置である場合には、このような処理が、
いわゆるバーチャルロボットにおいてなされて、スピー
カを介して発話されるようになる。
【0027】続いて、以上のような構成を有する音声合
成装置200の動作について、図2のフローチャートを
用いて説明する。先ずステップS1において、発話する
ためのテキストが入力され、ステップS2において、タ
グとテキストとが分離される。なお、入力されたテキス
トにタグが付されていない場合には、ステップS2を省
略することができる。
【0028】次にステップS3において、テキストの言
語処理が行われる。すなわち、上述したように、各単語
の品詞情報や、読み、アクセント等の情報が記述された
単語辞書や単語連鎖に関する制約等の文法規則に基づい
て、テキストの形態素解析や構文解析等の解析が行われ
る。
【0029】続いてステップS4において、韻律データ
又は自然韻律データが生成される。すなわち、自然韻律
辞書に登録されている単語については、自然韻律辞書に
登録されている自然韻律データのうち、例えば上述した
タグで指定されたものが選択される。また、自然韻律辞
書に登録されてない単語については、音声記号列に変換
されてから、韻律データが生成される。
【0030】ステップS5では、韻律データ又は自然韻
律データのパラメータが調整される。具体的には、自然
韻律データは、自然韻律辞書に登録した際のピッチ周
期、継続時間長、音量等となっているため、音素片デー
タから標準で出力する際の音声の平均ピッチ周期、平均
話速、平均音量等のデータを得て、自然韻律データのパ
ラメータが調整される。
【0031】またステップS5では、タグ情報に基づい
て韻律データのパラメータの調整を行い、感情或いはキ
ャラクタ性を伴わせることができる。
【0032】さらにステップS5では、アプリケーショ
ンによってピッチ周期、話速、音量等が指定されている
場合、これを考慮して、韻律データ又は自然韻律データ
のパラメータが調整される。
【0033】最後にステップS6では、韻律データと自
然韻律データとを用いて、音声波形データが生成され
る。すなわち、韻律データ又は自然韻律データに基づい
て、必要な音素片データが接続され、さらに、ポーズ、
アクセント、イントネーション等が適切に付加されて、
音声波形データが生成される。この音声波形データは、
D/A変換器やアンプ等を介してスピーカに送られるこ
とにより、実際の音声として発せられる。
【0034】以上説明したように、本実施の形態におけ
る音声合成装置200では、予め自然韻律辞書に種々の
単語又は文を登録しておき、テキストの言語処理の結
果、自然韻律辞書に登録されている単語又は文について
は、この自然韻律辞書に登録されている自然韻律データ
を選択する。一方、登録されていない単語又は文につい
ては、通常のテキスト音声合成と同様に、音声記号列を
生成してから、韻律データを生成する。そして、韻律デ
ータ又は自然韻律データに基づいて、必要な音素片デー
タを接続し、さらに、ポーズ、アクセント、イントネー
ション等を適切に付加して、音声波形データを生成す
る。
【0035】すなわち、種々の単語又は文について人間
の自然な発声から得られた自然韻律データを予め自然韻
律辞書に登録しておき、登録されていない単語又は文の
韻律データと自然韻律データとが、ピッチ周期、継続時
間長、音量等のパラメータに基づいて接続される。この
ように、登録されている単語又は文と登録されていない
単語又は文との接続を韻律データのレベルで行うため、
より自然性の高い音声を合成することができる。
【0036】なお、上述のように、感情やキャラクタに
応じて自然韻律辞書に登録されている単語又は文を選択
するような場合、例えばこの自然韻律辞書に予め登録し
ておく単語としては、感動詞や副詞などの感情が表れや
すい単語であることが好ましい。また、これに限定され
ず、定型的に用いられる単語を自然韻律辞書に登録して
おくようにしても構わない。
【0037】以下、具体例を挙げて音声合成装置200
の動作についてさらに詳細に説明する。なお、以下で
は、入力するテキスト例として「¥happiness¥ ねえ、
今日は天気が良いね。」を用い、このテキスト中の「ね
え」の部分が自然韻律辞書に登録されているものとして
説明する。ここで、¥happiness¥は、そのテキストを
喜び(happiness)の感情を伴わせて合成することを意
味するタグである。なお、タグがこの例に限定されない
ことは勿論であり、その他の感情を指定するものであっ
ても構わない。また、感情に限らず、キャラクタを指定
するタグが付されていてもよく、さらには、タグが全く
付されていなくても構わない。
【0038】入力されたタグ付きのテキストは、タグ処
理部211(図1)において、タグ(¥happiness¥)
とテキスト(「ねえ、今日は天気が良いね。」)とに分
離され、このタグの情報とテキストとが言語解析部21
2に供給される。
【0039】そして、テキスト部分は、言語解析部21
2において、自然韻律辞書記憶部213の自然韻律辞書
を参照しながら言語解析が行われる。ここで、自然韻律
辞書は、例えば図3のように構成される。図3に示すよ
うに、登録されている単語毎に、標準の自然韻律データ
のほか、例えば平静(calm)、怒り(anger)、悲しみ
(sadness)、喜び(happiness)、落ち着き(comfor
t)等の各感情や、各キャラクタに対応する自然韻律デ
ータが用意される。
【0040】なお、感情の例がこれらに限定されないこ
とは勿論であり、また、各単語について全ての感情に対
応する自然韻律データを用意しておかなければならない
わけでもない。指定された感情等に対応する自然韻律デ
ータが登録されていない場合には、標準の自然韻律デー
タを選択してもよく、また、類似する感情等の自然韻律
データを選択するようにしても構わない。例えば、驚き
と怖れ、退屈と悲しみなどのある特定の感情に関して
は、発せられる音声の音響特性が類似することが知られ
ているため、代替として用いるようにしても構わない。
【0041】本具体例では、テキストにタグ(¥happin
ess¥)が付されているため、喜び(happiness)に対応
する「ねえ」の自然韻律データが選択される。この自然
韻律データは、例えば以下の表のように表される。
【0042】
【表1】
【0043】この表において、[LABEL]は、各音韻の継
続時間長を表したものである。すなわち、「.n」とい
う音韻は、0サンプルから807サンプルまでの807
サンプルの継続時間長であり、「ne」という音韻は、
807サンプルから4269サンプルまでの3462サ
ンプルの継続時間長である。また、[PITCH]は、ピッチ
周期を点ピッチで表したものである。すなわち、0サン
プルでのピッチ周期は76サンプルであり、4274サ
ンプルでのピッチ周期は47サンプルである。また、[V
OLUME]は、各サンプルでの相対的な音量を表したもので
ある。すなわち、デフォルト値を100%としたとき
に、0サンプルでは100%の音量であり、807サン
プルでは121%の音量である。このようにして、全て
の音韻が表現される。
【0044】一方、「今日は天気が良いね。」の部分に
ついては、自然韻律辞書に登録されていないため、音声
記号生成部214に送られ、例えば「Ko'5oowa//te'4xx
kiva//yo'2iine..」というような音声記号列に変換され
る。ここで、タグ「'5」のうちの「’」は、アクセン
トを表し、続く数字の5は、アクセントの強さを意味す
る。また、タグ「//」は、アクセント句の区切りを表
す。
【0045】このようにして生成された音声記号列は、
韻律生成部221において韻律データに変換される。こ
の韻律データは、上述した自然韻律データと同様な構成
を有するものであり、各音韻の継続時間長を表した[LAB
EL]と、ピッチ周期を点ピッチで表した[PITCH]と、各サ
ンプルでの相対的な音量を表した[VOLUME]とで表現され
る。
【0046】ここで上述したように、入力したテキスト
にはタグ(¥happiness¥)が付されているため、「ね
え、」の部分と同様に、「今日は天気が良いね。」の部
分についても、喜びの感情を表現する必要がある。
【0047】そこで、本実施の形態では、以下の表に示
すような、怒り、悲しみ、喜び及び落ち着き等の各感情
に対応して予め決定されているパラメータ(少なくとも
各音韻の継続時間長(DUR)、ピッチ(PITCH)及び音量
(VOLUME)等)の組合せテーブルを各感情の特質に基づ
いて予め生成しておき、このテーブルを韻律生成部22
1に保持しておく。ここで、以下のテーブルにおけるピ
ッチの単位はヘルツであり、継続時間長の単位はミリ秒
である。
【0048】
【表2】
【0049】
【表3】
【0050】
【表4】
【0051】
【表5】
【0052】
【表6】
【0053】このようにして予め用意しておいた各感情
に対応されるパラメータからなるテーブルを実際に判別
された感情に応じて切り換え、このテーブルに基づいて
パラメータを変更することにより、感情を表現すること
が可能とされる。
【0054】具体的には、欧州特許出願第01401880.1号
の明細書及び図面に記載された技術を応用することがで
きる。
【0055】例えば発話される単語に含まれる音韻の平
均ピッチ周期がMEANPITCHの値に基づいて計算される値
になるように各音韻のピッチ周期を変化させ、また、ピ
ッチ周期の分散値がPITCHVARの値に基づいて計算される
値になるように制御する。
【0056】同様に、発話される単語に含まれる音韻の
平均継続時間長がMEANDURの値で計算される値になるよ
うに各音韻の継続時間長を変化させ、また、継続時間長
の分散値がDURVARの値になるように制御する。
【0057】また、各音韻の音量についても、各感情の
テーブルにおけるVOLUMEで指定される値に制御する。
【0058】さらに、このテーブルに基づいて各アクセ
ント句のcontour(輪郭)を変更することもできる。す
なわち、DEFAULTCONTOUR=risingである場合には、アク
セント句のピッチの傾きが上り調子となり、DEFAULTCON
TOUR=fallingである場合には、反対に下り調子とな
る。
【0059】このように感情に応じて選択されたテーブ
ルを使用してパラメータの変更された韻律データは、波
形生成部224に送られる。
【0060】なお、アプリケーションによってピッチ周
期、話速、音量等が設定されている場合には、このデー
タによっても韻律データのピッチ周期、継続時間長、音
量といったパラメータの調整が行われる。
【0061】一方、「ねえ、」の部分の自然韻律データ
は、韻律データ調整部222において、ピッチ周期、継
続時間長、音量といったパラメータの調整が行われる。
すなわち、自然韻律データは、自然韻律辞書に登録した
際のピッチ周期、継続時間長、音量等となっているた
め、波形生成部224が用いる音素片データから、標準
で出力する際の音声の平均ピッチ周期、平均話速、平均
音量等のデータを得て、自然韻律データのパラメータの
調整が行われる。
【0062】また、韻律データの平均ピッチ周期が上述
したように喜びの感情に対応したテーブルの平均ピッチ
周期となるように変更されているため、自然韻律データ
についても、このテーブルの平均ピッチ周期となるよう
に調整される。
【0063】さらに、アプリケーションによってピッチ
周期、話速、音量等が設定されている場合には、このデ
ータによっても自然韻律データのパラメータの調整が行
われる。
【0064】このようにしてパラメータの調整された自
然韻律データは、波形生成部224に送られる。
【0065】そして、上述したように、波形生成部22
4において、この韻律データと自然韻律データとを用い
て、音声波形データが生成される。すなわち、韻律デー
タ又は自然韻律データに基づいて、必要な音素片データ
が接続され、さらに、ポーズ、アクセント、イントネー
ション等が適切に付加されて、音声波形データが生成さ
れる。この音声波形データは、D/A変換器やアンプ等
を介してスピーカに送られることにより、実際の音声と
して発せられる。
【0066】なお、以上の説明では、合成音声に対して
タグで指定された感情又はキャラクタ性を伴わせる例に
ついて説明したが、これに限定されるものではなく、外
部から与えられた感情状態情報やキャラクタ情報によっ
て指定された感情又はキャラクタ性を合成音声に伴わせ
るようにしても構わない。
【0067】感情を例に挙げれば、例えばロボット装置
の場合には、行動モデルとして、内部に確率状態遷移モ
デル(例えば、後述するように、状態遷移表を有するモ
デル)を有しており、各状態が認識結果や感情や本能の
値によって異なる遷移確率テーブルを持ち、その確率に
従って次の状態へ遷移し、この遷移に関連付けられた行
動を出力する。
【0068】感情による喜びや悲しみの表現行動がこの
確率状態遷移モデル(或いは確率遷移表)に記述されて
おり、この表現行動の1つとして、音声による(発話に
よる)感情表現が含まれている。
【0069】すなわち、このロボット装置では、感情モ
デルの感情状態を表すパラメータを行動モデルが参照す
ることにより決定される行動の1つの要素として感情表
現があり、行動決定部の一部機能として、感情状態の判
別が行われることになる。そして、この判別された感情
状態情報が上述した言語解析部212及び韻律生成部2
21に与えられる。これにより、その感情に応じた自然
韻律データが選択され、また、その感情に応じて韻律デ
ータ及び自然韻律データのパラメータが調整される。
【0070】以下、このようなロボット装置の一例とし
て、2本足の自律型ロボットに本発明を適用した例につ
いて、図面を参照しながら詳細に説明する。この人間型
ロボット装置のソフトウェアに感情・本能モデルを導入
し、より人間に近い行動を得ることができるようにして
いる。本実施の形態では実際に動作をするロボットを用
いているが、発話はスピーカを持つコンピュータ・シス
テムであれば容易に実現可能であり、人間と機械とのイ
ンタラクション(或いは対話)の場で有効な機能であ
る。したがって本発明の適用範囲はロボットシステムに
限られるものではない。
【0071】具体例として図4に示す人間型のロボット
装置は、住環境その他の日常生活上の様々な場面におけ
る人的活動を支援する実用ロボットであり、内部状態
(怒り、悲しみ、喜び、楽しみ等)に応じて行動できる
ほか、人間が行う基本的な動作を表出できるエンターテ
インメントロボットである。
【0072】図4に示すように、ロボット装置1は、体
幹部ユニット2の所定の位置に頭部ユニット3が連結さ
れると共に、左右2つの腕部ユニット4R/Lと、左右
2つの脚部ユニット5R/Lが連結されて構成されてい
る(但し、R及びLの各々は、右及び左の各々を示す接
尾辞である。以下において同じ。)。
【0073】このロボット装置1が具備する関節自由度
構成を図5に模式的に示す。頭部ユニット3を支持する
首関節は、首関節ヨー軸101と、首関節ピッチ軸10
2と、首関節ロール軸103という3自由度を有してい
る。
【0074】また、上肢を構成する各々の腕部ユニット
4R/Lは、、肩関節ピッチ軸107と、肩関節ロール
軸108と、上腕ヨー軸109と、肘関節ピッチ軸11
0と、前腕ヨー軸111と、手首関節ピッチ軸112
と、手首関節ロール軸113と、手部114とで構成さ
れる。手部114は、実際には、複数本の指を含む多関
節・多自由度構造体である。ただし、手部114の動作
は、ロボット装置1の姿勢制御や歩行制御に対する寄与
や影響が少ないので、本明細書ではゼロ自由度と仮定す
る。したがって、各腕部は7自由度を有するとする。
【0075】また、体幹部ユニット2は、体幹ピッチ軸
104と、体幹ロール軸105と、体幹ヨー軸106と
いう3自由度を有する。
【0076】また、下肢を構成する各々の脚部ユニット
5R/Lは、股関節ヨー軸115と、股関節ピッチ軸1
16と、股関節ロール軸117と、膝関節ピッチ軸11
8と、足首関節ピッチ軸119と、足首関節ロール軸1
20と、足部121とで構成される。本明細書中では、
股関節ピッチ軸116と股関節ロール軸117の交点
は、ロボット装置1の股関節位置を定義する。人体の足
部121は、実際には多関節・多自由度の足底を含んだ
構造体であるが、ロボット装置1の足底は、ゼロ自由度
とする。したがって、各脚部は、6自由度で構成され
る。
【0077】以上を総括すれば、ロボット装置1全体と
しては、合計で3+7×2+3+6×2=32自由度を
有することになる。ただし、エンターテインメント向け
のロボット装置1が必ずしも32自由度に限定されるわ
けではない。設計・制作上の制約条件や要求仕様等に応
じて、自由度すなわち関節数を適宜増減することができ
ることはいうまでもない。
【0078】上述したようなロボット装置1が持つ各自
由度は、実際にはアクチュエータを用いて実装される。
外観上で余分な膨らみを排してヒトの自然体形状に近似
させること、2足歩行という不安定構造体に対して姿勢
制御を行うことなどの要請から、アクチュエータは小型
且つ軽量であることが好ましい。
【0079】ロボット装置1の制御システム構成を図6
に模式的に示す。図6に示すように、体幹部ユニット2
には、CPU(Central Processing Unit)10、DR
AM(Dynamic Random Access Memory)11、フラッシ
ュROM(Read 0nly Memory)12、PC(Personal
Computer)カードインターフェース回路13及び信号処
理回路14が内部バス15を介して相互に接続されるこ
とにより形成されたコントロール部16と、このロボッ
ト装置1の動力源としてのバッテリ17とが収納されて
いる。また、体幹部ユニット2には、ロボット装置1の
向きや動きの加速度を検出するための角速度センサ18
及び加速度センサ19なども収納されている。
【0080】また、頭部ユニット3には、外部の状況を
撮像するための左右の「眼」に相当するCCD(Charge
Coupled Device)カメラ20R/Lと、そのCCDカ
メラ20R/Lからの画像データに基づいてステレオ画
像データを作成するための画像処理回路21と、使用者
からの「撫でる」や「叩く」といった物理的な働きかけ
により受けた圧力を検出するためのタッチセンサ22
と、各脚部ユニット5R/Lの足底が着床したか否かを
検出する接地確認センサ23R/Lと、姿勢を計測する
姿勢センサ24と、前方に位置する物体までの距離を測
定するための距離センサ25と、外部音を集音するため
のマイクロホン26と、スピーチ等の音声を出力するた
めのスピーカ27と、LED(Light Emitting Diode)
28などがそれぞれ所定位置に配置されている。
【0081】ここで、接地確認センサ23R/Lは、例
えば足底に設置された近接センサ又はマイクロ・スイッ
チなどで構成される。また、姿勢センサ24は、例え
ば、加速度センサとジャイロ・センサの組み合わせによ
って構成される。接地確認センサ23R/Lの出力によ
って、歩行・走行などの動作期間中において、左右の各
脚部ユニット5R/Lが現在立脚又は遊脚何れの状態で
あるかを判別することができる。また、姿勢センサ24
の出力により、体幹部分の傾きや姿勢を検出することが
できる。
【0082】さらに、体幹部ユニット2、腕部ユニット
4R/L、脚部ユニット5R/Lの各関節部分などには
それぞれ上述した自由度数分のアクチュエータ29
29 及びポテンショメータ30〜30が配設され
ている。例えば、アクチュエータ29〜29はサー
ボモータを構成として有している。サーボモータの駆動
により、例えば腕部ユニット4R/L及び脚部ユニット
5R/Lが制御されて、目標の姿勢或いは動作に遷移す
る。
【0083】そして、これら角速度センサ18、加速度
センサ19、タッチセンサ22、接地確認センサ23R
/L、姿勢センサ24、距離センサ25、マイクロホン
26、スピーカ27及び各ポテンショメータ30〜3
などの各種センサ並びにLED28及び各アクチュ
エータ29 〜29は、それぞれ対応するハブ31
〜31を介してコントロール部16の信号処理回路
14と接続され、バッテリ17及び画像処理回路21
は、それぞれ信号処理回路14と直接接続されている。
【0084】信号処理回路l4は、上述の各センサから
供給されるセンサデータや画像データ及び音声データを
順次取り込み、これらをそれぞれ内部バス15を介して
DRAM11内の所定位置に順次格納する。また信号処
理回路14は、これと共にバッテリ17から供給される
バッテリ残量を表すバッテリ残量データを順次取り込
み、これをDRAM11内の所定位置に格納する。
【0085】このようにしてDRAM11に格納された
各センサデータ、画像データ、音声データ及びバッテリ
残量データは、この後CPU10がこのロボット装置1
の動作制御を行う際に利用される。
【0086】実際上CPU10は、ロボット装置1の電
源が投入された初期時、体幹部ユニット2の図示しない
PCカードスロットに装填されたメモリカード32又は
フラッシュROM12に格納された制御プログラムをP
Cカードインターフェース回路13を介して又は直接読
み出し、これをDRAM11に格納する。
【0087】また、CPU10は、この後上述のように
信号処理回路14よりDRAM11に順次格納される各
センサデータ、画像データ、音声データ及びバッテリ残
量データに基づいて自己及び周囲の状況や、使用者から
の指示及び働きかけの有無などを判断する。
【0088】さらに、CPU10は、この判断結果及び
DRAM11に格納した制御プログラムに基づいて続く
行動を決定すると共に、当該決定結果に基づいて必要な
アクチュエータ29〜29を駆動させることによ
り、各腕部ユニット4R/Lを上下左右に振らせたり、
各脚部ユニット5R/Lを駆動させて歩行させるなどの
行動を行わせる。
【0089】また、この際CPU10は、必要に応じて
音声データを生成し、これを信号処理回路14を介して
音声信号としてスピーカ27に与えることにより当該音
声信号に基づく音声を外部に出力させたり、上述のLE
D28を点灯、消灯又は点滅させる。
【0090】このようにしてこのロボット装置1におい
ては、自己及び周囲の状況や、使用者からの指示及び働
きかけに応じて自律的に行動し得るようになされてい
る。
【0091】ところで、このロボット装置1は、内部状
態に応じて自律的に行動することができる。そこで、ロ
ボット装置1における制御プログラムのソフトウェア構
成例について、図7乃至図12を用いて説明する。な
お、この制御プログラムは、上述したように、予めフラ
ッシュROM12に格納されており、ロボット装置1の
電源投入初期時において読み出される。
【0092】図7において、デバイス・ドライバ・レイ
ヤ40は、制御プログラムの最下位層に位置し、複数の
デバイス・ドライバからなるデバイス・ドライバ・セッ
ト41から構成されている。この場合、各デバイス・ド
ライバは、CCDカメラやタイマ等の通常のコンピュー
タで用いられるハードウェアに直接アクセスすることを
許されたオブジェクトであり、対応するハードウェアか
らの割り込みを受けて処理を行う。
【0093】また、ロボティック・サーバ・オブジェク
ト42は、デバイス・ドライバ・レイヤ40の最下位層
に位置し、例えば上述の各種センサやアクチュエータ2
〜28等のハードウェアにアクセスするためのイ
ンターフェースを提供するソフトウェア群でなるバーチ
ャル・ロボット43と、電源の切換えなどを管理するソ
フトウェア群でなるパワーマネージャ44と、他の種々
のデバイス・ドライバを管理するソフトウェア群でなる
デバイス・ドライバ・マネージャ45と、ロボット装置
1の機構を管理するソフトウェア群でなるデザインド・
ロボット46とから構成されている。
【0094】マネージャ・オブジェクト47は、オブジ
ェクト・マネージャ48及びサービス・マネージャ49
から構成されている。オブジェクト・マネージャ48
は、ロボティック・サーバ・オブジェクト42、ミドル
・ウェア・レイヤ50、及びアプリケーション・レイヤ
51に含まれる各ソフトウェア群の起動や終了を管理す
るソフトウェア群であり、サービス・マネージャ49
は、メモリカードに格納されたコネクションファイルに
記述されている各オブジェクト間の接続情報に基づいて
各オブジェクトの接続を管理するソフトウェア群であ
る。
【0095】ミドル・ウェア・レイヤ50は、ロボティ
ック・サーバ・オブジェクト42の上位層に位置し、画
像処理や音声処理などのこのロボット装置1の基本的な
機能を提供するソフトウェア群から構成されている。ま
た、アプリケーション・レイヤ51は、ミドル・ウェア
・レイヤ50の上位層に位置し、当該ミドル・ウェア・
レイヤ50を構成する各ソフトウェア群によって処理さ
れた処理結果に基づいてロボット装置1の行動を決定す
るためのソフトウェア群から構成されている。
【0096】なお、ミドル・ウェア・レイヤ50及びア
プリケーション・レイヤ51の具体なソフトウェア構成
をそれぞれ図8に示す。
【0097】ミドル・ウェア・レイヤ50は、図8に示
すように、騒音検出用、温度検出用、明るさ検出用、音
階認識用、距離検出用、姿勢検出用、タッチセンサ用、
動き検出用及び色認識用の各信号処理モジュール60〜
68並びに入力セマンティクスコンバータモジュール6
9などを有する認識系70と、出力セマンティクスコン
バータモジュール78並びに姿勢管理用、トラッキング
用、モーション再生用、歩行用、転倒復帰用、LED点
灯用及び音再生用の各信号処理モジュール71〜77な
どを有する出力系79とから構成されている。
【0098】認識系70の各信号処理モジュール60〜
68は、ロボティック・サーバ・オブジェクト42のバ
ーチャル・ロボット43によりDRAMから読み出され
る各センサデータや画像データ及び音声データのうちの
対応するデータを取り込み、当該データに基づいて所定
の処理を施して、処理結果を入力セマンティクスコンバ
ータモジュール69に与える。ここで、例えば、バーチ
ャル・ロボット43は、所定の通信規約によって、信号
の授受或いは変換をする部分として構成されている。
【0099】入力セマンティクスコンバータモジュール
69は、これら各信号処理モジュール60〜68から与
えられる処理結果に基づいて、「うるさい」、「暑
い」、「明るい」、「ボールを検出した」、「転倒を検
出した」、「撫でられた」、「叩かれた」、「ドミソの
音階が聞こえた」、「動く物体を検出した」又は「障害
物を検出した」などの自己及び周囲の状況や、使用者か
らの指令及び働きかけを認識し、認識結果をアプリケー
ション・レイヤ41に出力する。
【0100】アプリケーション・レイヤ51は、図9に
示すように、行動モデルライブラリ80、行動切換モジ
ュール81、学習モジュール82、感情モデル83及び
本能モデル84の5つのモジュールから構成されてい
る。
【0101】行動モデルライブラリ80には、図10に
示すように、「バッテリ残量が少なくなった場合」、
「転倒復帰する」、「障害物を回避する場合」、「感情
を表現する場合」、「ボールを検出した場合」などの予
め選択されたいくつかの条件項目にそれぞれ対応させ
て、それぞれ独立した行動モデルが設けられている。
【0102】そして、これら行動モデルは、それぞれ入
力セマンティクスコンバータモジュール69から認識結
果が与えられたときや、最後の認識結果が与えられてか
ら一定時間が経過したときなどに、必要に応じて後述の
ように感情モデル83に保持されている対応する情動の
パラメータ値や、本能モデル84に保持されている対応
する欲求のパラメータ値を参照しながら続く行動をそれ
ぞれ決定し、決定結果を行動切換モジュール81に出力
する。
【0103】なお、この実施の形態の場合、各行動モデ
ルは、次の行動を決定する手法として、図11に示すよ
うな1つのノード(状態)NODE〜NODEから
他のどのノードNODE〜NODEに遷移するかを
各ノードNODE〜NODEに間を接続するアーク
ARC〜ARCn1に対してそれぞれ設定された遷移
確率P〜Pに基づいて確率的に決定する有限確率オ
ートマトンと呼ばれるアルゴリズムを用いる。
【0104】具体的に、各行動モデルは、それぞれ自己
の行動モデルを形成するノードNODE〜NODE
にそれぞれ対応させて、これらノードNODE〜NO
DE 毎に図12に示すような状態遷移表90を有して
いる。
【0105】この状態遷移表90では、そのノードNO
DE〜NODEにおいて遷移条件とする入力イベン
ト(認識結果)が「入力イベント名」の列に優先順に列
記され、その遷移条件についてのさらなる条件が「デー
タ名」及び「データ範囲」の列における対応する行に記
述されている。
【0106】したがって、図12の状態遷移表90で表
されるノードNODE100では、「ボールを検出(B
ALL)」という認識結果が与えられた場合に、当該認
識結果とともに与えられるそのボールの「大きさ(SIZ
E)」が「0から1000」の範囲であることや、「障害物を
検出(OBSTACLE)」という認識結果が与えられた場合
に、当該認識結果とともに与えられるその障害物までの
「距離(DISTANCE)」が「0から100」の範囲であること
が他のノードに遷移するための条件となっている。
【0107】また、このノードNODE100では、認
識結果の入力がない場合においても、行動モデルが周期
的に参照する感情モデル83及び本能モデル84にそれ
ぞれ保持された各情動及び各欲求のパラメータ値のう
ち、感情モデル83に保持された「喜び(Joy)」、
「驚き(Surprise)」又は「悲しみ(Sadness)」の何
れかのパラメータ値が「50から100」の範囲であるとき
には他のノードに遷移することができるようになってい
る。
【0108】また、状態遷移表90では、「他のノード
ヘの遷移確率」の欄における「遷移先ノード」の行にそ
のノードNODE〜NODEから遷移できるノード
名が列記されているとともに、「入力イベント名」、
「データ名」及び「データの範囲」の列に記述された全
ての条件が揃ったときに遷移できる他の各ノードNOD
〜NODEへの遷移確率が「他のノードヘの遷移
確率」の欄内の対応する箇所にそれぞれ記述され、その
ノードNODE〜NODEに遷移する際に出力すべ
き行動が「他のノードヘの遷移確率」の欄における「出
力行動」の行に記述されている。なお、「他のノードヘ
の遷移確率」の欄における各行の確率の和は100
[%]となっている。
【0109】したがって、図12の状態遷移表90で表
されるノードNODE100では、例えば「ボールを検
出(BALL)」し、そのボールの「SIZE(大き
さ)」が「0から1000」の範囲であるという認識結果が
与えられた場合には、「30[%]」の確率で「ノードN
ODE120(node 120)」に遷移でき、そのとき「A
CTION1」の行動が出力されることとなる。
【0110】各行動モデルは、それぞれこのような状態
遷移表90として記述されたノードNODE〜 NO
DEが幾つも繋がるようにして構成されており、入力
セマンティクスコンバータモジュール69から認識結果
が与えられたときなどに、対応するノードNODE
NODEの状態遷移表を利用して確率的に次の行動を
決定し、決定結果を行動切換モジュール81に出力する
ようになされている。
【0111】図9に示す行動切換モジュール81は、行
動モデルライブラリ80の各行動モデルからそれぞれ出
力される行動のうち、予め定められた優先順位の高い行
動モデルから出力された行動を選択し、当該行動を実行
すべき旨のコマンド(以下、行動コマンドという。)を
ミドル・ウェア・レイヤ50の出力セマンティクスコン
バータモジュール78に送出する。なお、この実施の形
態においては、図10において下側に表記された行動モ
デルほど優先順位が高く設定されている。
【0112】また、行動切換モジュール81は、行動完
了後に出力セマンティクスコンバータモジュール78か
ら与えられる行動完了情報に基づいて、その行動が完了
したことを学習モジュール82、感情モデル83及び本
能モデル84に通知する。
【0113】一方、学習モジュール82は、入力セマン
ティクスコンバータモジュール69から与えられる認識
結果のうち、「叩かれた」や「撫でられた」など、使用
者からの働きかけとして受けた教示の認識結果を入力す
る。
【0114】そして、学習モジュール82は、この認識
結果及び行動切換モジュール71からの通知に基づい
て、「叩かれた(叱られた)」ときにはその行動の発現
確率を低下させ、「撫でられた(誉められた)」ときに
はその行動の発現確率を上昇させるように、行動モデル
ライブラリ70における対応する行動モデルの対応する
遷移確率を変更する。
【0115】他方、感情モデル83は、「喜び(Jo
y)」、「悲しみ(Sadness)」、「怒り(Anger)」、
「驚き(Surprise)」、「嫌悪(Disgust)」及び「恐
れ(Fear)」の合計6つの情動について、各情動毎にそ
の情動の強さを表すパラメータを保持している。そし
て、感情モデル83は、これら各情動のパラメータ値
を、それぞれ入力セマンティクスコンバータモジュール
69から与えられる「叩かれた」及び「撫でられた」な
どの特定の認識結果や、経過時間及び行動切換モジュー
ル81からの通知などに基づいて周期的に更新する。
【0116】具体的には、感情モデル83は、入力セマ
ンティクスコンバータモジュール69から与えられる認
識結果と、そのときのロボット装置1の行動と、前回更
新してからの経過時間となどに基づいて所定の演算式に
より算出されるそのときのその情動の変動量を△E
[t]、現在のその情動のパラメータ値をE[t]、そ
の情動の感度を表す係数をkとして、(1)式によっ
て次の周期におけるその情動のパラメータ値E[t+
1]を算出し、これを現在のその情動のパラメータ値E
[t]と置き換えるようにしてその情動のパラメータ値
を更新する。また、感情モデル83は、これと同様にし
て全ての情動のパラメータ値を更新する。
【0117】
【数1】
【0118】なお、各認識結果や出力セマンティクスコ
ンバータモジュール78からの通知が各情動のパラメー
タ値の変動量△E[t]にどの程度の影響を与えるかは
予め決められており、例えば「叩かれた」といった認識
結果は「怒り」の情動のパラメータ値の変動量△E
[t]に大きな影響を与え、「撫でられた」といった認
識結果は「喜び」の情動のパラメータ値の変動量△E
[t]に大きな影響を与えるようになっている。
【0119】ここで、出力セマンティクスコンバータモ
ジュール78からの通知とは、いわゆる行動のフィード
バック情報(行動完了情報)であり、行動の出現結果の
情報であり、感情モデル83は、このような情報によっ
ても感情を変化させる。これは、例えば、「叫ぶ」とい
った行動により怒りの感情レベルが下がるといったよう
なことである。なお、出力セマンティクスコンバータモ
ジュール78からの通知は、上述した学習モジュール8
2にも入力されており、学習モジュール82は、その通
知に基づいて行動モデルの対応する遷移確率を変更す
る。
【0120】なお、行動結果のフィードバックは、行動
切換モジュール81の出力(感情が付加された行動)に
よりなされるものであってもよい。
【0121】一方、本能モデル84は、「運動欲(exer
cise)」、「愛情欲(affection)」、「食欲(appetit
e)」及び「好奇心(curiosity)」の互いに独立した4
つの欲求について、これら欲求毎にその欲求の強さを表
すパラメータを保持している。そして、本能モデル84
は、これらの欲求のパラメータ値を、それぞれ入力セマ
ンティクスコンバータモジュール69から与えられる認
識結果や、経過時間及び行動切換モジュール81からの
通知などに基づいて周期的に更新する。
【0122】具体的には、本能モデル84は、「運動
欲」、「愛情欲」及び「好奇心」については、認識結
果、経過時間及び出力セマンティクスコンバータモジュ
ール78からの通知などに基づいて所定の演算式により
算出されるそのときのその欲求の変動量をΔI[k]、
現在のその欲求のパラメータ値をI[k]、その欲求の
感度を表す係数kとして、所定周期で(2)式を用い
て次の周期におけるその欲求のパラメータ値I[k+
1]を算出し、この演算結果を現在のその欲求のパラメ
ータ値I[k]と置き換えるようにしてその欲求のパラ
メータ値を更新する。また、本能モデル84は、これと
同様にして「食欲」を除く各欲求のパラメータ値を更新
する。
【0123】
【数2】
【0124】なお、認識結果及び出力セマンティクスコ
ンバータモジュール78からの通知などが各欲求のパラ
メータ値の変動量△I[k]にどの程度の影響を与える
かは予め決められており、例えば出力セマンティクスコ
ンバータモジュール78からの通知は、「疲れ」のパラ
メータ値の変動量△I[k]に大きな影響を与えるよう
になっている。
【0125】なお、本実施の形態においては、各情動及
び各欲求(本能)のパラメータ値がそれぞれ0から10
0までの範囲で変動するように規制されており、また係
数k 、kの値も各情動及び各欲求毎に個別に設定さ
れている。
【0126】一方、ミドル・ウェア・レイヤ50の出力
セマンティクスコンバータモジュール78は、図8に示
すように、上述のようにしてアプリケーション・レイヤ
51の行動切換モジュール81から与えられる「前
進」、「喜ぶ」、「話す」又は「トラッキング(ボール
を追いかける)」といった抽象的な行動コマンドを出力
系79の対応する信号処理モジュール71〜77に与え
る。
【0127】そしてこれら信号処理モジュール71〜7
7は、行動コマンドが与えられると当該行動コマンドに
基づいて、その行動をするために対応するアクチュエー
タに与えるべきサーボ指令値や、スピーカから出力する
音の音声データ及び又はLEDに与える駆動データを生
成し、これらのデータをロボティック・サーバ・オブジ
ェクト42のバーチャル・ロボット43及び信号処理回
路を順次介して対応するアクチュエータ又はスピーカ又
はLEDに順次送出する。
【0128】このようにしてロボット装置1は、上述し
た制御プログラムに基づいて、自己(内部)及び周囲
(外部)の状況や、使用者からの指示及び働きかけに応
じた自律的な行動ができる。
【0129】このような制御プログラムは、ロボット装
置が読取可能な形式で記録された記録媒体を介して提供
される。制御プログラムを記録する記録媒体としては、
磁気読取方式の記録媒体(例えば、磁気テープ、フレキ
シブルディスク、磁気カード)、光学読取方式の記録媒
体(例えば、CD−ROM、MO、CD−R、DVD)
等が考えられる。記録媒体には、半導体メモリ(いわゆ
るメモリカード(矩形型、正方形型など形状は問わな
い。)、ICカード)等の記憶媒体も含まれる。また、
制御プログラムは、いわゆるインターネット等を介して
提供されてもよい。
【0130】これらの制御プログラムは、専用の読込ド
ライバ装置、又はパーソナルコンピュータ等を介して再
生され、有線又は無線接続によってロボット装置1に伝
送されて読み込まれる。また、ロボット装置1は、半導
体メモリ、又はICカード等の小型化された記憶媒体の
ドライブ装置を備える場合、これら記憶媒体から制御プ
ログラムを直接読み込むこともできる。
【0131】以上のように構成されたロボット装置1に
おいて、上述した音声合成のアルゴリズムは、図8中の
音再生モジュール77として実装される。音再生モジュ
ール77では、上位の部分(例えば、行動モデル)にて
決定された音出力コマンド(例えば、「喜びで発話せ
よ」など)を受け、実際の音声波形データを生成し、順
にバーチャルロボット43のスピーカデバイスに対して
データを送信する。これによりロボット装置において、
図6に示すスピーカ27から感情表現がなされた発話文
が発せられる。
【0132】なお、本発明は上述した実施の形態のみに
限定されるものではなく、本発明の要旨を逸脱しない範
囲において種々の変更が可能であることは勿論である。
【0133】
【発明の効果】以上詳細に説明したように、本発明に係
る音声合成方法及び装置は、入力されたテキストを解析
し、当該テキスト中に所定の単語又は文が存在する場合
に、予め人間の発声から抽出された上記所定の単語又は
文に対応する自然韻律データを記憶手段から選択し、上
記所定の単語又は文以外の部分について、上記テキスト
の音声記号列を作成し、上記音声記号列から韻律データ
を作成し、上記自然韻律データ又は上記韻律データに基
づいて音声を合成することを特徴としている。
【0134】ここで、上記記憶手段には、同一表記に対
して、例えば異なる種類の感情又はキャラクタを表す複
数種類の自然韻律データが記憶されており、上記自然韻
律データ生成する際には、上記複数種類の自然韻律デー
タから、選択制御情報によって指定された1種類が選択
される。この選択制御情報は、例えば外部から与えられ
た情報又は上記テキストに埋め込まれたタグの情報であ
る。
【0135】このような音声合成方法及び装置は、予め
記憶手段に種々の単語又は文を記憶しておき、テキスト
の言語処理の結果、記憶手段に記憶されている単語又は
文については、この記憶手段に登録されている自然韻律
データから、例えば外部から与えられた情報又は上記テ
キストに埋め込まれたタグの情報によって指定された種
類の自然韻律データを選択する。一方、登録されていな
い単語又は文については、通常のテキスト音声合成と同
様に、音声記号列を生成してから、韻律データを生成す
る。そして、韻律データ又は自然韻律データに基づいて
音声波形データを生成する。これにより、より人間の声
に近い自然な音声を合成することが可能となる。
【0136】また、本発明に係るプログラムは、上述し
たような音声合成処理をコンピュータに実行させるもの
であり、本発明に係る記録媒体は、このプログラムが記
録されたコンピュータ読み取り可能なものである。
【0137】このようなプログラム及び記録媒体によれ
ば、登録されている単語又は文の自然韻律データと登録
されていない単語又は文の韻律データとを合成すること
により、より人間の声に近い自然な音声を合成すること
が可能となる。
【0138】また、本発明に係るロボット装置は、供給
された入力情報に基づいて動作を行う自律型のロボット
装置であって、所定の単語又は文と、予め人間の発声か
ら抽出された上記所定の単語又は文に対応する自然韻律
データとが記憶されている記憶手段と、発話するテキス
トを解析し、当該テキスト中に上記所定の単語又は文が
存在する場合に、当該所定の単語又は文に対応する自然
韻律データを上記記憶手段から選択する自然韻律データ
選択手段と、上記所定の単語又は文以外の部分につい
て、上記テキストの音声記号列を作成する音声記号列作
成手段と、上記音声記号列から韻律データを作成する韻
律データ作成手段と、上記自然韻律データ又は上記韻律
データに基づいて音声を合成する音声合成手段とを備え
ることを特徴としている。
【0139】ここで、上記記憶手段には、同一表記に対
して、例えば異なる種類の感情又はキャラクタを表す複
数種類の自然韻律データが記憶されており、上記自然韻
律データ生成手段は、上記複数種類の自然韻律データか
ら、選択制御情報によって指定された1種類を選択す
る。この選択制御情報は、例えば感情モデルの感情状態
情報又は上記テキストに埋め込まれたタグの情報であ
る。
【0140】このようなロボット装置は、予め記憶手段
に種々の単語又は文を記憶しておき、発話するテキスト
の言語処理の結果、記憶手段に記憶されている単語又は
文については、この記憶手段に登録されている自然韻律
データから、例えば感情モデルの感情状態情報又は上記
テキストに埋め込まれたタグの情報によって指定された
種類の自然韻律データを選択する。一方、登録されてい
ない単語については、通常のテキスト音声合成と同様
に、音声記号列を生成してから、韻律データを生成す
る。そして、韻律データ又は自然韻律データに基づいて
音声波形データを生成する。これにより、より人間の声
に近い自然な音声を合成することが可能となる。
【図面の簡単な説明】
【図1】本実施の形態における音声合成装置の概略構成
を説明する図である。
【図2】同音声合成装置の動作を説明するフローチャー
トである。
【図3】同音声合成装置における自然韻律辞書の構成例
を説明する図である。
【図4】本実施の形態におけるロボット装置の外観構成
を示す斜視図である。
【図5】同ロボット装置の自由度構成モデルを模式的に
示す図である。
【図6】同ロボット装置の回路構成を示すブロック図で
ある。
【図7】同ロボット装置のソフトウェア構成を示すブロ
ック図である。
【図8】同ロボット装置のソフトウェア構成におけるミ
ドル・ウェア・レイヤの構成を示すブロック図である。
【図9】同ロボット装置のソフトウェア構成におけるア
プリケーション・レイヤの構成を示すブロック図であ
る。
【図10】アプリケーション・レイヤの行動モデルライ
ブラリの構成を示すブロック図である。
【図11】同ロボット装置の行動決定のための情報とな
る有限確率オートマトンを説明する図である。
【図12】有限確率オートマトンの各ノードに用意され
た状態遷移表を示す図である。
【符号の説明】
1 ロボット装置、10 CPU、14 信号処理回
路、27 スピーカ、80 行動モデル、83 感情モ
デル、200 音声合成装置、210 言語処理部、2
11 タグ処理部、212 言語解析部、213 自然
韻律辞書記憶部、214 音声記号生成部、220 音
声合成部、221 韻律生成部、222韻律データ調整
部、223 音素片記憶部、224 波形生成部
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 21/04 G10L 3/02 A 5/04 F (72)発明者 赤羽 誠 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 Fターム(参考) 2C150 CA01 DA02 DF02 DF33 DG13 EB01 ED42 ED56 ED67 EE02 EE07 EF16 EH07 FA04 5D045 AA07 AB30

Claims (41)

    【特許請求の範囲】
  1. 【請求項1】 入力されたテキストを解析し、当該テキ
    スト中に所定の単語又は文が存在する場合に、予め人間
    の発声から抽出された上記所定の単語又は文に対応する
    自然韻律データを記憶手段から選択する自然韻律データ
    選択工程と、 上記所定の単語又は文以外の部分について、上記テキス
    トの音声記号列を作成する音声記号列作成工程と、 上記音声記号列から韻律データを作成する韻律データ作
    成工程と、 上記自然韻律データ又は上記韻律データに基づいて音声
    を合成する音声合成工程とを有することを特徴とする音
    声合成方法。
  2. 【請求項2】 上記記憶手段には、同一表記に対して複
    数種類の自然韻律データが記憶されており、 上記自然韻律データ生成工程では、上記複数種類の自然
    韻律データから、選択制御情報によって指定された1種
    類が選択されることを特徴とする請求項1記載の音声合
    成方法。
  3. 【請求項3】 上記複数種類の自然韻律データは、異な
    る種類の感情又はキャラクタを表すものであることを特
    徴とする請求項2記載の音声合成方法。
  4. 【請求項4】 上記選択制御情報は、外部から与えられ
    た情報であることを特徴とする請求項2記載の音声合成
    方法。
  5. 【請求項5】 上記選択制御情報は、上記テキストに埋
    め込まれたタグの情報であることを特徴とする請求項2
    記載の音声合成方法。
  6. 【請求項6】 上記選択制御情報によって指定された自
    然韻律データが上記記憶手段に記憶されていない場合、 上記自然韻律データ生成工程では、当該指定された自然
    韻律データに類似する自然韻律データが選択されること
    を特徴とする請求項2記載の音声合成方法。
  7. 【請求項7】 上記音声合成工程では、少なくとも上記
    自然韻律データのパラメータが調整されて、上記音声が
    合成されることを特徴とする請求項1記載の音声合成方
    法。
  8. 【請求項8】 上記テキストは、複数の音韻を有して成
    り、上記パラメータは、上記音韻のピッチ周期、継続時
    間長及び音量の少なくとも1つであることを特徴とする
    請求項7記載の音声合成方法。
  9. 【請求項9】 上記音声合成工程では、当該合成に用い
    られる音素片データの平均ピッチ周期、平均話速及び平
    均音量の少なくとも1つに基づいて、上記パラメータが
    調整されることを特徴とする請求項8記載の音声合成方
    法。
  10. 【請求項10】 上記記憶手段には、同一表記に対して
    複数種類の自然韻律データが記憶されており、 上記自然韻律データ生成工程では、上記複数種類の自然
    韻律データから、選択制御情報によって指定された1種
    類が選択され、 上記韻律データ作成工程では、上記選択制御情報に基づ
    いて、上記韻律データの上記パラメータが調整され、 上記音声合成工程では、当該調整後の上記韻律データの
    上記パラメータに基づいて、上記自然韻律データの上記
    パラメータが調整されることを特徴とする請求項8記載
    の音声合成方法。
  11. 【請求項11】 所定の単語又は文と、予め人間の発声
    から抽出された上記所定の単語又は文に対応する自然韻
    律データとが記憶されている記憶手段と、 入力されたテキストを解析し、当該テキスト中に上記所
    定の単語又は文が存在する場合に、当該所定の単語又は
    文に対応する自然韻律データを上記記憶手段から選択す
    る自然韻律データ選択手段と、 上記所定の単語又は文以外の部分について、上記テキス
    トの音声記号列を作成する音声記号列作成手段と、 上記音声記号列から韻律データを作成する韻律データ作
    成手段と、 上記自然韻律データ又は上記韻律データに基づいて音声
    を合成する音声合成手段とを備えることを特徴とする音
    声合成装置。
  12. 【請求項12】 上記記憶手段には、同一表記に対して
    複数種類の自然韻律データが記憶されており、 上記自然韻律データ生成手段は、上記複数種類の自然韻
    律データから、選択制御情報によって指定された1種類
    を選択することを特徴とする請求項11記載の音声合成
    装置。
  13. 【請求項13】 上記複数種類の自然韻律データは、異
    なる種類の感情又はキャラクタを表すものであることを
    特徴とする請求項12記載の音声合成装置。
  14. 【請求項14】 上記音声合成手段は、少なくとも上記
    自然韻律データのパラメータを調整して、上記音声を合
    成することを特徴とする請求項11記載の音声合成装
    置。
  15. 【請求項15】 上記テキストは、複数の音韻を有して
    成り、上記パラメータは、上記音韻のピッチ周期、継続
    時間長及び音量の少なくとも1つであることを特徴とす
    る請求項14記載の音声合成装置。
  16. 【請求項16】 上記音声合成手段は、当該合成に用い
    られる音声素片データの平均ピッチ周期、平均話速及び
    平均音量の少なくとも1つに基づいて、上記パラメータ
    を調整することを特徴とする請求項15記載の音声合成
    装置。
  17. 【請求項17】 上記記憶手段には、同一表記に対して
    複数種類の自然韻律データが記憶されており、 上記自然韻律データ生成手段は、上記複数種類の自然韻
    律データから、選択制御情報によって指定された1種類
    を選択し、 上記韻律データ作成手段は、上記選択制御情報に基づい
    て、上記韻律データの上記パラメータを調整し、 上記音声合成手段は、当該調整後の上記韻律データの上
    記パラメータに基づいて、上記自然韻律データの上記パ
    ラメータを調整することを特徴とする請求項15記載の
    音声合成装置。
  18. 【請求項18】 コンピュータに所定の処理を実行させ
    るためのプログラムであって、 入力されたテキストを解析し、当該テキスト中に所定の
    単語又は文が存在する場合に、予め人間の発声から抽出
    された上記所定の単語又は文に対応する自然韻律データ
    を記憶手段から選択する自然韻律データ選択工程と、 上記所定の単語又は文以外の部分について、上記テキス
    トの音声記号列を作成する音声記号列作成工程と、 上記音声記号列から韻律データを作成する韻律データ作
    成工程と、 上記自然韻律データ又は上記韻律データに基づいて音声
    を合成する音声合成工程とを有することを特徴とするプ
    ログラム。
  19. 【請求項19】 上記記憶手段には、同一表記に対して
    複数種類の自然韻律データが記憶されており、 上記自然韻律データ生成工程では、上記複数種類の自然
    韻律データから、選択制御情報によって指定された1種
    類が選択されることを特徴とする請求項18記載のプロ
    グラム。
  20. 【請求項20】 上記複数種類の自然韻律データは、異
    なる種類の感情又はキャラクタを表すものであることを
    特徴とする請求項19記載のプログラム。
  21. 【請求項21】 上記音声合成工程では、少なくとも上
    記自然韻律データのパラメータが調整されて、上記音声
    が合成されることを特徴とする請求項18記載のプログ
    ラム。
  22. 【請求項22】 上記テキストは、複数の音韻を有して
    成り、上記パラメータは、上記音韻のピッチ周期、継続
    時間長及び音量の少なくとも1つであることを特徴とす
    る請求項21記載のプログラム。
  23. 【請求項23】 上記音声合成工程では、当該合成に用
    いられる音声素片データの平均ピッチ周期、平均話速及
    び平均音量の少なくとも1つに基づいて、上記パラメー
    タが調整されることを特徴とする請求項22記載のプロ
    グラム。
  24. 【請求項24】 上記記憶手段には、同一表記に対して
    複数種類の自然韻律データが記憶されており、 上記自然韻律データ生成工程では、上記複数種類の自然
    韻律データから、選択制御情報によって指定された1種
    類が選択され、 上記韻律データ作成工程では、上記選択制御情報に基づ
    いて、上記韻律データの上記パラメータが調整され、 上記音声合成工程では、当該調整後の上記韻律データの
    上記パラメータに基づいて、上記自然韻律データの上記
    パラメータが調整されることを特徴とする請求項22記
    載のプログラム。
  25. 【請求項25】 コンピュータに所定の処理を実行させ
    るためのプログラムが記録されたコンピュータ読み取り
    可能な記録媒体であって、 入力されたテキストを解析し、当該テキスト中に所定の
    単語又は文が存在する場合に、予め人間の発声から抽出
    された上記所定の単語又は文に対応する自然韻律データ
    を記憶手段から選択する自然韻律データ選択工程と、 上記所定の単語又は文以外の部分について、上記テキス
    トの音声記号列を作成する音声記号列作成工程と、 上記音声記号列から韻律データを作成する韻律データ作
    成工程と、 上記自然韻律データ又は上記韻律データに基づいて音声
    を合成する音声合成工程とを有することを特徴とするプ
    ログラムが記録された記録媒体。
  26. 【請求項26】 上記記憶手段には、同一表記に対して
    複数種類の自然韻律データが記憶されており、 上記自然韻律データ生成工程では、上記複数種類の自然
    韻律データから、選択制御情報によって指定された1種
    類が選択されることを特徴とする請求項25記載の記録
    媒体。
  27. 【請求項27】 上記複数種類の自然韻律データは、異
    なる種類の感情又はキャラクタを表すものであることを
    特徴とする請求項26記載の記録媒体。
  28. 【請求項28】 上記音声合成工程では、少なくとも上
    記自然韻律データのパラメータが調整されて、上記音声
    が合成されることを特徴とする請求項25記載の記録媒
    体。
  29. 【請求項29】 上記テキストは、複数の音韻を有して
    成り、上記パラメータは、上記音韻のピッチ周期、継続
    時間長及び音量の少なくとも1つであることを特徴とす
    る請求項28記載の記録媒体。
  30. 【請求項30】 上記音声合成工程では、当該合成に用
    いられる音声素片データの平均ピッチ周期、平均話速及
    び平均音量の少なくとも1つに基づいて、上記パラメー
    タが調整されることを特徴とする請求項29記載の記録
    媒体。
  31. 【請求項31】 上記記憶手段には、同一表記に対して
    複数種類の自然韻律データが記憶されており、 上記自然韻律データ生成工程では、上記複数種類の自然
    韻律データから、選択制御情報によって指定された1種
    類が選択され、 上記韻律データ作成工程では、上記選択制御情報に基づ
    いて、上記韻律データの上記パラメータが調整され、 上記音声合成工程では、当該調整後の上記韻律データの
    上記パラメータに基づいて、上記自然韻律データの上記
    パラメータが調整されることを特徴とする請求項28記
    載の記録媒体。
  32. 【請求項32】 供給された入力情報に基づいて動作を
    行う自律型のロボット装置であって、 所定の単語又は文と、予め人間の発声から抽出された上
    記所定の単語又は文に対応する自然韻律データとが記憶
    されている記憶手段と、 発話するテキストを解析し、当該テキスト中に上記所定
    の単語又は文が存在する場合に、当該所定の単語又は文
    に対応する自然韻律データを上記記憶手段から選択する
    自然韻律データ選択手段と、 上記所定の単語又は文以外の部分について、上記テキス
    トの音声記号列を作成する音声記号列作成手段と、 上記音声記号列から韻律データを作成する韻律データ作
    成手段と、 上記自然韻律データ又は上記韻律データに基づいて音声
    を合成する音声合成手段とを備えることを特徴とするロ
    ボット装置。
  33. 【請求項33】 上記記憶手段には、同一表記に対して
    複数種類の自然韻律データが記憶されており、 上記自然韻律データ生成手段は、上記複数種類の自然韻
    律データから、選択制御情報によって指定された1種類
    を選択することを特徴とする請求項32記載のロボット
    装置。
  34. 【請求項34】 上記複数種類の自然韻律データは、異
    なる種類の感情又はキャラクタを表すものであることを
    特徴とする請求項33記載のロボット装置。
  35. 【請求項35】 上記動作に起因する感情モデルと、 上記感情モデルの感情状態を判別する感情状態判別手段
    とをさらに備え、 上記選択制御情報は、上記感情状態判別手段によって判
    別された感情状態情報であることを特徴とする請求項3
    3記載のロボット装置。
  36. 【請求項36】 上記選択制御情報は、上記テキストに
    埋め込まれたタグの情報であることを特徴とする請求項
    33記載のロボット装置。
  37. 【請求項37】 上記選択制御情報によって指定された
    自然韻律データが上記記憶手段に記憶されていない場
    合、 上記自然韻律データ生成手段は、当該指定された自然韻
    律データに類似する自然韻律データを選択することを特
    徴とする請求項33記載のロボット装置。
  38. 【請求項38】 上記音声合成手段は、少なくとも上記
    自然韻律データのパラメータを調整して、上記音声を合
    成することを特徴とする請求項32記載のロボット装
    置。
  39. 【請求項39】 上記テキストは、複数の音韻を有して
    成り、上記パラメータは、上記音韻のピッチ周期、継続
    時間長及び音量の少なくとも1つであることを特徴とす
    る請求項38記載のロボット装置。
  40. 【請求項40】 上記音声合成手段は、当該合成に用い
    られる音声素片データの平均ピッチ周期、平均話速及び
    平均音量の少なくとも1つに基づいて、上記パラメータ
    を調整することを特徴とする請求項39記載のロボット
    装置。
  41. 【請求項41】 上記記憶手段には、同一表記に対して
    複数種類の自然韻律データが記憶されており、 上記自然韻律データ生成手段は、上記複数種類の自然韻
    律データから、選択制御情報によって指定された1種類
    を選択し、 上記韻律データ作成手段は、上記選択制御情報に基づい
    て、上記韻律データの上記パラメータを調整し、 上記音声合成手段は、当該調整後の上記韻律データの上
    記パラメータに基づいて、上記自然韻律データの上記パ
    ラメータを調整することを特徴とする請求項39記載の
    ロボット装置。
JP2002073384A 2002-03-15 2002-03-15 音声合成方法、音声合成装置、プログラム及び記録媒体、並びにロボット装置 Pending JP2003271172A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002073384A JP2003271172A (ja) 2002-03-15 2002-03-15 音声合成方法、音声合成装置、プログラム及び記録媒体、並びにロボット装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002073384A JP2003271172A (ja) 2002-03-15 2002-03-15 音声合成方法、音声合成装置、プログラム及び記録媒体、並びにロボット装置

Publications (2)

Publication Number Publication Date
JP2003271172A true JP2003271172A (ja) 2003-09-25
JP2003271172A5 JP2003271172A5 (ja) 2005-09-02

Family

ID=29203061

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002073384A Pending JP2003271172A (ja) 2002-03-15 2002-03-15 音声合成方法、音声合成装置、プログラム及び記録媒体、並びにロボット装置

Country Status (1)

Country Link
JP (1) JP2003271172A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006276528A (ja) * 2005-03-29 2006-10-12 Toshiba Corp 音声合成装置及びその方法
JPWO2005057549A1 (ja) * 2003-12-12 2008-04-17 日本電気株式会社 情報処理システム、情報処理方法および情報処理用プログラム
JP5177135B2 (ja) * 2007-05-08 2013-04-03 日本電気株式会社 音声合成装置、音声合成方法及び音声合成プログラム
JP2016062077A (ja) * 2014-09-22 2016-04-25 シャープ株式会社 対話装置、対話システム、対話プログラム、サーバ、サーバの制御方法およびサーバ制御プログラム
CN108615524A (zh) * 2018-05-14 2018-10-02 平安科技(深圳)有限公司 一种语音合成方法、系统及终端设备
CN112786004A (zh) * 2020-12-30 2021-05-11 科大讯飞股份有限公司 语音合成方法以及电子设备、存储装置
CN117275455A (zh) * 2023-11-22 2023-12-22 深圳市阳日电子有限公司 一种用于翻译耳机的声音克隆方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11338488A (ja) * 1998-05-26 1999-12-10 Ricoh Co Ltd 音声合成装置及び音声合成方法
JP2000187495A (ja) * 1998-12-21 2000-07-04 Nec Corp 音声合成法方法、装置、および音声合成プログラムを記録した記録媒体
JP2000231395A (ja) * 1999-02-08 2000-08-22 Nippon Telegr & Teleph Corp <Ntt> 音声合成方法及び装置
JP2001092482A (ja) * 1999-03-25 2001-04-06 Matsushita Electric Ind Co Ltd 音声合成システム、および音声合成方法
JP2001166787A (ja) * 1999-12-03 2001-06-22 Matsushita Electric Ind Co Ltd 音声合成装置および自然言語処理方法
JP2001209820A (ja) * 2000-01-25 2001-08-03 Nec Corp 感情表出装置及びプログラムを記録した機械読み取り可能な記録媒体
JP2002014687A (ja) * 2000-06-28 2002-01-18 Nec Corp 音声合成装置
JP2003271173A (ja) * 2002-03-15 2003-09-25 Sony Corp 音声合成方法、音声合成装置、プログラム及び記録媒体、並びにロボット装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11338488A (ja) * 1998-05-26 1999-12-10 Ricoh Co Ltd 音声合成装置及び音声合成方法
JP2000187495A (ja) * 1998-12-21 2000-07-04 Nec Corp 音声合成法方法、装置、および音声合成プログラムを記録した記録媒体
JP2000231395A (ja) * 1999-02-08 2000-08-22 Nippon Telegr & Teleph Corp <Ntt> 音声合成方法及び装置
JP2001092482A (ja) * 1999-03-25 2001-04-06 Matsushita Electric Ind Co Ltd 音声合成システム、および音声合成方法
JP2001166787A (ja) * 1999-12-03 2001-06-22 Matsushita Electric Ind Co Ltd 音声合成装置および自然言語処理方法
JP2001209820A (ja) * 2000-01-25 2001-08-03 Nec Corp 感情表出装置及びプログラムを記録した機械読み取り可能な記録媒体
JP2002014687A (ja) * 2000-06-28 2002-01-18 Nec Corp 音声合成装置
JP2003271173A (ja) * 2002-03-15 2003-09-25 Sony Corp 音声合成方法、音声合成装置、プログラム及び記録媒体、並びにロボット装置

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4839838B2 (ja) * 2003-12-12 2011-12-21 日本電気株式会社 情報処理システム、情報処理方法および情報処理用プログラム
JPWO2005057549A1 (ja) * 2003-12-12 2008-04-17 日本電気株式会社 情報処理システム、情報処理方法および情報処理用プログラム
US8473099B2 (en) 2003-12-12 2013-06-25 Nec Corporation Information processing system, method of processing information, and program for processing information
US8433580B2 (en) 2003-12-12 2013-04-30 Nec Corporation Information processing system, which adds information to translation and converts it to voice signal, and method of processing information for the same
JP4551803B2 (ja) * 2005-03-29 2010-09-29 株式会社東芝 音声合成装置及びそのプログラム
JP2006276528A (ja) * 2005-03-29 2006-10-12 Toshiba Corp 音声合成装置及びその方法
US7630896B2 (en) 2005-03-29 2009-12-08 Kabushiki Kaisha Toshiba Speech synthesis system and method
JP5177135B2 (ja) * 2007-05-08 2013-04-03 日本電気株式会社 音声合成装置、音声合成方法及び音声合成プログラム
JP2016062077A (ja) * 2014-09-22 2016-04-25 シャープ株式会社 対話装置、対話システム、対話プログラム、サーバ、サーバの制御方法およびサーバ制御プログラム
CN108615524A (zh) * 2018-05-14 2018-10-02 平安科技(深圳)有限公司 一种语音合成方法、系统及终端设备
CN112786004A (zh) * 2020-12-30 2021-05-11 科大讯飞股份有限公司 语音合成方法以及电子设备、存储装置
CN112786004B (zh) * 2020-12-30 2024-05-31 中国科学技术大学 语音合成方法以及电子设备、存储装置
CN117275455A (zh) * 2023-11-22 2023-12-22 深圳市阳日电子有限公司 一种用于翻译耳机的声音克隆方法
CN117275455B (zh) * 2023-11-22 2024-02-13 深圳市阳日电子有限公司 一种用于翻译耳机的声音克隆方法

Similar Documents

Publication Publication Date Title
JP4150198B2 (ja) 音声合成方法、音声合成装置、プログラム及び記録媒体、並びにロボット装置
US7412390B2 (en) Method and apparatus for speech synthesis, program, recording medium, method and apparatus for generating constraint information and robot apparatus
KR100814569B1 (ko) 로봇 제어 장치
US7065490B1 (en) Voice processing method based on the emotion and instinct states of a robot
US20020198717A1 (en) Method and apparatus for voice synthesis and robot apparatus
WO2002091356A1 (fr) Dispositif robot, appareil de reconnaissance de caracteres, procede de lecture de caracteres, programme de commande et support d&#39;enregistrement
KR100879417B1 (ko) 음성 출력 장치
US7313524B1 (en) Voice recognition based on a growth state of a robot
US7233900B2 (en) Word sequence output device
JP2002318594A (ja) 言語処理装置および言語処理方法、並びにプログラムおよび記録媒体
JP2003271172A (ja) 音声合成方法、音声合成装置、プログラム及び記録媒体、並びにロボット装置
JP2002268663A (ja) 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体
JP2002258886A (ja) 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体
JP4016316B2 (ja) ロボット装置およびロボット制御方法、記録媒体、並びにプログラム
JP2002311981A (ja) 自然言語処理装置および自然言語処理方法、並びにプログラムおよび記録媒体
JP2002304187A (ja) 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体
JP2002318590A (ja) 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体
JP2002175091A (ja) 音声合成方法及び装置、並びにロボット装置
JP2002318593A (ja) 言語処理装置および言語処理方法、並びにプログラムおよび記録媒体

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050302

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050302

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070831

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070911

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071105

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20081014