JP2001188553A

JP2001188553A - 音声合成装置および方法、並びに記録媒体

Info

Publication number: JP2001188553A
Application number: JP37378099A
Authority: JP
Inventors: Masato Shimakawa; 真人島川; Nobuhide Yamazaki; 信英山崎; Erika Kobayashi; 恵理香小林; Makoto Akaha; 誠赤羽; Kenichiro Kobayashi; 賢一郎小林; Keiichi Yamada; 敬一山田; Tomoaki Nitsuta; 朋晃新田
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1999-12-28
Filing date: 1999-12-28
Publication date: 2001-07-10
Anticipated expiration: 2019-12-28
Also published as: EP1113417A2; EP1113417B1; US20010021907A1; JP4465768B2; DE60035848D1; US7379871B2; EP1113417A3; DE60035848T2

Abstract

(57)【要約】【課題】感情や動作等に対応して話し方を変化するロ
ボットを実現する。【解決手段】各種センサ１は、外部の状況やロボット
に対する作用を検出して、検出結果をロボット運動系制
御部１０に出力する。ロボット運動系制御部１０は、動
作モデル３２に基づき、動作ステートを決定する。ロボ
ット思考系制御部１１は、感情モデルに基づき、感情ス
テートを決定する。音声合成コントロール情報選択部１
２は、動作ステート、および感情ステートに基づいて、
音声合成コントロール情報テーブル１３上のフィールド
を決定する。言語処理部１４は、ロボット思考系制御部
１１からの音声合成対象文を文法的に解析した後、音声
合成コントロール情報に基づいて所定の箇所を変換し、
規則音声合成部１５に出力する。規則音声合成部１５
は、音声合成対象文に対応する音声信号を合成する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声合成装置およ
び方法、並びに記録媒体に関し、例えば、ロボットに搭
載して、当該ロボットの感情や動作等に対応して合成す
る音声信号を変化させる場合に用いて好適な音声合成装
置および方法、並びに記録媒体に関する。

【０００２】

【従来の技術】従来、言葉を発声するロボットは存在す
る。例えば、言葉を発声するロボットが、自己の感情を
変化させて、感情に応じて話し方を変えるようになった
り、例えばまた、ロボットに、種別、性別、年齢、出身
地、性格、体格などの個性を設定し、個性に対応して話
し方を変化させるようになれば、よりリアルに生命体を
模擬したものとなる。

【０００３】

【発明が解決しようとする課題】そのようなロボットに
対してユーザは、あたかも生きたペットに対するような
親しみや愛情をもって接することができるようになる
が、そのようなロボットは実現されていない課題があっ
た。

【０００４】本発明はこのような状況に鑑みてなされた
ものであり、感情や動作等に対応して話し方を変化させ
るようにすることにより、よりリアルに生命体を模擬し
たロボットを実現することを目的とする。

【０００５】

【課題を解決するための手段】本発明の音声合成装置
は、動作モデルに従って動作状態を遷移する動作状態遷
移手段と、感情モデルに従って感情状態を遷移する感情
状態遷移手段と、動作状態および感情状態のうち、少な
くとも一方に基づいて制御情報を選択する選択手段と、
選択手段が選択した制御情報に含まれる音声合成情報に
基づき、対象文に対応して音声信号を合成する合成手段
とを含むことを特徴とする。

【０００６】本発明の音声合成装置は、外部の状況を検
出する検出手段をさらに含むことができ、前記選択手段
は、検出手段の検出結果にも基づいて制御情報を選択す
るようにすることができる。

【０００７】本発明の音声合成装置は、個体情報を保持
する保持手段をさらに含むことができ、前記選択手段
は、保持手段が保持する個体情報にも基づいて制御情報
を選択するようにすることができる。

【０００８】本発明の音声合成装置は、起動以降の経過
時間をカウントするカウント手段をさらに含むことがで
き、前記選択手段は、カウント手段がカウントした経過
時間にも基づいて制御情報を選択するようにすることが
できる。

【０００９】本発明の音声合成装置は、動作状態遷移手
段が動作状態を遷移した回数、および感情状態遷移手段
が感情状態を遷移した回数のうち、少なくとも一方を累
積する累積手段をさらに含むことができ、前記選択手段
は、累積手段が累積した回数にも基づいて制御情報を選
択するようにすることができる。

【００１０】本発明の音声合成装置は、選択手段が選択
した制御情報に含まれる選択情報に対応する単語置換辞
書を用いて、対象文に含まれる単語を置換する置換手段
をさらに含むことができる。

【００１１】本発明の音声合成装置は、選択手段が選択
した制御情報に含まれる選択情報に対応する文体変換規
則に従って、対象文の文体を変換する変換手段をさらに
含むことができる。

【００１２】本発明の音声合成方法は、動作モデルに従
って動作状態を遷移する動作状態遷移ステップと、感情
モデルに従って感情状態を遷移する感情状態遷移ステッ
プと、動作状態および感情状態のうち、少なくとも一方
に基づいて制御情報を選択する選択ステップと、選択ス
テップの処理で選択された制御情報に含まれる音声合成
情報に基づき、対象文に対応して音声信号を合成する合
成ステップとを含むことを特徴とする。

【００１３】本発明の記録媒体のプログラムは、動作モ
デルに従って動作状態を遷移する動作状態遷移ステップ
と、感情モデルに従って感情状態を遷移する感情状態遷
移ステップと、動作状態および感情状態のうち、少なく
とも一方に基づいて制御情報を選択する選択ステップ
と、選択ステップの処理で選択された制御情報に含まれ
る音声合成情報に基づき、対象文に対応して音声信号を
合成する合成ステップとを含むことを特徴とする。

【００１４】本発明の音声合成装置、音声合成方法、お
よび記録媒体のプログラムにおいては、動作モデルに従
って動作状態が遷移され、感情モデルに従って感情状態
が遷移される。また、動作状態および感情状態のうち、
少なくとも一方に基づいて制御情報が選択され、選択さ
れた制御情報に含まれる音声合成情報に基づき、対象文
に対応して音声信号が合成される。

【００１５】

【発明の実施の形態】図１は、本発明を適用したロボッ
トの音声合成に関わる部分の構成例を示している。この
ロボットは、発話機能を有し、かつ、感情と動作を変化
させて、感情や動作の変化に応じて話し方を変化するよ
うになされている。

【００１６】各種センサ１は、ロボット外部の状況やロ
ボットに対する作用を検出して、検出結果をロボット運
動系制御部１０に出力する。例えば、外気温センサ２
は、ロボットの外気温を検出する。温度センサ３と接触
センサ４は、対をなして近傍に設けられており、接触セ
ンサ４がロボットに対する物体の接触を検知し、温度セ
ンサ３が接触した物体の温度を検出する。感圧センサ５
は、ロボットに加えられる外力（例えば、叩かれる力や
撫でられる力など）の強さを検出する。風速センサ６
は、ロボット外部の風速を検出する。照度センサ７は、
ロボット外部の照度を検出する。画像センサ８は、例え
ばCCDなどからなり、ロボット外部の景色を画像信号と
して検出する。音声センサ９は、例えばマイクロフォン
からなり、音声を検出する。

【００１７】ロボット運動系制御部１０は、図２に示す
ように、運動系処理部３１と動作モデル３２から構成さ
れており、当該ロボットの動作を管理する。運動系処理
部３１は、各種センサ１から入力される検出結果、自己
の内部で生成する内部イベント、および、ロボット思考
系制御部１１から入力される指令を動作モデル３２に照
らし合わせてロボットの動作を遷移させ、現在の動作の
状態を動作ステートとして音声合成コントロール情報選
択部１２に出力する。運動系処理部３１はまた、例え
ば、感圧センサ５の検知結果が所定の閾値以上の力であ
ったとき、動作イベントとして「頭を叩かれた」と判定
するように、各種センサ１から入力される検出結果に基
づき、動作イベントを判定してロボット思考系制御部１
１に出力する。運動系処理部３１はさらに、各種センサ
１からの検出結果をロボット思考系制御部１１に中継す
る。なお、各種センサ１から思考系処理部４１に検出結
果を直接入力するようにしてもよい。

【００１８】動作モデル３２には、図３に示すように、
標準状態から各種の動作に遷移するときの条件が記述さ
れている。例えば、標準状態において、指令「歩く」が
命令された場合、動作「歩く」に遷移することや、例え
ばまた、指令「起き上がる」が命令された場合、動作
「起き上がる」に遷移し、その動作が終了したことに対
応して発せられる内部イベント「動作終了」に対応して
標準の状態に遷移することなどが記述されている。

【００１９】図１に戻り、ロボット思考系制御部１１
は、図２に示すように、思考系処理部４１と感情モデル
４２から構成されており、当該ロボットの感情を管理す
る。思考系処理部４１は、運動系処理部３１から入力さ
れる動作イベントや各種センサ１の検出結果、自己の内
部で生成する内部イベント（一定の時間毎、周期的に発
生させるイベント等）を感情モデル４２に照らし合わせ
てロボットの感情を遷移させ、現在の感情を感情ステー
トとして音声合成コントロール情報選択部１２に出力す
る。思考系処理部４１はまた、各種センサ１の検出結果
などに対応して、運動系処理３１に動作に関する指令を
出力する。思考系処理部４１はさらに、例えば、動作イ
ベント「頭を叩かれた」に対応して音声合成対象文「痛
い」を生成するように、動作イベントや各種センサ１の
検出結果などに対応し、当該ロボットが発声する音声合
成対象文を生成して言語処理部１４に出力する。

【００２０】感情モデル４２には、図４に示すように、
標準の状態から各種の感情に遷移するときの条件が記述
されている。例えば、標準状態において、動作イベント
「頭と叩かれた」が発生した場合、感情「怒り」に遷移
することや、動作イベント「頭を撫でられた」が発生し
た場合、感情「嬉しい」に遷移し、その後、所定の時間
以上動作イベントが発生されないことに対応して発せら
れる内部イベントに対応して標準の状態に遷移すること
などが記述されている。

【００２１】図１に戻り、音声合成コントロール情報選
択部１２は、ロボット運動系制御部１０から入力される
動作ステート、および、ロボット思考系制御部１１から
入力される感情ステートに基づいて、音声合成コントロ
ール情報テーブル１３に多数用意されているフィールド
の中から、最も適切な音声合成コントロール情報が格納
されているフィールドを選択する。なお、この選択に際
しては、動作ステートおよび感情ステート以外のパラメ
ータを追加して、選択するフィールドを決定するように
してもよい（詳細は、図８乃至図１０を参照して後述す
る）。

【００２２】音声合成コントロール情報テーブル１３に
は、動作ステートおよび感情ステート、その他のパラメ
ータ（後述）のあらゆる組み合わせに対応した多数のフ
ィールドが設けられており、音声合成コントロール情報
選択部１２に選択されたフィールドに格納している選択
情報を言語処理部１４に出力し、音声合成コントロール
情報を規則音声合成部１５に出力する。

【００２３】フィールドには、図５に示すように、大別
して選択情報と音声合成コントロール情報が格納されて
いる。選択情報は、単語マッピング辞書ＩＤと文体変換
ルールＩＤからなる。音声合成コントロール情報は、素
片データＩＤ、音節セットＩＤ、声の高さパラメータ、
アクセントの強さパラメータ、声立ての強さパラメー
タ、および、発話スピードパラメータからなる。

【００２４】単語マッピング辞書ＩＤは、単語マッピン
グ辞書データベース５４（図６）に予め用意されてい
る、幼児語の単語マッピング辞書、大阪弁の単語マッピ
ング辞書、女子高生言葉の単語マッピング辞書、猫の単
語マッピング辞書などの複数の辞書のなかで、単語変換
部５３（図６）で使用される辞書を特定するための情報
である。単語マッピング辞書は、後述するロボットの個
性情報などに対応して切り替えられるものであり、標準
語で表記されている音声合成対象文に含まれる単語を、
別の単語に置換するための辞書である。例えば、幼児語
の単語マッピング辞書は、音声合成対象文に含まれる単
語「車」を「ブーブ」に置換する。

【００２５】文体変換ルールＩＤとは、文体変換ルール
データベース５６（図６）に予め用意されている、女性
言葉への変換ルール、男性言葉への変換ルール、幼児語
への変換ルール、大阪弁への変換ルール、女子高生言葉
への変換ルール、猫語への変換ルールなどの複数のルー
ルなかで、文体変換部５５（図６）で使用されるルール
を特定するための情報である。文体変換ルールは、後述
するロボットの個性情報などに対応して切り替えられる
ものであり、音声合成対象文に含まれる文字列を、別の
文字列に変換するためのルールである。例えば、猫語へ
の文体変換ルールは、音声合成対象文中の語尾「＊＊で
す」を「＊＊ニャ」に変換する。

【００２６】音声合成コントロール情報に含まれる素片
データＩＤは、規則音声合成部１５で使用される音声素
片を特定するための情報である。音声素片としては、女
性の声、男性の声、子供の声、嗄れている声、機械的な
声、その他の声のデータが、規則音声合成部１５の内部
に予め用意されている。

【００２７】音節セットＩＤは、規則音声合成部１５で
使用される音節セットを特定するための情報である。音
節セットとしては、例えば、基本２６６音節セットと簡
略１８０音節セットが用意されている。簡略１８０音節
セットでは、基本２６６音節セットよりも発声可能な音
韻の数が制限されており、例えば、言語処理部１４から
入力される音声合成対象文「リンゴ」を「にんご」と発
声する。このように、発声する音韻を制限することによ
り、幼児のような舌足らずな発声を表現することができ
る。

【００２８】声の高さパラメータは、規則音声合成部１
５で合成される音声のピッチ周波数を指定するための情
報である。アクセントの強さパラメータは、規則音声合
成部１５で合成される音声のアクセントの強度を指定す
るための情報である。この値が大きければ、アクセント
の起伏が激しい発声が行われ、値が小さければ、平坦な
アクセントで発声が行われる。

【００２９】声立ての強さパラメータは、規則音声合成
部１５で合成される音声の声立ての強度を指定するため
の情報である。この値が大きければ、声立てが多くな
り、値が小さければ、声立てが少なくなる。発話スピー
ドパラメータは、規則音声合成部１５で合成される音声
の発話スピードを指定するための情報である。

【００３０】図１に戻り、言語処理部１４は、ロボット
思考系制御部１１から入力される音声合成対象文を文法
的に解析した後、音声合成コントロール情報に基づいて
所定の箇所を変換し、規則音声合成部１５に出力する。

【００３１】図６は、言語処理部１４の構成例を示して
いる。ロボット思考系制御部１１からの音声合成対象文
は、文体解析部５１に入力される。また、音声合成コン
トロール情報テーブル１３からの選択情報は単語変換部
５３および文体変換部５５に入力される。文体解析部５
１は、音声合成対象文を解析用辞書５２を用いて形態素
解析し、単語変換部５３に出力する。解析用辞書５２に
は、規則音声合成に必要となる情報、例えば、単語（形
態素）の読み、アクセント型、および品詞などの他、各
単語の固有の単語ＩＤが記述されている。

【００３２】単語変換部５３は、選択情報に含まれる単
語マッピング辞書ＩＤに対応する辞書を単語マッピング
辞書データベース５４から読み出し、文体解析部５１か
らの形態素解析された音声合成対象文に含まれる単語の
うち、読み出した単語マッピング辞書に変換する単語が
記述されているものだけを置換して文体変換部５５に出
力する。

【００３３】文体変換部５５は、選択情報に含まれる文
体変換ルールＩＤに対応するルールを文体変換ルールデ
ータベース５６から読み出し、読み出した文体変換ルー
ルに従って、単語変換部５３からの単語変換が施された
音声合成対象文を変換し、規則音声合成部１５に出力す
る。

【００３４】図１に戻り、規則音声合成部１５は、音声
合成コントロール情報テーブル１３から入力される音声
合成コントロール情報に従って、言語処理部１４から入
力される音声合成対象文に対応する音声信号を合成す
る。合成された音声信号は、スピーカ１６から放音され
る。

【００３５】制御部１７は、ドライブ１８を制御して、
磁気ディスク１９、光ディスク２０、光磁気ディスク２
１、または半導体メモリ２２に記憶されている制御用プ
ログラムを読み出し、読み出した制御用プログラムに基
づいて各部を制御する。

【００３６】次に、本発明を適用したロボットの処理に
ついて、図７のフローチャートを参照して説明する。こ
の処理は、例えば、ユーザに頭を叩かれたことを、各種
センサ１の感圧センサ５が検出し、検出結果がロボット
運動系制御部１０の運動系処理部３１に入力されたとき
に開始される。

【００３７】ステップＳ１において、運動系処理部３１
は、感圧センサ５の検知結果が所定の閾値以上の力であ
ることに対応して、動作イベント「頭を叩かれた」の発
生を判定し、ロボット思考系制御部１１の思考系処理部
４１に通知する。運動系処理部３１はまた、動作イベン
ト「頭を叩かれた」を動作モデル３２に照らし合わせて
ロボットの動作「起き上がる」を決定し、動作ステート
として音声合成コントロール情報選択部１２に出力す
る。

【００３８】ステップＳ２において、ロボット思考系制
御部１１の思考系処理部４１は、運動系処理部３１から
入力された動作イベント「頭を叩かれた」を感情モデル
４２に照らし合わせて、感情を「怒り」に遷移させ、現
在の感情を感情ステートとして音声合成コントロール情
報選択部１２に出力する。思考系処理部４１はまた、動
作イベント「頭を叩かれた」に対応して音声合成対象文
「痛い」を発生して言語処理部１４の文体解析部５１に
出力する。

【００３９】ステップＳ３において、音声合成コントロ
ール情報選択部１２は、運動系処理部３１から入力され
た動作ステート、および、思考系処理部４１から入力さ
れた感情ステートに基づいて、音声合成コントロール情
報テーブル１３に多数用意されているフィールドの中か
ら、最も適切な音声合成コントロール情報が格納されて
いるフィールドを選択する。音声合成コントロール情報
テーブル１３は、選択されたフィールドに格納している
選択情報を音声処理部１４に出力し、音声合成コントロ
ール情報を規則音声合成部１５に出力する。

【００４０】ステップＳ４において、言語処理部１４の
文体解析部５１は、音声合成対象文を解析用辞書５２を
用いて形態素解析し、単語変換部５３に出力する。ステ
ップＳ５において、単語変換部５３は、選択情報に含ま
れる単語マッピング辞書ＩＤに対応する辞書を単語マッ
ピング辞書データベース５４から読み出し、文体解析部
５１からの形態素解析された音声合成対象文に含まれる
単語のうち、読み出した単語マッピング辞書に変換する
単語が記述されているものだけを置換して文体変換部５
５に出力する。ステップＳ６において、文体変換部５５
は、選択情報に含まれる文体変換ルールＩＤに対応する
ルールを文体変換ルールデータベース５６から読み出
し、読み出した文体変換ルールに従って、単語変換部５
３からの単語変換が施された音声合成対象文を変換し、
規則音声合成部１５に出力する。

【００４１】ステップＳ７において、規則音声合成部１
５は、音声合成コントロール情報テーブル１３から入力
された音声合成コントロール情報に従って、言語処理部
１４から入力された音声合成対象文に対応する音声信号
を合成し、スピーカ１６から放音させる。

【００４２】以上のような処理により、ロボットはあた
かも感情を有するかのように動作し、また、感情の変化
や動作に応じて話し方を変化するようになる。

【００４３】次に、音声合成コントロール情報選択部１
２の選択処理に際し、動作ステートおよび感情ステート
以外のパラメータを追加する方法について、図８乃至図
１０を参照して説明する。

【００４４】図８は、図１の構成例に対して、ロボット
に個性を設定するための構成として、通信ポート６１乃
至個体情報メモリ６３を追加した構成例を示している。
通信ポート６１は、外部装置（パーソナルコンピュータ
など）と個性情報を通信するインタフェースであり、例
えば、RS-232C、USB、IEEE1394等の通信規格に適合した
ものが考えられる。通信制御部６２は、通信ポート６１
を介した外部との情報通信を所定のプロトコルに従って
制御し、受信する個性情報をロボット思考系制御部１１
に出力する。個性情報メモリ１３は、フラッシュメモリ
などの書き換え可能な不発揮性メモリを用い、記憶した
個性情報を音声合成コントロール情報選択部１２に出力
する。

【００４５】外部から供給する個性情報としては、例え
ば、次のような項目が考えられる。種別犬／猫性別雄／雌年齢子供／大人気性激しい／おとなしい体格痩せている／太っている

【００４６】これらの各項目は、０または１に２値化さ
れて個性情報メモリ６３に記憶される。また、各項目を
２値化するのではなく、さらに細分化して設定するよう
にしてもよい。

【００４７】個性情報がむやみに書き換えられることを
抑止するために、書き換えの回数を制限するようにして
もよいし、書き換えに際してパスワードを設けるように
してもよい。また、通信ポート６１および通信制御部６
２を設けずに、個性情報を予め書き込んだROMから成る
個性情報メモリ６３を製造時に組み込むようにしてもよ
い。

【００４８】このような構成とすることにより、設定さ
れた個性に応じて、個体毎に異なる音声を出力するロボ
ットを実現することが可能となる。

【００４９】図９は、図１の構成例に対して、タイマ７
１を追加した構成例を示している。タイマ７１は、ロボ
ットが最初に起動されたとき以降の経過時間をカウント
して音声合成コントロール情報選択部１２に出力する。
なお、タイマ７１は、最初に起動されたとき以降の稼働
中の時間だけをカウントするようにしてもよい。

【００５０】このような構成とすることにより、出力す
る音声を経年変化させるロボットを実現することが可能
となる。

【００５１】図１０は、図１の構成例に対して、経験値
計算部８１および経験値メモリ８２を追加した構成例を
示している。経験値計算部８１は、思考系処理部４１が
感情を標準から他の状態に遷移させる毎、遷移した感情
ステート毎に遷移回数をカウントアップして経験値メモ
リ８２に記録する。例えば、図４に示した感情モデル４
２のように感情ステートが４種類で有れば、４項目の遷
移回数が経験値メモリ８２に記録される。音声合成コン
トロール情報選択部１２には、各感情ステートへの遷移
回数を通知するようにしてもよいし、最も遷移回数の多
い感情ステートを通知するようにしてもよい。

【００５２】このような構成とすることにより、例え
ば、頻繁に叩かれていて、感情ステート「怒り」への遷
移回数が多いロボットは、怒りっぽい話し方をするよう
にすることができ、頻繁に撫でられていて、感情ステー
ト「嬉しい」への遷移回数が多いロボットは、楽しそう
な話し方をするようにすることができる。

【００５３】なお、図８乃至図１０に示した構成例は、
適宜組み合わせることが可能である。

【００５４】また、各種センサ１の検出結果をパラメー
タ化して、音声合成コントロール情報選択部１２に供給
することにより、外部の状況に応じて話し方を変化させ
るようにしてもよい。例えば、外気温センサ２が検出し
た外気温が所定の温度以下である場合、寒そうな震えた
声を発声するようにしてもよい。

【００５５】さらに、各種センサ１の検出結果をパラメ
ータ化して、履歴として記録し、その履歴を音声合成コ
ントロール情報選択部１２に供給するようにしてもよ
い。これにより、例えば、外気温が所定の温度以下であ
る履歴が多いロボットは、東北弁を話すようになるよう
にしてもよい。

【００５６】ところで、上述した一連の処理は、ハード
ウェアにより実行させることもできるが、ソフトウェア
により実行させることもできる。一連の処理をソフトウ
ェアにより実行させる場合には、そのソフトウェアを構
成するプログラムが、専用のハードウェアに組み込まれ
ているコンピュータ、または、各種のプログラムをイン
ストールすることで、各種の機能を実行することが可能
な、例えば汎用のパーソナルコンピュータなどに、記録
媒体からインストールされる。

【００５７】この記録媒体は、図１に示すように、コン
ピュータとは別に、ユーザにプログラムを提供するため
に配布される、プログラムが記録されている磁気ディス
ク１９（フロッピディスクを含む）、光ディスク２０
（CD-ROM(Compact Disc-Read Only Memory)、DVD(Digit
al Versatile Disc)を含む）、光磁気ディスク２１（Ｍ
Ｄ(Mini Disc)を含む）、もしくは半導体メモリ２２な
どよりなるパッケージメディアにより構成されるだけで
なく、コンピュータに予め組み込まれた状態でユーザに
提供される、プログラムが記録されているROMやハード
ディスクなどで構成される。

【００５８】なお、本明細書において、記録媒体に記録
されるプログラムを記述するステップは、記載された順
序に従って時系列的に行われる処理はもちろん、必ずし
も時系列的に処理されなくとも、並列的あるいは個別に
実行される処理をも含むものである。

【００５９】

【発明の効果】以上のように、本発明の音声合成装置、
音声合成方法、および記録媒体のプログラムによれば、
動作状態および感情状態のうち、少なくとも一方に基づ
いて制御情報を選択し、選択した制御情報に含まれる音
声合成情報に基づき、対象文に対応して音声信号を合成
するようにしたので、感情や動作等に対応して話し方を
変化させることができて、よりリアルに生命体を模擬し
たロボットを実現することが可能となる。

【図面の簡単な説明】

【図１】本発明を適用したロボットの音声合成に関わる
部分の構成例を示すブロック図である。

【図２】図１のロボット運動系制御部１０およびロボッ
ト思考系制御部１１の構成例を示すブロック図である。

【図３】図２の動作モデル３２を説明するための図であ
る。

【図４】図２の感情モデル４２を説明するための図であ
る。

【図５】音声合成コントロール情報を説明するための図
である。

【図６】言語処理部１４の詳細な構成例を示すブロック
図である。

【図７】本発明を適用したロボットの動作を説明するフ
ローチャートである。

【図８】本発明を適用したロボットの音声合成に関わる
部分の他の構成例を示すブロック図である。

【図９】本発明を適用したロボットの音声合成に関わる
部分のさらに他の構成例を示すブロック図である。

【図１０】本発明を適用したロボットの音声合成に関わ
る部分のさらに他の構成例を示すブロック図である。

【符号の説明】

１各種センサ，１０ロボット運動系制御部，１
１ロボット思考系制御部，１２音声合成コントロ
ール情報選択部，１３音声合成コントロール情報テ
ーブル，１４言語処理部，１５規則音声合成
部，１７制御部，３１運動系処理部，３２
動作モデル，４１思考系処理部，４２感情モデ
ル，５１文体解析部，５３単語変換部，５５
文体変換部，６１通信ポート，６２通信制御
部，６３個体情報メモリ，７１タイマ，８１
経験値計算部，８２経験値メモリ

───────────────────────────────────────────────────── フロントページの続き (72)発明者小林恵理香東京都品川区北品川６丁目７番35号ソニー株式会社内 (72)発明者赤羽誠東京都品川区北品川６丁目７番35号ソニー株式会社内 (72)発明者小林賢一郎東京都品川区北品川６丁目７番35号ソニー株式会社内 (72)発明者山田敬一東京都品川区北品川６丁目７番35号ソニー株式会社内 (72)発明者新田朋晃東京都品川区北品川６丁目７番35号ソニー株式会社内Ｆターム(参考） 5D045 AA09 AB30 9A001 DD11 HH18 HH19 KZ46

Claims

【特許請求の範囲】

【請求項１】対象文に対応して音声信号を合成する音
声合成装置において、動作モデルに従って動作状態を遷移する動作状態遷移手
段と、感情モデルに従って感情状態を遷移する感情状態遷移手
段と、前記動作状態および前記感情状態のうち、少なくとも一
方に基づいて制御情報を選択する選択手段と、前記選択手段が選択した前記制御情報に含まれる音声合
成情報に基づき、前記対象文に対応して音声信号を合成
する合成手段とを含むことを特徴とする音声合成装置。
【請求項２】前記音声合成情報には、素片データＩ
Ｄ、音節セットＩＤ、声の高さパラメータ、アクセント
の強さパラメータ、声立ての強さパラメータ、および発
話スピードパラメータのうち、少なくとも１つが含まれ
ることを特徴とする請求項１に記載の音声合成装置。
【請求項３】外部の状況を検出する検出手段をさらに
含み、前記選択手段は、前記検出手段の検出結果にも基づいて
前記制御情報を選択することを特徴とする請求項１に記
載の音声合成装置。
【請求項４】個体情報を保持する保持手段をさらに含
み、前記選択手段は、前記保持手段が保持する前記個体情報
にも基づいて前記制御情報を選択することを特徴とする
請求項１に記載の音声合成装置。
【請求項５】起動以降の経過時間をカウントするカウ
ント手段をさらに含み、前記選択手段は、前記カウント手段がカウントした前記
経過時間にも基づいて前記制御情報を選択することを特
徴とする請求項１に記載の音声合成装置。
【請求項６】前記動作状態遷移手段が前記動作状態を
遷移した回数、および前記感情状態遷移手段が前記感情
状態を遷移した回数のうち、少なくとも一方を累積する
累積手段をさらに含み、前記選択手段は、前記累積手段が累積した回数にも基づ
いて前記制御情報を選択することを特徴とする請求項１
に記載の音声合成装置。
【請求項７】前記選択手段が選択した前記制御情報に
含まれる選択情報に対応する単語置換辞書を用いて、前
記対象文に含まれる単語を置換する置換手段をさらに含
むことを特徴とする請求項１に記載の音声合成装置。
【請求項８】前記選択手段が選択した前記制御情報に
含まれる選択情報に対応する文体変換規則に従って、前
記対象文の文体を変換する変換手段をさらに含むことを
特徴とする請求項１に記載の音声合成装置。
【請求項９】前記音声合成装置はロボットであること
を特徴とする請求項１に記載の音声合成装置。
【請求項１０】対象文に対応して音声信号を合成する
音声合成装置の音声合成方法において、動作モデルに従って動作状態を遷移する動作状態遷移ス
テップと、感情モデルに従って感情状態を遷移する感情状態遷移ス
テップと、前記動作状態および前記感情状態のうち、少なくとも一
方に基づいて制御情報を選択する選択ステップと、前記選択ステップの処理で選択された前記制御情報に含
まれる音声合成情報に基づき、前記対象文に対応して音
声信号を合成する合成ステップとを含むことを特徴とす
る音声合成方法。
【請求項１１】対象文に対応して音声信号を合成する
音声合成用のプログラムであって、動作モデルに従って動作状態を遷移する動作状態遷移ス
テップと、感情モデルに従って感情状態を遷移する感情状態遷移ス
テップと、前記動作状態および前記感情状態のうち、少なくとも一
方に基づいて制御情報を選択する選択ステップと、前記選択ステップの処理で選択された前記制御情報に含
まれる音声合成情報に基づき、前記対象文に対応して音
声信号を合成する合成ステップとを含むことを特徴とす
るコンピュータが読み取り可能なプログラムが記録され
ている記録媒体。