JP4465768B2

JP4465768B2 - 音声合成装置および方法、並びに記録媒体

Info

Publication number: JP4465768B2
Application number: JP37378099A
Authority: JP
Inventors: 真人島川; 信英山崎; 恵理香小林; 誠赤羽; 賢一郎小林; 敬一山田; 朋晃新田
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1999-12-28
Filing date: 1999-12-28
Publication date: 2010-05-19
Anticipated expiration: 2019-12-28
Also published as: DE60035848T2; EP1113417B1; US7379871B2; DE60035848D1; EP1113417A2; US20010021907A1; JP2001188553A; EP1113417A3

Description

【０００１】
【発明の属する技術分野】
本発明は、音声合成装置および方法、並びに記録媒体に関し、例えば、ロボットに搭載して、当該ロボットの感情や動作等に対応して合成する音声信号を変化させる場合に用いて好適な音声合成装置および方法、並びに記録媒体に関する。
【０００２】
【従来の技術】
従来、言葉を発声するロボットは存在する。例えば、言葉を発声するロボットが、自己の感情を変化させて、感情に応じて話し方を変えるようになったり、例えばまた、ロボットに、種別、性別、年齢、出身地、性格、体格などの個性を設定し、個性に対応して話し方を変化させるようになれば、よりリアルに生命体を模擬したものとなる。
【０００３】
【発明が解決しようとする課題】
そのようなロボットに対してユーザは、あたかも生きたペットに対するような親しみや愛情をもって接することができるようになるが、そのようなロボットは実現されていない課題があった。
【０００４】
本発明はこのような状況に鑑みてなされたものであり、感情や動作等に対応して話し方を変化させるようにすることにより、よりリアルに生命体を模擬したロボットを実現することを目的とする。
【０００５】
【課題を解決するための手段】
本発明の音声合成装置は、外部の状況および外部からの作用を検出する検出手段と、外部の状況または外部からの作用の少なくとも一方が検出されたことに応じて動作イベントの発生を検知し、検知した動作イベントおよび動作モデルに従って動作状態を遷移する動作状態遷移手段と、検知された動作イベントに応じて対象文を発生するとともに、動作イベントおよび感情モデルに従って感情状態を遷移する感情状態遷移手段と、動作状態および感情状態に基づいて予め用意されている複数の制御情報の中から１つを選択する選択手段と、選択された制御情報に含まれる音声合成情報に基づき、対象文に対応して音声信号を合成する合成手段とを含む。
音声合成情報には、素片データＩＤ、音節セットＩＤ、声の高さパラメータ、アクセントの強さパラメータ、声立ての強さパラメータ、および発話スピードパラメータのうち、少なくとも１つが含まれるようにすることができる。
【０００６】
前記選択手段は、外部の状況または外部からの作用の少なくとも一方の検出結果にも基づいて制御情報を選択するようにすることができる。
【０００７】
本発明の音声合成装置は、個体情報を保持する保持手段をさらに含むことができ、前記選択手段は、保持された個体情報にも基づいて制御情報を選択するようにすることができる。
【０００８】
本発明の音声合成装置は、起動以降の経過時間をカウントするカウント手段をさらに含むことができ、前記選択手段は、カウントされた経過時間にも基づいて制御情報を選択するようにすることができる。
【０００９】
本発明の音声合成装置は、動作状態遷移手段が動作状態を遷移した回数、または感情状態遷移手段が感情状態を遷移した回数のうち、少なくとも一方を累積する累積手段をさらに含むことができ、前記選択手段は、累積された回数にも基づいて制御情報を選択するようにすることができる。
【００１０】
前記制御情報は、単語置換辞書も含み、本発明の音声合成装置は、制御情報に含まれる単語置換辞書を用いて、対象文に含まれる単語を置換する置換手段をさらに含むようにすることができる。
【００１１】
制御情報は、文体変換規則も含み、本発明の音声合成装置は、制御情報に含まれる文体変換規則に従って、対象文の文体を変換する変換手段をさらに含むことができる。
【００１２】
本発明の音声合成方法は、外部の状況および外部からの作用を検出する検出ステップと、外部の状況または外部からの作用の少なくとも一方が検出されたことに応じて動作イベントの発生を検知し、検知した動作イベントおよび動作モデルに従って動作状態を遷移する動作状態遷移ステップと、検知された動作イベントに応じて対象文を発生するとともに、動作イベントおよび感情モデルに従って感情状態を遷移する感情状態遷移ステップと、動作状態および感情状態に基づいて予め用意されている複数の制御情報の中から１つを選択する選択ステップと、選択された制御情報に含まれる音声合成情報に基づき、対象文に対応して音声信号を合成する合成ステップとを含む。
【００１３】
本発明の記録媒体は、外部の状況および外部からの作用を検出する検出ステップと、外部の状況または外部からの作用の少なくとも一方が検出されたことに応じて動作イベントの発生を検知し、検知した動作イベントおよび動作モデルに従って動作状態を遷移する動作状態遷移ステップと、検知された動作イベントに応じて対象文を発生するとともに、動作イベントおよび感情モデルに従って感情状態を遷移する感情状態遷移ステップと、動作状態および感情状態に基づいて予め用意されている複数の制御情報の中から１つを選択する選択ステップと、選択された制御情報に含まれる音声合成情報に基づき、対象文に対応して音声信号を合成する合成ステップとを含む処理を音声合成装置のコンピュータに実行させるプログラムが記録されている。
【００１４】
本発明においては、外部の状況および外部からの作用が検出され、外部の状況または外部からの作用の少なくとも一方が検出されたことに応じて動作イベントの発生が検知され、検知された動作イベントおよび動作モデルに従って動作状態が遷移される。また、検知された動作イベントに応じて対象文が発生されるとともに、動作イベントおよび感情モデルに従って感情状態が遷移される。さらに、動作状態および感情状態に基づいて予め用意されている複数の制御情報の中から１つが選択され、選択された制御情報に含まれる音声合成情報に基づき、対象文に対応して音声信号が合成される。
【００１５】
【発明の実施の形態】
図１は、本発明を適用したロボットの音声合成に関わる部分の構成例を示している。このロボットは、発話機能を有し、かつ、感情と動作を変化させて、感情や動作の変化に応じて話し方を変化するようになされている。
【００１６】
各種センサ１は、ロボット外部の状況やロボットに対する作用を検出して、検出結果をロボット運動系制御部１０に出力する。例えば、外気温センサ２は、ロボットの外気温を検出する。温度センサ３と接触センサ４は、対をなして近傍に設けられており、接触センサ４がロボットに対する物体の接触を検知し、温度センサ３が接触した物体の温度を検出する。感圧センサ５は、ロボットに加えられる外力（例えば、叩かれる力や撫でられる力など）の強さを検出する。風速センサ６は、ロボット外部の風速を検出する。照度センサ７は、ロボット外部の照度を検出する。画像センサ８は、例えばCCDなどからなり、ロボット外部の景色を画像信号として検出する。音声センサ９は、例えばマイクロフォンからなり、音声を検出する。
【００１７】
ロボット運動系制御部１０は、図２に示すように、運動系処理部３１と動作モデル３２から構成されており、当該ロボットの動作を管理する。運動系処理部３１は、各種センサ１から入力される検出結果、自己の内部で生成する内部イベント、および、ロボット思考系制御部１１から入力される指令を動作モデル３２に照らし合わせてロボットの動作を遷移させ、現在の動作の状態を動作ステートとして音声合成コントロール情報選択部１２に出力する。運動系処理部３１はまた、例えば、感圧センサ５の検知結果が所定の閾値以上の力であったとき、動作イベントとして「頭を叩かれた」と判定するように、各種センサ１から入力される検出結果に基づき、動作イベントを判定してロボット思考系制御部１１に出力する。運動系処理部３１はさらに、各種センサ１からの検出結果をロボット思考系制御部１１に中継する。なお、各種センサ１から思考系処理部４１に検出結果を直接入力するようにしてもよい。
【００１８】
動作モデル３２には、図３に示すように、標準状態から各種の動作に遷移するときの条件が記述されている。例えば、標準状態において、指令「歩く」が命令された場合、動作「歩く」に遷移することや、例えばまた、指令「起き上がる」が命令された場合、動作「起き上がる」に遷移し、その動作が終了したことに対応して発せられる内部イベント「動作終了」に対応して標準の状態に遷移することなどが記述されている。
【００１９】
図１に戻り、ロボット思考系制御部１１は、図２に示すように、思考系処理部４１と感情モデル４２から構成されており、当該ロボットの感情を管理する。思考系処理部４１は、運動系処理部３１から入力される動作イベントや各種センサ１の検出結果、自己の内部で生成する内部イベント（一定の時間毎、周期的に発生させるイベント等）を感情モデル４２に照らし合わせてロボットの感情を遷移させ、現在の感情を感情ステートとして音声合成コントロール情報選択部１２に出力する。思考系処理部４１はまた、各種センサ１の検出結果などに対応して、運動系処理３１に動作に関する指令を出力する。思考系処理部４１はさらに、例えば、動作イベント「頭を叩かれた」に対応して音声合成対象文「痛い」を生成するように、動作イベントや各種センサ１の検出結果などに対応し、当該ロボットが発声する音声合成対象文を生成して言語処理部１４に出力する。
【００２０】
感情モデル４２には、図４に示すように、標準の状態から各種の感情に遷移するときの条件が記述されている。例えば、標準状態において、動作イベント「頭と叩かれた」が発生した場合、感情「怒り」に遷移することや、動作イベント「頭を撫でられた」が発生した場合、感情「嬉しい」に遷移し、その後、所定の時間以上動作イベントが発生されないことに対応して発せられる内部イベントに対応して標準の状態に遷移することなどが記述されている。
【００２１】
図１に戻り、音声合成コントロール情報選択部１２は、ロボット運動系制御部１０から入力される動作ステート、および、ロボット思考系制御部１１から入力される感情ステートに基づいて、音声合成コントロール情報テーブル１３に多数用意されているフィールドの中から、最も適切な音声合成コントロール情報が格納されているフィールドを選択する。なお、この選択に際しては、動作ステートおよび感情ステート以外のパラメータを追加して、選択するフィールドを決定するようにしてもよい（詳細は、図８乃至図１０を参照して後述する）。
【００２２】
音声合成コントロール情報テーブル１３には、動作ステートおよび感情ステート、その他のパラメータ（後述）のあらゆる組み合わせに対応した多数のフィールドが設けられており、音声合成コントロール情報選択部１２に選択されたフィールドに格納している選択情報を言語処理部１４に出力し、音声合成コントロール情報を規則音声合成部１５に出力する。
【００２３】
フィールドには、図５に示すように、大別して選択情報と音声合成コントロール情報が格納されている。選択情報は、単語マッピング辞書ＩＤと文体変換ルールＩＤからなる。音声合成コントロール情報は、素片データＩＤ、音節セットＩＤ、声の高さパラメータ、アクセントの強さパラメータ、声立ての強さパラメータ、および、発話スピードパラメータからなる。
【００２４】
単語マッピング辞書ＩＤは、単語マッピング辞書データベース５４（図６）に予め用意されている、幼児語の単語マッピング辞書、大阪弁の単語マッピング辞書、女子高生言葉の単語マッピング辞書、猫の単語マッピング辞書などの複数の辞書のなかで、単語変換部５３（図６）で使用される辞書を特定するための情報である。単語マッピング辞書は、後述するロボットの個性情報などに対応して切り替えられるものであり、標準語で表記されている音声合成対象文に含まれる単語を、別の単語に置換するための辞書である。例えば、幼児語の単語マッピング辞書は、音声合成対象文に含まれる単語「車」を「ブーブ」に置換する。
【００２５】
文体変換ルールＩＤとは、文体変換ルールデータベース５６（図６）に予め用意されている、女性言葉への変換ルール、男性言葉への変換ルール、幼児語への変換ルール、大阪弁への変換ルール、女子高生言葉への変換ルール、猫語への変換ルールなどの複数のルールなかで、文体変換部５５（図６）で使用されるルールを特定するための情報である。文体変換ルールは、後述するロボットの個性情報などに対応して切り替えられるものであり、音声合成対象文に含まれる文字列を、別の文字列に変換するためのルールである。例えば、猫語への文体変換ルールは、音声合成対象文中の語尾「＊＊です」を「＊＊ニャ」に変換する。
【００２６】
音声合成コントロール情報に含まれる素片データＩＤは、規則音声合成部１５で使用される音声素片を特定するための情報である。音声素片としては、女性の声、男性の声、子供の声、嗄れている声、機械的な声、その他の声のデータが、規則音声合成部１５の内部に予め用意されている。
【００２７】
音節セットＩＤは、規則音声合成部１５で使用される音節セットを特定するための情報である。音節セットとしては、例えば、基本２６６音節セットと簡略１８０音節セットが用意されている。簡略１８０音節セットでは、基本２６６音節セットよりも発声可能な音韻の数が制限されており、例えば、言語処理部１４から入力される音声合成対象文「リンゴ」を「にんご」と発声する。このように、発声する音韻を制限することにより、幼児のような舌足らずな発声を表現することができる。
【００２８】
声の高さパラメータは、規則音声合成部１５で合成される音声のピッチ周波数を指定するための情報である。アクセントの強さパラメータは、規則音声合成部１５で合成される音声のアクセントの強度を指定するための情報である。この値が大きければ、アクセントの起伏が激しい発声が行われ、値が小さければ、平坦なアクセントで発声が行われる。
【００２９】
声立ての強さパラメータは、規則音声合成部１５で合成される音声の声立ての強度を指定するための情報である。この値が大きければ、声立てが多くなり、値が小さければ、声立てが少なくなる。発話スピードパラメータは、規則音声合成部１５で合成される音声の発話スピードを指定するための情報である。
【００３０】
図１に戻り、言語処理部１４は、ロボット思考系制御部１１から入力される音声合成対象文を文法的に解析した後、音声合成コントロール情報に基づいて所定の箇所を変換し、規則音声合成部１５に出力する。
【００３１】
図６は、言語処理部１４の構成例を示している。ロボット思考系制御部１１からの音声合成対象文は、文体解析部５１に入力される。また、音声合成コントロール情報テーブル１３からの選択情報は単語変換部５３および文体変換部５５に入力される。文体解析部５１は、音声合成対象文を解析用辞書５２を用いて形態素解析し、単語変換部５３に出力する。解析用辞書５２には、規則音声合成に必要となる情報、例えば、単語（形態素）の読み、アクセント型、および品詞などの他、各単語の固有の単語ＩＤが記述されている。
【００３２】
単語変換部５３は、選択情報に含まれる単語マッピング辞書ＩＤに対応する辞書を単語マッピング辞書データベース５４から読み出し、文体解析部５１からの形態素解析された音声合成対象文に含まれる単語のうち、読み出した単語マッピング辞書に変換する単語が記述されているものだけを置換して文体変換部５５に出力する。
【００３３】
文体変換部５５は、選択情報に含まれる文体変換ルールＩＤに対応するルールを文体変換ルールデータベース５６から読み出し、読み出した文体変換ルールに従って、単語変換部５３からの単語変換が施された音声合成対象文を変換し、規則音声合成部１５に出力する。
【００３４】
図１に戻り、規則音声合成部１５は、音声合成コントロール情報テーブル１３から入力される音声合成コントロール情報に従って、言語処理部１４から入力される音声合成対象文に対応する音声信号を合成する。合成された音声信号は、スピーカ１６から放音される。
【００３５】
制御部１７は、ドライブ１８を制御して、磁気ディスク１９、光ディスク２０、光磁気ディスク２１、または半導体メモリ２２に記憶されている制御用プログラムを読み出し、読み出した制御用プログラムに基づいて各部を制御する。
【００３６】
次に、本発明を適用したロボットの処理について、図７のフローチャートを参照して説明する。この処理は、例えば、ユーザに頭を叩かれたことを、各種センサ１の感圧センサ５が検出し、検出結果がロボット運動系制御部１０の運動系処理部３１に入力されたときに開始される。
【００３７】
ステップＳ１において、運動系処理部３１は、感圧センサ５の検知結果が所定の閾値以上の力であることに対応して、動作イベント「頭を叩かれた」の発生を判定し、ロボット思考系制御部１１の思考系処理部４１に通知する。運動系処理部３１はまた、動作イベント「頭を叩かれた」を動作モデル３２に照らし合わせてロボットの動作「起き上がる」を決定し、動作ステートとして音声合成コントロール情報選択部１２に出力する。
【００３８】
ステップＳ２において、ロボット思考系制御部１１の思考系処理部４１は、運動系処理部３１から入力された動作イベント「頭を叩かれた」を感情モデル４２に照らし合わせて、感情を「怒り」に遷移させ、現在の感情を感情ステートとして音声合成コントロール情報選択部１２に出力する。思考系処理部４１はまた、動作イベント「頭を叩かれた」に対応して音声合成対象文「痛い」を発生して言語処理部１４の文体解析部５１に出力する。
【００３９】
ステップＳ３において、音声合成コントロール情報選択部１２は、運動系処理部３１から入力された動作ステート、および、思考系処理部４１から入力された感情ステートに基づいて、音声合成コントロール情報テーブル１３に多数用意されているフィールドの中から、最も適切な音声合成コントロール情報が格納されているフィールドを選択する。音声合成コントロール情報テーブル１３は、選択されたフィールドに格納している選択情報を音声処理部１４に出力し、音声合成コントロール情報を規則音声合成部１５に出力する。
【００４０】
ステップＳ４において、言語処理部１４の文体解析部５１は、音声合成対象文を解析用辞書５２を用いて形態素解析し、単語変換部５３に出力する。ステップＳ５において、単語変換部５３は、選択情報に含まれる単語マッピング辞書ＩＤに対応する辞書を単語マッピング辞書データベース５４から読み出し、文体解析部５１からの形態素解析された音声合成対象文に含まれる単語のうち、読み出した単語マッピング辞書に変換する単語が記述されているものだけを置換して文体変換部５５に出力する。ステップＳ６において、文体変換部５５は、選択情報に含まれる文体変換ルールＩＤに対応するルールを文体変換ルールデータベース５６から読み出し、読み出した文体変換ルールに従って、単語変換部５３からの単語変換が施された音声合成対象文を変換し、規則音声合成部１５に出力する。
【００４１】
ステップＳ７において、規則音声合成部１５は、音声合成コントロール情報テーブル１３から入力された音声合成コントロール情報に従って、言語処理部１４から入力された音声合成対象文に対応する音声信号を合成し、スピーカ１６から放音させる。
【００４２】
以上のような処理により、ロボットはあたかも感情を有するかのように動作し、また、感情の変化や動作に応じて話し方を変化するようになる。
【００４３】
次に、音声合成コントロール情報選択部１２の選択処理に際し、動作ステートおよび感情ステート以外のパラメータを追加する方法について、図８乃至図１０を参照して説明する。
【００４４】
図８は、図１の構成例に対して、ロボットに個性を設定するための構成として、通信ポート６１乃至個体情報メモリ６３を追加した構成例を示している。通信ポート６１は、外部装置（パーソナルコンピュータなど）と個性情報を通信するインタフェースであり、例えば、RS-232C、USB、IEEE1394等の通信規格に適合したものが考えられる。通信制御部６２は、通信ポート６１を介した外部との情報通信を所定のプロトコルに従って制御し、受信する個性情報をロボット思考系制御部１１に出力する。個性情報メモリ１３は、フラッシュメモリなどの書き換え可能な不発揮性メモリを用い、記憶した個性情報を音声合成コントロール情報選択部１２に出力する。
【００４５】
外部から供給する個性情報としては、例えば、次のような項目が考えられる。種別犬／猫
性別雄／雌
年齢子供／大人
気性激しい／おとなしい
体格痩せている／太っている
【００４６】
これらの各項目は、０または１に２値化されて個性情報メモリ６３に記憶される。また、各項目を２値化するのではなく、さらに細分化して設定するようにしてもよい。
【００４７】
個性情報がむやみに書き換えられることを抑止するために、書き換えの回数を制限するようにしてもよいし、書き換えに際してパスワードを設けるようにしてもよい。また、通信ポート６１および通信制御部６２を設けずに、個性情報を予め書き込んだROMから成る個性情報メモリ６３を製造時に組み込むようにしてもよい。
【００４８】
このような構成とすることにより、設定された個性に応じて、個体毎に異なる音声を出力するロボットを実現することが可能となる。
【００４９】
図９は、図１の構成例に対して、タイマ７１を追加した構成例を示している。タイマ７１は、ロボットが最初に起動されたとき以降の経過時間をカウントして音声合成コントロール情報選択部１２に出力する。なお、タイマ７１は、最初に起動されたとき以降の稼働中の時間だけをカウントするようにしてもよい。
【００５０】
このような構成とすることにより、出力する音声を経年変化させるロボットを実現することが可能となる。
【００５１】
図１０は、図１の構成例に対して、経験値計算部８１および経験値メモリ８２を追加した構成例を示している。経験値計算部８１は、思考系処理部４１が感情を標準から他の状態に遷移させる毎、遷移した感情ステート毎に遷移回数をカウントアップして経験値メモリ８２に記録する。例えば、図４に示した感情モデル４２のように感情ステートが４種類で有れば、４項目の遷移回数が経験値メモリ８２に記録される。音声合成コントロール情報選択部１２には、各感情ステートへの遷移回数を通知するようにしてもよいし、最も遷移回数の多い感情ステートを通知するようにしてもよい。
【００５２】
このような構成とすることにより、例えば、頻繁に叩かれていて、感情ステート「怒り」への遷移回数が多いロボットは、怒りっぽい話し方をするようにすることができ、頻繁に撫でられていて、感情ステート「嬉しい」への遷移回数が多いロボットは、楽しそうな話し方をするようにすることができる。
【００５３】
なお、図８乃至図１０に示した構成例は、適宜組み合わせることが可能である。
【００５４】
また、各種センサ１の検出結果をパラメータ化して、音声合成コントロール情報選択部１２に供給することにより、外部の状況に応じて話し方を変化させるようにしてもよい。例えば、外気温センサ２が検出した外気温が所定の温度以下である場合、寒そうな震えた声を発声するようにしてもよい。
【００５５】
さらに、各種センサ１の検出結果をパラメータ化して、履歴として記録し、その履歴を音声合成コントロール情報選択部１２に供給するようにしてもよい。これにより、例えば、外気温が所定の温度以下である履歴が多いロボットは、東北弁を話すようになるようにしてもよい。
【００５６】
ところで、上述した一連の処理は、ハードウェアにより実行させることもできるが、ソフトウェアにより実行させることもできる。一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、記録媒体からインストールされる。
【００５７】
この記録媒体は、図１に示すように、コンピュータとは別に、ユーザにプログラムを提供するために配布される、プログラムが記録されている磁気ディスク１９（フロッピディスクを含む）、光ディスク２０（CD-ROM(Compact Disc-Read Only Memory)、DVD(Digital Versatile Disc)を含む）、光磁気ディスク２１（ＭＤ(Mini Disc)を含む）、もしくは半導体メモリ２２などよりなるパッケージメディアにより構成されるだけでなく、コンピュータに予め組み込まれた状態でユーザに提供される、プログラムが記録されているROMやハードディスクなどで構成される。
【００５８】
なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、記載された順序に従って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
【００５９】
【発明の効果】
以上のように、本発明によれば、感情や動作等に対応して話し方を変化させることができて、よりリアルに生命体を模擬したロボットを実現することが可能となる。
【図面の簡単な説明】
【図１】本発明を適用したロボットの音声合成に関わる部分の構成例を示すブロック図である。
【図２】図１のロボット運動系制御部１０およびロボット思考系制御部１１の構成例を示すブロック図である。
【図３】図２の動作モデル３２を説明するための図である。
【図４】図２の感情モデル４２を説明するための図である。
【図５】音声合成コントロール情報を説明するための図である。
【図６】言語処理部１４の詳細な構成例を示すブロック図である。
【図７】本発明を適用したロボットの動作を説明するフローチャートである。
【図８】本発明を適用したロボットの音声合成に関わる部分の他の構成例を示すブロック図である。
【図９】本発明を適用したロボットの音声合成に関わる部分のさらに他の構成例を示すブロック図である。
【図１０】本発明を適用したロボットの音声合成に関わる部分のさらに他の構成例を示すブロック図である。
【符号の説明】
１各種センサ，１０ロボット運動系制御部，１１ロボット思考系制御部，１２音声合成コントロール情報選択部，１３音声合成コントロール情報テーブル，１４言語処理部，１５規則音声合成部，１７制御部，３１運動系処理部，３２動作モデル，４１思考系処理部，４２感情モデル，５１文体解析部，５３単語変換部，５５文体変換部，６１通信ポート，６２通信制御部，６３個体情報メモリ，７１タイマ，８１経験値計算部，８２経験値メモリ

Claims

対象文に対応して音声信号を合成する音声合成装置において、
外部の状況および外部からの作用を検出する検出手段と、
前記外部の状況または前記外部からの作用の少なくとも一方が検出されたことに応じて動作イベントの発生を検知し、検知した前記動作イベントおよび動作モデルに従って動作状態を遷移する動作状態遷移手段と、
検知された前記動作イベントに応じて前記対象文を発生するとともに、前記動作イベントおよび感情モデルに従って感情状態を遷移する感情状態遷移手段と、
前記動作状態および前記感情状態に基づいて予め用意されている複数の制御情報の中から１つを選択する選択手段と、
選択された前記制御情報に含まれる音声合成情報に基づき、前記対象文に対応して音声信号を合成する合成手段と
を含む音声合成装置。
前記音声合成情報には、素片データＩＤ、音節セットＩＤ、声の高さパラメータ、アクセントの強さパラメータ、声立ての強さパラメータ、および発話スピードパラメータのうち、少なくとも１つが含まれる
請求項１に記載の音声合成装置。
前記選択手段は、前記外部の状況または前記外部からの作用の少なくとも一方の検出結果にも基づいて前記制御情報を選択する
請求項１に記載の音声合成装置。
個体情報を保持する保持手段を
さらに含み、
前記選択手段は、保持された前記個体情報にも基づいて前記制御情報を選択する
請求項１に記載の音声合成装置。
起動以降の経過時間をカウントするカウント手段を
さらに含み、
前記選択手段は、カウントされた前記経過時間にも基づいて前記制御情報を選択する
請求項１に記載の音声合成装置。
前記動作状態遷移手段が前記動作状態を遷移した回数、または前記感情状態遷移手段が前記感情状態を遷移した回数のうち、少なくとも一方を累積する累積手段を
さらに含み、
前記選択手段は、累積された前記回数にも基づいて前記制御情報を選択する
請求項１に記載の音声合成装置。
前記制御情報は、単語置換辞書も含み、
前記制御情報に含まれる前記単語置換辞書を用いて、前記対象文に含まれる単語を置換する置換手段を
さらに含む請求項１に記載の音声合成装置。
前記制御情報は、文体変換規則も含み、
前記制御情報に含まれる前記文体変換規則に従って、前記対象文の文体を変換する変換手段を
さらに含む請求項１に記載の音声合成装置。
対象文に対応して音声信号を合成する音声合成装置の音声合成方法において、
外部の状況および外部からの作用を検出する検出ステップと、
前記外部の状況または前記外部からの作用の少なくとも一方が検出されたことに応じて動作イベントの発生を検知し、検知した前記動作イベントおよび動作モデルに従って動作状態を遷移する動作状態遷移ステップと、
検知された前記動作イベントに応じて前記対象文を発生するとともに、前記動作イベントおよび感情モデルに従って感情状態を遷移する感情状態遷移ステップと、
前記動作状態および前記感情状態に基づいて予め用意されている複数の制御情報の中から１つを選択する選択ステップと、
選択された前記制御情報に含まれる音声合成情報に基づき、前記対象文に対応して音声信号を合成する合成ステップと
を含む音声合成方法。
対象文に対応して音声信号を合成する音声合成装置の制御用のプログラムであって、
外部の状況および外部からの作用を検出する検出ステップと、
前記外部の状況または前記外部からの作用の少なくとも一方が検出されたことに応じて動作イベントの発生を検知し、検知した前記動作イベントおよび動作モデルに従って動作状態を遷移する動作状態遷移ステップと、
検知された前記動作イベントに応じて前記対象文を発生するとともに、前記動作イベントおよび感情モデルに従って感情状態を遷移する感情状態遷移ステップと、
前記動作状態および前記感情状態に基づいて予め用意されている複数の制御情報の中から１つを選択する選択ステップと、
選択された前記制御情報に含まれる音声合成情報に基づき、前記対象文に対応して音声信号を合成する合成ステップと
を含む処理を音声合成装置のコンピュータに実行させるプログラムが記録されている記録媒体。