JP4465768B2 - 音声合成装置および方法、並びに記録媒体 - Google Patents
音声合成装置および方法、並びに記録媒体 Download PDFInfo
- Publication number
- JP4465768B2 JP4465768B2 JP37378099A JP37378099A JP4465768B2 JP 4465768 B2 JP4465768 B2 JP 4465768B2 JP 37378099 A JP37378099 A JP 37378099A JP 37378099 A JP37378099 A JP 37378099A JP 4465768 B2 JP4465768 B2 JP 4465768B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- speech synthesis
- control information
- robot
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000015572 biosynthetic process Effects 0.000 title claims description 91
- 238000003786 synthesis reaction Methods 0.000 title claims description 91
- 238000000034 method Methods 0.000 title description 7
- 230000008451 emotion Effects 0.000 claims abstract description 42
- 238000001514 detection method Methods 0.000 claims abstract description 28
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 12
- 238000006243 chemical reaction Methods 0.000 claims description 41
- 230000009471 action Effects 0.000 claims description 34
- 230000007704 transition Effects 0.000 claims description 33
- 230000002996 emotional effect Effects 0.000 claims description 27
- 230000004044 response Effects 0.000 claims description 17
- 230000000694 effects Effects 0.000 claims description 4
- 238000001308 synthesis method Methods 0.000 claims description 3
- 230000001186 cumulative effect Effects 0.000 claims 2
- 230000000717 retained effect Effects 0.000 claims 1
- 238000006467 substitution reaction Methods 0.000 claims 1
- 238000004458 analytical method Methods 0.000 description 16
- 238000013507 mapping Methods 0.000 description 15
- 238000004891 communication Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 230000008859 change Effects 0.000 description 6
- 230000000877 morphologic effect Effects 0.000 description 6
- 241000282326 Felis catus Species 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 244000000626 Daucus carota Species 0.000 description 1
- 235000002767 Daucus carota Nutrition 0.000 description 1
- 206010013647 Drowning Diseases 0.000 description 1
- 206010044565 Tremor Diseases 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63H—TOYS, e.g. TOPS, DOLLS, HOOPS OR BUILDING BLOCKS
- A63H2200/00—Computerized interactive toys, e.g. dolls
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Manipulator (AREA)
- Toys (AREA)
Description
【発明の属する技術分野】
本発明は、音声合成装置および方法、並びに記録媒体に関し、例えば、ロボットに搭載して、当該ロボットの感情や動作等に対応して合成する音声信号を変化させる場合に用いて好適な音声合成装置および方法、並びに記録媒体に関する。
【0002】
【従来の技術】
従来、言葉を発声するロボットは存在する。例えば、言葉を発声するロボットが、自己の感情を変化させて、感情に応じて話し方を変えるようになったり、例えばまた、ロボットに、種別、性別、年齢、出身地、性格、体格などの個性を設定し、個性に対応して話し方を変化させるようになれば、よりリアルに生命体を模擬したものとなる。
【0003】
【発明が解決しようとする課題】
そのようなロボットに対してユーザは、あたかも生きたペットに対するような親しみや愛情をもって接することができるようになるが、そのようなロボットは実現されていない課題があった。
【0004】
本発明はこのような状況に鑑みてなされたものであり、感情や動作等に対応して話し方を変化させるようにすることにより、よりリアルに生命体を模擬したロボットを実現することを目的とする。
【0005】
【課題を解決するための手段】
本発明の音声合成装置は、外部の状況および外部からの作用を検出する検出手段と、外部の状況または外部からの作用の少なくとも一方が検出されたことに応じて動作イベントの発生を検知し、検知した動作イベントおよび動作モデルに従って動作状態を遷移する動作状態遷移手段と、検知された動作イベントに応じて対象文を発生するとともに、動作イベントおよび感情モデルに従って感情状態を遷移する感情状態遷移手段と、動作状態および感情状態に基づいて予め用意されている複数の制御情報の中から1つを選択する選択手段と、選択された制御情報に含まれる音声合成情報に基づき、対象文に対応して音声信号を合成する合成手段とを含む。
音声合成情報には、素片データID、音節セットID、声の高さパラメータ、アクセントの強さパラメータ、声立ての強さパラメータ、および発話スピードパラメータのうち、少なくとも1つが含まれるようにすることができる。
【0006】
前記選択手段は、外部の状況または外部からの作用の少なくとも一方の検出結果にも基づいて制御情報を選択するようにすることができる。
【0007】
本発明の音声合成装置は、個体情報を保持する保持手段をさらに含むことができ、前記選択手段は、保持された個体情報にも基づいて制御情報を選択するようにすることができる。
【0008】
本発明の音声合成装置は、起動以降の経過時間をカウントするカウント手段をさらに含むことができ、前記選択手段は、カウントされた経過時間にも基づいて制御情報を選択するようにすることができる。
【0009】
本発明の音声合成装置は、動作状態遷移手段が動作状態を遷移した回数、または感情状態遷移手段が感情状態を遷移した回数のうち、少なくとも一方を累積する累積手段をさらに含むことができ、前記選択手段は、累積された回数にも基づいて制御情報を選択するようにすることができる。
【0010】
前記制御情報は、単語置換辞書も含み、本発明の音声合成装置は、制御情報に含まれる単語置換辞書を用いて、対象文に含まれる単語を置換する置換手段をさらに含むようにすることができる。
【0011】
制御情報は、文体変換規則も含み、本発明の音声合成装置は、制御情報に含まれる文体変換規則に従って、対象文の文体を変換する変換手段をさらに含むことができる。
【0012】
本発明の音声合成方法は、外部の状況および外部からの作用を検出する検出ステップと、外部の状況または外部からの作用の少なくとも一方が検出されたことに応じて動作イベントの発生を検知し、検知した動作イベントおよび動作モデルに従って動作状態を遷移する動作状態遷移ステップと、検知された動作イベントに応じて対象文を発生するとともに、動作イベントおよび感情モデルに従って感情状態を遷移する感情状態遷移ステップと、動作状態および感情状態に基づいて予め用意されている複数の制御情報の中から1つを選択する選択ステップと、選択された制御情報に含まれる音声合成情報に基づき、対象文に対応して音声信号を合成する合成ステップとを含む。
【0013】
本発明の記録媒体は、外部の状況および外部からの作用を検出する検出ステップと、外部の状況または外部からの作用の少なくとも一方が検出されたことに応じて動作イベントの発生を検知し、検知した動作イベントおよび動作モデルに従って動作状態を遷移する動作状態遷移ステップと、検知された動作イベントに応じて対象文を発生するとともに、動作イベントおよび感情モデルに従って感情状態を遷移する感情状態遷移ステップと、動作状態および感情状態に基づいて予め用意されている複数の制御情報の中から1つを選択する選択ステップと、選択された制御情報に含まれる音声合成情報に基づき、対象文に対応して音声信号を合成する合成ステップとを含む処理を音声合成装置のコンピュータに実行させるプログラムが記録されている。
【0014】
本発明においては、外部の状況および外部からの作用が検出され、外部の状況または外部からの作用の少なくとも一方が検出されたことに応じて動作イベントの発生が検知され、検知された動作イベントおよび動作モデルに従って動作状態が遷移される。また、検知された動作イベントに応じて対象文が発生されるとともに、動作イベントおよび感情モデルに従って感情状態が遷移される。さらに、動作状態および感情状態に基づいて予め用意されている複数の制御情報の中から1つが選択され、選択された制御情報に含まれる音声合成情報に基づき、対象文に対応して音声信号が合成される。
【0015】
【発明の実施の形態】
図1は、本発明を適用したロボットの音声合成に関わる部分の構成例を示している。このロボットは、発話機能を有し、かつ、感情と動作を変化させて、感情や動作の変化に応じて話し方を変化するようになされている。
【0016】
各種センサ1は、ロボット外部の状況やロボットに対する作用を検出して、検出結果をロボット運動系制御部10に出力する。例えば、外気温センサ2は、ロボットの外気温を検出する。温度センサ3と接触センサ4は、対をなして近傍に設けられており、接触センサ4がロボットに対する物体の接触を検知し、温度センサ3が接触した物体の温度を検出する。感圧センサ5は、ロボットに加えられる外力(例えば、叩かれる力や撫でられる力など)の強さを検出する。風速センサ6は、ロボット外部の風速を検出する。照度センサ7は、ロボット外部の照度を検出する。画像センサ8は、例えばCCDなどからなり、ロボット外部の景色を画像信号として検出する。音声センサ9は、例えばマイクロフォンからなり、音声を検出する。
【0017】
ロボット運動系制御部10は、図2に示すように、運動系処理部31と動作モデル32から構成されており、当該ロボットの動作を管理する。運動系処理部31は、各種センサ1から入力される検出結果、自己の内部で生成する内部イベント、および、ロボット思考系制御部11から入力される指令を動作モデル32に照らし合わせてロボットの動作を遷移させ、現在の動作の状態を動作ステートとして音声合成コントロール情報選択部12に出力する。運動系処理部31はまた、例えば、感圧センサ5の検知結果が所定の閾値以上の力であったとき、動作イベントとして「頭を叩かれた」と判定するように、各種センサ1から入力される検出結果に基づき、動作イベントを判定してロボット思考系制御部11に出力する。運動系処理部31はさらに、各種センサ1からの検出結果をロボット思考系制御部11に中継する。なお、各種センサ1から思考系処理部41に検出結果を直接入力するようにしてもよい。
【0018】
動作モデル32には、図3に示すように、標準状態から各種の動作に遷移するときの条件が記述されている。例えば、標準状態において、指令「歩く」が命令された場合、動作「歩く」に遷移することや、例えばまた、指令「起き上がる」が命令された場合、動作「起き上がる」に遷移し、その動作が終了したことに対応して発せられる内部イベント「動作終了」に対応して標準の状態に遷移することなどが記述されている。
【0019】
図1に戻り、ロボット思考系制御部11は、図2に示すように、思考系処理部41と感情モデル42から構成されており、当該ロボットの感情を管理する。思考系処理部41は、運動系処理部31から入力される動作イベントや各種センサ1の検出結果、自己の内部で生成する内部イベント(一定の時間毎、周期的に発生させるイベント等)を感情モデル42に照らし合わせてロボットの感情を遷移させ、現在の感情を感情ステートとして音声合成コントロール情報選択部12に出力する。思考系処理部41はまた、各種センサ1の検出結果などに対応して、運動系処理31に動作に関する指令を出力する。思考系処理部41はさらに、例えば、動作イベント「頭を叩かれた」に対応して音声合成対象文「痛い」を生成するように、動作イベントや各種センサ1の検出結果などに対応し、当該ロボットが発声する音声合成対象文を生成して言語処理部14に出力する。
【0020】
感情モデル42には、図4に示すように、標準の状態から各種の感情に遷移するときの条件が記述されている。例えば、標準状態において、動作イベント「頭と叩かれた」が発生した場合、感情「怒り」に遷移することや、動作イベント「頭を撫でられた」が発生した場合、感情「嬉しい」に遷移し、その後、所定の時間以上動作イベントが発生されないことに対応して発せられる内部イベントに対応して標準の状態に遷移することなどが記述されている。
【0021】
図1に戻り、音声合成コントロール情報選択部12は、ロボット運動系制御部10から入力される動作ステート、および、ロボット思考系制御部11から入力される感情ステートに基づいて、音声合成コントロール情報テーブル13に多数用意されているフィールドの中から、最も適切な音声合成コントロール情報が格納されているフィールドを選択する。なお、この選択に際しては、動作ステートおよび感情ステート以外のパラメータを追加して、選択するフィールドを決定するようにしてもよい(詳細は、図8乃至図10を参照して後述する)。
【0022】
音声合成コントロール情報テーブル13には、動作ステートおよび感情ステート、その他のパラメータ(後述)のあらゆる組み合わせに対応した多数のフィールドが設けられており、音声合成コントロール情報選択部12に選択されたフィールドに格納している選択情報を言語処理部14に出力し、音声合成コントロール情報を規則音声合成部15に出力する。
【0023】
フィールドには、図5に示すように、大別して選択情報と音声合成コントロール情報が格納されている。選択情報は、単語マッピング辞書IDと文体変換ルールIDからなる。音声合成コントロール情報は、素片データID、音節セットID、声の高さパラメータ、アクセントの強さパラメータ、声立ての強さパラメータ、および、発話スピードパラメータからなる。
【0024】
単語マッピング辞書IDは、単語マッピング辞書データベース54(図6)に予め用意されている、幼児語の単語マッピング辞書、大阪弁の単語マッピング辞書、女子高生言葉の単語マッピング辞書、猫の単語マッピング辞書などの複数の辞書のなかで、単語変換部53(図6)で使用される辞書を特定するための情報である。単語マッピング辞書は、後述するロボットの個性情報などに対応して切り替えられるものであり、標準語で表記されている音声合成対象文に含まれる単語を、別の単語に置換するための辞書である。例えば、幼児語の単語マッピング辞書は、音声合成対象文に含まれる単語「車」を「ブーブ」に置換する。
【0025】
文体変換ルールIDとは、文体変換ルールデータベース56(図6)に予め用意されている、女性言葉への変換ルール、男性言葉への変換ルール、幼児語への変換ルール、大阪弁への変換ルール、女子高生言葉への変換ルール、猫語への変換ルールなどの複数のルールなかで、文体変換部55(図6)で使用されるルールを特定するための情報である。文体変換ルールは、後述するロボットの個性情報などに対応して切り替えられるものであり、音声合成対象文に含まれる文字列を、別の文字列に変換するためのルールである。例えば、猫語への文体変換ルールは、音声合成対象文中の語尾「**です」を「**ニャ」に変換する。
【0026】
音声合成コントロール情報に含まれる素片データIDは、規則音声合成部15で使用される音声素片を特定するための情報である。音声素片としては、女性の声、男性の声、子供の声、嗄れている声、機械的な声、その他の声のデータが、規則音声合成部15の内部に予め用意されている。
【0027】
音節セットIDは、規則音声合成部15で使用される音節セットを特定するための情報である。音節セットとしては、例えば、基本266音節セットと簡略180音節セットが用意されている。簡略180音節セットでは、基本266音節セットよりも発声可能な音韻の数が制限されており、例えば、言語処理部14から入力される音声合成対象文「リンゴ」を「にんご」と発声する。このように、発声する音韻を制限することにより、幼児のような舌足らずな発声を表現することができる。
【0028】
声の高さパラメータは、規則音声合成部15で合成される音声のピッチ周波数を指定するための情報である。アクセントの強さパラメータは、規則音声合成部15で合成される音声のアクセントの強度を指定するための情報である。この値が大きければ、アクセントの起伏が激しい発声が行われ、値が小さければ、平坦なアクセントで発声が行われる。
【0029】
声立ての強さパラメータは、規則音声合成部15で合成される音声の声立ての強度を指定するための情報である。この値が大きければ、声立てが多くなり、値が小さければ、声立てが少なくなる。発話スピードパラメータは、規則音声合成部15で合成される音声の発話スピードを指定するための情報である。
【0030】
図1に戻り、言語処理部14は、ロボット思考系制御部11から入力される音声合成対象文を文法的に解析した後、音声合成コントロール情報に基づいて所定の箇所を変換し、規則音声合成部15に出力する。
【0031】
図6は、言語処理部14の構成例を示している。ロボット思考系制御部11からの音声合成対象文は、文体解析部51に入力される。また、音声合成コントロール情報テーブル13からの選択情報は単語変換部53および文体変換部55に入力される。文体解析部51は、音声合成対象文を解析用辞書52を用いて形態素解析し、単語変換部53に出力する。解析用辞書52には、規則音声合成に必要となる情報、例えば、単語(形態素)の読み、アクセント型、および品詞などの他、各単語の固有の単語IDが記述されている。
【0032】
単語変換部53は、選択情報に含まれる単語マッピング辞書IDに対応する辞書を単語マッピング辞書データベース54から読み出し、文体解析部51からの形態素解析された音声合成対象文に含まれる単語のうち、読み出した単語マッピング辞書に変換する単語が記述されているものだけを置換して文体変換部55に出力する。
【0033】
文体変換部55は、選択情報に含まれる文体変換ルールIDに対応するルールを文体変換ルールデータベース56から読み出し、読み出した文体変換ルールに従って、単語変換部53からの単語変換が施された音声合成対象文を変換し、規則音声合成部15に出力する。
【0034】
図1に戻り、規則音声合成部15は、音声合成コントロール情報テーブル13から入力される音声合成コントロール情報に従って、言語処理部14から入力される音声合成対象文に対応する音声信号を合成する。合成された音声信号は、スピーカ16から放音される。
【0035】
制御部17は、ドライブ18を制御して、磁気ディスク19、光ディスク20、光磁気ディスク21、または半導体メモリ22に記憶されている制御用プログラムを読み出し、読み出した制御用プログラムに基づいて各部を制御する。
【0036】
次に、本発明を適用したロボットの処理について、図7のフローチャートを参照して説明する。この処理は、例えば、ユーザに頭を叩かれたことを、各種センサ1の感圧センサ5が検出し、検出結果がロボット運動系制御部10の運動系処理部31に入力されたときに開始される。
【0037】
ステップS1において、運動系処理部31は、感圧センサ5の検知結果が所定の閾値以上の力であることに対応して、動作イベント「頭を叩かれた」の発生を判定し、ロボット思考系制御部11の思考系処理部41に通知する。運動系処理部31はまた、動作イベント「頭を叩かれた」を動作モデル32に照らし合わせてロボットの動作「起き上がる」を決定し、動作ステートとして音声合成コントロール情報選択部12に出力する。
【0038】
ステップS2において、ロボット思考系制御部11の思考系処理部41は、運動系処理部31から入力された動作イベント「頭を叩かれた」を感情モデル42に照らし合わせて、感情を「怒り」に遷移させ、現在の感情を感情ステートとして音声合成コントロール情報選択部12に出力する。思考系処理部41はまた、動作イベント「頭を叩かれた」に対応して音声合成対象文「痛い」を発生して言語処理部14の文体解析部51に出力する。
【0039】
ステップS3において、音声合成コントロール情報選択部12は、運動系処理部31から入力された動作ステート、および、思考系処理部41から入力された感情ステートに基づいて、音声合成コントロール情報テーブル13に多数用意されているフィールドの中から、最も適切な音声合成コントロール情報が格納されているフィールドを選択する。音声合成コントロール情報テーブル13は、選択されたフィールドに格納している選択情報を音声処理部14に出力し、音声合成コントロール情報を規則音声合成部15に出力する。
【0040】
ステップS4において、言語処理部14の文体解析部51は、音声合成対象文を解析用辞書52を用いて形態素解析し、単語変換部53に出力する。ステップS5において、単語変換部53は、選択情報に含まれる単語マッピング辞書IDに対応する辞書を単語マッピング辞書データベース54から読み出し、文体解析部51からの形態素解析された音声合成対象文に含まれる単語のうち、読み出した単語マッピング辞書に変換する単語が記述されているものだけを置換して文体変換部55に出力する。ステップS6において、文体変換部55は、選択情報に含まれる文体変換ルールIDに対応するルールを文体変換ルールデータベース56から読み出し、読み出した文体変換ルールに従って、単語変換部53からの単語変換が施された音声合成対象文を変換し、規則音声合成部15に出力する。
【0041】
ステップS7において、規則音声合成部15は、音声合成コントロール情報テーブル13から入力された音声合成コントロール情報に従って、言語処理部14から入力された音声合成対象文に対応する音声信号を合成し、スピーカ16から放音させる。
【0042】
以上のような処理により、ロボットはあたかも感情を有するかのように動作し、また、感情の変化や動作に応じて話し方を変化するようになる。
【0043】
次に、音声合成コントロール情報選択部12の選択処理に際し、動作ステートおよび感情ステート以外のパラメータを追加する方法について、図8乃至図10を参照して説明する。
【0044】
図8は、図1の構成例に対して、ロボットに個性を設定するための構成として、通信ポート61乃至個体情報メモリ63を追加した構成例を示している。通信ポート61は、外部装置(パーソナルコンピュータなど)と個性情報を通信するインタフェースであり、例えば、RS-232C、USB、IEEE1394等の通信規格に適合したものが考えられる。通信制御部62は、通信ポート61を介した外部との情報通信を所定のプロトコルに従って制御し、受信する個性情報をロボット思考系制御部11に出力する。個性情報メモリ13は、フラッシュメモリなどの書き換え可能な不発揮性メモリを用い、記憶した個性情報を音声合成コントロール情報選択部12に出力する。
【0045】
外部から供給する個性情報としては、例えば、次のような項目が考えられる。種別 犬/猫
性別 雄/雌
年齢 子供/大人
気性 激しい/おとなしい
体格 痩せている/太っている
【0046】
これらの各項目は、0または1に2値化されて個性情報メモリ63に記憶される。また、各項目を2値化するのではなく、さらに細分化して設定するようにしてもよい。
【0047】
個性情報がむやみに書き換えられることを抑止するために、書き換えの回数を制限するようにしてもよいし、書き換えに際してパスワードを設けるようにしてもよい。また、通信ポート61および通信制御部62を設けずに、個性情報を予め書き込んだROMから成る個性情報メモリ63を製造時に組み込むようにしてもよい。
【0048】
このような構成とすることにより、設定された個性に応じて、個体毎に異なる音声を出力するロボットを実現することが可能となる。
【0049】
図9は、図1の構成例に対して、タイマ71を追加した構成例を示している。タイマ71は、ロボットが最初に起動されたとき以降の経過時間をカウントして音声合成コントロール情報選択部12に出力する。なお、タイマ71は、最初に起動されたとき以降の稼働中の時間だけをカウントするようにしてもよい。
【0050】
このような構成とすることにより、出力する音声を経年変化させるロボットを実現することが可能となる。
【0051】
図10は、図1の構成例に対して、経験値計算部81および経験値メモリ82を追加した構成例を示している。経験値計算部81は、思考系処理部41が感情を標準から他の状態に遷移させる毎、遷移した感情ステート毎に遷移回数をカウントアップして経験値メモリ82に記録する。例えば、図4に示した感情モデル42のように感情ステートが4種類で有れば、4項目の遷移回数が経験値メモリ82に記録される。音声合成コントロール情報選択部12には、各感情ステートへの遷移回数を通知するようにしてもよいし、最も遷移回数の多い感情ステートを通知するようにしてもよい。
【0052】
このような構成とすることにより、例えば、頻繁に叩かれていて、感情ステート「怒り」への遷移回数が多いロボットは、怒りっぽい話し方をするようにすることができ、頻繁に撫でられていて、感情ステート「嬉しい」への遷移回数が多いロボットは、楽しそうな話し方をするようにすることができる。
【0053】
なお、図8乃至図10に示した構成例は、適宜組み合わせることが可能である。
【0054】
また、各種センサ1の検出結果をパラメータ化して、音声合成コントロール情報選択部12に供給することにより、外部の状況に応じて話し方を変化させるようにしてもよい。例えば、外気温センサ2が検出した外気温が所定の温度以下である場合、寒そうな震えた声を発声するようにしてもよい。
【0055】
さらに、各種センサ1の検出結果をパラメータ化して、履歴として記録し、その履歴を音声合成コントロール情報選択部12に供給するようにしてもよい。これにより、例えば、外気温が所定の温度以下である履歴が多いロボットは、東北弁を話すようになるようにしてもよい。
【0056】
ところで、上述した一連の処理は、ハードウェアにより実行させることもできるが、ソフトウェアにより実行させることもできる。一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、記録媒体からインストールされる。
【0057】
この記録媒体は、図1に示すように、コンピュータとは別に、ユーザにプログラムを提供するために配布される、プログラムが記録されている磁気ディスク19(フロッピディスクを含む)、光ディスク20(CD-ROM(Compact Disc-Read Only Memory)、DVD(Digital Versatile Disc)を含む)、光磁気ディスク21(MD(Mini Disc)を含む)、もしくは半導体メモリ22などよりなるパッケージメディアにより構成されるだけでなく、コンピュータに予め組み込まれた状態でユーザに提供される、プログラムが記録されているROMやハードディスクなどで構成される。
【0058】
なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、記載された順序に従って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
【0059】
【発明の効果】
以上のように、本発明によれば、感情や動作等に対応して話し方を変化させることができて、よりリアルに生命体を模擬したロボットを実現することが可能となる。
【図面の簡単な説明】
【図1】本発明を適用したロボットの音声合成に関わる部分の構成例を示すブロック図である。
【図2】図1のロボット運動系制御部10およびロボット思考系制御部11の構成例を示すブロック図である。
【図3】図2の動作モデル32を説明するための図である。
【図4】図2の感情モデル42を説明するための図である。
【図5】音声合成コントロール情報を説明するための図である。
【図6】言語処理部14の詳細な構成例を示すブロック図である。
【図7】本発明を適用したロボットの動作を説明するフローチャートである。
【図8】本発明を適用したロボットの音声合成に関わる部分の他の構成例を示すブロック図である。
【図9】本発明を適用したロボットの音声合成に関わる部分のさらに他の構成例を示すブロック図である。
【図10】本発明を適用したロボットの音声合成に関わる部分のさらに他の構成例を示すブロック図である。
【符号の説明】
1 各種センサ, 10 ロボット運動系制御部, 11 ロボット思考系制御部, 12 音声合成コントロール情報選択部, 13 音声合成コントロール情報テーブル, 14 言語処理部, 15 規則音声合成部, 17 制御部, 31 運動系処理部, 32 動作モデル, 41 思考系処理部, 42 感情モデル, 51 文体解析部, 53 単語変換部, 55 文体変換部, 61 通信ポート, 62 通信制御部, 63 個体情報メモリ, 71 タイマ, 81 経験値計算部, 82 経験値メモリ
Claims (10)
- 対象文に対応して音声信号を合成する音声合成装置において、
外部の状況および外部からの作用を検出する検出手段と、
前記外部の状況または前記外部からの作用の少なくとも一方が検出されたことに応じて動作イベントの発生を検知し、検知した前記動作イベントおよび動作モデルに従って動作状態を遷移する動作状態遷移手段と、
検知された前記動作イベントに応じて前記対象文を発生するとともに、前記動作イベントおよび感情モデルに従って感情状態を遷移する感情状態遷移手段と、
前記動作状態および前記感情状態に基づいて予め用意されている複数の制御情報の中から1つを選択する選択手段と、
選択された前記制御情報に含まれる音声合成情報に基づき、前記対象文に対応して音声信号を合成する合成手段と
を含む音声合成装置。 - 前記音声合成情報には、素片データID、音節セットID、声の高さパラメータ、アクセントの強さパラメータ、声立ての強さパラメータ、および発話スピードパラメータのうち、少なくとも1つが含まれる
請求項1に記載の音声合成装置。 - 前記選択手段は、前記外部の状況または前記外部からの作用の少なくとも一方の検出結果にも基づいて前記制御情報を選択する
請求項1に記載の音声合成装置。 - 個体情報を保持する保持手段を
さらに含み、
前記選択手段は、保持された前記個体情報にも基づいて前記制御情報を選択する
請求項1に記載の音声合成装置。 - 起動以降の経過時間をカウントするカウント手段を
さらに含み、
前記選択手段は、カウントされた前記経過時間にも基づいて前記制御情報を選択する
請求項1に記載の音声合成装置。 - 前記動作状態遷移手段が前記動作状態を遷移した回数、または前記感情状態遷移手段が前記感情状態を遷移した回数のうち、少なくとも一方を累積する累積手段を
さらに含み、
前記選択手段は、累積された前記回数にも基づいて前記制御情報を選択する
請求項1に記載の音声合成装置。 - 前記制御情報は、単語置換辞書も含み、
前記制御情報に含まれる前記単語置換辞書を用いて、前記対象文に含まれる単語を置換する置換手段を
さらに含む請求項1に記載の音声合成装置。 - 前記制御情報は、文体変換規則も含み、
前記制御情報に含まれる前記文体変換規則に従って、前記対象文の文体を変換する変換手段を
さらに含む請求項1に記載の音声合成装置。 - 対象文に対応して音声信号を合成する音声合成装置の音声合成方法において、
外部の状況および外部からの作用を検出する検出ステップと、
前記外部の状況または前記外部からの作用の少なくとも一方が検出されたことに応じて動作イベントの発生を検知し、検知した前記動作イベントおよび動作モデルに従って動作状態を遷移する動作状態遷移ステップと、
検知された前記動作イベントに応じて前記対象文を発生するとともに、前記動作イベントおよび感情モデルに従って感情状態を遷移する感情状態遷移ステップと、
前記動作状態および前記感情状態に基づいて予め用意されている複数の制御情報の中から1つを選択する選択ステップと、
選択された前記制御情報に含まれる音声合成情報に基づき、前記対象文に対応して音声信号を合成する合成ステップと
を含む音声合成方法。 - 対象文に対応して音声信号を合成する音声合成装置の制御用のプログラムであって、
外部の状況および外部からの作用を検出する検出ステップと、
前記外部の状況または前記外部からの作用の少なくとも一方が検出されたことに応じて動作イベントの発生を検知し、検知した前記動作イベントおよび動作モデルに従って動作状態を遷移する動作状態遷移ステップと、
検知された前記動作イベントに応じて前記対象文を発生するとともに、前記動作イベントおよび感情モデルに従って感情状態を遷移する感情状態遷移ステップと、
前記動作状態および前記感情状態に基づいて予め用意されている複数の制御情報の中から1つを選択する選択ステップと、
選択された前記制御情報に含まれる音声合成情報に基づき、前記対象文に対応して音声信号を合成する合成ステップと
を含む処理を音声合成装置のコンピュータに実行させるプログラムが記録されている記録媒体。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP37378099A JP4465768B2 (ja) | 1999-12-28 | 1999-12-28 | 音声合成装置および方法、並びに記録媒体 |
US09/749,345 US7379871B2 (en) | 1999-12-28 | 2000-12-27 | Speech synthesizing apparatus, speech synthesizing method, and recording medium using a plurality of substitute dictionaries corresponding to pre-programmed personality information |
DE60035848T DE60035848T2 (de) | 1999-12-28 | 2000-12-27 | Sprachsynthesevorrichtung und Verfahren, sowie Aufzeichnungsmedium |
EP00311701A EP1113417B1 (en) | 1999-12-28 | 2000-12-27 | Apparatus, method and recording medium for speech synthesis |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP37378099A JP4465768B2 (ja) | 1999-12-28 | 1999-12-28 | 音声合成装置および方法、並びに記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001188553A JP2001188553A (ja) | 2001-07-10 |
JP4465768B2 true JP4465768B2 (ja) | 2010-05-19 |
Family
ID=18502748
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP37378099A Expired - Lifetime JP4465768B2 (ja) | 1999-12-28 | 1999-12-28 | 音声合成装置および方法、並びに記録媒体 |
Country Status (4)
Country | Link |
---|---|
US (1) | US7379871B2 (ja) |
EP (1) | EP1113417B1 (ja) |
JP (1) | JP4465768B2 (ja) |
DE (1) | DE60035848T2 (ja) |
Families Citing this family (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002049385A (ja) * | 2000-08-07 | 2002-02-15 | Yamaha Motor Co Ltd | 音声合成装置、疑似感情表現装置及び音声合成方法 |
WO2002037471A2 (en) * | 2000-11-03 | 2002-05-10 | Zoesis, Inc. | Interactive character system |
JP2002304188A (ja) * | 2001-04-05 | 2002-10-18 | Sony Corp | 単語列出力装置および単語列出力方法、並びにプログラムおよび記録媒体 |
EP1256931A1 (en) * | 2001-05-11 | 2002-11-13 | Sony France S.A. | Method and apparatus for voice synthesis and robot apparatus |
US20030093280A1 (en) * | 2001-07-13 | 2003-05-15 | Pierre-Yves Oudeyer | Method and apparatus for synthesising an emotion conveyed on a sound |
EP1345207B1 (en) * | 2002-03-15 | 2006-10-11 | Sony Corporation | Method and apparatus for speech synthesis program, recording medium, method and apparatus for generating constraint information and robot apparatus |
DE10237951A1 (de) * | 2002-08-20 | 2004-03-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Verfahren zum Betrieb eines Roboters zu laufender Musik |
JP3864918B2 (ja) | 2003-03-20 | 2007-01-10 | ソニー株式会社 | 歌声合成方法及び装置 |
US7275032B2 (en) | 2003-04-25 | 2007-09-25 | Bvoice Corporation | Telephone call handling center where operators utilize synthesized voices generated or modified to exhibit or omit prescribed speech characteristics |
FR2859592A1 (fr) * | 2003-09-05 | 2005-03-11 | France Telecom | Procede de commande d'un terminal multimodal, plate-forme de traitement et terminal multimodal |
JP4661074B2 (ja) * | 2004-04-07 | 2011-03-30 | ソニー株式会社 | 情報処理システム、情報処理方法、並びにロボット装置 |
JP3955881B2 (ja) * | 2004-12-28 | 2007-08-08 | 松下電器産業株式会社 | 音声合成方法および情報提供装置 |
JP2006309162A (ja) * | 2005-03-29 | 2006-11-09 | Toshiba Corp | ピッチパターン生成方法、ピッチパターン生成装置及びプログラム |
GB2427109B (en) * | 2005-05-30 | 2007-08-01 | Kyocera Corp | Audio output apparatus, document reading method, and mobile terminal |
TWI340660B (en) * | 2006-12-29 | 2011-04-21 | Ind Tech Res Inst | Emotion abreaction device and using method of emotion abreaction device |
CA2674614C (en) * | 2007-01-25 | 2017-02-28 | Eliza Corporation | Systems and techniques for producing spoken voice prompts |
AU2008100836B4 (en) * | 2007-08-30 | 2009-07-16 | Machinima Pty Ltd | Real-time realistic natural voice(s) for simulated electronic games |
US20090234638A1 (en) * | 2008-03-14 | 2009-09-17 | Microsoft Corporation | Use of a Speech Grammar to Recognize Instant Message Input |
US8374873B2 (en) | 2008-08-12 | 2013-02-12 | Morphism, Llc | Training and applying prosody models |
JP5398295B2 (ja) * | 2009-02-16 | 2014-01-29 | 株式会社東芝 | 音声処理装置、音声処理方法及び音声処理プログラム |
FR2947923B1 (fr) * | 2009-07-10 | 2016-02-05 | Aldebaran Robotics | Systeme et procede pour generer des comportements contextuels d'un robot mobile |
KR101678018B1 (ko) * | 2010-01-22 | 2016-11-22 | 삼성전자주식회사 | 감성 모델 장치 및 감성 모델 장치의 행동 결정 방법 |
JP2012198277A (ja) * | 2011-03-18 | 2012-10-18 | Toshiba Corp | 文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラム |
JP2013246742A (ja) * | 2012-05-29 | 2013-12-09 | Azone Co Ltd | 受動型出力装置及び出力データ生成システム |
US9788777B1 (en) * | 2013-08-12 | 2017-10-17 | The Neilsen Company (US), LLC | Methods and apparatus to identify a mood of media |
EP3191934A4 (en) * | 2014-09-09 | 2018-05-23 | Botanic Technologies, Inc. | Systems and methods for cinematic direction and dynamic character control via natural language output |
JP6124306B2 (ja) * | 2014-12-17 | 2017-05-10 | 日本電信電話株式会社 | データ構造及び育児語使用傾向測定装置 |
JP6729424B2 (ja) * | 2017-01-30 | 2020-07-22 | 富士通株式会社 | 機器、出力装置、出力方法および出力プログラム |
CN108447470A (zh) * | 2017-12-28 | 2018-08-24 | 中南大学 | 一种基于声道和韵律特征的情感语音转换方法 |
JP2019168623A (ja) * | 2018-03-26 | 2019-10-03 | カシオ計算機株式会社 | 対話装置、ロボット、対話制御方法及びプログラム |
JP7463789B2 (ja) * | 2020-03-23 | 2024-04-09 | 株式会社リコー | 体温計測用耳標及び体温データ管理システム |
US20230032760A1 (en) * | 2021-08-02 | 2023-02-02 | Bear Robotics, Inc. | Method, system, and non-transitory computer-readable recording medium for controlling a serving robot |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5029214A (en) * | 1986-08-11 | 1991-07-02 | Hollander James F | Electronic speech control apparatus and methods |
US5559927A (en) * | 1992-08-19 | 1996-09-24 | Clynes; Manfred | Computer system producing emotionally-expressive speech messages |
US5860064A (en) * | 1993-05-13 | 1999-01-12 | Apple Computer, Inc. | Method and apparatus for automatic generation of vocal emotion in a synthetic text-to-speech system |
JP3439840B2 (ja) * | 1994-09-19 | 2003-08-25 | 富士通株式会社 | 音声規則合成装置 |
US5615301A (en) * | 1994-09-28 | 1997-03-25 | Rivers; W. L. | Automated language translation system |
JP3254994B2 (ja) * | 1995-03-01 | 2002-02-12 | セイコーエプソン株式会社 | 音声認識対話装置および音声認識対話処理方法 |
US5918222A (en) * | 1995-03-17 | 1999-06-29 | Kabushiki Kaisha Toshiba | Information disclosing apparatus and multi-modal information input/output system |
JP3741156B2 (ja) * | 1995-04-07 | 2006-02-01 | ソニー株式会社 | 音声認識装置および音声認識方法並びに音声翻訳装置 |
JPH08279054A (ja) * | 1995-04-07 | 1996-10-22 | Hitachi Ltd | 映像生成/表示システム |
JPH1078952A (ja) * | 1996-07-29 | 1998-03-24 | Internatl Business Mach Corp <Ibm> | 音声合成方法、音声合成装置、ハイパーテキストの制御方法及び制御装置 |
JPH10289006A (ja) * | 1997-04-11 | 1998-10-27 | Yamaha Motor Co Ltd | 疑似感情を用いた制御対象の制御方法 |
KR100240637B1 (ko) * | 1997-05-08 | 2000-01-15 | 정선종 | 다중매체와의 연동을 위한 텍스트/음성변환 구현방법 및 그 장치 |
EP0878790A1 (en) * | 1997-05-15 | 1998-11-18 | Hewlett-Packard Company | Voice coding system and method |
US6363301B1 (en) * | 1997-06-04 | 2002-03-26 | Nativeminds, Inc. | System and method for automatically focusing the attention of a virtual robot interacting with users |
IL121642A0 (en) * | 1997-08-27 | 1998-02-08 | Creator Ltd | Interactive talking toy |
US6112181A (en) * | 1997-11-06 | 2000-08-29 | Intertrust Technologies Corporation | Systems and methods for matching, selecting, narrowcasting, and/or classifying based on rights management and/or other information |
US6160986A (en) * | 1998-04-16 | 2000-12-12 | Creator Ltd | Interactive toy |
US6144938A (en) * | 1998-05-01 | 2000-11-07 | Sun Microsystems, Inc. | Voice user interface with personality |
US6243680B1 (en) * | 1998-06-15 | 2001-06-05 | Nortel Networks Limited | Method and apparatus for obtaining a transcription of phrases through text and spoken utterances |
US6260016B1 (en) * | 1998-11-25 | 2001-07-10 | Matsushita Electric Industrial Co., Ltd. | Speech synthesis employing prosody templates |
US6598020B1 (en) * | 1999-09-10 | 2003-07-22 | International Business Machines Corporation | Adaptive emotion and initiative generator for conversational systems |
US6446056B1 (en) * | 1999-09-10 | 2002-09-03 | Yamaha Hatsudoki Kabushiki Kaisha | Interactive artificial intelligence |
JP2001154681A (ja) | 1999-11-30 | 2001-06-08 | Sony Corp | 音声処理装置および音声処理方法、並びに記録媒体 |
-
1999
- 1999-12-28 JP JP37378099A patent/JP4465768B2/ja not_active Expired - Lifetime
-
2000
- 2000-12-27 US US09/749,345 patent/US7379871B2/en not_active Expired - Lifetime
- 2000-12-27 DE DE60035848T patent/DE60035848T2/de not_active Expired - Lifetime
- 2000-12-27 EP EP00311701A patent/EP1113417B1/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
DE60035848T2 (de) | 2008-05-21 |
EP1113417B1 (en) | 2007-08-08 |
US7379871B2 (en) | 2008-05-27 |
DE60035848D1 (de) | 2007-09-20 |
EP1113417A2 (en) | 2001-07-04 |
US20010021907A1 (en) | 2001-09-13 |
JP2001188553A (ja) | 2001-07-10 |
EP1113417A3 (en) | 2001-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4465768B2 (ja) | 音声合成装置および方法、並びに記録媒体 | |
US7065490B1 (en) | Voice processing method based on the emotion and instinct states of a robot | |
TW586056B (en) | Robot control device, robot control method, and recording medium | |
JP4150198B2 (ja) | 音声合成方法、音声合成装置、プログラム及び記録媒体、並びにロボット装置 | |
US20020198717A1 (en) | Method and apparatus for voice synthesis and robot apparatus | |
JP6342428B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
JP2003271174A (ja) | 音声合成方法、音声合成装置、プログラム及び記録媒体、制約情報生成方法及び装置、並びにロボット装置 | |
JP2002358095A (ja) | 音声処理装置および音声処理方法、並びにプログラムおよび記録媒体 | |
KR100879417B1 (ko) | 음성 출력 장치 | |
US6865535B2 (en) | Synchronization control apparatus and method, and recording medium | |
JP2024108175A (ja) | ロボット、音声合成プログラム、及び音声出力方法 | |
KR20030007866A (ko) | 단어열 출력 장치 | |
WO1999032203A1 (en) | A standalone interactive toy | |
JP2003271172A (ja) | 音声合成方法、音声合成装置、プログラム及び記録媒体、並びにロボット装置 | |
JP2002258886A (ja) | 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体 | |
JP2001188788A (ja) | 会話処理装置および方法、並びに記録媒体 | |
JP2002311981A (ja) | 自然言語処理装置および自然言語処理方法、並びにプログラムおよび記録媒体 | |
JP3742206B2 (ja) | 音声合成方法及び装置 | |
JP4656354B2 (ja) | 音声処理装置および音声処理方法、並びに記録媒体 | |
JP2002304187A (ja) | 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体 | |
JP2002318590A (ja) | 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体 | |
JP2020190587A (ja) | ロボットの制御装置、ロボット、ロボットの制御方法及びプログラム | |
JP2019168623A (ja) | 対話装置、ロボット、対話制御方法及びプログラム | |
JP2018159777A (ja) | 音声再生装置、および音声再生プログラム | |
JP2003076398A (ja) | ロボット装置およびロボット制御方法、記録媒体、並びにプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060301 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090514 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090713 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100202 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100215 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 4465768 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130305 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130305 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140305 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |