JP4465768B2 - 音声合成装置および方法、並びに記録媒体 - Google Patents

音声合成装置および方法、並びに記録媒体 Download PDF

Info

Publication number
JP4465768B2
JP4465768B2 JP37378099A JP37378099A JP4465768B2 JP 4465768 B2 JP4465768 B2 JP 4465768B2 JP 37378099 A JP37378099 A JP 37378099A JP 37378099 A JP37378099 A JP 37378099A JP 4465768 B2 JP4465768 B2 JP 4465768B2
Authority
JP
Japan
Prior art keywords
speech
speech synthesis
control information
robot
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP37378099A
Other languages
English (en)
Other versions
JP2001188553A (ja
Inventor
真人 島川
信英 山崎
恵理香 小林
誠 赤羽
賢一郎 小林
敬一 山田
朋晃 新田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP37378099A priority Critical patent/JP4465768B2/ja
Priority to DE60035848T priority patent/DE60035848T2/de
Priority to US09/749,345 priority patent/US7379871B2/en
Priority to EP00311701A priority patent/EP1113417B1/en
Publication of JP2001188553A publication Critical patent/JP2001188553A/ja
Application granted granted Critical
Publication of JP4465768B2 publication Critical patent/JP4465768B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63HTOYS, e.g. TOPS, DOLLS, HOOPS OR BUILDING BLOCKS
    • A63H2200/00Computerized interactive toys, e.g. dolls

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Manipulator (AREA)
  • Toys (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、音声合成装置および方法、並びに記録媒体に関し、例えば、ロボットに搭載して、当該ロボットの感情や動作等に対応して合成する音声信号を変化させる場合に用いて好適な音声合成装置および方法、並びに記録媒体に関する。
【0002】
【従来の技術】
従来、言葉を発声するロボットは存在する。例えば、言葉を発声するロボットが、自己の感情を変化させて、感情に応じて話し方を変えるようになったり、例えばまた、ロボットに、種別、性別、年齢、出身地、性格、体格などの個性を設定し、個性に対応して話し方を変化させるようになれば、よりリアルに生命体を模擬したものとなる。
【0003】
【発明が解決しようとする課題】
そのようなロボットに対してユーザは、あたかも生きたペットに対するような親しみや愛情をもって接することができるようになるが、そのようなロボットは実現されていない課題があった。
【0004】
本発明はこのような状況に鑑みてなされたものであり、感情や動作等に対応して話し方を変化させるようにすることにより、よりリアルに生命体を模擬したロボットを実現することを目的とする。
【0005】
【課題を解決するための手段】
本発明の音声合成装置は、外部の状況および外部からの作用を検出する検出手段と、外部の状況または外部からの作用の少なくとも一方が検出されたことに応じて動作イベントの発生を検知し、検知した動作イベントおよび動作モデルに従って動作状態を遷移する動作状態遷移手段と、検知された動作イベントに応じて対象文を発生するとともに、動作イベントおよび感情モデルに従って感情状態を遷移する感情状態遷移手段と、動作状態および感情状態基づいて予め用意されている複数の制御情報の中から1つを選択する選択手段と、された制御情報に含まれる音声合成情報に基づき、対象文に対応して音声信号を合成する合成手段とを含
音声合成情報には、素片データID、音節セットID、声の高さパラメータ、アクセントの強さパラメータ、声立ての強さパラメータ、および発話スピードパラメータのうち、少なくとも1つが含まれるようにすることができる。
【0006】
記選択手段は、外部の状況または外部からの作用の少なくとも一方の検出結果にも基づいて制御情報を選択するようにすることができる。
【0007】
本発明の音声合成装置は、個体情報を保持する保持手段をさらに含むことができ、前記選択手段は、された個体情報にも基づいて制御情報を選択するようにすることができる。
【0008】
本発明の音声合成装置は、起動以降の経過時間をカウントするカウント手段をさらに含むことができ、前記選択手段は、ウントされた経過時間にも基づいて制御情報を選択するようにすることができる。
【0009】
本発明の音声合成装置は、動作状態遷移手段が動作状態を遷移した回数、または感情状態遷移手段が感情状態を遷移した回数のうち、少なくとも一方を累積する累積手段をさらに含むことができ、前記選択手段は、された回数にも基づいて制御情報を選択するようにすることができる。
【0010】
前記制御情報は、単語置換辞書も含み、本発明の音声合成装置は、制御情報に含まれる単語置換辞書を用いて、対象文に含まれる単語を置換する置換手段をさらに含むようにすることができる。
【0011】
制御情報は、文体変換規則も含み、本発明の音声合成装置は、制御情報に含まれる文体変換規則に従って、対象文の文体を変換する変換手段をさらに含むことができる。
【0012】
本発明の音声合成方法は、外部の状況および外部からの作用を検出する検出ステップと、外部の状況または外部からの作用の少なくとも一方が検出されたことに応じて動作イベントの発生を検知し、検知した動作イベントおよび動作モデルに従って動作状態を遷移する動作状態遷移ステップと、検知された動作イベントに応じて対象文を発生するとともに、動作イベントおよび感情モデルに従って感情状態を遷移する感情状態遷移ステップと、動作状態および感情状態基づいて予め用意されている複数の制御情報の中から1つを選択する選択ステップと、された制御情報に含まれる音声合成情報に基づき、対象文に対応して音声信号を合成する合成ステップとを含
【0013】
本発明の記録媒体は、外部の状況および外部からの作用を検出する検出ステップと、外部の状況または外部からの作用の少なくとも一方が検出されたことに応じて動作イベントの発生を検知し、検知した動作イベントおよび動作モデルに従って動作状態を遷移する動作状態遷移ステップと、検知された動作イベントに応じて対象文を発生するとともに、動作イベントおよび感情モデルに従って感情状態を遷移する感情状態遷移ステップと、動作状態および感情状態基づいて予め用意されている複数の制御情報の中から1つを選択する選択ステップと、された制御情報に含まれる音声合成情報に基づき、対象文に対応して音声信号を合成する合成ステップとを含む処理を音声合成装置のコンピュータに実行させるプログラムが記録されている。
【0014】
本発においては、外部の状況および外部からの作用が検出され、外部の状況または外部からの作用の少なくとも一方が検出されたことに応じて動作イベントの発生が検知され、検知された動作イベントおよび動作モデルに従って動作状態が遷移される。また、検知された動作イベントに応じて対象文が発生されるとともに、動作イベントおよび感情モデルに従って感情状態が遷移される。さらに、動作状態および感情状態基づいて予め用意されている複数の制御情報の中から1つが選択され、された制御情報に含まれる音声合成情報に基づき、対象文に対応して音声信号が合成される。
【0015】
【発明の実施の形態】
図1は、本発明を適用したロボットの音声合成に関わる部分の構成例を示している。このロボットは、発話機能を有し、かつ、感情と動作を変化させて、感情や動作の変化に応じて話し方を変化するようになされている。
【0016】
各種センサ1は、ロボット外部の状況やロボットに対する作用を検出して、検出結果をロボット運動系制御部10に出力する。例えば、外気温センサ2は、ロボットの外気温を検出する。温度センサ3と接触センサ4は、対をなして近傍に設けられており、接触センサ4がロボットに対する物体の接触を検知し、温度センサ3が接触した物体の温度を検出する。感圧センサ5は、ロボットに加えられる外力(例えば、叩かれる力や撫でられる力など)の強さを検出する。風速センサ6は、ロボット外部の風速を検出する。照度センサ7は、ロボット外部の照度を検出する。画像センサ8は、例えばCCDなどからなり、ロボット外部の景色を画像信号として検出する。音声センサ9は、例えばマイクロフォンからなり、音声を検出する。
【0017】
ロボット運動系制御部10は、図2に示すように、運動系処理部31と動作モデル32から構成されており、当該ロボットの動作を管理する。運動系処理部31は、各種センサ1から入力される検出結果、自己の内部で生成する内部イベント、および、ロボット思考系制御部11から入力される指令を動作モデル32に照らし合わせてロボットの動作を遷移させ、現在の動作の状態を動作ステートとして音声合成コントロール情報選択部12に出力する。運動系処理部31はまた、例えば、感圧センサ5の検知結果が所定の閾値以上の力であったとき、動作イベントとして「頭を叩かれた」と判定するように、各種センサ1から入力される検出結果に基づき、動作イベントを判定してロボット思考系制御部11に出力する。運動系処理部31はさらに、各種センサ1からの検出結果をロボット思考系制御部11に中継する。なお、各種センサ1から思考系処理部41に検出結果を直接入力するようにしてもよい。
【0018】
動作モデル32には、図3に示すように、標準状態から各種の動作に遷移するときの条件が記述されている。例えば、標準状態において、指令「歩く」が命令された場合、動作「歩く」に遷移することや、例えばまた、指令「起き上がる」が命令された場合、動作「起き上がる」に遷移し、その動作が終了したことに対応して発せられる内部イベント「動作終了」に対応して標準の状態に遷移することなどが記述されている。
【0019】
図1に戻り、ロボット思考系制御部11は、図2に示すように、思考系処理部41と感情モデル42から構成されており、当該ロボットの感情を管理する。思考系処理部41は、運動系処理部31から入力される動作イベントや各種センサ1の検出結果、自己の内部で生成する内部イベント(一定の時間毎、周期的に発生させるイベント等)を感情モデル42に照らし合わせてロボットの感情を遷移させ、現在の感情を感情ステートとして音声合成コントロール情報選択部12に出力する。思考系処理部41はまた、各種センサ1の検出結果などに対応して、運動系処理31に動作に関する指令を出力する。思考系処理部41はさらに、例えば、動作イベント「頭を叩かれた」に対応して音声合成対象文「痛い」を生成するように、動作イベントや各種センサ1の検出結果などに対応し、当該ロボットが発声する音声合成対象文を生成して言語処理部14に出力する。
【0020】
感情モデル42には、図4に示すように、標準の状態から各種の感情に遷移するときの条件が記述されている。例えば、標準状態において、動作イベント「頭と叩かれた」が発生した場合、感情「怒り」に遷移することや、動作イベント「頭を撫でられた」が発生した場合、感情「嬉しい」に遷移し、その後、所定の時間以上動作イベントが発生されないことに対応して発せられる内部イベントに対応して標準の状態に遷移することなどが記述されている。
【0021】
図1に戻り、音声合成コントロール情報選択部12は、ロボット運動系制御部10から入力される動作ステート、および、ロボット思考系制御部11から入力される感情ステートに基づいて、音声合成コントロール情報テーブル13に多数用意されているフィールドの中から、最も適切な音声合成コントロール情報が格納されているフィールドを選択する。なお、この選択に際しては、動作ステートおよび感情ステート以外のパラメータを追加して、選択するフィールドを決定するようにしてもよい(詳細は、図8乃至図10を参照して後述する)。
【0022】
音声合成コントロール情報テーブル13には、動作ステートおよび感情ステート、その他のパラメータ(後述)のあらゆる組み合わせに対応した多数のフィールドが設けられており、音声合成コントロール情報選択部12に選択されたフィールドに格納している選択情報を言語処理部14に出力し、音声合成コントロール情報を規則音声合成部15に出力する。
【0023】
フィールドには、図5に示すように、大別して選択情報と音声合成コントロール情報が格納されている。選択情報は、単語マッピング辞書IDと文体変換ルールIDからなる。音声合成コントロール情報は、素片データID、音節セットID、声の高さパラメータ、アクセントの強さパラメータ、声立ての強さパラメータ、および、発話スピードパラメータからなる。
【0024】
単語マッピング辞書IDは、単語マッピング辞書データベース54(図6)に予め用意されている、幼児語の単語マッピング辞書、大阪弁の単語マッピング辞書、女子高生言葉の単語マッピング辞書、猫の単語マッピング辞書などの複数の辞書のなかで、単語変換部53(図6)で使用される辞書を特定するための情報である。単語マッピング辞書は、後述するロボットの個性情報などに対応して切り替えられるものであり、標準語で表記されている音声合成対象文に含まれる単語を、別の単語に置換するための辞書である。例えば、幼児語の単語マッピング辞書は、音声合成対象文に含まれる単語「車」を「ブーブ」に置換する。
【0025】
文体変換ルールIDとは、文体変換ルールデータベース56(図6)に予め用意されている、女性言葉への変換ルール、男性言葉への変換ルール、幼児語への変換ルール、大阪弁への変換ルール、女子高生言葉への変換ルール、猫語への変換ルールなどの複数のルールなかで、文体変換部55(図6)で使用されるルールを特定するための情報である。文体変換ルールは、後述するロボットの個性情報などに対応して切り替えられるものであり、音声合成対象文に含まれる文字列を、別の文字列に変換するためのルールである。例えば、猫語への文体変換ルールは、音声合成対象文中の語尾「**です」を「**ニャ」に変換する。
【0026】
音声合成コントロール情報に含まれる素片データIDは、規則音声合成部15で使用される音声素片を特定するための情報である。音声素片としては、女性の声、男性の声、子供の声、嗄れている声、機械的な声、その他の声のデータが、規則音声合成部15の内部に予め用意されている。
【0027】
音節セットIDは、規則音声合成部15で使用される音節セットを特定するための情報である。音節セットとしては、例えば、基本266音節セットと簡略180音節セットが用意されている。簡略180音節セットでは、基本266音節セットよりも発声可能な音韻の数が制限されており、例えば、言語処理部14から入力される音声合成対象文「リンゴ」を「にんご」と発声する。このように、発声する音韻を制限することにより、幼児のような舌足らずな発声を表現することができる。
【0028】
声の高さパラメータは、規則音声合成部15で合成される音声のピッチ周波数を指定するための情報である。アクセントの強さパラメータは、規則音声合成部15で合成される音声のアクセントの強度を指定するための情報である。この値が大きければ、アクセントの起伏が激しい発声が行われ、値が小さければ、平坦なアクセントで発声が行われる。
【0029】
声立ての強さパラメータは、規則音声合成部15で合成される音声の声立ての強度を指定するための情報である。この値が大きければ、声立てが多くなり、値が小さければ、声立てが少なくなる。発話スピードパラメータは、規則音声合成部15で合成される音声の発話スピードを指定するための情報である。
【0030】
図1に戻り、言語処理部14は、ロボット思考系制御部11から入力される音声合成対象文を文法的に解析した後、音声合成コントロール情報に基づいて所定の箇所を変換し、規則音声合成部15に出力する。
【0031】
図6は、言語処理部14の構成例を示している。ロボット思考系制御部11からの音声合成対象文は、文体解析部51に入力される。また、音声合成コントロール情報テーブル13からの選択情報は単語変換部53および文体変換部55に入力される。文体解析部51は、音声合成対象文を解析用辞書52を用いて形態素解析し、単語変換部53に出力する。解析用辞書52には、規則音声合成に必要となる情報、例えば、単語(形態素)の読み、アクセント型、および品詞などの他、各単語の固有の単語IDが記述されている。
【0032】
単語変換部53は、選択情報に含まれる単語マッピング辞書IDに対応する辞書を単語マッピング辞書データベース54から読み出し、文体解析部51からの形態素解析された音声合成対象文に含まれる単語のうち、読み出した単語マッピング辞書に変換する単語が記述されているものだけを置換して文体変換部55に出力する。
【0033】
文体変換部55は、選択情報に含まれる文体変換ルールIDに対応するルールを文体変換ルールデータベース56から読み出し、読み出した文体変換ルールに従って、単語変換部53からの単語変換が施された音声合成対象文を変換し、規則音声合成部15に出力する。
【0034】
図1に戻り、規則音声合成部15は、音声合成コントロール情報テーブル13から入力される音声合成コントロール情報に従って、言語処理部14から入力される音声合成対象文に対応する音声信号を合成する。合成された音声信号は、スピーカ16から放音される。
【0035】
制御部17は、ドライブ18を制御して、磁気ディスク19、光ディスク20、光磁気ディスク21、または半導体メモリ22に記憶されている制御用プログラムを読み出し、読み出した制御用プログラムに基づいて各部を制御する。
【0036】
次に、本発明を適用したロボットの処理について、図7のフローチャートを参照して説明する。この処理は、例えば、ユーザに頭を叩かれたことを、各種センサ1の感圧センサ5が検出し、検出結果がロボット運動系制御部10の運動系処理部31に入力されたときに開始される。
【0037】
ステップS1において、運動系処理部31は、感圧センサ5の検知結果が所定の閾値以上の力であることに対応して、動作イベント「頭を叩かれた」の発生を判定し、ロボット思考系制御部11の思考系処理部41に通知する。運動系処理部31はまた、動作イベント「頭を叩かれた」を動作モデル32に照らし合わせてロボットの動作「起き上がる」を決定し、動作ステートとして音声合成コントロール情報選択部12に出力する。
【0038】
ステップS2において、ロボット思考系制御部11の思考系処理部41は、運動系処理部31から入力された動作イベント「頭を叩かれた」を感情モデル42に照らし合わせて、感情を「怒り」に遷移させ、現在の感情を感情ステートとして音声合成コントロール情報選択部12に出力する。思考系処理部41はまた、動作イベント「頭を叩かれた」に対応して音声合成対象文「痛い」を発生して言語処理部14の文体解析部51に出力する。
【0039】
ステップS3において、音声合成コントロール情報選択部12は、運動系処理部31から入力された動作ステート、および、思考系処理部41から入力された感情ステートに基づいて、音声合成コントロール情報テーブル13に多数用意されているフィールドの中から、最も適切な音声合成コントロール情報が格納されているフィールドを選択する。音声合成コントロール情報テーブル13は、選択されたフィールドに格納している選択情報を音声処理部14に出力し、音声合成コントロール情報を規則音声合成部15に出力する。
【0040】
ステップS4において、言語処理部14の文体解析部51は、音声合成対象文を解析用辞書52を用いて形態素解析し、単語変換部53に出力する。ステップS5において、単語変換部53は、選択情報に含まれる単語マッピング辞書IDに対応する辞書を単語マッピング辞書データベース54から読み出し、文体解析部51からの形態素解析された音声合成対象文に含まれる単語のうち、読み出した単語マッピング辞書に変換する単語が記述されているものだけを置換して文体変換部55に出力する。ステップS6において、文体変換部55は、選択情報に含まれる文体変換ルールIDに対応するルールを文体変換ルールデータベース56から読み出し、読み出した文体変換ルールに従って、単語変換部53からの単語変換が施された音声合成対象文を変換し、規則音声合成部15に出力する。
【0041】
ステップS7において、規則音声合成部15は、音声合成コントロール情報テーブル13から入力された音声合成コントロール情報に従って、言語処理部14から入力された音声合成対象文に対応する音声信号を合成し、スピーカ16から放音させる。
【0042】
以上のような処理により、ロボットはあたかも感情を有するかのように動作し、また、感情の変化や動作に応じて話し方を変化するようになる。
【0043】
次に、音声合成コントロール情報選択部12の選択処理に際し、動作ステートおよび感情ステート以外のパラメータを追加する方法について、図8乃至図10を参照して説明する。
【0044】
図8は、図1の構成例に対して、ロボットに個性を設定するための構成として、通信ポート61乃至個体情報メモリ63を追加した構成例を示している。通信ポート61は、外部装置(パーソナルコンピュータなど)と個性情報を通信するインタフェースであり、例えば、RS-232C、USB、IEEE1394等の通信規格に適合したものが考えられる。通信制御部62は、通信ポート61を介した外部との情報通信を所定のプロトコルに従って制御し、受信する個性情報をロボット思考系制御部11に出力する。個性情報メモリ13は、フラッシュメモリなどの書き換え可能な不発揮性メモリを用い、記憶した個性情報を音声合成コントロール情報選択部12に出力する。
【0045】
外部から供給する個性情報としては、例えば、次のような項目が考えられる。種別 犬/猫
性別 雄/雌
年齢 子供/大人
気性 激しい/おとなしい
体格 痩せている/太っている
【0046】
これらの各項目は、0または1に2値化されて個性情報メモリ63に記憶される。また、各項目を2値化するのではなく、さらに細分化して設定するようにしてもよい。
【0047】
個性情報がむやみに書き換えられることを抑止するために、書き換えの回数を制限するようにしてもよいし、書き換えに際してパスワードを設けるようにしてもよい。また、通信ポート61および通信制御部62を設けずに、個性情報を予め書き込んだROMから成る個性情報メモリ63を製造時に組み込むようにしてもよい。
【0048】
このような構成とすることにより、設定された個性に応じて、個体毎に異なる音声を出力するロボットを実現することが可能となる。
【0049】
図9は、図1の構成例に対して、タイマ71を追加した構成例を示している。タイマ71は、ロボットが最初に起動されたとき以降の経過時間をカウントして音声合成コントロール情報選択部12に出力する。なお、タイマ71は、最初に起動されたとき以降の稼働中の時間だけをカウントするようにしてもよい。
【0050】
このような構成とすることにより、出力する音声を経年変化させるロボットを実現することが可能となる。
【0051】
図10は、図1の構成例に対して、経験値計算部81および経験値メモリ82を追加した構成例を示している。経験値計算部81は、思考系処理部41が感情を標準から他の状態に遷移させる毎、遷移した感情ステート毎に遷移回数をカウントアップして経験値メモリ82に記録する。例えば、図4に示した感情モデル42のように感情ステートが4種類で有れば、4項目の遷移回数が経験値メモリ82に記録される。音声合成コントロール情報選択部12には、各感情ステートへの遷移回数を通知するようにしてもよいし、最も遷移回数の多い感情ステートを通知するようにしてもよい。
【0052】
このような構成とすることにより、例えば、頻繁に叩かれていて、感情ステート「怒り」への遷移回数が多いロボットは、怒りっぽい話し方をするようにすることができ、頻繁に撫でられていて、感情ステート「嬉しい」への遷移回数が多いロボットは、楽しそうな話し方をするようにすることができる。
【0053】
なお、図8乃至図10に示した構成例は、適宜組み合わせることが可能である。
【0054】
また、各種センサ1の検出結果をパラメータ化して、音声合成コントロール情報選択部12に供給することにより、外部の状況に応じて話し方を変化させるようにしてもよい。例えば、外気温センサ2が検出した外気温が所定の温度以下である場合、寒そうな震えた声を発声するようにしてもよい。
【0055】
さらに、各種センサ1の検出結果をパラメータ化して、履歴として記録し、その履歴を音声合成コントロール情報選択部12に供給するようにしてもよい。これにより、例えば、外気温が所定の温度以下である履歴が多いロボットは、東北弁を話すようになるようにしてもよい。
【0056】
ところで、上述した一連の処理は、ハードウェアにより実行させることもできるが、ソフトウェアにより実行させることもできる。一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、記録媒体からインストールされる。
【0057】
この記録媒体は、図1に示すように、コンピュータとは別に、ユーザにプログラムを提供するために配布される、プログラムが記録されている磁気ディスク19(フロッピディスクを含む)、光ディスク20(CD-ROM(Compact Disc-Read Only Memory)、DVD(Digital Versatile Disc)を含む)、光磁気ディスク21(MD(Mini Disc)を含む)、もしくは半導体メモリ22などよりなるパッケージメディアにより構成されるだけでなく、コンピュータに予め組み込まれた状態でユーザに提供される、プログラムが記録されているROMやハードディスクなどで構成される。
【0058】
なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、記載された順序に従って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
【0059】
【発明の効果】
以上のように、本発によれば、情や動作等に対応して話し方を変化させることができて、よりリアルに生命体を模擬したロボットを実現することが可能となる。
【図面の簡単な説明】
【図1】本発明を適用したロボットの音声合成に関わる部分の構成例を示すブロック図である。
【図2】図1のロボット運動系制御部10およびロボット思考系制御部11の構成例を示すブロック図である。
【図3】図2の動作モデル32を説明するための図である。
【図4】図2の感情モデル42を説明するための図である。
【図5】音声合成コントロール情報を説明するための図である。
【図6】言語処理部14の詳細な構成例を示すブロック図である。
【図7】本発明を適用したロボットの動作を説明するフローチャートである。
【図8】本発明を適用したロボットの音声合成に関わる部分の他の構成例を示すブロック図である。
【図9】本発明を適用したロボットの音声合成に関わる部分のさらに他の構成例を示すブロック図である。
【図10】本発明を適用したロボットの音声合成に関わる部分のさらに他の構成例を示すブロック図である。
【符号の説明】
1 各種センサ, 10 ロボット運動系制御部, 11 ロボット思考系制御部, 12 音声合成コントロール情報選択部, 13 音声合成コントロール情報テーブル, 14 言語処理部, 15 規則音声合成部, 17 制御部, 31 運動系処理部, 32 動作モデル, 41 思考系処理部, 42 感情モデル, 51 文体解析部, 53 単語変換部, 55 文体変換部, 61 通信ポート, 62 通信制御部, 63 個体情報メモリ, 71 タイマ, 81 経験値計算部, 82 経験値メモリ

Claims (10)

  1. 対象文に対応して音声信号を合成する音声合成装置において、
    外部の状況および外部からの作用を検出する検出手段と、
    前記外部の状況または前記外部からの作用の少なくとも一方が検出されたことに応じて動作イベントの発生を検知し、検知した前記動作イベントおよび動作モデルに従って動作状態を遷移する動作状態遷移手段と、
    検知された前記動作イベントに応じて前記対象文を発生するとともに、前記動作イベントおよび感情モデルに従って感情状態を遷移する感情状態遷移手段と、
    前記動作状態および前記感情状態基づいて予め用意されている複数の制御情報の中から1つを選択する選択手段と、
    された前記制御情報に含まれる音声合成情報に基づき、前記対象文に対応して音声信号を合成する合成手段と
    を含音声合成装置。
  2. 前記音声合成情報には、素片データID、音節セットID、声の高さパラメータ、アクセントの強さパラメータ、声立ての強さパラメータ、および発話スピードパラメータのうち、少なくとも1つが含まれる
    求項1に記載の音声合成装置。
  3. 前記選択手段は、前記外部の状況または前記外部からの作用の少なくとも一方の検出結果にも基づいて前記制御情報を選択する
    求項1に記載の音声合成装置。
  4. 個体情報を保持する保持手段を
    さらに含み、
    前記選択手段は、された前記個体情報にも基づいて前記制御情報を選択する
    求項1に記載の音声合成装置。
  5. 起動以降の経過時間をカウントするカウント手段を
    さらに含み、
    前記選択手段は、ウントされた前記経過時間にも基づいて前記制御情報を選択する
    求項1に記載の音声合成装置。
  6. 前記動作状態遷移手段が前記動作状態を遷移した回数、または前記感情状態遷移手段が前記感情状態を遷移した回数のうち、少なくとも一方を累積する累積手段を
    さらに含み、
    前記選択手段は、された前記回数にも基づいて前記制御情報を選択する
    求項1に記載の音声合成装置。
  7. 前記制御情報は、単語置換辞書も含み、
    前記制御情報に含まれる前記単語置換辞書を用いて、前記対象文に含まれる単語を置換する置換手段を
    さらに含請求項1に記載の音声合成装置。
  8. 前記制御情報は、文体変換規則も含み、
    前記制御情報に含まれる前記文体変換規則に従って、前記対象文の文体を変換する変換手段を
    さらに含請求項1に記載の音声合成装置。
  9. 対象文に対応して音声信号を合成する音声合成装置の音声合成方法において、
    外部の状況および外部からの作用を検出する検出ステップと、
    前記外部の状況または前記外部からの作用の少なくとも一方が検出されたことに応じて動作イベントの発生を検知し、検知した前記動作イベントおよび動作モデルに従って動作状態を遷移する動作状態遷移ステップと、
    検知された前記動作イベントに応じて前記対象文を発生するとともに、前記動作イベントおよび感情モデルに従って感情状態を遷移する感情状態遷移ステップと、
    前記動作状態および前記感情状態基づいて予め用意されている複数の制御情報の中から1つを選択する選択ステップと、
    された前記制御情報に含まれる音声合成情報に基づき、前記対象文に対応して音声信号を合成する合成ステップと
    を含音声合成方法。
  10. 対象文に対応して音声信号を合成する音声合成装置の制御用のプログラムであって、
    外部の状況および外部からの作用を検出する検出ステップと、
    前記外部の状況または前記外部からの作用の少なくとも一方が検出されたことに応じて動作イベントの発生を検知し、検知した前記動作イベントおよび動作モデルに従って動作状態を遷移する動作状態遷移ステップと、
    検知された前記動作イベントに応じて前記対象文を発生するとともに、前記動作イベントおよび感情モデルに従って感情状態を遷移する感情状態遷移ステップと、
    前記動作状態および前記感情状態基づいて予め用意されている複数の制御情報の中から1つを選択する選択ステップと、
    された前記制御情報に含まれる音声合成情報に基づき、前記対象文に対応して音声信号を合成する合成ステップと
    を含む処理を音声合成装置のコンピュータに実行させるプログラムが記録されている記録媒体。
JP37378099A 1999-12-28 1999-12-28 音声合成装置および方法、並びに記録媒体 Expired - Lifetime JP4465768B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP37378099A JP4465768B2 (ja) 1999-12-28 1999-12-28 音声合成装置および方法、並びに記録媒体
DE60035848T DE60035848T2 (de) 1999-12-28 2000-12-27 Sprachsynthesevorrichtung und Verfahren, sowie Aufzeichnungsmedium
US09/749,345 US7379871B2 (en) 1999-12-28 2000-12-27 Speech synthesizing apparatus, speech synthesizing method, and recording medium using a plurality of substitute dictionaries corresponding to pre-programmed personality information
EP00311701A EP1113417B1 (en) 1999-12-28 2000-12-27 Apparatus, method and recording medium for speech synthesis

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP37378099A JP4465768B2 (ja) 1999-12-28 1999-12-28 音声合成装置および方法、並びに記録媒体

Publications (2)

Publication Number Publication Date
JP2001188553A JP2001188553A (ja) 2001-07-10
JP4465768B2 true JP4465768B2 (ja) 2010-05-19

Family

ID=18502748

Family Applications (1)

Application Number Title Priority Date Filing Date
JP37378099A Expired - Lifetime JP4465768B2 (ja) 1999-12-28 1999-12-28 音声合成装置および方法、並びに記録媒体

Country Status (4)

Country Link
US (1) US7379871B2 (ja)
EP (1) EP1113417B1 (ja)
JP (1) JP4465768B2 (ja)
DE (1) DE60035848T2 (ja)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002049385A (ja) * 2000-08-07 2002-02-15 Yamaha Motor Co Ltd 音声合成装置、疑似感情表現装置及び音声合成方法
US7478047B2 (en) * 2000-11-03 2009-01-13 Zoesis, Inc. Interactive character system
JP2002304188A (ja) * 2001-04-05 2002-10-18 Sony Corp 単語列出力装置および単語列出力方法、並びにプログラムおよび記録媒体
EP1256931A1 (en) * 2001-05-11 2002-11-13 Sony France S.A. Method and apparatus for voice synthesis and robot apparatus
US20030093280A1 (en) * 2001-07-13 2003-05-15 Pierre-Yves Oudeyer Method and apparatus for synthesising an emotion conveyed on a sound
DE60215296T2 (de) * 2002-03-15 2007-04-05 Sony France S.A. Verfahren und Vorrichtung zum Sprachsyntheseprogramm, Aufzeichnungsmedium, Verfahren und Vorrichtung zur Erzeugung einer Zwangsinformation und Robotereinrichtung
DE10237951A1 (de) * 2002-08-20 2004-03-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren zum Betrieb eines Roboters zu laufender Musik
JP3864918B2 (ja) 2003-03-20 2007-01-10 ソニー株式会社 歌声合成方法及び装置
US7275032B2 (en) 2003-04-25 2007-09-25 Bvoice Corporation Telephone call handling center where operators utilize synthesized voices generated or modified to exhibit or omit prescribed speech characteristics
FR2859592A1 (fr) * 2003-09-05 2005-03-11 France Telecom Procede de commande d'un terminal multimodal, plate-forme de traitement et terminal multimodal
JP4661074B2 (ja) * 2004-04-07 2011-03-30 ソニー株式会社 情報処理システム、情報処理方法、並びにロボット装置
WO2006070566A1 (ja) * 2004-12-28 2006-07-06 Matsushita Electric Industrial Co., Ltd. 音声合成方法および情報提供装置
JP2006309162A (ja) * 2005-03-29 2006-11-09 Toshiba Corp ピッチパターン生成方法、ピッチパターン生成装置及びプログラム
GB2427109B (en) 2005-05-30 2007-08-01 Kyocera Corp Audio output apparatus, document reading method, and mobile terminal
TWI340660B (en) * 2006-12-29 2011-04-21 Ind Tech Res Inst Emotion abreaction device and using method of emotion abreaction device
EP2106653B1 (en) 2007-01-25 2014-04-09 Eliza Corporation Systems and techniques for producing spoken voice prompts
AU2008100836B4 (en) * 2007-08-30 2009-07-16 Machinima Pty Ltd Real-time realistic natural voice(s) for simulated electronic games
US20090234638A1 (en) * 2008-03-14 2009-09-17 Microsoft Corporation Use of a Speech Grammar to Recognize Instant Message Input
US8374873B2 (en) 2008-08-12 2013-02-12 Morphism, Llc Training and applying prosody models
JP5398295B2 (ja) * 2009-02-16 2014-01-29 株式会社東芝 音声処理装置、音声処理方法及び音声処理プログラム
FR2947923B1 (fr) * 2009-07-10 2016-02-05 Aldebaran Robotics Systeme et procede pour generer des comportements contextuels d'un robot mobile
KR101678018B1 (ko) 2010-01-22 2016-11-22 삼성전자주식회사 감성 모델 장치 및 감성 모델 장치의 행동 결정 방법
JP2012198277A (ja) 2011-03-18 2012-10-18 Toshiba Corp 文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラム
JP2013246742A (ja) * 2012-05-29 2013-12-09 Azone Co Ltd 受動型出力装置及び出力データ生成システム
US9788777B1 (en) 2013-08-12 2017-10-17 The Neilsen Company (US), LLC Methods and apparatus to identify a mood of media
AU2015315225A1 (en) * 2014-09-09 2017-04-27 Botanic Technologies, Inc. Systems and methods for cinematic direction and dynamic character control via natural language output
JP6124306B2 (ja) * 2014-12-17 2017-05-10 日本電信電話株式会社 データ構造及び育児語使用傾向測定装置
JP6729424B2 (ja) * 2017-01-30 2020-07-22 富士通株式会社 機器、出力装置、出力方法および出力プログラム
CN108447470A (zh) * 2017-12-28 2018-08-24 中南大学 一种基于声道和韵律特征的情感语音转换方法
JP2019168623A (ja) * 2018-03-26 2019-10-03 カシオ計算機株式会社 対話装置、ロボット、対話制御方法及びプログラム
JP7463789B2 (ja) 2020-03-23 2024-04-09 株式会社リコー 体温計測用耳標及び体温データ管理システム
US20230032760A1 (en) * 2021-08-02 2023-02-02 Bear Robotics, Inc. Method, system, and non-transitory computer-readable recording medium for controlling a serving robot

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5029214A (en) * 1986-08-11 1991-07-02 Hollander James F Electronic speech control apparatus and methods
US5559927A (en) * 1992-08-19 1996-09-24 Clynes; Manfred Computer system producing emotionally-expressive speech messages
US5860064A (en) * 1993-05-13 1999-01-12 Apple Computer, Inc. Method and apparatus for automatic generation of vocal emotion in a synthetic text-to-speech system
JP3439840B2 (ja) * 1994-09-19 2003-08-25 富士通株式会社 音声規則合成装置
US5615301A (en) * 1994-09-28 1997-03-25 Rivers; W. L. Automated language translation system
JP3254994B2 (ja) * 1995-03-01 2002-02-12 セイコーエプソン株式会社 音声認識対話装置および音声認識対話処理方法
US5918222A (en) * 1995-03-17 1999-06-29 Kabushiki Kaisha Toshiba Information disclosing apparatus and multi-modal information input/output system
JPH08279054A (ja) * 1995-04-07 1996-10-22 Hitachi Ltd 映像生成/表示システム
JP3741156B2 (ja) * 1995-04-07 2006-02-01 ソニー株式会社 音声認識装置および音声認識方法並びに音声翻訳装置
JPH1078952A (ja) * 1996-07-29 1998-03-24 Internatl Business Mach Corp <Ibm> 音声合成方法、音声合成装置、ハイパーテキストの制御方法及び制御装置
JPH10289006A (ja) * 1997-04-11 1998-10-27 Yamaha Motor Co Ltd 疑似感情を用いた制御対象の制御方法
KR100240637B1 (ko) * 1997-05-08 2000-01-15 정선종 다중매체와의 연동을 위한 텍스트/음성변환 구현방법 및 그 장치
EP0878790A1 (en) * 1997-05-15 1998-11-18 Hewlett-Packard Company Voice coding system and method
US6363301B1 (en) * 1997-06-04 2002-03-26 Nativeminds, Inc. System and method for automatically focusing the attention of a virtual robot interacting with users
IL121642A0 (en) * 1997-08-27 1998-02-08 Creator Ltd Interactive talking toy
US6112181A (en) * 1997-11-06 2000-08-29 Intertrust Technologies Corporation Systems and methods for matching, selecting, narrowcasting, and/or classifying based on rights management and/or other information
US6160986A (en) * 1998-04-16 2000-12-12 Creator Ltd Interactive toy
US6144938A (en) * 1998-05-01 2000-11-07 Sun Microsystems, Inc. Voice user interface with personality
US6243680B1 (en) * 1998-06-15 2001-06-05 Nortel Networks Limited Method and apparatus for obtaining a transcription of phrases through text and spoken utterances
US6260016B1 (en) * 1998-11-25 2001-07-10 Matsushita Electric Industrial Co., Ltd. Speech synthesis employing prosody templates
US6598020B1 (en) * 1999-09-10 2003-07-22 International Business Machines Corporation Adaptive emotion and initiative generator for conversational systems
US6446056B1 (en) * 1999-09-10 2002-09-03 Yamaha Hatsudoki Kabushiki Kaisha Interactive artificial intelligence
JP2001154681A (ja) * 1999-11-30 2001-06-08 Sony Corp 音声処理装置および音声処理方法、並びに記録媒体

Also Published As

Publication number Publication date
US7379871B2 (en) 2008-05-27
JP2001188553A (ja) 2001-07-10
EP1113417A2 (en) 2001-07-04
US20010021907A1 (en) 2001-09-13
DE60035848D1 (de) 2007-09-20
EP1113417A3 (en) 2001-12-05
DE60035848T2 (de) 2008-05-21
EP1113417B1 (en) 2007-08-08

Similar Documents

Publication Publication Date Title
JP4465768B2 (ja) 音声合成装置および方法、並びに記録媒体
US7065490B1 (en) Voice processing method based on the emotion and instinct states of a robot
TW586056B (en) Robot control device, robot control method, and recording medium
JP4150198B2 (ja) 音声合成方法、音声合成装置、プログラム及び記録媒体、並びにロボット装置
US20020198717A1 (en) Method and apparatus for voice synthesis and robot apparatus
JP6342428B2 (ja) 音声合成装置、音声合成方法およびプログラム
JP2003271174A (ja) 音声合成方法、音声合成装置、プログラム及び記録媒体、制約情報生成方法及び装置、並びにロボット装置
JP2002358095A (ja) 音声処理装置および音声処理方法、並びにプログラムおよび記録媒体
JP2002268699A (ja) 音声合成装置及び音声合成方法、並びにプログラムおよび記録媒体
KR100879417B1 (ko) 음성 출력 장치
US6865535B2 (en) Synchronization control apparatus and method, and recording medium
KR20030007866A (ko) 단어열 출력 장치
WO1999032203A1 (en) A standalone interactive toy
WO2020116356A1 (ja) ロボット、音声合成プログラム、及び音声出力方法
JP2003271172A (ja) 音声合成方法、音声合成装置、プログラム及び記録媒体、並びにロボット装置
JP2002258886A (ja) 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体
JP2001188788A (ja) 会話処理装置および方法、並びに記録媒体
JP2002311981A (ja) 自然言語処理装置および自然言語処理方法、並びにプログラムおよび記録媒体
JP3742206B2 (ja) 音声合成方法及び装置
JP4656354B2 (ja) 音声処理装置および音声処理方法、並びに記録媒体
JP2002304187A (ja) 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体
JP2002318590A (ja) 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体
US20190392814A1 (en) Voice dialogue method and voice dialogue apparatus
JP2020190587A (ja) ロボットの制御装置、ロボット、ロボットの制御方法及びプログラム
JP2019168623A (ja) 対話装置、ロボット、対話制御方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060301

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090514

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090713

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100202

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100215

R151 Written notification of patent or utility model registration

Ref document number: 4465768

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130305

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130305

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140305

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term