JP2002268699A - 音声合成装置及び音声合成方法、並びにプログラムおよび記録媒体 - Google Patents

音声合成装置及び音声合成方法、並びにプログラムおよび記録媒体

Info

Publication number
JP2002268699A
JP2002268699A JP2001066376A JP2001066376A JP2002268699A JP 2002268699 A JP2002268699 A JP 2002268699A JP 2001066376 A JP2001066376 A JP 2001066376A JP 2001066376 A JP2001066376 A JP 2001066376A JP 2002268699 A JP2002268699 A JP 2002268699A
Authority
JP
Japan
Prior art keywords
information
sound
sound quality
unit
synthesis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001066376A
Other languages
English (en)
Other versions
JP2002268699A5 (ja
Inventor
Nobuhide Yamazaki
信英 山崎
Kenichiro Kobayashi
賢一郎 小林
Koji Asano
康治 浅野
Shinichi Kariya
真一 狩谷
Yaeko Fujita
八重子 藤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2001066376A priority Critical patent/JP2002268699A/ja
Priority to PCT/JP2002/002176 priority patent/WO2002073594A1/ja
Priority to CN02801122A priority patent/CN1461463A/zh
Priority to EP02702830A priority patent/EP1367563A4/en
Priority to KR1020027014932A priority patent/KR20020094021A/ko
Priority to US10/275,325 priority patent/US20030163320A1/en
Publication of JP2002268699A publication Critical patent/JP2002268699A/ja
Publication of JP2002268699A5 publication Critical patent/JP2002268699A5/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Abstract

(57)【要約】 【課題】 感情の状態に応じて音質を変えた合成音を生
成することにより、感情豊かな合成音を得る。 【解決手段】 パラメータ生成部43は、ペットロボッ
トの感情の状態を表す状態情報に基づいて、変換パラメ
ータと合成制御パラメータを生成する。データ変換部4
4は、音声情報としての音素片データの周波数特性を変
換する。波形生成部42は、テキスト解析結果に含まれ
る音韻情報に基づいて、必要な音素片データを得て、そ
の音素片データを、韻律情報と合成制御パラメータに基
づいて加工しながら接続し、対応する韻律と音質の合成
音データを生成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声合成装置およ
び音声合成方法、並びにプログラムおよび記録媒体に関
し、特に、例えば、感情豊かな合成音を生成することが
できるようにする音声合成装置および音声合成方法、並
びにプログラムおよび記録媒体に関する。
【0002】
【従来の技術】従来の音声合成装置においては、テキス
トや発音記号を与えることによって、対応する合成音が
生成される。
【0003】
【発明が解決しようとする課題】ところで、最近、例え
ば、ペット型のペットロボット等として、音声合成装置
を搭載し、ユーザに話しかけるものが提案されている。
【0004】さらに、ペットロボットとしては、感情の
状態を表す感情モデルを取り入れ、その感情モデルが表
す感情の状態に応じて、ユーザの命令に従ったり、従わ
なかったりするものも提案されている。
【0005】従って、感情モデルに応じて、例えば、合
成音の音質を変化させることができれば、感情に応じた
音質の合成音が出力され、ペットロボットのエンタテイ
メント性を向上させることができると考えられる。
【0006】本発明は、このような状況に鑑みてなされ
たものであり、感情の状態に応じて音質を変えた合成音
を生成することにより、感情豊かな合成音を得ることが
できるようにするものである。
【0007】
【課題を解決するための手段】本発明の音声合成装置
は、所定の情報のうち、合成音の音質に影響する音質影
響情報を、外部から供給される、感情の状態を表す状態
情報に基づいて生成する音質影響情報生成手段と、音質
影響情報を用いて、音質を制御した合成音を生成する音
声合成手段とを備えることを特徴とする。
【0008】本発明の音声合成方法は、所定の情報のう
ち、合成音の音質に影響する音質影響情報を、外部から
供給される、感情の状態を表す状態情報に基づいて生成
する音質影響情報生成ステップと、音質影響情報を用い
て、音質を制御した合成音を生成する音声合成ステップ
とを備えることを特徴とする。
【0009】本発明のプログラムは、所定の情報のう
ち、合成音の音質に影響する音質影響情報を、外部から
供給される、感情の状態を表す状態情報に基づいて生成
する音質影響情報生成ステップと、音質影響情報を用い
て、音質を制御した合成音を生成する音声合成ステップ
とを備えることを特徴とする。
【0010】本発明の記録媒体は、所定の情報のうち、
合成音の音質に影響する音質影響情報を、外部から供給
される、感情の状態を表す状態情報に基づいて生成する
音質影響情報生成ステップと、音質影響情報を用いて、
音質を制御した合成音を生成する音声合成ステップとを
備えるプログラムが記録されていることを特徴とする。
【0011】本発明の音声合成装置および音声合成方
法、並びにプログラムにおいては、所定の情報のうち、
合成音の音質に影響する音質影響情報が、外部から供給
される、感情の状態を表す状態情報に基づいて生成さ
れ、その音質影響情報を用いて、音質を制御した合成音
が生成される。
【0012】
【発明の実施の形態】図1は、本発明を適用したロボッ
トの一実施の形態の外観構成例を示しており、図2は、
その電気的構成例を示している。
【0013】本実施の形態では、ロボットは、例えば、
犬等の四つ足の動物の形状のものとなっており、胴体部
ユニット2の前後左右に、それぞれ脚部ユニット3A,
3B,3C,3Dが連結されるとともに、胴体部ユニッ
ト2の前端部と後端部に、それぞれ頭部ユニット4と尻
尾部ユニット5が連結されることにより構成されてい
る。
【0014】尻尾部ユニット5は、胴体部ユニット2の
上面に設けられたベース部5Bから、2自由度をもって
湾曲または揺動自在に引き出されている。
【0015】胴体部ユニット2には、ロボット全体の制
御を行うコントローラ10、ロボットの動力源となるバ
ッテリ11、並びにバッテリセンサ12および熱センサ
13からなる内部センサ部14などが収納されている。
【0016】頭部ユニット4には、「耳」に相当するマ
イク(マイクロフォン)15、「目」に相当するCCD
(Charge Coupled Device)カメラ16、触覚に相当する
タッチセンサ17、「口」に相当するスピーカ18など
が、それぞれ所定位置に配設されている。また、頭部ユ
ニット4には、口の下顎に相当する下顎部4Aが1自由
度をもって可動に取り付けられており、この下顎部4A
が動くことにより、ロボットの口の開閉動作が実現され
るようになっている。
【0017】脚部ユニット3A乃至3Dそれぞれの関節
部分や、脚部ユニット3A乃至3Dそれぞれと胴体部ユ
ニット2の連結部分、頭部ユニット4と胴体部ユニット
2の連結部分、頭部ユニット4と下顎部4Aの連結部
分、並びに尻尾部ユニット5と胴体部ユニット2の連結
部分などには、図2に示すように、それぞれアクチュエ
ータ3AA1乃至3AAK、3BA1乃至3BAK、3CA
1乃至3CAK、3DA1乃至3DAK、4A1乃至4AL
5A1および5A2が配設されている。
【0018】頭部ユニット4におけるマイク15は、ユ
ーザからの発話を含む周囲の音声(音)を集音し、得ら
れた音声信号を、コントローラ10に送出する。CCD
カメラ16は、周囲の状況を撮像し、得られた画像信号
を、コントローラ10に送出する。
【0019】タッチセンサ17は、例えば、頭部ユニッ
ト4の上部に設けられており、ユーザからの「なでる」
や「たたく」といった物理的な働きかけにより受けた圧
力を検出し、その検出結果を圧力検出信号としてコント
ローラ10に送出する。
【0020】胴体部ユニット2におけるバッテリセンサ
12は、バッテリ11の残量を検出し、その検出結果
を、バッテリ残量検出信号としてコントローラ10に送
出する。熱センサ13は、ロボット内部の熱を検出し、
その検出結果を、熱検出信号としてコントローラ10に
送出する。
【0021】コントローラ10は、CPU(Central Pro
cessing Unit)10Aやメモリ10B等を内蔵してお
り、CPU10Aにおいて、メモリ10Bに記憶された
制御プログラムが実行されることにより、各種の処理を
行う。
【0022】即ち、コントローラ10は、マイク15
や、CCDカメラ16、タッチセンサ17、バッテリセ
ンサ12、熱センサ13から与えられる音声信号、画像
信号、圧力検出信号、バッテリ残量検出信号、熱検出信
号に基づいて、周囲の状況や、ユーザからの指令、ユー
ザからの働きかけなどの有無を判断する。
【0023】さらに、コントローラ10は、この判断結
果等に基づいて、続く行動を決定し、その決定結果に基
づいて、アクチュエータ3AA1乃至3AAK、3BA1
乃至3BAK、3CA1乃至3CAK、3DA1乃至3DA
K、4A1乃至4AL、5A1、5A2のうちの必要なもの
を駆動させる。これにより、頭部ユニット4を上下左右
に振らせたり、下顎部4Aを開閉させる。さらには、尻
尾部ユニット5を動かせたり、各脚部ユニット3A乃至
3Dを駆動して、ロボットを歩行させるなどの行動を行
わせる。
【0024】また、コントローラ10は、必要に応じ
て、合成音を生成し、スピーカ18に供給して出力させ
たり、ロボットの「目」の位置に設けられた図示しない
LED(Light Emitting Diode)を点灯、消灯または点
滅させる。
【0025】以上のようにして、ロボットは、周囲の状
況等に基づいて自律的に行動をとるようになっている。
【0026】次に、図3は、図2のコントローラ10の
機能的構成例を示している。なお、図3に示す機能的構
成は、CPU10Aが、メモリ10Bに記憶された制御
プログラムを実行することで実現されるようになってい
る。
【0027】コントローラ10は、特定の外部状態を認
識するセンサ入力処理部50、センサ入力処理部50の
認識結果を累積して、感情や、本能、成長の状態を表現
するモデル記憶部51、センサ入力処理部50の認識結
果等に基づいて、続く行動を決定する行動決定機構部5
2、行動決定機構部52の決定結果に基づいて、実際に
ロボットに行動を起こさせる姿勢遷移機構部53、各ア
クチュエータ3AA1乃至5A1および5A2を駆動制御
する制御機構部54、並びに合成音を生成する音声合成
部55から構成されている。
【0028】センサ入力処理部50は、マイク15や、
CCDカメラ16、タッチセンサ17等から与えられる
音声信号、画像信号、圧力検出信号等に基づいて、特定
の外部状態や、ユーザからの特定の働きかけ、ユーザか
らの指示等を認識し、その認識結果を表す状態認識情報
を、モデル記憶部51および行動決定機構部52に通知
する。
【0029】即ち、センサ入力処理部50は、音声認識
部50Aを有しており、音声認識部50Aは、マイク1
5から与えられる音声信号について音声認識を行う。そ
して、音声認識部50Aは、その音声認識結果として
の、例えば、「歩け」、「伏せ」、「ボールを追いかけ
ろ」等の指令その他を、状態認識情報として、モデル記
憶部51および行動決定機構部52に通知する。
【0030】また、センサ入力処理部50は、画像認識
部50Bを有しており、画像認識部50Bは、CCDカ
メラ16から与えられる画像信号を用いて、画像認識処
理を行う。そして、画像認識部50Bは、その処理の結
果、例えば、「赤い丸いもの」や、「地面に対して垂直
なかつ所定高さ以上の平面」等を検出したときには、
「ボールがある」や、「壁がある」等の画像認識結果
を、状態認識情報として、モデル記憶部51および行動
決定機構部52に通知する。
【0031】さらに、センサ入力処理部50は、圧力処
理部50Cを有しており、圧力処理部50Cは、タッチ
センサ17から与えられる圧力検出信号を処理する。そ
して、圧力処理部50Cは、その処理の結果、所定の閾
値以上で、かつ短時間の圧力を検出したときには、「た
たかれた(しかられた)」と認識し、所定の閾値未満
で、かつ長時間の圧力を検出したときには、「なでられ
た(ほめられた)」と認識して、その認識結果を、状態
認識情報として、モデル記憶部51および行動決定機構
部52に通知する。
【0032】モデル記憶部51は、ロボットの感情、本
能、成長の状態を表現する感情モデル、本能モデル、成
長モデルをそれぞれ記憶、管理している。
【0033】ここで、感情モデルは、例えば、「うれし
さ」、「悲しさ」、「怒り」、「楽しさ」等の感情の状
態(度合い)を、所定の範囲(例えば、−1.0乃至
1.0等)の値によってそれぞれ表し、センサ入力処理
部50からの状態認識情報や時間経過等に基づいて、そ
の値を変化させる。本能モデルは、例えば、「食欲」、
「睡眠欲」、「運動欲」等の本能による欲求の状態(度
合い)を、所定の範囲の値によってそれぞれ表し、セン
サ入力処理部50からの状態認識情報や時間経過等に基
づいて、その値を変化させる。成長モデルは、例えば、
「幼年期」、「青年期」、「熟年期」、「老年期」等の
成長の状態(度合い)を、所定の範囲の値によってそれ
ぞれ表し、センサ入力処理部50からの状態認識情報や
時間経過等に基づいて、その値を変化させる。
【0034】モデル記憶部51は、上述のようにして感
情モデル、本能モデル、成長モデルの値で表される感
情、本能、成長の状態を、状態情報として、行動決定機
構部52に送出する。
【0035】なお、モデル記憶部51には、センサ入力
処理部50から状態認識情報が供給される他、行動決定
機構部52から、ロボットの現在または過去の行動、具
体的には、例えば、「長時間歩いた」などの行動の内容
を示す行動情報が供給されるようになっており、モデル
記憶部51は、同一の状態認識情報が与えられても、行
動情報が示すロボットの行動に応じて、異なる状態情報
を生成するようになっている。
【0036】即ち、例えば、ロボットが、ユーザに挨拶
をし、ユーザに頭を撫でられた場合には、ユーザに挨拶
をしたという行動情報と、頭を撫でられたという状態認
識情報とが、モデル記憶部51に与えられ、この場合、
モデル記憶部51では、「うれしさ」を表す感情モデル
の値が増加される。
【0037】一方、ロボットが、何らかの仕事を実行中
に頭を撫でられた場合には、仕事を実行中であるという
行動情報と、頭を撫でられたという状態認識情報とが、
モデル記憶部51に与えられ、この場合、モデル記憶部
51では、「うれしさ」を表す感情モデルの値は変化さ
れない。
【0038】このように、モデル記憶部51は、状態認
識情報だけでなく、現在または過去のロボットの行動を
示す行動情報も参照しながら、感情モデルの値を設定す
る。これにより、例えば、何らかのタスクを実行中に、
ユーザが、いたずらするつもりで頭を撫でたときに、
「うれしさ」を表す感情モデルの値を増加させるよう
な、不自然な感情の変化が生じることを回避することが
できる。
【0039】なお、モデル記憶部51は、本能モデルお
よび成長モデルについても、感情モデルにおける場合と
同様に、状態認識情報および行動情報の両方に基づい
て、その値を増減させるようになっている。また、モデ
ル記憶部51は、感情モデル、本能モデル、成長モデル
それぞれの値を、他のモデルの値にも基づいて増減させ
るようになっている。
【0040】行動決定機構部52は、センサ入力処理部
50からの状態認識情報や、モデル記憶部51からの状
態情報、時間経過等に基づいて、次の行動を決定し、決
定された行動の内容を、行動指令情報として、姿勢遷移
機構部53に送出する。
【0041】即ち、行動決定機構部52は、ロボットが
とり得る行動をステート(状態)(state)に対応させた
有限オートマトンを、ロボットの行動を規定する行動モ
デルとして管理しており、この行動モデルとしての有限
オートマトンにおけるステートを、センサ入力処理部5
0からの状態認識情報や、モデル記憶部51における感
情モデル、本能モデル、または成長モデルの値、時間経
過等に基づいて遷移させ、遷移後のステートに対応する
行動を、次にとるべき行動として決定する。
【0042】ここで、行動決定機構部52は、所定のト
リガ(trigger)があったことを検出すると、ステートを
遷移させる。即ち、行動決定機構部52は、例えば、現
在のステートに対応する行動を実行している時間が所定
時間に達したときや、特定の状態認識情報を受信したと
き、モデル記憶部51から供給される状態情報が示す感
情や、本能、成長の状態の値が所定の閾値以下または以
上になったとき等に、ステートを遷移させる。
【0043】なお、行動決定機構部52は、上述したよ
うに、センサ入力処理部50からの状態認識情報だけで
なく、モデル記憶部51における感情モデルや、本能モ
デル、成長モデルの値等にも基づいて、行動モデルにお
けるステートを遷移させることから、同一の状態認識情
報が入力されても、感情モデルや、本能モデル、成長モ
デルの値(状態情報)によっては、ステートの遷移先は
異なるものとなる。
【0044】その結果、行動決定機構部52は、例え
ば、状態情報が、「怒っていない」こと、および「お腹
がすいていない」ことを表している場合において、状態
認識情報が、「目の前に手のひらが差し出された」こと
を表しているときには、目の前に手のひらが差し出され
たことに応じて、「お手」という行動をとらせる行動指
令情報を生成し、これを、姿勢遷移機構部53に送出す
る。
【0045】また、行動決定機構部52は、例えば、状
態情報が、「怒っていない」こと、および「お腹がすい
ている」ことを表している場合において、状態認識情報
が、「目の前に手のひらが差し出された」ことを表して
いるときには、目の前に手のひらが差し出されたことに
応じて、「手のひらをぺろぺろなめる」ような行動を行
わせるための行動指令情報を生成し、これを、姿勢遷移
機構部53に送出する。
【0046】また、行動決定機構部52は、例えば、状
態情報が、「怒っている」ことを表している場合におい
て、状態認識情報が、「目の前に手のひらが差し出され
た」ことを表しているときには、状態情報が、「お腹が
すいている」ことを表していても、また、「お腹がすい
ていない」ことを表していても、「ぷいと横を向く」よ
うな行動を行わせるための行動指令情報を生成し、これ
を、姿勢遷移機構部53に送出する。
【0047】なお、行動決定機構部52には、モデル記
憶部51から供給される状態情報が示す感情や、本能、
成長の状態に基づいて、遷移先のステートに対応する行
動のパラメータとしての、例えば、歩行の速度や、手足
を動かす際の動きの大きさおよび速度などを決定させる
ことができ、この場合、それらのパラメータを含む行動
指令情報が、姿勢遷移機構部53に送出される。
【0048】また、行動決定機構部52では、上述した
ように、ロボットの頭部や手足等を動作させる行動指令
情報の他、ロボットに発話を行わせる行動指令情報も生
成される。ロボットに発話を行わせる行動指令情報は、
音声合成部55に供給されるようになっている。この、
音声合成部55に供給される行動指令情報には、音声合
成部55に生成させる合成音に対応するテキスト等が含
まれる。そして、音声合成部55は、行動決定部52か
ら行動指令情報を受信すると、その行動指令情報に含ま
れるテキストに基づき、合成音を生成し、スピーカ18
に供給して出力させる。これにより、スピーカ18から
は、例えば、ロボットの鳴き声、さらには、「お腹がす
いた」等のユーザへの各種の要求、「何?」等のユーザ
の呼びかけに対する応答その他の音声出力が行われる。
ここで、音声合成部55には、モデル記憶部51から状
態情報も供給されるようになっており、音声合成部55
は、この状態情報が示す感情の状態に基づいて音質を制
御した合成音を生成することが可能となっている。な
お、音声合成部55では、感情の他、本能や成長の状態
に基づいて音質を制御した合成音を生成することも可能
である。
【0049】姿勢遷移機構部53は、行動決定機構部5
2から供給される行動指令情報に基づいて、ロボットの
姿勢を、現在の姿勢から次の姿勢に遷移させるための姿
勢遷移情報を生成し、これを制御機構部54に送出す
る。
【0050】ここで、現在の姿勢から次に遷移可能な姿
勢は、例えば、胴体や手や足の形状、重さ、各部の結合
状態のようなロボットの物理的形状と、関節が曲がる方
向や角度のようなアクチュエータ3AA1乃至5A1およ
び5A2の機構とによって決定される。
【0051】また、次の姿勢としては、現在の姿勢から
直接遷移可能な姿勢と、直接には遷移できない姿勢とが
ある。例えば、4本足のロボットは、手足を大きく投げ
出して寝転んでいる状態から、伏せた状態へ直接遷移す
ることはできるが、立った状態へ直接遷移することはで
きず、一旦、手足を胴体近くに引き寄せて伏せた姿勢に
なり、それから立ち上がるという2段階の動作が必要で
ある。また、安全に実行できない姿勢も存在する。例え
ば、4本足のロボットは、その4本足で立っている姿勢
から、両前足を挙げてバンザイをしようとすると、簡単
に転倒してしまう。
【0052】このため、姿勢遷移機構部53は、直接遷
移可能な姿勢をあらかじめ登録しておき、行動決定機構
部52から供給される行動指令情報が、直接遷移可能な
姿勢を示す場合には、その行動指令情報を、そのまま姿
勢遷移情報として、制御機構部54に送出する。一方、
行動指令情報が、直接遷移不可能な姿勢を示す場合に
は、姿勢遷移機構部53は、遷移可能な他の姿勢に一旦
遷移した後に、目的の姿勢まで遷移させるような姿勢遷
移情報を生成し、制御機構部54に送出する。これによ
りロボットが、遷移不可能な姿勢を無理に実行しようと
する事態や、転倒するような事態を回避することができ
るようになっている。
【0053】制御機構部54は、姿勢遷移機構部53か
らの姿勢遷移情報にしたがって、アクチュエータ3AA
1乃至5A1および5A2を駆動するための制御信号を生
成し、これを、アクチュエータ3AA1乃至5A1および
5A2に送出する。これにより、アクチュエータ3AA1
乃至5A1および5A2は、制御信号にしたがって駆動
し、ロボットは、自律的に行動を起こす。
【0054】次に、図4は、図3の音声認識部50Aの
構成例を示している。
【0055】マイク15からの音声信号は、AD(Analo
g Digital)変換部21に供給される。AD変換部21で
は、マイク15からのアナログ信号である音声信号がサ
ンプリング、量子化され、ディジタル信号である音声デ
ータにA/D変換される。この音声データは、特徴抽出
部22および音声区間検出部27に供給される。
【0056】特徴抽出部22は、そこに入力される音声
データについて、適当なフレームごとに、例えば、MF
CC(Mel Frequency Cepstrum Coefficient)分析を行
い、その分析の結果得られるMFCCを、特徴パラメー
タ(特徴ベクトル)として、マッチング部23に出力す
る。なお、特徴抽出部22では、その他、例えば、線形
予測係数、ケプストラム係数、線スペクトル対、所定の
周波数帯域ごとのパワー(フィルタバンクの出力)等
を、特徴パラメータとして抽出することが可能である。
【0057】マッチング部23は、特徴抽出部22から
の特徴パラメータを用いて、音響モデル記憶部24、辞
書記憶部25、および文法記憶部26を必要に応じて参
照しながら、マイク15に入力された音声(入力音声)
を、例えば、連続分布HMM(Hidden Markov Model)法
に基づいて音声認識する。
【0058】即ち、音響モデル記憶部24は、音声認識
する音声の言語における個々の音素や音節などの音響的
な特徴を表す音響モデルを記憶している。ここでは、連
続分布HMM法に基づいて音声認識を行うので、音響モ
デルとしては、HMM(Hidden Markov Model)が用いら
れる。辞書記憶部25は、認識対象の各単語について、
その発音に関する情報(音韻情報)が記述された単語辞
書を記憶している。文法記憶部26は、辞書記憶部25
の単語辞書に登録されている各単語が、どのように連鎖
する(つながる)かを記述した文法規則を記憶してい
る。ここで、文法規則としては、例えば、文脈自由文法
(CFG)や、統計的な単語連鎖確率(N−gram)
などに基づく規則を用いることができる。
【0059】マッチング部23は、辞書記憶部25の単
語辞書を参照することにより、音響モデル記憶部24に
記憶されている音響モデルを接続することで、単語の音
響モデル(単語モデル)を構成する。さらに、マッチン
グ部23は、幾つかの単語モデルを、文法記憶部26に
記憶された文法規則を参照することにより接続し、その
ようにして接続された単語モデルを用いて、特徴パラメ
ータに基づき、連続分布HMM法によって、マイク15
に入力された音声を認識する。即ち、マッチング部23
は、特徴抽出部22が出力する時系列の特徴パラメータ
が観測されるスコア(尤度)が最も高い単語モデルの系
列を検出し、その単語モデルの系列に対応する単語列の
音韻情報(読み)を、音声の認識結果として出力する。
【0060】より具体的には、マッチング部23は、接
続された単語モデルに対応する単語列について、各特徴
パラメータの出現(出力)確率を累積し、その累積値を
スコアとして、そのスコアを最も高くする単語列の音韻
情報を、音声認識結果として出力する。
【0061】以上のようにして出力される、マイク15
に入力された音声の認識結果は、状態認識情報として、
モデル記憶部51および行動決定機構部52に出力され
る。
【0062】なお、音声区間検出部27は、AD変換部
21からの音声データについて、例えば、特徴抽出部2
2がMFCC分析を行うのと同様のフレームごとに、パ
ワーを算出している。さらに、音声区間検出部27は、
各フレームのパワーを、所定の閾値と比較し、その閾値
以上のパワーを有するフレームで構成される区間を、ユ
ーザの音声が入力されている音声区間として検出する。
そして、音声区間検出部27は、検出した音声区間を、
特徴抽出部22とマッチング部23に供給しており、特
徴抽出部22とマッチング部23は、音声区間のみを対
象に処理を行う。
【0063】次に、図5は、図3の音声合成部55の構
成例を示している。
【0064】テキスト解析部31には、行動決定機構部
52が出力する、音声合成の対象とするテキストを含む
行動指令情報が供給されるようになっており、テキスト
解析部31は、辞書記憶部34や生成用文法記憶部35
を参照しながら、その行動指令情報に含まれるテキスト
を解析する。
【0065】即ち、辞書記憶部34には、各単語の品詞
情報や、読み、アクセント等の情報が記述された単語辞
書が記憶されており、また、生成用文法記憶部35に
は、辞書記憶部34の単語辞書に記述された単語につい
て、単語連鎖に関する制約等の生成用文法規則が記憶さ
れている。そして、テキスト解析部31は、この単語辞
書および生成用文法規則に基づいて、そこに入力される
テキストの形態素解析や構文解析等のテキスト解析(言
語解析)を行い、後段の規則合成部32で行われる規則
音声合成に必要な情報を抽出する。ここで、規則音声合
成に必要な情報としては、例えば、ポーズの位置や、ア
クセント、イントネーション、パワー等を制御するため
の韻律情報、各単語の発音を表す音韻情報などがある。
【0066】テキスト解析部31で得られた情報は、規
則合成部32に供給され、規則合成部32は、音声情報
記憶部36を参照しながら、テキスト解析部31に入力
されたテキストに対応する合成音の音声データ(ディジ
タルデータ)を生成する。
【0067】即ち、音声情報記憶部36には、例えば、
CV(Consonant, Vowel)や、VCV、CVC、1ピッチ
等の波形データの形で音素片データが、音声情報として
記憶されており、規則合成部32は、テキスト解析部3
1からの情報に基づいて、必要な音素片データを接続
し、さらに、音素片データの波形を加工することによっ
て、ポーズ、アクセント、イントネーション等を適切に
付加し、これにより、テキスト解析部31に入力された
テキストに対応する合成音の音声データ(合成音デー
タ)を生成する。あるいは、また、音声情報記憶部36
には、例えば、線形予測係数(LPC(Liner Prediction C
oefficients))や、ケプストラム(cepstrum)係数等とい
った波形データを音響分析することにより得られる音声
の特徴パラメータが、音声情報として記憶されており、
規則合成部32は、テキスト解析部31からの情報に基
づいて、必要な特徴パラメータを、音声合成用の合成フ
ィルタのタップ係数として用い、さらに、その合成フィ
ルタに与える駆動信号を出力する音源等を制御すること
によって、ポーズ、アクセント、イントネーション等を
適切に付加し、これにより、テキスト解析部31に入力
されたテキストに対応する合成音の音声データ(合成音
データ)を生成する。
【0068】さらに、規則合成部32には、モデル記憶
部51から状態情報が供給されるようになっており、規
則合成部32は、その状態情報のうちの、例えば、感情
モデルの値に基づいて、音声情報記憶部36に記憶され
た音声情報から、その音質を制御したものを生成し、あ
るいは、規則音声合成を制御する各種の合成制御パラメ
ータを生成することによって、音質を制御した合成音デ
ータを生成する。
【0069】以上のようにして生成された合成音データ
は、スピーカ18に供給され、これにより、スピーカ1
8からは、テキスト解析部31に入力されたテキストに
対応する合成音が、感情に応じて音質を制御して出力さ
れる。
【0070】なお、図3の行動決定機構部52では、上
述したように、行動モデルに基づいて、次の行動が決定
されるが、合成音として出力するテキストの内容は、ロ
ボットの行動と対応付けておくことが可能である。
【0071】即ち、例えば、ロボットが、座った状態か
ら、立った状態になる行動には、テキスト「よっこいし
ょ」などを対応付けておくことが可能である。この場
合、ロボットが、座っている姿勢から、立つ姿勢に移行
するときに、その姿勢の移行に同期して、合成音「よっ
こいしょ」を出力することが可能となる。
【0072】次に、図6は、図5の規則合成部32の構
成例を示している。
【0073】韻律生成部41には、テキスト解析部31
(図5)によるテキスト解析結果が供給され、韻律生成
部41は、そのテキスト解析結果に基づいて、合成音の
韻律を制御する韻律情報を生成する。韻律生成部41で
生成された韻律情報は、波形生成部42に供給される。
ここで、韻律制御部41では、合成音を構成する各音韻
の継続時間長、合成音のピッチ周期の時間変化パターン
を表す周期パターン信号、合成音のパワーの時間変化パ
ターンを表すパワーパターン信号等が、韻律情報として
生成される。
【0074】波形生成部42には、上述したように、韻
律情報が供給される他、テキスト解析部31(図5)に
よるテキスト解析結果が供給される。さらに、波形生成
部42には、パラメータ生成部43から合成制御パラメ
ータが供給される。波形生成部42は、テキスト解析結
果に含まれる音韻情報にしたがって、必要な変換音声情
報を、変換音声情報記憶部45から読み出し、その変換
音声情報を用いて規則音声合成を行うことにより、合成
音を生成する。さらに、波形生成部42は、規則音声合
成を行う際、韻律生成部41からの韻律情報と、パラメ
ータ生成部43からの合成制御パラメータに基づいて、
合成音データの波形を調整することにより、合成音の韻
律と音質を制御する。そして、波形生成部42は、最終
的に得られた合成音データを出力する。
【0075】パラメータ生成部43には、モデル記憶部
51(図3)から状態情報が供給されるようになってい
る。パラメータ生成部43は、その状態情報のうちの感
情モデルに基づいて、波形生成部42における規則音声
合成を制御するための合成制御パラメータや、音声情報
記憶部36(図5)に記憶された音声情報を変換する変
換パラメータを生成する。
【0076】即ち、パラメータ生成部43は、例えば、
感情モデルとしての「うれしさ」、「悲しさ」、「怒
り」、「楽しさ」、「興奮」、「眠い」、「心地よ
い」、「不快」等の感情の状態を表す値(以下、適宜、
感情モデル値という)に、合成制御パラメータと変換パ
ラメータを対応付けた変換テーブルを記憶しており、そ
の変換テーブルにおいて、モデル記憶部51からの状態
情報における感情モデルの値に対応付けられている合成
制御パラメータと変換パラメータを出力する。
【0077】なお、パラメータ生成部43が記憶してい
る変換テーブルは、ペットロボットの感情の状態を表す
音質の合成音が得られるように、感情モデル値と、合成
制御パラメータおよび変換パラメータとを対応付けて構
成されている。感情モデル値と、合成制御パラメータお
よび変換パラメータとを、どのように対応付けるかは、
例えば、シミュレーションを行うことによって決定する
ことができる。
【0078】さらに、ここでは、変換テーブルを用い
て、感情モデル値から、合成制御パラメータおよび変換
パラメータを得るようにしたが、その他、合成制御パラ
メータおよび変換パラメータは、例えば、次のようにし
て得ることも可能である。
【0079】即ち、例えば、ある感情#nの感情モデル
値をPnと、ある合成制御パラメータまたは変換パラメ
ータをQiと、所定の関数をfi,n()と、それぞれ表す
とき、合成制御パラメータまたは変換パラメータQ
iは、式Qi=Σfi,n(Pn)を計算することによって求
めることが可能である。但し、Σは、変数nについての
サメーションを表す。
【0080】また、上述の場合には、「うれしさ」、
「悲しさ」、「怒り」、「楽しさ」等のすべての感情モ
デル値を考慮した変換テーブルを用いるようにしたが、
その他、例えば、次のような簡略化した変換テーブルを
用いることも可能である。
【0081】即ち、感情の状態を、例えば、「定常」、
「悲しさ」、「怒り」、「楽しさ」等のいずれかのみに
分類し、各感情に、ユニークな番号としての感情番号を
付しておく。即ち、例えば、「定常」、「悲しさ」、
「怒り」、「楽しさ」に、それぞれ0,1,2,3等の
感情番号を、それぞれ付しておく。そして、このような
感情番号と、合成制御パラメータおよび変換パラメータ
とを対応付けた変換テーブルを作成する。なお、このよ
うな変換テーブルを用いる場合には、感情モデル値か
ら、感情の状態を、「うれしさ」、「悲しさ」、「怒
り」、「楽しさ」のいずれかに分類する必要があるが、
これは、次のようにして行うことが可能である。即ち、
例えば、複数の感情モデル値のうち、最も大きい感情モ
デル値と、2番目に大きい感情モデル値との差が、所定
の閾値以上の場合は、最も大きい感情モデル値に対応す
る感情の状態に分類し、そうでない場合は、「定常」の
状態に分類すればよい。
【0082】ここで、パラメータ生成部43において生
成される合成制御パラメータには、例えば、有声音や無
声摩擦音、破裂音等の各音の音量バランスを調整するパ
ラメータ、波形生成部42における音源としての、後述
する駆動信号生成部60(図8)の出力信号の振幅ゆら
ぎの大きさを制御するパラメータ、音源の周波数を制御
するパラメータ等の合成音の音質に影響するパラメータ
が含まれる。
【0083】また、パラメータ生成部43において生成
される変換パラメータは、合成音を構成する波形データ
の特性を変更するように、音声情報記憶部36(図5)
の音声情報を変換するためのものである。
【0084】パラメータ生成部43が生成する合成制御
パラメータは、波形生成部42に供給され、変換パラメ
ータは、データ変換部44に供給されるようになってい
る。データ変換部44は、音声情報記憶部36から音声
情報を読み出し、変換パラメータにしたがって、音声情
報を変換する。データ変換部44は、これにより、合成
音を構成する波形データの特性を変更させる音声情報と
しての変換音声情報を得て、変換音声情報記憶部45に
供給する。変換音声情報記憶部45は、データ変換部4
4から供給される変換音声情報を記憶する。この変換音
声情報は、波形生成部42によって、必要に応じて読み
出される。
【0085】次に、図7のフローチャートを参照して、
図6の規則合成部32の処理について説明する。
【0086】図5のテキスト解析部31が出力するテキ
スト解析結果は、韻律生成部41と波形生成部42に供
給される。また、図5のモデル記憶部51が出力する状
態情報は、パラメータ生成部43に供給される。
【0087】韻律生成部41は、テキスト解析結果を受
信すると、ステップS1において、テキスト解析結果に
含まれる音韻情報が表す各音韻の継続時間長、周期パタ
ーン信号、パワーパターン信号等の韻律情報を生成し、
波形生成部42に供給して、ステップS2に進む。
【0088】その後、ステップS2では、パラメータ生
成部43は、感情反映モードかどうかを判定する。即
ち、本実施の形態では、感情を反映した音質の合成音を
出力する感情反映モードと、感情を反映しない音質の合
成音を出力する非感情反映モードのうちのいずれかを設
定することができるようになっており、ステップS2で
は、ロボットのモードが感情反映モードとなっているか
どうかが判定される。
【0089】ここで、ロボットには、感情反映モードと
非感情反映モードを設けずに、常に、感情を反映した合
成音を出力させるようにすることも可能である。
【0090】ステップS2において、感情反映モードで
ないと判定された場合、ステップS3およびS4をスキ
ップして、ステップS5に進み、波形生成部42は、合
成音を生成し、処理を終了する。
【0091】即ち、感情反映モードでない場合、パラメ
ータ生成部43は、特に処理を行わず、従って、合成制
御パラメータおよび変換パラメータを生成しない。
【0092】その結果、波形生成部42は、音声情報記
憶部36(図5)に記憶された音声情報を、データ変換
部44および変換音声情報記憶部45を介して読み出
し、その音声情報と、デフォルトの合成制御パラメータ
を用い、韻律生成部41からの韻律情報に対応して韻律
を制御しながら音声合成処理を行う。従って、波形生成
部42では、デフォルトの音質を有する合成音データが
生成される。
【0093】一方、ステップS2において、感情反映モ
ードであると判定された場合、ステップS3に進み、パ
ラメータ生成部43は、モデル記憶部51からの状態情
報のうちの感情モデルに基づいて、合成制御パラメータ
および変換パラメータを生成する。そして、合成制御パ
ラメータは、波形生成部42に供給され、変換パラメー
タは、データ変換部44に供給される。
【0094】その後、ステップS4に進み、データ変換
部44が、パラメータ生成部43からの変換パラメータ
にしたがい、音声情報記憶部36(図5)に記憶された
音声情報を変換する。さらに、データ変換部44は、そ
の変換の結果得られた変換音声情報を、変換音声情報記
憶部45に供給して記憶させる。
【0095】そして、ステップS5に進み、波形生成部
42は、合成音を生成し、処理を終了する。
【0096】即ち、この場合、波形生成部42は、変換
音声情報記憶部45に記憶された音声情報のうちの必要
なもの読み出し、その変換音声情報と、パラメータ生成
部43から供給される合成制御パラメータを用い、韻律
生成部41からの韻律情報に対応して韻律を制御しなが
ら音声合成処理を行う。従って、波形生成部42では、
ロボットの感情の状態に対応する音質を有する合成音デ
ータが生成される。
【0097】以上のように、感情モデル値に基づき、合
成制御パラメータや変換パラメータを生成し、その合成
制御パラメータや、変換パラメータによって音声情報を
変換した変換音声情報を用いて音声合成を行うようにし
たので、感情に応じて、例えば、周波数特性や音量バラ
ンス等といった音質が制御された、感情豊かな合成音を
得ることができる。
【0098】次に、図8は、音声情報記憶部36(図
5)に記憶されている音声情報が、音声の特徴パラメー
タとしての、例えば線形予測係数(LPC)である場合
の、図6の波形生成部42の構成例を示している。
【0099】ここで、線形予測係数は、音声の波形デー
タから求められた自己相関係数を用いたYule-Walkerの
方程式を解く等の、いわゆる線形予測分析を行うことで
得られるが、この線形予測分析は、現在時刻nの音声信
号(のサンプル値)sn、およびこれに隣接する過去の
P個のサンプル値sn-1,sn-2,・・・,sn-Pに、式 sn+α1n-1+α2n-2+・・・+αPn-P=en ・・・(1) で示す線形1次結合が成立すると仮定し、現在時刻nの
サンプル値snの予測値(線形予測値)sn’を、過去の
P個の標本値sn-1,sn-2,・・・,sn-Pを用いて、
式 sn’=−(α1n-1+α2n-2+・・・+αPn-P) ・・・(2) によって線形予測したときに、実際のサンプル値sn
線形予測値sn’との間の自乗誤差を最小にする線形予
測係数αpを求めるものである。
【0100】ここで、式(1)において、{en}(・・
・,en-1,en,en+1,・・・)は、平均値が0で、分散
が所定値σ2の互いに無相関な確率変数である。
【0101】式(1)から、サンプル値snは、式 sn=en−(α1n-1+α2n-2+・・・+αPn-P) ・・・(3) で表すことができ、これを、Z変換すると、次式が成立
する。
【0102】 S=E/(1+α1-1+α2-2+・・・+αP-P) ・・・(4) 但し、式(4)において、SとEは、式(3)における
nとenのZ変換を、それぞれ表す。
【0103】ここで、式(1)および(2)から、en
は、式 en=sn−sn’ ・・・(5) で表すことができ、実際のサンプル値snと線形予測値
n’との間の残差信号と呼ばれる。
【0104】従って、式(4)から、線形予測係数αp
をIIR(Infinife Impulse Response)フィルタのタ
ップ係数とするとともに、残差信号enをIIRフィル
タの駆動信号(入力信号)とすることにより、音声信号
nを求めることができる。
【0105】図8の波形生成部42は、式(4)にした
がって音声信号を生成する音声合成を行うようになって
いる。
【0106】即ち、駆動信号生成部60は、駆動信号と
なる残差信号を生成して出力する。
【0107】ここで、駆動信号生成部60には、韻律情
報、テキスト解析結果、および合成制御パラメータが供
給されるようになっている。そして、駆動信号生成部6
0は、これらの韻律情報、テキスト解析結果、および合
成制御パラメータにしたがい、周期(周波数)や振幅等
を制御した周期的なインパルスと、ホワイトノイズのよ
うな信号とを重畳することにより、合成音に対して、対
応する韻律、音韻、音質(声質)を与える駆動信号を生
成する。なお、周期的なインパルスは、主として有声音
の生成に寄与し、ホワイトノイズのような信号は、主と
して無声音の生成に寄与する。
【0108】図8において、1つの加算器61、P個の
遅延回路(D)621乃至62P、およびP個の乗算器6
1乃至63Pは、音声合成用の合成フィルタとしてのI
IRフィルタを構成しており、駆動信号生成部60から
の駆動信号を音源として、合成音データを生成する。
【0109】即ち、駆動信号生成部60が出力する残差
信号(駆動信号)eは、加算器61を介して、遅延回路
621に供給され、遅延回路62pは、そこへの入力信号
を、残差信号の1サンプル分だけ遅延して、後段の遅延
回路62p+1に出力するとともに、演算器63pに出力す
る。乗算器63pは、遅延回路62pの出力と、そこにセ
ットされた線形予測係数αpとを乗算し、その乗算値
を、加算器61に出力する。
【0110】加算器61は、乗算器631乃至63Pの出
力すべてと、残差信号eとを加算し、その加算結果を、
遅延回路621に供給する他、音声合成結果(合成音デ
ータ)として出力する。
【0111】なお、係数供給部64は、変換音声情報記
憶部45から、テキスト解析結果に含まれる音韻等に応
じて、必要な変換音声情報としての線形予測係数α1
α2,・・・,αPを読み出し、それぞれを、乗算器63
1乃至63Pにセットするようになっている。
【0112】次に、図9は、音声情報記憶部36(図
5)に記憶されている音声情報が、音声の特徴パラメー
タとしての、例えば、線形予測係数(LPC)である場
合の、図6のデータ変換部44の構成例を示している。
【0113】音声情報記憶部36に記憶された音声情報
としての線形予測係数は、合成フィルタ71に供給され
る。合成フィルタ71は、図8における1つの加算器6
1、P個の遅延回路(D)621乃至62P、およびP個
の乗算器631乃至63Pでなる合成フィルタと同様のI
IRフィルタであり、線形予測係数をタップ係数とする
とともに、インパルスを駆動信号としてフィルタリング
を行うことで、線形予測係数を音声データ(時領域の波
形データ)に変換する。この音声データは、フーリエ変
換部72に供給される。
【0114】フーリエ変換部72は、合成フィルタ71
からの音声データをフーリエ変換することにより、周波
数領域の信号、即ち、スペクトルを求め、周波数特性変
換部73に供給する。
【0115】従って、合成フィルタ71およびフーリエ
変換部72では、線形予測係数α1,α2,・・・,αP
がスペクトルF(θ)に変換されるが、この線形予測係
数α 1,α2,・・・,αPからスペクトルへF(θ)の
変換は、その他、例えば、次式にしたがい、θを0から
πまでに変化させることによっても行うことができる。
【0116】 F(θ)=1/|1+α1-1+α2-2+・・・+αP-P2 z=e-j θ ・・・(6)
【0117】周波数特性変換部73には、パラメータ生
成部43(図6)が出力する変換パラメータが供給され
るようになっている。そして、周波数特性変換部73
は、フーリエ変換部72からのスペクトルを、変換パラ
メータにしたがって変換することにより、線形予測係数
から得られる音声データ(波形データ)の周波数特性を
変更する。
【0118】ここで、図9の実施の形態では、周波数特
性変換部73は、伸縮処理部73Aとイコライザ73B
とから構成されている。
【0119】伸縮処理部73は、フーリエ変換部72か
ら供給されるスペクトルF(θ)を、周波数軸方向に伸
縮させる。即ち、伸縮処理部73Aは、伸縮パラメータ
を△と表すと、式(6)を、そのθを△θに替えて演算
し、周波数軸方向に伸縮を行ったスペクトルF(△θ)
を求める。
【0120】この場合、伸縮パラメータ△が、変換パラ
メータとなる。なお、伸縮パラメータ△は、例えば、
0.5乃至2.0の範囲内の値とすることができる。
【0121】イコライザ73Bは、フーリエ変換部72
から供給されるスペクトルF(θ)に、イコライジング
処理を施すことにより、その高域を強調または抑圧す
る。即ち、イコライザ73Bは、スペクトルF(θ)に
対して、例えば、図10(A)に示すような特性の高域
強調フィルタ、または図10(B)に示すような特性の
高域抑圧フィルタをかけ、その周波数特性を変更したス
ペクトルを求める。
【0122】ここで、図10において、gはゲインを、
cは遮断周波数を、fwは減衰幅を、fsは音声データ
(合成フィルタ71が出力する音声データ)のサンプリ
ング周波数を、それぞれ表すが、このうちのゲインg、
遮断周波数fc、および減衰幅fwが、変換パラメータと
なる。
【0123】なお、一般に、図10(A)の高域強調フ
ィルタをかけた場合には、合成音の音質は、固い印象の
ものとなり、図10(B)の高域抑圧フィルタをかけた
場合には、合成音の音質は、柔らかい印象のものとな
る。
【0124】また、周波数特性変換部73では、その
他、例えば、n次平均フィルタをかけたり、ケプストラ
ム係数を求めてリフタ(lifter)をかける等して、スペク
トルを平滑化することも可能である。
【0125】周波数特性変換部73において周波数特性
の変換されたスペクトルは、逆フーリエ変換部74に供
給される。逆フーリエ変換部74は、周波数特性変換部
73からのスペクトルを逆フーリエ変換することによ
り、時領域の信号、即ち、音声データ(波形データ)を
求め、LPC分析部75に供給する。
【0126】LPC分析部75は、逆フーリエ変換部7
4からの音声データを線形予測分析することにより、線
形予測係数を求め、この線形予測係数を、変換音声情報
として、変換音声情報記憶部45(図6)に供給して記
憶させる。
【0127】なお、ここでは、音声の特徴パラメータと
して、線形予測係数を採用したが、その他、ケプストラ
ム係数や、線スペクトル対等を採用することも可能であ
る。
【0128】次に、図11は、音声情報記憶部36(図
5)に記憶されている音声情報が、音声データ(波形デ
ータ)としての、例えば音素片データである場合の、図
6の波形生成部42の構成例を示している。
【0129】接続制御部81には、韻律情報、合成制御
パラメータ、およびテキスト解析結果が供給されるよう
になっている。接続制御部81は、これらの韻律情報、
合成制御パラメータ、およびテキスト解析結果にしたが
い、合成音を生成するのに接続すべき音素片データや、
その波形の調整方法を決定し、波形接続部82を制御す
る。
【0130】波形接続部82は、接続制御部81の制御
にしたがい、変換音声情報記憶部45から、変換音声情
報としての、必要な音素片データを読み出し、さらに、
同じく接続制御部81の制御にしたがい、読み出した音
素片データの波形を調整して接続する。これにより、波
形接続部82は、韻律情報、合成制御パラメータ、テキ
スト解析結果それぞれに対応する韻律、音質、音韻の合
成音データを生成して出力する。
【0131】次に、図12は、音声情報記憶部36(図
5)に記憶されている音声情報が、音声データ(波形デ
ータ)である場合の、図6のデータ変換部44の構成例
を示している。なお、図中、図9における場合と対応す
る部分については、同一の符号を付してあり、以下で
は、その説明は、適宜省略する。即ち、図12のデータ
変換部44は、合成フィルタ71およびLPC分析部7
5が設けられていない他は、図9における場合と同様に
構成されている。
【0132】従って、図12のデータ変換部44では、
フーリエ変換部72において、音声情報記憶部36(図
5)に記憶された音声情報としての音声データがフーリ
エ変換され、その結果得られるスペクトルが、周波数特
性変換部73に供給される。周波数特性変換部73は、
フーリエ変換部72からのスペクトルに対して、変更パ
ラメータにしたがった周波数特性変換処理を施し、逆フ
ーリエ変換部74に出力する。逆フーリエ変換部74
は、周波数特性変換部73からのスペクトルを逆フーリ
エ変換することにより、音声データとし、この音声デー
タを、変換音声情報として、変換音声情報記憶部45
(図6)に供給して記憶させる。
【0133】以上、本発明を、エンターテイメント用の
ロボット(疑似ペットとしてのロボット)に適用した場
合について説明したが、本発明は、これに限らず、例え
ば、音声合成装置を搭載した各種のシステムに広く適用
することが可能である。また、本発明は、現実世界のロ
ボットだけでなく、例えば、液晶ディスプレイ等の表示
装置に表示される仮想的なロボットにも適用可能であ
る。
【0134】なお、本実施の形態においては、上述した
一連の処理を、CPU10Aにプログラムを実行させる
ことにより行うようにしたが、一連の処理は、それ専用
のハードウェアによって行うことも可能である。
【0135】ここで、プログラムは、あらかじめメモリ
10B(図2)に記憶させておく他、フロッピー(登録
商標)ディスク、CD-ROM(Compact Disc Read Only Memo
ry),MO(Magnetooptical)ディスク,DVD(Digital Versa
tile Disc)、磁気ディスク、半導体メモリなどのリムー
バブル記録媒体に、一時的あるいは永続的に格納(記
録)しておくことができる。そして、このようなリムー
バブル記録媒体を、いわゆるパッケージソフトウエアと
して提供し、ロボット(メモリ10B)にインストール
するようにすることができる。
【0136】また、プログラムは、ダウンロードサイト
から、ディジタル衛星放送用の人工衛星を介して、無線
で転送したり、LAN(Local Area Network)、インターネ
ットといったネットワークを介して、有線で転送し、メ
モリ10Bにインストールすることができる。
【0137】この場合、プログラムがバージョンアップ
されたとき等に、そのバージョンアップされたプログラ
ムを、メモリ10Bに、容易にインストールすることが
できる。
【0138】なお、本明細書において、CPU10Aに
各種の処理を行わせるためのプログラムを記述する処理
ステップは、必ずしもフローチャートとして記載された
順序に沿って時系列に処理する必要はなく、並列的ある
いは個別に実行される処理(例えば、並列処理あるいは
オブジェクトによる処理)も含むものである。
【0139】また、プログラムは、1のCPUにより処
理されるものであっても良いし、複数のCPUによって
分散処理されるものであっても良い。
【0140】次に、図5の音声合成装置55は、専用の
ハードウェアにより実現することもできるし、ソフトウ
ェアにより実現することもできる。音声合成装置55を
ソフトウェアによって実現する場合には、そのソフトウ
ェアを構成するプログラムが、汎用のコンピュータ等に
インストールされる。
【0141】そこで、図13は、音声合成装置55を実
現するためのプログラムがインストールされるコンピュ
ータの一実施の形態の構成例を示している。
【0142】プログラムは、コンピュータに内蔵されて
いる記録媒体としてのハードディスク105やROM1
03に予め記録しておくことができる。
【0143】あるいはまた、プログラムは、フロッピー
ディスク、CD-ROM,MOディスク,DVD、磁気ディスク、
半導体メモリなどのリムーバブル記録媒体111に、一
時的あるいは永続的に格納(記録)しておくことができ
る。このようなリムーバブル記録媒体111は、いわゆ
るパッケージソフトウエアとして提供することができ
る。
【0144】なお、プログラムは、上述したようなリム
ーバブル記録媒体111からコンピュータにインストー
ルする他、ダウンロードサイトから、ディジタル衛星放
送用の人工衛星を介して、コンピュータに無線で転送し
たり、LAN(Local Area Network)、インターネットとい
ったネットワークを介して、コンピュータに有線で転送
し、コンピュータでは、そのようにして転送されてくる
プログラムを、通信部108で受信し、内蔵するハード
ディスク105にインストールすることができる。
【0145】コンピュータは、CPU(Central Processing
Unit)102を内蔵している。CPU102には、バス1
01を介して、入出力インタフェース110が接続され
ており、CPU102は、入出力インタフェース110を
介して、ユーザによって、キーボードや、マウス、マイ
ク等で構成される入力部107が操作等されることによ
り指令が入力されると、それにしたがって、ROM(Read O
nly Memory)103に格納されているプログラムを実行
する。あるいは、また、CPU102は、ハードディスク
105に格納されているプログラム、衛星若しくはネッ
トワークから転送され、通信部108で受信されてハー
ドディスク105にインストールされたプログラム、ま
たはドライブ109に装着されたリムーバブル記録媒体
111から読み出されてハードディスク105にインス
トールされたプログラムを、RAM(Random Access Memor
y)104にロードして実行する。これにより、CPU10
2は、上述したフローチャートにしたがった処理、ある
いは上述したブロック図の構成により行われる処理を行
う。そして、CPU102は、その処理結果を、必要に応
じて、例えば、入出力インタフェース110を介して、
LCD(Liquid CryStal Display)やスピーカ等で構成され
る出力部106から出力、あるいは、通信部108から
送信、さらには、ハードディスク105に記録等させ
る。
【0146】なお、本実施の形態では、感情の状態に基
づいて、合成音の音質を変えるようにしたが、その他、
例えば、感情の状態に基づいて、合成音の韻律も変える
ようにすることが可能である。合成音の韻律は、例え
ば、合成音のピッチ周期の時間変化パターン(周期パタ
ーン)や、合成音のパワーの時間変化パターン(パワー
パターン)等を、感情モデルに基づいて制御することで
変えることが可能である。
【0147】また、本実施の形態においては、テキスト
(漢字仮名交じりのテキストを含む)から合成音を生成
するようにしたが、その他、発音記号等から合成音を生
成するようにすることも可能である。
【0148】
【発明の効果】以上の如く、本発明の音声合成装置およ
び音声合成方法、並びにプログラムによれば、所定の情
報のうち、合成音の音質に影響する音質影響情報が、外
部から供給される、感情の状態を表す状態情報に基づい
て生成され、その音質影響情報を用いて、音質を制御し
た合成音が生成される。従って、感情の状態に応じて音
質を変えた合成音を生成することにより、感情豊かな合
成音を得ることが可能となる。
【図面の簡単な説明】
【図1】本発明を適用したロボットの一実施の形態の外
観構成例を示す斜視図である。
【図2】ロボットの内部構成例を示すブロック図であ
る。
【図3】コントローラ10の機能的構成例を示すブロッ
ク図である。
【図4】音声認識部50Aの構成例を示すブロック図で
ある。
【図5】音声合成部55の構成例を示すブロック図であ
る。
【図6】規則合成部32の構成例を示すブロック図であ
る。
【図7】規則合成部32の処理を説明するフローチャー
トである。
【図8】波形生成部42の第1の構成例を示すブロック
図である。
【図9】データ変換部44の第1の構成例を示すブロッ
ク図である。
【図10】イコライザ73Bの処理を説明するための図
である。
【図11】波形生成部42の第2の構成例を示すブロッ
ク図である。
【図12】データ変換部44の第2の構成例を示すブロ
ック図である。
【図13】本発明を適用したコンピュータの一実施の形
態の構成例を示すブロック図である。
【符号の説明】
1 頭部ユニット, 4A 下顎部, 10 コントロ
ーラ, 10A CPU, 10B メモリ, 15
マイク, 16 CCDカメラ, 17 タッチセン
サ, 18 スピーカ, 21 AD変換部, 22
特徴抽出部, 23 マッチング部, 24 音響モデ
ル記憶部, 25 辞書記憶部, 26文法記憶部,
27 音声区間検出部, 31 テキスト解析部, 3
2 規則合成部, 34 辞書記憶部, 35 生成用
文法記憶部, 36 音声情報記憶部, 41 韻律生
成部, 42 波形生成部, 43 パラメータ生成
部,44 データ変換部, 45 変換音声情報記憶
部, 50 センサ入力処理部, 50A 音声認識
部, 50B 画像認識部, 50C 圧力処理部,5
1 モデル記憶部, 52 行動決定機構部, 53
姿勢遷移機構部, 54 制御機構部, 55 音声合
成部, 60 駆動信号生成部, 61 加算器, 6
1乃至62P 遅延回路, 631乃至63P 乗算器,
64 係数供給部, 71 合成フィルタ, 72
フーリエ変換部, 73 周波数特性変換部, 73A
伸縮処理部, 73B イコライザ, 74 逆フー
リエ変換部, 75 LPC分析部, 81 接続制御
部, 82 波形接続部, 101 バス, 102
CPU, 103 ROM, 104 RAM, 105 ハー
ドディスク, 106 出力部, 107 入力部,
108 通信部, 109ドライブ, 110 入出力
インタフェース, 111 リムーバブル記録媒体
───────────────────────────────────────────────────── フロントページの続き (72)発明者 浅野 康治 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 (72)発明者 狩谷 真一 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 (72)発明者 藤田 八重子 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 Fターム(参考) 2C150 CA01 CA02 CA04 DA05 DA24 DA25 DA26 DA27 DA28 DF03 DF04 DF33 ED42 ED52 EF03 EF07 EF09 EF13 EF16 EF23 EF29 EF34 EF36 5D045 AA08 AA09 AB11

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 所定の情報を用いて音声合成を行う音声
    合成装置であって、 前記所定の情報のうち、合成音の音質に影響する音質影
    響情報を、外部から供給される、感情の状態を表す状態
    情報に基づいて生成する音質影響情報生成手段と、 前記音質影響情報を用いて、音質を制御した前記合成音
    を生成する音声合成手段とを備えることを特徴とする音
    声合成装置。
  2. 【請求項2】 前記音質影響情報生成手段は、 前記感情の状態に基づいて、前記合成音を構成する波形
    データの特性を変更するように、前記音質影響情報を変
    換する変換パラメータを生成する変換パラメータ生成手
    段と、 前記変換パラメータに基づいて、前記音質影響情報を変
    換する音質影響情報変換手段とを有することを特徴とす
    る請求項1に記載の音声合成装置。
  3. 【請求項3】 前記音質影響情報は、前記合成音を生成
    するのに接続される所定単位の波形データであることを
    特徴とする請求項2に記載の音声合成装置。
  4. 【請求項4】 前記音質影響情報は、前記所定単位の波
    形データから抽出された特徴パラメータであることを特
    徴とする請求項2に記載の音声合成装置。
  5. 【請求項5】 前記音声合成手段は、規則音声合成を行
    い、 前記音質影響情報は、前記規則音声合成を制御するため
    の合成制御パラメータであることを特徴とする請求項1
    に記載の音声合成装置。
  6. 【請求項6】 前記合成制御パラメータは、音量バラン
    ス、音源の振幅ゆらぎの大きさ、または音源の周波数を
    制御するものであることを特徴とする請求項5に記載の
    音声合成装置。
  7. 【請求項7】 前記音声合成手段は、周波数特性または
    音量バランスを制御した前記合成音を生成することを特
    徴とする請求項1に記載の音声合成装置。
  8. 【請求項8】 所定の情報を用いて音声合成を行う音声
    合成方法であって、 前記所定の情報のうち、合成音の音質に影響する音質影
    響情報を、外部から供給される、感情の状態を表す状態
    情報に基づいて生成する音質影響情報生成ステップと、 前記音質影響情報を用いて、音質を制御した前記合成音
    を生成する音声合成ステップとを備えることを特徴とす
    る音声合成方法。
  9. 【請求項9】 所定の情報を用いて音声合成を行う音声
    合成処理を、コンピュータに行わせるプログラムであっ
    て、 前記所定の情報のうち、合成音の音質に影響する音質影
    響情報を、外部から供給される、感情の状態を表す状態
    情報に基づいて生成する音質影響情報生成ステップと、 前記音質影響情報を用いて、音質を制御した前記合成音
    を生成する音声合成ステップとを備えることを特徴とす
    るプログラム。
  10. 【請求項10】 所定の情報を用いて音声合成を行う音
    声合成処理を、コンピュータに行わせるプログラムが記
    録されている記録媒体であって、 前記所定の情報のうち、合成音の音質に影響する音質影
    響情報を、外部から供給される、感情の状態を表す状態
    情報に基づいて生成する音質影響情報生成ステップと、 前記音質影響情報を用いて、音質を制御した前記合成音
    を生成する音声合成ステップとを備えるプログラムが記
    録されていることを特徴とする記録媒体。
JP2001066376A 2001-03-09 2001-03-09 音声合成装置及び音声合成方法、並びにプログラムおよび記録媒体 Pending JP2002268699A (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2001066376A JP2002268699A (ja) 2001-03-09 2001-03-09 音声合成装置及び音声合成方法、並びにプログラムおよび記録媒体
PCT/JP2002/002176 WO2002073594A1 (fr) 2001-03-09 2002-03-08 Dispositif de synthese vocale
CN02801122A CN1461463A (zh) 2001-03-09 2002-03-08 语音合成设备
EP02702830A EP1367563A4 (en) 2001-03-09 2002-03-08 VOICE SYNTHESIS DEVICE
KR1020027014932A KR20020094021A (ko) 2001-03-09 2002-03-08 음성 합성 장치
US10/275,325 US20030163320A1 (en) 2001-03-09 2002-03-08 Voice synthesis device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001066376A JP2002268699A (ja) 2001-03-09 2001-03-09 音声合成装置及び音声合成方法、並びにプログラムおよび記録媒体

Publications (2)

Publication Number Publication Date
JP2002268699A true JP2002268699A (ja) 2002-09-20
JP2002268699A5 JP2002268699A5 (ja) 2008-04-24

Family

ID=18924875

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001066376A Pending JP2002268699A (ja) 2001-03-09 2001-03-09 音声合成装置及び音声合成方法、並びにプログラムおよび記録媒体

Country Status (6)

Country Link
US (1) US20030163320A1 (ja)
EP (1) EP1367563A4 (ja)
JP (1) JP2002268699A (ja)
KR (1) KR20020094021A (ja)
CN (1) CN1461463A (ja)
WO (1) WO2002073594A1 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006344203A (ja) * 2005-06-07 2006-12-21 Lg Electronics Inc 移動ロボットの状態報知装置及び状態報知方法
JP2007011136A (ja) * 2005-07-01 2007-01-18 Casio Comput Co Ltd 曲データ編集装置および曲データ編集プログラム
US7241947B2 (en) 2003-03-20 2007-07-10 Sony Corporation Singing voice synthesizing method and apparatus, program, recording medium and robot apparatus
WO2008102594A1 (ja) * 2007-02-19 2008-08-28 Panasonic Corporation 力み変換装置、音声変換装置、音声合成装置、音声変換方法、音声合成方法およびプログラム
US8073696B2 (en) 2005-05-18 2011-12-06 Panasonic Corporation Voice synthesis device
CN102376304A (zh) * 2010-08-10 2012-03-14 鸿富锦精密工业(深圳)有限公司 文本朗读系统及其文本朗读方法
US8311831B2 (en) 2007-10-01 2012-11-13 Panasonic Corporation Voice emphasizing device and voice emphasizing method
WO2023037609A1 (ja) * 2021-09-10 2023-03-16 ソニーグループ株式会社 自律移動体、情報処理方法、及び、プログラム

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7401020B2 (en) * 2002-11-29 2008-07-15 International Business Machines Corporation Application of emotion-based intonation and prosody to speech in text-to-speech systems
JP2005234337A (ja) * 2004-02-20 2005-09-02 Yamaha Corp 音声合成装置、音声合成方法、及び音声合成プログラム
US20060168297A1 (en) * 2004-12-08 2006-07-27 Electronics And Telecommunications Research Institute Real-time multimedia transcoding apparatus and method using personal characteristic information
US8065157B2 (en) * 2005-05-30 2011-11-22 Kyocera Corporation Audio output apparatus, document reading method, and mobile terminal
US7983910B2 (en) * 2006-03-03 2011-07-19 International Business Machines Corporation Communicating across voice and text channels with emotion preservation
US10157342B1 (en) * 2010-07-11 2018-12-18 Nam Kim Systems and methods for transforming sensory input into actions by a machine having self-awareness
US20120059781A1 (en) * 2010-07-11 2012-03-08 Nam Kim Systems and Methods for Creating or Simulating Self-Awareness in a Machine
JP5631915B2 (ja) * 2012-03-29 2014-11-26 株式会社東芝 音声合成装置、音声合成方法、音声合成プログラムならびに学習装置
US10957310B1 (en) 2012-07-23 2021-03-23 Soundhound, Inc. Integrated programming framework for speech and text understanding with meaning parsing
US9310800B1 (en) * 2013-07-30 2016-04-12 The Boeing Company Robotic platform evaluation system
WO2015092936A1 (ja) * 2013-12-20 2015-06-25 株式会社東芝 音声合成装置、音声合成方法およびプログラム
KR102222122B1 (ko) * 2014-01-21 2021-03-03 엘지전자 주식회사 감성음성 합성장치, 감성음성 합성장치의 동작방법, 및 이를 포함하는 이동 단말기
US11295730B1 (en) 2014-02-27 2022-04-05 Soundhound, Inc. Using phonetic variants in a local context to improve natural language understanding
CN105895076B (zh) * 2015-01-26 2019-11-15 科大讯飞股份有限公司 一种语音合成方法及系统
US9558734B2 (en) * 2015-06-29 2017-01-31 Vocalid, Inc. Aging a text-to-speech voice
WO2018043112A1 (ja) * 2016-08-29 2018-03-08 ソニー株式会社 情報提示装置、および情報提示方法
CN107962571B (zh) * 2016-10-18 2021-11-02 江苏网智无人机研究院有限公司 目标对象的控制方法、装置、机器人和系统
CN106503275A (zh) * 2016-12-30 2017-03-15 首都师范大学 聊天机器人的音色配置方法及装置
CN107039033A (zh) * 2017-04-17 2017-08-11 海南职业技术学院 一种语音合成装置
EP3392884A1 (en) * 2017-04-21 2018-10-24 audEERING GmbH A method for automatic affective state inference and an automated affective state inference system
CN107240401B (zh) * 2017-06-13 2020-05-15 厦门美图之家科技有限公司 一种音色转换方法及计算设备
US10225621B1 (en) 2017-12-20 2019-03-05 Dish Network L.L.C. Eyes free entertainment
US10847162B2 (en) * 2018-05-07 2020-11-24 Microsoft Technology Licensing, Llc Multi-modal speech localization
CN110634466B (zh) * 2018-05-31 2024-03-15 微软技术许可有限责任公司 具有高感染力的tts处理技术
JP7334942B2 (ja) * 2019-08-19 2023-08-29 国立大学法人 東京大学 音声変換装置、音声変換方法及び音声変換プログラム
CN111128118B (zh) * 2019-12-30 2024-02-13 科大讯飞股份有限公司 语音合成方法、相关设备及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05307395A (ja) * 1992-04-30 1993-11-19 Sony Corp 音声合成装置
JPH0756590A (ja) * 1993-08-19 1995-03-03 Sony Corp 音声合成装置、音声合成方法及び記録媒体
JP2000187435A (ja) * 1998-12-24 2000-07-04 Sony Corp 情報処理装置、携帯機器、電子ペット装置、情報処理手順を記録した記録媒体及び情報処理方法
JP2002049385A (ja) * 2000-08-07 2002-02-15 Yamaha Motor Co Ltd 音声合成装置、疑似感情表現装置及び音声合成方法

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58168097A (ja) * 1982-03-29 1983-10-04 日本電気株式会社 音声合成装置
US5029214A (en) * 1986-08-11 1991-07-02 Hollander James F Electronic speech control apparatus and methods
JPH02106799A (ja) * 1988-10-14 1990-04-18 A T R Shichiyoukaku Kiko Kenkyusho:Kk 合成音声情緒付与回路
JPH02236600A (ja) * 1989-03-10 1990-09-19 A T R Shichiyoukaku Kiko Kenkyusho:Kk 合成音声情緒付与回路
JPH04199098A (ja) * 1990-11-29 1992-07-20 Meidensha Corp 規則音声合成装置
JPH05100692A (ja) * 1991-05-31 1993-04-23 Oki Electric Ind Co Ltd 音声合成装置
JPH0612401A (ja) * 1992-06-26 1994-01-21 Fuji Xerox Co Ltd 感情模擬装置
US5559927A (en) * 1992-08-19 1996-09-24 Clynes; Manfred Computer system producing emotionally-expressive speech messages
US5860064A (en) * 1993-05-13 1999-01-12 Apple Computer, Inc. Method and apparatus for automatic generation of vocal emotion in a synthetic text-to-speech system
JPH0772900A (ja) * 1993-09-02 1995-03-17 Nippon Hoso Kyokai <Nhk> 音声合成の感情付与方法
JP3018865B2 (ja) * 1993-10-07 2000-03-13 富士ゼロックス株式会社 感情表出装置
JPH07244496A (ja) * 1994-03-07 1995-09-19 N T T Data Tsushin Kk テキスト朗読装置
JP3254994B2 (ja) * 1995-03-01 2002-02-12 セイコーエプソン株式会社 音声認識対話装置および音声認識対話処理方法
JP3260275B2 (ja) * 1996-03-14 2002-02-25 シャープ株式会社 活字入力で通話が可能な通信通話装置
JPH10289006A (ja) * 1997-04-11 1998-10-27 Yamaha Motor Co Ltd 疑似感情を用いた制御対象の制御方法
US5966691A (en) * 1997-04-29 1999-10-12 Matsushita Electric Industrial Co., Ltd. Message assembler using pseudo randomly chosen words in finite state slots
US6226614B1 (en) * 1997-05-21 2001-05-01 Nippon Telegraph And Telephone Corporation Method and apparatus for editing/creating synthetic speech message and recording medium with the method recorded thereon
JP3273550B2 (ja) * 1997-05-29 2002-04-08 オムロン株式会社 自動応答玩具
JP3884851B2 (ja) * 1998-01-28 2007-02-21 ユニデン株式会社 通信システムおよびこれに用いられる無線通信端末装置
US6185534B1 (en) * 1998-03-23 2001-02-06 Microsoft Corporation Modeling emotion and personality in a computer user interface
US6081780A (en) * 1998-04-28 2000-06-27 International Business Machines Corporation TTS and prosody based authoring system
US6230111B1 (en) * 1998-08-06 2001-05-08 Yamaha Hatsudoki Kabushiki Kaisha Control system for controlling object using pseudo-emotions and pseudo-personality generated in the object
US6249780B1 (en) * 1998-08-06 2001-06-19 Yamaha Hatsudoki Kabushiki Kaisha Control system for controlling object using pseudo-emotions and pseudo-personality generated in the object
CN1161700C (zh) * 1999-04-30 2004-08-11 索尼公司 网络系统
JP2001034280A (ja) * 1999-07-21 2001-02-09 Matsushita Electric Ind Co Ltd 電子メール受信装置および電子メールシステム
JP2001034282A (ja) * 1999-07-21 2001-02-09 Konami Co Ltd 音声合成方法、音声合成のための辞書構築方法、音声合成装置、並びに音声合成プログラムを記録したコンピュータ読み取り可能な媒体
JP2001154681A (ja) * 1999-11-30 2001-06-08 Sony Corp 音声処理装置および音声処理方法、並びに記録媒体
TWI221574B (en) * 2000-09-13 2004-10-01 Agi Inc Sentiment sensing method, perception generation method and device thereof and software
WO2002067194A2 (en) * 2001-02-20 2002-08-29 I & A Research Inc. System for modeling and simulating emotion states

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05307395A (ja) * 1992-04-30 1993-11-19 Sony Corp 音声合成装置
JPH0756590A (ja) * 1993-08-19 1995-03-03 Sony Corp 音声合成装置、音声合成方法及び記録媒体
JP2000187435A (ja) * 1998-12-24 2000-07-04 Sony Corp 情報処理装置、携帯機器、電子ペット装置、情報処理手順を記録した記録媒体及び情報処理方法
JP2002049385A (ja) * 2000-08-07 2002-02-15 Yamaha Motor Co Ltd 音声合成装置、疑似感情表現装置及び音声合成方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7241947B2 (en) 2003-03-20 2007-07-10 Sony Corporation Singing voice synthesizing method and apparatus, program, recording medium and robot apparatus
US8073696B2 (en) 2005-05-18 2011-12-06 Panasonic Corporation Voice synthesis device
JP2006344203A (ja) * 2005-06-07 2006-12-21 Lg Electronics Inc 移動ロボットの状態報知装置及び状態報知方法
JP2007011136A (ja) * 2005-07-01 2007-01-18 Casio Comput Co Ltd 曲データ編集装置および曲データ編集プログラム
JP4626851B2 (ja) * 2005-07-01 2011-02-09 カシオ計算機株式会社 曲データ編集装置および曲データ編集プログラム
WO2008102594A1 (ja) * 2007-02-19 2008-08-28 Panasonic Corporation 力み変換装置、音声変換装置、音声合成装置、音声変換方法、音声合成方法およびプログラム
JPWO2008102594A1 (ja) * 2007-02-19 2010-05-27 パナソニック株式会社 力み変換装置、音声変換装置、音声合成装置、音声変換方法、音声合成方法およびプログラム
US8898062B2 (en) 2007-02-19 2014-11-25 Panasonic Intellectual Property Corporation Of America Strained-rough-voice conversion device, voice conversion device, voice synthesis device, voice conversion method, voice synthesis method, and program
US8311831B2 (en) 2007-10-01 2012-11-13 Panasonic Corporation Voice emphasizing device and voice emphasizing method
CN102376304A (zh) * 2010-08-10 2012-03-14 鸿富锦精密工业(深圳)有限公司 文本朗读系统及其文本朗读方法
WO2023037609A1 (ja) * 2021-09-10 2023-03-16 ソニーグループ株式会社 自律移動体、情報処理方法、及び、プログラム

Also Published As

Publication number Publication date
EP1367563A1 (en) 2003-12-03
US20030163320A1 (en) 2003-08-28
CN1461463A (zh) 2003-12-10
WO2002073594A1 (fr) 2002-09-19
KR20020094021A (ko) 2002-12-16
EP1367563A4 (en) 2006-08-30

Similar Documents

Publication Publication Date Title
JP2002268699A (ja) 音声合成装置及び音声合成方法、並びにプログラムおよび記録媒体
JP4296714B2 (ja) ロボット制御装置およびロボット制御方法、記録媒体、並びにプログラム
US7065490B1 (en) Voice processing method based on the emotion and instinct states of a robot
JP2001215993A (ja) 対話処理装置および対話処理方法、並びに記録媒体
JP4687936B2 (ja) 音声出力装置および音声出力方法、並びにプログラムおよび記録媒体
JP2001188779A (ja) 情報処理装置および方法、並びに記録媒体
JP2002304188A (ja) 単語列出力装置および単語列出力方法、並びにプログラムおよび記録媒体
JP2002318594A (ja) 言語処理装置および言語処理方法、並びにプログラムおよび記録媒体
JP2002268663A (ja) 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体
JP4587009B2 (ja) ロボット制御装置およびロボット制御方法、並びに記録媒体
JP2002258886A (ja) 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体
JP4656354B2 (ja) 音声処理装置および音声処理方法、並びに記録媒体
JP2002311981A (ja) 自然言語処理装置および自然言語処理方法、並びにプログラムおよび記録媒体
JP2002304187A (ja) 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体
JP2004170756A (ja) ロボット制御装置および方法、記録媒体、並びにプログラム
JP2001188783A (ja) 情報処理装置および方法、並びに記録媒体
JP2002318590A (ja) 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体
JP4178777B2 (ja) ロボット装置、記録媒体、並びにプログラム
JP4742415B2 (ja) ロボット制御装置およびロボット制御方法、並びに記録媒体
JP2003071762A (ja) ロボット装置およびロボット制御方法、記録媒体、並びにプログラム
JP2002189497A (ja) ロボット制御装置およびロボット制御方法、記録媒体、並びにプログラム
JP2002120177A (ja) ロボット制御装置およびロボット制御方法、並びに記録媒体
JP2002318593A (ja) 言語処理装置および言語処理方法、並びにプログラムおよび記録媒体
JP2003271181A (ja) 情報処理装置および情報処理方法、並びに記録媒体およびプログラム
JP2001212779A (ja) 行動制御装置および行動制御方法、並びに記録媒体

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080310

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080310

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100325

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100514

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100601

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100901

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20100909

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20101029

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120309