JP2002318594A

JP2002318594A - 言語処理装置および言語処理方法、並びにプログラムおよび記録媒体

Info

Publication number: JP2002318594A
Application number: JP2001122040A
Authority: JP
Inventors: Erika Kobayashi; 恵理香小林; Makoto Akaha; 誠赤羽; Tomoaki Nitsuta; 朋晃新田; Hideki Kishi; 秀樹岸; Rika Hasegawa; 里香長谷川; Masatoshi Takeda; 正資武田
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2001-04-20
Filing date: 2001-04-20
Publication date: 2002-10-31
Also published as: KR20030010736A; EP1381027A1; CN1461464A; WO2002086861A1; US20040054519A1

Abstract

(57)【要約】【課題】音声合成対象のテキストから、そのテキスト
に含まれる擬音語または擬態語の意味を表現するような
「音」を用いた、効果的な合成音を生成する。【解決手段】擬音語／擬態語解析部２１は、テキスト
から擬音語または擬態語を抽出し、擬音語／擬態語処理
部２７は、その擬音語または擬態語に対応する効果音の
音響データを生成する。そして、音声融合部２６は、規
則合成部２４で生成された、テキストに対応する合成音
データの一部または全部に、擬音語／擬態語処理部２７
で生成された音響データを重畳する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、言語処理装置およ
び言語処理方法、並びにプログラムおよび記録媒体に関
し、特に、例えば、テキストに含まれる擬音語や擬態語
を用いて、テキストを言語処理することにより、効果的
な合成音等を得ることができるようにする言語処理装置
および言語処理方法、並びにプログラムおよび記録媒体
に関する。

【０００２】

【従来の技術】例えば、音声合成装置では、入力された
テキストの形態素解析が行われ、その形態素解析結果に
基づいて、入力されたテキストに対応する合成音が生成
される。

【０００３】

【発明が解決しようとする課題】ところで、言語学で
は、言葉の音と、その意味との結び付きは、恣意的であ
る、というのが通説である。

【０００４】しかしながら、例えば、テキスト「ビール
をぐびぐび飲む」における「ぐびぐび」等の擬音語（擬
声語）や擬態語は、その言葉の音と意味との結び付き
が、必ずしも恣意的であるとは限らない。

【０００５】即ち、擬音語は、主体の行動（動き）に伴
う「音」を、言葉で表すものであり、また、擬態語は、
外界の様子や行動の様を、「音」を表現する言葉で表す
ものであるから、擬音語や擬態語は、「音」として扱う
のに適した表現であるということができる。

【０００６】しかしながら、従来の音声合成装置では、
入力されたテキストに、擬音語や擬態語が含まれていて
も、他の語と同様に処理されていたため、擬音語や擬態
語が表す「音」の表現力を十分に反映した合成音を得る
ことが困難であった。

【０００７】本発明は、このような状況に鑑みてなされ
たものであり、例えば、テキストに含まれる擬音語や擬
態語を用いて、テキストを言語処理することにより、効
果的な合成音等を得ることができるようにするものであ
る。

【０００８】

【課題を解決するための手段】本発明の言語処理装置
は、入力データから擬音語または擬態語を抽出する抽出
手段と、擬音語または擬態語を処理する擬音語／擬態語
処理手段と、擬音語または擬態語の処理結果を用いて、
入力データを言語処理する言語処理手段とを備えること
を特徴とする。

【０００９】本発明の言語処理方法は、入力データから
擬音語または擬態語を抽出する抽出ステップと、擬音語
または擬態語を処理する擬音語／擬態語処理ステップ
と、擬音語または擬態語の処理結果を用いて、入力デー
タを言語処理する言語処理ステップとを備えることを特
徴とする。

【００１０】本発明のプログラムは、入力データから擬
音語または擬態語を抽出する抽出ステップと、擬音語ま
たは擬態語を処理する擬音語／擬態語処理ステップと、
擬音語または擬態語の処理結果を用いて、入力データを
言語処理する言語処理ステップとを備えることを特徴と
する。

【００１１】本発明の記録媒体は、入力データから擬音
語または擬態語を抽出する抽出ステップと、擬音語また
は擬態語を処理する擬音語／擬態語処理ステップと、擬
音語または擬態語の処理結果を用いて、入力データを言
語処理する言語処理ステップとを備えるプログラムが記
録されていることを特徴とする。

【００１２】本発明の言語処理装置および言語処理方
法、並びにプログラムにおいては、入力データから擬音
語または擬態語が抽出され、その擬音語または擬態語が
処理される。そして、その擬音語または擬態語の処理結
果を用いて、入力データが言語処理される。

【００１３】

【発明の実施の形態】図１は、本発明を適用したロボッ
トの一実施の形態の外観構成例を示しており、図２は、
その電気的構成例を示している。

【００１４】本実施の形態では、ロボットは、例えば、
犬等の四つ足の動物の形状のものとなっており、胴体部
ユニット２の前後左右に、それぞれ脚部ユニット３Ａ，
３Ｂ，３Ｃ，３Ｄが連結されるとともに、胴体部ユニッ
ト２の前端部と後端部に、それぞれ頭部ユニット４と尻
尾部ユニット５が連結されることにより構成されてい
る。

【００１５】尻尾部ユニット５は、胴体部ユニット２の
上面に設けられたベース部５Ｂから、２自由度をもって
湾曲または揺動自在に引き出されている。

【００１６】胴体部ユニット２には、ロボット全体の制
御を行うコントローラ１０、ロボットの動力源となるバ
ッテリ１１、並びにバッテリセンサ１２および熱センサ
１３からなる内部センサ部１４などが収納されている。

【００１７】頭部ユニット４には、「耳」に相当するマ
イク（マイクロフォン）１５、「目」に相当するＣＣＤ
(Charge Coupled Device)カメラ１６、触覚に相当する
タッチセンサ１７、「口」に相当するスピーカ１８など
が、それぞれ所定位置に配設されている。また、頭部ユ
ニット４には、口の下顎に相当する下顎部４Ａが１自由
度をもって可動に取り付けられており、この下顎部４Ａ
が動くことにより、ロボットの口の開閉動作が実現され
るようになっている。

【００１８】脚部ユニット３Ａ乃至３Ｄそれぞれの関節
部分や、脚部ユニット３Ａ乃至３Ｄそれぞれと胴体部ユ
ニット２の連結部分、頭部ユニット４と胴体部ユニット
２の連結部分、頭部ユニット４と下顎部４Ａの連結部
分、並びに尻尾部ユニット５と胴体部ユニット２の連結
部分などには、図２に示すように、それぞれアクチュエ
ータ３ＡＡ₁乃至３ＡＡ_K、３ＢＡ₁乃至３ＢＡ_K、３ＣＡ
₁乃至３ＣＡ_K、３ＤＡ₁乃至３ＤＡ_K、４Ａ₁乃至４Ａ_L、
５Ａ₁および５Ａ₂が配設されている。

【００１９】頭部ユニット４におけるマイク１５は、ユ
ーザからの発話を含む周囲の音声（音）を集音し、得ら
れた音声信号を、コントローラ１０に送出する。ＣＣＤ
カメラ１６は、周囲の状況を撮像し、得られた画像信号
を、コントローラ１０に送出する。

【００２０】タッチセンサ１７は、例えば、頭部ユニッ
ト４の上部に設けられており、ユーザからの「なでる」
や「たたく」といった物理的な働きかけにより受けた圧
力を検出し、その検出結果を圧力検出信号としてコント
ローラ１０に送出する。

【００２１】胴体部ユニット２におけるバッテリセンサ
１２は、バッテリ１１の残量を検出し、その検出結果
を、バッテリ残量検出信号としてコントローラ１０に送
出する。熱センサ１３は、ロボット内部の熱を検出し、
その検出結果を、熱検出信号としてコントローラ１０に
送出する。

【００２２】コントローラ１０は、ＣＰＵ(Central Pro
cessing Unit)１０Ａやメモリ１０Ｂ等を内蔵してお
り、ＣＰＵ１０Ａにおいて、メモリ１０Ｂに記憶された
制御プログラムが実行されることにより、各種の処理を
行う。

【００２３】即ち、コントローラ１０は、マイク１５
や、ＣＣＤカメラ１６、タッチセンサ１７、バッテリセ
ンサ１２、熱センサ１３から与えられる音声信号、画像
信号、圧力検出信号、バッテリ残量検出信号、熱検出信
号に基づいて、周囲の状況や、ユーザからの指令、ユー
ザからの働きかけなどの有無を判断する。

【００２４】さらに、コントローラ１０は、この判断結
果等に基づいて、続く行動を決定し、その決定結果に基
づいて、アクチュエータ３ＡＡ₁乃至３ＡＡ_K、３ＢＡ₁
乃至３ＢＡ_K、３ＣＡ₁乃至３ＣＡ_K、３ＤＡ₁乃至３ＤＡ
_K、４Ａ₁乃至４Ａ_L、５Ａ₁、５Ａ₂のうちの必要なもの
を駆動させる。これにより、頭部ユニット４を上下左右
に振らせたり、下顎部４Ａを開閉させる。さらには、尻
尾部ユニット５を動かせたり、各脚部ユニット３Ａ乃至
３Ｄを駆動して、ロボットを歩行させるなどの行動を行
わせる。

【００２５】また、コントローラ１０は、必要に応じ
て、合成音を生成し、スピーカ１８に供給して出力させ
たり、ロボットの「目」の位置に設けられた図示しない
ＬＥＤ（Light Emitting Diode）を点灯、消灯または点
滅させる。

【００２６】以上のようにして、ロボットは、周囲の状
況等に基づいて自律的に行動をとるようになっている。

【００２７】次に、図３は、図２のコントローラ１０の
機能的構成例を示している。なお、図３に示す機能的構
成は、ＣＰＵ１０Ａが、メモリ１０Ｂに記憶された制御
プログラムを実行することで実現されるようになってい
る。

【００２８】コントローラ１０は、特定の外部状態を認
識するセンサ入力処理部５０、センサ入力処理部５０の
認識結果を累積して、感情や、本能、成長の状態を表現
するモデル記憶部５１、センサ入力処理部５０の認識結
果等に基づいて、続く行動を決定する行動決定機構部５
２、行動決定機構部５２の決定結果に基づいて、実際に
ロボットに行動を起こさせる姿勢遷移機構部５３、各ア
クチュエータ３ＡＡ₁乃至５Ａ₁および５Ａ₂を駆動制御
する制御機構部５４、並びに合成音を生成する音声合成
部５５から構成されている。

【００２９】センサ入力処理部５０は、マイク１５や、
ＣＣＤカメラ１６、タッチセンサ１７等から与えられる
音声信号、画像信号、圧力検出信号等に基づいて、特定
の外部状態や、ユーザからの特定の働きかけ、ユーザか
らの指示等を認識し、その認識結果を表す状態認識情報
を、モデル記憶部５１および行動決定機構部５２に通知
する。

【００３０】即ち、センサ入力処理部５０は、音声認識
部５０Ａを有しており、音声認識部５０Ａは、マイク１
５から与えられる音声信号について音声認識を行う。そ
して、音声認識部５０Ａは、その音声認識結果として
の、例えば、「歩け」、「伏せ」、「ボールを追いかけ
ろ」等の指令その他を、状態認識情報として、モデル記
憶部５１および行動決定機構部５２に通知する。

【００３１】また、センサ入力処理部５０は、画像認識
部５０Ｂを有しており、画像認識部５０Ｂは、ＣＣＤカ
メラ１６から与えられる画像信号を用いて、画像認識処
理を行う。そして、画像認識部５０Ｂは、その処理の結
果、例えば、「赤い丸いもの」や、「地面に対して垂直
なかつ所定高さ以上の平面」等を検出したときには、
「ボールがある」や、「壁がある」等の画像認識結果
を、状態認識情報として、モデル記憶部５１および行動
決定機構部５２に通知する。

【００３２】さらに、センサ入力処理部５０は、圧力処
理部５０Ｃを有しており、圧力処理部５０Ｃは、タッチ
センサ１７から与えられる圧力検出信号を処理する。そ
して、圧力処理部５０Ｃは、その処理の結果、所定の閾
値以上で、かつ短時間の圧力を検出したときには、「た
たかれた（しかられた）」と認識し、所定の閾値未満
で、かつ長時間の圧力を検出したときには、「なでられ
た（ほめられた）」と認識して、その認識結果を、状態
認識情報として、モデル記憶部５１および行動決定機構
部５２に通知する。

【００３３】モデル記憶部５１は、ロボットの感情、本
能、成長の状態を表現する感情モデル、本能モデル、成
長モデルをそれぞれ記憶、管理している。

【００３４】ここで、感情モデルは、例えば、「うれし
さ」、「悲しさ」、「怒り」、「楽しさ」等の感情の状
態（度合い）を、所定の範囲（例えば、−１．０乃至
１．０等）の値によってそれぞれ表し、センサ入力処理
部５０からの状態認識情報や時間経過等に基づいて、そ
の値を変化させる。本能モデルは、例えば、「食欲」、
「睡眠欲」、「運動欲」等の本能による欲求の状態（度
合い）を、所定の範囲の値によってそれぞれ表し、セン
サ入力処理部５０からの状態認識情報や時間経過等に基
づいて、その値を変化させる。成長モデルは、例えば、
「幼年期」、「青年期」、「熟年期」、「老年期」等の
成長の状態（度合い）を、所定の範囲の値によってそれ
ぞれ表し、センサ入力処理部５０からの状態認識情報や
時間経過等に基づいて、その値を変化させる。

【００３５】モデル記憶部５１は、上述のようにして感
情モデル、本能モデル、成長モデルの値で表される感
情、本能、成長の状態を、状態情報として、行動決定機
構部５２に送出する。

【００３６】なお、モデル記憶部５１には、センサ入力
処理部５０から状態認識情報が供給される他、行動決定
機構部５２から、ロボットの現在または過去の行動、具
体的には、例えば、「長時間歩いた」などの行動の内容
を示す行動情報が供給されるようになっており、モデル
記憶部５１は、同一の状態認識情報が与えられても、行
動情報が示すロボットの行動に応じて、異なる状態情報
を生成するようになっている。

【００３７】即ち、例えば、ロボットが、ユーザに挨拶
をし、ユーザに頭を撫でられた場合には、ユーザに挨拶
をしたという行動情報と、頭を撫でられたという状態認
識情報とが、モデル記憶部５１に与えられ、この場合、
モデル記憶部５１では、「うれしさ」を表す感情モデル
の値が増加される。

【００３８】一方、ロボットが、何らかの仕事を実行中
に頭を撫でられた場合には、仕事を実行中であるという
行動情報と、頭を撫でられたという状態認識情報とが、
モデル記憶部５１に与えられ、この場合、モデル記憶部
５１では、「うれしさ」を表す感情モデルの値は変化さ
れない。

【００３９】このように、モデル記憶部５１は、状態認
識情報だけでなく、現在または過去のロボットの行動を
示す行動情報も参照しながら、感情モデルの値を設定す
る。これにより、例えば、何らかのタスクを実行中に、
ユーザが、いたずらするつもりで頭を撫でたときに、
「うれしさ」を表す感情モデルの値を増加させるよう
な、不自然な感情の変化が生じることを回避することが
できる。

【００４０】なお、モデル記憶部５１は、本能モデルお
よび成長モデルについても、感情モデルにおける場合と
同様に、状態認識情報および行動情報の両方に基づい
て、その値を増減させるようになっている。また、モデ
ル記憶部５１は、感情モデル、本能モデル、成長モデル
それぞれの値を、他のモデルの値にも基づいて増減させ
るようになっている。

【００４１】行動決定機構部５２は、センサ入力処理部
５０からの状態認識情報や、モデル記憶部５１からの状
態情報、時間経過等に基づいて、次の行動を決定し、決
定された行動の内容を、行動指令情報として、姿勢遷移
機構部５３に送出する。

【００４２】即ち、行動決定機構部５２は、ロボットが
とり得る行動をステート（状態）(state)に対応させた
有限オートマトンを、ロボットの行動を規定する行動モ
デルとして管理しており、この行動モデルとしての有限
オートマトンにおけるステートを、センサ入力処理部５
０からの状態認識情報や、モデル記憶部５１における感
情モデル、本能モデル、または成長モデルの値、時間経
過等に基づいて遷移させ、遷移後のステートに対応する
行動を、次にとるべき行動として決定する。

【００４３】ここで、行動決定機構部５２は、所定のト
リガ(trigger)があったことを検出すると、ステートを
遷移させる。即ち、行動決定機構部５２は、例えば、現
在のステートに対応する行動を実行している時間が所定
時間に達したときや、特定の状態認識情報を受信したと
き、モデル記憶部５１から供給される状態情報が示す感
情や、本能、成長の状態の値が所定の閾値以下または以
上になったとき等に、ステートを遷移させる。

【００４４】なお、行動決定機構部５２は、上述したよ
うに、センサ入力処理部５０からの状態認識情報だけで
なく、モデル記憶部５１における感情モデルや、本能モ
デル、成長モデルの値等にも基づいて、行動モデルにお
けるステートを遷移させることから、同一の状態認識情
報が入力されても、感情モデルや、本能モデル、成長モ
デルの値（状態情報）によっては、ステートの遷移先は
異なるものとなる。

【００４５】その結果、行動決定機構部５２は、例え
ば、状態情報が、「怒っていない」こと、および「お腹
がすいていない」ことを表している場合において、状態
認識情報が、「目の前に手のひらが差し出された」こと
を表しているときには、目の前に手のひらが差し出され
たことに応じて、「お手」という行動をとらせる行動指
令情報を生成し、これを、姿勢遷移機構部５３に送出す
る。

【００４６】また、行動決定機構部５２は、例えば、状
態情報が、「怒っていない」こと、および「お腹がすい
ている」ことを表している場合において、状態認識情報
が、「目の前に手のひらが差し出された」ことを表して
いるときには、目の前に手のひらが差し出されたことに
応じて、「手のひらをぺろぺろなめる」ような行動を行
わせるための行動指令情報を生成し、これを、姿勢遷移
機構部５３に送出する。

【００４７】また、行動決定機構部５２は、例えば、状
態情報が、「怒っている」ことを表している場合におい
て、状態認識情報が、「目の前に手のひらが差し出され
た」ことを表しているときには、状態情報が、「お腹が
すいている」ことを表していても、また、「お腹がすい
ていない」ことを表していても、「ぷいと横を向く」よ
うな行動を行わせるための行動指令情報を生成し、これ
を、姿勢遷移機構部５３に送出する。

【００４８】なお、行動決定機構部５２では、上述した
ように、ロボットの頭部や手足等を動作させる行動指令
情報の他、ロボットに発話を行わせる行動指令情報も生
成される。ロボットに発話を行わせる行動指令情報は、
音声合成部５５に供給されるようになっており、音声合
成部５５に供給される行動指令情報には、音声合成部５
５に生成させる合成音に対応するテキスト（あるいは、
音韻情報を含む発音記号など）が含まれる。そして、音
声合成部５５は、行動決定部５２から行動指令情報を受
信すると、その行動指令情報に含まれるテキストに基づ
き、合成音を生成し、スピーカ１８に供給して出力させ
る。これにより、スピーカ１８からは、例えば、ロボッ
トの鳴き声、さらには、「お腹がすいた」等のユーザへ
の各種の要求、「何？」等のユーザの呼びかけに対する
応答その他の音声出力が行われる。なお、行動決定機構
部５２は、音声合成部５５から合成音を出力させる場合
には、下顎部４Ａを開閉させる行動指令情報を、必要に
応じて生成し、姿勢遷移機構部５３に出力する。この場
合、合成音の出力に同期して、下顎部４Ａが開閉し、ユ
ーザに、ロボットがしゃべっているかのような印象を与
えることができる。

【００４９】姿勢遷移機構部５３は、行動決定機構部５
２から供給される行動指令情報に基づいて、ロボットの
姿勢を、現在の姿勢から次の姿勢に遷移させるための姿
勢遷移情報を生成し、これを制御機構部５４に送出す
る。

【００５０】制御機構部５４は、姿勢遷移機構部５３か
らの姿勢遷移情報にしたがって、アクチュエータ３ＡＡ
₁乃至５Ａ₁および５Ａ₂を駆動するための制御信号を生
成し、これを、アクチュエータ３ＡＡ₁乃至５Ａ₁および
５Ａ₂に送出する。これにより、アクチュエータ３ＡＡ₁
乃至５Ａ₁および５Ａ₂は、制御信号にしたがって駆動
し、ロボットは、自律的に行動を起こす。

【００５１】次に、図４は、図３の音声合成部５５の構
成例を示している。

【００５２】擬音語／擬態語解析部２１には、行動決定
機構部５２が出力する、音声合成の対象とするテキスト
を含む行動指令情報が供給されるようになっており、擬
音語／擬態語解析部２１は、行動指令情報の中のテキス
トを解析することにより、そのテキストに、擬音語また
は擬態語が含まれているかどうかを認識し、含まれてい
る場合には、テキストから、その擬音語または擬態語を
抽出する。即ち、擬音語／擬態語解析部２１は、行動指
令情報に含まれるテキストを、形態素解析部２２に供給
し、そのテキストの形態素解析を行わせる。そして、擬
音語／擬態語解析部２１は、その形態素解析結果に基づ
いて、テキストに含まれる擬音語または擬態語を抽出す
る。

【００５３】さらに、擬音語／擬態語解析部２１は、テ
キストに対して、そこに含まれる擬音語または擬態語を
識別するためのタグ（以下、適宜、識別タグという）を
付加（挿入）し、規則合成部２４に供給するとともに、
テキストから抽出した擬音語または擬態語に対しても、
テキストに付加したのと同様の識別タグを付加して、擬
音語／擬態語処理部２７に供給する。

【００５４】形態素解析部２２は、擬音語／擬態語解析
部２１からテキストを受信し、そのテキストの形態素解
析を、辞書解析文法データベース２３を参照しながら行
う。

【００５５】即ち、辞書解析文法データベース２３に
は、各単語の品詞情報や、読み、アクセント等の情報が
記述された単語辞書と、その単語辞書に記述された単語
について、単語連鎖に関する制約等の文法規則が記憶さ
れている。形態素解析部２２は、この単語辞書および文
法規則に基づいて、擬音語／擬態語解析部２１からのテ
キストについて、形態素解析（さらには、必要に応じて
や構文解析等）を行い、その形態素解析結果を、擬音語
／擬態語解析部２１に供給する。

【００５６】なお、形態素解析部２２によるテキストの
形態素解析結果は、擬音語／擬態語解析部２１に限ら
ず、その他のブロックでも、必要に応じて参照すること
ができるようになっている。

【００５７】規則合成部２４は、自然言語処理として
の、例えば規則音声合成を行う。即ち、規則合成部２４
は、まず、擬音語／擬態語解析部２１から供給されるテ
キストについて規則音声合成を行うのに必要な情報を、
形態素解析部２２による形態素解析結果等に基づいて抽
出する。ここで、規則音声合成に必要な情報としては、
例えば、ポーズの位置や、アクセントおよびイントネー
ションを制御するための情報その他の韻律情報や、各単
語の発音等の音韻情報などがある。

【００５８】さらに、規則合成部２４は、音素片データ
ベース２５を参照して、擬音語／擬態語解析部２１から
のテキストに対応する合成音の音声データ（ディジタル
データ）を生成する。

【００５９】即ち、音素片データベース２５には、例え
ば、ＣＶ(Consonant, Vowel)や、ＶＣＶ、ＣＶＣ等の形
で音素片データが記憶されており、規則合成部２４は、
先に得た韻律情報や音韻情報に基づいて、必要な音素片
データを接続し、さらに、ポーズ、アクセント、イント
ネーション等を適切に付加するように、ピッチ周波数の
時間変化のパターン（ピッチパターン）や、パワーの時
間変化のパターン（パワーパターン）を設定すること
で、擬音語／擬態語解析部２１からのテキストに対応す
る合成音データを生成する。

【００６０】また、規則合成部２４は、後述する擬音語
／擬態語処理部２７から特に指示がない限りは、デフォ
ルトの音声タイプを設定し、その音声タイプに対応する
音質や韻律の合成音データを生成するが、擬音語／擬態
語処理部２７から音声タイプの指示があった場合には、
その指示のあった音声タイプを設定し、その音声タイプ
にしたがって、規則音声合成に用いる合成パラメータ
（韻律や音質を制御するパラメータ）を設定して、合成
音データを生成する。

【００６１】即ち、規則合成部２４は、設定した音声タ
イプにしたがい、例えば、合成音データの生成に用いる
音素片データの周波数特性等を、例えば、高域強調や低
域強調、イコライジング等を行うことによって変更し、
その周波数特性を変更した音素片データを接続すること
で、合成音データを生成する。これにより、規則合成部
２４では、男性または女性らしい合成音データや、子供
っぽい合成音データ、楽しげなまたは悲しげな感じの合
成音データ等の各種の音声タイプの合成音データが生成
される。また、規則合成部２４は、設定した音声タイプ
にしたがい、ピッチパターンやパワーパターンを決定
し、そのピッチパターンやパワーパターンを有する合成
音データを生成する。

【００６２】規則合成部２４で生成された合成音データ
は、音声融合部２６に供給される。なお、規則合成部２
４では、擬音語／擬態語解析部２１から供給される識別
タグ付きのテキストに対応する合成音データが生成され
るが、この合成音データには、テキストに付加されてい
る識別タグが、そのまま含められる。従って、規則合成
部２４が音声融合部２６に供給する合成音データには、
識別タグが付加されている。この識別タグは、上述した
ように、擬音語または擬態語を識別するためのものであ
り、従って、合成音データに付加される識別タグによれ
ば、合成音データとしての波形データのうちの、擬音語
または擬態語に対応する部分を認識することができる。

【００６３】音声融合部２６には、規則合成部２４から
合成音データが供給される他、擬音語／擬態語処理部２
７から効果音の音響データが、必要に応じて供給される
ようになっている。音声融合部２６は、合成音データと
音響データとを融合し、最終的な合成音データを得て出
力する。

【００６４】即ち、擬音語／擬態語処理部２７から音声
融合部２６に供給される効果音の音響データは、規則合
成部２４が出力する合成音データに対応するテキストか
ら抽出された擬音語または擬態語に対応するものであ
り、音声融合部２６は、その音響データを、合成音デー
タの全体または一部に重畳する。あるいは、音声融合部
２６は、合成音データの、擬音語または擬態語に対応す
る部分を、音響データに置換する。

【００６５】擬音語／擬態語処理部２７は、擬音語／擬
態語解析部２１から供給される擬音語または擬態語を処
理する。

【００６６】即ち、擬音語／擬態語処理部２７は、例え
ば、擬音語または擬態語に対応する効果音に対応する音
響データを生成し、音声融合部２６に供給する。

【００６７】具体的には、擬音語／擬態語処理部２７
は、例えば、効果音データベース２８を参照し、その効
果音データベース２８から、擬音語／擬態語解析部２１
から供給される擬音語または擬態語に対応する効果音の
音響データを読み出す。

【００６８】即ち、効果音データベース２８は、擬音語
または擬態語と、その擬音語または擬態語を表現する効
果音の音響データとを対応付けて記憶しており、擬音語
／擬態語処理部２７は、効果音データベース２８から、
擬音語／擬態語解析部２１から供給される擬音語または
擬態語に対応付けられている効果音の音響データを読み
出す。

【００６９】あるいは、また、擬音語／擬態語処理部２
７は、効果音生成部３０を制御することにより、擬音語
／擬態語解析部２１から供給される擬音語または擬態語
を表現する擬似的な効果音の音響データを生成させる。

【００７０】なお、擬音語／擬態語処理部２７は、上述
のようにして生成した音響データを、その音響データ
に、擬音語／擬態語解析部２１からの擬音語または擬態
語に付加されている識別タグとともに、音声融合部２６
に供給する。

【００７１】また、擬音語／擬態語処理部２７は、上述
のように、擬音語または擬態語に対応する音響データを
生成する他、規則合成部２４が生成する合成音の音声タ
イプを、音声タイプデータベース２９を参照することで
決定し、その音声タイプによる合成音を生成するよう
に、規則合成部２４に対して指示する。

【００７２】即ち、音声タイプデータベース２９は、例
えば、擬音語または擬態語と、その擬音語または擬態語
が表す意味を反映する感じの合成音の音声タイプとを対
応付けて記憶しており、擬音語／擬態語処理部２７は、
音声タイプデータベース２９から、擬音語／擬態語解析
部２１から供給される擬音語または擬態語に対応付けら
れている音声タイプを読み出し、規則合成部２４に供給
する。

【００７３】ここで、例えば、テキスト「わくわくす
る」における擬態語「わくわく」については、この擬態
語「わくわく」は、楽しさやうれしさを表現するもので
あり、従って、音声タイプデータベース２９では、擬態
語「わくわく」には、合成音が、はずんだ感じとなるよ
うな音声タイプ（例えば、合成音の高域が強調され、抑
揚が大きくなるようなもの）が対応付けられる。

【００７４】効果音生成部３０は、擬音語／擬態語処理
部２７の制御にしたがい、擬似音データベース３１を参
照することで、擬音語または擬態語を表現する擬似的な
効果音の音響データを生成する。

【００７５】即ち、擬似音データベース３１は、擬音語
もしくは擬態語、またはその一部の文字列と、効果音を
生成するための効果音情報とを対応付けて記憶してお
り、効果音生成部３０は、擬音語／擬態語解析部２１が
出力する擬音語もしくは擬態語の全体、またはその一部
の文字列と対応付けられている効果音情報を、擬似音デ
ータベース３１から読み出す。さらに、効果音生成部３
０は、その効果音情報に基づいて、擬音語／擬態語解析
部２１が出力する擬音語または擬態語を表現する擬似的
な効果音の音響データを生成し、擬音語／擬態語処理部
２７に供給する。

【００７６】以上のように構成される音声合成部５５で
は、行動決定機構部５２（図３）から供給される行動指
令情報に含まれるテキストから、擬音語または擬態語を
抽出する前処理、テキストから抽出された擬音語または
擬態語を処理する擬音語／擬態語処理、およびその擬音
語／擬態語処理の処理結果を用いて、行動指令情報に含
まれるテキストに対応する合成音を生成する音声合成処
理が行われる。

【００７７】そこで、まず、図５のフローチャートを参
照して、前処理について説明する。

【００７８】擬音語／擬態語解析部２１に対し、行動決
定機構部５２（図３）から、音声合成の対象とするテキ
ストを含む行動指令情報が供給されると、擬音語／擬態
語解析部２１は、行動決定機構部５２からの行動指令情
報を受信し、その行動指令情報に含まれるテキストを、
形態素解析部２２に供給して、形態素解析を要求する。

【００７９】これにより、形態素解析部２２は、ステッ
プＳ１において、擬音語／擬態語解析部２１からのテキ
ストの形態素解析を行い、その形態素解析結果を、擬音
語／擬態語解析部２１に供給する。擬音語／擬態語解析
部２１は、形態素解析部２２からの形態素解析結果を受
信し、ステップＳ２において、その形態素解析結果に基
づき、テキストに、擬音語または擬態語が含まれている
かどうかを判定する。ステップＳ２において、テキスト
に、擬音語または擬態語が含まれていないと判定された
場合、ステップＳ３をスキップして、ステップＳ４に進
み、擬音語／擬態語解析部２１は、行動指令情報に含ま
れていたテキストを、そのまま規則合成部２４に出力
し、前処理を終了する。なお、この場合は、後述する音
声合成処理（図８）において、従来の場合と同様の、テ
キストに対応する合成音が生成される。

【００８０】また、ステップＳ２において、テキスト
に、擬音語または擬態語が含まれていると判定された場
合、ステップＳ３に進み、擬音語／擬態語解析部２１
は、テキストから、擬音語または擬態語を抽出し、識別
タグを付加して、擬音語／擬態語処理部２７に出力す
る。

【００８１】そして、ステップＳ４に進み、擬音語／擬
態語解析部２１は、テキストに対して、そこに含まれる
擬音語または擬態語を認識することができるように、識
別タグを付加し、規則合成部２４に供給して、前処理を
終了する。

【００８２】以上のような前処理によれば、行動指令情
報に含まれるテキストが、例えば、「ビールをなみなみ
と注いで下さい。」である場合には、擬音語／擬態語解
析部２１では、擬態語「なみなみ」が抽出され、識別タ
グが付加された擬態語「<Pmix1>なみなみ」が、擬音語
／擬態語処理部２７に供給される。さらに、擬音語／擬
態語解析部２１では、識別タグが付加されたテキスト
「ビールを<Pmix1>なみなみ</Pmix1>と注いで下さ
い。」が、規則合成部２４に供給される。

【００８３】ここで、<>で挟まれた部分が識別タグであ
り、上述の識別タグ<Pmix1>における先頭のPは、擬音語
または擬態語の影響を、テキストに対応する合成音デー
タにおける擬音語または擬態語の部分だけに及ぼすこと
を意味する。従って、識別タグの先頭がPである場合に
は、音声融合部２６において、例えば、テキストに対応
する合成音データの擬音語または擬態語の部分だけに、
その擬音語または擬態語に対応する効果音の音響データ
が反映される。

【００８４】一方、擬音語または擬態語の影響を、テキ
ストに対応する合成音データの全体に及ぼす場合には、
識別タグの先頭は、例えば、Sとされる。従って、例え
ば、識別タグが、例えば、<Smix1>である場合には、音
声融合部２６において、例えば、テキストに対応する合
成音データの全体に、そのテキストに含まれる擬音語ま
たは擬態語に対応する効果音の音響データが重畳され
る。

【００８５】識別タグ<Pmix1>のPの後のmixは、音声融
合部２６において、テキストに対応する合成音データ
に、そのテキストに含まれる擬音語または擬態語に対応
する効果音の音響データを重畳することを意味する。な
お、音声融合部２６では、テキストに対応する合成音デ
ータの擬音語または擬態語の部分を、その擬音語または
擬態語に対応する効果音の音響データに置換することも
可能であり、この場合、識別タグとしては、上述のmix
に替えてrepが使用される。即ち、識別タグが、例え
ば、<Prep1>である場合には、音声融合部２６では、テ
キストに対応する合成音データの擬音語または擬態語の
部分が、その擬音語または擬態語に対応する効果音の音
響データに置換される。

【００８６】識別タグ<Pmix1>の最後に付されている数
字の1は、識別タグが付加された擬音語または擬態語に
付されるユニークな番号であり、テキストに含まれる擬
音語または擬態語に対して、例えば、１からのシーケン
シャルな数字が使用されるようになっている。従って、
テキストの複数の擬音語または擬態語が含まれる場合に
は、その先頭からの擬音語または擬態語に対して、<Pmi
x1>,<Pmix2>,・・・のように、数字がシーケンシャルに
増加していく識別タグが用いられる。

【００８７】また、擬音語／擬態語解析部２１におい
て、テキストに付される識別タグ<Pmix1>は、擬音語ま
たは擬態語の開始位置を表すのに対して、識別タグ</Pm
ix1>は、その擬音語または擬態語の終了位置を表す。

【００８８】以上から、行動指令情報に含まれるテキス
トが、例えば、「うれしくてワクワクする。」である場
合には、擬音語／擬態語解析部２１では、擬態語「ワク
ワク」が抽出される。さらに、この場合、音声融合部２
６において、例えば、テキストに対応する合成音データ
の擬音語または擬態語の部分だけに、その擬音語または
擬態語に対応する効果音の音響データが重畳させるとき
には、擬音語／擬態語解析部２１では、合成音データの
擬音語または擬態語の部分だけに、その擬音語または擬
態語に対応する効果音の音響データを反映させることを
表すP、およびその音響データを合成音データに重畳す
ることを表すmixを用いた識別タグ<Pmix1>が付加された
擬態語「<Pmix1>ワクワク」が生成され、擬音語／擬態
語処理部２７に供給される。さらに、擬音語／擬態語解
析部２１では、テキスト「うれしくてワクワクする。」
中の擬態語「ワクワク」の開始位置と終了位置に、それ
ぞれ識別タグ<Pmix1>と</Pmix1>が付加されたテキスト
「うれしくて<Pmix1>ワクワク</Pmix1>する。」が生成
され、規則合成部２４に供給される。

【００８９】また、行動指令情報に含まれるテキスト
が、例えば、「彼は手をパンパンたたいた。」である場
合には、擬音語／擬態語解析部２１では、擬音語「パン
パン」が抽出される。さらに、この場合、音声融合部２
６において、例えば、テキストに対応する合成音データ
の擬音語または擬態語の部分だけを、その擬音語または
擬態語に対応する効果音の音響データに置換させるとき
には、擬音語／擬態語解析部２１では、合成音データの
擬音語または擬態語の部分だけに、その擬音語または擬
態語に対応する効果音の音響データを反映させることを
表すP、および合成音データの擬音語「パンパン」の部
分を、その擬音語「パンパン」に対応する効果音の音響
データに置換することを表すrepを用いた識別タグ<Prep
1>が付加された擬音語「<Prep1>パンパン」が生成さ
れ、擬音語／擬態語処理部２７に供給される。さらに、
擬音語／擬態語解析部２１では、テキスト「彼は手をパ
ンパンたたいた。」中の擬音語「パンパン」の開始位置
と終了位置に、それぞれ識別タグ<Prep1>と</Prep1>が
付加されたテキスト「彼は手を<Prep1>パンパン</Prep1
>たたいた。」が生成され、規則合成部２４に供給され
る。

【００９０】なお、擬音語等に対応する効果音の音響デ
ータを、合成音データの擬音語等の部分だけに反映させ
るのか、または合成音データの全体に反映させるのかに
関する情報は、例えば、あらかじめ設定しておいたり、
あるいは、行動決定機構部５２から供給される行動指令
情報に含めておくようにすることが可能である。さら
に、擬音語等に対応する効果音の音響データを、合成音
データの擬音語等の部分だけに反映させるのか、または
合成音データの全体に反映させるのかは、ユーザに設定
させたり、また、擬音語等の前後の単語に基づいて設定
することも可能である。音響データを、合成音データに
重畳するのか、または合成音データの一部と置換するの
かについても同様である。

【００９１】次に、図６のフローチャートを参照して、
擬音語／擬態語処理について説明する。

【００９２】擬音語／擬態語処理は、擬音語／擬態語解
析部２１から擬音語／擬態語処理部２７に対して、識別
タブ付きの擬音語または擬態語が送信されることによっ
て開始され、まず最初に、ステップＳ１１において、擬
音語／擬態語処理部２７が、擬音語／擬態語解析部２１
から送信されてくる、識別タグ付きの擬音語または擬態
語を受信し、ステップＳ１２に進む。

【００９３】ステップＳ１２では、擬音語／擬態語処理
部２７が、効果音データベース２８を検索し、ステップ
Ｓ１３に進む。ステップＳ１３では、擬音語／擬態語処
理部２７が、ステップＳ１２における効果音データベー
ス２８の検索の結果、ステップＳ１１で受信した、擬音
語／擬態語解析部２１からの擬音語または擬態語を検出
することができたか、即ち、効果音データベース２８
に、擬音語／擬態語解析部２１からの擬音語または擬態
語が登録されているかどうかを判定する。

【００９４】ステップＳ１３において、効果音データベ
ース２８に、擬音語／擬態語解析部２１からの擬音語ま
たは擬態語が登録されていると判定された場合、ステッ
プＳ１４に進み、擬音語／擬態語処理部２７は、擬音語
／擬態語解析部２１からの擬音語または擬態語に対応付
けられている効果音の音響データを、効果音データベー
ス２８から読み出し、その音響データに、擬音語／擬態
語解析部２１からの擬音語または擬態語に付加されてい
た識別タグを付加する。さらに、擬音語／擬態語処理部
２７は、その識別タグ付きの音響データを、音声融合部
２６に出力し、擬音語／擬態語処理を終了する。

【００９５】従って、例えば、効果音データベース２８
に、擬態語「なみなみ」と、効果音「ゴボゴボッ」の音
響データとが対応付けられて登録されている場合におい
て、擬音語／擬態語解析部２１から擬音語／擬態語処理
部２７に対して、識別タグ付きの擬態語「なみなみ」が
供給されたときには、擬音語／擬態語処理部２７は、効
果音データベース２８から、擬態語「なみなみ」に対応
付けられている効果音「ゴボゴボッ」の音響データを読
み出し、擬態語「なみなみ」に付加されていた識別タグ
とともに、音声融合部２６に供給する。

【００９６】一方、ステップＳ１３において、効果音デ
ータベース２８に、擬音語／擬態語解析部２１からの擬
音語または擬態語（以下、適宜、注目擬音語等という）
が登録されていないと判定された場合、ステップＳ１５
に進み、擬音語／擬態語処理部２７は、合成音データの
音声タイプを指示するかどうかを判定する。

【００９７】ここで、合成音データの音声タイプを指示
するかどうかに関する情報は、例えば、ユーザがあらか
じめ設定することができ、あるいは、行動指令情報に含
めておくことができ、ステップＳ１３における判定処理
は、その情報に基づいて行われる。

【００９８】ステップＳ１５において、合成音データの
音声タイプを指示すると判定された場合、ステップＳ１
６に進み、擬音語／擬態語処理部２７は、音声タイプデ
ータベース２９を参照することにより、注目擬音語等に
対応付けられている音声タイプを、音声タイプデータベ
ース２９から読み出す。さらに、擬音語／擬態語処理部
２７は、その音声タイプをよる合成音データの生成を指
示する指示信号を、その音声タイプとともに、規則合成
部２４に供給し、擬音語／擬態語処理を終了する。

【００９９】従って、例えば、音声タイプデータベース
２９に、擬態語「ワクワク」と、抑揚の大きい音声タイ
プとが対応付けられて登録されている場合において、擬
音語／擬態語解析部２１から擬音語／擬態語処理部２７
に対して、識別タグ付きの擬態語「ワクワク」が供給さ
れたときには、擬音語／擬態語処理部２７は、音声タイ
プデータベース２９から、擬態語「ワクワク」に対応付
けられている、抑揚の大きい音声タイプを読み出し、そ
の音声タイプを指示する指示信号を、規則合成部２４に
供給する。

【０１００】なお、音声タイプデータベース２９に、注
目擬音語等が登録されていない場合には、擬音語／擬態
語処理部２７は、規則合成部２４に対して、例えば、デ
フォルトの音声タイプを指示する指示信号を供給する。

【０１０１】一方、ステップＳ１５において、合成音デ
ータの音声タイプを指示しないと判定された場合、ステ
ップＳ１７に進み、擬音語／擬態語処理部２７は、注目
擬音語等の効果音として、擬似的に生成した効果音（以
下、適宜、擬似効果音という）を使用するかどうかを判
定する。

【０１０２】ここで、注目擬音語等の効果音として、擬
似効果音を使用するかどうかに関する情報も、例えば、
合成音データの音声タイプを指示するかどうかに関する
情報と同様に、ユーザがあらかじめ設定することがで
き、あるいは、行動指令情報に含めておくことができ、
ステップＳ１７における判定処理は、その情報に基づい
て行われる。

【０１０３】ステップＳ１７において、注目擬音語等の
効果音として、擬似効果音を使用すると判定された場
合、ステップＳ１８に進み、擬音語／擬態語処理部２７
は、効果音生成部３０を制御することにより、注目擬音
語等の擬似効果音の音響データを生成させる。

【０１０４】即ち、この場合、効果音生成部３０は、擬
似音データベース３１を参照することにより、注目擬音
語等の擬似効果音の音響データを生成する。

【０１０５】ここで、擬似音データベース３１は、例え
ば、図７に示すように、擬音語もしくは擬態語の全体、
またはその一部の文字列と、擬似効果音を生成するため
の効果音情報とを対応付けて記憶している。図７の実施
の形態においては、擬似効果音を生成するための効果音
情報として、その擬似効果音の中心周波数、残響時間、
周波数揺らぎ、発生回数、発生間隔が記憶されている。

【０１０６】従って、例えば、擬音語／擬態語解析部２
１から擬音語／擬態語処理部２７に対して、識別タグ付
きの擬音語「パンパン」が供給されたときには、効果音
生成部３０は、擬似音データベース３０において、擬音
語「パンパン」の一部の文字列「パン」に対応付けられ
ている効果音情報としての中心周波数「1500Hz」、残響
時間「200ms」、周波数揺らぎ「中」、発生回数「1」、
発生間隔「500ms」を認識する。そして、効果音生成部
３０は、そのような効果音情報にしたがい、擬音語「パ
ンパン」の擬似効果音となる衝突減衰音の音響データを
生成し、擬音語／擬態語処理部２７に供給する。なお、
擬似効果音の音響データの生成にあたっては、例えば、
正弦波等を用いることができる。

【０１０７】擬音語／擬態語処理部２７は、効果音生成
部３０から擬似効果音の音響データを受信すると、その
音響データに、注目擬似音等に付加されていた識別タグ
を付加し、その識別タグ付きの音響データを、音声融合
部２６に出力して、擬音語／擬態語処理を終了する。

【０１０８】次に、図８のフローチャートを参照して、
音声合成処理について説明する。

【０１０９】音声合成処理は、擬音語／擬態語解析部２
１から規則合成部２４に対して、テキストが送信される
ことによって開始され、まず最初に、ステップＳ２１に
おいて、規則合成部２４が、擬音語／擬態語解析部２１
から送信されてくるテキストを受信し、ステップＳ２２
に進む。

【０１１０】ステップＳ２２では、規則合成部２４が、
擬音語／擬態語処理部２７から音声タイプを指示する指
示信号が送信されてきたかどうか、即ち、音声タイプの
指示があったかどうかを判定する。

【０１１１】ステップＳ２２において、音声タイプの指
示がないと判定された場合、ステップＳ２３に進み、規
則合成部２４は、デフォルトの音声タイプを設定し、ス
テップＳ２５に進む。

【０１１２】また、ステップＳ２２において、音声タイ
プの指示があったと判定された場合、ステップＳ２４に
進み、規則合成部２４は、その指示された音声タイプを
設定し、ステップＳ２５に進む。

【０１１３】ステップＳ２５では、規則合成部２４は、
規則音声合成を行うことにより、ステップＳ２３または
Ｓ２４で設定した音声タイプの音質や韻律による、擬音
語／擬態語解析部２１からのテキストに対応する合成音
データを生成する。

【０１１４】ここで、音韻情報を、ローマ字で表すこと
とすると、擬音語／擬態語解析部２１から規則合成部２
４に供給されるテキストが、例えば、「ビールを<Pmix1
>なみなみ</Pmix1>と注いで下さい。」である場合に
は、規則合成部２４では、音韻情報「bi:ruwo<Pmix1>na
minami</Pmix1>to tu'idekudasai」に対応する合成音デ
ータが生成される。なお、音韻情報において、:は、長
音を表し、'はアクセントの位置を表す。また、規則合
成部２４は、識別タグが表す擬音語または擬態語の区間
を認識することができるように、合成音データを生成す
る。

【０１１５】さらに、擬音語／擬態語解析部２１から規
則合成部２４に供給されるテキストが、例えば、「うれ
しくて<Pmix1>ワクワク</Pmix1>する。」である場合に
おいて、擬音語／擬態語処理部２７から規則合成部２４
に対して、抑揚の大きい音声タイプが指示されたときに
は、規則合成部２４は、「うれしくて<Pmix1>ワクワク<
/Pmix1>する。」のうちの、注目擬音語等「ワクワク」
については、抑揚の大きい韻律となり、注目擬音語等
「ワクワク」を除く「うれしくて」と「する。」につい
ては、デフォルトの韻律となる合成音データを生成す
る。なお、注目擬音語等「ワクワク」の識別タグが、＜
Smix１＞である場合には、「うれしくてワクワクす
る。」全体について、抑揚の大きい韻律の合成音データ
が生成される。

【０１１６】規則合成部２４がステップＳ２５において
生成した合成音データは、音声融合部２６に供給され、
その後、ステップＳ２５からＳ２６に進み、音声融合部
２６は、擬音語／擬態語処理部２７から、注目擬音語等
に対応する効果音の音響データが送信されてきたかどう
かを判定する。

【０１１７】ステップＳ２６において、音響データが送
信されてきていないと判定された場合、ステップＳ２７
をスキップして、ステップＳ２８に進み、音声融合部２
６は、規則合成部２４からの合成音データを、そのま
ま、スピーカ１８に供給して、音声合成処理を終了す
る。

【０１１８】従って、この場合、スピーカ１８からは、
規則合成部２４で生成された合成音データ（に対応する
合成音）がそのまま出力される。

【０１１９】但し、この場合、擬音語／擬態語処理部２
７において、音声タイプが指示されているときには、ス
ピーカ１８から出力される合成音は、その音声タイプ、
即ち、注目擬音語等に対応する音声タイプによる音質や
韻律を有するものとなる。従って、その合成音の音質や
韻律は、注目擬音語等の意味を表現するようなものとな
る。

【０１２０】一方、ステップＳ２６において、音響デー
タが送信されてきたと判定された場合、ステップＳ２７
に進み、音声融合部２６は、その音響データと、規則合
成部２４からの合成音データとを融合し、ステップＳ２
８に進む。

【０１２１】ステップＳ２８では、音声融合部２６は、
ステップＳ２７において音響データと合成音データとを
融合して得られる合成音データを、スピーカ１８に供給
し、音声合成処理を終了する。

【０１２２】従って、例えば、規則合成部２４におい
て、テキスト「ビールを<Pmix1>なみなみ</Pmix1>と注
いで下さい。」に対応する合成音データが生成されると
ともに、擬音語／擬態語処理部２７において、そのテキ
スト中の擬態語「<Pmix1>なみなみ」に対応する効果音
「ゴボゴボッ」の音響データが生成された場合には、音
声融合部２６は、識別タグ<Pmix1>における先頭のPとそ
れに続くmixにしたがい、テキスト「ビールをなみなみ
と注いで下さい。」に対応する合成音データの「なみな
み」の部分に、効果音「ゴボゴボッ」の音響データを重
畳する。その結果、スピーカ１８からは、「ビールをな
みなみと注いで下さい。」という合成音であって、その
「なみなみ」の部分で、「ゴボゴボッ」という効果音が
重畳されたものが出力される。

【０１２３】また、例えば、規則合成部２４において、
「彼は手を<Prep1>パンパン</Prep1>たたいた。」に対
応する合成音データが生成されるとともに、効果音生成
部３０において、そのテキスト中の擬音語「<Prep1>パ
ンパン」に対応する擬似効果音「パンパン」の音響デー
タが生成された場合には、音声融合部２６は、識別タグ
<Prep1>における先頭のPとそれに続くrepにしたがい、
テキスト「彼は手をパンパンたたいた。」に対応する合
成音データの「パンパン」の部分を、擬似効果音「パン
パン」の音響データに置換する。その結果、スピーカ１
８からは、「彼は手をパンパンたたいた。」という合成
音であって、その「パンパン」の部分が擬似効果音に置
換されたものが出力される。

【０１２４】なお、音声融合部２６において、合成音デ
ータにおける、どの部分が、擬音語または擬態語に対応
するかは、合成音データ中の識別タグに基づいて認識さ
れる。

【０１２５】また、テキストに複数の擬音語または擬態
語が含まれる場合には、音声融合部２６では、擬音語／
擬態語処理部２７が出力する音響データが、規則合成部
２４が出力する合成音データにおける複数の擬音語また
は擬態語のうちのいずれに対応するかは、音響データと
合成音データに付加されている識別タグを構成する数字
に基づいて認識される。

【０１２６】以上のように、テキストから擬音語または
擬態語を抽出して処理し、その擬音語または擬態語の処
理結果を用いて、音声合成を行うようにしたので、その
擬音語または擬態語の意味を表現するような「音」を用
いた、効果的な合成音を得ることができる。

【０１２７】以上、本発明を、エンターテイメント用の
ロボット（疑似ペットとしてのロボット）に適用した場
合について説明したが、本発明は、これに限らず、例え
ば、音声合成装置を搭載した対話システムその他に広く
適用することが可能である。また、本発明は、現実世界
のロボットだけでなく、例えば、液晶ディスプレイ等の
表示装置に表示される仮想的なロボットにも適用可能で
ある。

【０１２８】なお、本実施の形態においては、上述した
一連の処理を、ＣＰＵ１０Ａにプログラムを実行させる
ことにより行うようにしたが、一連の処理は、それ専用
のハードウェアによって行うことも可能である。

【０１２９】ここで、プログラムは、あらかじめメモリ
１０Ｂ（図２）に記憶させておく他、フレキシブルディ
スク、CD-ROM(Compact Disc Read Only Memory)，MO(Ma
gneto optical)ディスク，DVD(Digital Versatile Dis
c)、磁気ディスク、半導体メモリなどのリムーバブル記
録媒体に、一時的あるいは永続的に格納（記録）してお
くことができる。そして、このようなリムーバブル記録
媒体を、いわゆるパッケージソフトウエアとして提供
し、ロボット（メモリ１０Ｂ）にインストールするよう
にすることができる。

【０１３０】また、プログラムは、ダウンロードサイト
から、ディジタル衛星放送用の人工衛星を介して、無線
で転送したり、LAN(Local Area Network)、インターネ
ットといったネットワークを介して、有線で転送し、メ
モリ１０Ｂにインストールすることができる。

【０１３１】この場合、プログラムがバージョンアップ
されたとき等に、そのバージョンアップされたプログラ
ムを、メモリ１０Ｂに、容易にインストールすることが
できる。

【０１３２】なお、本明細書において、ＣＰＵ１０Ａに
各種の処理を行わせるためのプログラムを記述する処理
ステップは、必ずしもフローチャートとして記載された
順序に沿って時系列に処理する必要はなく、並列的ある
いは個別に実行される処理（例えば、並列処理あるいは
オブジェクトによる処理）も含むものである。

【０１３３】また、プログラムは、１のＣＰＵにより処
理されるものであっても良いし、複数のＣＰＵによって
分散処理されるものであっても良い。

【０１３４】次に、図４の音声合成部５５は、専用のハ
ードウェアにより実現することもできるし、ソフトウェ
アにより実現することもできる。音声合成装置５５をソ
フトウェアによって実現する場合には、そのソフトウェ
アを構成するプログラムが、汎用のコンピュータ等にイ
ンストールされる。

【０１３５】そこで、図９は、音声合成部５５を実現す
るためのプログラムがインストールされるコンピュータ
の一実施の形態の構成例を示している。

【０１３６】プログラムは、コンピュータに内蔵されて
いる記録媒体としてのハードディスク１０５やＲＯＭ１
０３に予め記録しておくことができる。

【０１３７】あるいはまた、プログラムは、フレキシブ
ルディスク、CD-ROM，MOディスク，DVD、磁気ディス
ク、半導体メモリなどのリムーバブル記録媒体１１１
に、一時的あるいは永続的に格納（記録）しておくこと
ができる。このようなリムーバブル記録媒体１１１は、
いわゆるパッケージソフトウエアとして提供することが
できる。

【０１３８】なお、プログラムは、上述したようなリム
ーバブル記録媒体１１１からコンピュータにインストー
ルする他、ダウンロードサイトから、ディジタル衛星放
送用の人工衛星を介して、コンピュータに無線で転送し
たり、LAN、インターネットといったネットワークを介
して、コンピュータに有線で転送し、コンピュータで
は、そのようにして転送されてくるプログラムを、通信
部１０８で受信し、内蔵するハードディスク１０５にイ
ンストールすることができる。

【０１３９】コンピュータは、CPU(Central Processing
Unit)１０２を内蔵している。CPU１０２には、バス１
０１を介して、入出力インタフェース１１０が接続され
ており、CPU１０２は、入出力インタフェース１１０を
介して、ユーザによって、キーボードや、マウス、マイ
ク等で構成される入力部１０７が操作等されることによ
り指令が入力されると、それにしたがって、ROM(Read O
nly Memory)１０３に格納されているプログラムを実行
する。あるいは、また、CPU１０２は、ハードディスク
１０５に格納されているプログラム、衛星若しくはネッ
トワークから転送され、通信部１０８で受信されてハー
ドディスク１０５にインストールされたプログラム、ま
たはドライブ１０９に装着されたリムーバブル記録媒体
１１１から読み出されてハードディスク１０５にインス
トールされたプログラムを、RAM(Random Access Memor
y)１０４にロードして実行する。これにより、CPU１０
２は、上述したフローチャートにしたがった処理、ある
いは上述したブロック図の構成により行われる処理を行
う。そして、CPU１０２は、その処理結果を、必要に応
じて、例えば、入出力インタフェース１１０を介して、
LCD(Liquid CryStal Display)やスピーカ等で構成され
る出力部１０６から出力、あるいは、通信部１０８から
送信、さらには、ハードディスク１０５に記録等させ
る。

【０１４０】なお、本実施の形態では、行動決定機構部
５２が生成するテキストから合成音を生成するようにし
たが、本発明は、あからじめ用意されたテキストから合
成音を生成する場合にも適用可能である。さらに、本発
明は、あらかじめ録音してある音声データを編集して、
目的とする合成音を生成する場合にも適用可能である。

【０１４１】また、本実施の形態においては、テキスト
に対応する合成音データに、そのテキストに含まれる擬
態語または擬音語に対応する効果音の音響データを反映
させるようにしたが、その他、音響データは、例えば、
テキストの表示に同期して出力するようにすること等が
可能である。

【０１４２】さらに、擬音語または擬態語に基づく音響
データの使用と、音声タイプの指示については、そのい
ずれかの一方だけを選択して行うこともできるし、その
両方を行うようにすることも可能である。

【０１４３】

【発明の効果】以上の如く、本発明の言語処理装置およ
び言語処理方法、並びにプログラムによれば、入力デー
タから擬音語または擬態語が抽出され、その擬音語また
は擬態語が処理される。そして、その擬音語または擬態
語の処理結果を用いて、入力データが言語処理される。
従って、例えば、その擬音語または擬態語の意味を表す
ような、効果的な合成音を生成することが可能となる。

【図面の簡単な説明】

【図１】本発明を適用したロボットの一実施の形態の外
観構成例を示す斜視図である。

【図２】ロボットの内部構成例を示すブロック図であ
る。

【図３】コントローラ１０の機能的構成例を示すブロッ
ク図である。

【図４】音声合成部５５の構成例を示すブロック図であ
る。

【図５】音声合成部５５による前処理を説明するフロー
チャートである。

【図６】音声合成部５５による擬音語／擬態語処理を説
明するフローチャートである。

【図７】擬似音データベース３１の記憶内容を示す図で
ある。

【図８】音声合成部５５による音声合成処理を説明する
フローチャートである。

【図９】本発明を適用したコンピュータの一実施の形態
の構成例を示すブロック図である。

【符号の説明】

１頭部ユニット，４Ａ下顎部，１０コントロ
ーラ，１０ＡＣＰＵ，１０Ｂメモリ，１５
マイク，１６ＣＣＤカメラ，１７タッチセン
サ，１８スピーカ，２１擬音語／擬態語解析
部，２２形態素解析部，２３辞書解析文法デー
タベース，２４規則合成部，２５音素片データ
ベース，２６音声融合部，２７擬音語／擬態語
処理部，２８効果音データベース，２９音声タ
イプデータベース，３０効果音生成部，３１擬
似音データベース，５０センサ入力処理部，５０
Ａ音声認識部，５０Ｂ画像認識部，５０Ｃ圧
力処理部，５１モデル記憶部，５２行動決定機
構部，５３姿勢遷移機構部，５４制御機構部，
５５音声合成部，１０１バス，１０２ CPU，
１０３ ROM，１０４ RAM，１０５ハードディ
スク，１０６出力部，１０７入力部，１０８
通信部，１０９ドライブ，１１０入出力インタ
フェース，１１１リムーバブル記録媒体

───────────────────────────────────────────────────── フロントページの続き (72)発明者新田朋晃東京都品川区北品川６丁目７番35号ソニー株式会社内 (72)発明者岸秀樹東京都品川区北品川６丁目７番35号ソニー株式会社内 (72)発明者長谷川里香東京都品川区北品川６丁目７番35号ソニー株式会社内 (72)発明者武田正資東京都品川区北品川６丁目７番35号ソニー株式会社内Ｆターム(参考） 5B091 AB00 BA02 BA12 CB32 CC02 5D045 AA07 AB11

Claims

【特許請求の範囲】

【請求項１】入力データを言語処理する言語処理装置
であって、前記入力データから擬音語または擬態語を抽出する抽出
手段と、前記擬音語または擬態語を処理する擬音語／擬態語処理
手段と、前記擬音語または擬態語の処理結果を用いて、前記入力
データを言語処理する言語処理手段とを備えることを特
徴とする言語処理装置。
【請求項２】前記入力データを形態素解析する形態素
解析手段をさらに備え、前記抽出手段は、前記入力データの形態素解析に基づい
て、前記入力データから擬音語または擬態語を抽出する
ことを特徴とする請求項１に記載の言語処理装置。
【請求項３】前記言語処理手段は、前記入力データに対応する合成音を生成し、前記前記擬音語または擬態語の処理結果を用いて、前記
合成音を処理することを特徴とする請求項１に記載の言
語処理装置。
【請求項４】前記擬音語／擬態語処理手段は、前記擬
音語または擬態語に対応する効果音を生成し、前記言語処理手段は、前記合成音と効果音とを融合する
ことを特徴とする請求項３に記載の言語処理装置。
【請求項５】擬音語または擬態語と、所定の効果音と
を対応付けて記憶している効果音記憶手段をさらに備
え、前記擬音語／擬態語処理手段は、前記効果音記憶手段か
ら、前記抽出手段において抽出された擬音語または擬態
語と対応付けられている効果音を読み出すことを特徴と
する請求項４に記載の言語処理装置。
【請求項６】擬音語もしくは擬態語、またはその一部
の文字列と、効果音を生成するための効果音情報とを対
応付けて記憶している効果音情報記憶手段をさらに備
え、前記擬音語／擬態語処理手段は、前記効果音情報に基づ
いて、前記擬音語または擬態語に対応する効果音を生成
することを特徴とする請求項４に記載の言語処理装置。
【請求項７】前記言語処理手段は、前記合成音に前記
効果音を重畳し、または前記効果音の一部を前記効果音
に置換することにより、前記合成音と効果音とを融合す
ることを特徴とする請求項４に記載の言語処理装置。
【請求項８】前記言語処理手段が、前記入力データに
対応する合成音を生成する場合において、前記擬音語／擬態語処理手段は、前記擬音語または擬態
語に基づいて、前記合成音の音声タイプを設定し、前記言語処理手段は、前記擬音語または擬態語に基づい
て設定された音声タイプの合成音を生成することを特徴
とする請求項１に記載の言語処理装置。
【請求項９】入力データを言語処理する言語処理方法
であって、前記入力データから擬音語または擬態語を抽出する抽出
ステップと、前記擬音語または擬態語を処理する擬音語／擬態語処理
ステップと、前記擬音語または擬態語の処理結果を用いて、前記入力
データを言語処理する言語処理ステップとを備えること
を特徴とする言語処理方法。
【請求項１０】入力データの言語処理を、コンピュー
タに行わせるプログラムであって、前記入力データから擬音語または擬態語を抽出する抽出
ステップと、前記擬音語または擬態語を処理する擬音語／擬態語処理
ステップと、前記擬音語または擬態語の処理結果を用いて、前記入力
データを言語処理する言語処理ステップとを備えること
を特徴とするプログラム。
【請求項１１】入力データの言語処理を、コンピュー
タに行わせるプログラムが記録されている記録媒体であ
って、前記入力データから擬音語または擬態語を抽出する抽出
ステップと、前記擬音語または擬態語を処理する擬音語／擬態語処理
ステップと、前記擬音語または擬態語の処理結果を用いて、前記入力
データを言語処理する言語処理ステップとを備えるプロ
グラムが記録されていることを特徴とする記録媒体。