JP2002318593A - 言語処理装置および言語処理方法、並びにプログラムおよび記録媒体 - Google Patents

言語処理装置および言語処理方法、並びにプログラムおよび記録媒体

Info

Publication number
JP2002318593A
JP2002318593A JP2001122039A JP2001122039A JP2002318593A JP 2002318593 A JP2002318593 A JP 2002318593A JP 2001122039 A JP2001122039 A JP 2001122039A JP 2001122039 A JP2001122039 A JP 2001122039A JP 2002318593 A JP2002318593 A JP 2002318593A
Authority
JP
Japan
Prior art keywords
sound information
verbal
sound
language processing
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001122039A
Other languages
English (en)
Inventor
Tomoaki Nitsuta
朋晃 新田
Makoto Akaha
誠 赤羽
Erika Kobayashi
恵理香 小林
Hideki Kishi
秀樹 岸
Rika Hasegawa
里香 長谷川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2001122039A priority Critical patent/JP2002318593A/ja
Publication of JP2002318593A publication Critical patent/JP2002318593A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 テキストの意味するところを、効果的に表現
する合成音を得る。 【解決手段】 非言語音生成モジュール21は、テキス
トから、非言語的な音の情報である非言語音情報を抽出
し、非言語音変換モジュール27は、その非言語音情報
に対応する効果音の音響データを取得する。一方、規則
音声合成モジュール25は、テキストに対応する合成音
データを生成し、テキスト非言語音融合モジュール29
は、合成音データの全部または一部に、非言語音情報か
ら得られた音響データを重畳する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、言語処理装置およ
び言語処理方法、並びにプログラムおよび記録媒体に関
し、特に、例えば、テキストから非言語音情報を抽出
し、その非言語音情報を用いて、テキストに対応する合
成音を生成することで、テキストの意味するところを、
効果的に表現する合成音を得ること等ができるようにす
る言語処理装置および言語処理方法、並びにプログラム
および記録媒体に関する。
【0002】
【従来の技術】例えば、音声合成装置では、入力された
テキストの形態素解析が行われ、その形態素解析結果に
基づいて、入力されたテキストに対応する合成音が生成
される。従って、音声合成装置が出力する合成音は、そ
のテキストの音韻をそのまま表現したものとなる。
【0003】
【発明が解決しようとする課題】ところで、人どうしの
会話等においては、いわゆる以心伝心や、行間を読むと
いったような形で、実際に言葉として表現されていない
非言語的な音の情報(非言語音情報)がやりとりされ
る。ここで、このような非言語音情報は、言葉にならな
い声や、身ぶり、表情等を媒介として、相手に伝えられ
る。
【0004】従来の音声合成装置では、このような非言
語音情報を考慮せずに処理が行われていたため、テキス
トによって伝えようとする意図や感情等が現れた合成音
を生成することが困難であった。
【0005】また、テキストにおいて、例えば、BGM
(Back Ground Music)が流れている場面は、そのBGM
の感じを表す形容詞や、「BGMが流れている」といっ
た文章で表現されることとなるが、音声合成装置におい
て、そのようなテキストの読み上げを行う場合には、テ
キストに対応する合成音を出力するだけでなく、そのテ
キストで表現されているBGMを実感できるような効果
音等を出力することができれば、合成音に、より臨場感
を持たせることができると考えられる。
【0006】本発明は、このような状況に鑑みてなされ
たものであり、テキストの意味するところを、効果的に
表現する合成音を得ること等ができるようにするもので
ある。
【0007】
【課題を解決するための手段】本発明の言語処理装置
は、入力データから、非言語的な音の情報である非言語
音情報を抽出する抽出手段と、非言語音情報を用いて、
入力データを言語処理する言語処理手段とを備えること
を特徴とする。
【0008】本発明の言語処理方法は、入力データか
ら、非言語的な音の情報である非言語音情報を抽出する
抽出ステップと、非言語音情報を用いて、入力データを
言語処理する言語処理ステップとを備えることを特徴と
する。
【0009】本発明のプログラムは、入力データから、
非言語的な音の情報である非言語音情報を抽出する抽出
ステップと、非言語音情報を用いて、入力データを言語
処理する言語処理ステップとを備えることを特徴とす
る。
【0010】本発明の記録媒体は、入力データから、非
言語的な音の情報である非言語音情報を抽出する抽出ス
テップと、非言語音情報を用いて、入力データを言語処
理する言語処理ステップとを備えるプログラムが記録さ
れていることを特徴とする。
【0011】本発明の言語処理装置および言語処理方
法、並びにプログラムにおいては、入力データから、非
言語的な音の情報である非言語音情報が抽出され、その
非言語音情報を用いて、入力データが言語処理される。
【0012】
【発明の実施の形態】図1は、本発明を適用したロボッ
トの一実施の形態の外観構成例を示しており、図2は、
その電気的構成例を示している。
【0013】本実施の形態では、ロボットは、例えば、
犬等の四つ足の動物の形状のものとなっており、胴体部
ユニット2の前後左右に、それぞれ脚部ユニット3A,
3B,3C,3Dが連結されるとともに、胴体部ユニッ
ト2の前端部と後端部に、それぞれ頭部ユニット4と尻
尾部ユニット5が連結されることにより構成されてい
る。
【0014】尻尾部ユニット5は、胴体部ユニット2の
上面に設けられたベース部5Bから、2自由度をもって
湾曲または揺動自在に引き出されている。
【0015】胴体部ユニット2には、ロボット全体の制
御を行うコントローラ10、ロボットの動力源となるバ
ッテリ11、並びにバッテリセンサ12および熱センサ
13からなる内部センサ部14などが収納されている。
【0016】頭部ユニット4には、「耳」に相当するマ
イク(マイクロフォン)15、「目」に相当するCCD
(Charge Coupled Device)カメラ16、触覚に相当する
タッチセンサ17、「口」に相当するスピーカ18など
が、それぞれ所定位置に配設されている。また、頭部ユ
ニット4には、口の下顎に相当する下顎部4Aが1自由
度をもって可動に取り付けられており、この下顎部4A
が動くことにより、ロボットの口の開閉動作が実現され
るようになっている。
【0017】脚部ユニット3A乃至3Dそれぞれの関節
部分や、脚部ユニット3A乃至3Dそれぞれと胴体部ユ
ニット2の連結部分、頭部ユニット4と胴体部ユニット
2の連結部分、頭部ユニット4と下顎部4Aの連結部
分、並びに尻尾部ユニット5と胴体部ユニット2の連結
部分などには、図2に示すように、それぞれアクチュエ
ータ3AA1乃至3AAK、3BA1乃至3BAK、3CA
1乃至3CAK、3DA1乃至3DAK、4A1乃至4AL
5A1および5A2が配設されている。
【0018】頭部ユニット4におけるマイク15は、ユ
ーザからの発話を含む周囲の音声(音)を集音し、得ら
れた音声信号を、コントローラ10に送出する。CCD
カメラ16は、周囲の状況を撮像し、得られた画像信号
を、コントローラ10に送出する。
【0019】タッチセンサ17は、例えば、頭部ユニッ
ト4の上部に設けられており、ユーザからの「なでる」
や「たたく」といった物理的な働きかけにより受けた圧
力を検出し、その検出結果を圧力検出信号としてコント
ローラ10に送出する。
【0020】胴体部ユニット2におけるバッテリセンサ
12は、バッテリ11の残量を検出し、その検出結果
を、バッテリ残量検出信号としてコントローラ10に送
出する。熱センサ13は、ロボット内部の熱を検出し、
その検出結果を、熱検出信号としてコントローラ10に
送出する。
【0021】コントローラ10は、CPU(Central Pro
cessing Unit)10Aやメモリ10B等を内蔵してお
り、CPU10Aにおいて、メモリ10Bに記憶された
制御プログラムが実行されることにより、各種の処理を
行う。
【0022】即ち、コントローラ10は、マイク15
や、CCDカメラ16、タッチセンサ17、バッテリセ
ンサ12、熱センサ13から与えられる音声信号、画像
信号、圧力検出信号、バッテリ残量検出信号、熱検出信
号に基づいて、周囲の状況や、ユーザからの指令、ユー
ザからの働きかけなどの有無を判断する。
【0023】さらに、コントローラ10は、この判断結
果等に基づいて、続く行動を決定し、その決定結果に基
づいて、アクチュエータ3AA1乃至3AAK、3BA1
乃至3BAK、3CA1乃至3CAK、3DA1乃至3DA
K、4A1乃至4AL、5A1、5A2のうちの必要なもの
を駆動させる。これにより、頭部ユニット4を上下左右
に振らせたり、下顎部4Aを開閉させる。さらには、尻
尾部ユニット5を動かせたり、各脚部ユニット3A乃至
3Dを駆動して、ロボットを歩行させるなどの行動を行
わせる。
【0024】また、コントローラ10は、必要に応じ
て、合成音を生成し、スピーカ18に供給して出力させ
たり、ロボットの「目」の位置に設けられた図示しない
LED(Light Emitting Diode)を点灯、消灯または点
滅させる。
【0025】以上のようにして、ロボットは、周囲の状
況等に基づいて自律的に行動をとるようになっている。
【0026】次に、図3は、図2のコントローラ10の
機能的構成例を示している。なお、図3に示す機能的構
成は、CPU10Aが、メモリ10Bに記憶された制御
プログラムを実行することで実現されるようになってい
る。
【0027】コントローラ10は、特定の外部状態を認
識するセンサ入力処理部50、センサ入力処理部50の
認識結果を累積して、感情や、本能、成長の状態を表現
するモデル記憶部51、センサ入力処理部50の認識結
果等に基づいて、続く行動を決定する行動決定機構部5
2、行動決定機構部52の決定結果に基づいて、実際に
ロボットに行動を起こさせる姿勢遷移機構部53、各ア
クチュエータ3AA1乃至5A1および5A2を駆動制御
する制御機構部54、並びに合成音を生成する音声合成
部55から構成されている。
【0028】センサ入力処理部50は、マイク15や、
CCDカメラ16、タッチセンサ17等から与えられる
音声信号、画像信号、圧力検出信号等に基づいて、特定
の外部状態や、ユーザからの特定の働きかけ、ユーザか
らの指示等を認識し、その認識結果を表す状態認識情報
を、モデル記憶部51および行動決定機構部52に通知
する。
【0029】即ち、センサ入力処理部50は、音声認識
部50Aを有しており、音声認識部50Aは、マイク1
5から与えられる音声信号について音声認識を行う。そ
して、音声認識部50Aは、その音声認識結果として
の、例えば、「歩け」、「伏せ」、「ボールを追いかけ
ろ」等の指令その他を、状態認識情報として、モデル記
憶部51および行動決定機構部52に通知する。
【0030】また、センサ入力処理部50は、画像認識
部50Bを有しており、画像認識部50Bは、CCDカ
メラ16から与えられる画像信号を用いて、画像認識処
理を行う。そして、画像認識部50Bは、その処理の結
果、例えば、「赤い丸いもの」や、「地面に対して垂直
なかつ所定高さ以上の平面」等を検出したときには、
「ボールがある」や、「壁がある」等の画像認識結果
を、状態認識情報として、モデル記憶部51および行動
決定機構部52に通知する。
【0031】さらに、センサ入力処理部50は、圧力処
理部50Cを有しており、圧力処理部50Cは、タッチ
センサ17から与えられる圧力検出信号を処理する。そ
して、圧力処理部50Cは、その処理の結果、所定の閾
値以上で、かつ短時間の圧力を検出したときには、「た
たかれた(しかられた)」と認識し、所定の閾値未満
で、かつ長時間の圧力を検出したときには、「なでられ
た(ほめられた)」と認識して、その認識結果を、状態
認識情報として、モデル記憶部51および行動決定機構
部52に通知する。
【0032】モデル記憶部51は、ロボットの感情、本
能、成長の状態を表現する感情モデル、本能モデル、成
長モデルをそれぞれ記憶、管理している。
【0033】ここで、感情モデルは、例えば、「うれし
さ」、「悲しさ」、「怒り」、「楽しさ」等の感情の状
態(度合い)を、所定の範囲(例えば、−1.0乃至
1.0等)の値によってそれぞれ表し、センサ入力処理
部50からの状態認識情報や時間経過等に基づいて、そ
の値を変化させる。本能モデルは、例えば、「食欲」、
「睡眠欲」、「運動欲」等の本能による欲求の状態(度
合い)を、所定の範囲の値によってそれぞれ表し、セン
サ入力処理部50からの状態認識情報や時間経過等に基
づいて、その値を変化させる。成長モデルは、例えば、
「幼年期」、「青年期」、「熟年期」、「老年期」等の
成長の状態(度合い)を、所定の範囲の値によってそれ
ぞれ表し、センサ入力処理部50からの状態認識情報や
時間経過等に基づいて、その値を変化させる。
【0034】モデル記憶部51は、上述のようにして感
情モデル、本能モデル、成長モデルの値で表される感
情、本能、成長の状態を、状態情報として、行動決定機
構部52に送出する。
【0035】なお、モデル記憶部51には、センサ入力
処理部50から状態認識情報が供給される他、行動決定
機構部52から、ロボットの現在または過去の行動、具
体的には、例えば、「長時間歩いた」などの行動の内容
を示す行動情報が供給されるようになっており、モデル
記憶部51は、同一の状態認識情報が与えられても、行
動情報が示すロボットの行動に応じて、異なる状態情報
を生成するようになっている。
【0036】即ち、例えば、ロボットが、ユーザに挨拶
をし、ユーザに頭を撫でられた場合には、ユーザに挨拶
をしたという行動情報と、頭を撫でられたという状態認
識情報とが、モデル記憶部51に与えられ、この場合、
モデル記憶部51では、「うれしさ」を表す感情モデル
の値が増加される。
【0037】一方、ロボットが、何らかの仕事を実行中
に頭を撫でられた場合には、仕事を実行中であるという
行動情報と、頭を撫でられたという状態認識情報とが、
モデル記憶部51に与えられ、この場合、モデル記憶部
51では、「うれしさ」を表す感情モデルの値は変化さ
れない。
【0038】このように、モデル記憶部51は、状態認
識情報だけでなく、現在または過去のロボットの行動を
示す行動情報も参照しながら、感情モデルの値を設定す
る。これにより、例えば、何らかのタスクを実行中に、
ユーザが、いたずらするつもりで頭を撫でたときに、
「うれしさ」を表す感情モデルの値を増加させるよう
な、不自然な感情の変化が生じることを回避することが
できる。
【0039】なお、モデル記憶部51は、本能モデルお
よび成長モデルについても、感情モデルにおける場合と
同様に、状態認識情報および行動情報の両方に基づい
て、その値を増減させるようになっている。また、モデ
ル記憶部51は、感情モデル、本能モデル、成長モデル
それぞれの値を、他のモデルの値にも基づいて増減させ
るようになっている。
【0040】行動決定機構部52は、センサ入力処理部
50からの状態認識情報や、モデル記憶部51からの状
態情報、時間経過等に基づいて、次の行動を決定し、決
定された行動の内容を、行動指令情報として、姿勢遷移
機構部53に送出する。
【0041】即ち、行動決定機構部52は、ロボットが
とり得る行動をステート(状態)(state)に対応させた
有限オートマトンを、ロボットの行動を規定する行動モ
デルとして管理しており、この行動モデルとしての有限
オートマトンにおけるステートを、センサ入力処理部5
0からの状態認識情報や、モデル記憶部51における感
情モデル、本能モデル、または成長モデルの値、時間経
過等に基づいて遷移させ、遷移後のステートに対応する
行動を、次にとるべき行動として決定する。
【0042】ここで、行動決定機構部52は、所定のト
リガ(trigger)があったことを検出すると、ステートを
遷移させる。即ち、行動決定機構部52は、例えば、現
在のステートに対応する行動を実行している時間が所定
時間に達したときや、特定の状態認識情報を受信したと
き、モデル記憶部51から供給される状態情報が示す感
情や、本能、成長の状態の値が所定の閾値以下または以
上になったとき等に、ステートを遷移させる。
【0043】なお、行動決定機構部52は、上述したよ
うに、センサ入力処理部50からの状態認識情報だけで
なく、モデル記憶部51における感情モデルや、本能モ
デル、成長モデルの値等にも基づいて、行動モデルにお
けるステートを遷移させることから、同一の状態認識情
報が入力されても、感情モデルや、本能モデル、成長モ
デルの値(状態情報)によっては、ステートの遷移先は
異なるものとなる。
【0044】その結果、行動決定機構部52は、例え
ば、状態情報が、「怒っていない」こと、および「お腹
がすいていない」ことを表している場合において、状態
認識情報が、「目の前に手のひらが差し出された」こと
を表しているときには、目の前に手のひらが差し出され
たことに応じて、「お手」という行動をとらせる行動指
令情報を生成し、これを、姿勢遷移機構部53に送出す
る。
【0045】また、行動決定機構部52は、例えば、状
態情報が、「怒っていない」こと、および「お腹がすい
ている」ことを表している場合において、状態認識情報
が、「目の前に手のひらが差し出された」ことを表して
いるときには、目の前に手のひらが差し出されたことに
応じて、「手のひらをぺろぺろなめる」ような行動を行
わせるための行動指令情報を生成し、これを、姿勢遷移
機構部53に送出する。
【0046】また、行動決定機構部52は、例えば、状
態情報が、「怒っている」ことを表している場合におい
て、状態認識情報が、「目の前に手のひらが差し出され
た」ことを表しているときには、状態情報が、「お腹が
すいている」ことを表していても、また、「お腹がすい
ていない」ことを表していても、「ぷいと横を向く」よ
うな行動を行わせるための行動指令情報を生成し、これ
を、姿勢遷移機構部53に送出する。
【0047】なお、行動決定機構部52では、上述した
ように、ロボットの頭部や手足等を動作させる行動指令
情報の他、ロボットに発話を行わせる行動指令情報も生
成される。ロボットに発話を行わせる行動指令情報は、
音声合成部55に供給されるようになっており、音声合
成部55に供給される行動指令情報には、音声合成部5
5に生成させる合成音に対応するテキスト等が含まれ
る。そして、音声合成部55は、行動決定部52から行
動指令情報を受信すると、その行動指令情報に含まれる
テキストに基づき、合成音を生成し、スピーカ18に供
給して出力させる。これにより、スピーカ18からは、
例えば、ロボットの鳴き声、さらには、「お腹がすい
た」等のユーザへの各種の要求、「何?」等のユーザの
呼びかけに対する応答その他の音声出力が行われる。な
お、行動決定機構部52は、音声合成部55から合成音
を出力させる場合には、下顎部4Aを開閉させる行動指
令情報を、必要に応じて生成し、姿勢遷移機構部53に
出力する。この場合、合成音の出力に同期して、下顎部
4Aが開閉し、ユーザに、ロボットがしゃべっているか
のような印象を与えることができる。
【0048】姿勢遷移機構部53は、行動決定機構部5
2から供給される行動指令情報に基づいて、ロボットの
姿勢を、現在の姿勢から次の姿勢に遷移させるための姿
勢遷移情報を生成し、これを制御機構部54に送出す
る。
【0049】制御機構部54は、姿勢遷移機構部53か
らの姿勢遷移情報にしたがって、アクチュエータ3AA
1乃至5A1および5A2を駆動するための制御信号を生
成し、これを、アクチュエータ3AA1乃至5A1および
5A2に送出する。これにより、アクチュエータ3AA1
乃至5A1および5A2は、制御信号にしたがって駆動
し、ロボットは、自律的に行動を起こす。
【0050】次に、図4は、図3の音声合成部55の構
成例を示している。
【0051】非言語音生成モジュール21には、行動決
定機構部52が出力する、音声合成の対象とするテキス
トを含む行動指令情報が供給されるようになっており、
非言語音生成モジュール21は、行動指令情報からテキ
ストを抽出し、さらに、そのテキストから非言語音情報
を抽出する。
【0052】即ち、図5は、図4の非言語音生成モジュ
ール21の構成例を示している。
【0053】行動指令情報は、テキスト処理部41に供
給されるようになっており、テキスト処理部41は、行
動指令情報に含まれるテキストを抽出し、抽出部42と
出力部45に供給する。
【0054】抽出部42は、テキスト処理部41からの
テキストを受信し、言語解析部43を制御することによ
り、そのテキストの言語解析を行わせる。
【0055】即ち、言語解析部43は、抽出部42の制
御にしたがい、テキストの形態素解析、構文解析、およ
び意味解析を行い、これらの言語解析結果を、抽出部4
2に供給する。
【0056】抽出部42は、さらに、言語解析部43か
らの言語解析結果に基づき、非言語音情報データベース
44を参照することで、テキストにおける非言語音情報
を抽出する。
【0057】即ち、非言語音情報データベース44は、
例えば、図6に示すように、見出しとタイプに対応付け
て、その見出しに対応する非言語音情報を記憶してい
る。
【0058】ここで、図6の実施の形態においては、見
出し「せみの声」に対して、非言語音情報「せみの声」
が、見出し「ビール」に対して、非言語音情報「ビール
を飲む音」が、見出し「ドア」と「たたく」の組に対し
て、非言語音情報「ドアをたたく音」が、見出し「楽し
い」に対して、非言語音情報「楽しそうな音」が、それ
ぞれ対応付けられている。
【0059】また、図6の実施の形態においては、見出
しのタイプとして、「単語」、「係り受け」、および
「意味」があり、「単語」は、見出しが単語(単語列を
含む)であることを表す。また、「係り受け」は、見出
しの複数の単語が係り受け関係にあること(修飾語と被
修飾語の関係にあること)を表し、「意味」は、見出し
が単語の意味であることを表す。
【0060】抽出部42は、非言語音情報データベース
44を参照することで、テキストから、「見出し」と
「タイプ」に合致する単語(以下、適宜、非言語音情報
対応単語という)を検出し、その非言語音情報対応単語
が合致する「見出し」と「タイプ」に対応付けられてい
る非言語音情報を、非言語音情報データベース44から
読み出す。
【0061】従って、抽出部42では、例えば、テキス
ト「せみの声がうるさい」については、見出し「せみの
声」に合致し、かつ「単語」(ここでは、単語列も含む
ものとする)であるタイプの単語(列)「せみの声」
が、非言語音情報対応単語として検出される。そして、
抽出部42では、その非言語音情報対応単語「せみの
声」が合致する見出しとタイプに対応付けられている非
言語音情報「せみの声」が、非言語音情報データベース
44から読み出される。
【0062】また、例えば、テキスト「彼はドアを大き
な音でたたいた」については、抽出部42では、見出し
「ドア」と「たたく」の組に合致し、かつ「係り受け」
であるタイプの単語「ドア」と「たたいた」の組が、非
言語音情報対応単語として検出される。そして、抽出部
42では、その非言語音情報対応単語「ドア」と「たた
いた」が合致する見出し「ドア」と「たたく」の組に対
応付けられている非言語音情報「ドアをたたく音」が、
非言語音情報データベース44から読み出される。
【0063】さらに、例えば、テキスト「彼女はほがら
かに笑いながら答えた」については単語「ほがらか」や
「笑い」が、楽しいという意味を表すことから、タイプ
が「意味」で、見出しが「楽しい」に合致する。従っ
て、抽出部42では、「ほがらか」や「笑い」が、非言
語音情報対応単語として検出され、さらに、その非言語
音情報対応単語「ほがらか」や「笑い」の意味を表す見
出し「楽しい」に対応付けられている非言語音情報「楽
しそうな音」が、非言語音情報データベース44から読
み出される。
【0064】なお、テキストにおける単語の各タイプの
見出しは、言語解析部43による言語解析結果に基づい
て認識することができる。
【0065】即ち、テキストにおける単語については、
タイプ「単語」の見出しは、言語解析部43における形
態素解析結果に基づいて認識することができる。また、
タイプ「係り受け」の見出しは、言語解析部43におけ
る構文解析結果に基づいて認識することができ、さら
に、タイプ「意味」の見出しは、言語解析部43におけ
る意味解析結果に基づいて認識することができる。
【0066】ここで、非言語音情報データベース44に
おける「見出し」としては、例えば、効果音を付与可能
な表現や、効果音を伴う行動もしくは状態を表す表現、
修飾表現などを採用することができる。
【0067】図6の実施の形態において、見出し「せみ
の声」については、例えば、「ミーンミーン」といった
効果音の付与が可能であり、また、見出し「ビール」に
ついては、「ゴクゴク」といった効果音の付与が可能で
あることから、これらの見出し「せみの声」や「ビー
ル」は、効果音を付与することが可能な表現であるとい
うことができる。さらに、見出し「ドア」と「たたく」
の組は、例えば、「ドンドン」といった効果音を伴っ
て、ドアをたたく行動を表すことから、効果音を伴う行
動もしくは状態を表す表現であるということができる。
また、見出し「楽しい」は、そのような意味の単語(例
えば、上述の「ほがらか」など)が名詞等を修飾するこ
とから、修飾表現であるということができる。
【0068】図5に戻り、抽出部42は、上述のように
して、テキストから、非言語音情報を抽出すると、その
非言語音情報を、出力部45に供給する。
【0069】出力部45は、テキスト処理部41から供
給されるテキストを、抽出部42から供給される非言語
音情報とともに、非言語音情報解釈モジュール22(図
4)に供給する。
【0070】ここで、出力部45は、テキストおよび非
言語音情報を、例えば、テキストに、非言語音情報を付
加した形で、非言語音情報解釈モジュール22に供給す
る。あるいは、また、非言語音生成モジュール21は、
例えば、テキストと、非言語音情報とを、構造体の形に
して、非言語音情報解釈モジュール22に供給する。
【0071】非言語音情報解釈モジュール22は、非言
語音生成モジュール21から供給されるテキストと非言
語音情報のセットについて、後述するテキスト非言語音
融合モジュール29において、テキストに対応する合成
音データに対し、非言語音情報に対応する音響データを
融合させるタイミングを表すタイミングデータを生成
し、テキストと非言語音情報のセットに付加する。
【0072】ここで、テキストおよび非言語音情報のセ
ットに対するタイミングデータの付加は、例えば、タグ
を用いて行うことができる。
【0073】即ち、例えば、テキストが、「今日はとっ
ても眠い」であり、そのテキスト「今日はとっても眠
い」における単語「眠い」に基づき、あくびの音を表す
非言語音情報「あくび」が抽出された場合において、タ
イミングデータとして、テキスト「今日はとっても眠
い」の先頭から3文字目の直後の位置を表すものが生成
されたときには、非言語音情報解釈モジュール22は、
タイミングデータが付加されたテキストおよび非言語音
情報のセット(以下、適宜、タイミング付きテキストセ
ットという)として、例えば、「今日は<あくび>とって
も眠い」を生成する。このタイミング付きテキストセッ
ト「今日は<あくび>とっても眠い」においては、タイミ
ングデータにしたがい、先頭から3文字目の直後に、非
言語情報「あくび」を表すタグ<あくび>が配置されて
おり、従って、先頭から3文字「今日は」の直後のタイ
ミングにおいて、非言語音情報「あくび」に対応する音
響データを融合することを表す。
【0074】また、この場合、非言語音情報解釈モジュ
ール22には、タイミング付きテキストセットとして、
例えば、「今日はとっても眠い,<あくび>,3」を生成さ
せることもできる。このタイミング付きテキストセット
「今日はとっても眠い,<あくび>,3」は、テキスト「今
日はとっても眠い」、非言語音情報「あくび」、および
先頭から3文字目の直後を表すタイミングデータ「3」
をセットにしたものであるが、このようなタイミング付
きテキストセットも、「今日は」の直後のタイミングに
おいて、非言語音情報「あくび」に対応する音響データ
を融合することを表す。
【0075】その他、タイミング付きテキストセットと
しては、テキストの構造を表すテキスト構造体、非言語
音情報、およびタイミングデータのセット等を採用する
ことも可能である。
【0076】なお、非言語音情報解釈モジュール22に
おいて、非言語音情報に対応する音響データを、テキス
トに対応する合成音データに融合させるタイミングとし
ては、例えば、合成音データにおいて、単語どうしの境
目や、ポーズがおかれる位置などの、何らかの区切りに
なっている部分を採用することができる。また、非言語
音情報に対応する音響データを、テキストに対応する合
成音データに融合させるタイミングは、音声合成部55
の外部から指定するようにすることも可能である。ここ
で、外部からタイミングを指定する方法としては、例え
ば、ユーザに指定してもらう方法や、行動指令情報に、
そのタイミングを含めて、音声合成部55に供給する方
法等がある。さらに、非言語音情報に対応する音響デー
タを、テキストに対応する合成音データに融合させるタ
イミングとしては、テキスト中の、非言語音情報に対応
する単語の開始位置等を採用することも可能である。
【0077】非言語音情報解釈モジュール22は、タイ
ミング付きテキストセットを生成すると、そのタイミン
グ付きテキストセットから、テキストと非言語音情報を
分離し、非言語音情報を、タイミング付きテキストセッ
トに含まれるタイミングデータとともに、非言語音変換
モジュール27に供給する。
【0078】即ち、タイミング付きテキストセットが、
例えば、上述の「今日は<あくび>とっても眠い」である
場合には、非言語音情報解釈モジュール22は、そのタ
イミング付きテキストセット「今日は<あくび>とっても
眠い」から、テキスト「今日はとっても眠い」と、非言
語音情報「あくび」とを分離する。さらに、非言語音情
報解釈モジュール22は、タイミング付きテキストセッ
ト「今日は<あくび>とっても眠い」における非言語音情
報<あくび>の位置から、タイミングデータが、先頭から
3文字目を表すことを認識し、その文字数である3を、
タイミングデータとして、非言語音情報「あくび」とと
もに、非言語音変換モジュール27に供給する。
【0079】また、非言語音情報解釈モジュール22
は、形態素解析モジュール23および音声記号列生成モ
ジュール24を制御することで、タイミング付きテキス
トセットから分離したテキストを、その音韻情報等を表
す音声記号に変換する。
【0080】即ち、非言語音情報解釈モジュール22
は、テキストを、形態素解析モジュール23に供給し、
形態素解析モジュール23は、そのテキストの形態素解
析を行い、音声記号列生成モジュール24に供給する。
音声記号列生成モジュール24は、形態素解析モジュー
ル23による形態素解析結果に基づいて、テキストの音
韻情報等を含む音声記号を生成し、非言語音情報解釈モ
ジュール22に供給する。
【0081】なお、形態素解析モジュール23は、特に
設ける必要はなく、テキストの形態素解析結果として
は、図5の言語解析部43で得られるものを用いること
が可能である。
【0082】非言語音情報解釈モジュール22は、音声
記号列生成モジュール24から、テキストに対応する音
声記号(列)を受信すると、タイミングデータを、その
音声記号に対応したものに変換し、音声記号とともに、
規則合成モジュール25に供給する。
【0083】即ち、音声記号列生成モジュール24にお
いて、例えば、テキスト「今日はとっても眠い」につい
て、"(kyo'-wa/to'ttemo/nemui)"という音声記号が得ら
れたとする。
【0084】ここで、音声記号"(kyo'-wa/to'ttemo/nem
ui)"においては、音韻情報が、ローマ字で表されてい
る。また、-は、長音を表し、()は、フレームの区切り
を表す。さらに、'は、アクセントを表し、/は、アクセ
ント句の区切りを表す。
【0085】テキスト「今日はとっても眠い」のタイミ
ングデータは、上述したように、その先頭から3文字目
の直後を表すが、音声記号"(kyo'-wa/to'ttemo/nemui)"
において、テキスト「今日はとっても眠い」の先頭から
3文字目の直後に相当するのは、音韻情報"kyo-wa"の直
後である。従って、この場合、非言語音情報解釈モジュ
ール22では、先頭から3文字目というタイミングデー
タは、先頭から6文字目に変換される。なお、音声記号
における文字数は、音韻情報のみを対象にカウントする
ものとし、さらに、長音は音韻情報に含まれるものとす
る。
【0086】規則合成モジュール25は、非言語音情報
解釈モジュール22からの音声記号を用いて、規則音声
合成を行う。即ち、規則合成モジュール25は、まず、
非言語音情報解釈モジュール22から供給される音声記
号から、テキストに対応する合成音を生成する規則音声
合成を行うのに必要な情報を抽出する。ここで、規則音
声合成に必要な情報としては、例えば、ポーズの位置
や、アクセントおよびイントネーションを制御するため
の情報その他の韻律情報や、各単語の発音等の音韻情報
などがある。
【0087】さらに、規則合成モジュール25は、音素
片データベース26を参照して、非言語音生成モジュー
ル21からのテキストに対応する合成音の音声データ
(ディジタルデータ)を生成する。
【0088】即ち、音素片データベース26には、例え
ば、CV(Consonant, Vowel)や、VCV、CVC等の形
で音素片データが記憶されており、規則合成モジュール
25は、先に得た韻律情報や音韻情報に基づいて、必要
な音素片データを接続し、さらに、ポーズ、アクセン
ト、イントネーション等を適切に付加するように、ピッ
チ周波数の時間変化のパターン(ピッチパターン)や、
パワーの時間変化のパターン(パワーパターン)を設定
することで、非言語音生成モジュール21からのテキス
トに対応する合成音データを生成する。
【0089】また、規則合成モジュール25は、非言語
音情報解釈モジュール22から音声記号とともに供給さ
れるタイミングデータを、生成した合成音データに対応
したものに変換する。
【0090】即ち、非言語音情報解釈モジュール22か
ら規則合成モジュール25に対して、例えば、上述した
ような音声記号"(kyo'-wa/to'ttemo/nemui)"と、その先
頭から6文字目の直後を表すタイミングデータが供給さ
れた場合において、音声記号の先頭から6文字目の直後
のタイミングが、例えば、合成音データの先頭から20
msであるときには、規則合成モジュール25では、6
文字目の直後を表すタイミングデータが、20msを表
すタイミングデータに変換される。
【0091】そして、規則合成モジュール25は、テキ
ストに対応する合成音データと、変換後のタイミングデ
ータを、テキスト非言語音融合モジュール29に供給す
る。
【0092】非言語音変換モジュール27は、非言語音
情報解釈モジュール22からの非言語音情報とタイミン
グデータを受信し、その非言語音情報を用い、非言語音
変換テーブル記憶部28を参照することで、音響データ
を生成する。
【0093】即ち、非言語音変換テーブル記憶部28
は、非言語音情報が表す効果音の音響データを、その非
言語音情報と対応付けた非言語音変換テーブルを記憶し
ており、非言語音変換モジュール27は、非言語音変換
テーブルにおいて、非言語音解釈モジュール22からの
非言語音情報と対応付けられている音響データを読み出
す。
【0094】ここで、非言語音変換テーブルにおいて
は、例えば、非言語音情報「あくび」に対して、あくび
の音である、例えば、「あーあ」などが記憶されてい
る。また、非言語音変換テーブルにおいては、図6に示
した非言語音情報「せみの声」に対しては、せみの鳴き
声である、例えば、「ミーンミーン」などが、非言語音
情報「ビールを飲む音」に対しては、ビールを飲むとき
の、喉が鳴ると言われている音に対応する、例えば、
「ゴクゴク」などが、非言語音情報「ドアをたたく音」
に対しては、ドアをたたいたときに生じる音である、例
えば、「ドンドン」などが、非言語音情報「楽しそうな
音」に対しては、楽しげな感情を表現する音である、例
えば、アップテンポで、明るい感じの曲(例えば、ハ長
調の曲)などが、それぞれ記憶されている。
【0095】非言語音変換モジュール27は、非言語音
情報に対応する音響データを得ると、その音響データ
と、非言語音情報解釈モジュール22から非言語音情報
とともに供給されたタイミングデータとを、テキスト非
言語音融合モジュール29に供給する。
【0096】テキスト非言語音融合モジュール29は、
規則合成モジュール25からの合成音データと、非言語
音変換モジュール27からの音響データとを融合し、最
終的な合成音データを得て、発声モジュール30に供給
する。
【0097】即ち、テキスト非言語音融合モジュール2
9は、規則合成モジュール25から供給される合成音デ
ータの、同じく規則合成モジュール25から供給される
タイミングデータが表す位置から、非言語音変換モジュ
ール27から供給される音響データを挿入する。あるい
は、また、テキスト非言語音融合モジュール29は、規
則合成モジュール25から供給される合成音データに対
し、同じく規則合成モジュール25から供給されるタイ
ミングデータが表す位置から、非言語音変換モジュール
27から供給される音響データを重畳する。
【0098】なお、テキスト非言語音融合モジュール2
9では、規則合成モジュール25から供給される合成音
データに対し、非言語音変換モジュール27から供給さ
れる音響データを、その音響データの長さ分だけ重畳す
る他、合成音データの全体にわたって、音響データを繰
り返し重畳することも可能である。即ち、音響データ
は、合成音データの一部または全部に重畳することが可
能である。
【0099】また、テキスト非言語音融合モジュール2
9において、合成音データに、音響データを挿入する場
合には、音響データを複数回繰り返して挿入することが
可能である。
【0100】発声モジュール30は、テキスト非言語音
融合モジュール30が出力する合成音データを、必要に
応じて増幅し、さらに、D/A(Digital/Analog)変換を
行って、スピーカ18(図3)に供給する。
【0101】以上のように構成される音声合成部55で
は、行動決定機構部52(図3)から供給される行動指
令情報に含まれるテキストから、非言語音情報を抽出
し、さらに、そのテキストに対応する音声記号を生成す
る前処理、テキストから抽出された非言語音情報に対応
する音響データを生成する非言語音情報処理、およびテ
キストに対応する合成音データを生成し、その合成音デ
ータと、非言語音情報に対応する音響データとを融合し
て、最終的な合成音データを得る音声合成処理が行われ
る。
【0102】そこで、まず、図7のフローチャートを参
照して、前処理について説明する。
【0103】非言語音生成モジュール21に対し、行動
決定機構部52(図3)から、音声合成の対象とするテ
キストを含む行動指令情報が供給されると、非言語音生
成モジュール21は、行動決定機構部52からの行動指
令情報を受信する。
【0104】そして、非言語音生成モジュール21(図
5)のテキスト処理部41は、ステップS1において、
その行動指令情報から、そこに含まれるテキストを抽出
し、抽出部42と出力部45に供給して、ステップS2
に進む。
【0105】ステップS2では、抽出部42は、言語解
析部43を制御することにより、テキスト処理部41か
らのテキストについて、言語解析を行わせ、その言語解
析結果を受信する。さらに、抽出部42は、ステップS
3に進み、言語解析部43にからの言語解析結果に基づ
き、非言語音情報データベース44を参照することで、
テキストに、非言語音情報が存在するかどうかを判定す
る。
【0106】ステップS3において、非言語音情報が存
在しないと判定された場合、ステップS4に進み、出力
部45は、テキスト処理部41からのテキストだけを、
後段の非言語音情報解釈モジュール22(図4)に出力
し、ステップS7に進む。
【0107】ステップS7では、非言語音情報解釈モジ
ュール22が、非言語音生成モジュール21(の出力部
45)からのテキストを、形態素解析モジュール23に
供給する。これにより、ステップS7では、形態素解析
モジュール23において、そのテキストの形態素解析が
行われ、音声記号列生成モジュール24に供給される。
音声記号列生成モジュール24は、形態素解析モジュー
ル23による形態素解析結果に基づいて、テキストの音
韻情報等を含む音声記号を生成し、非言語音情報解釈モ
ジュール22に供給する。
【0108】その後、ステップS8に進み、非言語音情
報解釈モジュール22は、音声記号列生成モジュール2
4からの音声記号を、規則合成モジュール25に出力
し、前処理を終了する。
【0109】このように、非言語音情報解釈モジュール
22から音声記号列生成モジュール24に対して、音声
記号だけが供給される場合には、規則合成モジュール2
5およびテキスト非言語音融合モジュール29では、後
述する音声合成処理(図9)において、従来の場合と同
様の合成音データが生成される。
【0110】一方、ステップS3において、非言語音情
報が存在すると判定された場合、即ち、テキストの中
に、非言語音情報データベース44に記憶された見出し
およびタイプに合致する単語(非言語音情報対応単語)
が存在する場合、抽出部42は、非言語音情報データベ
ース44から、その非言語音情報対文字列に対応付けら
れている非言語音情報を読み出し、出力部45に供給し
て、ステップS5に進む。
【0111】ステップS5では、出力部45が、テキス
ト処理部41からのテキストと、抽出部42からの非言
語音情報とを、後段の非言語音情報解釈モジュール22
(図4)に出力する。
【0112】非言語音情報解釈モジュール22は、非言
語音生成モジュール21(の出力部45)からテキスト
と、非言語音情報を受信すると、ステップS5からステ
ップS6に進み、そのテキストおよび非言語音情報につ
いて、タイミングデータを生成して、ステップS7に進
む。
【0113】ステップS7では、非言語音情報解釈モジ
ュール22が、上述したように、非言語音生成モジュー
ル21(の出力部45)からのテキストを、形態素解析
モジュール23に供給し、これにより、形態素解析モジ
ュール23において、そのテキストの形態素解析が行わ
れ、さらに、音声記号列生成モジュール24において、
形態素解析モジュール23による形態素解析結果に基づ
いて、テキストの音韻情報等を含む音声記号が生成さ
れ、非言語音情報解釈モジュール22に供給される。
【0114】その後、ステップS8に進み、非言語音情
報解釈モジュール22は、音声記号列生成モジュール2
4からの音声記号を、ステップS6で生成したタイミン
グデータとともに、規則合成モジュール25に出力す
る。さらに、この場合、ステップS8では、非言語音情
報解釈モジュール22は、ステップS5で得た非言語音
情報を、タイミングデータとともに、非言語音変換モジ
ュール27に出力し、前処理を終了する。
【0115】次に、図8のフローチャートを参照して、
非言語音情報処理について説明する。
【0116】非言語音情報処理は、非言語音変換モジュ
ール27が、非言語音情報解釈モジュール22から供給
される、非言語音情報とタイミングデータを受信するこ
とにより開始される。
【0117】即ち、非言語音変換モジュール27は、非
言語音情報解釈モジュール22から、非言語音情報とタ
イミングデータを受信すると、ステップS11におい
て、その非言語音情報を、非言語音変換テーブル記憶部
28から検索し、ステップS12に進む。
【0118】ステップS12では、非言語音変換モジュ
ール27は、ステップS11の検索処理結果に基づい
て、非言語音情報解釈モジュール22からの非言語音情
報が、非言語音変換テーブル記憶部28に登録されてい
るかどうかを判定する。
【0119】ステップS12において、非言語音情報
が、非言語音変換テーブル記憶部28に登録されていな
いと判定された場合、ステップS13をスキップして、
非言語音情報処理を終了する。
【0120】この場合、非言語音変換モジュール27か
らテキスト非言語音融合モジュール29に対しては、音
響データが供給されず、従って、後述する音声合成処理
において、規則合成モジュール25が出力する合成音デ
ータは、テキスト非言語音融合モジュール29で特に処
理されずに出力される。このため、音声合成部55から
は、従来の場合と同様の合成音データが出力される。
【0121】一方、ステップS12において、非言語音
情報が、非言語音変換テーブル記憶部28に登録されて
いると判定された場合、ステップS13に進み、非言語
音変換モジュール27は、その非言語音情報に対応付け
られている音響データを、非言語音変換テーブル記憶部
28から読み出し、非言語音情報解釈モジュール22か
ら供給されたタイミングデータとともに、テキスト非言
語音融合モジュール29に供給して、非言語音情報処理
を終了する。
【0122】次に、図9のフローチャートを参照して、
音声合成処理について説明する。
【0123】音声合成処理は、規則合成モジュール25
が、非言語音情報解釈モジュール22から供給される、
音声記号(さらには、タイミングデータ)を受信するこ
とにより開始される。
【0124】即ち、規則合成モジュール25は、非言語
音情報解釈モジュール22から、音声記号(さらには、
タイミングデータ)を受信すると、ステップS21にお
いて、その音声記号を用いて規則音声合成を行うことに
より、行動指令情報に含まれているテキストに対応する
合成音データを生成し、テキスト非言語音融合モジュー
ル29に供給する。
【0125】テキスト非言語音融合モジュール29は、
規則合成モジュール25から合成音データを受信する
と、ステップS22に進み、非言語音変換モジュール2
7から、非言語音情報に対応する音響データが送信され
てきたかどうかを判定する。
【0126】ステップS22において、音響データが送
信されてきていないと判定された場合、ステップS23
をスキップして、ステップS24に進み、テキスト非言
語音融合モジュール29は、規則合成モジュール25か
らの合成音データを、そのまま、発声モジュール30に
供給して、音声合成処理を終了する。
【0127】従って、この場合、スピーカ18からは、
規則合成モジュール25で生成された合成音データ(に
対応する合成音)がそのまま出力される。
【0128】一方、ステップS22において、音響デー
タが送信されてきたと判定された場合、ステップS23
に進み、テキスト非言語音融合モジュール29は、その
音響データと、規則合成モジュール25からの合成音デ
ータとを融合し、発声モジュール30に供給して、音声
合成処理を終了する。
【0129】従って、この場合、スピーカ18からは、
規則合成モジュール25が出力する合成音データに、非
言語音変換モジュール27が出力する音響データが重
畳、または挿入されたものが出力される。即ち、例え
ば、規則合成モジュール25において、テキスト「今日
はとっても眠い」に対応する合成音データが生成される
とともに、非言語音変換モジュール27において、非言
語情報「あくび」に対応するあくびをする音(効果音)
「あーあ」の音響データが生成されたときには、テキス
ト非言語音融合モジュール29では、例えば、その合成
音データと音響データとが重畳されて出力される。その
結果、スピーカ18においては、「今日はとっても眠
い」という合成音が出力されるとともに、「あーあ」と
いうあくびをする効果音が出力される。
【0130】以上のように、テキストから、非言語音情
報を抽出し、その非言語音情報に対応する音響データを
生成して、テキストに対応する合成音データと融合する
ようにしたので、テキストの意味するところを、効果的
に表現する合成音を得ることが可能となり、その結果、
例えば、ロボットのエンタテイメント性を向上させるこ
と等が可能となる。
【0131】以上、本発明を、エンターテイメント用の
ロボット(疑似ペットとしてのロボット)に適用した場
合について説明したが、本発明は、これに限らず、例え
ば、音声合成装置を搭載した対話システムその他に広く
適用することが可能である。また、本発明は、現実世界
のロボットだけでなく、例えば、液晶ディスプレイ等の
表示装置に表示される仮想的なロボットにも適用可能で
ある。
【0132】なお、本実施の形態においては、上述した
一連の処理を、CPU10Aにプログラムを実行させる
ことにより行うようにしたが、一連の処理は、それ専用
のハードウェアによって行うことも可能である。
【0133】ここで、プログラムは、あらかじめメモリ
10B(図2)に記憶させておく他、フレキシブルディ
スク、CD-ROM(Compact Disc Read Only Memory),MO(Ma
gneto optical)ディスク,DVD(Digital Versatile Dis
c)、磁気ディスク、半導体メモリなどのリムーバブル記
録媒体に、一時的あるいは永続的に格納(記録)してお
くことができる。そして、このようなリムーバブル記録
媒体を、いわゆるパッケージソフトウエアとして提供
し、ロボット(メモリ10B)にインストールするよう
にすることができる。
【0134】また、プログラムは、ダウンロードサイト
から、ディジタル衛星放送用の人工衛星を介して、無線
で転送したり、LAN(Local Area Network)、インターネ
ットといったネットワークを介して、有線で転送し、メ
モリ10Bにインストールすることができる。
【0135】この場合、プログラムがバージョンアップ
されたとき等に、そのバージョンアップされたプログラ
ムを、メモリ10Bに、容易にインストールすることが
できる。
【0136】なお、本明細書において、CPU10Aに
各種の処理を行わせるためのプログラムを記述する処理
ステップは、必ずしもフローチャートとして記載された
順序に沿って時系列に処理する必要はなく、並列的ある
いは個別に実行される処理(例えば、並列処理あるいは
オブジェクトによる処理)も含むものである。
【0137】また、プログラムは、1のCPUにより処
理されるものであっても良いし、複数のCPUによって
分散処理されるものであっても良い。
【0138】次に、図4の音声合成部55は、専用のハ
ードウェアにより実現することもできるし、ソフトウェ
アにより実現することもできる。音声合成部55をソフ
トウェアによって実現する場合には、そのソフトウェア
を構成するプログラムが、汎用のコンピュータ等にイン
ストールされる。
【0139】そこで、図10は、音声合成部55を実現
するためのプログラムがインストールされるコンピュー
タの一実施の形態の構成例を示している。
【0140】プログラムは、コンピュータに内蔵されて
いる記録媒体としてのハードディスク105やROM1
03に予め記録しておくことができる。
【0141】あるいはまた、プログラムは、フレキシブ
ルディスク、CD-ROM,MOディスク,DVD、磁気ディス
ク、半導体メモリなどのリムーバブル記録媒体111
に、一時的あるいは永続的に格納(記録)しておくこと
ができる。このようなリムーバブル記録媒体111は、
いわゆるパッケージソフトウエアとして提供することが
できる。
【0142】なお、プログラムは、上述したようなリム
ーバブル記録媒体111からコンピュータにインストー
ルする他、ダウンロードサイトから、ディジタル衛星放
送用の人工衛星を介して、コンピュータに無線で転送し
たり、LAN、インターネットといったネットワークを介
して、コンピュータに有線で転送し、コンピュータで
は、そのようにして転送されてくるプログラムを、通信
部108で受信し、内蔵するハードディスク105にイ
ンストールすることができる。
【0143】コンピュータは、CPU(Central Processing
Unit)102を内蔵している。CPU102には、バス1
01を介して、入出力インタフェース110が接続され
ており、CPU102は、入出力インタフェース110を
介して、ユーザによって、キーボードや、マウス、マイ
ク等で構成される入力部107が操作等されることによ
り指令が入力されると、それにしたがって、ROM(Read O
nly Memory)103に格納されているプログラムを実行
する。あるいは、また、CPU102は、ハードディスク
105に格納されているプログラム、衛星若しくはネッ
トワークから転送され、通信部108で受信されてハー
ドディスク105にインストールされたプログラム、ま
たはドライブ109に装着されたリムーバブル記録媒体
111から読み出されてハードディスク105にインス
トールされたプログラムを、RAM(Random Access Memor
y)104にロードして実行する。これにより、CPU10
2は、上述したフローチャートにしたがった処理、ある
いは上述したブロック図の構成により行われる処理を行
う。そして、CPU102は、その処理結果を、必要に応
じて、例えば、入出力インタフェース110を介して、
LCD(Liquid CryStal Display)やスピーカ等で構成され
る出力部106から出力、あるいは、通信部108から
送信、さらには、ハードディスク105に記録等させ
る。
【0144】なお、本実施の形態では、行動決定機構部
52が生成するテキストから合成音を生成するようにし
たが、本発明は、あからじめ用意されたテキストから合
成音を生成する場合にも適用可能である。さらに、本発
明は、あらかじめ録音してある音声データを編集して、
目的とする合成音を生成する場合にも適用可能である。
【0145】また、本実施の形態においては、テキスト
に対応する合成音データに、そのテキストから抽出した
非言語音情報に対応する効果音の音響データを融合(重
畳または挿入)するようにしたが、その他、音響データ
は、例えば、テキストの表示に同期して出力するように
すること等が可能である。
【0146】さらに、本発明は、ユーザが、テキスト
を、キーボード等によって入力し、そのテキストを、合
成音によって読み上げるような読み上げ装置にも適用す
ることができる。この場合、テキストを入力したユーザ
の意図や感情等を反映した、豊かな表現の合成音を生成
することが可能となる。
【0147】また、テキストだけでなく、非言語音情報
も、ユーザが、キーボード等によって入力するようにす
ることができる。この場合、テキストには現れない感情
等を表現する合成音を得ることが可能となる。
【0148】さらに、本実施の形態では、非言語音情報
に対応する音響データを、合成音データに融合するよう
にしたが、その他、例えば、非言語音情報に基づいて、
音質や韻律等といった音声タイプを制御した合成音デー
タを生成するようにすることも可能である。即ち、規則
合成モジュール25においては、非言語音情報に基づい
て音声タイプを設定し、その音声タイプにしたがって、
規則音声合成に用いる合成パラメータを設定して、合成
音データを生成するようにすることが可能である。
【0149】具体的には、規則合成モジュール25にお
いて、設定した音声タイプにしたがい、例えば、合成音
データの生成に用いる音素片データの周波数特性等を、
高域強調や低域強調、イコライジング等を行うことによ
って変更し、その周波数特性を変更した音素片データを
接続することで、合成音データを生成する。これによ
り、規則合成モジュール25では、男性または女性らし
い合成音データや、子供っぽい合成音データ、楽しげな
または悲しげな感じの合成音データ等の各種の音声タイ
プの合成音データを生成することができる。また、規則
合成モジュール25では、設定した音声タイプにしたが
い、ピッチパターンやパワーパターンを決定し、その決
定したピッチパターンやパワーパターンを有する合成音
データを生成するようにすることも可能である。
【0150】以上のように、合成音の音声タイプを制御
する場合には、自然な合成音を得ること等が可能とな
る。
【0151】また、本実施の形態においては、規則音声
合成によって、テキストから合成音を生成するようにし
たが、合成音は、規則音声合成以外の方法によって生成
することも可能である。
【0152】
【発明の効果】以上の如く、本発明の言語処理装置およ
び言語処理方法、並びにプログラムによれば、入力デー
タから、非言語的な音の情報である非言語音情報が抽出
され、その非言語音情報を用いて、入力データが言語処
理される。従って、例えば、入力データとしてのテキス
トの意味するところを、効果的に表現する合成音を得る
こと等が可能となる。
【図面の簡単な説明】
【図1】本発明を適用したロボットの一実施の形態の外
観構成例を示す斜視図である。
【図2】ロボットの内部構成例を示すブロック図であ
る。
【図3】コントローラ10の機能的構成例を示すブロッ
ク図である。
【図4】音声合成部55の構成例を示すブロック図であ
る。
【図5】非言語音生成モジュール21の構成例を示すブ
ロック図である。
【図6】非言語音情報データベース44の記憶内容を示
す図である。
【図7】前処理を説明するフローチャートである。
【図8】非言語音情報処理を説明するフローチャートで
ある。
【図9】音声合成処理を説明するフローチャートであ
る。
【図10】本発明を適用したコンピュータの一実施の形
態の構成例を示すブロック図である。
【符号の説明】
1 頭部ユニット, 4A 下顎部, 10 コントロ
ーラ, 10A CPU, 10B メモリ, 15
マイク, 16 CCDカメラ, 17 タッチセン
サ, 18 スピーカ, 21 非言語音生成モジュー
ル, 22 非言語音情報解釈モジュール, 23 形
態素解析モジュール, 24 音声記号列生成モジュー
ル, 25 規則合成モジュール, 26 音素片デー
タベース,27 非言語音変換モジュール, 28 非
言語音変換テーブル記憶部, 29 テキスト非言語音
融合モジュール, 30 発声モジュール, 41 テ
キスト処理部, 42 抽出部, 43 言語解析部,
44 非言語音情報データベース, 45 出力部,
50 センサ入力処理部, 50A 音声認識部,
50B 画像認識部, 50C 圧力処理部, 51
モデル記憶部, 52 行動決定機構部, 53 姿勢
遷移機構部, 54 制御機構部, 55音声合成部,
101 バス, 102 CPU, 103 ROM, 1
04 RAM, 105 ハードディスク, 106 出
力部, 107 入力部, 108通信部, 109
ドライブ, 110 入出力インタフェース, 111
リムーバブル記録媒体
───────────────────────────────────────────────────── フロントページの続き (72)発明者 小林 恵理香 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 (72)発明者 岸 秀樹 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 (72)発明者 長谷川 里香 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 Fターム(参考) 5B091 BA19 CA02 CA12 CA26 CB12 CB32 CC04 5D045 AA07 AA20

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 入力データを言語処理する言語処理装置
    であって、 前記入力データから、非言語的な音の情報である非言語
    音情報を抽出する抽出手段と、 前記非言語音情報を用いて、前記入力データを言語処理
    する言語処理手段とを備えることを特徴とする言語処理
    装置。
  2. 【請求項2】 前記抽出手段は、前記入力データ中の、
    効果音を付与可能な表現、効果音を伴う行動もしくは状
    態を表す表現、または修飾表現に基づいて、前記非言語
    音情報を抽出することを特徴とする請求項1に記載の言
    語処理装置。
  3. 【請求項3】 所定の語彙と、前記非言語音情報とを対
    応付けて記憶している記憶手段をさらに備え、 前記抽出手段は、前記入力データ中の語彙と対応付けら
    れている前記非言語音情報を抽出することを特徴とする
    請求項1に記載の言語処理装置。
  4. 【請求項4】 前記入力データについて、形態素解析を
    行う形態素解析手段をさらに備え、 前記抽出手段は、前記入力データの形態素解析結果に基
    づいて、前記非言語音情報を抽出することを特徴とする
    請求項1に記載の言語処理装置。
  5. 【請求項5】 前記入力データについて、構文解析を行
    う構文解析手段をさらに備え、 前記抽出手段は、前記入力データの構文解析結果に基づ
    いて、前記非言語音情報を抽出することを特徴とする請
    求項1に記載の言語処理装置。
  6. 【請求項6】 前記入力データについて、意味解析を行
    う意味解析手段をさらに備え、 前記抽出手段は、前記入力データの意味解析結果に基づ
    いて、前記非言語音情報を抽出することを特徴とする請
    求項1に記載の言語処理装置。
  7. 【請求項7】 前記言語処理手段は、前記入力データに
    対応する合成音を、前記非言語音情報を用いて生成する
    ことを特徴とする請求項1に記載の言語処理装置。
  8. 【請求項8】 前記言語処理手段は、前記非言語音情報
    に対応する音響データを融合した前記合成音を生成する
    ことを特徴とする請求項7に記載の言語処理装置。
  9. 【請求項9】 前記言語処理手段は、前記非言語音情報
    に基づいて音声タイプを制御した前記合成音を生成する
    ことを特徴とする請求項7に記載の言語処理装置。
  10. 【請求項10】 入力データを言語処理する言語処理方
    法であって、 前記入力データから、非言語的な音の情報である非言語
    音情報を抽出する抽出ステップと、 前記非言語音情報を用いて、前記入力データを言語処理
    する言語処理ステップとを備えることを特徴とする言語
    処理方法。
  11. 【請求項11】 入力データの言語処理を、コンピュー
    タに行わせるプログラムであって、 前記入力データから、非言語的な音の情報である非言語
    音情報を抽出する抽出ステップと、 前記非言語音情報を用いて、前記入力データを言語処理
    する言語処理ステップとを備えることを特徴とするプロ
    グラム。
  12. 【請求項12】 入力データの言語処理を、コンピュー
    タに行わせるプログラムが記録されている記録媒体であ
    って、 前記入力データから、非言語的な音の情報である非言語
    音情報を抽出する抽出ステップと、 前記非言語音情報を用いて、前記入力データを言語処理
    する言語処理ステップとを備えるプログラムが記録され
    ていることを特徴とする記録媒体。
JP2001122039A 2001-04-20 2001-04-20 言語処理装置および言語処理方法、並びにプログラムおよび記録媒体 Pending JP2002318593A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001122039A JP2002318593A (ja) 2001-04-20 2001-04-20 言語処理装置および言語処理方法、並びにプログラムおよび記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001122039A JP2002318593A (ja) 2001-04-20 2001-04-20 言語処理装置および言語処理方法、並びにプログラムおよび記録媒体

Publications (1)

Publication Number Publication Date
JP2002318593A true JP2002318593A (ja) 2002-10-31

Family

ID=18971815

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001122039A Pending JP2002318593A (ja) 2001-04-20 2001-04-20 言語処理装置および言語処理方法、並びにプログラムおよび記録媒体

Country Status (1)

Country Link
JP (1) JP2002318593A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019109780A (ja) * 2017-12-19 2019-07-04 ヤフー株式会社 情報提供装置、情報提供方法、および情報提供プログラム

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0580791A (ja) * 1991-09-20 1993-04-02 Hitachi Ltd 音声規則合成装置および方法
JPH05333891A (ja) * 1992-05-29 1993-12-17 Sharp Corp 自動読書装置
JPH11143483A (ja) * 1997-08-15 1999-05-28 Hiroshi Kurita 音声発生システム
JPH11202884A (ja) * 1997-05-21 1999-07-30 Nippon Telegr & Teleph Corp <Ntt> 合成音声メッセージ編集作成方法、その装置及びその方法を記録した記録媒体
JP2000066696A (ja) * 1998-08-21 2000-03-03 Victor Co Of Japan Ltd 音声合成装置
JP2000081892A (ja) * 1998-09-04 2000-03-21 Nec Corp 効果音付加装置および効果音付加方法
WO2000016310A1 (de) * 1998-09-11 2000-03-23 Hans Kull Vorrichtung und verfahren zur digitalen sprachbearbeitung
JP2001005476A (ja) * 1999-06-22 2001-01-12 Matsushita Electric Ind Co Ltd プレゼンテーション装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0580791A (ja) * 1991-09-20 1993-04-02 Hitachi Ltd 音声規則合成装置および方法
JPH05333891A (ja) * 1992-05-29 1993-12-17 Sharp Corp 自動読書装置
JPH11202884A (ja) * 1997-05-21 1999-07-30 Nippon Telegr & Teleph Corp <Ntt> 合成音声メッセージ編集作成方法、その装置及びその方法を記録した記録媒体
JPH11143483A (ja) * 1997-08-15 1999-05-28 Hiroshi Kurita 音声発生システム
JP2000066696A (ja) * 1998-08-21 2000-03-03 Victor Co Of Japan Ltd 音声合成装置
JP2000081892A (ja) * 1998-09-04 2000-03-21 Nec Corp 効果音付加装置および効果音付加方法
WO2000016310A1 (de) * 1998-09-11 2000-03-23 Hans Kull Vorrichtung und verfahren zur digitalen sprachbearbeitung
JP2001005476A (ja) * 1999-06-22 2001-01-12 Matsushita Electric Ind Co Ltd プレゼンテーション装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019109780A (ja) * 2017-12-19 2019-07-04 ヤフー株式会社 情報提供装置、情報提供方法、および情報提供プログラム

Similar Documents

Publication Publication Date Title
JP4296714B2 (ja) ロボット制御装置およびロボット制御方法、記録媒体、並びにプログラム
US7065490B1 (en) Voice processing method based on the emotion and instinct states of a robot
JP4150198B2 (ja) 音声合成方法、音声合成装置、プログラム及び記録媒体、並びにロボット装置
JP2002268699A (ja) 音声合成装置及び音声合成方法、並びにプログラムおよび記録媒体
JP4687936B2 (ja) 音声出力装置および音声出力方法、並びにプログラムおよび記録媒体
JP2002358095A (ja) 音声処理装置および音声処理方法、並びにプログラムおよび記録媒体
JP2003271174A (ja) 音声合成方法、音声合成装置、プログラム及び記録媒体、制約情報生成方法及び装置、並びにロボット装置
US7233900B2 (en) Word sequence output device
JP2002318594A (ja) 言語処理装置および言語処理方法、並びにプログラムおよび記録媒体
CN113112575B (zh) 一种口型生成方法、装置、计算机设备及存储介质
JP2002268663A (ja) 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体
JP2002318590A (ja) 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体
JP2002258886A (ja) 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体
JP2003271172A (ja) 音声合成方法、音声合成装置、プログラム及び記録媒体、並びにロボット装置
JP2002311981A (ja) 自然言語処理装置および自然言語処理方法、並びにプログラムおよび記録媒体
JP2002318593A (ja) 言語処理装置および言語処理方法、並びにプログラムおよび記録媒体
JP2002304187A (ja) 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体
JP4656354B2 (ja) 音声処理装置および音声処理方法、並びに記録媒体
JP2003071762A (ja) ロボット装置およびロボット制御方法、記録媒体、並びにプログラム
JP4178777B2 (ja) ロボット装置、記録媒体、並びにプログラム
JP4742415B2 (ja) ロボット制御装置およびロボット制御方法、並びに記録媒体
JP2003271181A (ja) 情報処理装置および情報処理方法、並びに記録媒体およびプログラム
JP2002189497A (ja) ロボット制御装置およびロボット制御方法、記録媒体、並びにプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080117

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100615

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100622

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100803

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101019

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101129

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110329