JP2006330136A

JP2006330136A - 表情付け音声発生装置

Info

Publication number: JP2006330136A
Application number: JP2005150551A
Authority: JP
Inventors: Tomoko Yonezawa; 朋子米澤; Noriko Suzuki; 紀子鈴木; Kenji Mase; 健二間瀬; Kiyoshi Kogure; 潔小暮
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2005-05-24
Filing date: 2005-05-24
Publication date: 2006-12-07
Anticipated expiration: 2025-05-24
Also published as: JP4677543B2

Abstract

【構成】表情付け音声発生装置１０は、コンピュータ２２を含み、このコンピュータは、手人形（１２）を操作する手に装着する手袋型センサ（１４）に設けられるセンサ１６１ａ‐１６４，１８１および１８２からのセンサ値に基づいて、解釈テーブル２４を参照して、その手人形のジェスチャを同定し、そのジェスチャを、ジェスチャ−表情対応テーブル２６を参照して、モーフィング点（モーフィング率）にマッピングする。そのモーフィング率に従って、歌声データベース２８に予め蓄積されている元歌声（normal, dark, whisper, wet）をモーフィングして、スピーカ３４から発音する。この手は手人形の反り返りの程度で音量を制御する。
【効果】ジェスチャによって音声モーフィングを制御することができる。
【選択図】図６

Description

この発明は表情付け音声発生装置に関し、特にたとえば、音声モーフィングの技法を使って表情付けされた音声（Expressive Voice）を出力する、表情付け音声発生装置に関する。

従来の感情付き音声表現において、感情音声（Emotional Speech）に関する研究として、非特許文献１で述べられるように、Ｆｏ（基本周波数）や話速などのルールベースのアプローチや、非特許文献２のようなコーパスベースのアプローチが考えられる。

ルールベースでは韻律情報を主に扱うのに対し、コーパスベースの手法では韻律情報が一定の歌声の表情付けについても音声の声色を取り扱うことができるが、表情付けの変化を伴うときはコーパス間における表情付けの不連続性が目立つ。

また、本件発明者等は、非特許文献３および４などで公知のＳＴＲＡＩＧＨＴ（音声分析変換合成システム）を利用して音声モーフィングを行なうことによって、表情付けの強度を連続的に変化できる表現手法として、ＥＳＶＭ（ＥｘｐｒｅｓｓｉｖｅＳｉｎｇｉｎｇＶｏｉｃｅＭｏｒｐｈｉｎｇ）を提案している(非特許文献５)。
Schroder, M., "Emotional Speech Synthesis: A Review," Proc. Eurospeech, volume 1, pp. 561-564, 2001 Iida, A., Iga, S., Higuchi, F., Campbell, N., Yasumura, M., "A Speech Synthesis System with Emotion for Assisting Communication", Proc. ISCA Workshop on Speech and Emotion, pp. 167-172, 2000 Kawahara, H., Masuda-Kasuse, L, and Cheveigne, A., "Restructuring speech representations using a pitch-adaptive time-frequency smoothing and aninstantaneous-frequency-based FO extraction: Possible role of a reptitive structure in sounds,"Speech Communication, 27, pp. 187-207, 1999 ｈｔｔｐ：//www.wakayama-u.ac.jp／〜kawahra.STRAIGHTadv/（高品質音声分析変換合成システムＳＴＲＡＩＧＨＴ）米澤朋子，鈴木紀子，間瀬健二，小暮潔，"表情付けられた歌声モーフィングの知覚的検討,"日本音響学会春期研究発表会(音講論)，pp. 809−810，2004

非特許文献５に示すＥＳＶＭでは、自然な表情付けが可能となり、色々な方面への利用が期待されている。

それゆえに、この発明の主たる目的は、ＥＳＶＭの手法を利用した、新規な、表情付け音声発生装置を提供することである。

この発明の他の目的は、ジェスチャでモーフィング率を制御する、新規な、表情付け音声発生装置を提供することである。

請求項１の発明は、互いに表情付が異なる少なくとも２つの音声のそれぞれの音声信号を予め記憶しておく音声信号データベース、複数のジェスチャを個別に同定するジェスチャ同定手段、音声データベースから読み出した２以上の音声信号をジェスチャ同定手段によって同定されたジェスチャに応じたモーフィング率でモーフィングするモーフィング手段、およびモーフィング手段によってモーフィングした結果の音声信号によって音声を出力する音声出力手段を備える、表情付け音声発生装置である。

請求項１の発明では、コンピュータ（２２）を用い、このコンピュータ（２２）に音声信号データベース（２８）を設定しておく。この音声信号データベース（２８）にはたとえば、表情付けされていない”normal”と、異なる表情付けされている”dark”, “whisper”, “wet”のそれぞれの音声信号が予め収録されている。コンピュータ（２２）では、たとえば手人形（１２）を操作する手に装着する手袋（１４）に設けられるセンサ（１６１‐１８２）からのジェスチャ信号に基づいて、たとえば手人形のそのときのジェスチャを同定する。そして、同じくコンピュータ（２２）あるいは他の回路であるモーフィング手段は、たとえば、そのジェスチャとその程度とに従って、モーフィング点をマッピングし、そのモーフィング点で元歌声（normal, dark, whisper, wet）をモーフィングする。

請求項１の発明では、たとえば手人形のようなもののジェスチャで音声モーフィングを制御することができるので、音声モーフィングの応用範囲が拡大できる。

請求項２の発明は、ジェスチャに応じたジェスチャ信号を入力するジェスチャ信号入力手段をさらに備え、ジェスチャ同定手段はジェスチャ信号に基づいてジェスチャを同定する、請求項１記載の表情付け音声発生装置である。

請求項２の発明では、ジェスチャ同定手段、たとえばコンピュータは、ジェスチャ信号入力手段（たとえば手人形のようなインタフェース）から入力されるジェスチャ信号に基づいてジェスチャを同定する。

請求項３の発明は、ジェスチャ同定手段は、ジェスチャの種類とともにそれの程度を同定し、モーフィング手段は前記ジェスチャの種類と程度とに基づいてモーフィング率を決定する、請求項２記載の表情付け音声発生装置である。

請求項３の発明では、ジェスチャ同定手段は、ジェスチャの種類とそのジェスチャの程度（最大動作時をたとえば１００％としたときの％値）を同定し、そしてそのジェスチャの種類と程度とによってモーフィング率が決まる。ジェスチャの種類と程度とを併用するため、表情付けがかなり細かく設定できる。

請求項４の発明は、ジェスチャ信号入力手段は被験者の手指の動きに応じた信号を出力する手指信号出力手段を含む、請求項２または３記載の表情付け音声発生装置である。

請求項４の発明では、手指信号出力手段は、たとえば手人形を操作する手に嵌められる手袋（１４）に設けられたセンサを用いる。

請求項５の発明は、手指信号出力手段は、手指の変形に応じて信号を出力する曲げセンサを含む、請求項４記載の表情付け音声発生装置である。

請求項５の発明では、実施例では、７つ曲げセンサ（親指第１，第２曲げセンサ１６１ａ，１６１ｂ、人差し指第１，第２曲げセンサ１６２ａ，１６２ｂ、中指第１，第２曲げセンサ１６３ａ，１６３ｂ、および手首曲げセンサ１６４）を用いる。

請求項６の発明は、ジェスチャ信号入力手段はジェスチャを撮影した映像信号を出力するカメラを含む、請求項２または３記載の表情付け音声発生装置である。

請求項６の発明では、カメラ（３６１−３６３または３６Ａ）は、被験者の全身を３次元的に撮影し、または被験者の顔を２次元的に撮影する。したがって、被験者の全身のジェスチャまたは被験者の顔の表情（ジェスチャ）に応じて、モーフィング音声が出力される。

請求項７の発明は、ジェスチャ信号はロボットの制御信号を含む、請求項２または３記載の表情付け音声発生装置である。

請求項７の発明では、ロボットの感情を制御する感情情報が制御信号として入力される。したがって、そのロボットの感情をジェスチャとして把握し、それに応じて、モーフィング音声が出力する。

この発明によれば、ジェスチャでモーフィング率すなわち表情付けを変化させることができる。そのため、たとえば事故や障害で発声ができなくなった人でも、表情付けされた音声を発生できるので、感情を比較的自由に表現することができる。さらには、本来的には感情の表現が不得手な被験者やロボットであっても、ジェスチャによって豊かな感情表現の手法を取得することができる。

この発明の上述の目的，その他の目的，特徴および利点は、図面を参照して行う以下の実施例の詳細な説明から一層明らかとなろう。

この発明の一実施例の表情付け音声発生装置１０(図６)は、上述のＥＳＶＭのモーフィングを利用してたとえば歌声表現を制御するものであり、そのモーフィングの制御ためにジェスチャを利用しようとするものである。ただし、ＥＳＶＭについては、同時係属中の特許出願（特願２００４‐３６９１０８号）に詳しく説明されているので、必要に応じて可能な限度でその記述を参照する。

そして、そのようなジェスチャを入力するための手段の一例として、手で操作する手人形を用いるが、手人形は、図１に示すぬいぐるみ１２を含む。このぬいぐるみ１２は、全体として、布やフェルトなどの柔軟な素材で形成されていて、被験者の手のひらが入る手のひら部１２０と、その手のひら部１２０と内部で連通し、被験者の親指、人差し指、および中指がそれぞれ挿入できる親指部１２１、人差し指部１２２、および中指部１２３を含む。実施例のぬいぐるみ１２は、図示のように、人差し指部１２２が頭部で、それを挟む親指部１２１および中指部１２３が翼または羽である、鳥を表現している。しかしながら、当然、このようなぬいぐるみ１２の形状は任意に変更できるものである。

このように、歌声表現を制御するジェスチャ入力のためにぬいぐるみ１２を用いるには、適切な擬人化表現を取り入れることが重要であり、実施例では、２つの腕（羽）と頭とを持つぬいぐるみ１２の動作を、３本の指で制御することにした。口の動きにより発声タイミングを制御することも考えられるが、この実施例では、ぬいぐるみ１２の全身的なジェスチャにより「表情付け」をコントロールすることに狙いを集中させた。

ぬいぐるみ１２の外見を活かし、入力デバイスとして利用するためには、手の動きをぬいぐるみ１２の動きとして計測することが重要である。歌声の表情付けのコントローラとして十分な精度で動作データを得るために、手人形は、擬人化用カバーとしてのぬいぐるみ１２と、手の動きを計測する独立した手袋型センサ１４とを含む。

すなわち、ぬいぐるみ１２に図２に示すように被験者の手が挿入されるのであるが、その手には、手袋型センサ１４を装着する。この手袋型センサ１４には手のひらを受容する手のひら部１４０と、その手のひら部１４０と内部で連通しておりかつそれぞれに親指、人差し指、および中指が挿入される親指部１４１、人差し指部１４２、および中指部１４３が形成される。ただし、薬指および小指のための指部も当然形成されるのであるが、ここでは言及しない。

図３および図４を参照して、手袋型センサ１４には上述の手のひら部１４０、および指部１４１−１４３を含む。親指部１４１の表面に親指第１曲げセンサ１６１ａがその親指部１４１の少なくとも第１関節および第２関節をカバーできる長さで設けられる。親指部１４１の側面に親指第２曲げセンサ１６１ｂが同じく親指部１４１の第１関節および第２関節をカバーできる長さで設けられる。人差し指部１４２の表面に人差し指第１曲げセンサ１６２ａが少なくともその人差し指部１４２の第１関節および第２関節をカバーできる長さで設けられ、人差し指部１４２の側面に人差し指第２曲げセンサ１６２ｂが同様に第１関節および第２関節をカバーできる長さで設けられる。さらに、中指部１４３の表面に中指第１曲げセンサ１６３ａが中指部１４３の少なくとも第１関節および第２関節をカバーできる長さで設けられ、中指部１４３の、親指部や人差し指部とは反対側の側面に中親指第２曲げセンサ１６３ｂが中指部１４３の少なくとも第１関節および第２関節をカバーできる長さで設けられる。中指第２曲げセンサ１６３ｂを親指第２曲げセンサ１６１ｂや人差し指第２曲げセンサ１６２ｂとは反対側にしたのは、人差し指部１４２とこの中指第２曲げセンサ１６３ｂとの干渉を避けるためであるので、干渉が少ないか、なければ、他の第２曲げセンサ１６１ｂおよび１６２ｂと同じ側に設けてもよい。

上述の親指第１曲げセンサ１６１ａおよび親指第２曲げセンサ１６１ｂは、図５に示すように、前者が親指部１４１の表面（手の甲側）に配置され、後者が親指部１４１の側面に、前者とは９０度の角度差で設けられる。これによって、９０度の角度差を有するＸ方向とＹ方向との２方向の曲げ角度をそれぞれ計測できるようにしている。人差し指第１曲げセンサ１６２ａおよび人差し指第２曲げセンサ１６２ｂ、ならびに中指第１曲げセンサ１６３ａおよび中指第２曲げセンサ１６３ｂも、同様の理由で９０度ずれた位置関係にある。

さらに、これら曲げセンサ１６１ａ，１６１ｂ，１６２ａ，１６２ｂ，１６３ａおよび１６３ｂは、いずれも、ピエゾ（圧電）素子であり、その主面と直角な方向の曲げ角度に応じて異なる電圧を出力する。したがって、この電圧を検出することによって、各曲げセンサすなわち指部の当該方向での曲げ角度を検出または計測することができる。

また、図４に示すように、手袋型センサ１４の親指部１４１および中指部１４３のそれぞれの指先には、指の腹側に、圧力センサ１８１および１８２が設けられる。この圧力センサ１８１および１８２もピエゾ素子であり、その表面にかかった圧力の大きさに応じた大きさの電圧を出力する。２つの圧力センサ１８１および１８２は、親指部１４１の先端と中指部１４３の先端とが互いに合わさった状態を検出できるようにするためである。

なお、実施例では、人差し指部１４２(手人形の頭部)では、曲げだけではなく反り返りも計測できるようにするために、予め人差し指がある程度手のひら側に曲がった状態で、ぬいぐるみ１２の頭部１２２が正面を向く構造になっている。そして、手袋型センサ１４の手のひら部１４０の手の甲側内面に図３で点線で示すもう１の曲げセンサ１６４が設けられる。この手首曲げセンサ１６４もピエゾ素子であり、人差し指部１４２の反り返り、すなわち手の甲側への曲げの程度を検出する。

ただし、手首曲げセンサ１６４は、手袋型センサ１４の中にもう１つ別の手袋（図示せず）を設け、その中手袋の手の甲（表面）に付着させるようにしてもよい。

また、長手の曲げセンサ１６１ａ，１６１ｂ，１６２ａ，１６２ｂ，１６３ａ，１６３ｂおよび１６４（以下、「１６１ａ‐１６４」と表記することがある。）は、いずれも、手袋型センサ１４（および中手袋）に付着されるが、その付着方法は、糸で緩やかに縫い付ける方法が適当である。しっかりと縫い付けたり、接着してしまうと、手袋の指部の特に手のひら側への曲げ角度が大きいときに、曲げセンサが引きつった状態となり、手袋の指部の曲がりに曲げセンサがうまく追従できなくなり、破損するなどの故障が起きるからである。

上で説明した曲げセンサ１６１ａ‐１６４ならびに圧力センサ１８１および１８２からの出力電圧は、図６に示すように、Ａ／Ｄ変換器２０によってディジタルデータに変換されて、コンピュータ２２に入力される。このコンピュータ２２は、これらセンサ１６１ａ‐１６４，１８１および１８２からの電圧に基づいて手および指の動作をぬいぐるみ１２のジェスチャとして検出し、そのジェスチャに応じて音声モーフィングを行うものである。

センサ１６１ａ‐１６４，１８１および１８２からの電圧値をジェスチャとして解釈するために、解釈テーブル２４が、コンピュータ２２のメモリ（図示せず）内に予め設定される。

各センサ１６１ａ‐１６４，１８１および１８２からの電圧値は、曲げ角度に対して正比例の関係にはなく、図７に示すように、曲げ角度が小さいときには変化が大きく、曲げ角度が大きくなるにつれて変化が小さくなる、各電圧値は一種の飽和曲線のように変化する。したがって、電圧値をそのまま動作（曲げ）の程度であると解釈すると、間違った解釈になる。

そこで、解釈テーブル２４には、図７のような変化曲線を、曲げ角度と電圧値が直線的に変化するような変換テーブルまたは変換式を設定している。したがって、コンピュータ２２は、解釈テーブル２４によってセンサ値（電圧値）を変換し、その変換後の電圧値（センサ値）から各曲げ角度や圧力を推定し、それによってジェスチャとそのジェスチャの程度とを同定または特定する。

図７は１つの曲げセンサのセンサ値と角度との関係を示し、横軸に「１．０」と表示しているが、その位置が曲げ角度が１００パーセントの位置で、これを基準にして、曲げ角度の程度（％）が識別できる。ジェスチャの程度とは、この曲げ角度の程度と同様に、そのジェスチャによる最大変化時を１００パーセントとしたときの、それ以下の％値のことである。

コンピュータ２２には、さらに、図示しないメモリ内に、ジェスチャ‐表情対応テーブル２６が予め設定されている。このジェスチャ‐表情対応テーブル２６は、解釈したジェスチャを表情付けにマッピングするためのテーブルである。

この実施例が利用するＥＳＶＭでは、表１に示すモーフィング用歌声（元音声）を用いて、たとえば表２に示すモーフィングを行う。

そして、実施例では、表１のような元音声（元歌声）を、図示しないメモリ内の歌声データベース２８に予め登録ししている。ジェスチャ-表情対応テーブル（マッピングテーブル）２６は、ジェスチャとその程度とによって、４つの元歌声をどのようなモーフィング率でモーフィングするかを決めるためのテーブルである。

具体的に、図８を参照して、３種類の音声の間での音声モーフィングを行なう際のモーフィング率の決定の方法について説明する。今、３種類の音声Ａ、音声Ｂおよび音声Ｃの間でのモーフィングを行なうものとする。図８に示すように、これら３つの音声に対応する頂点１００、１０２および１０４を有する３角形を考える。

この３角形の各辺を所定数に分割し、各辺と並行な線で分割点同士を結ぶことにより、図８においてメッシュ１１０を作成できる。このメッシュ１１０を構成する各点に対応したモーフィング音声は以下のようにして作成できる。

たとえば、音声Ａおよび音声Ｂの間での各分割点に対応する中間音声は、たとえばシグモイト（ｓｉｇｍｏｉｄ）関数を使って２つの音声が一定の割合で音声が変化するようにモーフィング率を決定する。このときのモーフィング率が上記ジェスチャ‐表情対応テーブル２６で決まる。同様の方法で、音声Ａおよび音声Ｃの間、音声Ｂおよび音声Ｃの間でのモーフィングもそれぞれ行なうことができる。さらに、メッシュ１１０の各交点（たとえば交点１１２）での中間音声は、その交点を通る任意の線の両端（たとえば点１１４、１１６)の中間音声を、その両端からその交点までの距離の比に応じたモーフィング率でモーフィングすることにより作成できる。したがって、メッシュ１１０の各点に対応する中間段階の音声を全て作成できる。

このようにして、この方法は、元となる音声が図８に示す３種類の場合だけでなく、実施例のように元の音声が４種類（"normal”, “dark”, “whisper”, “wet”）あっても、またはそれ以上あっても、２つの音声間のモーフィング率の決定を繰り返すことによって、同様に適用できる。

なお、上述のシグモイド関数を利用したこのようなモーフィング率の決定については、先に言及した同時係属中の特許出願（特願２００４‐３６９１０８号）に詳しい。

このように、ジェスチャ‐表情対応テーブル２６を参照して、ジェスチャの種類と程度とに基づいて、実施例では４つのモーフィング用元歌声（元音声）をモーフィングする際のモーフィング率を決定する。

そして、図６に示す実施例では、ジェスチャ‐表情対応テーブル２６に基づいて決定したモーフィング率でモーフィングを行うために、先に説明したＳＴＲＡＩＧＨＴを用いた音声モーフィングを行う音声合成部３０を設けた。この音声合成部３０は、コンピュータ２２とはハード的には別の専用回路（たとえばＡＳＩＣ）として形成されてもよく、コンピュータ２２に十分な能力があれば、コンピュータ２２の一機能として実行されてもよい。この音声合成部３０では、歌声データベース２８に予め登録または格納しておいた少なくとも２つ（実施例では４つ）の元音声（元歌声）を図８に従ったモーフィング率でモーフィングする。

実施例では、モーフィング用元歌声（元音声）としては、プロではない２０代の女性の歌声をサンプリング周波数４４．１ｋＨｚで収録した。表１に示す「平坦」な歌声（以下、”normal”とする。）、母音が全体的に後舌母音に近くなるような「暗い」歌声(dark)、子守唄のような「ささやき」歌声(whisper)、鼻にかかったような「ねっとり」した声色の歌声(wet)の計４種類を、歌唱中一貫した声色で歌うよう指示し、歌声を収録した。

課題曲は、童謡『ふるさと』より前半の部分のうち「こぶなつりし」の歌声を用いた。歌声の収録では、Ｆｏと話速をそろえるため、同一の伴奏(ハ長調の音階、速度は３／４拍子、１２０拍/分)に合わせて歌ってもらった。収録された歌声の話速は約２．０モーラ／秒、Ｆｏ範囲は平均約３００Ｈｚ〜４５０Ｈｚとなった。各歌声音声の長さは平均約３.０秒である。このような元歌声が、歌声データベース２８に採録されているのである。

そして、音声合成部３０では、まず、表情付けの程度が異なる歌声を作成するため、表情付けのない”normal”な歌声から各表情付き歌声の間（表２、Ａ−１〜３）でモーフィングを行なう。ただし、異なる表情付け間の中間的な歌声も作成するように、３種類の表情付き歌声間（表２のＢ−１〜３）でもそれぞれモーフィングすることとした。程度が中間的な表情付けのみでなく強調された表情付けの歌声も作成するため、モーフィング率を０以下や１以上に広げ、たとえば、０．１６７（１／６）毎に等間隔に‐０．３３３（-２／６）から１．３３３（８／６）とした。作成した歌声のサンプリング周波数は４４．１ｋＨｚである。

この音声合成部３０で作成したモーフィング音声信号データは、Ｄ／Ａ変換器３２に出力され、そこでアナログ音声信号に変換され、スピーカ３４から、モーフィング音声として出力される。

このように、この実施例の表情付き音声発生装置１０では、コンピュータ２２は、まず、ジェスチャ同定手段として機能し、センサ１６１ａ‐１６４，１８１，１８２からのセンサ値に基づいてジェスチャとそのジェスチャの程度とを同定する。そして、コンピュータ２２（または音声合成部３０）がモーフィング手段として機能することによって、歌声データベース２８から読み出した”normal”，”dark”，”whisper”，”wet”の各音声信号を、ジェスチャ同定手段によって同定されたジェスチャに応じたモーフィング率でモーフィングする。このモーフィング手段によってモーフィングされた結果の音声信号（モーフィング音声信号）によって、スピーカ３４から、モーフィング音声が出力される。

図９‐図１３は、図１のようなぬいぐるみ１２を、図３および図４に示す手袋型センサ１４を嵌めた手で変形動作させたときの動作と、それに伴って各センサ１６１ａ‐１６４，１８１および１８２から出力される電圧波形を図解するものである。

図９は、”waves”（片手振り）と呼ばれる動作で、親指部１２１を振る（人差し指部１２２から遠ざけたり近づけたりする）表現であり、図９（Ａ）が基本姿態で、図９（Ｂ）が親指部１２１を頭部１２２に近づけた状態を示し、図９（Ｃ）がそのときにセンサ１６１ａ‐１６４，１８１および１８２から出力される電圧の波形である。白色部分が電圧が発生していることを示している。

図１０は、”nodding”（うなずき）と呼ばれる動作で、人差し指部（頭部）１２２によるうなずき表現であり、図１０（Ａ）が基本姿態で、図１０（Ｂ）が頭部１２２下向きにした状態を示し、図１０（Ｃ）がそのときにセンサ１６１ａ‐１６４，１８１および１８２から出力される電圧（白色部分）の波形である。

図１１は、”waves”（両手振り）と呼ばれる動作で、親指部１２１および中指部１２３を振る（それぞれを人差し指部１２２から遠ざけたり近づけたりする）表現であり、図１１（Ａ）が基本姿態で、図１１（Ｂ）が親指部１２１および中指部１２３を頭部１２２に近づけた状態を示し、図１１（Ｃ）がそのときにセンサ１６１ａ‐１６４，１８１および１８２から出力される電圧（白色部分）の波形である。

図１２は、”bend back”（反り返り）と呼ばれる動作で、人差し指部（頭部）１２２および親指部１２１ならびに中指部１２３を手の甲側にそらせる表現であり、図１２（Ａ）が基本姿態で、図１２（Ｂ）が反り返った状態を示し、図１２（Ｃ）がそのときにセンサ１６１ａ‐１６４，１８１および１８２から出力される電圧（白色部分）の波形である。

図１３は、”clap”（拍手）と呼ばれる動作で、親指部１２１と中指部１２３の先端をつけて拍手する表現であり、図１３（Ａ）が基本姿態で、図１３（Ｂ）が親指部１２１および中指部１２３を広げた状態を示し、図１３（Ｃ）が親指部１２１および中指部１２３とをくっつけた状態を示し、図１３（Ｄ）がそのときにセンサ１６１ａ‐１６４，１８１および１８２から出力される電圧（白色部分）の波形である。このときだけ、圧力センサ１８１および１８２から電圧が出力されている。

表３に、このような各センサ１６１ａ‐１８２から実際に出力されるセンサ値と各指部や手首の曲げ角度、さらには親指部と中指部の接触圧力との関係を示す。この表３においては、実施例では、各センサ値は、１２８の分解能（０−１２７）で表される。たとえば、親指第１曲げセンサの場合、それを手のひら方向に曲げたとき電圧を出力し、最大値が１１０、最小値が６０であった。ただし、動きが最も大きいときのセンサ値が最小値となる。手首曲げセンサに付いていえば、手首を手の甲側に曲げたとき、２０‐３０から５０‐６０まで変化するセンサ値が出力される。圧力センサでは、最大値は１２７で、最小値が１２７未満ということで、この圧力センサは、タッチセンサであり、親指部と中指部との接触を検知する。

先に図６で説明したジェスチャ‐表情対応テーブル（マッピングテーブル）２６による、歌声表現のジェスチャ表現に対する適切なマッピングのためには，ユーザの手が感じる難易度や苦痛な動作といった感覚と、苦しそうな歌声表現がマッピングされるなどの身体的な感覚を考慮すべく、実施例では、まず身体的な状況をいくつか定義し、どのような表情付けの状況であるかを定義付けることにした。

歌声表現でコントロールするパラメータとして，（１）歌声の音量、（２）歌声の表情付けのタイプ、”dark”，“whisper”，“wet”のいずれか、（３）表情付けの強度（程度）の３つを定義した。そして，”dark”の表情付けの強度（表２におけるＡ−１の合成）をオペラのような発声姿勢（表４参照）に，”whisper”の表情付け強度（Ａ−２）を頭をうなだれる姿勢に，”wet”の表情付け（Ａ‐３）をポップ歌手のように両手を前へ伸ばす発声姿勢にそれぞれマッピングした。

実施例のような入力システムを用いたとき、連続的な動きのまとまりをジェスチャ表現として入力することも考えられる。しかしながら、音声のコントロールを行う際は時間連続的なジェスチャを入力とすると遅延が発生して被験者へのフィードバックが直感的でないことが考えられるため、この実施例では導入していない。

そして、ジェスチャ‐表情対応テーブル２６では、手人形すなわちぬいぐるみ１２が、被験者またはユーザが力を入れていない中間的な姿勢をとっているとき、音声の表情付けはない状態、つまり”normal”の表情付けを行うよう設定した。そして、図８に示すように、４タイプの表情付け、”normal”，”dakrk”，”whisper”，”wet”の間で、ジェスチャとその程度とで決まるモーフィング率を決める。

そして、ぬいぐるみ１２の身体の傾きを手指操作とは独立した表現として取り入れ、音量のコントロールを行わせるようにした。図６において、音声合成部３０からＤ／Ａ変換器３２に１本の線で出力されているのが音量（volume）コントロールである。

なお、表情付けが突然変化するときには、５０ミリ秒の遅延を与え、音声表現が不自然にならないよう平滑化することにした。

図６の実施例において、コンピュータ２２は、図１４の最初のステップＳ１１において、Ａ／Ｄ変換器２０から、各センサ１６１ａ‐１６４，１８１および１８２から出力される電圧（センサ値）を読み取る。

そして、コンピュータ２２は、図１４のステップＳ１３において、解釈テーブル２４を参照して、そのときのぬいぐるみ１２のジェスチャを、先の表４のように、同定する。このとき、図７で説明したように、そのジェスチャの程度も併せて特定する。

その後、コンピュータ２２は、ステップＳ１５で、図６に示すジェスチャ‐表情対応テーブル２６を参照して、ジェスチャおよびその程度に基づいて、先に図８を参照して説明したようにモーフィング率を決定する。

そして、ステップＳ１７で、コンピュータ２２が、あるいは音声合成部３０が、歌声データベース２８から読み出した各元歌声（音声）信号を、ステップＳ１５で決定したモーフィング率に従ってモーフィングする。

そして、ステップＳ１９において、コンピュータ２２は、反り返りジェスチャの程度に応じた音量でモーフィング音声がスピーカ３４から出力されるように、その反り返り（手首曲げセンサのセンサ値）に応じた音量設定信号をＤ／Ａ変換器３２に与える。

このようにして、コンピュータ２２は、被験者またはユーザが自分の手（手袋型センサ１４を装着した）でぬいぐるみ１２のジェスチャを変更することによって、たとえば４種類のモーフィング元音声”normal”，”dakrk”，”whisper”，”wet”をモーフィング（音声合成）した、モーフィング音声が発生され得る。

図１５‐図１７に、動作確認のために、動作入力から得られたセンサ値、ジェスチャ、および音声制御パラメータ（モーフィング）を例示する。動作確認では、被験者またはユーザは、およそ４５秒間（図１５-図１７の横軸）にわたりパフォーマンスを行った。まず、ぬいぐるみの体全体をそらせ（図１５-図１７の丸付き数字１で示す）、両手をそらせた（図１５-図１７の丸付き数字２で示す）。そして両手を前方に伸ばし（図１５-図１７の丸付き数字３で示す）、最後に拍手動作を行った（図１５-図１７の丸付き数字４で示す）。図１５は５つのセンサ親指第１曲げセンサ１６１ａ，圧力センサ１８１，中指第１曲げセンサ１６３ａ，圧力センサ１８２および手首曲げセンサ１６４からのセンサ信号の例であり、図１６は図１５のセンサ信号から得たジェスチャ情報である。図１７はそのジェスチャに従った各表情付けの強度に対する制御を示す。

このように、ユーザが右手の動作により、ぬいぐるみ１２のジェスチャ表現を通じてスムーズに変化する歌声表情付けを行えることを確認した。

なお、上述の実施例では、ジェスチャ信号入力手段としてぬいぐるみ１２および手袋型センサ１４を使った。この実施例は、たとえば、演奏者が子供たちに音楽表現や歌声表現がどのような身体表現を伴うのかを教えたり、人形劇のように、誰か別の人物になりきってジェスチャ表現と音声表現を同時に行うときなどに、有効であると考えられる。

図１８に示すような状況を想定すると，i)Ａは手人形インタフェース１２（１４）を用いて歌声を演奏し、自分の手の動きによるぬいぐるみのジェスチャにより音声表現が変化することを体感する。ii)Ｂは演奏における歌声の変化を感じるだけではなく，ぬいぐるみ部分に触れ、その形状を外側から変化させるなどのやりとりとともに歌声表現が変化することを確認できる。iii)ＣはＡやＢと同様にぬいぐるみの動きの徐々に変化する様子とともに歌声が自然に連続的な表情変化を伴って演奏されるのを、オーディエンスとして聴くことができる。iv) ii)に基づき，ＡはＢが触れる感覚をぬいぐるみ内部から得ると同時に歌声の表情変化が感じられる。

このような色々な利点が上述の実施例では得られるのではあるが、ジェスチャを入力する手段は、手人形ないしぬいぐるみ１２に限らない。

ぬいぐるみ１２を用いず、手袋型センサ１４だけを用いてもよい。ただし、この場合には、ぬいぐるみによる、たとえば癒しなどの効果は期待できない。

図１９に示すこの発明の他の実施例では、ジェスチャ信号入力手段として、カメラ３６１，３６２および３６３を用いる。このカメラ３６１‐３６３は、被験者またはユーザ３８の全身を前方、側方、および上方から３次元撮影するものである。そして、これらカメラ３６１‐３６３からのカメラ信号がＡ／Ｄ変換器４０によって画像または映像データに変換され、コンピュータ２２に入力される。コンピュータ２２では解釈テーブル２４Ａを参照して、主としてパターン認識の手法を用いて、そのときの被験者（ユーザ）３８の行ったジェスチャが何であるか、識別または同定する。そして、そのジェスチャに基づいて、ジェスチャ‐表情対応テーブル２６Ａを参照して、図８に従ってモーフィング率を決定する。

図１９では、このように、ユーザの全身を使ったジェスチャで音声モーフィングを実行することができる。したがって、たとえばダンスと音楽との関連でこの実施例の表情付け音声発生装置１０を利用することができる。

図２０に示すこの発明のさらに他の実施例では、ジェスチャ信号入力手段として、１つのカメラ３６Ａを用いる。このカメラ３６Ａ、被験者またはユーザの顔３８Ａを前方から２次元撮影するものである。そして、カメラ３６Ａからのカメラ信号がＡ／Ｄ変換器４０によって画像データに変換され、コンピュータ２２に入力される。コンピュータ２２では解釈テーブル２４Ｂを参照して、主としてパターン認識の手法を用いて、そのときの被験者（ユーザ）の顔３８Ａの表情をジェスチャとして同定する。つまり、この実施例ではユーザの顔３８Ａの表情がジェスチャとして利用できる。そして、そのジェスチャ（顔表情）に基づいて、ジェスチャ‐表情対応テーブル２６Ｂを参照して、図８に従ったモーフィング率を決定する。

図２０では、このように、ユーザの顔を使ったジェスチャで音声モーフィングを実行することができる。したがって、たとえばベッドで寝ている病人などにも有効にこの実施例の表情付け音声発生装置１０を利用することができる。

図２１に示すこの発明のその他の実施例では、ロボット４２を用いる。このようなロボット４２では、その腕を上げたり曲げたり、さらには顔によって、色々な感情（怒り、悲しみなど）を表現できる。そして、そのような感情表現のためには、感情情報が、たとえば外部のコンピュータ（図示せず）からコネクタのコンピュータ２２に与えられる。この感情情報に基づいて、出力テーブル４４が、ロボット４２の各制御子（アクチュエータ）のための制御信号を与える。その制御信号に応じて各アクチュエータが回転したりすることによって、ロボット４２が全体で感情を表現することができる。

そして、この図２１の実施例では、上述のように外部から与えられる感情情報（制御信号）をジェスチャ信号とし、それに基づいてジェスチャを同定し、ジェスチャ‐表情対応テーブル２６Ｃを参照して、その感情情報すなわちジェスチャに応じて、図８に従ってモーフィング率を決定する。

図２１では、このように、ロボット４２の感情またはそれの所在で示されるジェスチャで音声モーフィングを実行することができる。したがって、たとえばコミュニケーションロボットなど、人間とのコミュニケーションのためのロボットでは、図２１の実施例の表情付け音声発生装置１０を利用することができる。

なお、図２１の実施例で、感情情報は外部からコンピュータ２２に入力する必要はなく、コンピュータ２２がロボット４２を制御するために自身の内部で作成した制御信号をそのまままたは変形して利用するようにしてもよい。

図１はこの発明の一実施例でジェスチャ入力のために用いられるぬいぐるみの一例を示す図解図である。図２はこのぬいぐるみに手（手袋）を挿入した状態を示す図解図である。図３は手袋型センサの手の甲側の一例を示す図解図である。図４は手袋型センサの手のひら側の一例を示す図解図である。図５は手袋型センサの親指部と親指第１曲げセンサおよび親指第２曲げセンサとの位置関係を示す図解図である。図６はこの発明の一実施例を示すブロック図である。図７は図６実施例の解釈テーブルの一部を図解する図解図である。図８は３つの元音声をモーフィングする際のモーフィング率の設定方法を示す図解図である。図９は手人形（ぬいぐるみ）で片手振り（waves）の動作をさせたときの姿態変化および関連センサの出力の状態を示す図解図である。図１０は手人形（ぬいぐるみ）でうなずき（nodding）の動作をさせたときの姿態変化および関連センサの出力の状態を示す図解図である。図１１は手人形（ぬいぐるみ）で両手振り（waves）の動作をさせたときの姿態変化および関連センサの出力の状態を示す図解図である。図１２は手人形（ぬいぐるみ）で反り返り（bend back）の動作をさせたときの姿態変化および関連センサの出力の状態を示す図解図である。図１３は手人形（ぬいぐるみ）で拍手（clap）の動作をさせたときの姿態変化および関連センサの出力の状態を示す図解図である。図１４は図６実施例の動作の一例を示すフロー図である。図１５は図６実施例での動作確認のために動作入力から得られたセンサ値を示す図解図である。図１６は図６実施例での動作確認のためのセンサ値から同定したジェスチャを示す図解図である。図１７は図６実施例での動作確認のためのジェスチャで制御される音声制御パラメータ（モーフィング）を示す図解図である。図１８は図１に示す手人形（ぬいぐるみ）をインタフェースとして使用するときの効果または利点を説明するための図解図である。図１９はこの発明の他の実施例を示すブロック図である。図２０はこの発明のさらに他の実施例を示すブロック図である。図２１はこの発明のその他の実施例を示すブロック図である。

符号の説明

１０ …表情付け音声発生装置
１２ …ぬいぐみ
１４ …手袋型センサ
１６１ａ …親指第１曲げセンサ
１６１ｂ …親指第２曲げセンサ
１６２ａ …人差し指第１曲げセンサ
１６２ｂ …人差し指第２曲げセンサ
１６３ａ …中指第１曲げセンサ
１６３ｂ …中第２曲げセンサ
１６４ …手首曲げセンサ
１８１，１８２ …圧力センサ
２２ …コンピュータ
２４，２４Ａ，２４Ｂ，…解釈テーブル
２６，２６Ａ，２６Ｂ，２６Ｃ …ジェスチャ‐表情対応テーブル（マッピングテーブル）
２８ …歌声データベース
３０ …音声合成部
３６１‐３６３、３６Ａ …カメラ
３８ …被験者
４２ …ロボット
４４ …出力テーブル

Claims

互いに表情付が異なる少なくとも２つの音声のそれぞれの音声信号を予め記憶しておく音声信号データベース、
複数のジェスチャを個別に同定するジェスチャ同定手段、
前記音声データベースから読み出した２以上の音声信号をジェスチャ同定手段によって同定されたジェスチャに応じたモーフィング率でモーフィングするモーフィング手段、および
前記モーフィング手段によってモーフィングした結果の音声信号によって音声を出力する音声出力手段を備える、表情付け音声発生装置。
ジェスチャに応じたジェスチャ信号を入力するジェスチャ信号入力手段をさらに備え、
前記ジェスチャ同定手段は前記ジェスチャ信号に基づいてジェスチャを同定する、請求項１記載の表情付け音声発生装置。
前記ジェスチャ同定手段は、ジェスチャの種類とともにそれの程度を同定し、
前記モーフィング手段は前記ジェスチャの種類と程度とに基づいて前記モーフィング率を決定する、請求項２記載の表情付け音声発生装置。
前記ジェスチャ信号入力手段は被験者の手指の動きに応じた信号を出力する手指信号出力手段を含む、請求項２または３記載の表情付け音声発生装置。
前記手指信号出力手段は、手指の変形に応じて信号を出力する曲げセンサを含む、請求項４記載の表情付け音声発生装置。
前記ジェスチャ信号入力手段はジェスチャを撮影した映像信号を出力するカメラを含む、請求項２または３記載の表情付け音声発生装置。
前記ジェスチャ信号はロボットの制御信号を含む、請求項２または３記載の表情付け音声発生装置。