JP2006330136A - 表情付け音声発生装置 - Google Patents

表情付け音声発生装置 Download PDF

Info

Publication number
JP2006330136A
JP2006330136A JP2005150551A JP2005150551A JP2006330136A JP 2006330136 A JP2006330136 A JP 2006330136A JP 2005150551 A JP2005150551 A JP 2005150551A JP 2005150551 A JP2005150551 A JP 2005150551A JP 2006330136 A JP2006330136 A JP 2006330136A
Authority
JP
Japan
Prior art keywords
gesture
morphing
voice
expression
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005150551A
Other languages
English (en)
Other versions
JP4677543B2 (ja
Inventor
Tomoko Yonezawa
朋子 米澤
Noriko Suzuki
紀子 鈴木
Kenji Mase
健二 間瀬
Kiyoshi Kogure
潔 小暮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2005150551A priority Critical patent/JP4677543B2/ja
Publication of JP2006330136A publication Critical patent/JP2006330136A/ja
Application granted granted Critical
Publication of JP4677543B2 publication Critical patent/JP4677543B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Toys (AREA)

Abstract

【構成】 表情付け音声発生装置10は、コンピュータ22を含み、このコンピュータは、手人形(12)を操作する手に装着する手袋型センサ(14)に設けられるセンサ161a‐164,181および182からのセンサ値に基づいて、解釈テーブル24を参照して、その手人形のジェスチャを同定し、そのジェスチャを、ジェスチャ−表情対応テーブル26を参照して、モーフィング点(モーフィング率)にマッピングする。そのモーフィング率に従って、歌声データベース28に予め蓄積されている元歌声(normal, dark, whisper, wet)をモーフィングして、スピーカ34から発音する。この手は手人形の反り返りの程度で音量を制御する。
【効果】 ジェスチャによって音声モーフィングを制御することができる。
【選択図】 図6

Description

この発明は表情付け音声発生装置に関し、特にたとえば、音声モーフィングの技法を使って表情付けされた音声(Expressive Voice)を出力する、表情付け音声発生装置に関する。
従来の感情付き音声表現において、感情音声(Emotional Speech)に関する研究として、非特許文献1で述べられるように、Fo(基本周波数)や話速などのルールベースのアプローチや、非特許文献2のようなコーパスベースのアプローチが考えられる。
ルールベースでは韻律情報を主に扱うのに対し、コーパスベースの手法では韻律情報が一定の歌声の表情付けについても音声の声色を取り扱うことができるが、表情付けの変化を伴うときはコーパス間における表情付けの不連続性が目立つ。
また、本件発明者等は、非特許文献3および4などで公知のSTRAIGHT(音声分析変換合成システム)を利用して音声モーフィングを行なうことによって、表情付けの強度を連続的に変化できる表現手法として、ESVM(Expressive Singing Voice Morphing)を提案している(非特許文献5)。
Schroder, M., "Emotional Speech Synthesis: A Review," Proc. Eurospeech, volume 1, pp. 561-564, 2001 Iida, A., Iga, S., Higuchi, F., Campbell, N., Yasumura, M., "A Speech Synthesis System with Emotion for Assisting Communication", Proc. ISCA Workshop on Speech and Emotion, pp. 167-172, 2000 Kawahara, H., Masuda-Kasuse, L, and Cheveigne, A., "Restructuring speech representations using a pitch-adaptive time-frequency smoothing and aninstantaneous-frequency-based FO extraction: Possible role of a reptitive structure in sounds,"Speech Communication, 27, pp. 187-207, 1999 http://www.wakayama-u.ac.jp/〜kawahra.STRAIGHTadv/(高品質音声分析変換合成システム STRAIGHT) 米澤朋子,鈴木紀子,間瀬健二,小暮潔,"表情付けられた歌声モーフィングの知覚的検討,"日本音響学会春期研究発表会(音講論),pp. 809−810,2004
非特許文献5に示すESVMでは、自然な表情付けが可能となり、色々な方面への利用が期待されている。
それゆえに、この発明の主たる目的は、ESVMの手法を利用した、新規な、表情付け音声発生装置を提供することである。
この発明の他の目的は、ジェスチャでモーフィング率を制御する、新規な、表情付け音声発生装置を提供することである。
請求項1の発明は、互いに表情付が異なる少なくとも2つの音声のそれぞれの音声信号を予め記憶しておく音声信号データベース、複数のジェスチャを個別に同定するジェスチャ同定手段、音声データベースから読み出した2以上の音声信号をジェスチャ同定手段によって同定されたジェスチャに応じたモーフィング率でモーフィングするモーフィング手段、およびモーフィング手段によってモーフィングした結果の音声信号によって音声を出力する音声出力手段を備える、表情付け音声発生装置である。
請求項1の発明では、コンピュータ(22)を用い、このコンピュータ(22)に音声信号データベース(28)を設定しておく。この音声信号データベース(28)にはたとえば、表情付けされていない”normal”と、異なる表情付けされている”dark”, “whisper”, “wet”のそれぞれの音声信号が予め収録されている。コンピュータ(22)では、たとえば手人形(12)を操作する手に装着する手袋(14)に設けられるセンサ(161‐182)からのジェスチャ信号に基づいて、たとえば手人形のそのときのジェスチャを同定する。そして、同じくコンピュータ(22)あるいは他の回路であるモーフィング手段は、たとえば、そのジェスチャとその程度とに従って、モーフィング点をマッピングし、そのモーフィング点で元歌声(normal, dark, whisper, wet)をモーフィングする。
請求項1の発明では、たとえば手人形のようなもののジェスチャで音声モーフィングを制御することができるので、音声モーフィングの応用範囲が拡大できる。
請求項2の発明は、ジェスチャに応じたジェスチャ信号を入力するジェスチャ信号入力手段をさらに備え、ジェスチャ同定手段はジェスチャ信号に基づいてジェスチャを同定する、請求項1記載の表情付け音声発生装置である。
請求項2の発明では、ジェスチャ同定手段、たとえばコンピュータは、ジェスチャ信号入力手段(たとえば手人形のようなインタフェース)から入力されるジェスチャ信号に基づいてジェスチャを同定する。
請求項3の発明は、ジェスチャ同定手段は、ジェスチャの種類とともにそれの程度を同定し、モーフィング手段は前記ジェスチャの種類と程度とに基づいてモーフィング率を決定する、請求項2記載の表情付け音声発生装置である。
請求項3の発明では、ジェスチャ同定手段は、ジェスチャの種類とそのジェスチャの程度(最大動作時をたとえば100%としたときの%値)を同定し、そしてそのジェスチャの種類と程度とによってモーフィング率が決まる。ジェスチャの種類と程度とを併用するため、表情付けがかなり細かく設定できる。
請求項4の発明は、ジェスチャ信号入力手段は被験者の手指の動きに応じた信号を出力する手指信号出力手段を含む、請求項2または3記載の表情付け音声発生装置である。
請求項4の発明では、手指信号出力手段は、たとえば手人形を操作する手に嵌められる手袋(14)に設けられたセンサを用いる。
請求項5の発明は、手指信号出力手段は、手指の変形に応じて信号を出力する曲げセンサを含む、請求項4記載の表情付け音声発生装置である。
請求項5の発明では、実施例では、7つ曲げセンサ(親指第1,第2曲げセンサ161a,161b、人差し指第1,第2曲げセンサ162a,162b、中指第1,第2曲げセンサ163a,163b、および手首曲げセンサ164)を用いる。
請求項6の発明は、ジェスチャ信号入力手段はジェスチャを撮影した映像信号を出力するカメラを含む、請求項2または3記載の表情付け音声発生装置である。
請求項6の発明では、カメラ(361−363または36A)は、被験者の全身を3次元的に撮影し、または被験者の顔を2次元的に撮影する。したがって、被験者の全身のジェスチャまたは被験者の顔の表情(ジェスチャ)に応じて、モーフィング音声が出力される。
請求項7の発明は、ジェスチャ信号はロボットの制御信号を含む、請求項2または3記載の表情付け音声発生装置である。
請求項7の発明では、ロボットの感情を制御する感情情報が制御信号として入力される。したがって、そのロボットの感情をジェスチャとして把握し、それに応じて、モーフィング音声が出力する。
この発明によれば、ジェスチャでモーフィング率すなわち表情付けを変化させることができる。そのため、たとえば事故や障害で発声ができなくなった人でも、表情付けされた音声を発生できるので、感情を比較的自由に表現することができる。さらには、本来的には感情の表現が不得手な被験者やロボットであっても、ジェスチャによって豊かな感情表現の手法を取得することができる。
この発明の上述の目的,その他の目的,特徴および利点は、図面を参照して行う以下の実施例の詳細な説明から一層明らかとなろう。
この発明の一実施例の表情付け音声発生装置10(図6)は、上述のESVMのモーフィングを利用してたとえば歌声表現を制御するものであり、そのモーフィングの制御ためにジェスチャを利用しようとするものである。ただし、ESVMについては、同時係属中の特許出願(特願2004‐369108号)に詳しく説明されているので、必要に応じて可能な限度でその記述を参照する。
そして、そのようなジェスチャを入力するための手段の一例として、手で操作する手人形を用いるが、手人形は、図1に示すぬいぐるみ12を含む。このぬいぐるみ12は、全体として、布やフェルトなどの柔軟な素材で形成されていて、被験者の手のひらが入る手のひら部120と、その手のひら部120と内部で連通し、被験者の親指、人差し指、および中指がそれぞれ挿入できる親指部121、人差し指部122、および中指部123を含む。実施例のぬいぐるみ12は、図示のように、人差し指部122が頭部で、それを挟む親指部121および中指部123が翼または羽である、鳥を表現している。しかしながら、当然、このようなぬいぐるみ12の形状は任意に変更できるものである。
このように、歌声表現を制御するジェスチャ入力のためにぬいぐるみ12を用いるには、適切な擬人化表現を取り入れることが重要であり、実施例では、2つの腕(羽)と頭とを持つぬいぐるみ12の動作を、3本の指で制御することにした。口の動きにより発声タイミングを制御することも考えられるが、この実施例では、ぬいぐるみ12の全身的なジェスチャにより「表情付け」をコントロールすることに狙いを集中させた。
ぬいぐるみ12の外見を活かし、入力デバイスとして利用するためには、手の動きをぬいぐるみ12の動きとして計測することが重要である。歌声の表情付けのコントローラとして十分な精度で動作データを得るために、手人形は、擬人化用カバーとしてのぬいぐるみ12と、手の動きを計測する独立した手袋型センサ14とを含む。
すなわち、ぬいぐるみ12に図2に示すように被験者の手が挿入されるのであるが、その手には、手袋型センサ14を装着する。この手袋型センサ14には手のひらを受容する手のひら部140と、その手のひら部140と内部で連通しておりかつそれぞれに親指、人差し指、および中指が挿入される親指部141、人差し指部142、および中指部143が形成される。ただし、薬指および小指のための指部も当然形成されるのであるが、ここでは言及しない。
図3および図4を参照して、手袋型センサ14には上述の手のひら部140、および指部141−143を含む。親指部141の表面に親指第1曲げセンサ161aがその親指部141の少なくとも第1関節および第2関節をカバーできる長さで設けられる。親指部141の側面に親指第2曲げセンサ161bが同じく親指部141の第1関節および第2関節をカバーできる長さで設けられる。人差し指部142の表面に人差し指第1曲げセンサ162aが少なくともその人差し指部142の第1関節および第2関節をカバーできる長さで設けられ、人差し指部142の側面に人差し指第2曲げセンサ162bが同様に第1関節および第2関節をカバーできる長さで設けられる。さらに、中指部143の表面に中指第1曲げセンサ163aが中指部143の少なくとも第1関節および第2関節をカバーできる長さで設けられ、中指部143の、親指部や人差し指部とは反対側の側面に中親指第2曲げセンサ163bが中指部143の少なくとも第1関節および第2関節をカバーできる長さで設けられる。中指第2曲げセンサ163bを親指第2曲げセンサ161bや人差し指第2曲げセンサ162bとは反対側にしたのは、人差し指部142とこの中指第2曲げセンサ163bとの干渉を避けるためであるので、干渉が少ないか、なければ、他の第2曲げセンサ161bおよび162bと同じ側に設けてもよい。
上述の親指第1曲げセンサ161aおよび親指第2曲げセンサ161bは、図5に示すように、前者が親指部141の表面(手の甲側)に配置され、後者が親指部141の側面に、前者とは90度の角度差で設けられる。これによって、90度の角度差を有するX方向とY方向との2方向の曲げ角度をそれぞれ計測できるようにしている。人差し指第1曲げセンサ162aおよび人差し指第2曲げセンサ162b、ならびに中指第1曲げセンサ163aおよび中指第2曲げセンサ163bも、同様の理由で90度ずれた位置関係にある。
さらに、これら曲げセンサ161a,161b,162a,162b,163aおよび163bは、いずれも、ピエゾ(圧電)素子であり、その主面と直角な方向の曲げ角度に応じて異なる電圧を出力する。したがって、この電圧を検出することによって、各曲げセンサすなわち指部の当該方向での曲げ角度を検出または計測することができる。
また、図4に示すように、手袋型センサ14の親指部141および中指部143のそれぞれの指先には、指の腹側に、圧力センサ181および182が設けられる。この圧力センサ181および182もピエゾ素子であり、その表面にかかった圧力の大きさに応じた大きさの電圧を出力する。2つの圧力センサ181および182は、親指部141の先端と中指部143の先端とが互いに合わさった状態を検出できるようにするためである。
なお、実施例では、人差し指部142(手人形の頭部)では、曲げだけではなく反り返りも計測できるようにするために、予め人差し指がある程度手のひら側に曲がった状態で、ぬいぐるみ12の頭部122が正面を向く構造になっている。そして、手袋型センサ14の手のひら部140の手の甲側内面に図3で点線で示すもう1の曲げセンサ164が設けられる。この手首曲げセンサ164もピエゾ素子であり、人差し指部142の反り返り、すなわち手の甲側への曲げの程度を検出する。
ただし、手首曲げセンサ164は、手袋型センサ14の中にもう1つ別の手袋(図示せず)を設け、その中手袋の手の甲(表面)に付着させるようにしてもよい。
また、長手の曲げセンサ161a,161b,162a,162b,163a,163bおよび164(以下、「161a‐164」と表記することがある。)は、いずれも、手袋型センサ14(および中手袋)に付着されるが、その付着方法は、糸で緩やかに縫い付ける方法が適当である。しっかりと縫い付けたり、接着してしまうと、手袋の指部の特に手のひら側への曲げ角度が大きいときに、曲げセンサが引きつった状態となり、手袋の指部の曲がりに曲げセンサがうまく追従できなくなり、破損するなどの故障が起きるからである。
上で説明した曲げセンサ161a‐164ならびに圧力センサ181および182からの出力電圧は、図6に示すように、A/D変換器20によってディジタルデータに変換されて、コンピュータ22に入力される。このコンピュータ22は、これらセンサ161a‐164,181および182からの電圧に基づいて手および指の動作をぬいぐるみ12のジェスチャとして検出し、そのジェスチャに応じて音声モーフィングを行うものである。
センサ161a‐164,181および182からの電圧値をジェスチャとして解釈するために、解釈テーブル24が、コンピュータ22のメモリ(図示せず)内に予め設定される。
各センサ161a‐164,181および182からの電圧値は、曲げ角度に対して正比例の関係にはなく、図7に示すように、曲げ角度が小さいときには変化が大きく、曲げ角度が大きくなるにつれて変化が小さくなる、各電圧値は一種の飽和曲線のように変化する。したがって、電圧値をそのまま動作(曲げ)の程度であると解釈すると、間違った解釈になる。
そこで、解釈テーブル24には、図7のような変化曲線を、曲げ角度と電圧値が直線的に変化するような変換テーブルまたは変換式を設定している。したがって、コンピュータ22は、解釈テーブル24によってセンサ値(電圧値)を変換し、その変換後の電圧値(センサ値)から各曲げ角度や圧力を推定し、それによってジェスチャとそのジェスチャの程度とを同定または特定する。
図7は1つの曲げセンサのセンサ値と角度との関係を示し、横軸に「1.0」と表示しているが、その位置が曲げ角度が100パーセントの位置で、これを基準にして、曲げ角度の程度(%)が識別できる。ジェスチャの程度とは、この曲げ角度の程度と同様に、そのジェスチャによる最大変化時を100パーセントとしたときの、それ以下の%値のことである。
コンピュータ22には、さらに、図示しないメモリ内に、ジェスチャ‐表情対応テーブル26が予め設定されている。このジェスチャ‐表情対応テーブル26は、解釈したジェスチャを表情付けにマッピングするためのテーブルである。
この実施例が利用するESVMでは、表1に示すモーフィング用歌声(元音声)を用いて、たとえば表2に示すモーフィングを行う。
Figure 2006330136
Figure 2006330136
そして、実施例では、表1のような元音声(元歌声)を、図示しないメモリ内の歌声データベース28に予め登録ししている。ジェスチャ-表情対応テーブル(マッピングテーブル)26は、ジェスチャとその程度とによって、4つの元歌声をどのようなモーフィング率でモーフィングするかを決めるためのテーブルである。
具体的に、図8を参照して、3種類の音声の間での音声モーフィングを行なう際のモーフィング率の決定の方法について説明する。今、3種類の音声A、音声Bおよび音声Cの間でのモーフィングを行なうものとする。図8に示すように、これら3つの音声に対応する頂点100、102および104を有する3角形を考える。
この3角形の各辺を所定数に分割し、各辺と並行な線で分割点同士を結ぶことにより、図8においてメッシュ110を作成できる。このメッシュ110を構成する各点に対応したモーフィング音声は以下のようにして作成できる。
たとえば、音声Aおよび音声Bの間での各分割点に対応する中間音声は、たとえばシグモイト(sigmoid)関数を使って2つの音声が一定の割合で音声が変化するようにモーフィング率を決定する。このときのモーフィング率が上記ジェスチャ‐表情対応テーブル26で決まる。同様の方法で、音声Aおよび音声Cの間、音声Bおよび音声Cの間でのモーフィングもそれぞれ行なうことができる。さらに、メッシュ110の各交点(たとえば交点112)での中間音声は、その交点を通る任意の線の両端(たとえば点114、116)の中間音声を、その両端からその交点までの距離の比に応じたモーフィング率でモーフィングすることにより作成できる。したがって、メッシュ110の各点に対応する中間段階の音声を全て作成できる。
このようにして、この方法は、元となる音声が図8に示す3種類の場合だけでなく、実施例のように元の音声が4種類("normal”, “dark”, “whisper”, “wet”)あっても、またはそれ以上あっても、2つの音声間のモーフィング率の決定を繰り返すことによって、同様に適用できる。
なお、上述のシグモイド関数を利用したこのようなモーフィング率の決定については、先に言及した同時係属中の特許出願(特願2004‐369108号)に詳しい。
このように、ジェスチャ‐表情対応テーブル26を参照して、ジェスチャの種類と程度とに基づいて、実施例では4つのモーフィング用元歌声(元音声)をモーフィングする際のモーフィング率を決定する。
そして、図6に示す実施例では、ジェスチャ‐表情対応テーブル26に基づいて決定したモーフィング率でモーフィングを行うために、先に説明したSTRAIGHTを用いた音声モーフィングを行う音声合成部30を設けた。この音声合成部30は、コンピュータ22とはハード的には別の専用回路(たとえばASIC)として形成されてもよく、コンピュータ22に十分な能力があれば、コンピュータ22の一機能として実行されてもよい。この音声合成部30では、歌声データベース28に予め登録または格納しておいた少なくとも2つ(実施例では4つ)の元音声(元歌声)を図8に従ったモーフィング率でモーフィングする。
実施例では、モーフィング用元歌声(元音声)としては、プロではない20代の女性の歌声をサンプリング周波数44.1kHzで収録した。表1に示す「平坦」な歌声(以下、”normal”とする。)、母音が全体的に後舌母音に近くなるような「暗い」歌声(dark)、子守唄のような「ささやき」歌声(whisper)、鼻にかかったような「ねっとり」した声色の歌声(wet)の計4種類を、歌唱中一貫した声色で歌うよう指示し、歌声を収録した。
課題曲は、童謡『ふるさと』より前半の部分のうち「こぶなつりし」の歌声を用いた。歌声の収録では、Foと話速をそろえるため、同一の伴奏(ハ長調の音階、速度は3/4拍子、120拍/分)に合わせて歌ってもらった。収録された歌声の話速は約2.0モーラ/秒、Fo範囲は平均約300Hz〜450Hzとなった。各歌声音声の長さは平均約3.0秒である。このような元歌声が、歌声データベース28に採録されているのである。
そして、音声合成部30では、まず、表情付けの程度が異なる歌声を作成するため、表情付けのない”normal”な歌声から各表情付き歌声の間(表2、A−1〜3)でモーフィングを行なう。ただし、異なる表情付け間の中間的な歌声も作成するように、3種類の表情付き歌声間(表2のB−1〜3)でもそれぞれモーフィングすることとした。程度が中間的な表情付けのみでなく強調された表情付けの歌声も作成するため、モーフィング率を0以下や1以上に広げ、たとえば、0.167(1/6)毎に等間隔に‐0.333(-2/6)から1.333(8/6)とした。作成した歌声のサンプリング周波数は44.1kHzである。
この音声合成部30で作成したモーフィング音声信号データは、D/A変換器32に出力され、そこでアナログ音声信号に変換され、スピーカ34から、モーフィング音声として出力される。
このように、この実施例の表情付き音声発生装置10では、コンピュータ22は、まず、ジェスチャ同定手段として機能し、センサ161a‐164,181,182からのセンサ値に基づいてジェスチャとそのジェスチャの程度とを同定する。そして、コンピュータ22(または音声合成部30)がモーフィング手段として機能することによって、歌声データベース28から読み出した”normal”,”dark”,”whisper”,”wet”の各音声信号を、ジェスチャ同定手段によって同定されたジェスチャに応じたモーフィング率でモーフィングする。このモーフィング手段によってモーフィングされた結果の音声信号(モーフィング音声信号)によって、スピーカ34から、モーフィング音声が出力される。
図9‐図13は、図1のようなぬいぐるみ12を、図3および図4に示す手袋型センサ14を嵌めた手で変形動作させたときの動作と、それに伴って各センサ161a‐164,181および182から出力される電圧波形を図解するものである。
図9は、”waves”(片手振り)と呼ばれる動作で、親指部121を振る(人差し指部122から遠ざけたり近づけたりする)表現であり、図9(A)が基本姿態で、図9(B)が親指部121を頭部122に近づけた状態を示し、図9(C)がそのときにセンサ161a‐164,181および182から出力される電圧の波形である。白色部分が電圧が発生していることを示している。
図10は、”nodding”(うなずき)と呼ばれる動作で、人差し指部(頭部)122によるうなずき表現であり、図10(A)が基本姿態で、図10(B)が頭部122下向きにした状態を示し、図10(C)がそのときにセンサ161a‐164,181および182から出力される電圧(白色部分)の波形である。
図11は、”waves”(両手振り)と呼ばれる動作で、親指部121および中指部123を振る(それぞれを人差し指部122から遠ざけたり近づけたりする)表現であり、図11(A)が基本姿態で、図11(B)が親指部121および中指部123を頭部122に近づけた状態を示し、図11(C)がそのときにセンサ161a‐164,181および182から出力される電圧(白色部分)の波形である。
図12は、”bend back”(反り返り)と呼ばれる動作で、人差し指部(頭部)122および親指部121ならびに中指部123を手の甲側にそらせる表現であり、図12(A)が基本姿態で、図12(B)が反り返った状態を示し、図12(C)がそのときにセンサ161a‐164,181および182から出力される電圧(白色部分)の波形である。
図13は、”clap”(拍手)と呼ばれる動作で、親指部121と中指部123の先端をつけて拍手する表現であり、図13(A)が基本姿態で、図13(B)が親指部121および中指部123を広げた状態を示し、図13(C)が親指部121および中指部123とをくっつけた状態を示し、図13(D)がそのときにセンサ161a‐164,181および182から出力される電圧(白色部分)の波形である。このときだけ、圧力センサ181および182から電圧が出力されている。
表3に、このような各センサ161a‐182から実際に出力されるセンサ値と各指部や手首の曲げ角度、さらには親指部と中指部の接触圧力との関係を示す。この表3においては、実施例では、各センサ値は、128の分解能(0−127)で表される。たとえば、親指第1曲げセンサの場合、それを手のひら方向に曲げたとき電圧を出力し、最大値が110、最小値が60であった。ただし、動きが最も大きいときのセンサ値が最小値となる。手首曲げセンサに付いていえば、手首を手の甲側に曲げたとき、20‐30から50‐60まで変化するセンサ値が出力される。圧力センサでは、最大値は127で、最小値が127未満ということで、この圧力センサは、タッチセンサであり、親指部と中指部との接触を検知する。
Figure 2006330136
先に図6で説明したジェスチャ‐表情対応テーブル(マッピングテーブル)26による、歌声表現のジェスチャ表現に対する適切なマッピングのためには,ユーザの手が感じる難易度や苦痛な動作といった感覚と、苦しそうな歌声表現がマッピングされるなどの身体的な感覚を考慮すべく、実施例では、まず身体的な状況をいくつか定義し、どのような表情付けの状況であるかを定義付けることにした。
歌声表現でコントロールするパラメータとして,(1) 歌声の音量、(2)歌声の表情付けのタイプ、”dark”,“whisper”,“wet”のいずれか、(3)表情付けの強度(程度)の3つを定義した。そして,”dark”の表情付けの強度(表2におけるA−1の合成)をオペラのような発声姿勢(表4参照)に,”whisper”の表情付け強度(A−2)を頭をうなだれる姿勢に,”wet”の表情付け(A‐3)をポップ歌手のように両手を前へ伸ばす発声姿勢にそれぞれマッピングした。
Figure 2006330136
実施例のような入力システムを用いたとき、連続的な動きのまとまりをジェスチャ表現として入力することも考えられる。しかしながら、音声のコントロールを行う際は時間連続的なジェスチャを入力とすると遅延が発生して被験者へのフィードバックが直感的でないことが考えられるため、この実施例では導入していない。
そして、ジェスチャ‐表情対応テーブル26では、手人形すなわちぬいぐるみ12が、被験者またはユーザが力を入れていない中間的な姿勢をとっているとき、音声の表情付けはない状態、つまり”normal”の表情付けを行うよう設定した。そして、図8に示すように、4タイプの表情付け、”normal”,”dakrk”,”whisper”,”wet”の間で、ジェスチャとその程度とで決まるモーフィング率を決める。
そして、ぬいぐるみ12の身体の傾きを手指操作とは独立した表現として取り入れ、音量のコントロールを行わせるようにした。図6において、音声合成部30からD/A変換器32に1本の線で出力されているのが音量(volume)コントロールである。
なお、表情付けが突然変化するときには、50ミリ秒の遅延を与え、音声表現が不自然にならないよう平滑化することにした。
図6の実施例において、コンピュータ22は、図14の最初のステップS11において、A/D変換器20から、各センサ161a‐164,181および182から出力される電圧(センサ値)を読み取る。
そして、コンピュータ22は、図14のステップS13において、解釈テーブル24を参照して、そのときのぬいぐるみ12のジェスチャを、先の表4のように、同定する。このとき、図7で説明したように、そのジェスチャの程度も併せて特定する。
その後、コンピュータ22は、ステップS15で、図6に示すジェスチャ‐表情対応テーブル26を参照して、ジェスチャおよびその程度に基づいて、先に図8を参照して説明したようにモーフィング率を決定する。
そして、ステップS17で、コンピュータ22が、あるいは音声合成部30が、歌声データベース28から読み出した各元歌声(音声)信号を、ステップS15で決定したモーフィング率に従ってモーフィングする。
そして、ステップS19において、コンピュータ22は、反り返りジェスチャの程度に応じた音量でモーフィング音声がスピーカ34から出力されるように、その反り返り(手首曲げセンサのセンサ値)に応じた音量設定信号をD/A変換器32に与える。
このようにして、コンピュータ22は、被験者またはユーザが自分の手(手袋型センサ14を装着した)でぬいぐるみ12のジェスチャを変更することによって、たとえば4種類のモーフィング元音声”normal”,”dakrk”,”whisper”,”wet”をモーフィング(音声合成)した、モーフィング音声が発生され得る。
図15‐図17に、動作確認のために、動作入力から得られたセンサ値、ジェスチャ、および音声制御パラメータ(モーフィング)を例示する。動作確認では、被験者またはユーザは、およそ45秒間(図15-図17の横軸)にわたりパフォーマンスを行った。まず、ぬいぐるみの体全体をそらせ(図15-図17の丸付き数字1で示す)、両手をそらせた(図15-図17の丸付き数字2で示す)。そして両手を前方に伸ばし(図15-図17の丸付き数字3で示す)、最後に拍手動作を行った(図15-図17の丸付き数字4で示す)。図15は5つのセンサ親指第1曲げセンサ161a,圧力センサ181,中指第1曲げセンサ163a,圧力センサ182および手首曲げセンサ164からのセンサ信号の例であり、図16は図15のセンサ信号から得たジェスチャ情報である。図17はそのジェスチャに従った各表情付けの強度に対する制御を示す。
このように、ユーザが右手の動作により、ぬいぐるみ12のジェスチャ表現を通じてスムーズに変化する歌声表情付けを行えることを確認した。
なお、上述の実施例では、ジェスチャ信号入力手段としてぬいぐるみ12および手袋型センサ14を使った。この実施例は、たとえば、演奏者が子供たちに音楽表現や歌声表現がどのような身体表現を伴うのかを教えたり、人形劇のように、誰か別の人物になりきってジェスチャ表現と音声表現を同時に行うときなどに、有効であると考えられる。
図18に示すような状況を想定すると,i)Aは手人形インタフェース12(14)を用いて歌声を演奏し、自分の手の動きによるぬいぐるみのジェスチャにより音声表現が変化することを体感する。ii)Bは演奏における歌声の変化を感じるだけではなく,ぬいぐるみ部分に触れ、その形状を外側から変化させるなどのやりとりとともに歌声表現が変化することを確認できる。iii)CはAやBと同様にぬいぐるみの動きの徐々に変化する様子とともに歌声が自然に連続的な表情変化を伴って演奏されるのを、オーディエンスとして聴くことができる。iv) ii)に基づき,AはBが触れる感覚をぬいぐるみ内部から得ると同時に歌声の表情変化が感じられる。
このような色々な利点が上述の実施例では得られるのではあるが、ジェスチャを入力する手段は、手人形ないしぬいぐるみ12に限らない。
ぬいぐるみ12を用いず、手袋型センサ14だけを用いてもよい。ただし、この場合には、ぬいぐるみによる、たとえば癒しなどの効果は期待できない。
図19に示すこの発明の他の実施例では、ジェスチャ信号入力手段として、カメラ361,362および363を用いる。このカメラ361‐363は、被験者またはユーザ38の全身を前方、側方、および上方から3次元撮影するものである。そして、これらカメラ361‐363からのカメラ信号がA/D変換器40によって画像または映像データに変換され、コンピュータ22に入力される。コンピュータ22では解釈テーブル24Aを参照して、主としてパターン認識の手法を用いて、そのときの被験者(ユーザ)38の行ったジェスチャが何であるか、識別または同定する。そして、そのジェスチャに基づいて、ジェスチャ‐表情対応テーブル26Aを参照して、図8に従ってモーフィング率を決定する。
図19では、このように、ユーザの全身を使ったジェスチャで音声モーフィングを実行することができる。したがって、たとえばダンスと音楽との関連でこの実施例の表情付け音声発生装置10を利用することができる。
図20に示すこの発明のさらに他の実施例では、ジェスチャ信号入力手段として、1つのカメラ36Aを用いる。このカメラ36A、被験者またはユーザの顔38Aを前方から2次元撮影するものである。そして、カメラ36Aからのカメラ信号がA/D変換器40によって画像データに変換され、コンピュータ22に入力される。コンピュータ22では解釈テーブル24Bを参照して、主としてパターン認識の手法を用いて、そのときの被験者(ユーザ)の顔38Aの表情をジェスチャとして同定する。つまり、この実施例ではユーザの顔38Aの表情がジェスチャとして利用できる。そして、そのジェスチャ(顔表情)に基づいて、ジェスチャ‐表情対応テーブル26Bを参照して、図8に従ったモーフィング率を決定する。
図20では、このように、ユーザの顔を使ったジェスチャで音声モーフィングを実行することができる。したがって、たとえばベッドで寝ている病人などにも有効にこの実施例の表情付け音声発生装置10を利用することができる。
図21に示すこの発明のその他の実施例では、ロボット42を用いる。このようなロボット42では、その腕を上げたり曲げたり、さらには顔によって、色々な感情(怒り、悲しみなど)を表現できる。そして、そのような感情表現のためには、感情情報が、たとえば外部のコンピュータ(図示せず)からコネクタのコンピュータ22に与えられる。この感情情報に基づいて、出力テーブル44が、ロボット42の各制御子(アクチュエータ)のための制御信号を与える。その制御信号に応じて各アクチュエータが回転したりすることによって、ロボット42が全体で感情を表現することができる。
そして、この図21の実施例では、上述のように外部から与えられる感情情報(制御信号)をジェスチャ信号とし、それに基づいてジェスチャを同定し、ジェスチャ‐表情対応テーブル26Cを参照して、その感情情報すなわちジェスチャに応じて、図8に従ってモーフィング率を決定する。
図21では、このように、ロボット42の感情またはそれの所在で示されるジェスチャで音声モーフィングを実行することができる。したがって、たとえばコミュニケーションロボットなど、人間とのコミュニケーションのためのロボットでは、図21の実施例の表情付け音声発生装置10を利用することができる。
なお、図21の実施例で、感情情報は外部からコンピュータ22に入力する必要はなく、コンピュータ22がロボット42を制御するために自身の内部で作成した制御信号をそのまままたは変形して利用するようにしてもよい。
図1はこの発明の一実施例でジェスチャ入力のために用いられるぬいぐるみの一例を示す図解図である。 図2はこのぬいぐるみに手(手袋)を挿入した状態を示す図解図である。 図3は手袋型センサの手の甲側の一例を示す図解図である。 図4は手袋型センサの手のひら側の一例を示す図解図である。 図5は手袋型センサの親指部と親指第1曲げセンサおよび親指第2曲げセンサとの位置関係を示す図解図である。 図6はこの発明の一実施例を示すブロック図である。 図7は図6実施例の解釈テーブルの一部を図解する図解図である。 図8は3つの元音声をモーフィングする際のモーフィング率の設定方法を示す図解図である。 図9は手人形(ぬいぐるみ)で片手振り(waves)の動作をさせたときの姿態変化および関連センサの出力の状態を示す図解図である。 図10は手人形(ぬいぐるみ)でうなずき(nodding)の動作をさせたときの姿態変化および関連センサの出力の状態を示す図解図である。 図11は手人形(ぬいぐるみ)で両手振り(waves)の動作をさせたときの姿態変化および関連センサの出力の状態を示す図解図である。 図12は手人形(ぬいぐるみ)で反り返り(bend back)の動作をさせたときの姿態変化および関連センサの出力の状態を示す図解図である。 図13は手人形(ぬいぐるみ)で拍手(clap)の動作をさせたときの姿態変化および関連センサの出力の状態を示す図解図である。 図14は図6実施例の動作の一例を示すフロー図である。 図15は図6実施例での動作確認のために動作入力から得られたセンサ値を示す図解図である。 図16は図6実施例での動作確認のためのセンサ値から同定したジェスチャを示す図解図である。 図17は図6実施例での動作確認のためのジェスチャで制御される音声制御パラメータ(モーフィング)を示す図解図である。 図18は図1に示す手人形(ぬいぐるみ)をインタフェースとして使用するときの効果または利点を説明するための図解図である。 図19はこの発明の他の実施例を示すブロック図である。 図20はこの発明のさらに他の実施例を示すブロック図である。 図21はこの発明のその他の実施例を示すブロック図である。
符号の説明
10 …表情付け音声発生装置
12 …ぬいぐみ
14 …手袋型センサ
161a …親指第1曲げセンサ
161b …親指第2曲げセンサ
162a …人差し指第1曲げセンサ
162b …人差し指第2曲げセンサ
163a …中指第1曲げセンサ
163b …中第2曲げセンサ
164 …手首曲げセンサ
181,182 …圧力センサ
22 …コンピュータ
24,24A,24B,…解釈テーブル
26,26A,26B,26C …ジェスチャ‐表情対応テーブル(マッピングテーブル)
28 …歌声データベース
30 …音声合成部
361‐363、36A …カメラ
38 …被験者
42 …ロボット
44 …出力テーブル

Claims (7)

  1. 互いに表情付が異なる少なくとも2つの音声のそれぞれの音声信号を予め記憶しておく音声信号データベース、
    複数のジェスチャを個別に同定するジェスチャ同定手段、
    前記音声データベースから読み出した2以上の音声信号をジェスチャ同定手段によって同定されたジェスチャに応じたモーフィング率でモーフィングするモーフィング手段、および
    前記モーフィング手段によってモーフィングした結果の音声信号によって音声を出力する音声出力手段を備える、表情付け音声発生装置。
  2. ジェスチャに応じたジェスチャ信号を入力するジェスチャ信号入力手段をさらに備え、
    前記ジェスチャ同定手段は前記ジェスチャ信号に基づいてジェスチャを同定する、請求項1記載の表情付け音声発生装置。
  3. 前記ジェスチャ同定手段は、ジェスチャの種類とともにそれの程度を同定し、
    前記モーフィング手段は前記ジェスチャの種類と程度とに基づいて前記モーフィング率を決定する、請求項2記載の表情付け音声発生装置。
  4. 前記ジェスチャ信号入力手段は被験者の手指の動きに応じた信号を出力する手指信号出力手段を含む、請求項2または3記載の表情付け音声発生装置。
  5. 前記手指信号出力手段は、手指の変形に応じて信号を出力する曲げセンサを含む、請求項4記載の表情付け音声発生装置。
  6. 前記ジェスチャ信号入力手段はジェスチャを撮影した映像信号を出力するカメラを含む、請求項2または3記載の表情付け音声発生装置。
  7. 前記ジェスチャ信号はロボットの制御信号を含む、請求項2または3記載の表情付け音声発生装置。
JP2005150551A 2005-05-24 2005-05-24 表情付け音声発生装置 Expired - Fee Related JP4677543B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005150551A JP4677543B2 (ja) 2005-05-24 2005-05-24 表情付け音声発生装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005150551A JP4677543B2 (ja) 2005-05-24 2005-05-24 表情付け音声発生装置

Publications (2)

Publication Number Publication Date
JP2006330136A true JP2006330136A (ja) 2006-12-07
JP4677543B2 JP4677543B2 (ja) 2011-04-27

Family

ID=37551910

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005150551A Expired - Fee Related JP4677543B2 (ja) 2005-05-24 2005-05-24 表情付け音声発生装置

Country Status (1)

Country Link
JP (1) JP4677543B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015088161A (ja) * 2013-09-26 2015-05-07 富士通株式会社 ジェスチャ入力装置、ジェスチャ入力方法、およびジェスチャ入力プログラム
CN105845119A (zh) * 2016-05-12 2016-08-10 北京千音互联科技有限公司 一种智能掌上乐器及演奏方法
CN106896796A (zh) * 2017-02-13 2017-06-27 上海交通大学 基于数据手套的工业机器人主从式示教编程方法
US10296085B2 (en) 2014-03-05 2019-05-21 Markantus Ag Relatively simple and inexpensive finger operated control device including piezoelectric sensors for gesture input, and method thereof

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01313083A (ja) * 1988-06-13 1989-12-18 Takara Co Ltd 音出し玩具
JPH05158473A (ja) * 1990-12-05 1993-06-25 Yamaha Corp 楽音制御方法および装置
JPH08286688A (ja) * 1995-04-14 1996-11-01 Yasuki Sonobe カラオケ用ボイスコンバーター装置
JPH0950295A (ja) * 1995-08-09 1997-02-18 Fujitsu Ltd 音声合成方法およびそのための装置
JPH103544A (ja) * 1996-06-14 1998-01-06 Imeeji Joho Kagaku Kenkyusho ジェスチャ認識装置
JPH11296673A (ja) * 1998-04-15 1999-10-29 Image Joho Kagaku Kenkyusho ジェスチャ認識装置
JP2001109901A (ja) * 1999-10-05 2001-04-20 Sharp Corp アニメーション作成装置および方法、ならびにアニメーション作成プログラムを記録したコンピュータで読取可能な記録媒体
JP2001229398A (ja) * 1999-11-24 2001-08-24 Fuji Xerox Co Ltd パフォーマンス動画ジェスチャーの取得及び動画キャラクター上での再生方法及び装置
JP2002094881A (ja) * 2000-09-14 2002-03-29 Megafusion Corp 画像および音の補間処理装置並びにそれらの補間処理方法
JP2003173452A (ja) * 2001-12-05 2003-06-20 Nippon Telegr & Teleph Corp <Ntt> 動作制御装置、方法及びプログラム
WO2004027527A1 (ja) * 2002-09-20 2004-04-01 Matsushita Electric Industrial Co., Ltd. 対話型装置
JP2005099836A (ja) * 2004-11-05 2005-04-14 Yamaha Corp 楽音制御装置
JP2006178052A (ja) * 2004-12-21 2006-07-06 Advanced Telecommunication Research Institute International 音声発生装置およびそのためのコンピュータプログラム

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01313083A (ja) * 1988-06-13 1989-12-18 Takara Co Ltd 音出し玩具
JPH05158473A (ja) * 1990-12-05 1993-06-25 Yamaha Corp 楽音制御方法および装置
JPH08286688A (ja) * 1995-04-14 1996-11-01 Yasuki Sonobe カラオケ用ボイスコンバーター装置
JPH0950295A (ja) * 1995-08-09 1997-02-18 Fujitsu Ltd 音声合成方法およびそのための装置
JPH103544A (ja) * 1996-06-14 1998-01-06 Imeeji Joho Kagaku Kenkyusho ジェスチャ認識装置
JPH11296673A (ja) * 1998-04-15 1999-10-29 Image Joho Kagaku Kenkyusho ジェスチャ認識装置
JP2001109901A (ja) * 1999-10-05 2001-04-20 Sharp Corp アニメーション作成装置および方法、ならびにアニメーション作成プログラムを記録したコンピュータで読取可能な記録媒体
JP2001229398A (ja) * 1999-11-24 2001-08-24 Fuji Xerox Co Ltd パフォーマンス動画ジェスチャーの取得及び動画キャラクター上での再生方法及び装置
JP2002094881A (ja) * 2000-09-14 2002-03-29 Megafusion Corp 画像および音の補間処理装置並びにそれらの補間処理方法
JP2003173452A (ja) * 2001-12-05 2003-06-20 Nippon Telegr & Teleph Corp <Ntt> 動作制御装置、方法及びプログラム
WO2004027527A1 (ja) * 2002-09-20 2004-04-01 Matsushita Electric Industrial Co., Ltd. 対話型装置
JP2005099836A (ja) * 2004-11-05 2005-04-14 Yamaha Corp 楽音制御装置
JP2006178052A (ja) * 2004-12-21 2006-07-06 Advanced Telecommunication Research Institute International 音声発生装置およびそのためのコンピュータプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015088161A (ja) * 2013-09-26 2015-05-07 富士通株式会社 ジェスチャ入力装置、ジェスチャ入力方法、およびジェスチャ入力プログラム
US10296085B2 (en) 2014-03-05 2019-05-21 Markantus Ag Relatively simple and inexpensive finger operated control device including piezoelectric sensors for gesture input, and method thereof
CN105845119A (zh) * 2016-05-12 2016-08-10 北京千音互联科技有限公司 一种智能掌上乐器及演奏方法
CN105845119B (zh) * 2016-05-12 2024-01-23 北京千音互联科技有限公司 一种智能掌上乐器及演奏方法
CN106896796A (zh) * 2017-02-13 2017-06-27 上海交通大学 基于数据手套的工业机器人主从式示教编程方法

Also Published As

Publication number Publication date
JP4677543B2 (ja) 2011-04-27

Similar Documents

Publication Publication Date Title
KR102174188B1 (ko) 발화 개선을 위한 두경부 물리 특성 기반의 발화 개선 가이드 및 피드백 및 피드백 시스템
Wheatland et al. State of the art in hand and finger modeling and animation
Bailly Learning to speak. Sensori-motor control of speech movements
Godøy et al. Chunking in music by coarticulation
Lyons et al. 2003: Designing, Playing, and Performing with a Vision-Based Mouth Interface
Fels Designing for intimacy: Creating new interfaces for musical expression
Marrin Nakra Inside the conductor's jacket: analysis, interpretation and musical synthesis of expressive gesture
Petersen et al. Musical-based interaction system for the Waseda Flutist Robot: Implementation of the visual tracking interaction module
JPWO2020045658A1 (ja) ロボット及び音声生成プログラム
JP4677543B2 (ja) 表情付け音声発生装置
Reed et al. Surface electromyography for direct vocal control
Davanzo et al. Hands-free accessible digital musical instruments: conceptual framework, challenges, and perspectives
Solis et al. The development of the anthropomorphic flutist robot at Waseda University
Reed et al. Surface electromyography for sensing performance intention and musical imagery in vocalists
Erdem et al. Exploring relationships between effort, motion, and sound in new musical instruments
Giordano et al. Design of vibrotactile feedback and stimulation for music performance
Poepel et al. Design and Evaluation of a Gesture Controlled Singing Voice Installation.
Bongers Tactual display of sound properties in electronic musical instruments
Yonezawa et al. Handysinger: Expressive singing voice morphing using personified hand-puppet interface
Cosentino et al. Human–robot musical interaction
Poggi et al. Forte, piano, crescendo, diminuendo: Gestures of intensity in orchestra and choir conduction
JP2008116551A (ja) 表情付け音声発生装置
Jessop A gestural media framework: Tools for expressive gesture recognition and mapping in rehearsal and performance
Weber et al. KONTRAKTION: Sonification of Metagestures with electromyographic Signals
Padmini et al. A Real-Time Oral Cavity Gesture Based Words Synthesizer Using Sensors.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080331

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100817

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101014

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101221

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101227

R150 Certificate of patent or registration of utility model

Ref document number: 4677543

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140210

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees