JP2006178052A - 音声発生装置およびそのためのコンピュータプログラム - Google Patents

音声発生装置およびそのためのコンピュータプログラム Download PDF

Info

Publication number
JP2006178052A
JP2006178052A JP2004369108A JP2004369108A JP2006178052A JP 2006178052 A JP2006178052 A JP 2006178052A JP 2004369108 A JP2004369108 A JP 2004369108A JP 2004369108 A JP2004369108 A JP 2004369108A JP 2006178052 A JP2006178052 A JP 2006178052A
Authority
JP
Japan
Prior art keywords
voice
morphing
audio
types
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004369108A
Other languages
English (en)
Other versions
JP4720974B2 (ja
Inventor
Tomoko Yonezawa
朋子 米澤
Noriko Suzuki
紀子 鈴木
Kiyoshi Kogure
潔 小暮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2004369108A priority Critical patent/JP4720974B2/ja
Publication of JP2006178052A publication Critical patent/JP2006178052A/ja
Application granted granted Critical
Publication of JP4720974B2 publication Critical patent/JP4720974B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】 音声の表情付けを自由に変化させながら音声の発生を行なうことができるようにする。
【解決手段】 モーフィング音声選択・再生装置32は、同じ内容の発声対象を所定の速度で発声した、互いに異なる表情付けがされた複数種類の音声に基づいて、音声の表情付けを変化させながら発生させる。この装置32は、与えられた音声を音声信号に変換する音声発生処理部172と、複数種類の音声のモーフィング率を指定するスライダ等を含む入出力画面164と、モーフィング率が指定されたことに応答して、複数種類の音声と、複数種類の音声に対して複数種類のモーフィング率で音声モーフィングを行なって得た中間音声との中で、指定されたモーフィング率に最も近いモーフィング率の音声を選択して音声発生処理部172に与える音声選択処理部168とを含む。
【選択図】 図7

Description

この発明は音声処理技術に関し、特に、音声に任意の表情付けを容易に行なうことが可能な音声処理技術に関する。
様々な音声表現においてユーザの所望する表情付けを可能にし、豊かな表情のついた音声を実現するための技術は、様々な用途に利用可能であると思われる。例えば、豊かな表情の歌声の合成などである。そのためには様々な表情付きの音声だけでなく、表情付けの程度が中間的な音声も必要だと考えられる。さらに,それらは自然な音声に近いことが望ましい。
よって、多種多様な音声データを集めることが望まれる。しかし、そのためには所望の表情付けがされた音声を収録する作業が必要であるが、そのような作業は極めて困難である。その結果、音声に対しユーザの所望するような種々の表情付けを容易に行なうことができる従来技術は存在していない。
カワハラ、H.およびマツイ、H.、「無干渉時間−周波数表現における弾性的知覚的距離尺度に基づく聴覚的モーフィング」、ICASSP’2003予稿集、第1巻、pp.256−259、2003年(Kawahara, H., and Matsui, H., "AUDITORY MORPHING BASED ON AN ELASTIC PERCEPTUAL DISTANCE METRIC IN AN INTERFERENCE-FREE TIME-FREQUENCY REPRESENTATION," Proc. ICASSP'2003, vol.I, pp.256-259, 2003.) http://www.wakayama-u.ac.jp/~kawahara/STRAIGHTadv/(高品質音声分析変換合成システム STRAIGHT)
以上のように、音声に対しユーザの所望するような種々の表情付けを容易に行なうことができる技術は存在しておらず、そうした技術に対する需要が高まっている。
したがって本発明の主たる目的は、音声の表情付けを自由に変化させながら音声の発生を行なうことができる音声発生装置を提供することである。
本発明の他の目的は、音声の表情付けを自由に、かつ簡単な操作で変化させながら音声の発生を行なうことができる音声発生装置を提供することである。
本発明のさらに他の目的は、多数の音声を収録する必要なく、音声の表情付けを自由に変化させながら音声の発生を行なうことができる音声発生装置を提供することである。
本発明の第1の局面に係る音声発生装置は、同じ内容の複数種類の音声に基づいて、声質を変化させながら音声を発生させるための音声発生装置である。この音声発生装置は、複数種類の音声のモーフィング率を指定するためのモーフィング率指定手段と、モーフィング率指定手段によりモーフィング率が指定されたことに応答して、複数種類の音声と、複数種類の音声に対して複数種類のモーフィング率で音声モーフィングを行なって得た中間音声との中で、指定されたモーフィング率に最も近いモーフィング率の音声を選択するための音声選択手段と、音声選択手段により選択された音声を音声信号に変換するための音声信号変換手段とを含む。
複数種類の音声と、それらの中間音声とを予め準備しておき、モーフィング率指定手段によりモーフィング率が指定されると、それに応答してこれら音声の中で指定されたモーフィング率に最も近いモーフィング率の音声を選択して音声信号に変換する。多くの種類の音声を準備しなくても、中間音声を用いることにより種々の表情付けがされた音声の発生をリアルタイムで行なうことができる。
好ましくは、複数種類の音声には、予めそれぞれの声質を特定するラベルが付されている。そしてモーフィング率指定手段は、複数種類の音声の各々について、対応するラベルを表示するためのラベル表示手段と、複数種類の音声をそれぞれ表す複数の基準点をそれぞれ所定の位置に対応するラベルと関連付けて表示するための基準点表示手段と、基準点と所定の関係にある予め定める領域内にユーザにより配置されたポインタの位置と、複数の基準点との間の距離にしたがって、複数種類の音声のモーフィング率を決定するためのモーフィング率決定手段とを含む。
複数種類の音声に付されたラベルが表示され、さらにそれら複数種類の音声に対応する基準点がラベルと関連付けて表示される。ユーザがそれら基準点と所定の関係にある領域、例えば基準点が二つの場合には基準点を結ぶ直線上、基準点が3つの場合にはそれら3点で囲まれる三角形内にポインタを配置すると、その位置と基準点との間の距離にしたがって、モーフィング率決定手段が音声のモーフィング率を決定する。視覚的で直感的に分りやすい、簡単な操作で音声のモーフィング率を指定することができる。
モーフィング率指定手段は、所定空間内において、複数種類の音声の各々にそれぞれ対応する複数の基準点を決定するための基準点決定手段と、複数の基準点と所定の関係にある、予め定める領域内にユーザにより配置されたポインタの位置と、複数の基準点との間の距離にしたがって、前記複数種類の音声のモーフィング率を決定するためのモーフィング率決定手段とを含んでもよい。
複数種類の音声に対応する基準点が空間内において決定される。ユーザがそれら基準点と所定の関係にある領域、例えば基準点が4つの場合にはそれら4点で囲まれる三角錐内にポインタを配置すると、その位置と基準点との間の距離にしたがって、モーフィング率決定手段が音声のモーフィング率を決定する。ポインタの配置によってモーフィング率を指定できるため、直感的で分りやすく、簡単な操作で音声のモーフィング率を指定することができる。
さらに好ましくは、音声発生装置は、音声選択手段による音声発生の基準時刻を定めるタイマと、モーフィング率指定手段によりモーフィング率の指定がされたことに応答して、タイマを参照して音声再生の時刻を得て、音声選択手段により選択された音声を示す情報とともに音声再生シーケンスとして記録するための選択音声記録手段と、音声再生シーケンスの再生を指示する信号に応答して、当該信号により示される音声再生シーケンスを読出して、当該音声再生シーケンスにより指定される時刻に、当該時刻に指定された音声を選択して音声信号変換手段に与えるための音声再生制御処理手段とをさらに含む。
音声を選択する操作をしながら音声を発声させると、その操作により選択された音声と、その音声が選択されたときの時刻とが音声再生シーケンスとして記録される。それを音声再生制御手段によって再生することにより、過去に行なった音声再生と同じ順序で、同じ音声を用いた音声再生を再現することができる。
音声発生装置は、複数種類の音声と中間音声とを記憶し、音声選択手段に与えるための音声記憶装置をさらに含んでもよい。
本発明の第2の局面に係るコンピュータプログラムは、コンピュータにより実行されると、上記したいずれかの音声発生装置として当該コンピュータを動作させるものである。したがって、対応する音声発生装置と同様の作用効果を奏することができる。
異なる二つの音声を所望のモーフィング率で混合することにより中間的な声質を有する音声(以下「中間音声」と呼ぶ。)を作成する音声モーフィングと呼ばれる技術が存在する。この音声モーフィングに利用可能な音声分析変換合成ツールとしてSTRAIGHTと呼ばれるシステムが知られている(非特許文献1に記載)。
この音声モーフィング技術を用いれば、予め録音した2種類の音声間の中間の声質を持つ音声を作成できる。本実施の形態では、実際の音声データだけではなく、音声モーフィングにより作成した中間音声も使用し、再生中の音声の声質を所望にしたがって変化させる。中間音声を作成する上では、元になる2種類の音声、例えば平坦(normal)な音声、暗い(dark)音声、ねっとりした(wet)音声の中の2種類により、同じ内容のテキストを朗読する、または同じ歌を歌うときの声を録音することが有効である。このとき、テキストの朗読速度、または歌の速さを同じになるようにするとよい。例えば歌の場合であれば予め録音された伴奏にあわせて歌を歌うようにすればよい。また、テキストの朗読の場合には、最初に朗読した音声をヘッドホンで話者に聞かせながら2回目の朗読を行なうようにしてもよい。
なお、本明細書において「表情付け」とは、音声を聞く人が、その音声によりその音声に対して感じる主観的な印象のことをいう。また、本明細書では、そのような印象により表される声の性質を「声質」と呼ぶ。すなわち、本明細書においては「表情付け」と「声質」とは同じ意味を表す。
なお、以下に記載する実施の形態の説明では、同じ部品には同じ参照符号を付す。それらの名称および機能も同一である。したがってそれらについての詳細な説明は繰返さない。
図1に、本発明の一実施の形態にかかる音声モーフィングシステム20の概略構成を示す。図1を参照して、この音声モーフィングシステム20は、予め準備された、基準となる第1の音声38および第2の音声40を記憶する基準音声記憶装置26と、基準音声記憶装置26に記憶された第1の音声38および第2の音声40を利用者により指定されたパラメータを用いて得られる複数種類のモーフィング率をそれぞれ用いてモーフィングすることにより、第1の音声38と第2の音声40との間での等間隔の中間音として知覚される9個のモーフィング後音声28を作成するための音声モーフィング装置22と、音声モーフィング装置22により作成されたモーフィング後音声28を格納するための記憶装置と、音声モーフィング装置22に対してモーフィング後音声28として作成される中間音声の数などのパラメータをユーザが入力する際に使用する入出力インタフェース24とを含む。
ここで「等間隔の中間音として知覚される」とは、聴者の主観的な印象として、発生された音声の声質が、一定の割合で一方の声質から他方の声質に変化していくように感じられることを指す。
音声モーフィング装置22は、実質的には前述した非特許文献1に記載のSTRAIGHTを使用する。
音声モーフィングシステム20はさらに、モーフィング後音声28と第1の音声38および第2の音声40とを記憶するための音声データ記憶装置30と、所与のモーフィング率に基づいて、音声データ記憶装置30に記憶された音声データのうち、与えられたモーフィング率に最も近い音声をリアルタイムで選択し音声信号として再生するためのモーフィング音声選択・再生装置32と、モーフィング音声選択・再生装置32に対してモーフィング率などの指示を与えるためにユーザが利用するユーザインタフェース34と、モーフィング音声選択・再生装置32により再生された音声信号を音声に変換するためのスピーカシステム36とを含む。
図1に示す音声モーフィングシステム20は、一般的にはコンピュータシステムのハードウェアと、当該ハードウェアにより実行されるプログラムとにより実現される。図2にこの音声モーフィングシステム20を実現するコンピュータシステム50の外観図を、図3にそのブロック図を、それぞれ示す。
図2を参照して、音声モーフィングシステム20を実現するコンピュータシステム50は、マイクロフォン64と、一組のスピーカ36と、CD−ROM(Compact Disc Read Only Memory)ドライブ70およびFD(Flexible Disk)ドライブ72とを有するコンピュータ78と、いずれもコンピュータ78に接続されたLCD(液晶表示装置)74とキーボード66とマウス68とを含む。
図3はコンピュータ78のハードウェアのブロック図である。図3を参照して、コンピュータ78は、CPU(Central Processing Unit:中央処理装置)80と、CPU80に接続されたバス82と、バス82に接続された読出専用メモリ(ROM)84と、バス82に接続されたランダムアクセスメモリ(RAM)86と、バス82に接続されたハードディスク88と、CD−ROM96からデータを読出すCD−ROMドライブ70と、FD98からデータを読出したりFD98にデータを書込んだりするためのFDドライブ72と、バス82に接続され、マイクロフォン64とスピーカ36とが接続されるサウンドボード90と、バス82に接続され、ローカルエリアネットワーク(LAN)等のネットワーク上でのデータコミュニケーション能力を提供するネットワークボード92と、ビデオキャプチャボード94とを含む。
図2、図3に示すコンピュータシステム50上で所定の制御構造を有するソフトウェアを動作させることにより、図1に示す音声モーフィングシステム20を実現できる。
図4は、図1に示す音声モーフィング装置22のブロック図である。図4を参照して、音声モーフィング装置22は、入出力インタフェース24を介して操作者から音声モーフィングの特徴を定めるパラメータを受取るためのパラメータ入力部100と、パラメータ入力部100により受取られたパラメータにしたがい、モーフィング後音声が知覚的に等間隔に並ぶように二つの音声のモーフィング率を定める際に用いるシグモイド関数を決定するためのシグモイド関数決定部102とを含む。
ところで、音声モーフィングにおいては、音声のモーフィング率をどのように決めるかが問題となる。最も簡単な方法として、二つの音声の混合割合を一定割合ずつ増減させていく方法が考えられる。例えば第1の段階として第1の音声を90%と第2の音声を10%、第2の段階として第1の音声を80%と第2の音声を20%、のように一定の差分でモーフィング率を変えていく方法である。
しかし、本発明の発明者らは、このように一定の差分でモーフィング率を変化させた場合、実際に聴者にとっては一定の割合で音声が変化していくようには感じられないことを実験により確認した。さらに実験により、以下に説明するようにシグモイド関数を用いてモーフィング率を決定すると、聴者にとって一定の割合で音声が変化していくように感じられることが分った。以下、本実施の形態で使用する、シグモイド関数を用いたモーフィング率の決定の仕方を説明する。
図5に、シグモイド関数のグラフ130を示す。シグモイド関数は、一般的に以下の式により定義される。
Figure 2006178052
例えばこの式のパラメータa、bおよびcをパラメータ入力部100を介して操作者から受取ることにより、シグモイド関数決定部102は任意のシグモイド関数を定義できる。
こうして決定されたシグモイド関数130のグラフのうち、中央の変曲点を含んだ左右対称な部分をモーフィング率の決定に用いる。まず、その横軸を中間音声の段階数に合わせて等分し、それぞれに段階番号を割当てる。図5には、その例として0〜10までを示す。割当てられた0〜10までの数字のうち、左端の「0」は第1の音声が100%、第2の音声が0%(すなわち第1の音声のみ)の音声を示す。右端の「10」は、第1の音声が0%、第2の音声が100%(すなわち第2の音声のみ)の音声を示す。中間の1〜9までは、それぞれ中間の音声の段階を示す。段階0における第2の音声のモーフィング率を0%、段階10における第2の音声のモーフィング率を100%として、縦軸にモーフィング率をとることができる。
図5に示すシグモイド関数130について、上記した各中間段階(1〜9)での値を求め、その値をその段階での第2の音声のモーフィング率とする。シグモイド関数の曲線は中央に変曲点があるため、上記した図5に示す例では段階5における第2の音声のモーフィング率は50%となる。しかしそれ以外の点では、モーフィング率は段階番号に対し非線形に変化する。
図4に示す音声モーフィング装置22は、このようにして求めた各段階でのモーフィング率の値132を用いて、各段階での音声モーフィングを行なう。このため、音声モーフィング装置22はさらにモーフィング率決定部104を含む。
音声モーフィング装置22はさらに、モーフィング率決定部104により決定された複数のモーフィング率の全てについて、予め準備された第1の音声38と第2の音声40との間の音声モーフィングを行なう繰返し制御を実行するための繰返し制御部106と、繰返し制御部106による制御にしたがい、第1の音声38と第2の音声40とを繰返し制御部106から指定されるモーフィング率で混合してモーフィング後の音声を生成するためのモーフィング実行部108と、モーフィング実行部108により作成されたモーフィング後音声28を、繰返し制御部106による繰返し制御にしたがって異なる名称を付したファイルとして、予め準備された音声記憶装置120内に保存するための保存処理部110とを含む。音声記憶装置120としては、図3に示すハードディスクを用いることができる。
音声モーフィング装置22は、後述するようにコンピュータハードウェアと、コンピュータにより実行されるプログラムとにより実現される。図6に、繰返し制御部106、モーフィング実行部108、および保存処理部110を実現するためのプログラムの制御構造をフローチャート形式で示す。なお、図4に示すモーフィング率決定部104により決定された9つの中間段階のモーフィング率をr(k)(k=1〜9)とする。
図6を参照して、このプログラムは、起動されるとまず初期設定を行なう(ステップ140)。続いてステップ142において、繰返し制御変数kに0を代入する。ステップ144で繰返し制御変数kに1を加算する。ステップ146で繰返し制御変数kの値が予め設定された中間段階数(本実施の形態では9)を越えたか否かを判定する。越えていれば処理を終了する。越えていなければステップ148に進む。
ステップ148では、モーフィング率r(k)で第1の音声と第2の音声とをSTRAIGHTを用いて音声モーフィングする。ステップ150では、得られたモーフィング後の音声を「morph_k.wav」(kは1〜9までの数字)というファイル名で音声記憶装置120に保存する。制御はステップ144に戻る。
こうして、k=1〜9まで音声モーフィングと保存とを繰返すことにより、図4の音声記憶装置120には、9段階のモーフィング後音声28が記憶される。なお、第1の音声38および第2の音声40も予め音声記憶装置120に記憶しておくことにより、音声記憶装置120には後述するモーフィング音声選択・再生装置32において使用する音声資源が全て記憶されることになる。
図7に、そのモーフィング音声選択・再生装置32の機能的ブロック図を示す。図7を参照して、モーフィング音声選択・再生装置32は、モーフィング音声選択・再生装置32をコンピュータにより実現するように予め準備されたプログラム160と、ユーザインタフェース34を用いたモーフィング音声の発生に関する入出力を行なうために、プログラム160に基づいて入出力画面164を作成し、モニタ74に表示させるための表示作成部162と、入出力画面164に対しユーザがユーザインタフェース34を用いて何らかの操作を行なった際、その操作によりシステム内に発生するイベントを検知し、プログラム160内のオブジェクトのうち、適切なものに当該イベントを振分けるためのイベント検知部166とを含む。表示作成部162およびイベント検知部166としての基本的な機能は、コンピュータのオペレーティングシステム(OS)により提供される。
モーフィング音声選択・再生装置32には、第1の音声38、第2の音声40、およびモーフィング後音声28を記憶し音声発生のためにモーフィング音声選択・再生装置32に与えるための、図4に示すものと同じ音声記憶装置120と、表示作成部162により発生される音声信号を音声に変換するためのスピーカ36と、表示作成部162により作成される音声再生シーケンスファイルを記憶するための記憶装置178とが接続される。記憶装置178は、音声記憶装置120と同様、図3に示すハードディスク88により実現できる。
表示作成部162は、音声記憶装置120に記憶された第1の音声38および第2の音声40に付されたラベルを読出し、入出力画面164に表示することでそれぞれの音声の声質をユーザに対し提示することができる。
図8に入出力画面164の例を示す。図8上段を参照して、入出力画面164は、それぞれモーフィング対象となる第1の音声38および第2の音声40に付されたラベルを表示するためのラベルテキスト領域210および212と、音声を中間段階のいずれに設定するかをユーザが指定するように準備されたスライダ214と、音声発生の開始および停止をそれぞれ指示する際にユーザが使用するための開始ボタン216および停止ボタン218とを含む。
図8に示す例において、ラベルテキスト領域210には「normal」(特に特徴をもたない、中立的な平坦な音)、ラベルテキスト領域212には「wet」(鼻にかかったような「ねっとり」した声色)というラベルがそれぞれ表示されている。これら以外にも例えば「dark」(母音が全体的に後舌母音に近くなるような「暗い」音)、子守唄のような「whisper」(ささやき声)などのラベルが考えられるが、一般的にはラベルは使用者(または録音者)の主観に基づいて自由に音声ファイルに付しておけばよい。
スライダ214は、スライダ目盛242と、スライダつまみ240とを含む。スライダつまみ240を例えば図8の下段に示すようにマウスポインタ244でドラッグすることにより、スライダつまみ240がスライダ目盛242上を移動する。スライダ214は、スライダ目盛242上のスライダつまみ240の位置に対応する値をリアルタイムで検知し、属性値として保持する。同時にスライダ214が操作されたというイベントをイベント検知部166に与える機能を持つ。
開始ボタン216が押され、音声発生が開始された後にユーザがスライダつまみ240をスライドさせることにより、音声の発生中に、その音声を第1の音声から第2の音声まで、中間段階を含めて11種類の音にリアルタイムで変更させることができる。モーフィング音声選択・再生装置32は、音声発生時のユーザ操作による声質変更のシーケンスを記憶し、記憶装置178(図7参照)にファイルとして出力する機能を持つ。
再び図8を参照して、入出力画面164はさらに、記憶装置178に記憶された声質変更のシーケンスファイルからシーケンスを読出して当該シーケンスにしたがって声質を変更して所定の音声を再生する際にユーザが使用する再生ボタン220を含む。
プログラム160は、図8に示すスライダ214の実体を構成するスライダオブジェクト190と、それぞれ開始ボタン216、停止ボタン218、および再生ボタン220の実体を構成する開始ボタンオブジェクト192、停止ボタンオブジェクト194、および再生ボタンオブジェクト196とを含む。
これら各オブジェクトについて、プログラム160の実行開始とともにそれぞれインスタンスが生成されて入出力画面164の作成、イベント検知部166による適切なメソッドの実行、および各インスタンスに付随する属性値の取得と記憶などが実行される。
以下、プログラム160に含まれるプログラムコードをコンピュータで実行することにより実現される機能を、それぞれ機能ブロックとして説明する。
すなわち、モーフィング音声選択・再生装置32はさらに、プログラム160により実現される機能ブロックとして、イベント検知部166により開始ボタン216の押下というイベントが検知されたことに応答して計時を開始し、停止ボタン218の押下というイベントが検知されたことに応答して計時を終了するタイマ184と、イベント検知部166によりスライダオブジェクト190の操作に関するイベントが検知されたことに応答して、スライダオブジェクト190からその属性値としてスライダ値(区間[0,10]の間の整数)を読取り、音声記憶装置120に記憶された音声(第1の音声38、第2の音声40、および9種類の中間音声)のうちいずれを使用するかを決定し、音声ファイルの名称を出力するための音声選択処理部168とを含む。
プログラム160により実現される機能ブロックはさらに、第1および第2の二つの入力を持ち、第1の入力が音声選択処理部168の出力を受けるように接続され、図8に示す開始ボタン216が押されたときには第1の入力を、再生ボタン220が押されたときには第2の入力を、それぞれ選択し、選択された入力に与えられた信号を出力するためのセレクタ170と、セレクタ170の出力を受け、音声記憶装置120に記憶された音声ファイル(第1の音声38、第2の音声40、および9種類の中間音声)のうち、セレクタ170の出力により指定される音声ファイルを読出してタイマ184により指定される再生位置から音声信号への変換を開始しスピーカ36に与えるための音声発生処理部172とを含む。
プログラム160により実現される機能ブロックはさらに、開始ボタン216の押下というイベントが検知されたことに応答して、音声発生処理部172による音声の発生を開始させるための開始指示部173と、開始指示部173からの音声発生の開始指示と、音声選択処理部168による音声選択処理とに応答して、そのときの音声選択処理部168の出力をタイマ184の計時値とともにシーケンスとして記録するための選択音声記録部174と、停止ボタン218の押下というイベントに応答して、選択音声記録部174により記録されている再生シーケンスをファイルとして記憶装置178に保存させるためのシーケンス保存部176とを含む。
プログラム160により実現される機能ブロックはさらに、再生ボタン220の押下というイベントに応答して、記憶装置178に保存されている1または複数の再生シーケンスファイルのいずれかをユーザに選択させるためのファイル選択処理部180と、ファイル選択処理部180により再生シーケンスファイルが選択されると、タイマ184を起動し、ファイル選択処理部180により選択された再生シーケンスファイルを記憶装置178から読出して、タイマ184の計時に基づいて、再生開始後、選択された再生シーケンスにより指定された時刻になると再生シーケンスにより指定された音声ファイル名をセレクタ170の第2の入力に与えることにより、再生シーケンスに基づく音声再生を制御するための音声再生制御処理部182とを含む。
[動作]
図1〜図8を参照して、上記した音声モーフィングシステム20は以下のように動作する。動作は大きく3つのフェーズに分けられる。第1のフェーズでは、予め準備された、互いの声質の異なる第1の音声38と第2の音声40とから9個の中間段階のモーフィング後音声28を作成する。なお、これに先立ち、同じ話者により、声質(音声の表情)を変えて同一の文章を読んだり同一の歌を歌ったりすることによって二つの音声を収録しておき、これらをそれぞれ第1の音声38および第2の音声40として保存しておく。また、第1の音声38および第2の音声40の音声ファイルには、付属情報として声質を示すラベルを付しておく。
第2のフェーズでは、このようにして作成されたモーフィング後音声28と、最初に準備された第1の音声38および第2の音声40とを用い、声質を自由に変更しながらこれら音声の発生を行なう。このとき、再生シーケンスが記憶装置178に保存される。第3のフェーズでは、記憶装置178にファイルとして保存された再生シーケンスを読出し、その再生シーケンスにしたがって音声を選択し発生させることにより、再生シーケンスを再現する。以下、各フェーズでの音声モーフィングシステム20の動作を説明する。
−音声モーフィング−
図4を参照して、パラメータ入力部100は、入出力インタフェース24を用いてユーザから、中間段階の数と、シグモイド関数決定のためのパラメータとを受取る。パラメータ入力部100は、このパラメータをシグモイド関数決定部102に与える。
シグモイド関数決定部102は、与えられたパラメータにしたがってシグモイド関数を決定する。決定されたシグモイド関数に関する情報はモーフィング率決定部104に与えられる。
モーフィング率決定部104は、このシグモイド関数を用い、図5を参照して説明した方法にしたがって、各中間段階におけるモーフィング率r(k)(k=1〜9)を決定する。モーフィング率決定部104は、決定したモーフィング率を、中間段階数とともに繰返し制御部106に与える。
繰返し制御部106は、指定されたモーフィング率で中間段階の音声を音声モーフィングにより作成するようモーフィング実行部108を制御し、作成させる。繰返し制御部106はまた、このようにして作成された9つの中間段階のモーフィング後音声28を音声記憶装置120に格納するよう保存処理部110を動作させる。このとき、保存処理部110は、各中間音声のファイルに前述したとおり「morph_k.wav」というファイル名を付す。音声記憶装置120には、予めモーフィングに用いられる第1の音声38および第2の音声40も準備されているものとする。
以上で第1のフェーズの動作は完了である。音声記憶装置120を音声データ記憶装置30としてモーフィング音声選択・再生装置32に接続することにより、モーフィング音声選択・再生装置32による、中間音声を用いて表情を変化させた音声の発生が可能になる。
−中間音声を用いた任意の声質の音声の発生−
図7を参照して、第2のフェーズにおいてはモーフィング音声選択・再生装置32は以下のように動作する。モーフィング音声選択・再生装置32の各機能ブロックは、予めプログラム160の形で準備されている。
ユーザがモーフィング音声を用いた音声の発生をするようにモーフィング音声選択・再生装置32に指示すると、図7および図8に示す入出力画面164が表示作成部162により作成され、モニタ74上に表示される。このとき、表示作成部162は、音声記憶装置120に記憶された第1の音声38および第2の音声40に付されたラベルを読込み、それぞれラベルテキスト領域210および212に表示する。この表示により、ユーザは二つの音声の声質がどのようなものであるかを知ることができる。
ユーザは、まずスライダ214のスライダつまみ240をマウスポインタ244によりスライドさせることで音声発生開始時の中間音声の段階を指定する。この操作によりイベントが発生し、イベント検知部166はこのイベントをスライダオブジェクト190に与える。スライダオブジェクト190は、属性値として保持しているスライダつまみ240の位置を示す値を音声選択処理部168に与える。音声選択処理部168は、この値に基づいて、音声記憶装置120に記憶された音声ファイルのうちどの音声ファイルを選択するかを決定し、セレクタ170に与える。
ユーザが開始ボタン216を押下すると開始ボタン216の押下イベントが発生する。イベント検知部166はこのイベントを開始ボタンオブジェクト192に与える。開始ボタンオブジェクト192は、このイベントに応答し開始指示部173を制御してタイマ184を起動する。セレクタ170は、第1の入力、すなわち音声選択処理部168から与えられたファイル名を選択して音声発生処理部172に与える。開始指示部173は、音声発生処理部172に対して音声の発生の開始を指示する。
音声発生処理部172は、音声記憶装置120から、セレクタ170を介して音声選択処理部168から与えられたファイル名に対応するファイルを読出し、タイマ184の計時にしたがった位置からタイマ184の計時に同期して再生を開始する。発生された音声信号はスピーカ36に与えられ、音声に変換される。
一方、選択音声記録部174は、開始ボタン216が押下されたことに応答して、タイマ184の計時が0のときの音声選択処理部168の出力をタイマ184の値とともに記録する。
このようにして音声ファイルが再生されている途中でユーザが図8に示すスライダつまみ240を操作して、スライダつまみ240を別の位置に移動させたものとする。このイベントはイベント検知部166により検知され、スライダオブジェクト190に与えられる。スライダオブジェクト190はこのイベントに応答して、属性値として保持しているスライダつまみ240の位置を示す値を音声選択処理部168に与える。音声選択処理部168は、この値に対応する音声ファイル名を選択し、セレクタ170に与える。セレクタ170はこの値を音声発生処理部172に与えるので、音声発生処理部172は指定された音声ファイルを新たに読出し、タイマ184により示される位置からタイマ184に同期して音声の再生を開始する。
また、音声選択処理部168が新たなファイル名を選択したことに応答し、選択音声記録部174はその新たなファイル名と、そのときのタイマ184の値とを組にして追加して記録する。
図9の上段に、ユーザによるスライダつまみ240の操作の例を時系列で示す。図9上段では、縦軸にスライダつまみ240の位置をスライダ目盛の値で、横軸に時間を、それぞれ示す。図9上段に示すように、スライダの位置は時間的にある軌跡250を描く。これがモーフィング後音声を用いた再生シーケンスを示す。この再生シーケンスを選択音声記録部174によって記録しておけば、同じ再生シーケンスを再現することができる。
ただし、スライダつまみ240の位置はスライド目盛の中間となることもあり得る。そうした場合には、スライダつまみ240の位置に最も近い目盛を選択し、その目盛に対応する音声ファイルを選択する。したがって、なだらかな線を描くスライダつまみ240の軌跡250は、図9下段に示すようにある中間音声から次の中間音声に、音声の種類としては不連続な形で、ただし時間的には連続して、再現されることになる。ただし、このままでは音声のつなぎ目で「プツン」という雑音が入る。そこで、こうしたつなぎ目では、先の音声を徐々にフェードアウトし、後の音声を徐々にフェードインする形で音声を混合することで雑音の発生を防止する。
中間段階の数としてある程度大きい値を選択しておけば、図9下段に示すような形で音声を再生しても、聴者には違和感を与えない。また、各中間音声のモーフィング率は、シグモイド関数を用いてできるだけ等しい間隔で相違した音声となるように設定されている。したがって、聴者には、こうして生じる声質の変化は、滑らかでかつ自然に感じられることになる。
停止ボタン218が押されると、そのイベントはイベント検知部166により検知され、停止ボタンオブジェクト194に与えられる。停止ボタンオブジェクト194は、このイベントに応答して選択音声記録部174による音声シーケンスの記録を中止させる。またタイマ184も停止させる。さらに停止ボタンオブジェクト194は、シーケンス保存部176に指示を与え、選択音声記録部174により記録された再生シーケンスを記憶装置178に保存させる。このときの保存名は、ダイアログボックスを開いてユーザに指定させる。
以上が声質を変化させて音声を発生させる際のモーフィング音声選択・再生装置32の動作である。
記憶装置178に保存された再生シーケンスに基づいて音声発生を行なう際には、モーフィング音声選択・再生装置32は以下のように動作する。
再生シーケンスに基づく音声発生を行なう際には、ユーザは再生ボタン220(図8参照)を押下する。このイベントはイベント検知部166により検知される。イベント検知部166はこのイベントを再生ボタンオブジェクト196に与える。
再生ボタンオブジェクト196は、イベントが与えられたことに応答してファイル選択処理部180を起動する。ファイル選択処理部180は、記憶装置178に保存された各ファイルのファイル名を読出し、ファイル選択処理部180にダイアログボックスとしてファイル選択ダイアログを表示する。ユーザが所望のファイルを選択すると、ファイル選択処理部180は選択されたファイル名を音声再生制御処理部182に与える。
音声再生制御処理部182はタイマ184を起動させる。音声再生制御処理部182はさらに、選択された再生ファイルを読込み、最初に選択されていた音声ファイルを指定する信号をセレクタ170に与え、同時に音声発生処理部172を起動する。セレクタ170は、第2の入力を選択して音声発生処理部172に与える。
音声発生処理部172は、セレクタ170を介して音声再生制御処理部182から与えられた音声ファイルを音声記憶装置120から読出し、タイマ184の計時にしたがって再生を開始する。
音声再生制御処理部182は、再生ファイル中の音声ファイル名とタイマ計時との組のうち、タイマ計時の値をタイマ184による計時と常に照合し、タイマ184の計時と一致するタイマ計時を持つものがあればそのタイマ計時と組になっている音声ファイル名をセレクタ170に与える。したがって音声発生処理部172は、この新たな音声ファイル名により指定される音声ファイルを音声記憶装置120から読出し、タイマ184の計時にしたがって再生を行なう。
こうして、ファイル選択処理部180によって指定された再生ファイルによる再生シーケンスにしたがって、音声発生処理部172が音声記憶装置120中の音声を随時切替えながら音声発生を行なう。
以上のように本実施の形態に係る音声モーフィングシステム20によれば、所望の音声を全て収録しなくても、第1の音声38および第2の音声40の中間音声を音声モーフィングで準備し、さらにユーザの選択にしたがってリアルタイムで音声をそれらの中で切替えながら音声発生を行なうことができる。中間音声の間の相違が一定に知覚されるように予め音声のモーフィング率を決めて中間音声を作成しているので、音声発生の途中で音声の切替えを行なっても不自然には感じられない。また、リアルタイムで作成した音声シーケンスを記録しておくことで、いつでも同じ再生シーケンスを再現できる。
また、このように音声モーフィングを使用して中間段階の音声を作成し、それらを切替えて音声発生を行なうと、中間段階の音声については第1の音声38および第2の音声40の声質に応じ、それらの中間の声質を表すものとして知覚される。
したがって、本実施の形態に係る音声モーフィングシステム20によれば、多数の音声を収録しなくても、任意の時刻にユーザが選択した声質を用いて音声を発生させることで、豊かな表情を持つ音声の発生が可能になる。
なお、上記実施の形態ではパーソナルコンピュータのユーザインタフェースを使用してスライダを実現したが、本発明はそのような実施の形態には限定されない。例えばシンセサイザ等に組み込む形で、シンセサイザのスライダを用いたコントロールを行なっても良い。
また、予め音声ファイルに付されていたラベルを変更したいとユーザが考えることもあるので、ラベルテキスト領域210をテキスト入力可能な領域とし、ラベルをユーザが変更可能にしてもよい。例えば、図8において「normal」(平坦)とラベルが表示されている音声が、ユーザには「dark」(暗い)と感じられることもある。そうした場合には、図10に示すようにラベルテキスト領域210に「dark」と入力して音声ファイルとともに保存しておくことにより、次にこの音声ファイルを使用する場合には「dark」というラベルがラベルテキスト領域210に表示される。
なお、図8に示すように「normal」というラベルを持つ音声と、「wet」というラベルを持つ音声との間で表情付けを変化させるということは、特に特徴をもたない平坦な(中立的な)音声に対し、「wet」な(ねっとりした)表情の強度を変化させながら付加させることであると考えることができる。これに対し図10に示すように「dark」というラベルを持つ音声と、「wet」というラベルを持つ音声との間で表情付けを変化させるということは、「dark」という表情付けと、「wet」という表情付けとの間での、表情付けの種類を変化させる、ということであると考えることができる。
[変形例]
上記した実施の形態では、2種類の音声の間で音声モーフィングを行なって得た中間音声を用いた。しかし本発明はそのように2種類の音声の間でのモーフィングには限定されない。例えば3種類以上の音声の間でのモーフィングを行なうことも可能である。モーフィング自体はSTRAIGHTを使用して行なうことができる。問題は、3種類以上の音声の間でのモーフィング率を定める方法である。
図11を参照して、3種類の音声の間での音声モーフィングを行なう際のモーフィング率の決定の方法について説明する。今、3種類の音声A、BおよびCの間でのモーフィングを行なうものとする。図11に示すように、これら3つの音声に対応する頂点260、262および264を有する三角形を考える。
この三角形の各辺を所定数に分割し、各辺と並行な線で分割点同士を結ぶことにより、図11においてメッシュ270を作成できる。このメッシュ270を構成する各点に対応したモーフィング音声は以下のようにして作成できる。
例えば音声Aおよび音声Bの間での各分割点に対応する中間音声は、上記した実施の形態での方法と同様の音声モーフィングで行なうことができる。音声Aおよび音声Cの間、音声Bおよび音声Cの間での音声モーフィングもそれぞれ行なうことができる。さらに、メッシュ270の各交点(例えば交点272)での中間音声は、その交点を通る任意の線の両端(例えば点274、276)の中間音声を、その両端からその交点までの距離の比に応じたモーフィング率でモーフィングすることにより作成できる。したがって、メッシュ270の各点に対応する中間段階の音声を全て作成できる。
音声発生時には、上記したメッシュ270を有する三角形をコンピュータモニタ上に表示し、メッシュ270中の交点をポインタにより指定する。具体的には、ポインタの座標を調べ、メッシュ270の交点のうちポインタにより表される点に最も近い座標を持つ交点に対応する中間音声を選択すればよい。例えば図12を参照して、ポインタ280がメッシュの3つの交点290、292および294で形成される三角形の内部にあるものとする。このときには、ポインタ280の位置と各交点290、292および294との間の距離d1、d2およびd3を調べ、距離がもっとも小さくなる点を選択する。
このような中間音声の発生方法は、元となる音声が3種類の場合だけでなく、4種類以上の場合にも同様に適用できる。
さらに、音声発生時には、上記のように作成したメッシュの二つの交点に対応する中間音声の間でさらに音声モーフィングを行なうようにしてもよい。この場合の例を図13に示す。図13を参照して、3種類の音声A、BおよびCに対応する3つの頂点260、262および264を有する三角形を考える。その中に、上記した方法と同様にしてメッシュ270を作成する。このメッシュ中の任意の交点、例えば二つの交点310と312とを選択し、この二つの交点を結ぶ線分314を任意の数に分割することにより、交点310と312とに対応する中間段階の音声の間の中間音声をモーフィングにより作成できる。こうして作成した音声を発生させるときには、実施の形態で説明したのと同様の方法を利用できる。
また、例えば元となる音声が3種類の場合には、磁気センサ、光学センサ、画像処理技術を用いた物体検出など、対象物の位置を3次元的な座標系中で検出できるシステムを用い、音声のモーフィング率を指定することができる。例えば予め3種類の音声に対し種々のモーフィング率で中間音声を作成しておく。音声発生時には、図14に示すように空間にxyz座標系を設定する。利用者は、所定の3次元ポインタで空間内の1点322を指定する。この1点322に対し、座標値(X,Y,Z)が定まる。その座標値(X,Y,Z)に応じたモーフィング率(X/(X+Y+Z),Y/(X+Y+Z),Z/(X+Y+Z))に最も近いモーフィング率の中間音声を選択して音声を発生させる。
このように3次元的な座標指定によって発生させる音声を切替えることにより、ダンスなどのパフォーマンスとそれに伴う歌などとを連動させることができる。もちろん、次元数は3次元に限定されず、4次元以上の任意の次元数を用いることも可能である。
なお、本実施の形態による音声の表情付けの変化は、リアルタイムで実行できる。また、音声としては、予め一連の発話を別々の種類の表情付けがされた音声で実際に朗読したり歌ったりした場合だけではなく、予め別々の種類の表情付けがされた合成音声を準備しておいてもよい。したがって、本実施の形態による音声の表情付けを次のような場合にも利用できる。
例えば、声を出すことができない人が自動プレゼンテーションにより合成音声を発する場合を考える。この場合には、予め複数種類の声質により表情付けがされた合成音声を作成しておき、合成音声によるプレゼンテーションでは、リアルタイムで音声の表情付けを変化させることができる。例えば強調したいところでは張りのある声質の音声でプレゼンテーションし、重要でないところはぼそぼそとした声質の音声でプレゼンテーションさせることができる。すなわち、観客の反応を見ながら最適と思われる声質で自動プレゼンテーションの音声を発生させることができ、プレゼンテーションをより効果的にすることができる。
また、ディスクジョッキーのパフォーマンスにおいて、歌声を用いたモーフィングにより、歌唱にリアルタイムで変化する表情付けを行なうこともできる。例えばバックミュージックの方が歌よりも重要な場合には歌声は平坦な(表情のない)ものとし、歌詞に注目してほしいときには「ねっとりした」表情付け音声にモーフィングし、ゆっくり歌い終わるときには次第に「ささやき」に表情付けをモーフィングし、など、同一歌唱曲中で連続的に音声モーフィングを行なうことができる。こうすることで、ディスクジョッキーが思う通りの表情付けで歌唱を再生させることができる。
3つ以上の音声のモーフィング率を指定する方法は、上記したようにモニタ上のポインタまたは3次元的なポインタだけでなく、最初に説明したのと同様、スライダによって指定することもできる。その場合のモニタ表示例を図15に示す。
図15を参照して、モニタ表示340には、3つの音声に対応するスライダ350、352および354を表示する。これらスライダ350、352および354の左端には、各音声に付されたラベルを表示するラベルテキスト領域370、372および374が表示される。スライダ350、352および354のつまみ360、362、364を左右にスライドさせることにより、各音声のモーフィング率を調整できる。なおこの場合、スライダ目盛の数値そのものはモーフィング率に対応しない。モーフィング率は、3つのスライダのつまみが指す目盛の値の合計を基準(100%)とし、合計に対する各スライダの目盛の値の率で定めるようにすればよい。
さらに、平坦な音声を基準として、任意の表情付けを行ないながら音声を発生させる場合にも本発明を適用することができる。平坦な音声も含めて音声の種類が4種類の場合について、図16〜図18を参照して音声の選択方法について説明する。
図16を参照して、原点380を持つ立体座標系を考える。原点をnormalというラベルを持つ音声に割当て、3軸をそれぞれ3種類の音声A、B、およびCに割当てる。これら3軸をそれぞれ音声A軸、音声B軸、および音声C軸と呼ぶことにする。
図17を参照して、例えば原点380と音声A軸との間の中間表情付け390、原点380と音声B軸との間の中間表情付け392、および原点380と音声C軸との間の中間表情付け394を、それぞれ第1の実施の形態と同様に行なうことができる。これらの中間表情付けによって発生される音声は、原点380に対応する平坦な音声から、表情付けの種類の強度を音声A、B、C軸に沿って変化させて発生したものとなる。
一方、音声A軸と音声B軸との間の中間表情付け400、音声B軸と音声C軸との間の中間表情付け404、および音声C軸と音声A軸との間の中間表情付け402も考えられる。これらは、ある種類の表情付けがされた軸上の音声を、他軸上の別種類の表情付けがされた音声に変えることであるから、音声に対する表情付けの「種類」の変化に相当すると考えることができる。
図16および図17を参照して説明したような方向の中間音声の発生だけでなく、それらを所定の割合で混合した音声も発生可能である。その方法は図11を参照して説明した方法と同様である。
例えば、図18に示すように、音声A軸、音声B軸、および音声C軸の各々において、各音声の割合が100%となる点420、422、および424を決める。次にこれら3点420、422、および424を互いに結ぶことによって得られる空間上の3つの半直線412、414および416を考える。これら3つの半直線412、414および416は空間上で一つの三角形を規定する。この三角形を図11に示す方法と同様に分割することでメッシュ410が得られる。
さらに、音声A軸、音声B軸および音声C軸のそれぞれにおいて、原点380と前述した点420、422および424との間を10分割する。この分割により、各軸上には0%から100%まで、11個の点が規定される。それら点のうち、各軸上でそれぞれ10%に相当する3点を互いに結んで3角形を考えることで、メッシュ410と同様のメッシュが形成できる。同様にして、20%から90%までの各々の率について、メッシュ410と同様のメッシュが形成できる。
中間音声として、平坦な音声と、音声A、BおよびCとを準備し、これら音声を用いて予め上記のように得られたメッシュの各交点に相当する混合割合の中間音声を作成しておく。音声の発生時には、ユーザが3次元空間上のある点(図18において原点380と3点420、422および424により形成される三角錐内のある点)を指定すると、上記したメッシュの交点のうち、指定された点に最も近い交点を定めることができる。その交点に対応する中間音声で音声を発生させる。
このようにすることにより、normal音声を中心として、3種類の表情付けのうち、任意のものを選択し、任意の強度でnormal音声に対しそれらの表情付けを行なうことができる。さらにそれだけでなく、3種類の音声の種類を互いに入れ替えたり、それら音声の持つ表情を任意の割合で混合した音声を作成したりすることができる。
もちろん、中心におく音声はnormal音声に限定されるわけではなく、利用者の意図に応じて任意の表情付けを持つ音声を中心としてもよい。もっとも、中心に置く音声をnormal音声とすると、中間音声の表情がどのようなものになるか直感的に分りやすいと思われる。したがって中心にnormal音声を置くことが実用的である。
なお、複数(例えば二つ)の表情付音声の間でモーフィング率=0.5としてモーフィングを行なった場合でも、得られる音声はnormalなものとは異なるものとして知覚されることが実験によって確認されている。3つ以上の音声についても同様で、全ての表情付音声について互いにモーフィング率が等しくなるような条件でモーフィングを行なったとしても、得られる音声はnormalとは異なって知覚されると思われる。したがって、図16〜図18に示すようにnormal音声を中心におき、この音声を基準として様々な表情を付ける形でモーフィングを行なうようにすることが好ましい。
このようにnormal音声を基準として、他に例えば3種類の表情付音声をモーフィングする場合、すなわち4種類の音声の間でのモーフィングを行なう場合でも、図15に示す3個のスライダ350、352および354を用いてモーフィング率を指定できる。各スライダには、normal音声を基準とした3個の表情付音声のモーフィング率を指定する。したがって、3個のスライダにより指定された値が全て0の場合にはnormal音声が発生されることになる。
さらに、上記したように表情付けの強度を任意に変化させたり、種類の変化を任意に行なわせたりする場合、音声の種類は3種類または4種類に限定されるわけではない。理論的には、5種類以上の音声の間でも中間音声を同様にして定め、利用することができる。
なお、上記した実施の形態では同一話者による複数声質の音声を用いて音声モーフィングを行なっている。しかし本発明はそのような実施の形態には限定されない。別の話者による音声の間での音声モーフィングを行なってもよい。発声される内容はテキスト朗読でもよいし、ある歌の歌声でもよい。
さらに、上記した実施の形態では、2種類の音声の間で音声モーフィングを行なって得る中間音声の数を9個としたが、中間音声の数が9個に限定されるわけではないことはもちろんである。一般的には、基準となる音声の数が多くなると、音声の変化を滑らかにするためには中間音声の数を多くする必要がある。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。
本発明の一実施の形態に係る音声モーフィングシステム20の全体の概略ブロック図である。 音声モーフィングシステム20を実現するコンピュータシステム50の外観図である。 コンピュータシステム50のブロック図である。 図1に示す音声モーフィング装置22の概略ブロック図である。 モーフィング率を決定するためのシグモイド関数を示すグラフである。 モーフィング後音声作成処理の制御の流れを示すフローチャートである。 図1に示すモーフィング音声選択・再生装置32のブロック図である。 モーフィング音声選択・再生装置32における入出力画面164を示す図である。 スライド目盛の軌跡および音声シーケンスの記録例を示す図である。 入出力画面164のラベルテキスト領域210において音声ラベルを変更した状態を示す図である。 3種類の音声から中間音声を作成する方法を説明するための図である。 3種類の音声から作成された中間音声のうち、いずれを選択するかに関する方法を説明するための図である。 3種類の音声から作成した二つの中間音声の間でさらに中間音声を作成する方法を説明するための図である。 3次元センサによる中間音声の選択方法を説明するための図である。 3種類の音声から得られた中間音声を選択する際のスライド表示を説明するための図である。 声質の種類の選択および各音声種類における声質の強さの指定のために使用する座標系を説明するための図である。 平坦な音声と3種類の音声との間の声質の種類と強度との指定方法を説明するための図である。 平坦な音声と3種類の音声との間での中間音声の指定方法を説明するための図である。
符号の説明
20 音声モーフィングシステム
22 音声モーフィング装置
24 入出力インタフェース
26 基準音声記憶装置
28 モーフィング後音声
30 音声データ記憶装置
32 モーフィング音声選択・再生装置
34 ユーザインタフェース
38 第1の音声
40 第2の音声
50 コンピュータシステム
100 パラメータ入力部
102 シグモイド関数決定部
104 モーフィング率決定部
106 繰返し制御部
108 モーフィング実行部
110 保存処理部
120 音声記憶装置

Claims (6)

  1. 同じ内容の複数種類の音声に基づいて、声質を変化させながら音声を発生させるための音声発生装置であって、
    前記複数種類の音声のモーフィング率を指定するためのモーフィング率指定手段と、
    前記モーフィング率指定手段によりモーフィング率が指定されたことに応答して、前記複数種類の音声と、前記複数種類の音声に対して複数種類のモーフィング率で音声モーフィングを行なって得た中間音声との中で、指定されたモーフィング率に最も近いモーフィング率の音声を選択して前記音声信号変換手段に与えるための音声選択手段と、
    前記音声選択手段により選択された音声を音声信号に変換するための音声信号変換手段とを含む、音声発生装置。
  2. 前記複数種類の音声には、予めそれぞれの声質を特定するラベルが付されており、
    前記モーフィング率指定手段は、
    前記複数種類の音声の各々について、対応するラベルを表示するためのラベル表示手段と、
    前記複数種類の音声をそれぞれ表す複数の基準点をそれぞれ対応するラベルと関連付けて所定の位置に表示するための基準点表示手段と、
    前記基準点と所定の関係にある、予め定める領域内にユーザにより配置されたポインタの位置と、前記複数の基準点との間の距離にしたがって、前記複数種類の音声のモーフィング率を決定するためのモーフィング率決定手段とを含む、請求項1に記載の音声発生装置。
  3. 前記モーフィング率指定手段は、
    所定空間内において、前記複数種類の音声の各々にそれぞれ対応する複数の基準点を決定するための基準点決定手段と、
    前記複数の基準点と所定の関係にある、予め定める領域内にユーザにより配置されたポインタの位置と、前記複数種類の基準点との間の距離にしたがって、前記複数種類の音声のモーフィング率を決定するためのモーフィング率決定手段とを含む、請求項1に記載の音声発生装置。
  4. 前記音声選択手段による音声発生の基準時刻を定めるタイマと、
    前記モーフィング率指定手段によりモーフィング率の指定がされたことに応答して、前記タイマを参照して音声再生の時刻を得て、前記音声選択手段により選択された音声を示す情報とともに音声再生シーケンスとして記録するための選択音声記録手段と、
    音声再生シーケンスの再生を指示する信号に応答して、当該信号により示される音声再生シーケンスを読出して、当該音声再生シーケンスにより指定される時刻に、当該時刻に指定された音声を選択して前記音声信号変換手段に与えるための音声再生制御処理手段とをさらに含む、請求項1〜請求項3のいずれかに記載の音声発生装置。
  5. 前記複数種類の音声と前記中間音声とを記憶し、前記音声選択手段に与えるための音声記憶装置をさらに含む、請求項1〜請求項4のいずれかに記載の音声発生装置。
  6. コンピュータにより実行されると、請求項1〜請求項5のいずれかに記載の音声発生装置として当該コンピュータを動作させる、コンピュータプログラム。
JP2004369108A 2004-12-21 2004-12-21 音声発生装置およびそのためのコンピュータプログラム Expired - Fee Related JP4720974B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004369108A JP4720974B2 (ja) 2004-12-21 2004-12-21 音声発生装置およびそのためのコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004369108A JP4720974B2 (ja) 2004-12-21 2004-12-21 音声発生装置およびそのためのコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2006178052A true JP2006178052A (ja) 2006-07-06
JP4720974B2 JP4720974B2 (ja) 2011-07-13

Family

ID=36732233

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004369108A Expired - Fee Related JP4720974B2 (ja) 2004-12-21 2004-12-21 音声発生装置およびそのためのコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP4720974B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006330136A (ja) * 2005-05-24 2006-12-07 Advanced Telecommunication Research Institute International 表情付け音声発生装置
JP2008116551A (ja) * 2006-11-01 2008-05-22 Advanced Telecommunication Research Institute International 表情付け音声発生装置
JP2015049253A (ja) * 2013-08-29 2015-03-16 ヤマハ株式会社 音声合成管理装置
JP2015079130A (ja) * 2013-10-17 2015-04-23 ヤマハ株式会社 楽音情報生成装置および楽音情報生成方法
JP2021033117A (ja) * 2019-08-27 2021-03-01 株式会社カプコン 音声再生プログラム、および音声再生装置

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0950295A (ja) * 1995-08-09 1997-02-18 Fujitsu Ltd 音声合成方法およびそのための装置
JPH09146597A (ja) * 1995-11-28 1997-06-06 Sanyo Electric Co Ltd 音声変換装置
JPH09152892A (ja) * 1995-09-26 1997-06-10 Nippon Telegr & Teleph Corp <Ntt> 音声信号変形接続方法
JPH09244693A (ja) * 1996-03-07 1997-09-19 N T T Data Tsushin Kk 音声合成方法及び装置
JPH10254500A (ja) * 1997-01-07 1998-09-25 Nippon Telegr & Teleph Corp <Ntt> 補間音色合成方法
JP2001109901A (ja) * 1999-10-05 2001-04-20 Sharp Corp アニメーション作成装置および方法、ならびにアニメーション作成プログラムを記録したコンピュータで読取可能な記録媒体
JP2001117564A (ja) * 1999-10-21 2001-04-27 Yamaha Corp 楽音処理装置および楽音処理方法
JP2002094881A (ja) * 2000-09-14 2002-03-29 Megafusion Corp 画像および音の補間処理装置並びにそれらの補間処理方法
JP2002333897A (ja) * 2001-03-08 2002-11-22 Matsushita Electric Ind Co Ltd 韻律生成装置および韻律生成方法並びにプログラム
JP2003219262A (ja) * 2002-01-17 2003-07-31 Sony Corp デジタルカメラ装置及び画像処理方法
JP2003283613A (ja) * 2002-03-25 2003-10-03 Hitachi Ltd 携帯通信端末装置
JP2003295882A (ja) * 2002-04-02 2003-10-15 Canon Inc 音声合成用テキスト構造、音声合成方法、音声合成装置及びそのコンピュータ・プログラム
JP2004005265A (ja) * 2002-05-31 2004-01-08 Omron Corp 画像合成方法、画像合成装置、画像合成システム
JP2004102118A (ja) * 2002-09-12 2004-04-02 Nippon Telegr & Teleph Corp <Ntt> 音声接続方法、音声接続装置、そのプログラムおよびその記録媒体

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0950295A (ja) * 1995-08-09 1997-02-18 Fujitsu Ltd 音声合成方法およびそのための装置
JPH09152892A (ja) * 1995-09-26 1997-06-10 Nippon Telegr & Teleph Corp <Ntt> 音声信号変形接続方法
JPH09146597A (ja) * 1995-11-28 1997-06-06 Sanyo Electric Co Ltd 音声変換装置
JPH09244693A (ja) * 1996-03-07 1997-09-19 N T T Data Tsushin Kk 音声合成方法及び装置
JPH10254500A (ja) * 1997-01-07 1998-09-25 Nippon Telegr & Teleph Corp <Ntt> 補間音色合成方法
JP2001109901A (ja) * 1999-10-05 2001-04-20 Sharp Corp アニメーション作成装置および方法、ならびにアニメーション作成プログラムを記録したコンピュータで読取可能な記録媒体
JP2001117564A (ja) * 1999-10-21 2001-04-27 Yamaha Corp 楽音処理装置および楽音処理方法
JP2002094881A (ja) * 2000-09-14 2002-03-29 Megafusion Corp 画像および音の補間処理装置並びにそれらの補間処理方法
JP2002333897A (ja) * 2001-03-08 2002-11-22 Matsushita Electric Ind Co Ltd 韻律生成装置および韻律生成方法並びにプログラム
JP2003219262A (ja) * 2002-01-17 2003-07-31 Sony Corp デジタルカメラ装置及び画像処理方法
JP2003283613A (ja) * 2002-03-25 2003-10-03 Hitachi Ltd 携帯通信端末装置
JP2003295882A (ja) * 2002-04-02 2003-10-15 Canon Inc 音声合成用テキスト構造、音声合成方法、音声合成装置及びそのコンピュータ・プログラム
JP2004005265A (ja) * 2002-05-31 2004-01-08 Omron Corp 画像合成方法、画像合成装置、画像合成システム
JP2004102118A (ja) * 2002-09-12 2004-04-02 Nippon Telegr & Teleph Corp <Ntt> 音声接続方法、音声接続装置、そのプログラムおよびその記録媒体

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006330136A (ja) * 2005-05-24 2006-12-07 Advanced Telecommunication Research Institute International 表情付け音声発生装置
JP4677543B2 (ja) * 2005-05-24 2011-04-27 株式会社国際電気通信基礎技術研究所 表情付け音声発生装置
JP2008116551A (ja) * 2006-11-01 2008-05-22 Advanced Telecommunication Research Institute International 表情付け音声発生装置
JP2015049253A (ja) * 2013-08-29 2015-03-16 ヤマハ株式会社 音声合成管理装置
JP2015079130A (ja) * 2013-10-17 2015-04-23 ヤマハ株式会社 楽音情報生成装置および楽音情報生成方法
JP2021033117A (ja) * 2019-08-27 2021-03-01 株式会社カプコン 音声再生プログラム、および音声再生装置
JP7339512B2 (ja) 2019-08-27 2023-09-06 株式会社カプコン 音声再生プログラム、および音声再生装置

Also Published As

Publication number Publication date
JP4720974B2 (ja) 2011-07-13

Similar Documents

Publication Publication Date Title
JP5895740B2 (ja) 歌唱合成を行うための装置およびプログラム
JP5007563B2 (ja) 音楽編集装置および方法、並びに、プログラム
JP3365354B2 (ja) 音声信号または楽音信号の処理装置
JP3823928B2 (ja) スコアデータ表示装置およびプログラム
US20050190199A1 (en) Apparatus and method for identifying and simultaneously displaying images of musical notes in music and producing the music
JP6236765B2 (ja) 音楽データ編集装置および音楽データ編集方法
US9355634B2 (en) Voice synthesis device, voice synthesis method, and recording medium having a voice synthesis program stored thereon
US9601029B2 (en) Method of presenting a piece of music to a user of an electronic device
AU2009295348A1 (en) Video and audio content system
JP6665446B2 (ja) 情報処理装置、プログラム及び音声合成方法
JP2001249668A (ja) 音声信号または楽音信号の処理装置およびその処理プログラムが記録された記録媒体
JP2017111372A (ja) 音声合成方法、音声合成制御方法、音声合成装置および音声合成制御装置
JP5625321B2 (ja) 音声合成装置およびプログラム
JP5110706B2 (ja) 絵本画像再生装置、絵本画像再生方法、絵本画像再生プログラム及び記録媒体
JP4720974B2 (ja) 音声発生装置およびそのためのコンピュータプログラム
JP2013231872A (ja) 歌唱合成を行うための装置およびプログラム
JP4456088B2 (ja) スコアデータ表示装置およびプログラム
JP2010039851A (ja) 演出画像再生装置、演出画像再生方法、演出画像再生プログラム及び記録媒体
JP3807380B2 (ja) スコアデータ編集装置、スコアデータ表示装置およびプログラム
JP5790860B2 (ja) 音声合成装置
JP6583756B1 (ja) 音声合成装置、および音声合成方法
JP7425698B2 (ja) カラオケ装置
JP2005249872A (ja) 音楽再生パラメータ設定装置および音楽再生パラメータ設定方法
JP4033146B2 (ja) カラオケ装置
Davat et al. Co-creation of a Transitional Smart Sculpture for Voice changes

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071116

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100506

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100601

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100728

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101005

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101115

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110301

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110322

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140415

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees