JP2001117598A - 音声変換装置及び方法 - Google Patents

音声変換装置及び方法

Info

Publication number
JP2001117598A
JP2001117598A JP30027199A JP30027199A JP2001117598A JP 2001117598 A JP2001117598 A JP 2001117598A JP 30027199 A JP30027199 A JP 30027199A JP 30027199 A JP30027199 A JP 30027199A JP 2001117598 A JP2001117598 A JP 2001117598A
Authority
JP
Japan
Prior art keywords
voice
singing
information
singer
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP30027199A
Other languages
English (en)
Other versions
JP4364977B2 (ja
Inventor
Takayasu Kondo
高康 近藤
Sera Xavier
セラ ザビエル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Universitat Pompeu Fabra UPF
Yamaha Corp
Original Assignee
Universitat Pompeu Fabra UPF
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Universitat Pompeu Fabra UPF, Yamaha Corp filed Critical Universitat Pompeu Fabra UPF
Priority to JP30027199A priority Critical patent/JP4364977B2/ja
Publication of JP2001117598A publication Critical patent/JP2001117598A/ja
Application granted granted Critical
Publication of JP4364977B2 publication Critical patent/JP4364977B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

(57)【要約】 【課題】 カラオケにおいて、変化に富む物まね効果を
得るとともに、歌唱採点結果をより的確に歌唱者が把握
できるようにする。 【解決手段】 歌唱者の音声を音声分析した結果を歌唱
者音声分析情報として出力する音声分析部102と、予め
歌唱対象者の音声を音声分析した結果を基準歌唱情報と
して記憶する基準歌唱情報記憶部104と、歌唱者音声分
析情報と基準歌唱情報とを比較し、比較した結果を歌唱
判定結果として出力する歌唱判定部106と、歌唱者の音
声と歌唱対象者の音声とを所定の割合で合成して出力す
る物まね音声変換部103と、その合成の割合を歌唱判定
結果に応じて変更する歌唱力度→物まね度変換部108と
を備えて構成されている。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、入力された歌唱者
の音声と、予め設定してある歌唱対象者の音声とを所定
の割合で合成して出力する音声変換装置に係り、特に、
カラオケ装置等に適用し、入力された歌唱者の音声を、
対象とする他の歌唱者の音声に物まねさせる際に用いて
好適な音声変換装置及び方法に関する。
【0002】
【従来の技術】従来の音声変換装置には、マイクから入
力された音声に対して、予め登録してある歌手などのあ
る目的の人の音声を分析した結果を用いて、その目的の
人の音声に似させるような変換処理を行う、いわゆる物
まねカラオケと呼ばれる音声変換装置が提案されてい
る。また、その音声変換の割合を、段階的に変更可能な
変換装置も提案されている。このような音声変換装置の
一例が、特開平11−133995号公報「音声変換装
置」に記載されている。
【0003】一方、マイクから入力された歌唱情報と、
予め用意されたその歌唱に対応する音符情報、または基
準音声などの基準歌唱情報との比較により、歌唱者のう
まさを評価して点数をつけ、その結果を歌唱者が分かる
ように表示する歌唱採点装置がある。これまで、このよ
うな歌唱のうまさ度の判定する歌唱採点装置として、特
開平10−26994号公報「カラオケ採点装置」に記
載されているものを始め多数提案されている。
【0004】
【発明が解決しようとする課題】ところで、上記のよう
な従来の物まねカラオケ装置においては、物まね度(モ
ーフィング)の変換割合に対するパラメータは、ユーザ
ーが設定するか、または、予め曲のシーケンス情報に入
れるなどの方法で設定するしかない。例えば、モーフィ
ングパラメータを最大(ターゲット歌唱の重みを最大)
にした場合は、歌唱者がどのように歌唱してもターゲッ
トの歌唱を録音・再生したようにしかならず、面白い効
果を得ることができない。そのため、多くの場合は、設
定値として、中間の値が用いられることが多いと思われ
る。しかしながら、従来の装置では、中間の値に設定し
たとしても、例えば、歌唱者がうまく歌うか、歌わない
かといった歌唱の状態に係わらず、常に一定の設定値に
よって音声変換が行われてしまう。
【0005】一方、歌唱力を採点する歌唱採点装置は、
多くのカラオケ装置に搭載されており、人気がある機能
であるが、その多くは、歌唱が全て終わった時にトータ
ルの結果で採点が行われていたため、歌唱者は、歌唱の
どの部分が歌唱不足なのかといったことを知ることはで
きなかった。一部には、歌唱中に所定の周期で採点を行
い、その採点結果を数値で表示したり、あるいは複数の
表示装置を用いて表示するものもあるが、採点の結果は
視覚情報として与えられるため、その採点結果が歌唱の
どの部分(たとえばどのフレーズ)を対象としたものな
のかを歌唱者本人が的確に把握することは難しかった。
【0006】本発明は、例えば、物まね度を可変できる
物まねカラオケにおいて、物まね度の設定を歌唱者の歌
のうまさ(歌唱力)によって決定すること可能とし、こ
れによって、歌唱力に応じた音声変換を得るとともに、
歌唱採点結果をよりリアルタイムで把握できるようにす
る音声変換装置及び方法を提供することを目的とする。
【0007】
【課題を解決するための手段】上記課題を解決するた
め、請求項1記載の発明は、歌唱者の音声を分析した結
果を歌唱者音声分析情報として出力する音声分析手段
と、物まね対象となるターゲットの音声を分析した結果
を基準歌唱情報として記憶する基準歌唱情報記憶手段
と、基準歌唱情報記憶手段から基準歌唱情報を読み出す
基準歌唱情報読出手段と、前記音声分析手段から出力さ
れた歌唱者音声分析情報と前記基準歌唱情報読出手段に
よって読み出された基準歌唱情報とを比較し、比較した
結果を歌唱判定結果として出力する歌唱判定手段と、前
記基準歌唱情報に基づく音声変換処理により、前記歌唱
者の音声を所定の割合でターゲットの音声に近づけた音
声信号を生成するモーフィング音声生成手段と、前記所
定の割合を、前記歌唱判定結果に応じて変更する合成割
合変更手段とを備えることを特徴とする。
【0008】また、請求項2記載の発明は、請求項1記
載の音声変換装置において、ターゲットの音声を音声分
析した結果の代わりに歌唱曲の音符情報を前記基準歌唱
情報記憶手段に記憶することを特徴とする。また、請求
項3記載の発明は、請求項1記載の音声変換装置におい
て、前記歌唱判定手段が、前記歌唱者音声分析情報と前
記基準歌唱情報とを比較する際に、各情報が示す音声波
形の振幅、平均基本周波数、ビブラート、音色、又は音
素を特定する情報の各属性のうちの2以上の属性につい
て比較を行い、その結果に基づいて、各属性毎に比較し
た結果を歌唱判定結果として出力し、前記合成割合変更
手段が、前記所定の割合を、各属性毎の前記歌唱判定結
果に応じて変更することを特徴とする。
【0009】また、請求項4記載の発明は、請求項1〜
3のいずれか1項に記載の音声変換装置において、前記
合成割合変更手段による前記歌唱判定結果に応じた前記
所定の割合の変更処理が、予め設定された複数の処理の
なかから選択可能であることを特徴とする。
【0010】また、請求項5記載の発明は、請求項1〜
4のいずれか1項に記載の音声変換装置において、前記
モーフィング音声生成手段は前記基準歌唱情報と前記歌
唱者音声分析情報を所定の割合で合成して特徴合成情報
を生成し、この特徴合成情報に基づいて音声信号を生成
することを特徴とする。また、請求項6記載の発明は、
請求項5項記載の音声変換装置において、前記歌唱者音
声分析情報と前記基準歌唱情報における音声情報の変動
を確率モデルで捉えるモデル解析手段をさらに備え、前
記モーフィング音声生成手段が、前記歌唱者音声分析情
報と前記基準歌唱情報とを合成する際に、前記モデル解
析手段による解析結果に応じて、前記歌唱者音声分析情
報と前記基準歌唱情報との対応付けを調節することを特
徴とする。
【0011】また、請求項7記載の発明は、予め物まね
対象となるターゲットの音声を分析した結果を基準歌唱
情報として記憶する基準歌唱情報記憶手段を用い、歌唱
者の音声を分析した結果を歌唱者音声分析情報として出
力する音声分析過程と、基準歌唱情報記憶手段から基準
歌唱情報を読み出す基準歌唱情報読出過程と、前記音声
分析過程で出力された歌唱者音声分析情報と、前記基準
歌唱情報読出過程で読み出された基準歌唱情報とを比較
し、比較した結果を歌唱判定結果として出力する歌唱判
定過程と、前記基準歌唱情報に基づく音声変換処理によ
り、前記歌唱者の音声を所定の割合でターゲットの音声
に近づけた音声信号を生成するモーフィング音声生成過
程と、前記所定の割合を、前記歌唱判定結果に応じて変
更する合成割合変更過程とを有することを特徴とする。
【0012】上記のように、本発明によれば、歌唱者の
音声を分析し、その分析結果と予め準備した物まね対象
者の歌唱分析結果、または、楽譜情報との比較によっ
て、歌唱者の歌のうまさ、歌唱力度等を求める歌唱判定
が行われ、その歌唱力度等によって物まねカラオケの物
まね度等を設定することが可能となる。
【0013】
【発明の実施の形態】[第1の実施形態]以下、図面を参
照して本発明の実施の形態について説明する。図1は、
本発明の第1の実施形態の構成を示すブロック図であ
る。本実施形態は、本発明を物まね機能付きのカラオケ
装置に適用したものであり、歌唱者(ミー:Me)のマイ
ク1からの入力音声を、歌手などの物まね対象者(ター
ゲット:Target)の音声に似させるような音声変換を行
って出力するように構成されている。
【0014】マイク1は、歌唱者(ミー)の音声を収拾
する。その収拾された音声信号は入力音声分析部102
に入力され、入力音声分析部102によって入力音声信
号からミー音声の特徴が抽出される。抽出される情報
は、ミー音声の特徴を現すピッチ(平均基本周波数)、
振幅、スペクトルなどである。なお、本発明は、物まね
を行う際の音声合成の割合の設定方法に特徴を有するも
のであり、どのような物まね方法を用いるのか、すなわ
ちどのようにして音声合成を行うのかは特に限定されな
い。ここで分析される情報は、物まね音声変換部103
において必要な情報と、歌唱判定部106において必要
な情報であり、上記のものに限定されない。
【0015】109は、たとえばMIDI規格の曲情報
に基づいてカラオケの演奏信号を生成する伴奏演奏部で
ある。また、ターゲット歌唱情報記憶部104は、予め
ターゲット歌唱者によって歌唱された歌唱音声に対して
音声分析を行った結果を、上記入力音声分析部102の
出力と同じ特徴情報に対応して記憶している。ターゲッ
ト歌唱情報記憶部104に記憶されている特徴情報は、
ターゲット歌唱情報呼び出し部105によって、伴奏音
演奏部109による曲の進行位置に対応する情報が読み
出される。読み出し方は、曲のテンポに従って読み出す
方法、曲の開始時刻からの経過時間に従って読み出す方
法など任意の方法を用いればよい。後述する第2実施形
態のアライメント処理を行う方法をとってもよい。
【0016】基準歌唱情報読み出し部107は、歌唱判
定を行う際に用いるターゲット歌唱情報記憶部104
と、歌唱曲の音符情報を記憶する音符情報記憶部104
*との両者またはどちらか一方から読み出し、これを基
準歌唱情報として出力する。ただし、例えば、音符情報
記憶部104*に記憶されている歌唱曲の音符情報を基
準として用いず、ターゲット歌唱情報記憶部104に記
憶されている歌唱対象者の音声を音声分析した結果のみ
を歌唱判定の基準として用いる場合には、この基準歌唱
情報読み出し部107をターゲット歌唱情報呼び出し部
105に含ませることも可能である。基準歌唱情報は、
歌唱判定を行う際の比較基準として必要となる情報であ
り、最低限の情報としては、歌唱の歌い出しと歌い終わ
りのタイミングが分かる情報(例えば振幅情報からタイ
ミング情報を得るようにしてもよい)と、その音声につ
いてのピッチ情報である。
【0017】歌唱判定部106は、入力音声分析部10
2から出力された歌唱者の音声特徴情報と基準歌唱情報
読み出し部107によって読み出された基準歌唱情報に
基づいて、各情報が示す音声波形の振幅、平均基本周波
数(ピッチ)、ビブラート、音色、音素の種類を特定す
る情報について各属性毎に歌唱者の音声特徴情報と基準
歌唱情報との比較を行い、その結果に基づいて、比較し
た結果を各属性毎に歌唱力の判定結果(歌唱力度)とし
て出力する歌唱判定を行う。なお、各属性のうちの1ま
たは複数の属性に絞って歌唱判定を行っても良い。判定
方法には、入力音声分析部102を基準に行う方法と、
基準歌唱情報読み出し部107を基準に行う方法とがあ
る。この基準の取り方によって、比較結果が全く不一致
である場合に、どちらの歌唱情報による音声が100%
の割合で出力されるのかということが異なってくる。例
えば、ターゲット歌唱者の歌唱が始まっているのに、歌
唱者が歌唱していないとき、その音声を出力するかどう
かは、この基準の取り方によって異なる。通常、歌唱者
が歌唱しない時であっても音声を出力するという要求は
特殊なものであると思われるので、ここでは、歌唱者が
歌唱していない場合には、音声は出力しないという設定
を用いることとする。ただし、このどちらを基準として
用いるかは適宜設定可能である。
【0018】次に判定方法であるが、入力音声分析部1
02の音声特徴情報の中にどの属性情報が含まれている
かによって異なってくる。その判定方法の詳細は後述す
るが、その含まれる属性ごとに判定を行うことが好まし
い。その場合、判定結果を例えば“0”から“1”まで
の値で表すこととしたとき、ピッチの判定が“0.5”
で、振幅の判定が“0.3”などという形で属性毎に判
定結果が得られるようになる。
【0019】歌唱力度→物まね度変換部108は、歌唱
判定部106の判定結果に基づいて、物まね音声変換部
103の物まね度すなわち合成割合の設定値をいくつに
するかを決定する。歌唱力度→物まね度変換部108に
おける変換の方法としては、歌唱力度→物まね度モード
切り替え部108*における操作者の所定の操作に応じ
て、あらかじめ定められた複数の変換方法のなかから選
択された1つの方法が用いられる。例えば、変換の方法
としては、判定結果と変換割合の対応を規定する変換テ
ーブルまたは変換関数などによって決定する方法を用い
ることができる。ここで、変換時に注意が必要となる事
項について説明する。
【0020】例えば、音声特徴情報またはターゲット歌
唱情報(基準歌唱情報)で示される音声中の連続した2
つの音素間の判定結果が極端に変化した場合、変換結果
をどのように決定するかの設定は、重要な要素である。
例えば「わたしは」と歌唱した場合に、交互に判定結果
が「わ」は“0”、「た」は“1”、「し」は“0”、
「は」は“1”などと変化した場合、単純にその結果を
変換割合の決定の基準値として用いると、自分の歌唱、
ターゲットの歌唱が交互に出力されることになってしま
う。これを避けるためには、例えば、物まね音声変換部
103の物まね度の設定が「ピッチ」および「音色」の
2つの属性に関する判定結果で行う場合、夫々の属性に
ついて以前の設定値を記憶しておき、新たな設定値が、
前回の値に対して、ある値、例えば10%以上異なるよ
うな場合には、10%分のみ増やすといった補間制御が
必要になる。この補間は、歌唱判定部106で行っても
良い。また、歌唱者もターゲットも無音部分である場合
は、上記補間情報をリフレッシュ(初期化)するといっ
たことも考えられる。この処理は、例えば、歌唱判定部
106からの指令によって行うようにすることができ
る。
【0021】また、歌唱判定部106からの判定結果に
おける出力の属性数が、物まね音声変換部103の物ま
ね度の設定に用いる属性の個数と異なる場合は、少ない
ときには同じ設定を複数の物まね設定に対応させ、多い
ときには重みづけや平均化した値を使うなどの方法を採
用することができる。例として、歌唱判定部106の結
果に、ピッチとアンプ(振幅)の2つの属性情報があ
り、物まね音声変換部103の物まね度の設定が一つの
基準値から変換割合を決定する構成になっている場合、
ピッチとアンプ両方の平均をとり、その値を変換の際に
用いる変換テーブルに入力とするといったことである。
【0022】次に、歌唱力度→物まね度モード切り替え
部108*における変換方法の選択については、いくつ
かのバリエーションがあるが、代表的な例について説明
する。 歌唱力度→物まね度モード切り替え部108*に曲の
難易度によって変換方法を変更するかどうかを設定する
操作子を設け、その操作に従い、歌唱力度→物まね度変
換部108において、例えば音符記憶情報記憶部104
*に記憶されている曲の難易度を示すデータに従って変
換テーブルや変換関数を変更するようにする。 歌唱力度→物まね度モード切り替え部108*に曲の
難易度を入力する操作子をさらに設けてその操作に応じ
て、歌唱力度→物まね度変換部108で変換テーブルや
変換関数を変更する。 歌唱力度→物まね度モード切り替え部108*に、歌
唱者の歌唱力として、例えば、例えば初級、中級、上級
といった設定を選択可能な操作子を設け、その操作に従
って、歌唱力度→物まね度変換部108で使用する変換
テーブルや変換関数を異ならせるようにすることもでき
る。 歌唱力度→物まね度モード切り替え部108*には、
歌唱判定部106あるいは歌唱力度→物まね度変換部1
08において、歌唱情報と歌唱基準情報のどちらを基準
として用いるのかを選択する操作子を設け、その操作に
応じて基準となる情報を選択することも可能である。
【0023】次に、物まね音声変換部103は、入力音
声分析部102、ターゲット歌唱情報呼び出し部10
5、歌唱度→物まね度変換部108から供給される情報
に基づいて、物まね音声を合成する。例えば、入力音声
分析部102の出力がピッチPm’であり、ターゲット
歌唱情報呼び出し部105の出力がピッチPtであり、
歌唱力度→物まね度変換部108の出力におけるピッチ
物まね度(物まねの割合)がPrであった場合は、合成
後のピッチPdは、Pd=Pm’*(1−Pr)+Pt
*Pr(但し、Pt,Prは同じオクターブの場合)な
どの演算によって決定することができる。同様に他の各
要素(属性)によって決定されたパラメータによる合成
がなされ、合成された結果が、ミキシングアンプ部17
に供給される。このミキシングアンプ部17に供給され
た合成結果は、ミキシングアンプ部17で、さらに伴奏
演奏部109から出力された伴奏音とミキシングされた
後、出力される。
【0024】次に、歌唱判定部106における歌唱力度
の判定方法について詳細に説明する。ここでは、入力音
声分析部102からの歌唱情報と基準歌唱情報読み出し
部107からの基準歌唱情報に含まれる歌唱情報の各属
性(パラメータ)についての説明と、歌唱判定部106
においてどのように判定を行うのかということについて
説明する。まず、判定を行う判定パラメータ(属性パラ
メータ)とそのパラメータの求め方、およびその判定範
囲について述べる。各情報中のパラメータとしては、例
えば、固定フレーム長128サンプルで分析を行い、そ
のサンプルごとに1つの結果を値として持つようにす
る。
【0025】歌唱判定部106において、ピッチ(基本
周波数)を判定パラメータとして用いる場合、音素単
位、音節単位、または、固定時間(例えば100msご
と)で判定を行うこととする。ピッチは、周波数で判定
する場合は、その比で判定を行い、対数、例えば、セン
トでの比較は差分で行うこととする。その比率、差分ご
とに、その値に対応する歌唱力度を、表(テーブル)に
設定したり、関数式で表すことによって、そのピッチに
関する歌唱力度を求める。例えば、歌唱力度のピッチ属
性に関する判定結果は“0”(歌唱力があまり無い)か
ら“1”(歌唱力がある)までの値として出力される。
また、このピッチパラメータから、平均ピッチ、ビブラ
ートピッチ、こぶしピッチなどを求め、その各パラメー
タごとに判定を行ってもよい。その場合、ビブラートピ
ッチ、こぶしピッチについては、判定を行うのが音が発
生されてから、その変化が確認されるまで、例えばビブ
ラートの場合はそのビブラートの周期が確認されるま
で、待ってから判定を行うこととなる。ビブラートピッ
チは、例えば周期または周波数という単位でその比によ
って判定を行う。こぶしピッチは、ピッチの上がり下が
りの変化(平均ピッチとの差分)を、音の立ち上がりか
ら300ms程度を20ms程度の間隔で計測した結果
を同様な情報を数パターン予め用意したこぶしピッチパ
ターンテーブルからもっとも近いパターンのテーブル番
号を求め、そのテーブル番号の各情報間の差によって判
定を行う。その際には、例えば、徐々に設定値が変化す
る複数のテーブルを用いる。
【0026】振幅に基づく判定に関しては、振幅の変化
量との割合(対数の場合は、差分)を判定基準とするな
どの方法がある。また、ピッチと同様に、平均振幅、ビ
ブラート振幅、こぶし振幅などを、個別に求め、その各
パラメータごとの判定を行っても良い。そのビブラート
振幅、こぶし振幅などは、その結果が出力された後に判
定を行うこととなる。また、歌唱力の判定を行うのに重
要な要素の一つである歌唱タイミング(リズム度)につ
いては、この振幅情報を基準として判定するようにする
ことができる。また他の判定の方法としては、あるスレ
ッショルド値と、現在の歌唱・非歌唱の情報、ピッチが
ある無しなどの情報に基づいて、音の歌いだし、終わり
の時間を求め、その時間差を判定基準とするといった方
法もある。なお、歌唱タイミングについては、音素情報
などがあればその情報も含めて判定を行うことが好まし
い。
【0027】次に、スペクトル(音色)情報に基づく判
定について説明する。スペクトルの情報は、音色を現す
情報を最も多く含む属性パラメータである。スペクトル
の情報は、例えば、各サイン成分のピーク値を、周波数
fnとピーク値pnを各成分ごとに持つことで表した
り、線形予測(LPC)値などで表すことできるが、そ
れに基づく判定は、例えば、周知の方法によって各歌唱
情報間のスペクトル歪み度を求め、その値を判定基準と
して用いる方法などがある。
【0028】次に、音素情報を判定パラメータとする場
合について説明する。音素情報とは、音声認識等で使用
されている情報である。音素情報は、例えば、HMM
(隠れマルコフモデル)などで使用されているLPC係
数などから、予め学習されたコードブックのインデック
ス番号を求めるVQ(ベクトル量子化)などの手法で量
子化した値で表すことができる。そして、判定時には、
各歌唱情報間で量子化した値を比較することで判定を行
う。例えば、VQなどの手法で量子化した値を比較する
場合、歌詞を誤って歌ったかどうかを認識して、それを
判定基準とすることなどが可能となる。
【0029】(第1実施形態の動作の概略)上述した構
成による第1実施形態の概略動作は以下の通りある。ま
ず、曲データに応じて伴奏演奏部109がカラオケ演奏
信号を生成し、これがミキシングアンプ17によって増
幅されて出力される。これにより、歌唱者は、演奏の始
まり(イントロ)を聞く。そして、歌唱者が歌い出す
と、その音声はマイク1を介して入力音声分析部102
に供給され、特徴成分が抽出される。同時に、曲の進行
と同期して、ターゲット歌唱情報記憶部104からター
ゲットの特徴情報が読み出され、物まね音声変換部10
3に供給される。このとき、歌唱者の特徴成分も入力音
声分析部102から物まね音声変換部103に供給さ
れ、物まね音声変換部103は、両者の特徴成分を混合
し、ターゲットの声に似せた音声信号を生成する。この
場合、どの程度ターゲットに似せるかという物まね度
が、歌唱力度→物まね度変換部108によって制御され
る。本実施形態では、歌唱判定部106の判定結果に基
づいて物まね度が逐次変化し、物まね度が100%で完
全にターゲットの声色になり、物まね度が0%で歌唱者
本人の声色になる。例えば、歌唱者がうまく歌っている
フレーズでは、物まね度が高くなってターゲットの声色
に近くなり、歌唱者がうまく歌えないフレーズでは物ま
ね度が低くなって本人の声色に近くなる。したがって、
歌唱者は、出力される音声の声色を聞きながら、その箇
所の歌唱度を判断することができる。例えば、歌唱者本
人の声色に近くなってしまった場合には、より巧く歌う
ようにしてゆくと、だんだんターゲットの声色に近づい
てゆくという制御が行われる。なお、上記制御とは反対
に、巧く歌うほど本人の声色に近くなるように制御する
ことも可能である。以上説明したように、第1の実施形
態によれば、自動的に判定した歌唱力に応じて、物まね
度すなわちミーとターゲットの合成の割合が自動的に変
更されるので、次のような効果を得ることができる。
従来のように物まね度を一定にしておいた場合に比べ
て、歌唱能力に応じた物まね度を設定できるので、より
歌唱能力に適合した物まね効果を得ることが出来る。
歌唱中の各時点で、歌唱能力に応じて物まね度が変更さ
れるため、どの部分の歌唱が不足しているのかというこ
とを的確に確認しつつ歌唱することができ、この装置を
用いることによって歌唱能力を高める効果が期待でき
る。歌唱の特徴ごとにその特徴に応じて物まね度が変
更されるため、歌唱中のどの特徴が歌唱不足なのかが分
かり、歌唱能力を高める効果が期待できる。カラオケ
などで、複数人で楽しむ場合などで、歌唱能力に差があ
って、歌唱能力があまり無い人が歌いにくい場合などが
あるが、歌唱能力が低いほど物まね度を高める設定にし
ておけば、へたな人でもうまく歌うことができ、聞く場
合も下手な歌をがまんして聞くようなこともなくなり、
みんなでカラオケを楽しむことができる。カラオケな
どで、複数人で楽しむ場合などで、歌唱能力に自信があ
る人たちのグループの場合は、歌唱能力が高いほど、物
まね度を高める設定にしておけば、だれが完壁に物まね
ができるかなどを競いあうことができる。
【0030】[第2の実施形態]次に、図2〜図14を
参照して、本発明による音声変換装置の第2の実施形態
について説明する。
【0031】[1−1.全体構成]図2は、本発明の他
の実施形態の構成を示すブロック図である。本実施形態
は、上記実施形態と同様に、本発明を物まね機能付きの
カラオケ装置に適用したものであり、歌唱者(ミー:M
e)のマイクからの入力音声を、例えば歌手などの物ま
ね対象者(ターゲット:Target)の音声に似させるよう
に音声変換を行って出力するように構成されている。な
お、図2において、図1に示す構成に対応する構成には
その構成を破線で囲むとともに、図1のものと同一の符
号を用いて対応関係を表している。ただし、第2実施形
態における物まね度変換部103は、第1実施形態にお
ける歌唱力度→物まね度変換部108の機能を併せ持っ
ている。
【0032】本実施形態では、所定の時間単位で区切っ
たフレーム単位で対象音声を分析したデータを記憶して
おき、入力音声も同様の時間単位で区切ったフレーム単
位で分析することにより、入力音声のフレームの時間に
対応する対象者のフレームを特定できれば、時間関係を
一致させるようにしている。そして、本実施形態は、さ
らに、音素単位で入力音声と対象音声とを一致させたフ
レームデータを合成することによって音声変換を行うよ
うに構成されている。
【0033】図2において、マイク1は、ものまねをし
ようとする歌唱者の声を収集し、入力音声信号Svとし
て入力音声信号切出部3に出力する。分析窓生成部2
は、前回のフレームで検出したピッチの周期の固定倍の
周期を有する分析窓(例えば、ハミング窓)AWを生成
し、入力音声信号切出部3に出力する。なお、初期状態
あるいは前回のフレームが無声音(含む無音)の場合に
は、予め設定した固定周期の分析窓を分析窓AWとして
入力音声信号切出部3に出力する。入力音声信号切出部
3は、入力された分析窓AWと入力音声信号Svとを掛
け合わせ、入力音声信号Svをフレーム単位で切り出
し、フレーム音声信号FSvとして高速フーリエ変換部
4に出力する。高速フーリエ変換部4は、フレーム音声
信号FSvから周波数スペクトルを求め、周波数分析部
5sおよび特徴パラメータ分析部5pを備えた入力音声
分析部5に出力する。
【0034】周波数分析部5sは、SMS(Spectral M
odeling Synthesis)分析を行って正弦波成分および残
差成分を抽出し、分析した当該フレームの歌唱者の周波
数成分情報として保持する。特徴パラメータ分析部5p
は、入力音声のスペクトル特性を特徴づける特徴パラメ
ータを抽出し、シンボル量子化部7に出力する。本実施
形態では、特徴パラメータとして後に説明する5種類
(メルケプストラム係数、差分メルケプストラム係数、
差分エネルギー係数、エネルギー、ボイスネス)の特徴
ベクトルを用いる。
【0035】音素辞書記憶部6は、後に詳しく説明する
ように、符号帳および各音素における特徴ベクトルの状
態遷移確率とシンボル発生確率とを示す確率データを含
む音素辞書を記憶している。シンボル量子化部7は、音
素辞書記憶部6に記憶された符号帳を参照して、そのフ
レームにおける特徴シンボルを選び出し、状態遷移決定
部9に出力する。音素列状態形成部8は、隠れマルコフ
モデル(HMM)によって音素列状態を形成し、状態遷
移決定部9は、入力音声から得られたフレーム単位の特
徴シンボルを用いて、後述するビタービアルゴリズムに
従って状態遷移を決定する。
【0036】アライメント・歌唱判定・変換部10は、
決定された状態遷移から入力音声の時間ポインタを決定
し、当該時間ポインタに対応するターゲットフレームを
特定し、周波数分析部に保持された入力音声の周波数成
分と、ターゲットフレーム情報保持部11に保持された
対象者の周波数成分とを合成部12に出力するととも
に、前述した第1の実施形態と同様にして歌唱判定を行
い、歌唱判定の結果に基づいて合成割合を決定して合成
部12に出力する。ターゲットフレーム情報保持部11
には、予めフレーム単位で周波数分析された周波数分析
データおよび、いくつかのフレームで構成される時間リ
ージョン(region)単位で記述された音素列が記憶され
ている。
【0037】合成部12は、入力音声の周波数成分と対
象者の周波数成分とを、アライメント・歌唱判定・変換
部10で設定された合成割合で合成した新たな周波数成
分を生成して逆高速フーリエ変換部13に出力し、逆高
速フーリエ変換部13は新たな周波数成分を逆高速フー
リエ変換して新たな音声信号を生成する。
【0038】ところで、本実施形態は物まね機能を備え
たカラオケ装置であり、曲データ記憶部14には、MI
DIデータや時間データ、歌詞データなどによって示さ
れるカラオケ曲データが記憶されており、MIDIデー
タを時間データに従って再生するシーケンサ15および
シーケンサ15の出力データから楽音信号を生成する音
源16を備えている。ミキサ17は、逆高速フーリエ変
換部13から出力された音声信号と音源16から出力さ
れた楽音信号とを合成してスピーカ18から出力する。
このように、歌唱者がマイク1に向かって歌唱すると、
歌唱者の音声が対象者の音声に似せて変換された新たな
音声と、カラオケの伴奏楽音とがスピーカ18から出力
されるように構成されている。
【0039】[1−2.音素辞書]次に、本実施形態で用
いる音素辞書について説明する。音素辞書は、音声信号
の代表的な特徴パラメータを特徴ベクトルとして所定数
のシンボルにクラスタ化した符号帳と、各音素毎に状態
遷移確率および前記各シンボルの観測確率とから構成さ
れいる。
【0040】[1−2−1.特徴ベクトル]符号帳につい
て説明する前に、まず、本実施形態で用いる特徴ベクト
ルについて説明しておく。 メルケプストラム係数(bMEL) メルケプストラム係数は、音のスペクトル特性を少ない
次数で表す係数であり、本実施形態では12次元ベクト
ルとして128シンボルにクラスタ化している。 差分メルケプストラム係数(bdeltaMEL) 差分メルケプストラム係数は、メルケプストラム係数の
時間差分であり、12次元ベクトルとして128シンボ
ルにクラスタ化している。 差分エネルギー係数(bbdeltaENERGY) 差分エネルギー係数は、音の強さの時間差分を表す係数
であり、本実施形態では1次元ベクトルとして32シン
ボルにクラスタ化している。 エネルギー(bENERGY) エネルギーは、音の強さを表す係数であり、本実施形態
では1次元ベクトルとして32シンボルにクラスタ化し
ている。 ボイスネス(bVOICENESS) ボイスネスは、有声音らしさを表す特徴ベクトルであ
り、音声をゼロクロス率およびピッチエラーで特徴づけ
る2次元ベクトルとして32シンボルにクラスタ化して
いる。以下、ゼロクロス率とピッチエラーについてそれ
ぞれ説明する。
【0041】(1)ゼロクロス率 ゼロクロス率は、有声音であるほどゼロクロス率が低く
なる特徴を有するものであり、次式で定義される。
【数1】 ここで、sgn{s(n)}=+1:s(n)>=0,-1:s(n)<0, N:フレームサンプル数 W:フレーム窓 s:入力信号
【0042】(2)ピッチエラー ピッチエラーは、予測ピッチから測定ピッチへのエラー
および、測定ピッチから予測ピッチへのエラーの2方向
からのミスマッチを求めることによって有声音らしさを
示すものであり、詳細には、"Fundamental Frequency E
stimation in the SMS Analysis"(P.Cano. Proceedings
of the Digital Audio Effects Workshop,1898)にTwo
-Way Mismuch手法として説明されている。
【0043】まず、予測ピッチ(p)から測定ピッチ(m)へ
のピッチエラーは次式で表される。
【数2】 fn:n番目の予測ピーク周波数 Δfn:n番目の予測ピーク周波数とそれに近接した測定
ピーク周波数差 an:n番目の測定アンプリチュード Amax:最大アンプリチュード
【0044】一方、測定ピッチ(m)から予測ピッチ(p)へ
のピッチエラーは次の式で表される。
【数3】 fk:k番目の予測ピーク周波数 Δfk:k番目の予測ピーク周波数とそれに近接した測定
ピーク周波数差 ak:k番目の測定アンプリチュード Amax:最大アンプリチュード
【0045】従って、トータルエラーは次式のようにな
る。
【数4】 なお、常数として、p=0.5,q=1.4,r=0.5が実験的にほと
んどの音声に対して最適であることが報告されている。
【0046】[1−2−2.符号帳]符号帳は、それぞれ
の特徴ベクトルに対して、各シンボルの数へクラスタさ
れたベクトル情報が記憶されている(図3参照)。符号
帳は、大量の学習セット中の全ての予測ベクトルの中か
ら、最小歪みである量子化によって、K予測ベクトル
(コード)と言われるセットを見つけることによって作
成されている。本実施形態では、クラスタ化のアルゴリ
ズムとしてLGBアルゴリズムを用いる。
【0047】以下、LGBアルゴリズムを以下に示す。 初期化 まず、ベクトルの全体の中からセントロイドを見つけ
る。ここでは、初期コードベクトルとする。 反復 Iをトータル反復回数とすると、2Iのコードベクトル
が要求される。そこで、反復回数をi=1,2,……,
Iとすると、反復iについて、以下の計算を行う。 1)いくつかの存在するxというコードベクトルを、x
(1+e)とx(1−e)という二つのコードへ分割す
る。ここで、eは、例えば0.001という小さな数値
である。これにより、2i個の新しいコードベクトルx
i k(k=1,2,…,2i)が得られる。 2)学習セット中の各々の予測ベクトルxについて、x
からコードへXi k量子化する。 k’=argminkd(x,xi k) ここで、d(x,xi k)は、予測空間での歪み距離を示
している。 3)反復計算の間、各々のkについて、xi k=Q(x)
のように、すべてのベクトルをセントロイドする計算を
行う。
【0048】[1−2−3.確率データ]次に、確率デー
タについて説明する。本実施形態では、音声をモデル化
するためのサブワード単位としてPLU(疑似音素単
位)を用いる。より具体的には、図4に示すように、日
本語を27の音素単位で扱うものとし、各音素には状態
数が割り付けられている。状態数とは、サブワード単位
の持続する最も短いフレーム数をいい、例えば、音素
“a”の状態数は“3”であるので、音素“a”は少な
くとも3フレームが続くことを意味する。3状態は、発
音の立ち上がり・定常状態・リリース状態を擬似的に表
したものである。音素“b”や“g”などの破裂音は、
本来持つ音韻が短いので2状態に設定されており、息継
ぎ(ASPIRATION)も2状態に設定されている。そして、
無音(SILEMCE)は、時間的変動がないので1状態に設
定されている。
【0049】音素辞書中の確率データには、図5に例示
するように、サブワード単位で表される27の音素に対
して、各状態の遷移確率と、各特徴ベクトルのシンボル
に対する観測シンボル発生確率が記述されている。な
お、図5においては、記載を中略しているが、各特徴ベ
クトル毎の観測シンボル発生確率の和は1となってい
る。これらのパラメータは、学習データに対するモデル
の尤度を最大にするサブワード単位モデルのパラメータ
を推定することにより求める。ここでは、セグメントk
平均学習アルゴリズムを用いる。
【0050】セグメントk平均学習アルゴリズムを以下
に示す。 初期化 まず、予め音素セグメント分けされた初期推定データに
ついて、各々の音素セグメントをHMM状態へ線形的に
セグメント化(分割)する。 推定 遷移確率は、次式に示すように、遷移に用いられる遷移
数(フレーム単位)をカウントし、これを、状態からの
遷移全てに用いられる遷移数(フレーム単位)のカウン
ト値で割り算することにより求められる。
【数5】
【0051】一方、シンボル発声確率は、次式に示すよ
うに、各状態で各特徴シンボルを発生する数をカウント
し、これを各状態における全ての発生数のカウントで割
り算することによって求められる。
【数6】
【0052】セグメンテーション 学習セットに対して、ステップで求めた推定パラメー
タを用いて、ビタービアルゴリズムを介して再セグメン
ト化する。 反復 ステップとステップを収束するまで繰り返す。
【0053】[1−3.ターゲットフレーム情報]ターゲ
ットフレーム情報保持部11には、予め対象者の音声が
SMS分析されてフレーム単位で記憶されている。ま
ず、図6参照しながら、SMS分析について説明する。
SMS分析では、まず標本化された音声波形に窓関数を
乗じた音声波形(Frame)を切り出し、高速フーリエ変
換(FFT)を行って得られる周波数スペクトルから、正
弦波成分と残差成分とを抽出する。
【0054】正弦波成分とは、基本周波数(Pitch)お
よび基本周波数の倍数にあたる周波数(倍音)の成分を
いう。本実施形態では、基本周波数を“Fi”として保持
し、各成分の平均アンプリチュードを“Ai”として保持
し、スペクトル包絡をエンベロープとして保持する。残
差成分とは、入力信号から正弦波成分を除いた成分であ
り、本実施形態では、図6に示すように周波数領域のデ
ータとして保持する。図6に示すように得られた正弦波
成分および残差成分で示される周波数分析データは、図
7に示すようにフレーム単位で記憶される。本実施形態
では、フレーム間の時間間隔は5msとし、フレームを
カウントすることによって時間を特定することができる
ようになっている。各フレームには曲の冒頭からの経過
時間に相当するタイムスタンプが付されている(tt
1、tt2、……)。
【0055】ところで、先に説明したように、各音素
は、少なくとも音素毎に設定されている状態数分のフレ
ームが続くから、ターゲットフレーム情報においても、
各音素情報は複数のフレームから構成される。この複数
フレームのまとまりをリージョン(region)とする。タ
ーゲットフレーム情報保持部には、対象者が歌唱したと
きの音素列が記憶されるが、各音素とリージョンとを対
応つけて記述している。図7に示す例では、フレームt
t1〜tt5から構成されるリージョンが音素“n”に
対応し、フレームtt6〜tt10から構成されるリー
ジョンが音素“a”に対応している。このように、ター
ゲットフレーム情報を保持し、同様のフレーム分析を入
力音声に対して行えば、音素単位で両者を一致させた際
に、フレームで時間を特定することができ、周波数分析
データで合成処理ができるようになる。
【0056】[2.実施形態の動作]次に、本実施形態の
動作について説明する。
【0057】[2−1.概要動作]最初に、概要動作につ
いて図8に示すフローチャートを参照しながら説明す
る。まず、マイク入力音声分析が行われる(S1)。具
体的には、フレーム単位で高速フーリエ変換し、周波数
スペクトルからSMS分析を行った周波数分析データを
保持する。また、周波数スペクトルから特徴パラメータ
解析を行って、音素辞書に基づいてシンボル量子化を行
う。
【0058】次に、音素辞書および音素記述列に基づい
て、HMMモデルによる音素の状態決定を行い(S
2)、シンボル量子化された特徴パラメータおよび決定
された音素状態に基づいて1パスビタービアルゴリズム
によって状態遷移を決定する(S3)。HMMモデルお
よび1パスビタービアルゴリズムについては後に詳しく
説明する。そして、決定した状態遷移により入力音声の
時間ポインタを決定し(S4)、当該時間が新たな音素
状態になったか否かを判定する(S5)。時間ポインタ
とは、入力音声および対象音声の時系列において、当該
処理時刻におけるフレームを特定するものである。本実
施形態では、入力音声および対象音声はフレーム単位で
周波数分析され、各フレームは、入力音声および対象音
声の時系列と対応付けられている。以後、入力音声の時
系列を時刻tm1、tm2……と表記し、対象音声の時
系列をtt1、tt2……と表記する。
【0059】ステップS5の判定において、新たな音素
状態になったと判定した場合は(S5;Yes)、フレ
ームカウントを開始し(S6)、時間ポインタを音素列
の先頭へ移動する(S7)。フレームカウントとは、当
該音素状態として処理したフレーム数をいい、先に説明
したように、各音素は複数のフレームが続くので、すで
に何フレーム続いたかを示す値となる。そして、入力音
声フレームと対象者音声フレームにおける振幅、平均基
本周波数、ビブラート、音色、音素番号等の所定のパラ
メータについて比較を行うことで歌唱力の判定を行い、
判定結果に基づいて合成割合を決定し(S8a)、決定
した合成割合で、入力音声フレームの周波数分析データ
と対象者音声フレームの周波数分析データとを周波数領
域で合成し(S8b)、逆高速フーリエ変換することに
よって(S9)新たな音声信号を生成して出力する。
【0060】ところで、ステップS5の判定において、
新たな音素状態に遷移していないと判定した場合は(S
5;No)、フレームカウントをインクリメントして
(S10)、時間ポインタをフレーム時間間隔分進め
(S11)、ステップS8aに移行する。具体例をあげ
て説明すると、図7示す例では、音素状態が“n”にと
どまり続ける場合はフレームカウントをインクリメント
して、時間ポインタをtt1、tt2……と移動させ
る。しかし、フレームtt3の音素状態が“n”を処理
した次の時刻に“a”に遷移した場合には、音素列
“a”の先頭フレームtt6に時間ポインタを移動させ
る。このようにすれば、対象者と歌唱者との発音タイミ
ングが異なっても、音素単位での時間一致を行うことが
できる。
【0061】[2−2.動作の詳細]次に、概要動作にお
いてふれた各処理について詳細に説明する。
【0062】[2−2−1.入力音声分析]図9は、入力
音声を分析する処理について詳細に説明する図である。
図9に示すように、入力音声波形からフレーム単位で切
り出された音声信号は、高速フーリエ変換によって周波
数スペクトルに変換される。周波数スペクトルは、先に
説明したSMS分析によって周波数成分データとして保
持される他、特徴パラメータ解析が行われる。一方、周
波数スペクトルは、特徴パラメータ分析も行われる。よ
り具体的には、各特徴ベクトル毎に、音素辞書から最大
尤度のシンボルを見つけることによってシンボル量子化
して観測シンボルとする。このようにして得られたフレ
ーム毎の観測シンボルを用いて、後に詳しく説明するよ
うに状態遷移が決定されるようになる。
【0063】[2−2−2.隠れマルコフモデル]次に、
図10を参照しながら、隠れマルコフモデル(HMM)
について説明する。なお、音声の状態は一方向へ遷移す
るので、left to right型のモデルを用いている。
【0064】時刻tにおいて、状態がiからjへ遷移す
る確率(状態遷移確率)をaijと表す。図10に示す例
では、状態にとどまる確率をa11と表し、状態から
状態へ遷移する確率をa12と表している。各状態の中
には特徴ベクトルがそれぞれ存在し、各々に異なる観測
シンボルがある。これをX={x1、x2,…、xT}と表
す。そして、時刻tにおいて状態がjである時に特徴ベ
クトルのシンボルxtを発生させる確率(観測シンボル
離散確率)をbj(xt)と表す。モデルλにおいて、時刻
Tまでの状態系列をQ={q1,q2,…,qT}とすると、
観測シンボル系列Xと状態系列Qの同時発生確率は、次
式で表せる。
【数7】 観測シンボル系列は判っているが、状態系列は観測しえ
ないという理由で、このようなモデルが隠れマルコフモ
デル(HMM)と呼ばれている。本実施形態では、ター
ゲットフレーム情報保持部11に記憶されている音素記
述列に基づいて、図10に示すようなFNS(有限状態
ネットワーク)を音素単位で形成する。
【0065】[2−2−3.アライメント]次に、図11
および図12を参照しながら、本実施形態におけるアラ
イメントについて説明する。本実施形態では、音素記述
列に基づいて形成された上述の隠れマルコフモデルと、
入力音声から抽出したフレーム単位の特徴シンボルを用
いて、1パスビタービアルゴリズムに従って入力音声の
状態遷移を決定する。そして、入力音声の音素と対象音
声の音素とをフレーム単位で対応づける処理を行う。ま
た、本実施形態では、二つの音声信号のアライメントを
カラオケ装置において用いているので、曲データに従っ
た楽曲の時系列と、音声信号の時系列とを同期させる処
理も行う。以下、これらの処理について順次説明する。
【0066】[2−2−3−1.1パスビタービアルゴ
リズム]ビタービアルゴリズムは、観測シンボル系列の
各観測シンボルが各HMMモデルによって出現する全て
の確率を算出し、最大確率を与えるパスを後から選択し
て状態遷移結果とするものである。しかしながら、観測
シンボル系列が終結した後に状態遷移結果を求めるの
で、リアルタイム処理には不向きである。そこで、本実
施形態では、以下に説明する1パスビタービアルゴリズ
ムを用いて、その時点まで音素状態を決定する。下記式
におけるΨt(j)は、時刻tフレームまでの観測をふ
まえて算出した、一つのパスを経由して得られる時刻t
のフレームにおけるベスト確率δt(i)を最大とする
状態を選択する。すなわち、Ψt(j)に従って音素状
態が遷移していく。初期演算としてδ1(i)=1と
し、繰り返し演算として
【数8】 を実行する。ここで、aijは状態iから状態jへの状態
遷移確率であり、bj(Ot)は特徴ベクトルの時刻tにお
けるシンボル発生確率である。各観測シンボルは、入力
音声から抽出された特徴ベクトルであるから、歌唱者の
発声態様によって観測シンボルが異なり、遷移の態様も
異なるようになる。図11に示す例では、上記式によっ
て計算された確率を○あるいは△で示している(○>
△)。例えば、時刻tm1から時刻tm3までの観測を
ふまえ、状態“Silence”から状態“n1”への
パスが形成される確率は、状態“Silence”から
状態“Silence”へのパスが形成される確率より
も高く、時刻tm3におけるベスト確率となり、図中太
矢印で示すように状態遷移を決定する。このような演算
を入力音声の各フレームに対応する時刻(tm1、tm
2、……)毎に行うことによって、図11に示す例で
は、時刻tm3において状態“Silence”から状
態“n1”に遷移し、時刻tm5において状態“n1”
から状態“n2”に遷移し、時刻tm9において状態
“n2”から状態“n3”に遷移し、時刻tm11にお
いて状態“n3”から状態“a1”に遷移したように決
定されている。これにより、入力音声の音素をフレーム
単位の各時刻において特定できるようになる。
【0067】[2−2−3−2.フレーム単位の対応]上
述したように状態遷移を決定し、入力音声の音素がフレ
ーム単位で特定されると、次に、特定された音素に対応
する対象音声のフレームを特定する。上述したように、
隠れマルコフモデルの各状態はターゲットフレーム情報
保持部11に記憶された対象音声の音素列記述に基づい
て形成されているので、各状態に対応する対象音声の音
素毎のフレームを特定することができるようになってい
る。本実施形態では、アライメントとして、対象音声と
入力音声の対応する音素が同じフレーム同士を、各フレ
ーム毎に時系列で一致させる処理を行う。
【0068】図11に示す例では、対象音声の時刻tt
1〜tt3のフレームが音素“Silence”に対応
し、時刻tt4〜tt9のフレームが音素“n”に対応
し、時刻tt10〜のフレームが音素“a”に対応して
いる。一方、1パスビタービアルゴリズムによって入力
音声の状態遷移が決定され、入力音声の時刻tm1〜t
m2のフレームが音素“Silence”に対応し、時
刻tm3〜tm10のフレームが音素“n”に対応し、
時刻tm11〜のフレームが音素“a”に対応してい
る。そして、音素“Silence”に対応するフレー
ムとして、入力音声の時刻tm1のフレームと対象音声
の時刻tt1のフレームを一致させ、入力音声の時刻t
m2のフレームと対象音声の時刻tt2のフレームを一
致させる。入力音声の時刻tm3において状態“Sil
ence”から状態“n1”に遷移しているので、音素
“n”に対応するフレームとしては、入力音声の時刻t
m3のフレームが最初のフレームになる。一方、対象音
声のフレームは、音素“n”に対応するフレームは、音
素列記述によれば時刻tt4のフレームからであるの
で、音素“n”発声開始時の対象音声の時間ポインタは
時刻tt4となる(図8:ステップS5〜S7参照)。
次に、入力音声の時刻tm4においては、新たな音素状
態に遷移していないので、フレームカウントをインクリ
メントするとともに、対象音声の時間ポインタをフレー
ム時間間隔分進めて(図8:ステップS5〜S11参
照)、時刻tt5のフレームを入力音声の時刻tm4の
フレームと一致させる。このようにして、入力音声の時
刻tm5〜tm7と、対象音声の時刻tt6〜tt8と
を順次一致させていく。
【0069】ところで、図11に示す例では、入力音声
の時刻tm3〜tm10までの8フレーム分が音素
“n”に対応しているのに対して、対象音声の音素
“n”に対応しているフレームは時刻tt4〜tt9ま
でのフレームである。このように、歌唱者が対象者より
も同じ音素を長い時間発声してしまう場合が生じるの
で、本実施形態では、予め用意したループフレームを用
いて対象音声が入力音声よりも短い場合の補間を行う。
ループフレームは、音をのばして発音する場合のピッチ
の変化やアンプリチュードの変化を擬似的に再現するた
めのデータを数フレーム分記憶しており、例えば、基本
周波数の差分(ΔPitch)やアンプリチュードの差分
(ΔAmp)などから構成される。そして、ターゲットフ
レームデータ中には、音素列における各音素の最終フレ
ームにループフレームの呼び出しを指示するデータを記
述しておく。これにより、歌唱者が対象者よりも同じ音
素を長い時間発声してしまった場合でも、良好にアライ
メントを行うことができるようなる。
【0070】[2−2−3−3.曲データとの同期]とこ
ろで、本実施形態では、カラオケ装置に音声変換を適用
しており、カラオケ装置はMIDIデータに基づいて楽
曲の演奏を行うので、音声の進行と楽曲の進行が同期し
ていることが望ましい。そこで、本実施形態では、アラ
イメント・歌唱判定・変換部10は、曲データで示され
る時系列と対象音声の音素列とを同期させるように構成
している。より具体的には、図12に例示するように、
シーケンサ15は曲データに記述された時間情報(例え
ば、MIDIデータの再生時間間隔を示すΔタイムやテ
ンポ情報)などに基づいて、楽曲の進行情報を生成して
アライメント・歌唱判定・変換部10に出力する。アラ
イメント・歌唱判定・変換部10は、シーケンサ15か
ら出力された時間情報とターゲットフレーム情報保持部
11に記憶されている音素記述列とを比較して、曲進行
の時系列と対象音声の時系列とを対応付ける。
【0071】また、図11に示すような重み付け関数f
(|tm-tt|)を用いて、楽曲に同期して状態遷移確率
への重み付けをおこなうことができるようにしている。
この重み付け関数は、各状態遷移確率aijに乗じる窓関
数である。なお、図中aおよびbは楽曲のテンポに応じ
た要素である。また、αは限りなく0に近い値に設定す
る。上述したように、対象音声の時間ポインタは楽曲の
テンポに同期して進行するので、このような重みつけ関
数を導入することによって、結果的に歌唱音声と対象音
声との同期が正確になる。
【0072】[3.変形例]本実施形態の形態は上記のも
のに限定されるものではなく、以下に説明するような各
種の変形が可能である。
【0073】[3−1.音素の飛び越し]上記実施形態で
は、1パスビタービアルゴリズムを用いて状態遷移を決
定しているが、歌唱者が歌詞を間違えた場合には不向き
である。例えば、数フレーズ先の歌詞を歌ってしまった
場合や、数フレーム前の歌詞を歌ってしまった場合など
が考えられる。このような場合は、図13に示すよう
に、数状態前後まで最適状態を検索する範囲を広げ、最
適状態と判断した場合に限り飛び越しを行うようにすれ
ばよい。より具体的には、入力音声の時刻tm4におい
ては、音素“a”に対応する状態となっているので、上
述した1パスビタービアルゴリズムによれば、入力音声
の時刻tm5のフレームについては、音素“a”から遷
移しない確率、あるいは音素列記述において音素“a”
の次にくる“Silence”への遷移確率のいずれか
高い方から最大確率を選択することになる。しかしなが
ら、歌唱者は無音期間なしに音素“k”の発声を開始し
ているので、対象者の音素列記述のうちの“Silen
ce”については飛び越してアライメントすることが望
ましい。そこで、このような歌唱者が対象者の音素列記
述に従わずに発声した場合には、数状態前後の状態まで
最大確率となる状態を検索するようにしてもよい。図1
3に示す例では、直前のフレーム状態の前後3状態の範
囲を検索して、2状態先の音素“k”を最大確率として
いる。このようにて、“Silence”を飛び越して
音素“k”への状態遷移を決定する。
【0074】また、無音の位置や息継ぎの位置などが異
なる場合も多い。このような場合には、上記実施形態で
は音素の位置が異なってしまう。そこで、図13に示す
ように、発音音素単位から“Silence”と“As
pilation”や発音音素単位への飛び越しの確率
を同じように設定する。例えば、対象者の音素列記述に
おいては、音素“i”の前後数状態には“Aspila
tion”は記述されていない。しかしながら、音素記
述列において音素“i”の次に記述されている音素
“n”へ遷移する確率と、記述されていない“Sile
nce”あるいは“Aspilation”への飛び越
しを行う確率を同等に設定し、“Silence”ある
いは“Aspilation”に飛び越しを行った後
に、音素記述列中の音素に戻る確率も同等に設定してお
けばよい。 このようにすれば、例えば図13に示す例
のように、歌唱者が時刻tm7において、対象者の音素
記述列に従わずに息継ぎを行った場合でも柔軟にアライ
メントすることができる。また、対象者の音素列記述に
かかわらず、ある摩擦音の次に他の摩擦音に遷移する場
合があるので、摩擦音をアライメントしている時は、摩
擦音あるいは対象音声の音素記述の次の音素について最
大確率を検索するようにしてもよい。
【0075】[3−2.似通った音素]日本語では、同じ
言葉でも歌唱者によって異なる音素で発音する場合があ
る。たとえば、図14に示すように、音素記述では“na
gara”であっても、“nakara”“nagala”“nakala”な
どと発音される場合がある。このように、似通った音素
については、グループ化したパスを持つ隠れマルコフモ
デルを用いることにより、柔軟性のあるアライメントを
実現することができる。
【0076】[その他] (1)第2実施形態においては、アライメント対象とな
る対象音声と入力音声とを時系列で対応づける音声処理
装置を、物まね機能を有するカラオケ装置に適用してい
るが、これに限らず、カラオケ装置であれば例えば採点
に用いてもよいし、歌唱を補正するために用いても良
い。また、音素単位で時系列を一致させる技術はカラオ
ケ装置に限らず、他の音声認識に関する装置にも適用す
ることが可能である。
【0077】(2)第2の実施形態では、音声信号の代
表的な特徴パラメータを特徴ベクトルとして所定数のシ
ンボルにクラスタ化した符号帳と、各音素毎に状態遷移
確率および前記各シンボルの観測確率とを記憶する音素
辞書について説明しているが、上述した5種類の特徴ベ
クトルに限らず他のパラメータを用いてもよい。
【0078】(3)第2の実施形態では、対象音声およ
び入力音声をフレーム単位で周波数分析しているが、分
析の手法は上述したSMSに限定されるものではない
し、時間領域の波形データとして分析しても構わない。
あるいは、周波数と波形とを併用した分析を行っても構
わない。 (4)また、本願におけるモーフィング処理は、上述し
た各実施例に限定されない。例えば、ターゲットのフォ
ルマント、スペクトルチルト、ピッチ変動、歌唱アクセ
ントなどのいずれか、もしくは2以上の組み合わせから
なる音声の属性に基づいて、歌唱音声に対する音声変換
処理を行ってもよい。 (5)また、本願における歌唱判定は、上述した各実施
形態における判定方法に限らない。例えば、単純に音符
情報との比較で音程と強弱の一致度だけをみてもよく、
また、ビブラートやこぶしなどの一致度までも判定する
ように構成してもよい。要は、歌唱判定の基準となるデ
ータを用意し、歌唱の音声信号を基準データと比較でき
る形式にして比較する構成があればよい。
【0079】
【発明の効果】以上説明したように、本発明によれば、
歌唱力に応じて歌唱者の音声と目的とする歌唱対象の音
声との変換割合を自動的に変更することができるので、
変化に富む音声変換作用を得ることができるとともに、
歌唱採点結果をより的確に把握することが可能となる。
【図面の簡単な説明】
【図1】 本発明の第1の実施形態の構成を示すブロッ
ク図である。
【図2】 本発明の第2の実施形態の構成を示すブロッ
ク図である。
【図3】 符号帳を説明する図である。
【図4】 音素を説明する図である。
【図5】 音素辞書を説明する図である。
【図6】 SMS分析を説明する図である。
【図7】 対象音声のデータについて説明する図であ
る。
【図8】 実施形態の動作を説明するフローチャートで
ある。
【図9】 入力音声の分析について説明する図である。
【図10】 隠れマルコフモデルを説明する図である。
【図11】 アライメントについて具体例を示した図で
ある。
【図12】 楽曲との同期について説明する図である。
【図13】 音素の飛び越しを行う場合について説明す
る図である。
【図14】 似通った音素が発声される場合について説
明する図である。
【符号の説明】
1…マイク、2…分析窓生成部、3…入力音声信号切出
部、4…高速フーリエ変換部、5…入力音声分析部、5
s…周波数分析部、5p…特徴パラメータ分析部、6…
音素辞書記憶部、7…シンボル量子化部、8…音素列状
態形成部、9…状態遷移決定部、10…アライメント・
歌唱判定・変換部、11…ターゲットフレーム情報保持
部、12…合成部、13…逆高速フーリエ変換部、14
…曲データ記憶部、15…シーケンサ、16…音源、1
7…ミキシングアンプ(ミキサ)、18…スピーカ、1
02…入力音声分析部、103…物まね音声変換部、1
04…ターゲット歌唱情報記憶部、104*…音符情報
記憶部、105…ターゲット歌唱情報記憶部、106…
歌唱判定部、107…基準歌唱情報読み出し部、108
…歌唱力度→物まね度変換部、108*…歌唱力度→物
まね度モード切り替え部、109…伴奏演奏部。
─────────────────────────────────────────────────────
【手続補正書】
【提出日】平成11年11月26日(1999.11.
26)
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】0047
【補正方法】変更
【補正内容】
【0047】以下、LGBアルゴリズムを以下に示す。 初期化 まず、ベクトルの全体の中からセントロイドを見つけ
る。ここでは、初期コードベクトルとする。 反復 Iをトータル反復回数とすると、I のコードベクトル
が要求される。そこで、反復回数をi=1,2,・・・・・
・,Iとすると、反復iについて、以下の計算を行う。 1)いくつかの存在するxというコードベクトルを、x
(1+e)とx(1−e)という二つのコードへ分割す
る。ここで、eは、例えば0.001という小さな数値
である。これにより、i 個の新しいコードベクトルxi
k(k=1,2,・・・,i )が得られる。 2)学習セット中の各々の予測ベクトルxについて、x
からコードへi k 量子化する。 k’=argmik(x,xi k) ここで、d(x,xi k)は、予測空間での歪み距離を示
している。3)反復計算の間、各々のkについて、xi k
=Q(x)のように、すべてのベクトルをセントロイド
する計算を行う。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ザビエル セラ スペイン バルセロナ 08002 メルセ 12 Fターム(参考) 5D015 AA06 BB02 CC03 CC11 CC13 CC14 HH04 HH23 5D045 BA01 BA02 5D108 BF04 BF20

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 歌唱者の音声を分析した結果を歌唱者音
    声分析情報として出力する音声分析手段と、 物まね対象となるターゲットの音声を分析した結果を基
    準歌唱情報として記憶する基準歌唱情報記憶手段と、 基準歌唱情報記憶手段から基準歌唱情報を読み出す基準
    歌唱情報読出手段と、 前記音声分析手段から出力された歌唱者音声分析情報と
    前記基準歌唱情報読出手段によって読み出された基準歌
    唱情報とを比較し、比較した結果を歌唱判定結果として
    出力する歌唱判定手段と、 前記基準歌唱情報に基づく音声変換処理により、前記歌
    唱者の音声を所定の割合でターゲットの音声に近づけた
    音声信号を生成するモーフィング音声生成手段と、 前記所定の割合を、前記歌唱判定結果に応じて変更する
    合成割合変更手段とを備えることを特徴とする音声変換
    装置。
  2. 【請求項2】 請求項1記載の音声変換装置において、
    ターゲットの音声を音声分析した結果の代わりに歌唱曲
    の音符情報を前記基準歌唱情報記憶手段に記憶すること
    を特徴とする音声変換装置。
  3. 【請求項3】 請求項1記載の音声変換装置において、 前記歌唱判定手段が、前記歌唱者音声分析情報と前記基
    準歌唱情報とを比較する際に、各情報が示す音声波形の
    振幅、平均基本周波数、ビブラート、音色、又は音素を
    特定する情報の各属性のうちの2以上の属性について比
    較を行い、その結果に基づいて、各属性毎に比較した結
    果を歌唱判定結果として出力し、 前記合成割合変更手段が、前記所定の割合を、各属性毎
    の前記歌唱判定結果に応じて変更することを特徴とする
    音声変換装置。
  4. 【請求項4】 請求項1〜3のいずれか1項に記載の音
    声変換装置において、前記合成割合変更手段による前記
    歌唱判定結果に応じた前記所定の割合の変更処理が、予
    め設定された複数の処理のなかから選択可能であること
    を特徴とする音声変換装置。
  5. 【請求項5】 前記モーフィング音声生成手段は前記基
    準歌唱情報と前記歌唱者音声分析情報を所定の割合で合
    成して特徴合成情報を生成し、この特徴合成情報に基づ
    いて音声信号を生成することを特徴とする請求項1〜4
    のいずれか1項に記載の音声変換装置。
  6. 【請求項6】 前記歌唱者音声分析情報と前記基準歌唱
    情報における音声情報の変動を確率モデルで捉えるモデ
    ル解析手段をさらに備え、 前記モーフィング音声生成手段が、前記歌唱者音声分析
    情報と前記基準歌唱情報とを合成する際に、前記モデル
    解析手段による解析結果に応じて、前記歌唱者音声分析
    情報と前記基準歌唱情報との対応付けを調節することを
    特徴とする請求項5項記載の音声変換装置。
  7. 【請求項7】 予め物まね対象となるターゲットの音声
    を分析した結果を基準歌唱情報として記憶する基準歌唱
    情報記憶手段を用い、 歌唱者の音声を分析した結果を歌唱者音声分析情報とし
    て出力する音声分析過程と、 基準歌唱情報記憶手段から基準歌唱情報を読み出す基準
    歌唱情報読出過程と、 前記音声分析過程で出力された歌唱者音声分析情報と、
    前記基準歌唱情報読出過程で読み出された基準歌唱情報
    とを比較し、比較した結果を歌唱判定結果として出力す
    る歌唱判定過程と、 前記基準歌唱情報に基づく音声変換処理により、前記歌
    唱者の音声を所定の割合でターゲットの音声に近づけた
    音声信号を生成するモーフィング音声生成過程と、 前記所定の割合を、前記歌唱判定結果に応じて変更する
    合成割合変更過程とを有することを特徴とする音声変換
    方法。
JP30027199A 1999-10-21 1999-10-21 音声変換装置及び方法 Expired - Fee Related JP4364977B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP30027199A JP4364977B2 (ja) 1999-10-21 1999-10-21 音声変換装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP30027199A JP4364977B2 (ja) 1999-10-21 1999-10-21 音声変換装置及び方法

Publications (2)

Publication Number Publication Date
JP2001117598A true JP2001117598A (ja) 2001-04-27
JP4364977B2 JP4364977B2 (ja) 2009-11-18

Family

ID=17882793

Family Applications (1)

Application Number Title Priority Date Filing Date
JP30027199A Expired - Fee Related JP4364977B2 (ja) 1999-10-21 1999-10-21 音声変換装置及び方法

Country Status (1)

Country Link
JP (1) JP4364977B2 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005107088A (ja) * 2003-09-30 2005-04-21 Yamaha Corp 歌唱音声評価装置、カラオケ採点装置及びそのプログラム
JP2005316077A (ja) * 2004-04-28 2005-11-10 Techno Face:Kk 情報処理装置およびプログラム
JP2007057692A (ja) * 2005-08-23 2007-03-08 Advanced Telecommunication Research Institute International 音声処理装置、およびプログラム
JP2007193151A (ja) * 2006-01-20 2007-08-02 Casio Comput Co Ltd 楽音制御装置および楽音制御処理のプログラム
JP2007199654A (ja) * 2005-12-26 2007-08-09 Advanced Telecommunication Research Institute International 音声処理装置、およびプログラム
WO2009099146A1 (ja) * 2008-02-05 2009-08-13 National Institute Of Advanced Industrial Science And Technology 音楽音響信号と歌詞の時間的対応付けを自動で行うシステム及び方法
KR101813704B1 (ko) * 2014-11-11 2017-12-29 주식회사 보쿠 사용자 음색 분석 장치 및 음색 분석 방법
WO2023276234A1 (ja) * 2021-06-29 2023-01-05 ソニーグループ株式会社 情報処理装置、情報処理方法およびプログラム

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005107088A (ja) * 2003-09-30 2005-04-21 Yamaha Corp 歌唱音声評価装置、カラオケ採点装置及びそのプログラム
JP2005316077A (ja) * 2004-04-28 2005-11-10 Techno Face:Kk 情報処理装置およびプログラム
JP4612329B2 (ja) * 2004-04-28 2011-01-12 株式会社テクノフェイス 情報処理装置およびプログラム
JP2007057692A (ja) * 2005-08-23 2007-03-08 Advanced Telecommunication Research Institute International 音声処理装置、およびプログラム
JP2007199654A (ja) * 2005-12-26 2007-08-09 Advanced Telecommunication Research Institute International 音声処理装置、およびプログラム
JP2007193151A (ja) * 2006-01-20 2007-08-02 Casio Comput Co Ltd 楽音制御装置および楽音制御処理のプログラム
WO2009099146A1 (ja) * 2008-02-05 2009-08-13 National Institute Of Advanced Industrial Science And Technology 音楽音響信号と歌詞の時間的対応付けを自動で行うシステム及び方法
JP2009186687A (ja) * 2008-02-05 2009-08-20 National Institute Of Advanced Industrial & Technology 音楽音響信号と歌詞の時間的対応付けを自動で行うシステム及び方法
US8880409B2 (en) 2008-02-05 2014-11-04 National Institute Of Advanced Industrial Science And Technology System and method for automatic temporal alignment between music audio signal and lyrics
KR101813704B1 (ko) * 2014-11-11 2017-12-29 주식회사 보쿠 사용자 음색 분석 장치 및 음색 분석 방법
WO2023276234A1 (ja) * 2021-06-29 2023-01-05 ソニーグループ株式会社 情報処理装置、情報処理方法およびプログラム

Also Published As

Publication number Publication date
JP4364977B2 (ja) 2009-11-18

Similar Documents

Publication Publication Date Title
US6836761B1 (en) Voice converter for assimilation by frame synthesis with temporal alignment
JP6547878B1 (ja) 電子楽器、電子楽器の制御方法、及びプログラム
US11468870B2 (en) Electronic musical instrument, electronic musical instrument control method, and storage medium
JP6610715B1 (ja) 電子楽器、電子楽器の制御方法、及びプログラム
Saino et al. An HMM-based singing voice synthesis system
Umbert et al. Expression control in singing voice synthesis: Features, approaches, evaluation, and challenges
Rodet Synthesis and processing of the singing voice
Nakamura et al. HMM-based singing voice synthesis and its application to Japanese and English
CN112331222A (zh) 一种转换歌曲音色的方法、系统、设备及存储介质
JP4205824B2 (ja) 歌唱評価装置およびカラオケ装置
CN111696498A (zh) 键盘乐器以及键盘乐器的计算机执行的方法
JP4323029B2 (ja) 音声処理装置およびカラオケ装置
Dzhambazov et al. On the use of note onsets for improved lyrics-to-audio alignment in turkish makam music
JP4364977B2 (ja) 音声変換装置及び方法
Wada et al. Sequential generation of singing f0 contours from musical note sequences based on wavenet
Mase et al. HMM-based singing voice synthesis system using pitch-shifted pseudo training data.
JP2020024456A (ja) 電子楽器、電子楽器の制御方法、及びプログラム
JP2001117580A (ja) 音声信号処理装置および音声信号処理方法
JP6801766B2 (ja) 電子楽器、電子楽器の制御方法、及びプログラム
JP4430174B2 (ja) 音声変換装置及び音声変換方法
Maia et al. An HMM-based Brazilian Portuguese speech synthesizer and its characteristics
Saeed et al. A novel multi-speakers Urdu singing voices synthesizer using Wasserstein Generative Adversarial Network
Gu et al. Singing-voice synthesis using demi-syllable unit selection
JP2019219661A (ja) 電子楽器、電子楽器の制御方法、及びプログラム
Cheng et al. HMM-based mandarin singing voice synthesis using tailored synthesis units and question sets

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060223

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090224

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090525

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090818

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090820

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120828

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130828

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees