JP3362491B2

JP3362491B2 - 音声発声装置

Info

Publication number: JP3362491B2
Application number: JP34727993A
Authority: JP
Inventors: 勝美黒嶋
Original assignee: TDK Corp
Current assignee: TDK Corp
Priority date: 1993-12-27
Filing date: 1993-12-27
Publication date: 2003-01-07
Anticipated expiration: 2018-01-07
Also published as: JPH07191697A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、歌い手の音声を修正し
て出力する機能を有した業務用及び家庭用のカラオケ装
置に用いられる音声発声装置に関する。

【０００２】

【従来の技術】カラオケ装置と称される歌声伴奏装置
は、記録媒体に記録されている多数の楽曲のうちから選
択的に所望の楽曲を演奏すると共に歌い手の音声を拡声
して出力するものである。この種のカラオケ装置には、
より上手に正しく歌う練習を行うための種々の工夫を施
したものがある。

【０００３】例えばその１つとして、歌い手の歌唱力を
自動的に評価して採点を行う機能を備えたカラオケ装置
が知られている。特公平３−４４３１０号公報には、記
録媒体に記録されているボーカル信号と歌い手の歌う音
声信号とを比較し、その合致度を得点として算出及び表
示するカラオケ装置が開示されている。また、特開平５
−１１６８７号公報には、前奏及び間奏を除く楽曲全体
において音声の存在すべき割合があらかじめ定められて
いることを利用して所定間隔毎に音声が存在するかどう
かを計数することにより歌唱力評価を行いその結果を表
示するカラオケ装置が開示されている。

【０００４】他のこの種の技術として、伴奏音と歌い手
の音声とを比較して両者の音程にずれがある場合は、そ
の音程差を表示する機能を有するカラオケ装置が知られ
ている。特開平４−１３１７６号公報には、基準ボーカ
ル情報と歌い手の音声との音程比較を行い、その差を表
示する機能を有するカラオケ装置が開示されている。

【０００５】さらに他の技術として、特開平４−２３８
３８４号公報には、伴奏音と歌い手の音声との音程や時
間にずれがある場合はあらかじめ記憶されている模範と
なる歌声データを再生する機能を備えたカラオケ装置が
開示されている。

【０００６】

【発明が解決しようとする課題】しかしながら、歌唱力
を評価して採点を行う従来技術によると、歌が終わった
後に採点されるので、歌い手はどの部分の音程がはずれ
たのかどの部分でリズムが狂ったのかを知ることができ
ない。伴奏音と歌い手の音声との音程差を表示する従来
技術によれば、どの部分がどの程度ずれているかを目で
確認することはできるが、そのずれている部分をどのよ
うな音程で歌えばよいのか感覚的につかむことができな
い。このため、この種の従来技術によると、正しく歌う
練習を満足に行うことが非常に難しかった。

【０００７】また、音程差等にずれがある場合は記憶さ
れている模範歌声データが再生される従来技術による
と、歌い手の音質ではない模範音声が再生されるので音
程を合わせるのが難しい。特に、正しい音程やテンポを
取ることができない歌い手にとっては、自分の音質と異
なる音声に音程を合わせることは至難である。

【０００８】従って本発明は、正しい音程やテンポを取
ることが得意ではない者であっても正しく歌う練習を容
易に行うことのできるカラオケ装置用の音声発声装置を
提供するものである。

【０００９】

【課題を解決するための手段】本発明によれば、各音素
毎の基準音程及び基準音素長をあらかじめ記憶している
記憶手段と、歌い手からの入力音声データを音声認識し
て音素に分解する手段と、この分解した各音素毎の音声
波形の音程及び音素長を記憶手段に記憶されている対応
する基準音程及び基準音素長とそれぞれ比較し、両者の
音程若しくは音素長又は音程及び音素長が互いに異なる
場合は各音声波形を基準音程若しくは基準音素長又は基
準音程及び基準音素長に修正し、修正した各音声波形を
結合する修正手段と、この修正手段から得られる音声波
形データに基づいて音声を発声させる発声手段とを備え
た音声発声装置が提供される。

【００１０】本発明の１つの実施態様においては、歌い
手からの入力音声データのピッチ周波数を検出して入力
音声データの全音程を測定することにより歌い手の音域
を測定する音域測定手段と、この音域測定手段によって
測定された歌い手の音域とその楽曲の基準音域データと
比較し、歌い手の音域がその楽曲の音域にない場合はそ
の楽曲の音域を移調する音域移調手段とをさらに備えて
いる。

【００１１】本発明の１つの実施態様においては、上述
した修正手段は、分解した各音素毎の音声波形から子音
部分の音声波形及び母音部分の音声波形を抽出する手段
と、抽出した子音部分の音声波形及び母音部分の音声波
形の両方の音程を基準音程に修正する音程修正手段と、
抽出した母音部分の音声波形のみの音素長を基準音素長
に修正する音素長修正手段とを備えている。

【００１２】本発明の１つの実施態様においては、上述
の修正手段から得られた音声波形データにリズムを付加
して発声手段へ送る編集手段をさらに備えている。

【００１３】この編集手段は、音声波形の振幅を時間的
に変化させるエンベロープ処理と、音程を微妙に変化さ
せてビブラートを発生させるビブラート処理と、音量を
周期的に変化させるトレモロ処理と、音色を周期的に変
化させるゴロウル処理と、音程を時間的に変化させるピ
ッチ・エンベロープ処理と、ホワイトノイズを発生させ
るノイズ生成処理と、イントネーションを発生させるイ
ントネーション発生処理と、アクセントを発生させるア
クセント発生処理と、ポーズを発生させるポーズ生成処
理とを選択的に実行するものであることが好ましい。

【００１４】本発明の１つの実施態様においては、上述
の発声手段から出力される音声データを圧縮する音声デ
ータ圧縮手段と、この音声データ圧縮手段によって圧縮
された音声データを記憶する圧縮データ記憶手段と、あ
らかじめ記憶されている基準音声圧縮データ又は上述の
圧縮データ記憶手段に記憶されている圧縮データを伸張
・再生し、この再生データを前述の発声手段へ送る音声
圧縮データ再生手段とを備えている。

【００１５】本発明によれば、さらに、登録声紋データ
と各音素毎の基準音素パターン及び基準音素長を予め記
憶している手段と、歌い手からの入力音声データを音声
認識して音素に分解する手段と、この分解した各音素毎
の音声波形の音程及び音素長を記憶手段に記憶させ、各
音素を登録声紋データの音素パターンに置換するように
修正し、修正した各音声波形を結合する修正手段と、こ
の修正手段から得られる音声波形データに基づいて音声
を発声させる発声手段とを備えた音声発声装置が提供さ
れる。

【００１６】

【作用】歌い手からの入力音声データは、音声認識され
て歌詞のフレーズ抽出が行われ音素に分解される。分解
された各音素毎の音声波形の音程及び音素長が基準音程
及び基準音素長とそれぞれ比較される。両者が互いに異
なる場合は入力音声データに関する各音声波形の周波
数、長さを基準音程及び／又は基準音素長に修正した
後、結合する。このようにして得られた音声波形データ
に基づいて音声の再生が行われる。このように、歌い手
の音声を認識して基準音程及び音素長データからはずれ
ている部分のみを修正しメロディーに合わせて音声を再
生しているので、歌い手の音質を変えることなく正しい
音程やリズムの音声を再生することができる。

【００１７】

【実施例】以下図面を用いて本発明の実施例を詳細に説
明する。

【００１８】図２は本発明の音声発声装置の一実施例の
全体構成を概略的に示すブロック図である。

【００１９】同図に示すように、マイクロフォン１は、
フィルタ２、サンプル・ホールド回路３及びＡ／Ｄ変換
回路４を介してコンピュータ回路及び／又はＤＳＰ回路
に接続されている。図２においてこのコンピュータ回路
及び／又はＤＳＰ回路は、音声認識部５、移調操作部
６、音声修正部７、音声編集部８、音声データ発声部１
０、音声データ圧縮部１６、圧縮音声データ再生部１
７、内部メモリ１８、基準データ格納部９、及び外部記
憶媒体部１５として表されている。

【００２０】内部メモリ１８は、コンピュータ回路及び
／又はＤＳＰ回路に入力されたデジタル信号を一時的に
記憶するように構成されている。音声認識部５は、音声
データのパターンマッチング処理を行って歌詞のフレー
ズを抽出しさらに音素分解データを抽出するように構成
されている。移調操作部６は、音声認識部５で検出した
音声データのピッチ周期から歌い手の音域を測定しこの
音域が基準データ格納部９にあらかじめ格納されている
その楽曲の音域データ９ｉ（図１１参照）と異なる場合
は楽曲の音域を移調して音域一致を図るように構成され
ている。

【００２１】音声修正部７は、音声認識部５及び移調操
作部６からのデータ並びに基準データ格納部９にあらか
じめ格納されている基準音素音程データ９ｍ及び基準音
素長データ９ｈ（図１１参照）に基づいて音声データの
各音素の母音及び子音の音程修正と音素長修正とを行う
ように構成されている。音声編集部８は、音声修正部７
によって修正された音声波形データを基準データ格納部
９にあらかじめ格納されている基準音声編集データ９ｊ
（図１１参照）を基にして編集するように構成されてい
る。音声データ発声部１０は、編集された音声データを
基準データ格納部９にあらかじめ格納されている音声発
声タイミングデータ９ｄ（図１１参照）を基にしたタイ
ミングで出力するように構成されている。

【００２２】コンピュータ回路及び／又はＤＳＰ回路の
出力には、Ｄ／Ａ変換回路１１、フィルタ１２及びパワ
ーアンプ１３を介してスピーカ１４が接続されている。

【００２３】コンピュータ回路及び／又はＤＳＰ回路の
音声データ圧縮部１６は、音声データ発声部１０から出
力された音声データを圧縮し、内部メモリ１８又は外部
記憶媒体部１５に格納するように構成されている。圧縮
音声データ再生部１７は、必要に応じて、基準データ格
納部９にあらかじめ記憶されている基準圧縮音声データ
９ｋ（図１１参照）又は音声データ圧縮部１６によって
圧縮され記憶されている音声データを再生し、その再生
データを音声データ発声部１０へ出力できるように構成
されている。

【００２４】図１は図２の音声発声装置の動作を説明す
るためのフローチャートである。

【００２５】マイクロフォン１を介して歌い手の音声信
号が入力されると（ステップ１０１）、この音声信号は
フィルタ２においてそのエイリアス成分がカットされて
（ステップ１０２）サンプル・ホールド回路３に印加さ
れる。サンプル・ホールド回路３によってサンプリング
された（ステップ１０３）音声信号は、Ａ／Ｄ変換回路
４によってデジタル信号に変換されて（ステップ１０
４）コンピュータ回路及び／又はＤＳＰ回路に入力され
る。

【００２６】コンピュータ回路及び／又はＤＳＰ回路に
入力されたデジタル信号は、ステップ１０５において音
声認識処理されることにより、歌詞のフレーズが抽出さ
れて音素分解データが抽出される。次いでステップ１０
６において、基準データ格納部９にあらかじめ格納され
ている音声発声タイミングデータ９ｄ（図１１参照）と
比較することによりテンポの判定が行われる。テンポが
合っていればステップ１０７へ進み、合っていない場合
はステップ１０８へ進む。

【００２７】ステップ１０７では、音声認識によって得
た音声データのピッチ周期から歌い手の音域を測定し、
この音域が基準データ格納部９にあらかじめ格納されて
いるその楽曲の音域データ９ｉ（図１１参照）と合って
いるかどうか判定する。音域が合っている場合はステッ
プ１１１へ進み、合っていない場合はステップ１０９へ
進んでその楽曲の音域を移調する。

【００２８】ステップ１１１では、各音素毎の音声波形
の音程が基準データ格納部９にあらかじめ格納されてい
る基準音素音程データ９ｍ及び基準音素長データ９ｈ
（図１１参照）による基準音程（移調が行われた場合は
これを移調した音程）と合っているかどうか判定する。
音程が合っている場合はステップ１２４へ進み、合って
いない場合はステップ１１５へ進む。ステップ１１５で
はその音程を基準音程に一致させるべくその音声波形の
周波数修正を行い、次のステップ１１９では基準データ
格納部９にあらかじめ格納されている基準音声編集デー
タ９ｊ（図１１参照）に基づいて音声データの編集を行
った後、ステップ１２４へ進む。

【００２９】ステップ１０９において移調を行った場合
も、ステップ１１１、１１５及び１１９と全く同じ動作
を、ステップ１１２、１１６及び１２０においてそれぞ
れ行った後、ステップ１２４へ進む。

【００３０】テンポが合っていないとしてステップ１０
８へ進んだ場合も、ステップ１０７、１０９、１１１、
１１２、１１５、１１６、１１９及び１２０と全く同じ
動作を、ステップ１０８、１１０、１１３、１１４、１
１７、１１８、１２１及び１２２においてそれぞれ行っ
た後、ステップ１２３へ進む。ステップ１２３では、基
準データ格納部９にあらかじめ格納されている音声発声
タイミングデータ９ｄ（図１１参照）により音声データ
の出力タイミングを修正した後、ステップ１２４へ進
む。

【００３１】ステップ１２４では、音声データが適正な
テンポで音声データ発声部１０から出力される。このよ
うに、コンピュータ回路及び／又はＤＳＰ回路の音声デ
ータ発声部１０から出力されたデジタル音声信号は、Ｄ
／Ａ変換回路１１においてアナログ信号に変換される
（ステップ１２５）。このアナログ信号は、音声信号と
混変調したり高周波雑音となって外部へ悪影響を及ぼす
恐れのある可聴帯域外のイメージノイズを除去するフィ
ルタ１２に印加されて高域がカットされる（ステップ１
２６）。フィルタ１２から出力される音声信号は、パワ
ーアンプ１３において増幅され（ステップ１２７）スピ
ーカ１４に送り込まれて音声出力される（ステップ１２
８）。

【００３２】図３は図２における音声認識部５の構成例
を示すブロック図であり、図４はこの音声認識部５の動
作例を説明するためのフローチャートである。以下これ
らの図を用いてこの音声認識部５について詳しく説明す
る。

【００３３】音声認識部５にデジタル信号が入力される
と、まず、音声抽出処理５ａによって音声部分のみの抽
出が行われる（ステップ５０１）。次いで、フーリエス
ペクトル処理５ｂによって音声波形の周波数分析が行わ
れる（ステップ５０２）。次にケプストラム処理５ｃに
よってケプストラム生成を行い（ステップ５０３）、フ
レーム生成処理５ｄでスペクトル包絡を求めて短時間ス
ペクトルのフレームを生成する（ステップ５０４）。ピ
ッチ周期検出処理５ｅでは、ケプストラムのケフレンシ
の鋭いピークから音声の基本周期を検出する（ステップ
５０５）。次にホルマント周波数検出処理５ｆによって
スペクトル包絡のピークから音声認識の判定基準となる
共振周波数を検出する（ステップ５０６）。声紋データ
生成処理５ｇでは、フレーム生成処理５ｄで求めたフレ
ームから声紋データを求める（ステップ５０７）。

【００３４】パターンマッチング処理５ｈは、フレーム
データ又は声紋データと基準音声パターンデータ又は基
準声紋データとをパターンマッチングさせて歌い手の音
声のフレーズを抽出し、さらに歌い手の発声した歌詞の
チェックを行って間違っている場合はこれを修正、追加
するものであり、例えば、図４のステップ５０８〜５１
３で実行される。

【００３５】図４の例では、まずステップ５０８におい
て、基準データ格納部９にあらかじめ格納されている基
準声紋データ９ｅ（図１１参照）を読み出し、これをス
テップ５０７で求めた声紋データと比較する（ステップ
５０９）。パターンが合えばステップ５１２へ進んでフ
レーズ終了かどうかの判定を行う。フレーズ終了でなけ
れば再びステップ５０９の声紋比較を行う。パターンが
マッチしない場合は、ステップ５１０へ進んで歌い手の
声紋データを基準声紋データに基づいて修正し、ステッ
プ５１１で声紋修正データを追加又は変更してステップ
５１２へ進む。次のステップ５１３では、このように修
正、追加した声紋データを内部メモリ１８に記憶する。

【００３６】セグメンテーション処理５ｉは、単語を音
素毎の子音と母音とに分解するものであり、図４のステ
ップ５１４〜５１８で実行される。まずステップ５１４
において、基準データ格納部９にあらかじめ格納されて
いる基準音素分解データ９ｇ（図１１参照）を読み出
し、これと抽出されたフレーズの音素との比較を行い
（ステップ５１５）、音素が合っていればステップ５１
７へ進んでフレーズ終了かどうかの判定を行う。フレー
ズ終了でなければ再びステップ５１５の音素比較を行
う。音素が合っていない場合は、ステップ５１６へ進ん
で音素修正を行う。フレーズ終了の場合は、ステップ５
１８においてその分解した音素データを内部メモリ１８
に記憶する。

【００３７】音声認識部で使われる音声分析・音声認識
については、秋葉出版の「コンピュータ音声処理」
（「音声分析」第３章記載、「音声認識」第４章記載
（安居院猛・中島正之共著））、オーム社の「音声・聴
覚と神経回路網モデル」（「音声分析」２４頁から３６
頁記載、「音声認識」４９頁から６６頁記載（甘利俊一
監修・中川聖一・鹿野清宏・東倉洋一共著））、近代科
学社の「音響・音声工学」（「音声分析」１１３頁から
１４１頁記載、「音声認識」１７４頁から２１９頁記載
（古井貞煕著））等の文献に述べられているように、さ
まざまな方式が知られており、本実施例では各方式を用
いることができる。

【００３８】図５は図２における移調操作部６の構成例
を示すブロック図であり、図６はこの移調操作部６の動
作例を説明するためのフローチャートである。以下これ
らの図を用いてこの移調操作部６について詳しく説明す
る。

【００３９】音域測定処理６ａは、音声認識部のピッチ
周期検出処理５ｅで抽出したピッチ周期からピッチ周波
数を検出することにより歌い手の発声した音声の全音程
を測定する（ステップ６０１）。移調処理６ｂは、測定
された音域と基準データ格納９にあらかじめ格納されて
いる楽曲音域データ９ｉ（図１１参照）とを比較し（ス
テップ６０２）、その曲の音域が歌い手の音域にない場
合のみその歌い手の音域に合わせてその曲の音域設定を
行い（ステップ６０３）、移調処理を行う（ステップ６
０４）。その後、移調判定結果及び移調データを内部メ
モリ１８へ記憶する（ステップ６０５）。

【００４０】図７は図２における音声修正部７の構成例
を示すブロック図であり、図８はこの音声修正部７の動
作例を説明するためのフローチャートである。以下これ
らの図を用いてこの音声修正部７について詳しく説明す
る。

【００４１】音声修正部７においては、音声認識部５及
び移調操作部６から入力されたデータを用い、歌い手の
音声を音素に分解した音素分解データから子音部分の音
声波形と母音部分の音声波形とをそれぞれ抽出し、各音
声波形の周波数、長さ及び振幅を調節することにより、
楽譜通りの音程及び音素長を有するフレーズに修正す
る。

【００４２】まず、図８のステップ７０１において、そ
のデータが母音部分であるか子音部分であるかの判定を
行う。母音部分の場合はステップ７０２へ進んでその音
程が基準データ格納部９にあらかじめ格納されている基
準音素音程データ９ｍ及び基準音素長データ９ｈ（図１
１参照）による基準音程（移調処理がされている場合は
これを移調した音程）と合っているかどうか判定する。
音程が合っている場合はステップ７０６へ進み、合って
いない場合はステップ７０４へ進む。このステップ７０
４では母音音程修正処理７ａにより母音部分の音声波形
の周波数を基準音程（又はこれを移調した音程）に修正
する。ステップ７０６では音素長が基準データ格納部９
にあらかじめ格納されている基準音素音程データ９ｍ及
び基準音素長データ９ｈ（図１１参照）による基準音素
長に合っているかどうか判定する。音素長が合っている
場合はステップ７１０へ進み、合っていない場合はステ
ップ７０８へ進む。このステップ７０８では音声音素長
修正処理７ｂにより母音部分の音声波形を基準音素長に
修正する。ステップ７０７及び７０９の処理内容は、上
述したステップ７０６及び７０８の処理内容と全く同じ
である。

【００４３】ステップ７０１において子音部分であると
判定した場合は、ステップ７０３へ進みその音程が基準
データ格納部９にあらかじめ格納されている基準音素音
程データ９ｍ及び基準音素長データ９ｈ（図１１参照）
による基準音程（移調処理がされている場合はこれを移
調した音程）と合っているかどうか判定する。音程が合
っている場合はステップ７１０へ進み、合っていない場
合はステップ７０５へ進む。このステップ７０５では子
音音程修正処理７ｃにより子音部分の音声波形を基準音
程（又はこれを移調した音程）に修正する。

【００４４】ステップ７１０では、フレーズ終了かどう
かの判定を行う。フレーズ終了でなければ再びステップ
７０１の母音部分であるか子音部分であるかの判定を行
い、以降の処理を繰り返す。フレーズ終了の場合は、音
素結合処理７ｄにより母音音程修正データ、母音音素長
修正データ、子音音程修正データ、又は無修正の母音若
しくは子音を互いに結合することによって、楽譜通りの
音程及び音素長を有するフレーズを得る。次のステップ
７１１では、このようにして得たフレーズ修正データを
内部メモリ１８に記憶する。

【００４５】図９は図２における音声編集部８の構成例
を示すブロック図であり、図１０はこの音声編集部８の
動作例を説明するためのフローチャートである。以下こ
れらの図を用いてこの音声編集部について説明する。

【００４６】音声編集部８は、音声修正部７で修正され
た音声データについて、基準データ格納部９にあらかじ
め格納している基準音声編集データ９ｊを用いてリズム
を付加させる。編集機能としては、音声波形の振幅を時
間的に変化させるエンベロープ処理８ａ（ステップ８０
１及び８０２）、音程を微妙に変化させてビブラートを
発生させるビブラート処理８ｂ（ステップ８０３及び８
０４）、音量を周期的に変化させるトレモロ処理８ｃ
（ステップ８０５及び８０６）、音色を周期的に変化さ
せるゴロウル処理８ｄ（ステップ８０７及び８０８）、
音程を時間的に変化させるピッチ・エンベロープ処理８
ｅ（ステップ８０９及び８１０）、ホワイトノイズを発
生させるノイズ生成処理８ｆ（ステップ８１１及び８１
２）、イントネーションを発生させるイントネーション
発生処理８ｇ（ステップ８１３及び８１４）、アクセン
トを発生させるアクセント発生処理８ｈ（ステップ８１
５及び８１６）、及びポーズを発生させるポーズ生成処
理８ｉ（ステップ８１７及び８１８）があり、これらを
選択的に実行する。ステップ８１９ではこれらの音声編
集終了を判定し、終了でない場合はステップ８０１に戻
って以降の処理を繰り返す。終了の場合はステップ８２
０で編集した音声データを内部メモリ１８に記憶する。

【００４７】音声編集部で使われる音声合成について
は、秋葉出版の「コンピュータ音声処理」（「音声合
成」第２章記載（安居院猛・中島正之共著））、オーム
社の「音声・聴覚と神経回路網モデル」（「音声合成」
３６頁から４０頁記載（甘利俊一監修・中川聖一・鹿野
清宏・東倉洋一共著））、近代科学社の「音響・音声工
学」（「音声合成」１６１頁から１７３頁（古井貞煕
著））等の文献に述べられているように、さまざまな方
式が知られており、本実施例では各方式を用いることが
できる。

【００４８】図１１は図２における基準データ格納部９
の構成例を示すブロック図である。

【００４９】この基準データ格納部９は、音声認識部
５、移調操作部６、音声修正部７、音声編集部８、音声
データ発声部１０、音声データ圧縮部１６、及び圧縮音
声データ再生部１７において処理を実行するときに必要
な基準データをあらかじめ格納しているメモリ領域であ
る。基準データとしては、曲名データ９ａ、伴奏データ
９ｂ、メロディデータ９ｃ、音声発声タイミングデータ
９ｄ、基準声紋データ９ｅ、基準音声パターンデータ９
ｆ、基準音素分解データ９ｇ、基準音素長データ９ｈ、
楽曲音域データ９ｉ、基準音声編集データ９ｊ、基準圧
縮音声データ９ｋ、登録声紋データ９ｌ、及び基準音素
音程データ９ｍが格納されている。

【００５０】以上の実施例の動作を要約して説明する。
伴奏データ９ｂにより自動演奏される楽曲に合わせて歌
い手が歌った音声がＡ／Ｄ変換によりデジタル信号とさ
れててコンピュータ回路及び／又はＤＳＰ回路に入力さ
れると、これが記憶されかつ音声認識される。まず、音
声抽出処理によって音声の部分のみを抽出し、処理対象
のみのデータ得る。次いで、スペクトル処理によって周
波数分布を知り、ケプストラム処理によってスペクトラ
ム包絡及びピッチ周期の抽出ができる。次のパターンマ
ッチング処理によって、歌い手の音声パターンと基準音
声パターンデータとをパターンマッチングさせることに
より各フレーズを認識することができる。次いで、セグ
メンテーション処理によって、歌い手の音声を音素単位
に分解することができる。

【００５１】また、音声波をピッチ抽出することによっ
て各音素毎の音階を測定でき、このようにして測定した
歌い手の音域幅に合わせて曲の音域を移調することがで
き、これ以降、移調した音程で修正及び編集することが
できるようになる。セグメンテーション処理で音素を分
解したデータに基づいて得た子音及び母音の周波数を変
えることによって音程を変えることができ、また、母音
の長さを基準音素長に従った所定の長さに修正すること
によって楽譜通りの音素長とすることができる。このよ
うにして修正した母音と子音とを結合することによっ
て、楽譜通りの音程かつ音素長のフレーズを生成するこ
とができる。

【００５２】このようにして修正された音声データを音
声編集することにより、音声にビブラート、トレモロ、
エンベロープ、イントネーション、アクセント等を与え
ることができる。編集済のデータを発声タイミングに合
わせて出力することにより、適切なテンポで歌声を発声
することができる。

【００５３】このように、音程やテンポがたとえ狂った
場合にも、歌い手自身の音質で正しい音程及びテンポを
有する音声が出力されるから、正しく歌う練習を容易に
行うことができる。特に、正しい音程やテンポを取るこ
とが得意ではない歌い手や幼児にとっても歌練習を容易
に行える。また、イントネーション処理、及びアクセン
ト処理を利用することにより、外国語等の言語練習にも
使用することができる。

【００５４】次に、本発明に係る音声発生装置の第２の
実施例について、図２の全体的な構成の概略図を基に説
明する。

【００５５】マイクロフォン１を介して歌い手の音声信
号が入力されると、この音声信号はフィルタ２において
そのエイリアス成分がカットされてサンプル・ホールド
回路３に印加される。サンプル・ホールド回路３によっ
てサンプリングされた音声信号は、Ａ／Ｄ変換回路４に
よってデジタル信号に変換されてコンピュータ回路及び
／又はＤＳＰ回路に入力される。

【００５６】コンピュータ回路及び／又はＤＳＰ回路に
入力されたデジタル信号は、内部メモリ１８に一時的に
記憶されて音声認識部５へ送られる。この音声認識部５
において、スペクトル包絡・ピッチ周期・ホルマント周
波数・声紋データ・音素分解データが求められ、音声修
正部７へ信号が送られる。

【００５７】次に、この音声修正部７において、基準デ
ータ格納部９より登録声紋データ９ｌが読み取られる。
この音声修正部７では、登録声紋データに基づいて母
音、子音の音程修正及び音素長の修正が実行され、上述
の所定の登録声紋データに音声パターンが入れ換えら
れ、音声修正されたデータが内部メモリ１８に記録され
る。

【００５８】次に、音声編集部８では、音声波形を基準
音声編集データ９ｊに基づいて編集が行われる。この音
声編集データは、音声データ発声部１０より基準データ
格納部９に格納されている音声発声タイミングデータ９
ｄに基づいて音声データが出力される。

【００５９】音声データ圧縮部１６は、音声データ発声
部１０から出力された音声データを圧縮し、内部メモリ
１８又は外部記憶媒体部１５に格納するように構成され
ている。圧縮音声データ再生部１７は、必要に応じて、
基準データ格納部９にあらかじめ記憶されている基準圧
縮音声データ９ｋ（図１１参照）又は音声データ圧縮部
１６によって圧縮され記憶されている音声データを再生
し、その再生データを音声データ発声部１０へ出力でき
るように構成されている。

【００６０】音声データ発声部１０から出力されたデジ
タル音声信号は、Ｄ／Ａ変換回路１１においてアナログ
信号に変換される。このアナログ信号は、音声信号と混
変調したり高周波雑音となって外部へ悪影響を及ぼす恐
れのある可聴帯域外のイメージノイズを除去するフィル
タ１２に印加されて高域がカットされる。フィルタ１２
から出力される音声信号は、パワーアンプ１３において
増幅されスピーカ１４に送り込まれて音声出力される。

【００６１】以上述べた実施例は全て本発明を例示的に
示すものであって限定的に示すものではなく、本発明は
他の種々の変形態様及び変更態様で実施することができ
る。従って本発明の範囲は特許請求の範囲及びその均等
範囲によってのみ規定されるものである。

【００６２】

【発明の効果】以上詳細に説明したように本発明では、
各音素毎の基準音程及び基準音素長をあらかじめ記憶し
ている記憶手段と、歌い手からの入力音声データを音声
認識して音素に分解する手段と、この分解した各音素毎
の音声波形の音程及び音素長を記憶手段に記憶されてい
る対応する基準音程及び基準音素長とそれぞれ比較し、
両者の音程及び／又は音素長が互いに異なる場合は各音
声波形を基準音程及び／又は基準音素長に修正し、修正
した各音声波形を結合する修正手段と、この修正手段か
ら得られる音声波形データに基づいて音声を発声させる
発声手段とを備えている。このように、歌い手の音声を
認識して基準音程及び音素長データからはずれている部
分のみを周波数変化させるなどして修正しメロディーに
合わせて音声を再生しているので、歌い手の音質を変え
ることなく正しい音程やリズムの音声を再生することが
でき、従って、正しい音程やテンポを取ることが得意で
はない者であっても正しく歌う練習を容易に行うことが
できる。

【００６３】また、歌い手あるいは基準音声データなど
は音素レベルまで分解又は格納されているので、基準デ
ータ格納部に格納されている又は外部記録媒体より読み
込んだ登録声紋データに基づいて、歌い手若しくは基準
音声データの音声データを登録声紋データで置換させる
ように修正し、その修正した音声データを発声すること
ができるので、歌い手は自分のテンポと音程で他人の声
で発声させることが可能であり、また、基準の音声デー
タを他人の声で発声させることも可能になる。従って、
歌い手は自分のテンポと音程で他人が歌ったときどのく
らいずれているか客観的に判断できる。また、基準の音
声データを他人の声で発声させることによって、歌い手
は自分の音質に近い人が正しく歌ったときどの様に聞こ
えるかが確認でき自分にあった歌い方を見つけ出すこと
ができる。

【図面の簡単な説明】

【図１】図２の音声発声装置の動作を説明するためのフ
ローチャートである。

【図２】本発明の音声発声装置の一実施例の全体構成を
概略的に示すブロック図である。

【図３】図２における音声認識部の構成例を示すブロッ
ク図である。

【図４】図３の音声認識部の動作例を説明するためのフ
ローチャートである。

【図５】図２における移調操作部の構成例を示すブロッ
ク図である。

【図６】図５の移調操作部の動作例を説明するためのフ
ローチャートである。

【図７】図２における音声修正部の構成例を示すブロッ
ク図である。

【図８】図７の音声修正部の動作例を説明するためのフ
ローチャートである。

【図９】図２における音声編集部の構成例を示すブロッ
ク図である。

【図１０】図９の音声編集部の動作例を説明するための
フローチャートである。

【図１１】図２における基準データ格納部の構成例を示
すブロック図である。

【符号の説明】

１マイクロフォン２、１２フィルタ３サンプル・ホールド回路４Ａ／Ｄ変換回路５音声認識部６移調操作部７音声修正部８音声編集部９基準データ格納部１０音声データ発声部１１Ｄ／Ａ変換回路１３パワーアンプ１４スピーカ１５外部記憶媒体部１６音声データ圧縮部１７圧縮音声データ再生部１８内部メモリ

フロントページの続き (56)参考文献特開平４−13176（ＪＰ，Ａ) 特開平４−238384（ＪＰ，Ａ) 特開平４−81880（ＪＰ，Ａ) 特開平４−17000（ＪＰ，Ａ) 特開昭60−221786（ＪＰ，Ａ) 特開昭59−99492（ＪＰ，Ａ) 特開平３−7997（ＪＰ，Ａ) 特開平２−156471（ＪＰ，Ａ) 実開平５−43199（ＪＰ，Ｕ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 13/06

Claims

(57)【特許請求の範囲】

【請求項１】各音素毎の基準音程及び基準音素長をあ
らかじめ記憶している記憶手段と、歌い手からの入力音
声データを音声認識して音素に分解する手段と、該分解
した各音素毎の音声波形の音程及び音素長を前記記憶手
段に記憶されている対応する基準音程及び基準音素長と
それぞれ比較し、両者の音程及び／又は音素長が互いに
異なる場合は各音声波形を前記基準音程及び／又は基準
音素長に修正し、該修正した各音声波形を結合する修正
手段と、該修正手段から得られる音声波形データに基づ
いて音声を発声させる発声手段とを備えたことを特徴と
する音声発声装置。
【請求項２】歌い手からの入力音声データのピッチ周
波数を検出して該入力音声データの全音程を測定するこ
とにより歌い手の音域を測定する音域測定手段と、該音
域測定手段によって測定された歌い手の音域とその楽曲
の基準音域データと比較し、歌い手の音域が該楽曲の音
域にない場合は該楽曲の音域を移調する音域移調手段と
をさらに備えたことを特徴とする請求項１に記載の音声
発声装置。
【請求項３】前記修正手段は、分解した各音素毎の音
声波形から子音部分の音声波形及び母音部分の音声波形
を抽出する手段と、抽出した子音部分の音声波形及び母
音部分の音声波形の両方の音程を前記基準音程に修正す
る音程修正手段と、抽出した母音部分の音声波形のみの
音素長を前記基準音素長に修正する音素長修正手段とを
備えていることを特徴とする請求項１又は２に記載の音
声発声装置。
【請求項４】前記修正手段から得られた音声波形デー
タにリズムを付加して前記発声手段へ送る編集手段をさ
らに備えたことを特徴とする請求項１から３のいずれか
１項に記載の音声発声装置。
【請求項５】前記編集手段は、音声波形の振幅を時間
的に変化させるエンベロープ処理と、音程を微妙に変化
させてビブラートを発生させるビブラート処理と、音量
を周期的に変化させるトレモロ処理と、音色を周期的に
変化させるゴロウル処理と、音程を時間的に変化させる
ピッチ・エンベロープ処理と、ホワイトノイズを発生さ
せるノイズ生成処理と、イントネーションを発生させる
イントネーション発生処理と、アクセントを発生させる
アクセント発生処理と、ポーズを発生させるポーズ生成
処理とを選択的に実行するものであることを特徴とする
請求項４に記載の音声発声装置。
【請求項６】前記発声手段から出力される音声データ
を圧縮する音声データ圧縮手段と、該音声データ圧縮手
段によって圧縮された音声データを記憶する圧縮データ
記憶手段と、あらかじめ記憶されている基準音声圧縮デ
ータ又は該圧縮データ記憶手段に記憶されている圧縮デ
ータを伸張・再生し、該再生データを前記発声手段へ送
る音声圧縮データ再生手段とを備えたことを特徴とする
請求項１から５のいずれか１項に記載の音声発声装置。
【請求項７】登録声紋データと各音素毎の基準音素パ
ターン及び基準音素長をあらかじめ記憶している手段
と、歌い手からの入力音声データを音声認識して音素に
分解する手段と、該分解した各音素毎の音声波形の音程
及び音素長を前記記憶手段に記憶させ、各音素を登録声
紋データの音素パターンに置換させる様に修正し、該修
正した各音声波形を結合する修正手段と、該修正手段か
ら得られる音声波形データに基づいて音声を発声させる
発声手段とを備えたことを特徴とする音声発声装置。