JP3716725B2

JP3716725B2 - 音声処理装置、音声処理方法および情報記録媒体

Info

Publication number: JP3716725B2
Application number: JP2000258034A
Authority: JP
Inventors: 秀紀劔持; 高康近藤
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2000-08-28
Filing date: 2000-08-28
Publication date: 2005-11-16
Anticipated expiration: 2020-08-28
Also published as: JP2002073064A

Description

【０００１】
【発明の属する技術分野】
本発明は、音声処理装置、音声処理方法及び情報記録媒体に関し、特にＭＩＤＩデータから合成した歌唱音にビブラートをかける処理を行う音声処理装置及び音声処理方法、この音声処理を行うためのプログラムを記録した情報記録媒体に関する。
【０００２】
【従来の技術】
従来、トーンジェネレータにおいては、楽器音の音色情報に加えて人の声の音色情報を内蔵するものがあり、ＭＩＤＩ（Musical Instruments Digital Interface）データから演奏音や歌唱音を合成できるものがある。
また、この種のトーンジェネレータにおいては、エフェクト機能として演奏音や歌唱音の中のユーザが設定した所定位置の音（音階または音節）に対してビブラートをかけることが可能なものがある。
【０００３】
【発明が解決しようとする課題】
ところで、人の歌声や人の演奏には様々なビブラートが存在し、人のビブラートは、曲のジャンル（演歌、オペラ）や人の種類（性別、年齢など）で異なるだけでなく、人（歌唱者、演奏者）ごとに異なることによって歌声や演奏に個性が生じていると考えられる。
しかし、この種のトーンジェネレータなどの音声処理装置が行うビブラートの処理は、ＭＩＤＩデータから生成した合成音に対して一定周期でピッチ変化を付加する簡略的なものであるため、人の歌声などにある不規則なピッチ変化を伴うビブラートとは異なり、特に歌唱音の場合は機械的な（不自然な）歌声に聞こえてしまうという問題があった。
また、従来の音声処理装置では、ビブラートをかける音をユーザが個々に設定する必要があったため、作業が繁雑になるだけでなく、例え、複数種類のビブラート（ピッチ変化のパターン）があったとしても、これをユーザが適切に使い分けて自然な歌声や演奏を再現することは困難であるという問題があった。
【０００４】
本発明は、上述した事情に鑑みてなされたものであり、簡易に適切な音に適切なビブラートをかけることができ、自然な歌唱音や演奏音を再現することができる音声処理装置、音声処理方法及びこの音声処理を行うためのプログラムを記録した情報記録媒体を提供することを目的とする。
【０００５】
【課題を解決するための手段】
上述の課題を解決するため、請求項１に記載の発明は、ビブラートがかかっている、人の歌唱における音節のピッチ変化と振幅変化の情報であるビブラート情報をその音節の関連情報と対応づけて記憶する記憶手段と、
入力される歌唱音に対応する歌唱情報に対し、音の長さが所定値以上の音節、または、音階が変化する音節をビブラートをかける音節として順次特定するとともに、特定した音節の関連情報を抽出する処理対象特定手段と、
前記記憶手段に記憶された前記音節の関連情報を順次検索し、前記処理対象特定手段が特定した音節の関連情報と同一または類似の音節の関連情報を選択する選択手段と、
前記選択手段により選択された前記音節の関連情報に対応づけられた前記ビブラート情報に基づいて、前記処理対象特定手段が特定した音節に対してビブラートをかける処理を順次行って前記歌唱情報に対応する音声信号を生成する音声処理手段と、
前記音声処理手段により生成された前記音声信号を出力する出力手段とを備えることを
を特徴とする。
また、請求項２に記載の発明は、請求項１に記載の音声処理装置において、前記選択手段は、前記記憶手段に記憶された前記音節の関連情報と、前記処理対象特定手段が特定した音節の関連情報との類似度を計算し、前記記憶手段に記憶された前記音節の関連情報の中から前記類似度がもっとも高い音節の関連情報を前記同一または類似の音節の関連情報として選択することを特徴とする。
また、請求項３に記載の発明は、請求項１または２に記載の音声処理装置において、人の歌唱音の情報からビブラートがかかっている音節のピッチ変化と振幅変化の情報であるビブラート情報を抽出する抽出手段と、
前記ビブラートがかかっている音節の関連情報を前記人の歌唱音の情報から取得し、前記抽出したビブラート情報と対応づけて前記記憶手段に記憶させるビブラート情報作成手段とをさらに有することを特徴とする。
また、請求項４に記載の発明は、請求項１ないし３のいずれかに記載の音声処理装置において、前記音節の関連情報は、当該音節と、前記人の歌唱音における少なくとも当該音節の前または後ろの音節、当該音節に対応する音階、当該音節の前または後ろの音節に対応する音階、当該音節の長さ、歌唱曲のジャンル、歌唱者の情報のうち１以上を含む情報であることを特徴とする。
請求項５に記載の発明は、請求項１ないし４のいずれかに記載の音声処理装置において、前記歌唱情報は、ＭＩＤＩデータであることを特徴とする。
請求項６に記載の発明は、請求項１ないし５のいずれかに記載の音声処理装置において、前記記憶手段には、さらに人の歌唱音の歌い出しや歌い終わり、音韻間におけるピッチ変化の情報である他の変化情報がその音節の関連情報と対応づけて記憶され、
前記処理対象特定手段は、さらに、前記歌唱情報に対し歌い出しや歌い終わりの音節、及び音韻を変化させる音節を特定し、
前記音声処理手段は、前記選択手段により選択された前記音節の関連情報に対応づけられた前記他の変化情報に基づいて、前記処理対象特定手段が特定した音節に対してピッチ変化と振幅変化をかける処理を行って前記歌唱情報に対応する音声信号を生成する
ことを特徴とする。
請求項７に記載の発明は、人の歌唱音の情報からビブラートがかかっている音節のピッチ変化と振幅変化の情報であるビブラート情報を抽出する抽出手段と、
当該音節の前または後ろの音節、
当該音節に対応する音階、
当該音節の前または後ろの音節に対応する音階、
当該音節の長さ、
歌唱曲のジャンル、
および歌唱者の情報のうちの１以上と、
前記人の歌唱音の情報から取得した前記ビブラートがかかっている音節とを含む情報である関連情報に、
前記抽出したビブラート情報を対応づけてビブラートデータベースを作成するビブラート情報作成手段とを備えることを特徴とする。
また、請求項８に記載の発明は、請求項７に記載の音声処理装置において、前記抽出手段は、前記人の歌唱音の歌い出しや歌い終わり、音韻間におけるピッチ変化の情報である他の変化情報をさらに抽出し、
前記抽出手段が前記他の変化情報を抽出した音節の関連情報を少なくとも前記人の歌唱音の情報から取得し、前記音節の他の変化情報と対応づける他の変化情報作成手段と
を備えることを特徴とする。
請求項９に記載の発明は、ビブラートがかかっている、人の演奏した楽音における音階のピッチ変化と振幅変化の情報であるビブラート情報をその音階の関連情報と対応づけて記憶する記憶手段と、
入力される演奏音に対応する演奏情報に対し音の長さが所定値以上の音階を特定することによりビブラートをかける音階を順次特定する処理対象特定手段と、
前記記憶手段に記憶された前記音階の関連情報を順次検索し、前記処理対象特定手段が特定した音階の関連情報と同一または類似の音階の関連情報を選択する選択手段と、前記選択手段により選択された前記音階の関連情報に対応づけられた前記ビブラート情報に基づいて、前記処理対象特定手段が特定した音階に対してビブラートをかける処理を順次行って前記演奏情報に対応する音声信号を生成する音声処理手段と、前記音声処理手段により生成された前記音声信号を出力する出力手段とを備えることを特徴とする。
請求項１０に記載の発明は、請求項９に記載の音声処理装置において、前記選択手段は、前記記憶手段に記憶された前記音階の関連情報と、前記処理対象特定手段が特定した音階の関連情報との類似度を計算し、前記記憶手段に記憶された前記音階の関連情報の中から前記類似度がもっとも高い音階の関連情報を前記同一または類似の音階の関連情報として選択することを特徴とする。
請求項１１に記載の発明は、請求項９または１０に記載の音声処理装置において、人の演奏音の情報からビブラートがかかっている音階のピッチ変化と振幅変化の情報であるビブラート情報を抽出する抽出手段と、前記ビブラートがかかっている音階の関連情報を前記人の演奏音の情報から取得し、前記抽出したビブラート情報と対応づけて前記記憶手段に記憶させるビブラート情報作成手段とをさらに有することを特徴とする。
請求項１２に記載の発明は、請求項９ないし１１のいずれかに記載の音声処理装置において、前記音階の関連情報は、当該音階と、前記人の演奏音における少なくとも当該音階の前または後ろの音階、当該音階の長さ、演奏曲のジャンル、演奏者の情報、楽器の情報のうち１以上を含む情報であることを特徴とする。
また、請求項１３に記載の発明は、請求項９ないし１２のいずれかに記載の音声処理装置において、前記演奏情報は、ＭＩＤＩデータであることを特徴とする。
また、請求項１４に記載の発明は、請求項９ないし１３のいずれかに記載の音声処理装置において、前記記憶手段には、さらに、人の演奏音の弾き始めや弾き終わり、音階間におけるピッチ変化の情報である他の変化情報がその音階の関連情報と対応づけて記憶され、
前記処理対象特定手段は、さらに、前記演奏情報に対し弾き始めや弾き終わりの音階を特定し、
前記音声処理手段は、前記選択手段により選択された前記音節の関連情報に対応づけられた前記他の変化情報に基づいて、前記処理対象特定手段が特定した音階に対してピッチ変化と振幅変化をかける処理を行って前記歌唱情報に対応する音声信号を生成する
ことを特徴とする。
請求項１５に記載の発明は、人の演奏音の情報からビブラートがかかっている音階のピッチ変化と振幅変化の情報であるビブラート情報を抽出する抽出手段と、
当該音階の前または後ろの音階、
当該音階の長さ、
演奏曲のジャンル、
および演奏者の情報、
楽器の情報のうちの１以上と、
前記人の演奏音の情報から取得した前記ビブラートがかかっている音階とを含む情報である関連情報に、
前記抽出したビブラート情報を対応づけてビブラートデータベースを作成するビブラート情報作成手段と
を備えることを特徴とする。
請求項１６に記載の発明は、請求項１５に記載の音声処理装置において、前記抽出手段は、前記人の演奏音の弾き始めや弾き終わり、音階間におけるピッチ変化の情報である他の変化情報をさらに抽出し、
前記抽出手段が前記他の変化情報を抽出した音階の関連情報を少なくとも前記人の演奏音の情報から取得し、前記音階の他の変化情報と対応づける他の変化情報作成手段と
を備えることを特徴とする。
請求項１７に記載の発明は、請求項１ないし１６のいずれかに記載の音声処理装置において、前記ビブラート情報は、ベクトル量子化されて記憶されたことを特徴とする。
【０００６】
また、請求項１８に記載の発明は、入力される歌唱音に対応する歌唱情報に対し音の長さが所定値以上の音節または、音階が変化する音節をビブラートをかける音節として順次特定する処理対象特定ステップと、
ビブラートがかかっている、人の歌唱音における音節のピッチ変化と振幅変化の情報であるビブラート情報をその音節の関連情報と対応づけて記憶する記憶部の前記音節の関連情報を順次検索し、前記処理対象特定ステップにおいて特定された音節の関連情報と同一または類似の音節の関連情報を選択する選択ステップと、前記選択ステップにおいて選択された前記音節の関連情報に対応づけられた前記ビブラート情報に基づいて、前記特定した音節に対してビブラートをかける処理を順次行って前記歌唱情報に対応する音声信号を生成する音声処理ステップと、前記音声処理ステップにおいて処理された前記音声信号を出力する出力ステップとを備えることを特徴とする。
請求項１９に記載の発明は、請求項１８に記載の音声処理方法において、前記歌唱情報に対し歌い出しや歌い終わりの音節、及び音韻間が変化する音節を順次特定する第２の処理対象特定ステップと、
人の歌唱音の歌い出しや歌い終わり、音節間におけるピッチ変化である他の変化情報をその音節の関連情報と対応づけて記憶する記憶部の前記音節の関連情報の中から前記第２の処理対象ステップにおいて特定された音節の関連情報と同一または類似の音節の関連情報を順次検索し、その中からいずれか一つを選択する第２の選択ステップと、
前記第２の選択ステップにおいて選択された前記音節の関連情報に対応づけられた前記他の変化情報に基づいて、前記特定した音節に対してピッチ変化をかける処理を行って前記歌唱情報に対応する音声信号を生成する第２の音声処理ステップとを有し、
前記出力ステップは、前記音声処理ステップと前記第２の音声処理ステップにおいて処理された前記音声信号を出力することを特徴とする。
また、請求項２０に記載の発明は、入力される演奏音に対応する演奏情報に対し音の長さが所定値以上の音階を順次特定する処理対象特定ステップと、
ビブラートがかかっている、人の演奏音における音階のピッチ変化と振幅変化の情報であるビブラート情報をその音階の関連情報と対応づけて記憶する記憶部の前記音階の関連情報を順次検索し、前記処理対象特定ステップにおいて特定された音階の関連情報と同一または類似の音階の関連情報を選択する選択ステップと、
前記選択ステップにおいて選択された前記音階の関連情報に対応づけられた前記ビブラート情報に基づいて、前記特定した音階に対してビブラートをかける処理を順次行って前記演奏情報に対応する音声信号を生成する音声処理ステップと、前記音声処理ステップにおいて処理された前記音声信号を出力する出力ステップとを備えることを特徴とする。
また、請求項２１に記載の発明は、請求項２０に記載の音声処理方法において、前記演奏情報に対し弾き始めや弾き終わりの音階を順次特定する第２の処理対象ステップと、
人の演奏音の弾き始めや弾き終わり、音階間におけるピッチ変化と振幅変化の情報である他の変化情報をその音階の関連情報と対応づけて記憶する記憶部の前記音階の関連情報の中から前記第２の処理対象ステップにおいて特定された音階の関連情報と同一または類似の音階の関連情報を順次検索し、その中からいずれか一つを選択する第２の選択ステップと、
前記第２の選択ステップにおいて選択された前記音階の関連情報に対応づけられた前記他の変化情報に基づいて、前記特定した音階に対してピッチ変化と振幅変化をかける処理を行って前記演奏情報に対応する音声信号を生成する第２の音声処理ステップとを有し、
前記出力ステップは、前記音声処理ステップと前記第２の音声処理ステップにおいて処理された前記音声信号を出力することを特徴とする。
【０００７】
また、請求項２２に記載の発明は、入力される歌唱音に対応する歌唱情報に対し音の長さが所定値以上の音節または、音階が変化する音節をビブラートをかける音節として順次特定する処理対象特定ステップと、
ビブラートがかかっている、人の歌唱音における音節のピッチ変化と振幅変化の情報であるビブラート情報をその音節の関連情報と対応づけて記憶する記憶部の前記音節の関連情報を順次検索し、前記処理対象特定ステップにおいて特定された音節の関連情報と同一または類似の音節の関連情報を選択する選択ステップと、前記選択ステップにおいて選択された前記音節の関連情報に対応づけられた前記ビブラート情報に基づいて、前記特定した音節に対してビブラートをかける処理を順次行って前記歌唱情報に対応する音声信号を生成する音声処理ステップと、前記音声処理ステップにおいて処理された前記音声信号を出力する出力ステップとを備える音声処理プログラムが記録されたことを特徴とする。
請求項２３に記載の発明は、入力される演奏音に対応する演奏情報に対し音の長さが所定値以上の音階をビブラートをかける音階として順次特定する処理対象特定ステップと、
ビブラートがかかっている、人の演奏音における音階のピッチ変化と振幅変化の情報であるビブラート情報をその音階の関連情報と対応づけて記憶する記憶部の前記音階の関連情報を順次検索し、前記処理対象特定ステップにおいて特定された音階の関連情報と同一または類似の音階の関連情報を選択する選択ステップと、
前記選択ステップにおいて選択された前記音階の関連情報に対応づけられた前記ビブラート情報に基づいて、前記特定した音階に対してビブラートをかける処理を順次行って前記演奏情報に対応する音声信号を生成する音声処理ステップと、
前記音声処理ステップにおいて処理された前記音声信号を出力する出力ステップとを備える音声処理プログラムが記録されたことを特徴とする情報記録媒体。
請求項２４に記載の発明は、音節のビブラート情報と音節の関連情報を記録した情報記録媒体であって、前記音節のビブラート情報には、
当該音節の前または後ろの音節、
当該音節に対応する音階、
当該音節の前または後ろの音節に対応する音階、
当該音節の長さ、
歌唱曲のジャンル、
および歌唱者の情報のうちの１以上と、
前記人の歌唱音の情報から取得した前記ビブラートがかかっている音節とを含む情報である関連情報が対応づけられて記憶されていることを特徴とする。
請求項２５に記載の発明は、音階のビブラート情報と音階の関連情報を記録した情報記録媒体であって、前記音階のビブラート情報には、
当該音階の前または後ろの音階、
当該音階の長さ、
演奏曲のジャンル、
および演奏者の情報、
楽器の情報のうちの１以上と、
前記人の演奏音の情報から取得した前記ビブラートがかかっている音階とを含む情報である関連情報が対応づけられて記憶されていることを特徴とする。
請求項２６に記載の発明は、請求項２２または２４に記載の情報記録媒体において、前記ビブラート情報には、人の歌唱音の歌い出しや歌い終わり、音韻間におけるピッチ変化の情報がその音節の関連情報と対応づけて記憶されていることを特徴とする。
請求項２７に記載の発明は、請求項２３または２５に記載の情報記録媒体において、前記ビブラート情報には、人の演奏音の弾き始めや弾き終わり、音階間におけるピッチ変化と振幅変化の情報が含まれることを特徴とする。
【００３５】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態を詳述する。
（１）実施形態
（１−１）実施形態の構成
図１は、本発明の実施形態に係る音声処理装置を示すブロック図である。
この音声処理装置１０は、本発明を楽器音と人の声の音色情報を内蔵するトーンジェネレータに適用したものであり、通常のトーンジェネレータの機能に加えて、ＭＩＤＩデータから歌唱音の音声信号を生成する場合にはビブラートをかけて出力できるように構成されている。
制御部１１は、パーソナルコンピュータなどから入力されるＭＩＤＩデータに基づいてこの音声処理装置１０全体を制御することにより、演奏音や歌唱音の音声信号を生成してスピーカＳＰに出力させたり、音声信号に音声処理を行わせたり、録音処理や、後述するビブラートデータベース１２の作成更新処理を行う。
ここで、ビブラートデータベース１２とは、人のビブラートにあるピッチ変化と振幅変化の情報であるピッチ変化データ（ビブラート情報）を後述する音節の関連情報と対応付けたデータベースである。
【００３６】
音源部１３は、ＭＩＤＩデータから音声信号を生成するための楽器音や人の声の音色情報などを保持しており、制御部１１の制御に従って演奏音や歌唱音の音声信号を生成する。
なお、歌唱音のＭＩＤＩデータを作成する方法について説明すると、従来の方法と同様であるが、ＭＩＤＩ規格のノートデータに予め定めた音節（「あ」、「い」など）を割り当てた歌詞情報をＭＩＤＩデータとして作成され、このＭＩＤＩデータが対応する機器（音声処理装置など）に入力されることによって歌唱音の音声信号を生成できるようになっている。
また、この音声処理装置１０においては、いわゆるアカペラの歌唱音の音声信号を生成するだけでなく、ＭＩＤＩデータを歌唱音のパートと演奏音（楽器音）のパートを有するトラック構成にすることにより、歌唱音と演奏音を合成した音声信号を生成することもできる。
【００３７】
音声処理部１４は、音声信号を音声処理（リバーブ／コーラス／バリエーションなど）するための各種情報を保持しており、制御部１１の制御により音声信号に各種の音声処理を行う。
また、音声処理部１４は、歌唱音の音声信号に対しては、対応する音声信号またはＭＩＤＩデータ（歌詞情報）から音の長さが所定値以上の音節、すなわち、伸ばしている音節を後述するその音節の関連情報と共に抽出できるようになっている。
そして、音声処理部１４は、この抽出した音節の関連情報とビブラートデータベース１２に登録された複数の音節の関連情報との類似度を算出し、類似度がもっとも高い音節の関連情報に対応づけられたピッチ変化データを用い、抽出した音節のピッチを変化させてビブラートをかける処理を行えるようになっている。
【００３８】
（１−２）実施形態の動作
次に、音声処理装置１０において、ビブラートデータベース１２の作成更新処理を行う場合の動作について説明する。
まず、音声処理装置１０においては、実際の人の歌声が図示しないマイクを介して入力され、図示しないメモリに歌唱音データとして録音される。このとき、この歌唱音データには、ユーザの入力により歌（曲）のジャンル（クラシック／ポップス／演歌など）や、歌い手の情報（性別／子供／若者／中年など）が付加されて記録される。
【００３９】
次に、音声処理装置１０においては、図２に示すように、制御部１１によりこの歌唱音データから音の長さが所定値以上の音節（「あ」）が順次特定され、この音節のピッチ変化の波形データがピッチ変化データＤＰとして順次取得される。
このとき、制御部１１では、特定した音節の関連情報ＤＡとして、ユーザが入力した情報（歌（曲）のジャンルや歌い手の情報）に加えて、特定した音節（「あ」）及びその音階（「Ｃ４」）と、この音節の前後に割り当てられた音節（「い」と「い」）及びその音階（「Ｄ４」と「Ｅ４」）と、特定した音節の継続時間（「０．５３」）とが順次取得され、図３に符号ＩＮで示すように、音節の関連情報ＤＡとピッチ変化データＤＰとが対応付けされてビブラートデータベース１２が作成される。
また、すでにビブラートデータベース１２が作成されている場合は、新たに取得した音節の関連情報ＤＡとピッチ変化データＤＰとが追加されてビブラートデータベース１２の内容が更新されるようになっている。
なお、歌唱音データは、この音声処理装置１０に接続されたパーソナルコンピュータのＨＤＤ（hard disk drive）に記憶されたデータを用いてもよい。
【００４０】
すなわち、音声処理装置１０においては、人の歌声からビブラートのピッチ変化データＤＰに加えて、ビブラートがかかる音節の関連情報ＤＡをすべて取得し、これらピッチ変化データＤＰと音節の関連情報ＤＡとを対応づけてビブラートデータベース１２を作成する。
従って、音声処理装置１０においては、様々なジャンルや歌い手の歌唱音データを用いてビブラートデータベース１２を作成することにより、人の歌声にある多種多様なビブラートをそのビブラートがかかっている音節の周辺情報、ジャンル、歌い手などと組み合わせてデータベース化し、後述するビブラートをかける音声処理を行うことができるようになっている。
【００４１】
次に、音声処理装置１０において、歌唱音の音声信号の生成に際してビブラートをかける場合の動作について説明する。なお、ここでは、歌唱音のパートと演奏音（楽器音）のパートを有する歌唱音にビブラートをかける例を説明するが、本発明はこれに限らず、いわゆるアカペラの歌唱音でも同様の方法でビブラートをかけることが可能である。
音声処理装置１０において、歌唱音のパートと演奏音（楽器音）のパートを有するＭＩＤＩデータが入力されると、音源部１３により音色情報から対応する人の声の歌唱音と楽器音の演奏音の音声信号が生成され、音声処理部１４に出力される（図１）。
音声処理部１４では、歌唱音に対応するＭＩＤＩデータから音の長さが所定値以上の音節（伸ばしている音節）がビブラートをかける音節ＳＹとして順次特定される。
このとき、音声処理部１４では、図４に示すように、例えば、特定したビブラートをかける音節ＳＹ（「あ」）の関連情報ＶＤＡとして、特定した音節（「あ」）及びその音階（「Ｅ４」）と、この音節の前後に割り当てられた音節（「う」と「い」）及びその音階（「Ｄ４」と「Ｅ４」）と、特定した音節の継続時間（「0.55」）と、予めユーザが入力した歌（曲）のジャンル（「Ｃ」）などが取得され、図４の符号ＣＡＬで示すように、この音節の関連情報ＶＤＡと、ビブラートデータベース１２に登録された音節の関連情報ＤＡｘ（ｘ：１〜ｎ）との類似度ＲＥｘが順次計算される。
【００４２】
類似度ＲＥｘの具体的な計算方法としては、以下に示すように、音節の関連情報ＶＤＡと関連情報ＤＡｘとの間で項目間の距離ｄｉ（ｉ＝１〜ｍ、ｍは関連情報の全項目数）と、各項目に対する重みづけｗｉとの乗算値がすべての項目で計算され、この計算値の累積加算値が類似度ＲＥｘとされるようになっている。
【００４３】

【００４４】
距離ｄｉは、例えば、音階や継続時間などの数値で表記される項目では差の絶対値で求められ、音節などの項目では、別途備える音節間の距離を定義したテーブル（「あ」と「い」の間は距離が近く、「あ」と「え」は距離が遠い等をすべての音節について数値で定義したテーブル）を用いて求められるようになっている。
そして、音声処理部１４では、計算結果に基づいて類似度ＲＥｘのうちもっとも類似度が高い音節の関連情報（関連情報が同一または類似のもの）ＤＡ１を決定すると、その類似度が高い音節の関連情報ＤＡ１に対応づけられたピッチ変化データＤＰを用いて音節ＳＹにビブラートをかける処理を行うようになっている。
なお、ビブラートをかける処理は、ピッチ変化データＤＰに対応するパラメータをＭＩＤＩデータに付加してディジタル処理により行う方法などを広く適用することができる。
【００４５】
このようにして、音声処理部１４では、特定したビブラートをかける音節ＳＹ毎に類似度ＲＥｘを計算し、類似度が高い音節の関連情報ＤＡに対応づけられたピッチ変化データＤＰを用いて音節ＳＹにビブラートをかける処理を順次行うようになっている。
これにより、この音声処理装置１０は、特定した音節ＳＹに対して、実際の人の歌声から取得した多種多様なビブラートのうち、その音節ＳＹの関連情報と同一または類似の関連情報を有する音節にかかっているビブラートをかけることができ、ＭＩＤＩデータから合成した歌唱音に実際の人の歌声と同様のビブラートを付加することができ、自然な歌唱音を再現することができる。
【００４６】
また、この音声処理装置１０は、ビブラートをかける音節の特定とビブラートの選定とを自動で行うことができるので、従来の音声処理装置のように、ビブラートをかける音とビブラートの内容をユーザが個々に設定する必要がなく、簡易に自然な歌唱音を再現することができる。
さらに、ユーザが希望する歌い手の情報（性別／子供／若者／中年など）を入力したり、入力する歌い手の情報や歌のジャンルを変更することによって、ユーザが希望する歌い手やジャンル風（ポップス調、演歌調など）の歌唱音を簡易に再現することができる。
この場合、ビブラートデータベース１２を好みの歌手の歌声から作成しておくことにより、好みの歌手の個性を備えた歌唱音を簡易に再現することが可能となる。
【００４７】
（２）変形例
（２−１）変形例１
上述の実施形態においては、音の長さが所定値以上の音節（伸ばしている音節）のみにビブラートをかける場合について述べたが、本発明はこれに限らず、音階が変化している音節に対して、その関連情報が同一または類似の関連情報に対応付けされたピッチ変化データＤＰを用いてビブラートをかけるようにしてもよい。
この場合、音節の同一または類似を考慮せずに、音階の変化などが同一または類似の関連情報に対応付けされたピッチ変化データＤＰを用いてビブラートをかけるようにしてもよい。
【００４８】
（２−２）変形例２
上述の実施形態においては、ビブラートデータベース１２に登録されたすべての音節の関連情報ＤＡｘ（ｘ：１〜ｎ）との類似度ＲＥｘを計算する場合について述べたが、本発明はこれに限らず、計算中に明らかに類似度が低いと判定できる場合（項目間の距離が遠い場合など）には、計算を中断して次の関連情報との類似度の計算に移行させて計算時間を短縮してもよく、効率的に類似度が高い関連情報を選択する計算方法や選択方法を広く適用することができる。
【００４９】
（２−３）変形例３
上述の実施形態においては、類似度の計算に使用する音節の関連情報を、音節及びその音階と、この音節の前後に割り当てられた音節及びその音階と、特定した音節の継続時間と、歌（曲）のジャンルなどの情報で構成する場合について述べたが、本発明はこれに限らず、情報の種類を適宜増減してもよい。
【００５０】
（２−４）変形例４
上述の実施形態においては、本発明を歌唱音にビブラートを付加する音声処理に適用する場合について述べたが、本発明はこれに限らず、楽器音などの演奏音にビブラートを付加する音声処理に適用してもよい。この場合、実際の人によるバイオリンやトランペットの演奏からビブラートがかかっている音階を特定し、ピッチ変化データと音階の関連情報とを対応づけてビブラートデータベースを作成することにより、上述と同様の方法により、合成した演奏音に実際の人の演奏にあるビブラートを付加することができ、演奏音の自然性を向上させることができる。
【００５１】
（２−５）変形例５
上述の実施形態においては、さらに人の歌唱音の歌い出しや歌い終わり、若しくは音韻間におけるピッチ変化データを取得し、これらピッチ変化データに基づいて、ＭＩＤＩデータの歌唱音の歌い出しや歌い終わり、若しくは音韻間に人の歌唱音と同じピッチ変化と振幅変化をつけることにより、歌唱音の自然性をさらに向上させることができる。
また、演奏音の場合は、人の演奏の弾き始めや弾き終わり、若しくは音韻間におけるピッチ変化データを取得し、これらピッチ変化データに基づいてＭＩＤＩデータの演奏音の弾き始めや弾き終わり、若しくは音韻間に同一のピッチ変化と振幅変化をつけることにより、演奏音の自然性をさらに向上させることができる。
【００５２】
（２−６）変形例６
上述の実施形態においては、マイクを介して録音した人の歌声や楽器音からビブラートデータベースを作成する場合について述べたが、要は実際の人の歌声や演奏音からビブラートの情報（ピッチ変化データや関連情報）を取得できればよく、音楽用ＣＤ（Compact Disk）等の情報記録媒体から取得する方法などを広く適用することができる。
【００５３】
（２−７）変形例７
上述の実施形態においては、ビブラートのピッチ変化の波形データをそのまま保持する場合について述べたが、本発明はこれに限らず、ピッチ変化の波形データをベクトル量子化すれば、ビブラートデータベースのデータ量を低減することができる。
この場合図５（ｂ）に示すように、ピッチ変化の波形データ毎にピッチ変化コードを割り当て、図５（ａ）に示すように、ビブラートデータベース１２では、関連情報とピッチ変化コードとを対応付けさせてもよく、異なる関連情報間でピッチ変化の波形データが同様な場合には、異なる関連情報に同一のピッチ変化コードを対応付けすれば、さらにデータ量を低減することができる。
【００５４】
（２−８）変形例８
上述の実施形態は、本発明をトーンジェネレータに適用する場合について述べたが、本発明はこれに限らず、本発明は信号処理用の半導体集積回路と、それに設定されたマイクロプログラムなどの組み合わせによって構成することができ、また、パーソナルコンピュータおよびその周辺機器と、そのコンピュータで実行されるプログラムとの組み合わせによっても実現することができる。さらに、コンピュータとプログラムとから構成する場合には、そのプログラムをコンピュータが読み取り可能な情報記録媒体に記録して頒布することが可能である。
【００５５】
【発明の効果】
上述したように本発明によれば、簡易に適切な音に適切なビブラートをかけることができ、自然な歌唱音や演奏音を再現することができる。
【図面の簡単な説明】
【図１】本発明の実施形態に係る音声処理装置を示すブロック図である。
【図２】ビブラートデータベースの作成の説明に供するタイミングチャートである。
【図３】ビブラートデータベースの内容を示す図である。
【図４】ビブラートデータベースの中から目的の関連情報を選択する処理の説明に供する図である。
【図５】変形例６に係るビブラートデータベースの内容を示す図である。
【符号の説明】
１０……音声処理装置、
１１……制御部、
１２……ビブラートデータベース、
１３……音源部、
１４……音声処理部、
ＤＰ……ピッチ変化データ（ビブラート情報）。

Claims

ビブラートがかかっている、人の歌唱における音節のピッチ変化と振幅変化の情報であるビブラート情報をその音節の関連情報と対応づけて記憶する記憶手段と、
入力される歌唱音に対応する歌唱情報に対し、音の長さが所定値以上の音節、または、音階が変化する音節をビブラートをかける音節として順次特定するとともに、特定した音節の関連情報を抽出する処理対象特定手段と、
前記記憶手段に記憶された前記音節の関連情報を順次検索し、前記処理対象特定手段が特定した音節の関連情報と同一または類似の音節の関連情報を選択する選択手段と、
前記選択手段により選択された前記音節の関連情報に対応づけられた前記ビブラート情報に基づいて、前記処理対象特定手段が特定した音節に対してビブラートをかける処理を順次行って前記歌唱情報に対応する音声信号を生成する音声処理手段と、
前記音声処理手段により生成された前記音声信号を出力する出力手段とを備えることを特徴とする音声処理装置。
請求項１に記載の音声処理装置において、前記選択手段は、前記記憶手段に記憶された前記音節の関連情報と、前記処理対象特定手段が特定した音節の関連情報との類似度を計算し、前記記憶手段に記憶された前記音節の関連情報の中から前記類似度がもっとも高い音節の関連情報を前記同一または類似の音節の関連情報として選択することを特徴とする音声処理装置。
請求項１または２に記載の音声処理装置において、
人の歌唱音の情報からビブラートがかかっている音節のピッチ変化と振幅変化の情報であるビブラート情報を抽出する抽出手段と、
前記ビブラートがかかっている音節の関連情報を前記人の歌唱音の情報から取得し、前記抽出したビブラート情報と対応づけて前記記憶手段に記憶させるビブラート情報作成手段とをさらに有することを特徴とする音声処理装置。
請求項１ないし３のいずれかに記載の音声処理装置において、前記音節の関連情報は、当該音節と、前記人の歌唱音における少なくとも当該音節の前または後ろの音節、当該音節に対応する音階、当該音節の前または後ろの音節に対応する音階、当該音節の長さ、歌唱曲のジャンル、歌唱者の情報のうち１以上を含む情報であることを特徴とする音声処理装置。
請求項１ないし４のいずれかに記載の音声処理装置において、前記歌唱情報は、ＭＩＤＩデータであることを特徴とする音声処理装置。
請求項１ないし５のいずれかに記載の音声処理装置において、
前記記憶手段には、さらに人の歌唱音の歌い出しや歌い終わり、音韻間におけるピッチ変化の情報である他の変化情報がその音節の関連情報と対応づけて記憶され、
前記処理対象特定手段は、さらに、前記歌唱情報に対し歌い出しや歌い終わりの音節、及び音韻を変化させる音節を特定し、
前記音声処理手段は、前記選択手段により選択された前記音節の関連情報に対応づけられた前記他の変化情報に基づいて、前記処理対象特定手段が特定した音節に対してピッチ変化と振幅変化をかける処理を行って前記歌唱情報に対応する音声信号を生成する
ことを特徴とする音声処理装置。
人の歌唱音の情報からビブラートがかかっている音節のピッチ変化と振幅変化の情報であるビブラート情報を抽出する抽出手段と、
当該音節の前または後ろの音節、
当該音節に対応する音階、
当該音節の前または後ろの音節に対応する音階、
当該音節の長さ、
歌唱曲のジャンル、
および歌唱者の情報のうちの１以上と、
前記人の歌唱音の情報から取得した前記ビブラートがかかっている音節とを含む情報である関連情報に、
前記抽出したビブラート情報を対応づけてビブラートデータベースを作成するビブラート情報作成手段と
を備えることを特徴とする音声処理装置。
前記抽出手段は、前記人の歌唱音の歌い出しや歌い終わり、音韻間におけるピッチ変化の情報である他の変化情報をさらに抽出し、
前記抽出手段が前記他の変化情報を抽出した音節の関連情報を少なくとも前記人の歌唱音の情報から取得し、前記音節の他の変化情報と対応づける他の変化情報作成手段と
を備えることを特徴とする請求項７に記載の音声処理装置。
ビブラートがかかっている、人の演奏した楽音における音階のピッチ変化と振幅変化の情報であるビブラート情報をその音階の関連情報と対応づけて記憶する記憶手段と、
入力される演奏音に対応する演奏情報に対し音の長さが所定値以上の音階を特定することによりビブラートをかける音階を順次特定する処理対象特定手段と、
前記記憶手段に記憶された前記音階の関連情報を順次検索し、前記処理対象特定手段が特定した音階の関連情報と同一または類似の音階の関連情報を選択する選択手段と、前記選択手段により選択された前記音階の関連情報に対応づけられた前記ビブラート情報に基づいて、前記処理対象特定手段が特定した音階に対してビブラートをかける処理を順次行って前記演奏情報に対応する音声信号を生成する音声処理手段と、
前記音声処理手段により生成された前記音声信号を出力する出力手段とを備えることを特徴とする音声処理装置。
請求項９に記載の音声処理装置において、前記選択手段は、前記記憶手段に記憶された前記音階の関連情報と、前記処理対象特定手段が特定した音階の関連情報との類似度を計算し、前記記憶手段に記憶された前記音階の関連情報の中から前記類似度がもっとも高い音階の関連情報を前記同一または類似の音階の関連情報として選択することを特徴とする音声処理装置。
請求項９または１０に記載の音声処理装置において、人の演奏音の情報からビブラートがかかっている音階のピッチ変化と振幅変化の情報であるビブラート情報を抽出する抽出手段と、前記ビブラートがかかっている音階の関連情報を前記人の演奏音の情報から取得し、前記抽出したビブラート情報と対応づけて前記記憶手段に記憶させるビブラート情報作成手段とをさらに有することを特徴とする音声処理装置。
請求項９ないし１１のいずれかに記載の音声処理装置において、前記音階の関連情報は、当該音階と、前記人の演奏音における少なくとも当該音階の前または後ろの音階、当該音階の長さ、演奏曲のジャンル、演奏者の情報、楽器の情報のうち１以上を含む情報であることを特徴とする音声処理装置。
請求項９ないし１２のいずれかに記載の音声処理装置において、前記演奏情報は、ＭＩＤＩデータであることを特徴とする音声処理装置。
請求項９ないし１３のいずれかに記載の音声処理装置において、
前記記憶手段には、さらに、人の演奏音の弾き始めや弾き終わり、音階間におけるピッチ変化の情報である他の変化情報がその音階の関連情報と対応づけて記憶され、
前記処理対象特定手段は、さらに、前記演奏情報に対し弾き始めや弾き終わりの音階を特定し、
前記音声処理手段は、前記選択手段により選択された前記音節の関連情報に対応づけられた前記他の変化情報に基づいて、前記処理対象特定手段が特定した音階に対してピッチ変化と振幅変化をかける処理を行って前記歌唱情報に対応する音声信号を生成する
ことを特徴とする音声処理装置。
人の演奏音の情報からビブラートがかかっている音階のピッチ変化と振幅変化の情報であるビブラート情報を抽出する抽出手段と、
当該音階の前または後ろの音階、
当該音階の長さ、
演奏曲のジャンル、
および演奏者の情報、
楽器の情報のうちの１以上と、
前記人の演奏音の情報から取得した前記ビブラートがかかっている音階とを含む情報である関連情報に、
前記抽出したビブラート情報を対応づけてビブラートデータベースを作成するビブラート情報作成手段と
を備えることを特徴とする音声処理装置。
前記抽出手段は、前記人の演奏音の弾き始めや弾き終わり、音階間におけるピッチ変化の情報である他の変化情報をさらに抽出し、
前記抽出手段が前記他の変化情報を抽出した音階の関連情報を少なくとも前記人の演奏音の情報から取得し、前記音階の他の変化情報と対応づける他の変化情報作成手段と
を備えることを特徴とする請求項１５に記載の音声処理装置。
請求項１ないし１６のいずれかに記載の音声処理装置において、前記ビブラート情報は、ベクトル量子化されて記憶されたことを特徴とする音声処理装置。
入力される歌唱音に対応する歌唱情報に対し音の長さが所定値以上の音節または、音階が変化する音節をビブラートをかける音節として順次特定する処理対象特定ステップと、
ビブラートがかかっている、人の歌唱音における音節のピッチ変化と振幅変化の情報であるビブラート情報をその音節の関連情報と対応づけて記憶する記憶部の前記音節の関連情報を順次検索し、前記処理対象特定ステップにおいて特定された音節の関連情報と同一または類似の音節の関連情報を選択する選択ステップと、
前記選択ステップにおいて選択された前記音節の関連情報に対応づけられた前記ビブラート情報に基づいて、前記特定した音節に対してビブラートをかける処理を順次行って前記歌唱情報に対応する音声信号を生成する音声処理ステップと、
前記音声処理ステップにおいて処理された前記音声信号を出力する出力ステップとを備えることを特徴とする音声処理方法。
請求項１８に記載の音声処理方法において、
前記歌唱情報に対し歌い出しや歌い終わりの音節、及び音韻間が変化する音節を順次特定する第２の処理対象特定ステップと、
人の歌唱音の歌い出しや歌い終わり、音節間におけるピッチ変化である他の変化情報をその音節の関連情報と対応づけて記憶する記憶部の前記音節の関連情報の中から前記第２の処理対象ステップにおいて特定された音節の関連情報と同一または類似の音節の関連情報を順次検索し、その中からいずれか一つを選択する第２の選択ステップと、
前記第２の選択ステップにおいて選択された前記音節の関連情報に対応づけられた前記他の変化情報に基づいて、前記特定した音節に対してピッチ変化をかける処理を行って前記歌唱情報に対応する音声信号を生成する第２の音声処理ステップとを有し、
前記出力ステップは、前記音声処理ステップと前記第２の音声処理ステップにおいて処理された前記音声信号を出力することを特徴とする音声処理方法。
入力される演奏音に対応する演奏情報に対し音の長さが所定値以上の音階を順次特定する処理対象特定ステップと、
ビブラートがかかっている、人の演奏音における音階のピッチ変化と振幅変化の情報であるビブラート情報をその音階の関連情報と対応づけて記憶する記憶部の前記音階の関連情報を順次検索し、前記処理対象特定ステップにおいて特定された音階の関連情報と同一または類似の音階の関連情報を選択する選択ステップと、
前記選択ステップにおいて選択された前記音階の関連情報に対応づけられた前記ビブラート情報に基づいて、前記特定した音階に対してビブラートをかける処理を順次行って前記演奏情報に対応する音声信号を生成する音声処理ステップと、
前記音声処理ステップにおいて処理された前記音声信号を出力する出力ステップとを備えることを特徴とする音声処理方法。
請求項２０に記載の音声処理方法において、
前記演奏情報に対し弾き始めや弾き終わりの音階を順次特定する第２の処理対象ステップと、
人の演奏音の弾き始めや弾き終わり、音階間におけるピッチ変化と振幅変化の情報である他の変化情報をその音階の関連情報と対応づけて記憶する記憶部の前記音階の関連情報の中から前記第２の処理対象ステップにおいて特定された音階の関連情報と同一または類似の音階の関連情報を順次検索し、その中からいずれか一つを選択する第２の選択ステップと、
前記第２の選択ステップにおいて選択された前記音階の関連情報に対応づけられた前記他の変化情報に基づいて、前記特定した音階に対してピッチ変化と振幅変化をかける処理を行って前記演奏情報に対応する音声信号を生成する第２の音声処理ステップとを有し、
前記出力ステップは、前記音声処理ステップと前記第２の音声処理ステップにおいて処理された前記音声信号を出力することを特徴とする音声処理方法。
入力される歌唱音に対応する歌唱情報に対し音の長さが所定値以上の音節または、音階が変化する音節をビブラートをかける音節として順次特定する処理対象特定ステップと、
ビブラートがかかっている、人の歌唱音における音節のピッチ変化と振幅変化の情報であるビブラート情報をその音節の関連情報と対応づけて記憶する記憶部の前記音節の関連情報を順次検索し、前記処理対象特定ステップにおいて特定された音節の関連情報と同一または類似の音節の関連情報を選択する選択ステップと、
前記選択ステップにおいて選択された前記音節の関連情報に対応づけられた前記ビブラート情報に基づいて、前記特定した音節に対してビブラートをかける処理を順次行って前記歌唱情報に対応する音声信号を生成する音声処理ステップと、
前記音声処理ステップにおいて処理された前記音声信号を出力する出力ステップと
を備える音声処理プログラムが記録されたことを特徴とする情報記録媒体。
入力される演奏音に対応する演奏情報に対し音の長さが所定値以上の音階をビブラートをかける音階として順次特定する処理対象特定ステップと、
ビブラートがかかっている、人の演奏音における音階のピッチ変化と振幅変化の情報であるビブラート情報をその音階の関連情報と対応づけて記憶する記憶部の前記音階の関連情報を順次検索し、前記処理対象特定ステップにおいて特定された音階の関連情報と同一または類似の音階の関連情報を選択する選択ステップと、
前記選択ステップにおいて選択された前記音階の関連情報に対応づけられた前記ビブラート情報に基づいて、前記特定した音階に対してビブラートをかける処理を順次行って前記演奏情報に対応する音声信号を生成する音声処理ステップと、
前記音声処理ステップにおいて処理された前記音声信号を出力する出力ステップとを備える音声処理プログラムが記録されたことを特徴とする情報記録媒体。
音節のビブラート情報と音節の関連情報を記録した情報記録媒体であって、前記音節のビブラート情報には、
当該音節の前または後ろの音節、
当該音節に対応する音階、
当該音節の前または後ろの音節に対応する音階、
当該音節の長さ、
歌唱曲のジャンル、
および歌唱者の情報のうちの１以上と、
前記人の歌唱音の情報から取得した前記ビブラートがかかっている音節とを含む情報である関連情報が対応づけられて記憶されていることを特徴とする情報記録媒体。
音階のビブラート情報と音階の関連情報を記録した情報記録媒体であって、前記音階のビブラート情報には、
当該音階の前または後ろの音階、
当該音階の長さ、
演奏曲のジャンル、
および演奏者の情報、
楽器の情報のうちの１以上と、
前記人の演奏音の情報から取得した前記ビブラートがかかっている音階とを含む情報である関連情報が対応づけられて記憶されていることを特徴とする情報記録媒体。
請求項２２または２４に記載の情報記録媒体において、前記ビブラート情報には、人の歌唱音の歌い出しや歌い終わり、音韻間におけるピッチ変化の情報がその音節の関連情報と対応づけて記憶されていることを特徴とする情報記録媒体。
請求項２３または２５に記載の情報記録媒体において、前記ビブラート情報には、人の演奏音の弾き始めや弾き終わり、音階間におけるピッチ変化と振幅変化の情報が含まれることを特徴とする情報記録媒体。