JP2010160289A - 音程を自動で修正するmidiカラオケシステム - Google Patents

音程を自動で修正するmidiカラオケシステム Download PDF

Info

Publication number
JP2010160289A
JP2010160289A JP2009002045A JP2009002045A JP2010160289A JP 2010160289 A JP2010160289 A JP 2010160289A JP 2009002045 A JP2009002045 A JP 2009002045A JP 2009002045 A JP2009002045 A JP 2009002045A JP 2010160289 A JP2010160289 A JP 2010160289A
Authority
JP
Japan
Prior art keywords
voice
midi
pitch
analysis
karaoke system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009002045A
Other languages
English (en)
Inventor
Ikuyo Katsuse
郁代 勝瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kinki University
Original Assignee
Kinki University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kinki University filed Critical Kinki University
Priority to JP2009002045A priority Critical patent/JP2010160289A/ja
Publication of JP2010160289A publication Critical patent/JP2010160289A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

【課題】マイクロホンに入力された歌唱音の音程がはずれた場合でも、音程を自動的に修正してスピーカから出すことを提供する。
【解決手段】標準SMF(標準MIDIファイル)フォーマットから変換後の周波数を得て、音声分析合成により歌唱音声の声の高さを変換する。誤推定の多い音声認識やピッチ推定を行なわないため、実時間であっても頑健な処理が可能である。また標準SMFフォーマットを使用するため、すでに普及しているMIDIカラオケからの拡張が容易である。
【選択図】図1

Description

本発明は、カラオケシステムにおいて歌唱するとき、マイクロホンから入力された歌唱音声の音程がはずれていても、その音程を正しく修正してスピーカから出力する装置に関する。特にMIDIカラオケシステムに関する。本発明では、「正しい音程」をMIDIファイルから取得し、マイクロホンから入力された歌唱音声を、音声分析合成手法を用いて「正しい音程」に変更する。
カラオケは日本のみならず世界中で愛される娯楽となっており、親睦の手段としてもよく利用されている。
一方、近年MIDI配信型のカラオケシステムが普及している。MIDIファイルには、いわば“楽譜情報”が記録されており、受信側のカラオケシステムが有する各種音源をこの“楽譜情報”に従って再生することにより、伴奏を演奏している。
MIDIファイルには、実際には演奏しない情報を記録しておくこともできる。例えばボーカルパートの旋律を利用したいが演奏はしたくない場合、ボーカルパートのボリュームをゼロにして記録しておけばよい。
例えば、このような記録の利用方法として、歌唱の採点システムが可能である。MIDIファイルに記録されているボーカルパートの旋律と歌唱音の音程との差を計算すれば、正しい音程で歌唱が行なわれているかどうかを評価することができる。
また、歌唱音声の音程を自動的に修正する装置が提案されている。特許文献1では、歌唱音声を音声認識して音素に分解し、予め記録されている音素の種類、基準音程、基準音素長を比較し、異なる場合は、分解された音素の音程や長さを修正したもの、もしくは予め記憶されている音素の音程や長さを修正したものを再生することにより、歌唱音声の修正を行なっている。
特願平5−347279号公報
カラオケシステムは公私を問わず広く普及しているが、すべての人が上手に歌えるわけではなく、いわゆる音痴と呼ばれる人たちは付き合いでカラオケに行かなければならないことを苦痛に感じる場合がある。
そこで、マイクロホンに入力された歌唱音の音程がはずれた場合でも、音程を自動的に修正してスピーカから出すことができれば、誰でもカラオケを楽しむことができる。
このようなシステムを実現する上で非常に重要な要素として、処理の実時間性と頑健性が挙げられる。特にカラオケでの歌唱という、理想的な音声発話から遠い発話においても、頑健に動作する必要がある。このような制約条件に対して、特許文献1のシステムで必須項目となっている音声認識による音素分解やピッチ推定は実時間での精度に問題があり、これらを使用しないで実現することが望まれる。
上記の課題を解決するために、本発明は現時点では誤推定の多い音声認識やピッチ推定を行なわず、携帯電話の圧縮等で実績がある音声分析合成手法を用いて歌唱音声の音程を変更する。また、変換後の声の高さは、広く普及しているMIDI標準フォーマットで記述されたボーカルパートから取得する。
本発明では、歌唱音声の音声認識やピッチ推定を行なわないで声の高さの変換を行なうため、誤推定による誤動作を回避できる。さらに、標準SMF(登録商標)(標準MIDIファイル)フォーマットから変換後の周波数を得ることができるため、一般に普及しているMIDIカラオケシステムからの拡張として容易に実現できる。
以下に本発明を説明するための実施の形態について説明を行うが、以下の説明だけに限定されるものではなく、本発明の範囲内で適宜変更若しくは公知の技術を追加することができる。
(実施の形態)
図1は、Java(登録商標)言語により記述され、PC上に実装された場合のシステム構成である。システムは大きく3つの部分に分けられる。
メインブロック部11では、Javaソフトミキサから音声入出力とMIDI再生用のラインを確保する。入力インタフェース21を通じてユーザから歌唱する曲の指定を受けると、伴奏が記録されたMIDI情報をボーカルパート抽出部12へ送る。
ボーカルパート抽出部12では、メインブロック部11から受け取ったMIDI情報からボーカルパートのみの情報を取り出し、ボーカルパートの周波数を伴奏開始時からの時間関数として求め、メインブロック部11へ返す。
メインブロック部11では、ボーカルパート抽出部12から受け取ったボーカルパートの周波数を音声分析合成部13へ渡す。取得した入出力ラインをオープンにして歌唱音声の入出力を開始すると同時に、MIDI情報に従って伴奏音の出力を開始する。伴奏音はミキサー23へ送られ、スピーカ24から出力される。
音声分析合成部13では、マイクロホン22から入力された歌唱音声をフレーム単位で分析する。分析した結果、LPC係数、有声/無声の判定、音声のパワーを得る。有声の判定の場合、駆動音源生成部では、先に得られている「その時刻の正しい音程」を生成する周期でパルス状駆動音源を生成する。無声判定の場合は駆動音源としてノイズ源を生成する。駆動音源の大きさは、分析してえられた音声のパワーとする。
LPC係数と駆動音源、入力時のパワーから音声を合成し、出力する。変換歌唱音声はミキサー23へ送られ、スピーカ24から出力される。
メインブロック部11において伴奏音の出力が終了したら、伴奏音出力ライン、並びに音声分析合成部13の音声入出力ラインをクローズし、すべてのプロセスを終了する。
次にボーカルパート抽出部12を詳細に説明する。ボーカルパート抽出部12では、SMFの構造に基づき、ボーカルパートの情報を抽出する。SMFとはStandard Midi Fileの略で、チャンクと呼ばれるデータの塊で構成される。SMFは大きく分けてヘッダーチャンクとトラックチャンクの2種類に分かれる。SMFは基本的に、1つのヘッダーチャンクと複数のトラックチャンクで構成される。
ヘッダーチャンクは、チャンクタイプ、データ長、SMFフォーマット、トラック数、時間単位の5つで構成され、ファイルの先頭14バイトに記述される。時間単位は2バイトで、4分音符が何チック(時間の最小単位)かを設定する。
トラックチャンクは、チャンクタイプ、データ長、演奏データの3つで構成される。演奏データはトラックイベントと呼ばれ、MIDIイベント、SysExイベント、メタイベントがある。トラックイベントはすべて“デルタタイム+トラックイベント”の形で格納される。MIDIイベントはMIDIの演奏情報にあたるイベントで、ノートオン(楽器の音を鳴らす)、ノートオフ(楽器の音を止める)などがある。メタイベントは調/拍子、テンポ、著作権情報など演奏に影響しない情報に相当する。
本システムは、歌唱音声を正しい音程に変換して出力するため、マイクロホンから取得された音声が本来どの高さの音であるべきかを逐次知る必要がある。正しい音程は、MIDIのボーカルパートから取得される。ボーカルパートを取得するには、まずMIDIファイルを読み込み、ヘッダーチャンク内の時間単位を取得する。次にトラックチャンク内のメタイベントとして記されているテンポを取得し、ノートオンからノートオフの間、音が鳴っていない間のノートナンバー(音の高さ)とデルタタイムを取得する。そして、デルタタイムをマイクロ秒に、ノートナンバーを周波数に変換する。デルタタイムは『どの音がどのくらいの時間鳴っている』という情報にすぎないため、演奏開始からの累積時間に変換する。このようにして、演奏開始からの経過時間の関数として、正しい音程を得ることができる。
本システムでは、あらかじめボーカルパートが記述されているトラック番号が定められているものとする。現在実装されているシステムでは、ボーカルパートはトラック1に記述されているものとしているが、他のトラックであっても構わない。
次に音声分析合成部13を詳細に説明する。音声分析合成部13では、LPC音声分析合成が行なわれる。この手法については、ディジタル・サウンド処理入門、青木直史著、CQ出版社第4章に詳細に説明されている。
マイクロホンで収音した歌唱音声は一定区間バッファリングされる。バッファリングされた区間をフレームと呼び、以後、歌唱音声はフレームごとに処理される。バッファリングはフレーム区間の半分の時間ごとに更新される。つまり、フレーム長の半分の時間ずつ、二つのフレーム間でデータの重複が存在することになる。
図2は、一般的なLPC分析法を説明したものである。フレームに分割された音声には、プリエンファシスと呼ばれる高域周波数の強調が施される。
次に、フレーム長の長さの窓関数が掛けられる。
次に、LPC分析が行なわれる。LPC分析は、おおまかにいえば、音声信号から声道の音響特性と声帯の音響特性を分離する処理である。声道の音響特性は、音声の音韻情報を、声帯の音響特性は声の高さや大きさ、声質を情報として有する。LPC分析の結果、声道の音響特性はLPC係数として、声帯の音響特性は残差信号として得られる。入力された音声が有声音の場合、残差信号はパルス状の周期信号となる。この周期が声の高さを決定している。
次に、残差信号から、有声/無声判定を行なう。この判定には、残差信号のゼロ交差数を求めて判断する方法や、残差信号の自己相関係数を求めて判断する方法などがある。
また、残差信号の平均パワーを求め、音声の大きさを計算する。
図3は、本発明における、音声合成手法を説明したものである。LPC分析合成法では、LPC分析によって得られたLPC係数で構成されるフィルタの駆動音源として残差信号を用いることにより元の音声を復元できる。これをLPC合成という。本発明では、LPC合成時に残差信号をそのまま用いるのではなく、残差信号の代わりとなる新たな駆動音源をもちいてLPC合成を行なう。
駆動音源の生成方法として、オールパスフィルタの位相制御法を用いる。オールパスフィルタの位相制御によって駆動音源を生成する方法については非特許文献1に、または特許文献2において紹介されている方式を用いる。
Hideki Kawahara, Ikuyo Masuda-Katsuse and Alain de Cheveigne: ``Restructuting speech representations using STRAIGHT-TEMPO: Possible role of a repetitive structure in sounds,'' IJCAI-CASA workshop on Auditory Scene Analysis, Nagoya, 1997. 特開平10-097287
オールパスフィルタを用いた駆動音源生成手法では、位相特性を制御することで、周波数特性を一定にしたまま、エネルギーの時間的な分布を制御することにより、周期的な信号(有声音)や非周期的な信号(無声音)を生成できる。残差信号の有声/無声判定の結果、有声判定であった場合、メインブロック部11から取得したボーカルパートの周波数から、ボーカルパートの正しい音程を与える周期でエネルギーの集中点と設定することにより、正しい音程の駆動音源を生成できる。
オールパスフィルタを用いた駆動音源生成手法では、周期的な信号であっても、非周期成分を含んだ信号を生成することができるため、単純なパルス列を駆動音源とするよりも自然音声に近い音質で合成音声を生成できるという特徴がある。
また、非周期成分の割合を調整することで、済んだ声質からハスキーな声質まで生成できるので、声質の調整も可能である。
上記のように各フレームで生成された駆動音源に対してディエンファシスを行ない、LPC分析によって得られたLPC係数から生成される合成フィルタを駆動することで、正しい音程の歌唱音声を生成する。
最後にフレーム間の連結処理を行い、音声分析合成部13から出力する。
なお、駆動音源を生成する際に、ボーカルパート抽出部12で抽出された周波数に摂動を加えることにより、自然な揺らぎやヴィヴラートを付与することができる。また、音声分析合成部13において、LPC合成を行なう際に、駆動音源の大きさに摂動を加えることにより、自然な揺らぎやトレモロを付与することができる。
MIDIカラオケシステムにおいて利用が可能である。
本発明のブロック構成を示す図である。 一般的なLPC音声分析処理を示す図である。 本発明のLPC音声合成処理を示す図である。

Claims (7)

  1. MIDI(登録商標)ファイルからボーカルパートの周波数を抽出するボーカルパート抽出部と、入力音声の周波数を前記周波数に変換して出力する音声分析合成部と、MIDIファイルに記述された伴奏音の出力と前記音声分析合成部の音声入出力を同期して実行するメインブロック部を有する、音程修正カラオケシステムの実現方法。
  2. 音声分析合成部においてLPC分析合成手段を用いる、請求項1記載の音程修正カラオケシステムの実現方法。
  3. 音声分析合成部で用いられるLPC分析合成手段において、駆動音源をオールパルフィルタによって生成する、請求項2の音程修正カラオケシステムの実現方法。
  4. 駆動音源をオールパスフィルタによって生成する際に、位相項パラメータの値を調整することにより、合成音声の声質を変換する、請求項3の音程修正カラオケシステムの実現方法。
  5. 音声分析合成部において、MIDIボーカルパートに記載された周波数に微細な摂動を与えて合成することにより、ヴィブラートや自然な立ち上がりを実現する、請求項1または2または3または4の音程修正カラオケシステムの実現方法。
  6. 音声分析合成部において、MIDIボーカルパートに記載された周波数に微細な摂動を与えて合成することにより、ヴィブラートや自然な立ち上がりを実現する、請求項1または2または3または4または5の音程修正カラオケシステムの実現方法。
  7. 音声分析合成部において、入力音声から得られた音の大きさに微細な摂動を与えて合成することにより、トレモロや自然な立ち上がりを実現する、請求項1または2または3または4または5または6の音程修正カラオケシステムの実現方法。
JP2009002045A 2009-01-07 2009-01-07 音程を自動で修正するmidiカラオケシステム Pending JP2010160289A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009002045A JP2010160289A (ja) 2009-01-07 2009-01-07 音程を自動で修正するmidiカラオケシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009002045A JP2010160289A (ja) 2009-01-07 2009-01-07 音程を自動で修正するmidiカラオケシステム

Publications (1)

Publication Number Publication Date
JP2010160289A true JP2010160289A (ja) 2010-07-22

Family

ID=42577493

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009002045A Pending JP2010160289A (ja) 2009-01-07 2009-01-07 音程を自動で修正するmidiカラオケシステム

Country Status (1)

Country Link
JP (1) JP2010160289A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017101260A1 (zh) * 2015-12-15 2017-06-22 广州酷狗计算机科技有限公司 音频切换方法、装置以及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017101260A1 (zh) * 2015-12-15 2017-06-22 广州酷狗计算机科技有限公司 音频切换方法、装置以及存储介质

Similar Documents

Publication Publication Date Title
US9224375B1 (en) Musical modification effects
JP5143569B2 (ja) 音響的特徴の同期化された修正のための方法及び装置
CN111418005B (zh) 声音合成方法、声音合成装置及存储介质
CN112331222A (zh) 一种转换歌曲音色的方法、系统、设备及存储介质
JP2006251375A (ja) 音声処理装置およびプログラム
JP2001215979A (ja) カラオケ装置
CN115699160A (zh) 电子设备、方法和计算机程序
JP6171393B2 (ja) 音響合成装置および音響合成方法
TW201027514A (en) Singing synthesis systems and related synthesis methods
JP5360489B2 (ja) 音素符号変換装置および音声合成装置
JP2010160289A (ja) 音程を自動で修正するmidiカラオケシステム
JP6260565B2 (ja) 音声合成装置、及びプログラム
Driedger Time-scale modification algorithms for music audio signals
JP5560769B2 (ja) 音素符号変換装置および音声合成装置
JP5106437B2 (ja) カラオケ装置及びその制御方法並びにその制御プログラム
Fuadi et al. The Introduction Types of Vocal Sound in Choir in Realtime Using Hankel Transformation and Macdonald Function
JP2004061753A (ja) 歌唱音声を合成する方法および装置
JP5471138B2 (ja) 音素符号変換装置および音声合成装置
US20230057082A1 (en) Electronic device, method and computer program
JP4296767B2 (ja) ブレス音合成方法、ブレス音合成装置およびプログラム
JP2009237590A (ja) 音声効果付与装置
JPH0895588A (ja) 音声合成装置
JP5481957B2 (ja) 音声合成装置
JP6182894B2 (ja) 音響処理装置および音響処理方法
JP6281447B2 (ja) 音声合成装置,及び音声合成システム