JP2011215292A

JP2011215292A - 歌唱判定装置およびカラオケ装置

Info

Publication number: JP2011215292A
Application number: JP2010082131A
Authority: JP
Inventors: Shuichi Matsumoto; 秀一松本
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2010-03-31
Filing date: 2010-03-31
Publication date: 2011-10-27

Abstract

【課題】歌唱音の入力有無を判断することができる歌唱判定装置を提供する。
【解決手段】ピッチ抽出部１０１は、入力した音声信号からピッチを抽出し、ピッチデータを生成する。ピッチデータの生成は、例えば１０ｍｓ毎に行われる。音量抽出部１０２は、入力した音声信号の音量を抽出し、音量データを生成する。音量データは、例えば１０ｍｓ毎の瞬時値または、積分値等から取得される。歌唱判定部１０３は、例えば、ピッチデータおよび音量データを所定時間（例えば１００ｍｓ程度）記憶し、ピッチが連続して抽出され、標準偏差が所定の閾値未満であり、かつ音量が安定していれば歌唱音が入力されていると判定する。
【選択図】図２

Description

この発明は、マイクから入力された音声の処理に関し、特に歌唱音の判定処理に関する。

カラオケ装置では、歌唱音声にエコーを付与したり、歌唱音声に基づいて採点などを行う。従来、歌唱中であるかリファレンス（ガイドメロディ）に基づいて歌唱中であるかどうかを判断し、歌唱中であればエコーをオンし、歌唱以外はエコーをかけないようにするものが提案されている（例えば特許文献１を参照）。

特開２０００−２６７６７８号公報

しかし、リファレンスのタイミングが実際の歌唱音声が入力されているタイミングになるとは限らない。例えば、歌唱タイミングがリファレンスと大きくずれる場合や、アドリブ歌唱を行う場合、アカペラで歌う場合などがある。また、マイクに音声が入力されている場合であっても、歌唱ではなくナレーションである場合もある。

そこで、この発明は、歌唱音の入力有無を判断することができる歌唱判定装置を提供することを目的とする。

この発明の歌唱判定装置は、分析部および歌唱判定部を備えている。分析部は、入力された音声信号のピッチを抽出する。歌唱判定部は、分析部の抽出したピッチの安定度に基づいて、歌唱音が入力されているか否かを判定する。例えば、１０ｍｓ毎にピッチを抽出し、１００ｍｓ等の所定区間毎にピッチが連続して抽出されていればピッチの安定度が高いとし、歌唱音が入力されていると判定する。また、ピッチの標準偏差等を求め、標準偏差が所定の閾値未満であればピッチの安定度が高いとして歌唱音が入力されていると判定する態様も可能である。

さらに、分析部は、音量を抽出し、歌唱判定部は、前記音量の安定度に基づいて歌唱音が入力されているか否かを判定する態様とすることも可能である。

また、歌唱音の判定は、マイク毎に行ってもよい。マイク毎に行うことで、例えばカラオケ装置において、片方が歌唱音、片方がナレーションである等の状況において、歌唱音が入力されている音声信号にエコーを付与し、ナレーションにエコーを付与しないように構成することが可能となる。

なお、音声信号を遅延するディレイの後段にゲイン調整部を設けることで、ディレイの遅延量の時間分だけ歌唱音の判定に時間をかけることができる。

また、歌唱音が入力されている時間帯のみ採点を行うことで、歌唱採点の精度を向上させることも可能である。

この発明によれば、歌唱音の入力有無を判断することができる。

カラオケ装置の構成を示すブロック図である。歌唱判定の構成を示すブロック図である。ピッチの時間軸変化を示す図である。音量の時間軸変化を示す図である。エコー制御の構成を示すブロック図である。

図１は、本発明の歌唱判定装置を内蔵したカラオケ装置の構成を示す図である。カラオケ装置１は、装置全体の動作を制御するＣＰＵ１１、およびＣＰＵ１１に接続される各種構成部からなる。ＣＰＵ１１には、ＲＡＭ１２、ＨＤＤ１３、ネットワークインタフェース（Ｉ／Ｆ）１４、操作部１５、Ａ／Ｄコンバータ１７Ａ、Ａ／Ｄコンバータ１７Ｂ、音源１８、ミキサ（エフェクタ）１９、ＭＰＥＧ等のデコーダ２２、および表示処理部２３が接続されている。

ＨＤＤ１３は、カラオケ曲を演奏するための楽曲データやモニタ２４に背景映像を表示するための映像データ等を記憶している。映像データは動画、静止画の両方を記憶している。ワークメモリであるＲＡＭ１２には、ＣＰＵ１１の動作用プログラムを実行するために読み出すエリアやカラオケ曲を演奏するために楽曲データを読み出すエリア等が設定される。楽曲データや映像データ等は、定期的にネットワークＩ／Ｆ１４を介して配信センタからダウンロードし、更新する。

ＣＰＵ１１は、機能的にシーケンサを内蔵している。シーケンサは、ＨＤＤ１３に記憶されている楽曲データを読み出し、カラオケ演奏を実行するプログラムである。楽曲データは、曲番号等が書き込まれているヘッダ、演奏用ＭＩＤＩデータが書き込まれている楽音トラック、ガイドメロディ用ＭＩＤＩデータが書き込まれているガイドメロディトラック、歌詞用ＭＩＤＩデータが書き込まれている歌詞トラック、バックコーラス再生タイミングおよび再生すべき音声データが書き込まれているコーラストラック、等からなっている。シーケンサは、楽音トラックやガイドメロディトラックのデータに基づいて音源１８を制御し、カラオケ曲の楽音を発生する。また、シーケンサは、コーラストラックの指定するタイミングでバックコーラスの音声データ（楽曲データに付随しているＭＰ３等のエンコードデータ）を再生する。また、シーケンサは、歌詞トラックに基づいて曲の進行に同期して歌詞の文字パターンを合成し、この文字パターンを映像信号に変換して表示処理部２３に入力する。

音源１８は、シーケンサの処理によってＣＰＵ１１から入力されたデータ（ノートイベントデータ）に応じて楽音信号（デジタル音声信号）を形成する。形成した楽音信号はミキサ１９に入力される。

ミキサ１９は、音源１８が発生した楽音信号、コーラス音、マイク１６ＡからＡ／Ｄコンバータ１７Ａを介して入力された音声信号、およびマイク１６ＢからＡ／Ｄコンバータ１７Ｂを介して入力された音声信号をミキシングする。また、ミキサ１９は、ＣＰＵ１１の制御にしたがって、マイク１６ＡからＡ／Ｄコンバータ１７Ａを介して入力された音声信号、およびマイク１６ＢからＡ／Ｄコンバータ１７Ｂを介して入力された音声信号にエコーを付与する。

ミキシングされた各デジタル音声信号はサウンドシステム（ＳＳ）２０に入力される。サウンドシステム２０はＤ／Ａコンバータおよびパワーアンプを内蔵しており、入力されたデジタル信号をアナログ信号に変換して増幅し、スピーカ２１から放音する。

ＣＰＵ１１は、上記シーケンサによる楽音の発生、歌詞テロップの生成と同期して、ＨＤＤ１３に記憶されている映像データを読み出して背景映像等を再生する。動画の映像データは、ＭＰＥＧ形式にエンコードされている。ＣＰＵ１１は、読み出した映像データをデコーダ２２に入力する。デコーダ２２は、入力されたＭＰＥＧデータを映像信号に変換して表示処理部２３に入力する。表示処理部２３には、背景映像の映像信号以外に上記歌詞テロップの文字パターン等が入力される。表示処理部２３は、背景映像の映像信号の上に歌詞テロップなどをＯＳＤで合成してモニタ２４に出力する。モニタ２４は、表示処理部２３から入力された映像信号を表示する。

操作部１５は、カラオケ装置１の操作パネル面に設けられた各種のキースイッチや赤外線通信等を介して接続されるリモコン等からなり、ユーザの各種操作（例えば曲のリクエスト）を受け付け、操作態様に応じた操作情報をＣＰＵ１１に入力する。

カラオケ装置は、以上のようにして、カラオケ演奏を行う。ここで、本実施形態のカラオケ装置は、各マイクで収音した音声が歌唱音であるか、歌唱音以外（例えばナレーション）であるかを判断し、歌唱音が入力されている場合にエコーを付与したり、採点を行ったりする。以下、歌唱判定について説明する。

図２に示すように、ＣＰＵ１１は、機能的にピッチ抽出部１０１、音量抽出部１０２、歌唱判定部１０３、採点部１０４、およびエコー制御部１０５を備えている。ピッチ抽出部１０１、音量抽出部１０２、歌唱判定部１０３、および採点部１０４は、採点エンジンとして実現される。これらピッチ抽出部１０１、音量抽出部１０２、歌唱判定部１０３、採点部１０４、およびエコー制御部１０５は、マイク毎に設けられている。以下の例では、マイク１６Ａの音声信号を入力する例について説明するが、マイク１６Ｂの音声信号を入力する場合も各種構成や処理内容は同様である。

ピッチ抽出部１０１および音量抽出部１０２は、本発明の分析部に相当し、それぞれＡ／Ｄコンバータ１７Ａからマイク１６Ａで収音した音声信号が入力される。

ピッチ抽出部１０１は、入力した音声信号からピッチ（基本周波数）を抽出し、ピッチデータを生成する。ピッチデータの生成は、例えば１０ｍｓ毎に行われる。ピッチは、例えば、図３（Ａ）に示すように、音声信号のゼロクロスとなる点の周期を算出し、サイン波として近似することで抽出する。

音量抽出部１０２は、入力した音声信号の音量を抽出し、音量データを生成する。音量データの生成も、例えば１０ｍｓ毎に行われる。音量は、１０ｍｓ毎の瞬時値として抽出される（または１０ｍｓ内の積分値でもよい）。

ピッチ抽出部１０１の抽出したピッチデータ、および音量抽出部１０２の抽出した音量データは、歌唱判定部１０３に入力される。

歌唱判定部１０３は、入力されたピッチデータおよび音量データを所定時間（例えば１００ｍｓ程度）記憶し、この所定時間が経過する毎にマイク１６Ａで収音した音声が歌唱音であるか否かを判定する。歌唱判定部１０３は、例えば、図３（Ｂ）に示すように、ピッチが１００ｍｓ連続して抽出され、かつ、この１００ｍｓの区間内におけるピッチの変動が小さい場合、ピッチデータの安定度が高いとして、歌唱音であると判定する。一方で、図３（Ｃ）に示すように、ピッチが途切れ（無声音が存在し）、あるいは１００ｍｓの区間内におけるピッチの変動が大きい場合、ピッチデータの安定度が低いとして、歌唱音ではない（例えばナレーションである）と判定する。

なお、ピッチの変動の指標としては、例えば標準偏差を用いる。歌唱判定部１０３は、１００ｍｓ内のピッチデータの標準偏差を求め、この標準偏差が所定の閾値未満であれば、ピッチの変動が小さいと判定し、標準偏差が所定の閾値以上であればピッチの変動が大きいと判定する。

歌唱判定部１０３は、歌唱判定の条件として、さらに、音量データの安定度を追加する。例えば、図４（Ａ）に示すように、１００ｍｓの区間内における音量の変動が小さい場合、音量の安定度が高いとして歌唱音であると判定する。一方で、図４（Ｂ）に示すように、１００ｍｓの区間内における音量の変動が大きい場合、音量の安定度が低いとしてナレーションであると判定する。

音量の変動の指標としても、例えば標準偏差を用いる。歌唱判定部１０３は、１００ｍｓ内の音量データの標準偏差を求め、この標準偏差が所定の閾値未満であれば音量の変動が小さいと判定し、標準偏差が所定の閾値以上であれば音量の変動が大きいと判定する。

なお、以上の条件（ピッチの連続性、ピッチの標準偏差、音量の標準偏差）は、いずれか１つを用いてもよく、全ての条件を用いてもよい。例えば、ピッチが１００ｍｓ連続して抽出された時点で歌唱音と判定する態様や、ピッチが１００ｍｓ連続し、かつ標準偏差が所定の閾値未満である場合に歌唱音と判定する態様や、ピッチが１００ｍｍｓ連続し、ピッチの標準偏差が所定の閾値未満であり、かつ音量の標準偏差が所定の閾値未満であれば歌唱音が入力されていると判定する、等である。

歌唱判定部１０３は、歌唱音であると判定した場合、歌唱判定情報を採点部１０４およびエコー制御部１０５に出力する。採点部１０４は、歌唱判定情報が入力されると、マイク１６Ａから入力されている音声信号について、歌唱採点を行う。歌唱採点は、例えばリファレンスデータ（ガイドメロディトラックのデータ）との対比により行われる。すなわち、ガイドメロディトラックの各ノートナンバのノートオンタイミングと、歌唱音の入力タイミングとを比較する、あるいは、ノートナンバに対応する周波数と、抽出したピッチとの比較を行う、等である。

以上の構成によれば、歌唱音が入力されている時間帯にのみ採点部１０４が採点を行うことで、ナレーションの音声に基づいて採点を行うことを防止することができ、採点の精度を向上することができる。

一方、エコー制御部１０５は、歌唱判定情報が入力されると、マイク１６Ａからの入力されている音声信号にエコーを付与する制御を行う。すなわち、ミキサ１９におけるマイク１６Ａの入力系統の音声信号にエコーを付与する制御を行う。

図５にエコー制御の構成のブロック図を示す。同図に示すように、ミキサ１９は、マイク１６Ａの入力系統として、加算器５０Ａ、ディレイ５１Ａ、およびゲイン調整部５２Ａを備えている。また、マイク１６Ｂの入力系統として、加算器５０Ｂ、ディレイ５１Ｂ、およびゲイン調整部５２Ｂを備えている。また、ゲイン調整部５２Ａおよびゲイン調整部５２Ｂの出力信号をミキシングする加算器５３を備えている。なお、ミキサ１９は、実際には、音源１８からの楽音信号が入力される系統の構成も存在するが、同図においては図示および説明を省略する。

ＣＰＵ１１のエコー制御部１０５は、マイク１６Ａの歌唱判定情報が入力されたとき、マイク１６Ａの入力系統であるディレイ５１Ａの遅延量およびゲイン調整部５２Ａのゲインを調整し、歌唱音に適したエコーを付与する。例えば、遅延量を大きく設定し、かつゲインを大きく設定する。一方で、歌唱情報が入力されていない場合は、遅延量をゼロ、あるいは相対的に小さく設定し、かつゲインを小さく設定し、エコーを付与しない、またはエコーを弱く設定する。

また、エコー制御部１０５は、マイク１６Ｂの歌唱判定情報が入力されたとき、マイク１６Ｂの入力系統であるディレイ５１Ｂの遅延量およびゲイン調整部５２Ｂのゲインを調整し、歌唱音に適したエコーを付与する。例えば、遅延量を大きく設定し、かつゲインを大きく設定する。一方で、歌唱情報が入力されていない場合は、遅延量をゼロ、あるいは相対的に小さく設定し、かつゲインを小さく設定し、エコーを付与しない、またはエコーを弱く設定する。

なお、ゲイン調整部５２Ａおよびゲイン調整部５２Ｂは、それぞれディレイ５１Ａおよびディレイ５１Ｂの前段に設けてもよいが、図５に示すように、各ディレイの後段に設けることで、ディレイの遅延量の時間分だけ歌唱音の判定に時間をかけることができる。つまり、エコーがかかり始めるのは、各ディレイの出力信号が加算器に到達するタイミングであるため、ディレイの時間以内に歌唱音の判定を行い、ゲインを調整すれば、歌唱音の頭からエコーを付与し、ナレーションの頭からエコーを付与しない態様とすることが可能である。

このようにして、歌唱音の判定をマイク毎に行うことで、片方が歌唱音、片方がナレーションである等の状況において、歌唱音が入力されているマイクの音声信号にのみ適切なエコーを付与し、ナレーションにエコーを付与しない（あるいは聞き取りやすい程度にエコーを付与する）ように構成することが可能となる。

なお、歌唱判定部１０３は、上述の所定時間（１００ｍｓ）内における音量が小さい場合（１００ｍｓの積算値が所定値未満である場合）、無音であると判定する態様としてもよい。無音であると判定した場合についても、エコーを付与しない、あるいは採点を行わない態様とする。また、無音の場合は、パワーアンプの増幅量をゼロ、あるいは小さく設定し、ハウリングの発生を防止する態様としてもよい。

なお、本実施形態のカラオケ装置においては、２本のマイクについて説明したが、さらに多数のマイクを備えた場合においても、マイク毎に歌唱音を判定することが可能である。無論、１本のマイクであっても可能である。

以上のように、本実施形態のカラオケ装置では、各マイクの収音した音声が歌唱音であるか否かを判定することにより、歌唱音の場合にのみエコーを付与（あるいはエコーを強くする）ことができる。したがって、歌唱音にエコーが付与されない、あるいはナレーションに強いエコーが付与されてしまう、といった態様を防止することができる。特に、従来のようなリファレンスデータに基づく歌唱区間の判定では、歌唱タイミングがリファレンスと大きくずれた場合や、アドリブ歌唱を行う場合、アカペラで歌う場合などにおいて、歌唱音にエコーを付与しない状況であったが、本実施形態によれば、いつでも歌唱さえ行えば、適切なエコーが付与される。

また、本実施形態においては、歌唱判定装置をカラオケ装置に適用する例について説明したが、例えばＰＡ機器（ミキサ）等に内蔵させ、マイク毎にエフェクトを付与するか否かを自動設定する等の態様も可能である。

１…カラオケ装置
１１…ＣＰＵ
１２…ＲＡＭ
１３…ＨＤＤ
１５…操作部
１６Ａ…マイク
１６Ｂ…マイク
１７Ａ…Ａ／Ｄコンバータ
１７Ｂ…Ａ／Ｄコンバータ
１８…音源
１９…ミキサ
２０…サウンドシステム
２１…スピーカ
２２…デコーダ
２３…表示処理部
２４…モニタ
１０１…ピッチ抽出部
１０２…音量抽出部
１０３…歌唱判定部
１０４…採点部
１０５…エコー制御部

Claims

入力された音声信号のピッチを抽出する分析部と、
前記分析部の抽出したピッチの安定度に基づいて、歌唱音が入力されているか否かを判定する歌唱判定部と、
を備えた歌唱判定装置。
前記分析部は、前記音声信号の音量を抽出し、
前記歌唱判定部は、前記音量の安定度に基づいて歌唱音が入力されているか否かを判定する請求項１に記載の歌唱判定装置。
複数のマイクを備え、
前記分析部は、各マイクから音声信号をそれぞれ入力し、
前記歌唱判定部は、マイク毎の音声信号について歌唱音の判定を行う請求項１または請求項２に記載の歌唱判定装置。
請求項１乃至請求項３のいずれかに記載の歌唱判定装置と、
歌唱音が入力されていると判定した場合に、入力された音声信号にエコーを付与するエコー制御部と、
を備えたカラオケ装置。
前記エコー制御部は、
前記入力された音声信号を遅延するディレイと、
前記ディレイの出力信号のゲインを調整するゲイン調整部と、を含む請求項４に記載のカラオケ装置。
請求項１乃至請求項３のいずれかに記載の歌唱判定装置を備えたカラオケ装置、または請求項４もしくは請求項５に記載のカラオケ装置であって、
歌唱音が入力されていると判定した場合に、入力された音声信号の歌唱採点を行うことを特徴とするカラオケ装置。