JP2008015388A - Singing skill evaluation method and karaoke machine - Google Patents
Singing skill evaluation method and karaoke machine Download PDFInfo
- Publication number
- JP2008015388A JP2008015388A JP2006188742A JP2006188742A JP2008015388A JP 2008015388 A JP2008015388 A JP 2008015388A JP 2006188742 A JP2006188742 A JP 2006188742A JP 2006188742 A JP2006188742 A JP 2006188742A JP 2008015388 A JP2008015388 A JP 2008015388A
- Authority
- JP
- Japan
- Prior art keywords
- spectrum
- accompaniment
- singing
- pitch
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、歌唱力評価方法及びカラオケ装置に関する。 The present invention relates to a singing ability evaluation method and a karaoke apparatus.
現在市販されている殆ど全てのカラオケ装置には、カラオケ採点機能が付いている。従来のカラオケ採点装置として、例えば特許文献1に示すようなマイクから入力された歌唱者の歌声から抽出した音程(ピッチ)とガイドメロディの音程を比較して、その一致度に基づき得点を算出するというものが知られている。
これらのカラオケ採点装置では、マイクから入力された歌唱者の歌声からピッチを検出し、ピッチに基づいて歌唱者の歌の採点を行う。しかし、マイクにはいつも歌唱者の歌声が入力されるとは限らない。例えばカラオケBOXなどに設置されたカラオケ装置の場合、マイクには歌唱者の歌声と伴奏情報が混ざりあった音声信号が入力される場合が多い。歌唱者がマイクを口元から離して歌っている場合、歌唱者の声が小さい場合、伴奏の音量が大きい場合などは、カラオケ伴奏が歌唱者の持つマイクに回り込み、カラオケ採点結果に影響を与える場合がある(図13参照)。 In these karaoke scoring devices, the pitch is detected from the singing voice of the singer input from the microphone, and the singer's song is scored based on the pitch. However, the singer's singing voice is not always input to the microphone. For example, in the case of a karaoke apparatus installed in a karaoke BOX or the like, an audio signal in which a singer's singing voice and accompaniment information are mixed is often input to the microphone. When the singer sings away from the microphone, when the singer's voice is low, or when the accompaniment volume is high, the karaoke accompaniment wraps around the singer's microphone and affects the karaoke scoring results (See FIG. 13).
本発明は、上記問題を解決するためになされたものであり、音声信号入力手段から入力された音声信号が歌唱者の歌声情報か伴奏情報かを判定することのできる歌唱力評価方法及び歌唱力評価機能を有するカラオケ装置を提供することを目的とする。 The present invention has been made to solve the above problem, and a singing ability evaluation method and singing ability capable of determining whether a voice signal input from a voice signal input means is a singer's singing voice information or accompaniment information. An object is to provide a karaoke apparatus having an evaluation function.
上記目的を達成するために、本発明の請求項1に記載の歌唱力評価方法は、コンピュータに、音声信号入力手段から入力された入力音声信号に周波数分析を行いスペクトルを算出させるスペクトル算出ステップと、当該スペクトル算出ステップを実行して得られたスペクトルをスペクトル記憶手段に記憶するスペクトル記憶ステップと、前記スペクトル記憶手段より読み出されたスペクトルのエネルギーが高周波数帯域に集中していることが検出されたときに入力音声信号は伴奏情報であると判定する伴奏・歌声判定ステップとを実行させることを特徴とする。
In order to achieve the above object, a singing ability evaluation method according to
また、本発明の請求項2に記載の歌唱力評価方法は、請求項1に記載の発明の構成に加え、前記伴奏・歌声判定ステップでは、前記スペクトル記憶手段より読み出されたスペクトルからピッチを算出させ、当該ピッチが一定しきい値より高いときに入力音声信号は伴奏情報であると判定することを特徴とする。
Further, in the singing ability evaluation method according to claim 2 of the present invention, in addition to the configuration of the invention according to
また、本発明の請求項3に記載の歌唱力評価方法は、請求項1に記載の発明の構成に加え、前記伴奏・歌声判定ステップでは、前記スペクトル記憶手段より読み出されたスペクトルからスペクトルの傾きを算出させ、算出されたスペクトルの傾きが一定しきい値より大きいときに入力音声信号は伴奏情報であると判定することを特徴とする。
Further, in the singing ability evaluation method according to
また、本発明の請求項4に記載の歌唱力評価方法は、請求項1乃至3の何れかに記載の歌唱力評価方法であって、前記伴奏・歌声判定ステップでは、さらに前記スペクトル記憶手段より読み出されたスペクトルから、スペクトルに含まれる倍音の量を測定し、当該倍音の量が一定しきい値より多いときに入力音声信号は伴奏情報であると判定することを特徴とする。
Moreover, the singing ability evaluation method according to
また、本発明の請求項5に記載の歌唱力評価方法は、請求項1乃至3の何れかに記載の歌唱力評価方法であって、前記伴奏・歌声判定ステップでは、さらに前記スペクトル記憶手段より読み出されたスペクトルから、スペクトルに含まれる極値の数を数え、当該極値の数が一定しきい値より多いときに入力音声信号は伴奏情報であると判定することを特徴とする。
Further, the singing ability evaluation method according to claim 5 of the present invention is the singing ability evaluation method according to any one of
また、本発明の請求項6に記載の歌唱力評価機能を搭載したカラオケ装置は、音声信号入力手段から入力された入力音声信号に周波数分析を行いスペクトルを算出するスペクトル算出手段と、当該スペクトル算出手段により得られたスペクトルを記憶するスペクトル記憶手段と、前記スペクトル記憶手段により読み出されたスペクトルのエネルギーが高周波数帯域に集中していることが検出されたときに入力音声信号は伴奏情報であると判定する伴奏・歌声判定手段とを備えたことを特徴とする。 Further, a karaoke apparatus equipped with the singing ability evaluation function according to claim 6 of the present invention includes a spectrum calculation means for performing frequency analysis on an input voice signal input from the voice signal input means and calculating a spectrum, and the spectrum calculation. The spectrum storage means for storing the spectrum obtained by the means, and the input audio signal is accompaniment information when it is detected that the energy of the spectrum read by the spectrum storage means is concentrated in the high frequency band And accompaniment / singing voice judging means.
また、本発明の請求項7に記載の歌唱力評価機能を搭載したカラオケ装置は、請求項6に記載の発明の構成に加え、前記伴奏・歌声判定手段は、前記スペクトル記憶手段により読み出されたスペクトルからピッチを算出し、当該ピッチが一定しきい値より高いときに入力音声信号は伴奏情報であると判定することを特徴とする。
Further, in the karaoke apparatus equipped with the singing ability evaluation function according to
また、本発明の請求項8に記載の歌唱力評価機能を搭載したカラオケ装置は、請求項6に記載の発明の構成に加え、前記伴奏・歌声判定手段は、前記スペクトル記憶手段により読み出されたスペクトルからスペクトルの傾きを算出し、算出されたスペクトルの傾きが一定しきい値より大きいときに入力音声信号は伴奏情報であると判定することを特徴とする。 Further, in the karaoke apparatus equipped with the singing ability evaluation function according to claim 8 of the present invention, in addition to the configuration of the invention according to claim 6, the accompaniment / singing voice determination means is read by the spectrum storage means. The inclination of the spectrum is calculated from the obtained spectrum, and when the calculated inclination of the spectrum is larger than a certain threshold value, it is determined that the input voice signal is accompaniment information.
また、本発明の請求項9に記載の歌唱力評価機能を搭載したカラオケ装置は、請求項6乃至8の何れかに記載のカラオケ装置であって、前記伴奏・歌声判定手段は、さらに前記スペクトル記憶手段により読み出されたスペクトルから、スペクトルに含まれる倍音の量を測定し、当該倍音の量が一定しきい値より多いときに入力音声信号は伴奏情報であると判定することを特徴とする。
Moreover, the karaoke apparatus equipped with the singing ability evaluation function according to
また、本発明の請求項10に記載の歌唱力評価機能を搭載したカラオケ装置は、請求項6乃至8の何れかに記載のカラオケ装置であって、前記伴奏・歌声判定手段は、さらに前記スペクトル記憶手段により読み出されたスペクトルから、スペクトルに含まれる極値の数を数え、当該極値の数が一定しきい値より多いときに入力音声信号は伴奏情報であると判定することを特徴とする。 Moreover, the karaoke apparatus equipped with the singing ability evaluation function according to claim 10 of the present invention is the karaoke apparatus according to any one of claims 6 to 8, wherein the accompaniment / singing voice determination means further includes the spectrum. The number of extreme values included in the spectrum is counted from the spectrum read out by the storage means, and the input audio signal is determined to be accompaniment information when the number of extreme values is greater than a certain threshold value. To do.
本発明の請求項1に記載の歌唱力評価方法は、入力音声信号より算出されたスペクトルの周波数特性を用いて入力音声信号が伴奏情報なのか、歌声情報なのかを判定することができる。本発明によれば、マイク等から入力された伴奏情報を歌声情報と誤って採点してしまうのを防ぐことができるため、高精度な歌唱力評価が可能となる。
The singing ability evaluation method according to
また、本発明の請求項2に記載の歌唱力評価方法は、入力音声信号より算出されたピッチを用いて入力音声信号が伴奏情報なのか、歌声情報なのかを判定することができる。本発明によれば、マイク等から入力された伴奏情報を歌声情報と誤って採点してしまうのを防ぐことができるため、高精度な歌唱力評価が可能となる。 The singing ability evaluation method according to claim 2 of the present invention can determine whether the input voice signal is accompaniment information or singing voice information using the pitch calculated from the input voice signal. According to the present invention, since accompaniment information input from a microphone or the like can be prevented from being erroneously scored as singing voice information, highly accurate singing ability evaluation can be performed.
また、本発明の請求項3に記載の歌唱力評価方法は、入力音声信号より算出されたスペクトルの傾き用いて入力音声信号が伴奏情報なのか、歌声情報なのかを判定することができる。本発明によれば、マイク等から入力された伴奏情報を歌声情報と誤って採点してしまうのを防ぐことができるため、高精度な歌唱力評価が可能となる。
Moreover, the singing ability evaluation method according to
また、本発明の請求項4に記載の歌唱力評価方法は、請求項1乃至3の何れかに記載の発明の効果に加え、さらにスペクトルに含まれる倍音の量を利用して伴奏・歌声判定を行うことで、より高精度な歌唱力評価が可能となる。
Further, the singing ability evaluation method according to
また、本発明の請求項5に記載の歌唱力評価方法は、請求項1乃至3の何れかに記載の発明の効果に加え、さらにスペクトルの極値の数を利用して伴奏・歌声判定を行うことで、より高精度な歌唱力評価が可能となる。
Further, the singing ability evaluation method according to claim 5 of the present invention, in addition to the effect of the invention according to any one of
また、本発明の請求項6に記載の歌唱力評価機能を搭載したカラオケ装置は、入力音声信号より算出されたスペクトルの周波数特性を用いて入力音声信号が伴奏情報なのか、歌声情報なのかを判定することができる。カラオケBOXなどにおいて、マイクに回りこんできた伴奏情報を歌声情報と誤って採点してしまう不具合を防ぐことができるため、高精度な歌唱力評価機能を提供できる。 Moreover, the karaoke apparatus equipped with the singing ability evaluation function according to claim 6 of the present invention uses the frequency characteristic of the spectrum calculated from the input voice signal to determine whether the input voice signal is accompaniment information or singing voice information. Can be determined. In karaoke BOX and the like, it is possible to prevent a problem that scoring accompaniment information that has entered the microphone as singing voice information, thereby providing a highly accurate singing ability evaluation function.
また、本発明の請求項7に記載の歌唱力評価機能を搭載したカラオケ装置は、入力音声信号より算出されたピッチを用いて入力音声信号が伴奏情報なのか、歌声情報なのかを判定することができる。カラオケBOXなどにおいて、マイクに回りこんできた伴奏情報を歌声情報と誤って採点してしまう不具合を防ぐことができるため、高精度な歌唱力評価機能を提供できる。
A karaoke apparatus equipped with the singing ability evaluation function according to
また、本発明の請求項8に記載の歌唱力評価機能を搭載したカラオケ装置は、入力音声信号より算出されたスペクトルの傾きを用いて入力音声信号が伴奏情報なのか、歌声情報なのかを判定することができる。カラオケBOXなどにおいて、マイクに回りこんできた伴奏情報を歌声情報と誤って採点してしまう不具合を防ぐことができるため、高精度な歌唱力評価機能を提供できる。 Further, a karaoke apparatus equipped with the singing ability evaluation function according to claim 8 of the present invention determines whether the input voice signal is accompaniment information or singing voice information by using the slope of the spectrum calculated from the input voice signal. can do. In karaoke BOX and the like, it is possible to prevent a problem that scoring accompaniment information that has entered the microphone as singing voice information, thereby providing a highly accurate singing ability evaluation function.
また、本発明の請求項9に記載の歌唱力評価機能を搭載したカラオケ装置は、請求項6乃至8の何れかに記載の発明の効果に加え、さらにスペクトルに含まれる倍音の量を利用して伴奏・歌声判定を行うため、より高精度な歌唱力評価機能を提供できる。
Moreover, the karaoke apparatus equipped with the singing ability evaluation function according to
また、本発明の請求項10に記載の歌唱力評価機能を搭載したカラオケ装置は、請求項6乃至8の何れかに記載の発明の効果に加え、さらにスペクトルの極値の数を利用して伴奏・歌声判定を行うため、より高精度な歌唱力評価機能を提供できる。 Moreover, in addition to the effect of the invention according to any one of claims 6 to 8, the karaoke apparatus equipped with the singing ability evaluation function according to claim 10 of the present invention further utilizes the number of extreme points of the spectrum. Since accompaniment / singing voice determination is performed, a more accurate singing ability evaluation function can be provided.
次に本発明を適用した実施の形態について図面を参照して詳しく説明する。本発明の実施形態として、歌唱力評価装置を搭載したカラオケ装置について説明する。図1は本実施形態におけるカラオケ採点装置の外観である。図1に示すように、カラオケ装置1にはマイク2、ディスプレイ3、AMP4が接続されており、AMP4にはスピーカ5が接続されている。
Next, embodiments to which the present invention is applied will be described in detail with reference to the drawings. As an embodiment of the present invention, a karaoke apparatus equipped with a singing ability evaluation apparatus will be described. FIG. 1 is an external view of a karaoke scoring device in the present embodiment. As shown in FIG. 1, a microphone 2, a
図2は、カラオケ装置1の内部構造について説明したブロック図である。図2に示すように、カラオケ装置はCPU(Central Processing Unit)19を中心にした電子回路で構成される。CPU19はHDD(Hard Disk Drive)18、ビデオコントローラ6、ミキサ7、RAM(Random Access Memory)9、採点処理部12に接続され、各機器の動作を制御する。マイク2は、カラオケ装置1内部のA/D変換部17に接続される。A/D変換部17は、RAM9とミキサ7に接続される。ミキサ7は演奏装置8に接続されており、ミキサ7の出力を演奏装置8を経由して外部のAMP4に伝える。RAM9には、A/D変換部17、採点処理部12、CPU19が接続されている。RAM9にはA/D変換部17によりA/D変換された音声信号、採点処理部12により算出されたカラオケ採点結果などが記録される。
FIG. 2 is a block diagram illustrating the internal structure of the
採点処理部12は、ピッチ抽出部13、ビブラート検出部14、得点算出部15から構成され、ピッチ抽出部13とビブラート検出部14の出力を基に、得点算出部15で得点算出を行う構造になっている。
The scoring processing unit 12 includes a pitch extraction unit 13, a
HDD18には、多数のカラオケ曲の背景映像、演奏データ、歌詞テロップ、その他の情報が蓄えられている。操作部16は、パネルスイッチや、リモコン受信回路から成り、ユーザによる操作信号をCPU19に伝える。歌い手が多数のカラオケ曲から特定の曲を選択し操作部16より入力すると、CPU19は、その信号を受けてHDD18より該当するカラオケ曲の演奏データを読み出し、ミキサに出力する。
The
一方、マイク2より入力された歌唱者の歌声は、A/D変換部17でサンプリングされ、ミキサ7に送られる。ミキサ7はマイク2から入力された歌唱者の歌声とHDD18より読み出された演奏データを合成し、演奏装置8に出力する。合成された演奏データはAMP4を経由してスピーカ5から出力される。同時に、CPU19は背景映像および歌詞テロップをビデオコントローラ6に送る。歌詞テロップは、演奏と同期してディスプレイ3に表示され、現在演奏されている歌詞テロップの色が変化していく。歌唱者は歌詞テロップを見ながら伴奏に従って歌を歌う。この一連の動作制御はCPU19が担当している。なお、ビデオコントローラ6が請求項に言う「表示制御手段」に相当し、ディスプレイ3が請求項に言う「表示手段」に相当する。
On the other hand, the singing voice of the singer input from the microphone 2 is sampled by the A / D converter 17 and sent to the
次に、採点処理部12の動作について説明する。カラオケ装置に付属するカラオケ採点機能を使用するかどうかは歌唱者の意思に委ねられる。カラオケ採点を希望する歌唱者は操作部16を操作して、採点機能をONにする。歌唱者のカラオケ歌唱が始まると、CPU19は採点処理部12に採点開始指示を与える。採点開始指示を与えられた採点処理部12はカラオケ採点を開始する。カラオケ採点が開始されると、CPU19はHDD18から歌唱者が歌うカラオケ曲データを読み出し、読み出された曲データに含まれているガイドメロディをRAM9に書き込み始める。一方、マイク2より入力された歌唱者の歌声は、A/D変換部17によりサンプリングされ、DMA(Direct Memory Access)によりRAM9に音声信号として記録される。ピッチ抽出部13はRAM9から音声信号を読み出し、ピッチを算出する。同時に、ビブラート検出部14はRAM9から音声信号を読み出し、ビブラートを検出する。得点算出部15はピッチ抽出部13より検出されたピッチ情報とRAM9より読み出されたガイドメロディを比較し、この比較結果にビブラート検出部14より検出されたビブラート情報と伴奏・歌声判定部21より出力された伴奏/歌声の判定結果を加味して得点を算出する。算出された得点は、採点結果としてRAM9に書き込まれる。なお、このA/D変換部17が請求項に言う音声信号入力手段に相当する。
Next, the operation of the scoring processing unit 12 will be described. Whether or not to use the karaoke scoring function attached to the karaoke device is left to the singer's intention. A singer who desires karaoke scoring operates the
演奏終了後、CPU19が採点終了指示を採点処理部12に与えると、カラオケ採点処理は終了する。CPU19はRAM9から読み出した採点結果をビデオコントローラ6に送る。採点結果はディスプレイ3に表示され、歌唱者は歌の採点結果を確認し一喜一憂する。なお、本実施形態では演奏終了後に得点をディスプレイ3に表示しているが、これに限らず歌唱者が歌い始めてから現時点までの中間得点を順次ディスプレイに表示していき歌唱者が歌いながら得点を確認できる構造にしても良い。
When the CPU 19 gives a scoring end instruction to the scoring processing unit 12 after the performance is finished, the karaoke scoring process ends. The CPU 19 sends the scoring result read from the
採点処理部12は、DSP(Digital Signal Processor)と採点処理を行う採点専用ファームウェアによって構成される。通常のカラオケ採点装置ではDSPはピッチ算出のみに用いられ、採点処理はCPUが行う構成が多かったが、本実施形態では採点に関わる殆ど全ての処理をDSP(採点処理部)が担当する。この構成により、採点回路設計の自由度が格段に向上すると共に非常に詳細な分析が可能となる。 The scoring processing unit 12 includes a DSP (Digital Signal Processor) and scoring dedicated firmware that performs scoring processing. In a normal karaoke scoring device, the DSP is used only for pitch calculation, and the scoring process is often performed by the CPU. However, in this embodiment, almost all processing related to scoring is handled by the DSP (scoring processing unit). With this configuration, the degree of freedom in scoring circuit design is greatly improved and a very detailed analysis is possible.
次に、RAM9に設定される記憶領域について、図3を参照して説明する。音声信号記憶メモリ9Aは、A/D変換部17によりA/D変換された音声信号を記憶する領域である。自己相関関数記憶メモリ9Bは、採点処理部12内部にあるピッチ抽出部13で算出される自己相関関数を記憶する領域である。フーリエ級数記憶メモリ9Cは採点処理部12内部にあるピッチ抽出部13で算出されるフーリエ級数を記憶する領域である。有声・無声判定結果記憶メモリ9Dは、RAM9より読み出された切り出し音声フレームが有声音か?無声音か?判定した結果を記憶する領域である。伴奏・歌声判定結果記憶メモリ9Eは、RAM9より読み出された切り出し音声フレームが歌声情報か?伴奏情報か?判定した結果を記憶する領域である。ピッチ記憶メモリ9Fは、ピッチ抽出部13で算出されるピッチを記憶する領域である。ピッチ変化量記憶メモリ9Gは、ビブラート検出部14により算出されたピッチ変化量を記憶する領域である。ビブラート情報記憶メモリ9Hは、ビブラート検出部14により算出されたビブラート情報を記憶する領域である。瞬時得点記憶メモリ9Iは、得点算出部15により算出された瞬時得点を記憶する領域である。累積得点記憶メモリ9Jは、得点算出部15により算出された累積得点を記憶する領域である。ワークメモリ9Wは、採点処理部が、採点処理の一時記憶などに使用する領域である。なお、この自己相関関数記憶メモリ9B及びフーリエ級数記憶メモリ9Cが請求項に言う「スペクトル記憶手段」に相当する。
Next, the storage area set in the
図4は、採点処理部12で行われる採点動作手順について説明したフローチャートである。採点処理部12の動作について、図3、図4を参照して説明する。採点処理部12は、ピッチ抽出部13、ビブラート検出部14、伴奏・歌声判定部21、得点算出部15より構成される。
FIG. 4 is a flowchart illustrating the scoring operation procedure performed by the scoring processing unit 12. The operation of the scoring unit 12 will be described with reference to FIGS. The scoring unit 12 includes a pitch extraction unit 13, a
まず、ピッチ抽出部13の動作について図4に示すフローチャートを参照して説明する。ピッチ抽出処理では、まずRAM9の音声信号記憶メモリ9Aより読み出された音声信号を基に自己相関関数を算出し、RAM9の自己相関関数記憶メモリ9Bに書き込む(S10)。次に、RAM9の音声信号記憶メモリ9Aより読み出された音声信号に対して高速フーリエ変換を行い、得られたフーリエ級数をRAM9のフーリエ級数記憶メモリ9Cに書き込む(S11)。次に、RAM9の自己相関関数記憶メモリ9Bから読み出された自己相関関数を基に「入力音声が有声音か無声音か?」の判定を行い、判定結果をRAM9の有声・無声判定結果記憶領域9Dに書き込む(S12)。次に、RAM9の自己相関関数記憶メモリ9BとRAM9のフーリエ級数記憶メモリ9Cから、自己相関関数とフーリエ級数を読み出し、これらを基に伴奏・歌声判定を行い、得られた伴奏・歌声判定結果をRAM9の伴奏・歌声判定結果記憶メモリ9Eに書き込む(S13)。次に、RAM9の自己相関関数記憶メモリ9BとRAM9のフーリエ級数記憶メモリ9Cから、自己相関関数とフーリエ級数を読み出し、これらを基にピッチ抽出を行い、検出されたピッチをRAM9のピッチ記憶メモリ9Fに書き込む(S14)。上述S10〜S14までの処理をピッチ抽出部13が担当する。なお、上記S10及びS11の処理が請求項に言う「スペクトル算出ステップ」及び「スペクトル記憶ステップ」に相当し、S10及びS11の処理を実行する採点処理部(DSP)12が「スペクトル算出手段」に相当する。また、上記S13の処理が請求項に言う「伴奏・歌声判定ステップ」に相当し、S10及びS11の処理を実行する採点処理部(DSP)12が「伴奏・歌声判定手段」に相当する。
First, the operation of the pitch extraction unit 13 will be described with reference to the flowchart shown in FIG. In the pitch extraction process, first, an autocorrelation function is calculated based on the audio signal read from the audio
次に、ビブラート検出部14の処理について説明する。ビブラート検出部14では、RAM9のピッチ記憶メモリ9Fより読み出されたピッチを基にピッチ変化量を算出しRAM9のピッチ変化量記憶メモリ9Gに書き込む(S15)。次に、RAM9のピッチ変化量記憶メモリ9Gより読み出されたピッチ変化量を基にビブラート検出を行い、ビブラート検出結果をRAM9のビブラート情報記憶メモリに書き込む(S16)。上述S15〜S16までの処理をビブラート検出部14が担当する。
Next, processing of the
得点算出部15は、RAM9のピッチ記憶メモリ9F、ガイドメロディ記憶メモリ9M、有声・無声判定結果記憶メモリ9D、伴奏・歌声判定結果記憶メモリ9E、ピッチ変化量記憶メモリ9G、ビブラート情報記憶メモリ9Hより、それぞれピッチ、ガイドメロディ、有声・無声判定結果、伴奏・歌声判定結果、ピッチ変化量、ビブラート検出結果を読み出し、これらを基に得点算出を行う(S17)。処理S17により得られた得点算出結果は、RAM9の瞬時得点記憶メモリ9I、累積得点記憶メモリ9Jに書き込まれる。RAM9の瞬時得点記憶メモリ9Iには、短時間について分析した瞬時得点が記録され、RAM9の累積得点記憶メモリ9Jには、採点を始めてから現在に至るまで瞬時得点を累積して平均をとった平均得点が記録される。
The
なお、上記瞬時得点は上記ガイドメロディとピッチの比較を行い、その類似度を得点としている。ただし、有声・無声判定結果記憶メモリ9Dより読み出された判定結果が"無声音"と判定されている無声区間については得点算出を行わない。また、伴奏・歌声判定結果記憶メモリ9Eより読み出された判定結果が"伴奏情報"と判定されている伴奏区間については、得点算出を行わない。また、ピッチ変化量記憶メモリ9Gより読み出されたピッチ変化量が激しい区間についても得点算出を行わない。また、ビブラート情報記憶メモリ9Hより読み出された情報より、"ビブラート区間"と判定された区間については、ビブラートの美しさを算出し得点とする構成になっている。これら一連の採点処理は、CPU19から採点終了指示を受ける(S18)ことで終了する。累積得点記憶メモリ9Jに書き込まれた平均得点が歌唱者の歌の得点となる。
The instantaneous score is compared with the guide melody and the pitch, and the similarity is scored. However, score calculation is not performed for an unvoiced section in which the determination result read from the voiced / unvoiced determination
以下、ピッチ抽出部13、ビブラート検出部14、得点算出部15の動作について詳細に説明する。ピッチ抽出部13では、前処理として、入力音声に自己相関分析を行い、自己相関関数を求める。本実施形態では、マイク2より入力された歌唱音声は、A/D変換器17によりサンプリング周波数48[kHz]でサンプリングされ、RAM9の音声信号記憶メモリ9Aに書き込まれる。採点処理部12は、RAM9の音声信号記憶メモリ9Aから、1回の分析につき1440[point]の分析フレームを切り出し分析を行う。自己相関関数法では、『分析フレーム:F0={x(1),x(2),…,x(N)}』と『分析フレームをi[point]ずらしたもの:Fi={x(i),x(1+i),…,x(N+i)}』の相関を求める。相関値R(0,i)を計算する式の一例を数式1に示す。
自己相関関数法では、F0とFiのずれ量iを1〜N[point]まで変化させ、相関値(類似度)R(0,i)を順次算出していく。このようにして算出された自己相関関数R(0,i)は、メモリ9の自己相関関数記憶メモリ9Bに書き込まれる。
In the autocorrelation function method, the deviation amount i between F 0 and F i is changed from 1 to N [point], and the correlation value (similarity) R (0, i) is sequentially calculated. The autocorrelation function R (0, i) calculated in this way is written into the autocorrelation
自己相関関数を用いたピッチ抽出法では、ピッチ(基本周波数)fは相関値R(0,i)を利用して数式2により算出される。数式2は、ずれ量iを順次変化させていったときの相関値R(0,i)が最大になるずれ量argmaxi{R(0,i)}を音声信号の基本周期として検出し、サンプリング周波数48000[Hz]を基本周期で割ったものをピッチとして算出するという意味である。このようにして抽出されたピッチは、RAM9のピッチ記憶メモリ9Fに書き込まれる。
ここで、歌唱者の歌声が有声音か無声音か判別する方法について簡単に説明する。人間の声には有声音と無声音があるが、一般的に無声音からはピッチを算出することはできないことが知られている。このため、ピッチを算出する前に有声音・無声音判定を行う必要がある。有声・無声は、数式1で使用する自己相関関数の比R(0,imax)/R(0,0)を用いて簡単に判定できる。R(0,imax)/R(0,0)が一定しきい値より大きければ有声音、一定しきい値より小さければ無声音と判定する。本実施の形態では、無声音はピッチの信頼度が低いため歌唱力評価には用いない。また、有声・無声判定法としては、自己相関関数の比に限らずゼロクロス法などの他の公知な有声・無声判定技術を用いることもできる。
Here, a method for determining whether a singer's singing voice is voiced sound or unvoiced sound will be briefly described. Human voices include voiced and unvoiced sounds, but it is generally known that the pitch cannot be calculated from unvoiced sounds. For this reason, it is necessary to determine voiced / unvoiced sound before calculating the pitch. Voiced / unvoiced can be easily determined using the ratio R (0, i max ) / R (0, 0) of the autocorrelation function used in
なお、本実施形態では自己相関関数を利用したピッチ抽出と高速フーリエ変換(FFT)を利用したピッチ抽出を併用することにより、より信頼性の高いピッチ抽出を実現する。高速フーリエ変換を用いたピッチ抽出では、メモリ9の音声信号記憶メモリから読み出された音声信号に対し、高速フーリエ変換を用いてFFTスペクトルを算出し、フーリエ級数記憶メモリ9Cに書き込む。ピッチは、FFTスペクトルが最大値をとるときの周波数として検出する。自己相関関数を利用したピッチ抽出法は男性低音系の歌声からのピッチ抽出に有効で、高速フーリエ変換を用いたピッチ抽出法は女性高音系の歌声からのピッチ抽出に有効である。採点処理に用いるピッチfは、自己相関関数より算出したピッチf1と高速フーリエ変換により算出したピッチf2から、例えば表1に示す選択基準によって選択する。f1とf2が一定しきい値FTHより大きいときはf=f2を選択し、それ以外のときはf=f1を選択する。この方法により、信頼性の高いピッチfを選択することができる。FTHは、高音と低音を判断する予め設定されたしきい値である。ここでは、例えばFTH=400[Hz]とする。
次に、ビブラート検出部14の動作について説明する。ビブラート検出部14では、まずピッチ変化量を算出する。ピッチ変化量D(i)は、RAM9のピッチ記憶メモリ9Fより読み出された現在のピッチfi+1と一分析フレーム過去のピッチfiを用いて、数式3により算出される。算出されたピッチ変化量D(i)は、ピッチ変化量記憶メモリ9Gに書き込まれる。
RAM9のピッチ変化量記憶メモリ9Gには、数式3で算出されたピッチの変化量信号が例えば500[ms]分バッファリングされている。フレームシフトを10[ms]とすると500[ms]は、50フレーム分に相当するので、N=50ポイント分のピッチ変化量信号をバッファリングされていることになる。50ポイントのピッチの変化量信号D(i)に対して、数式4で示される自己相関関数e(τ)を算出する。自己相関関数は信号の周期性を調べるのに適している関数である。自己相関関数e(τ)が一定しきい値を超えた場合、ピッチ変化量信号にある程度の周期性があると考えられるため、入力音声信号にビブラートがかかっていると判定することができる。このようにして判定されたビブラート判定結果は、ビブラート情報記憶メモリ9Hに書き込まれる。
次に、得点算出部15の動作について詳細に説明する。得点算出部15では、入力音声信号を表2に示す(i)〜(iv)の4つの区間に分類する。(i)無声区間と(iii)ピッチの変化が激しい区間(音程変化量が大きい区間)は得点算出には用いず、(ii)ビブラート区間と(iv)通常歌唱区間について得点算出を行う。なお、伴奏・歌声判定部21により伴奏情報と判定された区間は(i)の無声区間に分類され、得点算出に用いられない。(iv)通常歌唱区間では、入力音声信号から抽出されたピッチとガイドメロディを比較し、その類似度に比例した得点を算出する。(ii)ビブラート区間の得点は、例えば数式4で算出される相関の強さe(τ)の最大値に予め設定された定数を乗じて算出する。ビブラートはe(τ)の値が大きければ大きいほど周期性が強く、美しいと考えられる。従って、例えばe(τ)の最大値に予め設定された定数を乗ずることによりビブラート区間の得点を算出する。最終的な得点は(ii)ビブラート区間の得点と(iv)通常歌唱区間の得点の合計として算出される。
図5は、得点算出部15のブロック図である。信頼性算出モジュール151は、RAM9の有声・無声判定結果記憶メモリ9Dと伴奏・歌声判定結果メモリ9E及びピッチ変化量記憶メモリ9Gよりそれぞれ有声・無声判定結果、伴奏・歌声判定結果、ピッチ変化量を読み出し、これらを基にピッチの信頼性を算出し、算出されたピッチの信頼性をRAM9のワーク領域9Wに書き込む。瞬時得点算出モジュール152は、RAM9のピッチ記憶メモリ9F、ビブラート情報記憶メモリ9H、ガイドメロディ記憶メモリ9M、ワーク領域9Wよりそれぞれピッチ、ビブラート判定結果、ガイドメロディ、ピッチの信頼性を読み出し、歌唱者の歌声1分析フレーム分の瞬時得点を算出し、算出した瞬時得点をRAM9の瞬時得点記憶メモリ9Iに書き込む。得点累積モジュール153は、RAM9の瞬時得点記憶メモリ9Iより読み出された瞬時得点を累積し、カラオケ採点が始まってから現在に至るまでの累積得点を算出し、RAM9の累積得点記憶メモリ9Jに記録する。
FIG. 5 is a block diagram of the
カラオケ採点終了後、累積得点記憶メモリ9Jに記録された累積得点は、RAM9より読み出され、ビデオコントローラ6を経由して、ディスプレイ3に表示される。歌唱者は、ディスプレイ3に表示された採点結果を見て一喜一憂する。なお、得点は累積得点をそのままディスプレイに表示しても良いし、得点変換関数や変換テーブルを通して変換をかけたものを表示しても良い。これらの変換テーブルや変換関数は事前に得点分布の統計調査を行った上で、例えば100点が算出される確率が全体の5%以下になるように設計した変換テーブルや変換関数を用いる。
After the karaoke scoring is completed, the cumulative score recorded in the cumulative
次に、伴奏・歌声判定部21の動作について詳細に説明する。まず、カラオケ装置に接続されているダイナミックマイクから入力された音声がカラオケの伴奏なのか、人間の歌声なのかを判定する回路を設計するために、ダイナミックマイクの周波数特性について考察する。 Next, the operation of the accompaniment / singing voice determination unit 21 will be described in detail. First, in order to design a circuit for determining whether the voice input from the dynamic microphone connected to the karaoke apparatus is a karaoke accompaniment or a human singing voice, the frequency characteristics of the dynamic microphone will be considered.
図6は、一般的なカラオケ装置に接続されるダイナミックマイクの周波数特性を示したものである。ダイナミックマイクは、歌唱者の口元からマイクまでの距離により周波数特性が変わる特性を持つ。例えば、(a)音源とマイクの距離が25mm場合、200[Hz]付近の低音が最も強調され、1000[Hz]以上の高音は弱めになる低域強調特性となる。(b)音源とマイクの距離が50mmの場合、特性はフラットに近いものとなる。(c)音源がマイクから600mm離れた場合では、100[Hz]付近の低音はほとんど入らず、1000[Hz]以上の高音が強調される右肩上がりのグラフ(高域強調特性)となる。 FIG. 6 shows frequency characteristics of a dynamic microphone connected to a general karaoke apparatus. A dynamic microphone has a characteristic in which a frequency characteristic changes depending on a distance from a singer's mouth to the microphone. For example, (a) when the distance between the sound source and the microphone is 25 mm, a low-frequency emphasis characteristic in which a low tone near 200 [Hz] is most emphasized and a high tone above 1000 [Hz] is weakened. (B) When the distance between the sound source and the microphone is 50 mm, the characteristics are almost flat. (C) When the sound source is 600 mm away from the microphone, there is almost no bass in the vicinity of 100 [Hz], and the graph rises to the right (high frequency emphasis characteristic) in which trebles of 1000 [Hz] or higher are emphasized.
このマイク周波数特性をさらに分かり易い例を用いて説明したものが図7である。例えばソプラノ歌手が離れたところから歌った場合でも、ダイナミックマイクは歌声を拾うことができる。ソプラノ歌手の高い声は1〜2[m]離れていても拾う。マイクが遠くても、高い音なら拾う。一方、ベースボーカルの低い声は、10[cm]離したら拾わない。 FIG. 7 illustrates the microphone frequency characteristics using an example that is easier to understand. For example, even if a soprano singer sings from a distance, the dynamic microphone can pick up the singing voice. Pick up the high voice of soprano singer even if it is 1-2 m away. Even if the microphone is far away, pick it up if it is loud. On the other hand, a voice with a low bass vocal is not picked up after 10 cm away.
上述のダイナミックマイクの性質により、マイクを持っている歌唱者より遠くにあるスピーカからカラオケ伴奏がマイクに回り込む場合、マイクに入ってくる伴奏はスピーカから出た伴奏に高域強調をかけたものとなる。つまり、マイクに回り込んできた音はBASSライン(低音)の比重が小さく、ドラムのハイハットの音や、エレキギターの音(高音)の比重が大きな伴奏となる(図8参照)。従って、ダイナミックマイクから入力された伴奏情報に対して周波数分析を行い、スペクトルを算出すると、スペクトルのエネルギーは高周波数帯域に集中する傾向が現れる。 Due to the nature of the dynamic microphone described above, when a karaoke accompaniment wraps around a microphone from a speaker farther away than the singer who has the microphone, the accompaniment entering the microphone is a high-frequency emphasis on the accompaniment coming out of the speaker. Become. That is, the sound that wraps around the microphone has a low specific gravity of the BASS line (bass), and is accompanied by a high specific gravity of the drum hi-hat sound and the electric guitar sound (high sound) (see FIG. 8). Therefore, if frequency analysis is performed on accompaniment information input from a dynamic microphone and a spectrum is calculated, the spectrum energy tends to concentrate in a high frequency band.
この性質を利用して、伴奏情報と人間の声を判別することができる。スペクトルのエネルギーが高周波数帯域に集中する特徴を検出する1つの方法としてピッチ抽出を利用する方法がある。歌い手より遠くにあるスピーカから回り込んできた伴奏からピッチを抽出すると、人間の歌声よりも高い周波数となることが多い(但し女性の高音:800Hz付近以上では帯域が重なることもある)。以下、伴奏・歌声の判別方法について説明する。 Using this property, accompaniment information and human voice can be discriminated. One method for detecting a feature in which spectrum energy is concentrated in a high frequency band is a method using pitch extraction. When a pitch is extracted from an accompaniment that wraps around from a speaker farther away than the singer, the frequency often becomes higher than that of a human singing voice (however, the high frequency of a woman: the band may overlap in the vicinity of 800 Hz or higher). Hereinafter, the accompaniment / singing voice discrimination method will be described.
本発明の実施形態では、先ず、ピッチ検出部13で人間の声より高い帯域を考慮してピッチを計算する。具体的には、図4の自己相関関数算出(S10)とフーリエ級数算出(S11)における分析帯域を人間の歌唱帯域(70Hz〜1200Hz)より高めに設定して例えば70Hz〜7000Hzとする。70Hz〜7000Hzの分析帯域をもつ自己相関関数及びフーリエ級数からピッチを抽出する。この構成で1200Hz以上のピッチが検出された場合は、その部分は伴奏情報とみなし得点算出に用いない。この方法では、例えば高音域を得意とする一部の女性歌手が歌った場合、歌声の一部が伴奏と見なされる場合がある。ただし、常に1200Hz(D6)以上の音程で歌い続ける歌唱者はいないため、カラオケ採点においては、実用上は問題ない。まず、上述の方法により判定された伴奏・歌声判定結果が、伴奏・歌声判定結果記憶メモリ9Eに書き込まれる。
In the embodiment of the present invention, first, the pitch detector 13 calculates a pitch in consideration of a band higher than a human voice. Specifically, the analysis band in the autocorrelation function calculation (S10) and Fourier series calculation (S11) in FIG. 4 is set higher than the human singing band (70 Hz to 1200 Hz), for example, 70 Hz to 7000 Hz. The pitch is extracted from the autocorrelation function and Fourier series having an analysis band of 70 Hz to 7000 Hz. When a pitch of 1200 Hz or higher is detected with this configuration, that portion is regarded as accompaniment information and is not used for score calculation. In this method, for example, when some female singers who are good at high frequencies sing, a part of the singing voice may be regarded as an accompaniment. However, since there is no singer who always sings at a pitch of 1200 Hz (D6) or higher, there is no practical problem in karaoke scoring. First, the accompaniment / singing voice determination result determined by the above-described method is written in the accompaniment / singing voice determination
ただし、800Hz帯域付近の伴奏情報がマイクから入力されることもあるため、上述の判定法のみでは完全に伴奏情報を除去できない問題がある。次に、800Hz帯域付近の女性の声なのか伴奏情報なのか判定し難い(ある程度高い)帯域のピッチが検出された場合に、自己相関関数の特徴を用いて伴奏を判定する方法を説明する。例えば、女性が800Hz付近の高音で歌った場合、その歌声から抽出した自己相関関数は、図9に示すように比較的滑らかな波形となることが多い(倍音が少ない)。一方、伴奏情報から算出した自己相関関数は図10に示すようにスペクトルに含まれる極値(ローカルピーク)の数が極端に多い(倍音が多い)。男性低音系の歌声は倍音は多いが、検出されるピッチは低い周波数となる。 However, since accompaniment information in the vicinity of the 800 Hz band may be input from the microphone, there is a problem that accompaniment information cannot be completely removed only by the above-described determination method. Next, a method for determining accompaniment using the characteristics of an autocorrelation function when a pitch of a band that is difficult to determine whether it is female voice or accompaniment information in the vicinity of the 800 Hz band (somewhat high) will be described. For example, when a woman sings at a high frequency around 800 Hz, the autocorrelation function extracted from the singing voice often has a relatively smooth waveform as shown in FIG. 9 (there is less harmonics). On the other hand, the autocorrelation function calculated from the accompaniment information has an extremely large number of extreme values (local peaks) included in the spectrum as shown in FIG. Male singing voices have many overtones, but the detected pitch has a low frequency.
この特徴を用いて、例えば480Hz〜1200Hzの『女性の歌声か伴奏情報か判定し難いピッチ』が検出された場合でも、自己相関関数などのスペクトルのローカルピーク(極値)が例えば100以上ある(倍音が異常に多い)ときは、その部分は伴奏またはノイズと判定することができる。本発明の実施形態では、上述の方法を利用してRAM9の自己相関関数記憶メモリ9Bより自己相関関数が持つローカルピーク(極値)の数を数える。ローカルピークの数が予め設定されたしきい値TH(例えば100)より大きい場合は入力音声は人間の歌声では無く伴奏情報(またはノイズ)と判定する。この方法により判定された伴奏・歌声判定結果はRAM9の伴奏・歌声判定結果記憶メモリ9Eに記録される。
Using this feature, even when a “pitch that is difficult to determine whether it is female singing voice or accompaniment information” of 480 Hz to 1200 Hz, for example, the local peak (extreme value) of a spectrum such as an autocorrelation function is 100 or more, for example ( If the harmonics are abnormally high), the portion can be determined as accompaniment or noise. In the embodiment of the present invention, the number of local peaks (extreme values) of the autocorrelation function is counted from the autocorrelation
また、倍音が異常に多いことを検出する方法は、この他にも様々な方法がある。例えば、スペクトルの隣り合う要素を結んだ長さLを算出し、この尺度Lが一定しきい値より大きいとき『倍音が異常に多い』と判定することも可能である。例えば、数式1により算出された自己相関関数R(0,i)を「スペクトル」とした場合、このスペクトルから数式5や数式6を用いて長さLを算出することができる。数式5と数式6は本質的に同じものであり、どちらを用いても『倍音の多さ』を測定(定量化)することができる。このように、例えば480Hz〜1200Hzの『女性の歌声か伴奏情報か判定し難いピッチ』が検出された場合でも、Lが一定閾値より大きいときは、その部分は伴奏またはノイズと判定することができる。また、スペクトルとして自己相関関数の変わりにFFTスペクトルやその他のスペクトルを利用できることは言うまでも無い。
なお、本実施形態では、上述の自己相関関数を利用した伴奏・歌声判定に加え、さらにメモリ9のフーリエ級数記憶メモリ9Cに記憶されたフーリエ級数(FFTスペクトル)を用いて歌声・伴奏判別を行うことで、さらに伴奏・歌声判定の信頼度を高める。以下、フーリエ級数を用いた伴奏・歌声判定方法について説明する。図11(a)はマイクから採取された歌声に高速フーリエ変換をかけ得られたFFTスペクトル、図11(b)はマイクに回り込んできた伴奏から得られたFFTスペクトルである。ピッチは、例えば、FFTスペクトルが最大値をとるときの周波数として検出することができる。歌声から抽出したピッチは、400[Hz]付近、マイクに回りこんできた伴奏のFFTスペクトルは1500[Hz]付近に分布している。例えば、1200[Hz]以上のピッチが検出された場合は、その部分は伴奏情報とみなし得点算出に用いない構成とすることにより、カラオケ採点の精度を高めることができる。この方法により判定された伴奏・歌声判定結果はRAM9の伴奏・歌声判定結果記憶メモリ9Eに記録される。
In this embodiment, in addition to the accompaniment / singing voice determination using the autocorrelation function described above, the singing voice / accompaniment discrimination is performed using the Fourier series (FFT spectrum) stored in the Fourier
最後に、本発明の実施形態では上述の伴奏・歌声判定に加え、メモリ9のフーリエ級数記憶メモリ9Cより読み出したFFTスペクトル(フーリエ級数)の傾きから歌声・伴奏判定を行う。以下、スペクトルの傾きから伴奏・歌声判定を行う方法について説明する。200[Hz]〜7000[Hz]区間スペクトルを切り出し、最小2乗法によりスペクトルを直線近似したときのスペクトルの傾きを算出する。直線の傾きが予め設定された一定しきい値THより大きいとき、『入力音声は伴奏情報である』と判定する。この方法により判定された伴奏・歌声判定結果はRAM9の伴奏・歌声判定結果記憶メモリ9Eに記録される。
Finally, in the embodiment of the present invention, in addition to the accompaniment / singing voice determination described above, the singing voice / accompaniment determination is performed from the slope of the FFT spectrum (Fourier series) read from the Fourier
図12(a)はマイクから入力された歌声に高速フーリエ変換をかけて求めたFFTスペクトルの傾き、図12(b)はマイクに回り込んできた伴奏に高速フーリエ変換をかけて求めたFFTスペクトルの傾きである。歌声から算出したFFTスペクトルの傾きは大きくなり、伴奏から算出したFFTスペクトルの傾きは小さくなることが観察できる。この特徴を用いて歌声とマイクから回りこんできた伴奏を判別することは容易である。このように『歌唱者より遠くにある音源から入ってくる音は、ダイナミックマイクの高域強調特性により高域強調される』という特徴を用いて伴奏・歌声の判定をすることが可能である。 FIG. 12A shows the slope of the FFT spectrum obtained by applying fast Fourier transform to the singing voice inputted from the microphone, and FIG. 12B shows the FFT spectrum obtained by applying fast Fourier transform to the accompaniment that wraps around the microphone. Is the slope of It can be observed that the slope of the FFT spectrum calculated from the singing voice increases and the slope of the FFT spectrum calculated from the accompaniment decreases. Using this feature, it is easy to discriminate between the singing voice and the accompaniment coming from the microphone. In this way, accompaniment / singing voice can be determined using the feature that “the sound coming from a sound source farther away from the singer is emphasized by the high frequency by the high frequency emphasis characteristic of the dynamic microphone”.
なお、本実施形態では、ピッチ検出法として自己相関関数法及びフーリエ変換法を用いているが、これに限らず、ピッチ検出法として例えば相互相関法、ケプストラム法、平方根・4乗根スペクトルの自己相関法、対数スペクトルの自己相関法、線形予測法など他の公知のピッチ検出法を用いることもできる。本発明は、人間の声である可能性が少ない高音ピッチが検出されたときに入力音声を伴奏情報として判定するというもので、ピッチ検出法は特に限定しない。また、伴奏判別に用いるスペクトルとしては、例えば線形予測分析によって得られたLPCスペクトル、相互相関関数、ケプストラム、LPCケプストラム、平方根・4乗根スペクトルなどを用いることもできることは言うまでもない。 In this embodiment, the autocorrelation function method and the Fourier transform method are used as the pitch detection method. However, the pitch detection method is not limited to this, and for example, the cross correlation method, the cepstrum method, the square root / fourth root spectrum self Other known pitch detection methods such as a correlation method, a logarithmic spectrum autocorrelation method, and a linear prediction method can also be used. In the present invention, the input sound is determined as accompaniment information when a high pitch that is less likely to be a human voice is detected, and the pitch detection method is not particularly limited. Needless to say, as a spectrum used for accompaniment discrimination, for example, an LPC spectrum, a cross-correlation function, a cepstrum, an LPC cepstrum, a square root / quarter root spectrum, etc. obtained by linear prediction analysis can be used.
また、直線の傾きを求めるのに使う周波数特徴としてはLPCスペクトル、群遅延スペクトル、LPCケプストラム、ケプストラム、自己相関関数、相互相関関数など、他の公知の周波数特徴を用いることができる。 In addition, as the frequency feature used for obtaining the slope of the straight line, other known frequency features such as an LPC spectrum, a group delay spectrum, an LPC cepstrum, a cepstrum, an autocorrelation function, a cross correlation function, and the like can be used.
例えば、入力音声に高速フーリエ変換をかけ、FFTスペクトルを求める。次に、FFTスペクトルに高速逆フーリエ変換をかけるとケプストラムと呼ばれる特徴量が求まる。このケプストラムの高次の係数を0に置き換えて、さらに高速フーリエ変換をかけると、平滑化されたスペクトルが求まる。この平滑化されたスペクトルにおいて、例えば600[Hz]以上の高次のスペクトル係数の平均値AHと600[Hz]未満の低次の係数の平均値ALを算出する。例えば、数式7により高次のスペクトル係数と低次のスペクトル係数の比RATEを求め、RATEが一定しきい値より大きい場合、入力音声は伴奏情報であると判定することもできる。
なお、上述の例では、逆フーリエ変換を行った後のケプストラムを用いて平滑化スペクトルを求めたが、これに限らず、平滑化を行わないフーリエ変換係数からAH、AL、RATEを算出し、高次の係数と低次の係数の比:RATEを算出しても良い。さらに、比RATEや直線の傾きを求めるのに使う周波数特徴としてはLPCスペクトル、群遅延スペクトル、LPCケプストラム、ケプストラム、自己相関関数、相互相関関数など、他の公知の周波数特徴を用いることができることは言うまでもない。 In the above example, the smoothed spectrum is obtained using the cepstrum after performing the inverse Fourier transform. However, the present invention is not limited to this, and AH, AL, and RATE are calculated from the Fourier transform coefficients that are not smoothed. Ratio of higher-order coefficient and lower-order coefficient: RATE may be calculated. Furthermore, other known frequency features such as LPC spectrum, group delay spectrum, LPC cepstrum, cepstrum, autocorrelation function, cross-correlation function, etc. can be used as the frequency feature used to determine the ratio RATE and the slope of the straight line. Needless to say.
また、本実施形態では、歌唱者の歌声から抽出したピッチとガイドメロディとを比較してその類似度より得点を算出する例を示した。しかし、これに限らずガイドメロディを参照しない採点システムを構築することも可能である。例えば、歌唱者の歌声から抽出したピッチと当該ピッチの最近傍にある平均率音階上(または純正率音階上)の音程との最小距離を算出し、当該最小距離が小さいほど高い得点を算出する採点アルゴリズムを搭載した採点システムとしても良い。また、人の歌声に含まれる倍音の量を測定し、倍音が多いほど高い得点を算出する採点システムを構築しても良い。また、ガイドメロディと調和音の関係にある音程(不協和音にならない音程)を推定し、歌唱者の歌声が調和音と一致したときに高得点を加算するアルゴリズムを採用しても良い。 Moreover, in this embodiment, the example which calculated the score from the similarity by comparing the pitch extracted from the singing voice of the singer with the guide melody was shown. However, it is not limited to this, and a scoring system that does not refer to the guide melody can be constructed. For example, the minimum distance between the pitch extracted from the singing voice of the singer and the pitch of the average rate scale (or the pure rate scale) nearest to the pitch is calculated, and the smaller the minimum distance, the higher the score is calculated. A scoring system equipped with a scoring algorithm may be used. Further, a scoring system may be constructed that measures the amount of harmonics contained in a person's singing voice and calculates a higher score as the number of harmonics increases. Alternatively, an algorithm may be employed that estimates a pitch (pitch that does not become dissonant) between the guide melody and the harmonic sound, and adds a high score when the singer's singing voice matches the harmonic sound.
本発明は、カラオケ装置に搭載されるカラオケ採点装置、及び歌唱力評価装置に利用することができる。 The present invention can be used for a karaoke scoring device and a singing ability evaluation device mounted on a karaoke device.
1 カラオケ装置
2 マイク
3 ディスプレイ
4 AMP
5 スピーカ
6 ビデオコントローラ
7 ミキサ(エフェクタ)
8 演奏装置
9 RAM(Random Access Memory)
12 採点処理部(採点DSP)
13 ピッチ抽出部
14 ビブラート検出部
15 得点算出部
16 操作部
17 A/D変換部
18 HDD(Hard Disk Drive)
19 CPU(Central Processing Unit)
21 伴奏・歌声判定部
151 信頼性算出モジュール
152 瞬時得点算出モジュール
153 得点累積モジュール
1 Karaoke device 2
5 Speaker 6
8
12 Scoring processor (scoring DSP)
DESCRIPTION OF SYMBOLS 13
19 CPU (Central Processing Unit)
21 Accompaniment / Singing
Claims (10)
音声信号入力手段から入力された入力音声信号に周波数分析を行いスペクトルを算出させるスペクトル算出ステップと、
当該スペクトル算出ステップを実行して得られたスペクトルをスペクトル記憶手段に記憶するスペクトル記憶ステップと、
前記スペクトル記憶手段より読み出されたスペクトルのエネルギーが高周波数帯域に集中していることが検出されたときに入力音声信号は伴奏情報であると判定する伴奏・歌声判定ステップとを実行させることを特徴とする歌唱力評価方法。 On the computer,
A spectrum calculating step of performing frequency analysis on the input voice signal input from the voice signal input means and calculating a spectrum;
A spectrum storage step of storing the spectrum obtained by executing the spectrum calculation step in the spectrum storage means;
And performing an accompaniment / singing voice determination step for determining that the input audio signal is accompaniment information when it is detected that the spectrum energy read from the spectrum storage means is concentrated in a high frequency band. Characteristic singing ability evaluation method.
前記スペクトル記憶手段より読み出されたスペクトルからピッチを算出させ、
当該ピッチが一定しきい値より高いときに入力音声信号は伴奏情報であると判定することを特徴とする請求項1に記載の歌唱力評価方法。 In the accompaniment / singing voice determination step,
The pitch is calculated from the spectrum read from the spectrum storage means,
The singing ability evaluation method according to claim 1, wherein when the pitch is higher than a certain threshold value, the input voice signal is determined to be accompaniment information.
前記スペクトル記憶手段より読み出されたスペクトルからスペクトルの傾きを算出させ、
算出されたスペクトルの傾きが一定しきい値より大きいときに入力音声信号は伴奏情報であると判定することを特徴とする請求項1に記載の歌唱力評価方法。 In the accompaniment / singing voice determination step,
The slope of the spectrum is calculated from the spectrum read from the spectrum storage means,
2. The singing ability evaluation method according to claim 1, wherein the input voice signal is determined to be accompaniment information when the calculated slope of the spectrum is larger than a certain threshold value.
前記伴奏・歌声判定ステップでは、さらに前記スペクトル記憶手段より読み出されたスペクトルから、スペクトルに含まれる倍音の量を測定し、
当該倍音の量が一定しきい値より多いときに入力音声信号は伴奏情報であると判定することを特徴とする歌唱力評価方法。 A singing ability evaluation method according to any one of claims 1 to 3,
In the accompaniment / singing voice determination step, from the spectrum read out from the spectrum storage means, the amount of harmonics included in the spectrum is measured,
A singing ability evaluation method characterized in that an input audio signal is determined to be accompaniment information when the amount of overtones is greater than a certain threshold value.
前記伴奏・歌声判定ステップでは、さらに前記スペクトル記憶手段より読み出されたスペクトルから、スペクトルに含まれる極値の数を数え、
当該極値の数が一定しきい値より多いときに入力音声信号は伴奏情報であると判定することを特徴とする歌唱力評価方法。 A singing ability evaluation method according to any one of claims 1 to 3,
In the accompaniment / singing voice determination step, from the spectrum read out from the spectrum storage means, the number of extreme values included in the spectrum is counted,
A singing ability evaluation method characterized in that an input audio signal is determined to be accompaniment information when the number of extreme values is greater than a certain threshold value.
当該スペクトル算出手段により得られたスペクトルを記憶するスペクトル記憶手段と、
前記スペクトル記憶手段により読み出されたスペクトルのエネルギーが高周波数帯域に集中していることが検出されたときに入力音声信号は伴奏情報であると判定する伴奏・歌声判定手段とを備えたことを特徴とする歌唱力評価機能を搭載したカラオケ装置。 Spectrum calculation means for performing frequency analysis on the input voice signal input from the voice signal input means and calculating a spectrum;
Spectrum storage means for storing the spectrum obtained by the spectrum calculation means;
An accompaniment / singing voice judging means for judging that the input audio signal is accompaniment information when it is detected that the energy of the spectrum read out by the spectrum storing means is concentrated in a high frequency band. A karaoke device with a singing ability evaluation function.
前記スペクトル記憶手段により読み出されたスペクトルからピッチを算出し、
当該ピッチが一定しきい値より高いときに入力音声信号は伴奏情報であると判定することを特徴とする請求項6に記載の歌唱力評価機能を搭載したカラオケ装置。 The accompaniment / singing voice judging means is:
Calculate the pitch from the spectrum read by the spectrum storage means,
The karaoke apparatus equipped with the singing ability evaluation function according to claim 6, wherein the input voice signal is determined to be accompaniment information when the pitch is higher than a certain threshold value.
前記スペクトル記憶手段により読み出されたスペクトルからスペクトルの傾きを算出し、
算出されたスペクトルの傾きが一定しきい値より大きいときに入力音声信号は伴奏情報であると判定することを特徴とする請求項6に記載の歌唱力評価機能を搭載したカラオケ装置。 The accompaniment / singing voice judging means is:
Calculating the slope of the spectrum from the spectrum read by the spectrum storage means;
7. The karaoke apparatus equipped with the singing ability evaluation function according to claim 6, wherein the input audio signal is determined to be accompaniment information when the calculated inclination of the spectrum is larger than a certain threshold value.
前記伴奏・歌声判定手段は、さらに前記スペクトル記憶手段により読み出されたスペクトルから、スペクトルに含まれる倍音の量を測定し、
当該倍音の量が一定しきい値より多いときに入力音声信号は伴奏情報であると判定することを特徴とする歌唱力評価機能を搭載したカラオケ装置。 A karaoke apparatus according to any one of claims 6 to 8,
The accompaniment / singing voice determination means further measures the amount of harmonics contained in the spectrum from the spectrum read out by the spectrum storage means,
A karaoke apparatus equipped with a singing ability evaluation function, characterized in that an input voice signal is determined to be accompaniment information when the amount of overtones exceeds a certain threshold.
前記伴奏・歌声判定手段は、さらに前記スペクトル記憶手段により読み出されたスペクトルから、スペクトルに含まれる極値の数を数え、
当該極値の数が一定しきい値より多いときに入力音声信号は伴奏情報であると判定することを特徴とする歌唱力評価機能を搭載したカラオケ装置。
A karaoke apparatus according to any one of claims 6 to 8,
The accompaniment / singing voice determination means further counts the number of extreme values included in the spectrum from the spectrum read out by the spectrum storage means,
A karaoke apparatus equipped with a singing ability evaluation function, characterized in that an input voice signal is determined to be accompaniment information when the number of extreme values is greater than a certain threshold value.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006188742A JP2008015388A (en) | 2006-07-10 | 2006-07-10 | Singing skill evaluation method and karaoke machine |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006188742A JP2008015388A (en) | 2006-07-10 | 2006-07-10 | Singing skill evaluation method and karaoke machine |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008015388A true JP2008015388A (en) | 2008-01-24 |
Family
ID=39072439
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006188742A Pending JP2008015388A (en) | 2006-07-10 | 2006-07-10 | Singing skill evaluation method and karaoke machine |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008015388A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009099146A1 (en) * | 2008-02-05 | 2009-08-13 | National Institute Of Advanced Industrial Science And Technology | System and method for automatic time alignment of music audio signal and song lyrics |
JP2011180417A (en) * | 2010-03-02 | 2011-09-15 | Mitsubishi Electric Corp | Device and method for estimating pitch of music acoustic signal |
JP2012522255A (en) * | 2009-03-27 | 2012-09-20 | 華為技術有限公司 | Audio signal classification method and apparatus |
JP2013222140A (en) * | 2012-04-18 | 2013-10-28 | Yamaha Corp | Performance evaluation device, karaoke device, and server device |
-
2006
- 2006-07-10 JP JP2006188742A patent/JP2008015388A/en active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009099146A1 (en) * | 2008-02-05 | 2009-08-13 | National Institute Of Advanced Industrial Science And Technology | System and method for automatic time alignment of music audio signal and song lyrics |
JP2009186687A (en) * | 2008-02-05 | 2009-08-20 | National Institute Of Advanced Industrial & Technology | System and method for automatic time alignment of music audio signal and song lyrics |
US8880409B2 (en) | 2008-02-05 | 2014-11-04 | National Institute Of Advanced Industrial Science And Technology | System and method for automatic temporal alignment between music audio signal and lyrics |
JP2012522255A (en) * | 2009-03-27 | 2012-09-20 | 華為技術有限公司 | Audio signal classification method and apparatus |
US8682664B2 (en) | 2009-03-27 | 2014-03-25 | Huawei Technologies Co., Ltd. | Method and device for audio signal classification using tonal characteristic parameters and spectral tilt characteristic parameters |
JP2011180417A (en) * | 2010-03-02 | 2011-09-15 | Mitsubishi Electric Corp | Device and method for estimating pitch of music acoustic signal |
JP2013222140A (en) * | 2012-04-18 | 2013-10-28 | Yamaha Corp | Performance evaluation device, karaoke device, and server device |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8575465B2 (en) | System and method for scoring a singing voice | |
US7567900B2 (en) | Harmonic structure based acoustic speech interval detection method and device | |
US9852721B2 (en) | Musical analysis platform | |
US9804818B2 (en) | Musical analysis platform | |
JP2002082668A (en) | Generation of note base/chord | |
US20090171485A1 (en) | Segmenting a Humming Signal Into Musical Notes | |
US20110011247A1 (en) | Musical composition discrimination apparatus, musical composition discrimination method, musical composition discrimination program and recording medium | |
JP2008015214A (en) | Singing skill evaluation method and karaoke machine | |
Toh et al. | Multiple-Feature Fusion Based Onset Detection for Solo Singing Voice. | |
JP2008015388A (en) | Singing skill evaluation method and karaoke machine | |
JP2008015211A (en) | Pitch extraction method, singing skill evaluation method, singing training program, and karaoke machine | |
JP4222919B2 (en) | Karaoke equipment | |
JP6098422B2 (en) | Information processing apparatus and program | |
JP4271667B2 (en) | Karaoke scoring system for scoring duet synchronization | |
Barthet et al. | Speech/music discrimination in audio podcast using structural segmentation and timbre recognition | |
JP4862413B2 (en) | Karaoke equipment | |
JP2008015212A (en) | Musical interval change amount extraction method, reliability calculation method of pitch, vibrato detection method, singing training program and karaoke device | |
Tang et al. | Melody Extraction from Polyphonic Audio of Western Opera: A Method based on Detection of the Singer's Formant. | |
JP5447624B2 (en) | Karaoke equipment | |
CN113823270A (en) | Rhythm score determination method, medium, device and computing equipment | |
KR20050003814A (en) | Interval recognition system | |
Sharma et al. | Singing characterization using temporal and spectral features in indian musical notes | |
JP5034642B2 (en) | Karaoke equipment | |
JP4048249B2 (en) | Karaoke equipment | |
Kalayar Khine et al. | Exploring perceptual based timbre feature for singer identification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20080223 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090706 |
|
A072 | Dismissal of procedure [no reply to invitation to correct request for examination] |
Free format text: JAPANESE INTERMEDIATE CODE: A073 Effective date: 20110104 |