JP3613859B2 - Karaoke equipment - Google Patents
Karaoke equipment Download PDFInfo
- Publication number
- JP3613859B2 JP3613859B2 JP30304795A JP30304795A JP3613859B2 JP 3613859 B2 JP3613859 B2 JP 3613859B2 JP 30304795 A JP30304795 A JP 30304795A JP 30304795 A JP30304795 A JP 30304795A JP 3613859 B2 JP3613859 B2 JP 3613859B2
- Authority
- JP
- Japan
- Prior art keywords
- main melody
- singing
- harmony
- information
- audio signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Reverberation, Karaoke And Other Acoustics (AREA)
- Electrophonic Musical Instruments (AREA)
Description
【0001】
【発明の属する技術分野】
この発明は、歌唱等の旋律音声信号に対してハーモニー音声を付加する音声信号処理装置に関し、特に、複数の旋律音声信号が入力されたときに、このうち主旋律の音声信号のみに対してハーモニーを付加する音声信号処理装置に関する。
【0002】
【従来の技術】
カラオケの歌唱を盛り上げるために、歌唱者の歌唱に対してハーモニー(たとえば、歌唱の旋律に対して3度上の旋律)の音声を付加して出力するものが提案されている。ハーモニー機能としては、歌唱音声信号をピッチシフトしてハーモニー音を生成するものが一般的である。
【0003】
また、カラオケ曲のなかには、いわゆるデュエット曲など複数(二人)で歌唱するものもある。
【0004】
【発明が解決しようとする課題】
しかし、上記デュエット曲の場合、二人の歌唱音声信号が混ざって入力されるが、従来のハーモニー付加機能を有するカラオケ装置では、この全ての歌唱音声に対してハーモニーをつけてしまうため、複数パートが混ざりあった不明瞭な歌唱になってしまい、カラオケ歌唱を盛り上げることができず、かえって、二人の歌唱音声信号を損なってしまう欠点があった。
【0005】
この発明は、複数の歌唱音声信号が入力された場合でも、そのなかから主旋律のみを抽出してハーモニーを付加することのできるカラオケ装置を提供することを目的とする。
【0006】
【課題を解決するための手段】
請求項1の発明は、楽曲データ再生手段と、基本周波数情報抽出手段と、主旋律選択手段と、主旋律分離手段と、ピッチシフト手段と、歌唱分析手段とを備えるカラオケ装置であって、
楽曲データ再生手段は、楽曲データを再生して伴奏信号を出力すると共に、楽曲データに含まれる主旋律情報を主旋律選択手段に、ハーモニー情報をピッチシフト手段と歌唱分析手段に出力し、
基本周波数情報抽出手段は、マイクロホンからの音声信号からパート毎の基本周波数情報を抽出し、
主旋律選択手段は、パート毎の基本周波数情報のうち主旋律情報に合った基本周波数情報を選択情報として出力し、
主旋律分離手段は、マイクロホンからの音声信号を周波数分析し複数のパート音声信号に分離すると共に、主旋律選択手段からの選択情報に基づいてパート音声信号のうちの1つを主旋律音声信号として出力し、
ピッチシフト手段は、主旋律音声信号をハーモニー情報に基づいてピッチシフトしてハーモニー音声信号を出力し、
歌唱分析手段は、基本周波数情報に基づいて音声信号中の歌唱パート数を分析し、歌唱パート数が0の場合は第1の処理を、歌唱パート数が1の場合は第2の処理を、歌唱パート数が複数であって、ハーモニー情報に対応するハーモニーパートが含まれている場合は第3の処理を行い、
第1の処理は、主旋律選択手段と、主旋律分離手段と、ピッチシフト手段とを休止させ、
第2の処理は、主旋律選択手段と、主旋律分離手段とを休止させ、主旋律音声信号に代え音声信号をピッチシフト手段に入力し、
第3の処理は、主旋律分離手段と、ピッチシフト手段とを休止させる
ことを特徴とする。
請求項2の発明は、楽曲データ再生手段と、基本周波数情報抽出手段と、主旋律選択手段と、主旋律分離手段と、ピッチシフト手段と、歌唱分析手段とを備えるカラオケ装置であって、
楽曲データ再生手段は、楽曲データを再生して伴奏信号を出力すると共に、楽曲データに含まれるハーモニー情報をピッチシフト手段と歌唱分析手段に出力し、
基本周波数情報抽出手段は、マイクロホンからの音声信号からパート毎の基本周波数情報を抽出し、
主旋律選択手段は、パート毎の基本周波数情報のうち周波数の高さが所定番目の基本周波数情報を選択情報として出力し、
主旋律分離手段は、マイクロホンからの音声信号を周波数分析し複数のパート音声信号に分離すると共に、主旋律選択手段からの選択情報に基づいてパート音声信号のうちの1つを主旋律音声信号として出力し、
ピッチシフト手段は、主旋律音声信号をハーモニー情報に基づいてピッチシフトしてハーモニー音声信号を出力し、
歌唱分析手段は、基本周波数情報に基づいて音声信号中の歌唱パート数を分析し、歌唱パート数が0の場合は第1の処理を、歌唱パート数が1の場合は第2の処理を、歌唱パート数が複数であって、ハーモニー情報に対応するハーモニーパートが含まれている場合は第3の処理を行い、
第1の処理は、主旋律選択手段と、主旋律分離手段と、ピッチシフト手段とを休止させ、
第2の処理は、主旋律選択手段と、主旋律分離手段とを休止させ、主旋律音声信号に代え音声信号をピッチシフト手段に入力し、
第3の処理は、主旋律分離手段と、ピッチシフト手段とを休止させる
ことを特徴とする。
【0007】
上記発明の音声信号処理装置は、音声信号入力手段から複数の旋律音声信号を入力する。この装置はたとえばカラオケ装置に適用されるものであり、この場合には、音声信号入力手段は、歌唱用のマイクとそのマイクに接続されるアンプ等の機器となる。主旋律判定手段が、入力された複数の音声信号から主旋律の音声信号を判定する。主旋律の判定は、予め記憶しておいた主旋律情報に基づき、これに対応するものを主旋律と判定するようにしてもよく、また、あるルールに基づいて、例えば最高音の音声信号を主旋律情報とするなどのルールに基づいて判定してもよい。このようにして主旋律として判定された音声信号を前記入力された複数の音声信号から抽出する。複数の音声信号が別系統で入力されている場合には、そのうちの主旋律の系統を選択すればよく、複数の歌唱音声信号が1系統で入力されている場合には、そのなかから主旋律の基本倍音に該当する周波数成分のみを分離抽出するなどの方式で主旋律を抽出する。この抽出された主旋律の音声信号をピッチシフトしてハーモニー音声信号を生成する。ピッチシフトの方式は単純に読出クロックを変える方式もあり、また、フォルマントを移動させずに、周波数成分のみシフトする方式もある。
【0008】
このようにして生成されたハーモニー音声信号を入力された複数の音声信号に合成することによってハーモニーを伴う音声信号を出力することができる。
【0009】
【発明の実施の形態】
図面を参照してこの発明の実施形態であるカラオケ装置について説明する。このカラオケ装置は、いわゆる音源カラオケ装置である。音源カラオケ装置とは、楽曲データで音源装置を駆動することによりカラオケ演奏音を発生するカラオケ装置である。楽曲データとは、音高や発音タイミングを指定する演奏データ列などの複数トラックからなるシーケンスデータである。
【0010】
また、このカラオケ装置は、歌唱者の歌唱音声信号に3度や5度の音程のハーモニー音声信号を付加するハーモニー付加機能を有している。ハーモニー音声信号は、歌唱者の歌唱音声をピッチシフトすることにより3度や5度などの音程を有する音声信号を生成し、これをハーモニー音声信号として出力するものである。さらに、このカラオケ装置は、デュエット曲で2人が同時に歌っているときでも、そのうちどちらが主旋律であるかを判断しその主旋律の歌唱音声信号のみに対してハーモニーを付加する。
【0011】
図1は同カラオケ装置の要部のブロック図である。同図はカラオケ演奏音(伴奏音)および歌唱音の音声信号処理部のみを図示しており、歌詞や背景画像などの表示処理部や選曲部は従来より一般的な構成であるため図示を省略している。カラオケ演奏を行うための楽曲データはHDD15に記憶されている。HDD15には楽曲データが数千曲分記憶されており、図示しない選曲部によってそのうちの1曲が選択されると、シーケンサ14が該選択された楽曲データを読み込む。シーケンサ14は読み込んだ楽曲データを記憶するメモリと、この楽曲データをテンポクロックに基づいて順次読み出すシーケンスプログラム処理部を有しており、読み出されたデータはそのトラックに応じて所定の処理部に出力される。
【0012】
ここで、図2を参照して楽曲データの構成を説明する。同図(A)において、楽曲データは、曲名やジャンル等が書き込まれたヘッダに続いて、楽音トラック,主旋律トラック,ハーモニートラック,歌詞トラック,音声トラック,効果トラックおよび音声データ部からなっている。このうち、主旋律トラックは同図(B)に示すように複数のイベントデータと各イベントデータ間の時間間隔を示すデュレーションデータΔtからなるシーケンスデータで構成されている。シーケンサ14は、カラオケ演奏時に所定のテンポクロックでΔtをカウントし、このΔtをカウントアップしたときこれに続くイベントデータを読み出す。読み出されたこの主旋律トラックのイベントデータは、主旋律選択用のデータとして後述の主旋律選択部23に出力される。
【0013】
主旋律トラック以外のトラック、すなわち、楽音トラック,ハーモニートラック,歌詞トラック,音声トラック,効果トラックも主旋律トラックと同様、複数のイベントデータおよびデュレーションデータ列からなるシーケンスデータで構成されている。楽音トラックは、カラオケ演奏用のメロディトラック,リズムトラック,コードトラックなどの複数のシーケンストラックで構成されている。カラオケ演奏時にシーケンサ14がこの楽音トラックからイベントデータを読み出すと、そのデータを音源16に出力する。ハーモニートラックは、主旋律に付加すべきハーモニー旋律を記憶したトラックであり、このイベントデータは、歌唱分析部22やピッチシフト部26に出力される。音源16はこのデータに基づいて楽音信号を発生する。また、歌詞トラックは、画面に歌詞を表示するためのシーケンストラックである。シーケンサ14がこの歌詞トラックのイベントデータが読み出したとき、これを図示しない表示制御部に出力する。表示制御部はこのイベントデータに基づいて歌詞の表示を制御する。音声トラックは、音源16で合成することが困難なコーラス音声や合いの手などの人声信号の再生タイミングを指定するトラックである。人声信号は音声データとして音声データ部に複数記憶されている。カラオケ演奏中にシーケンサ14が音声トラックのイベントデータを読み出したとき、そのイベントデータで指定される音声データを後述の加算部28に出力する。これにより、この音声データがカラオケ演奏としてミキシングされる。効果トラックは音源16に含まれる効果部(DSPで構成される)を制御するためのトラックである。効果部が付与する効果としてはリバーブなどがある。このイベントデータは音源16に出力される。
【0014】
音源16は、シーケンサ14から入力された楽音イベントデータに基づいて、そのデータで指定される音色,音高,音量の楽音信号を形成する。この楽音信号はDSP13内の加算部28に入力される。
【0015】
一方、このカラオケ装置は、1本の歌唱用のマイク10を有しており、デュエット曲などで二人が歌唱した場合、2人の歌唱音は該1本のマイク10に入力される。マイク10から入力された歌唱の音声信号はアンプ11で増幅され、ADC12によってディジタル信号に変換される。このディジタル信号に変換された音声信号がDSP13に入力される。DSPはマイクロプログラムによって種々の機能を実現するが、このDSP13は、同図のブロックに示すような機能を実現するためのマイクロプログラムを記憶しており、前記ディジタル信号の1サンプリング周期にこの図示の機能を全て実行する速度でこのマイクロプログラムを実行している。
【0016】
同図において、ADC12から入力されたディジタル音声信号は自己相関分析部21およびディレイ24,27に入力される。自己相関分析部21は、入力された音声信号の各周波数成分の繰り返し周期を分析し、この繰り返し周期から複数の歌唱者の歌唱音声信号の基本周波数を検出する。
【0017】
図3は、前記自己相関分析部2における自己相関分析の手法を説明する図である。周期信号の自己相関関数も、信号と同じ周期の周期関数となることから、周期Pサンプルの信号の自己相関関数は信号の時間原点に無関係に、0,±P,±2P,…サンプル目に極大値に達する。そこで、自己相関関数の最初の極大点を見つけることで、その周期を推定することができる。同図において、極大値は整数倍でない複数の位置に現れており、これらが2人の歌唱者による異なる周波数の歌唱信号波の周期を示していることがわかる。これで、基本周波数が割り出される。自己相関分析部21は、この2つの基本周波数を歌唱分析部22および主旋律選択部23に入力する。また、有声音は明確な周期波形になるのに対し、無声音はノイズ的な波形になるため、これにより有声音/無声音の識別をすることができる。この識別結果は歌唱分析部22に入力される。
【0018】
主旋律選択部23は、シーケンサ14から入力される主旋律情報(主旋律トラックのイベントデータ)に基づいて、自己相関分析部21から入力された複数パートの可能音声信号の基本周波数のうちどれが主旋律であるかを割り出す。この選択情報は主旋律成分分離部25に入力される。
【0019】
一方、歌唱分析部22では自己相関分析部21から入力される基本周波数を含む分析情報に基づいて、現在の歌唱状態を分析する。歌唱状態とは、現在歌っている歌唱者の人数が0人(間奏等の無音区間)であるか、1人(ソロまたは掛け合い)であるか、2人以上(デュエット中)であるかの状態である。歌唱分析部22はこれを判断し、さらに2人以上が歌っている場合に主旋律以外の音声信号がハーモニーになっていないかなどの状態を検出する。ハーモニーの検出はシーケンサから入力されるハーモニー情報(ハーモニートラックのイベントデータ)に基づいて判断される。また、主旋律の発声が有声音であるか無声音であるかも判定する。
【0020】
歌唱分析部22は、この判定結果に基づいて主旋律選択部23や主旋律成分分離部25の動作内容を制御する。歌唱状態が無音区間であると判断した場合には、主旋律選択も主旋律成分分析も不要であるため、主旋律選択部23および主旋律成分分離部25の動作をこの期間休止させる。また、2人のうち一方が主旋律を歌唱し、他方がそれに対するハーモニーを歌唱している場合には、敢えてこれに重ねてハーモニー音を生成する必要がないため、主旋律成分分離部25を休止させる。主旋律分離部25が動作を休止すると後段のピッチシフト部26に入力される音声信号がないためピッチシフトによるハーモニー音の生成も休止することになる。
【0021】
また、現在歌唱者の一方しか歌っていないことが検出された場合には、歌われている旋律が主旋律であることは明らかであるため、主旋律選択部23の動作を休止させ、主旋律成分分離部25に入力された歌唱音声信号をスキップさせるように指示する。これにより、1人の歌唱音声信号がディレイ24から直接ピッチシフト部26に入力される。
【0022】
さらに、現在の主旋律の音声が有声音であるか無声音であるかで主旋律成分分離部25の分離アルゴリズムを切り換える。すなわち、有声音の場合には、比較的単純に基音(基本周波数)の倍音で歌唱音声信号が構成されているため、この原則に基づいて主旋律成分分離を行う。一方、無声音の場合には、非線形なノイズ成分が多く含まれているため、上記有声音とは異なる手法で主旋律の歌唱音声信号を分離する。
【0023】
主旋律成分分離部25により分離された主旋律の音声信号、または、主旋律成分分離部25をスキップした単独歌唱の音声信号はピッチシフト部26に入力される。ピッチシフト部26は、入力された音声信号をシーケンサ14から入力されるハーモニー情報に基づいてピッチシフトし、ハーモニーの音声信号として加算部28に出力する。
【0024】
ここで、ピッチシフト部26は、図4に示すように前段から入力された音声信号のフォルマント(周波数成分の包絡線)を保存し、そのフォルマントを構成する各周波数成分のみをピッチシフトする。ピッチシフトされた各周波数成分はそのピッチの包絡線に一致されるようにレベル調整される。これにより、音質を変えずに音高(周波数)のみをシフトすることができる。
【0025】
図1において、加算部28には、このハーモニー音声信号以外に前記音源16から入力されるカラオケ演奏音、シーケンサ14から直接入力されるコーラス音およびADC12からディレイ27を介して直接入力される歌唱音声信号が入力される。加算部28は、これらの歌唱音声信号,ハーモニー音声信号,カラオケ演奏音およびコーラス音を加算合成してステレオ信号にミキシングする。このミキシングされた音声信号はDSP13から出力され、DAC17に入力される。DAC17はこのディジタルステレオ信号をアナログ信号に変換してアンプ18に入力する。アンプ18はこのアナログ信号を増幅してスピーカ19から出力する。
【0026】
なお、DSP13のブロック中に挿入されている2つのディレイ24,27は、信号処理自己相関分析部21,歌唱分析部22および主旋律選択部23等における信号処理のための遅れ時間を吸収するためのものである。
【0027】
このようにこのカラオケ装置では、1本のマイク10から入力される複数(2人)の歌唱音声のうち何方が主旋律であるかを分析し、その主旋律のみにハーモニー歌唱を付加して出力するため、デュエット曲などを一緒に歌っていても、その主旋律に対してのみハーモニーを付加することができる。
【0028】
図5はこの発明の他の実施形態であるカラオケ装置の要部のブロック図である。このカラオケ装置と図1に示した第1の実施形態のカラオケ装置との相違点は、このカラオケ装置が歌唱者の人数分のマイク(同図では2本)を備え、各歌唱者の歌唱音声信号が別系統でDSPに入力される点である。カラオケ演奏用の楽曲データの記憶・読出部および歌唱音声信号とカラオケ演奏信号とが加算されたのちの信号系は上記第1の実施形態と同一であるため構成部に同一番号を付して説明を省略する。
【0029】
デュエット用の2本のマイク30,31はそれぞれ別系統のアンプ32,33で増幅され、ADC34,35でディジタル信号に変換されてDSP36に入力される。DSP36において、第1の歌唱音声信号(マイク30から入力された歌唱音声信号)は自己相関分析部41および加算部47に入力される。また、第2の歌唱音声信号(マイク31から入力された歌唱音声信号)は自己相関分析部42および加算部44,47に入力される。自己相関分析部41,42では、それぞれ第1の歌唱信号,第2の歌唱信号の基本周波数を分析する。この構成では、自己相関分析部41,42は、複数の歌唱音の基本周波数をぞれぞれ分離して分析する必要はない。分析結果は歌唱分析部43に入力される。歌唱分析部43は、入力された2人の歌唱音声信号の基本周波数およびシーケンサ14から入力される主旋律情報,ハーモニー情報に基づいて、歌唱人数判定動作,主旋律選択動作,ハーモニー検出動作を実行する。すなわち、2人が同時に歌唱しているか否か、二人で歌っている場合、どちらが主旋律か、また、他方の歌唱音が主旋律のハーモニーになっているかなどを分析する。主旋律選択動作により主旋律が選択されると、それに対応するセレクト信号をセレクタ45に入力する。セレクタ45は主旋律として選択された歌唱音声信号をピッチシフタ46に入力するべく接続を切り換える。ピッチシフタ46は、入力された音声信号をシーケンサ14から入力されるハーモニー情報に基づいてピッチシフトし、ハーモニー音声信号を生成する。
【0030】
ハーモニー音声信号は加算部49に入力される。加算部49には、このハーモニー音声信号以外に前記音源16から入力されるカラオケ演奏音、シーケンサ14から直接入力されるコーラス音およびADC12から加算部47−ディレイ48を経て入力される歌唱音声信号が入力される。加算部49は、これらの歌唱音声信号,ハーモニー音声信号,カラオケ演奏音およびコーラス音を加算合成してステレオ信号にミキシングする。このミキシングされた音声信号はDSP36から出力され、DAC17に入力される。
【0031】
なお、上記実施形態には、特許請求の範囲に記載した発明以外の発明も含まれており、この発明を特許請求の範囲の請求項1の発明の従属形式で記載すると以下のようになる。
【0032】
〔請求項2〕 前記音声信号入力手段は、複数の歌唱音声信号を1系統で入力する手段である請求項1に記載の音声信号処理装置。
【0033】
〔請求項3〕 前記主旋律判定手段は、入力された複数の音声信号のそれぞれの基本周波数を検出する手段と、検出された基本周波数と予め記憶されている主旋律情報とを比較して一致するものを主旋律と判定する手段とを含む請求項1に記載の音声信号処理装置。
【0034】
〔請求項4〕 前記主旋律抽出手段は、1系統で入力された複数の音声信号から主旋律の音声信号成分を分離抽出する手段である請求項2に記載の音声信号処理装置。
【0035】
〔請求項5〕 前記ハーモニー生成手段は、予め記憶されているハーモニー情報に基づいて前記主旋律の音声信号をピッチシフトする手段である請求項1に記載の音声信号処理装置。
【0036】
〔請求項6〕 主旋律以外の音声信号が該主旋律に対するハーモニーになっているか否かを検出するハーモニー検出手段と、該ハーモニー検出手段がハーモニーになっている音声信号を検出したとき前記ハーモニー生成手段を無効にする手段とを備えたことを特徴とする請求項1に記載の音声信号処理装置。
【0037】
〔請求項7〕 主旋律以外の音声信号が前記ハーモニー情報と一致するか否かを判定するハーモニー検出手段と、該ハーモニー検出手段がハーモニーになっている音声信号を検出したとき前記ハーモニー生成手段を無効にする手段とを備えたことを特徴とする請求項5に記載の音声信号処理装置。
【0038】
また、この発明はカラオケのような歌唱音声以外にも楽器演奏にも適用することができる。
【0039】
【発明の効果】
以上のようにこの発明によれば、複数の音声信号が入力されても、そのなかから主旋律を歌唱/演奏する音声信号を判定して抽出し、この音声信号のみにハーモニー音声を付加するため、主旋律を引き立てるハーモニーのみを付加することができ、主旋律でないものに対してハーモニーを付加して却って歌唱/演奏を損なうことがなくなる。
【0040】
また、入力された複数の音声信号から主旋律を判定するため、主旋律が交代するような演奏であってもそのなかから主旋律を抽出することができる。
【図面の簡単な説明】
【図1】この発明の実施形態であるカラオケ装置の要部の構成図
【図2】同カラオケ装置の楽曲データの構成を示す図
【図3】入力された歌唱音声信号の自己相関分析を説明する図
【図4】音声信号のピッチシフトの手法を説明する図
【図5】この発明の他の実施形態であるカラオケ装置の要部の構成図[0001]
BACKGROUND OF THE INVENTION
The present invention relates to an audio signal processing device for adding harmony to a melody audio signal such as singing, and in particular, when a plurality of melody audio signals are input, harmony is applied only to the main melody audio signal. The present invention relates to an audio signal processing apparatus to be added.
[0002]
[Prior art]
In order to enliven the singing of karaoke, what is output by adding a voice of harmony (for example, a melody three times higher than the melody of the singing) to the singing of the singer has been proposed. As the harmony function, one that generates a harmony sound by pitch shifting the singing voice signal is generally used.
[0003]
Also, some karaoke songs are sung in plural (two people) such as so-called duet songs.
[0004]
[Problems to be solved by the invention]
However, in the case of the above-mentioned duet music, two singing voice signals are mixed and input. However, in a conventional karaoke apparatus having a harmony addition function, since all the singing voices are harmonized, there are multiple parts. However, there was a drawback that the singing voice signal of the two people was damaged.
[0005]
An object of the present invention is to provide a karaoke apparatus that can extract harmony by extracting only the main melody from a plurality of singing voice signals.
[0006]
[Means for Solving the Problems]
The invention of
The music data reproduction means reproduces the music data and outputs an accompaniment signal, outputs the main melody information included in the music data to the main melody selection means, and outputs the harmony information to the pitch shift means and the singing analysis means,
The fundamental frequency information extracting means extracts fundamental frequency information for each part from the audio signal from the microphone,
The main melody selection means outputs the basic frequency information suitable for the main melody information among the basic frequency information for each part as selection information,
The main melody separation means frequency-analyzes the sound signal from the microphone and separates it into a plurality of part sound signals, and outputs one of the part sound signals as the main melody sound signal based on the selection information from the main melody selection means,
The pitch shift means pitch-shifts the main melody audio signal based on the harmony information and outputs a harmony audio signal.
The singing analysis means analyzes the number of singing parts in the audio signal based on the fundamental frequency information. When the number of singing parts is 0, the first process is performed. When the number of singing parts is 1, the second process is performed. If the number of singing parts is plural and the harmony part corresponding to the harmony information is included, the third process is performed.
The first process pauses the main melody selection means, the main melody separation means, and the pitch shift means,
In the second process, the main melody selection means and the main melody separation means are paused, and a voice signal is input to the pitch shift means instead of the main melody voice signal,
The third process pauses the main melody separation means and the pitch shift means.
It is characterized by that.
The invention of claim 2 is a karaoke apparatus comprising music data reproduction means, fundamental frequency information extraction means, main melody selection means, main melody separation means, pitch shift means, and singing analysis means,
The music data reproduction means reproduces the music data and outputs an accompaniment signal, and outputs the harmony information included in the music data to the pitch shift means and the singing analysis means,
The fundamental frequency information extracting means extracts fundamental frequency information for each part from the audio signal from the microphone,
The main melody selection means outputs the fundamental frequency information having a predetermined frequency height among the fundamental frequency information for each part as selection information,
The main melody separation means frequency-analyzes the sound signal from the microphone and separates it into a plurality of part sound signals, and outputs one of the part sound signals as the main melody sound signal based on the selection information from the main melody selection means,
The pitch shift means pitch-shifts the main melody audio signal based on the harmony information and outputs a harmony audio signal.
The singing analysis means analyzes the number of singing parts in the audio signal based on the fundamental frequency information. When the number of singing parts is 0, the first process is performed. When the number of singing parts is 1, the second process is performed. If the number of singing parts is plural and the harmony part corresponding to the harmony information is included, the third process is performed.
The first process pauses the main melody selection means, the main melody separation means, and the pitch shift means,
In the second process, the main melody selection means and the main melody separation means are paused, and a voice signal is input to the pitch shift means instead of the main melody voice signal,
The third process pauses the main melody separation means and the pitch shift means.
It is characterized by that.
[0007]
The audio signal processing apparatus of the above invention inputs a plurality of melodic audio signals from the audio signal input means. This apparatus is applied to, for example, a karaoke apparatus. In this case, the audio signal input means is a device such as a singing microphone and an amplifier connected to the microphone. The main melody determination means determines the main melody audio signal from the plurality of input audio signals. The determination of the main melody may be based on main melody information stored in advance, and the corresponding one may be determined as the main melody. Also, based on a certain rule, for example, the sound signal of the highest tone is used as the main melody information. You may determine based on rules, such as doing. The sound signal determined as the main melody in this way is extracted from the plurality of input sound signals. If multiple audio signals are input in different systems, the main melodic system can be selected. If multiple singing audio signals are input in one system, the main melodic basics can be selected. The main melody is extracted by a method such as separating and extracting only frequency components corresponding to overtones. The extracted main melody audio signal is pitch-shifted to generate a harmony audio signal. As a pitch shift method, there is a method in which the read clock is simply changed, and there is a method in which only the frequency component is shifted without moving the formant.
[0008]
By synthesizing the generated harmony audio signal into a plurality of input audio signals, an audio signal with harmony can be output.
[0009]
DETAILED DESCRIPTION OF THE INVENTION
A karaoke apparatus according to an embodiment of the present invention will be described with reference to the drawings. This karaoke apparatus is a so-called sound source karaoke apparatus. The sound source karaoke device is a karaoke device that generates a karaoke performance sound by driving the sound source device with music data. The music data is sequence data composed of a plurality of tracks such as a performance data string for designating pitches and sound generation timings.
[0010]
Moreover, this karaoke apparatus has a harmony addition function for adding a harmony voice signal having a pitch of 3 or 5 degrees to a singing voice signal of a singer. The harmony sound signal is a signal that generates a sound signal having a pitch of 3 degrees or 5 degrees by pitch-shifting the singing sound of the singer and outputs the sound signal as a harmony sound signal. Furthermore, this karaoke apparatus determines which one is the main melody even when two people are singing simultaneously in a duet song, and adds harmony only to the singing voice signal of the main melody.
[0011]
FIG. 1 is a block diagram of a main part of the karaoke apparatus. The figure shows only the voice signal processing unit for karaoke performance sound (accompaniment sound) and singing sound, and the display processing unit and the song selection unit for lyrics and background images are not shown because they have a more general configuration than before. doing. Music data for performing karaoke performance is stored in the
[0012]
Here, the composition of the music data will be described with reference to FIG. In FIG. 2A, the music data is composed of a music sound track, main melody track, harmony track, lyrics track, audio track, effect track, and audio data portion following a header in which the title, genre, etc. are written. Of these, the main melody track is composed of a plurality of event data and sequence data composed of duration data Δt indicating a time interval between the event data as shown in FIG. The
[0013]
Similar to the main melody track, tracks other than the main melody track, that is, a musical tone track, a harmony track, a lyrics track, an audio track, and an effect track, are composed of sequence data composed of a plurality of event data and duration data strings. The musical tone track is composed of a plurality of sequence tracks such as a melody track, a rhythm track, and a chord track for karaoke performance. When the
[0014]
Based on the musical tone event data input from the
[0015]
On the other hand, this karaoke apparatus has one
[0016]
In the figure, the digital audio signal input from the
[0017]
FIG. 3 is a diagram for explaining a method of autocorrelation analysis in the autocorrelation analysis unit 2. Since the autocorrelation function of the periodic signal is also a periodic function having the same period as the signal, the autocorrelation function of the signal of periodic P samples is 0, ± P, ± 2P,..., Regardless of the time origin of the signal. The maximum is reached. Therefore, the period can be estimated by finding the first local maximum of the autocorrelation function. In the figure, the maximum values appear at a plurality of positions that are not integer multiples, and it can be seen that these indicate the periods of singing signal waves of different frequencies by two singers. This determines the fundamental frequency. The
[0018]
Based on the main melody information (main melody track event data) input from the
[0019]
On the other hand, the singing analysis unit 22 analyzes the current singing state based on the analysis information including the fundamental frequency input from the
[0020]
The singing analysis unit 22 controls the operation contents of the main
[0021]
If it is detected that only one of the singers is currently singing, it is clear that the melody being sung is the main melody, so that the operation of the main
[0022]
Further, the separation algorithm of the main melody
[0023]
The main melody audio signal separated by the main melody
[0024]
Here, as shown in FIG. 4, the
[0025]
In FIG. 1, in addition to the harmony sound signal, the
[0026]
The two
[0027]
In this way, in this karaoke apparatus, in order to analyze which of the plural (two) singing voices inputted from one
[0028]
FIG. 5 is a block diagram of a main part of a karaoke apparatus according to another embodiment of the present invention. The difference between this karaoke device and the karaoke device of the first embodiment shown in FIG. 1 is that this karaoke device is provided with microphones (two in the figure) for the number of singers, and the singing voice of each singer. The signal is input to the DSP in a separate system. The music data storage / reading unit for karaoke performance and the signal system after the addition of the singing voice signal and the karaoke performance signal are the same as those in the first embodiment, and thus the same reference numerals are given to the components. Is omitted.
[0029]
The two
[0030]
The harmony audio signal is input to the adding
[0031]
The above embodiment includes inventions other than those described in the scope of claims, and the present invention is described as follows in the subordinate form of the invention of
[0032]
[Claim 2] The audio signal processing apparatus according to
[0033]
[Claim 3] The main melody determination means compares the means for detecting each fundamental frequency of a plurality of input audio signals with the detected fundamental frequency and the main melody information stored in advance. The audio signal processing apparatus according to
[0034]
[Claim 4] The audio signal processing apparatus according to claim 2, wherein the main melody extraction means is means for separating and extracting a main melody audio signal component from a plurality of audio signals input in one system.
[0035]
[Claim 5] The audio signal processing apparatus according to
[0036]
[Claim 6] Harmony detection means for detecting whether or not an audio signal other than the main melody is in harmony with the main melody, and the harmony generation means when the harmony detection means detects an audio signal in harmony. The audio signal processing apparatus according to
[0037]
[Claim 7] Harmony detection means for determining whether or not an audio signal other than the main melody matches the harmony information, and the harmony generation means is disabled when the harmony detection means detects an audio signal in harmony. The audio signal processing apparatus according to claim 5, further comprising:
[0038]
Further, the present invention can be applied to musical instrument performance in addition to singing voice such as karaoke.
[0039]
【The invention's effect】
As described above, according to the present invention, even when a plurality of audio signals are input, the audio signal for singing / playing the main melody is determined and extracted from the input, and the harmony audio is added only to the audio signal. Only harmony that enhances the main melody can be added, and singing / performance is not impaired by adding harmony to anything that is not the main melody.
[0040]
In addition, since the main melody is determined from a plurality of input audio signals, the main melody can be extracted from the performances in which the main melody alternates.
[Brief description of the drawings]
FIG. 1 is a block diagram of the main part of a karaoke apparatus according to an embodiment of the present invention. FIG. 2 is a block diagram showing the structure of music data of the karaoke apparatus. FIG. 4 is a diagram for explaining a pitch shift method of an audio signal. FIG. 5 is a configuration diagram of a main part of a karaoke apparatus according to another embodiment of the present invention.
Claims (2)
楽曲データ再生手段は、楽曲データを再生して伴奏信号を出力すると共に、楽曲データに含まれる主旋律情報を主旋律選択手段に、ハーモニー情報をピッチシフト手段と歌唱分析手段に出力し、
基本周波数情報抽出手段は、マイクロホンからの音声信号からパート毎の基本周波数情報を抽出し、
主旋律選択手段は、パート毎の基本周波数情報のうち主旋律情報に合った基本周波数情報を選択情報として出力し、
主旋律分離手段は、マイクロホンからの音声信号を周波数分析し複数のパート音声信号に分離すると共に、主旋律選択手段からの選択情報に基づいてパート音声信号のうちの1つを主旋律音声信号として出力し、
ピッチシフト手段は、主旋律音声信号をハーモニー情報に基づいてピッチシフトしてハーモニー音声信号を出力し、
歌唱分析手段は、基本周波数情報に基づいて音声信号中の歌唱パート数を分析し、歌唱パート数が0の場合は第1の処理を、歌唱パート数が1の場合は第2の処理を、歌唱パート数が複数であって、ハーモニー情報に対応するハーモニーパートが含まれている場合は第3の処理を行い、
第1の処理は、主旋律選択手段と、主旋律分離手段と、ピッチシフト手段とを休止させ、
第2の処理は、主旋律選択手段と、主旋律分離手段とを休止させ、主旋律音声信号に代え音声信号をピッチシフト手段に入力し、
第3の処理は、主旋律分離手段と、ピッチシフト手段とを休止させる
カラオケ装置。A karaoke apparatus comprising music data reproduction means, fundamental frequency information extraction means, main melody selection means, main melody separation means, pitch shift means, and singing analysis means,
The music data reproduction means reproduces the music data and outputs an accompaniment signal, outputs the main melody information included in the music data to the main melody selection means, and outputs the harmony information to the pitch shift means and the singing analysis means,
The fundamental frequency information extracting means extracts fundamental frequency information for each part from the audio signal from the microphone,
The main melody selection means outputs the basic frequency information suitable for the main melody information among the basic frequency information for each part as selection information,
The main melody separation means frequency-analyzes the sound signal from the microphone and separates it into a plurality of part sound signals, and outputs one of the part sound signals as the main melody sound signal based on the selection information from the main melody selection means,
The pitch shift means pitch-shifts the main melody audio signal based on the harmony information and outputs a harmony audio signal.
The singing analysis means analyzes the number of singing parts in the audio signal based on the fundamental frequency information. When the number of singing parts is 0, the first process is performed. When the number of singing parts is 1, the second process is performed. If the number of singing parts is plural and the harmony part corresponding to the harmony information is included, the third process is performed.
The first process pauses the main melody selection means, the main melody separation means, and the pitch shift means,
In the second process, the main melody selection means and the main melody separation means are paused, and a voice signal is input to the pitch shift means instead of the main melody voice signal,
The third process is a karaoke apparatus that pauses the main melody separation means and the pitch shift means.
楽曲データ再生手段は、楽曲データを再生して伴奏信号を出力すると共に、楽曲データに含まれるハーモニー情報をピッチシフト手段と歌唱分析手段に出力し、
基本周波数情報抽出手段は、マイクロホンからの音声信号からパート毎の基本周波数情報を抽出し、
主旋律選択手段は、パート毎の基本周波数情報のうち周波数の高さが所定番目の基本周波数情報を選択情報として出力し、
主旋律分離手段は、マイクロホンからの音声信号を周波数分析し複数のパート音声信号に分離すると共に、主旋律選択手段からの選択情報に基づいてパート音声信号のうちの1つを主旋律音声信号として出力し、
ピッチシフト手段は、主旋律音声信号をハーモニー情報に基づいてピッチシフトしてハーモニー音声信号を出力し、
歌唱分析手段は、基本周波数情報に基づいて音声信号中の歌唱パート数を分析し、歌唱パート数が0の場合は第1の処理を、歌唱パート数が1の場合は第2の処理を、歌唱パート数が複数であって、ハーモニー情報に対応するハーモニーパートが含まれている場合は第3の処理を行い、
第1の処理は、主旋律選択手段と、主旋律分離手段と、ピッチシフト手段とを休止させ、
第2の処理は、主旋律選択手段と、主旋律分離手段とを休止させ、主旋律音声信号に代え音声信号をピッチシフト手段に入力し、
第3の処理は、主旋律分離手段と、ピッチシフト手段とを休止させる
カラオケ装置。A karaoke apparatus comprising music data reproduction means, fundamental frequency information extraction means, main melody selection means, main melody separation means, pitch shift means, and singing analysis means,
The music data reproduction means reproduces the music data and outputs an accompaniment signal, and outputs the harmony information included in the music data to the pitch shift means and the singing analysis means,
The fundamental frequency information extracting means extracts fundamental frequency information for each part from the audio signal from the microphone,
The main melody selection means outputs the fundamental frequency information having a predetermined frequency height among the fundamental frequency information for each part as selection information,
The main melody separation means frequency-analyzes the sound signal from the microphone and separates it into a plurality of part sound signals, and outputs one of the part sound signals as the main melody sound signal based on the selection information from the main melody selection means,
The pitch shift means pitch-shifts the main melody audio signal based on the harmony information and outputs a harmony audio signal.
The singing analysis means analyzes the number of singing parts in the audio signal based on the fundamental frequency information. When the number of singing parts is 0, the first process is performed. When the number of singing parts is 1, the second process is performed. If the number of singing parts is plural and the harmony part corresponding to the harmony information is included, the third process is performed.
The first process pauses the main melody selection means, the main melody separation means, and the pitch shift means,
In the second process, the main melody selection means and the main melody separation means are paused, and a voice signal is input to the pitch shift means instead of the main melody voice signal,
The third process is a karaoke apparatus that pauses the main melody separation means and the pitch shift means.
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP30304795A JP3613859B2 (en) | 1995-11-21 | 1995-11-21 | Karaoke equipment |
US08/599,763 US5712437A (en) | 1995-02-13 | 1996-02-12 | Audio signal processor selectively deriving harmony part from polyphonic parts |
CNB961024089A CN1146858C (en) | 1995-02-13 | 1996-02-13 | Audio signal processor selectively deriving harmony part from polyphonic parts |
EP96102092A EP0726559B1 (en) | 1995-02-13 | 1996-02-13 | Audio signal processor selectively deriving harmony part from polyphonic parts |
DE69608826T DE69608826T2 (en) | 1995-02-13 | 1996-02-13 | Device for processing audio signals, in which a harmonic voice is derived from polyphonic voices |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP30304795A JP3613859B2 (en) | 1995-11-21 | 1995-11-21 | Karaoke equipment |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP1995024337 Division | 1995-02-13 | 1995-02-13 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH08227296A JPH08227296A (en) | 1996-09-03 |
JP3613859B2 true JP3613859B2 (en) | 2005-01-26 |
Family
ID=17916287
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP30304795A Expired - Fee Related JP3613859B2 (en) | 1995-02-13 | 1995-11-21 | Karaoke equipment |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3613859B2 (en) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3552379B2 (en) * | 1996-01-19 | 2004-08-11 | ソニー株式会社 | Sound reproduction device |
JP4010019B2 (en) * | 1996-11-29 | 2007-11-21 | ヤマハ株式会社 | Singing voice signal switching device |
JP3508981B2 (en) * | 1997-11-12 | 2004-03-22 | 日本電信電話株式会社 | Method for separating, separating and extracting melodies included in music performance |
JP3511360B2 (en) * | 1998-03-09 | 2004-03-29 | 日本電信電話株式会社 | Music sound signal separation method, its apparatus and program recording medium |
JP2000181466A (en) * | 1998-12-15 | 2000-06-30 | Yamaha Corp | Karaoke device |
JP6793422B1 (en) * | 2020-02-04 | 2020-12-02 | Jeインターナショナル株式会社 | Audio compensator, singing system, audio compensator, and program |
-
1995
- 1995-11-21 JP JP30304795A patent/JP3613859B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH08227296A (en) | 1996-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5712437A (en) | Audio signal processor selectively deriving harmony part from polyphonic parts | |
JP2921428B2 (en) | Karaoke equipment | |
US5876213A (en) | Karaoke apparatus detecting register of live vocal to tune harmony vocal | |
JP3293745B2 (en) | Karaoke equipment | |
US7563975B2 (en) | Music production system | |
JP3718919B2 (en) | Karaoke equipment | |
EP0723256B1 (en) | Karaoke apparatus modifying live singing voice by model voice | |
JP4204941B2 (en) | Karaoke equipment | |
JP3996565B2 (en) | Karaoke equipment | |
JP3176273B2 (en) | Audio signal processing device | |
JP3613859B2 (en) | Karaoke equipment | |
JP3750533B2 (en) | Waveform data recording device and recorded waveform data reproducing device | |
JPH06149242A (en) | Automatic playing device | |
JP2000330580A (en) | Karaoke apparatus | |
JP2005107332A (en) | Karaoke machine | |
JP2904045B2 (en) | Karaoke equipment | |
JPH10143177A (en) | Karaoke device (sing-along machine) | |
JP4910764B2 (en) | Audio processing device | |
JPH0341498A (en) | Musical sound data generating device | |
JPH10171475A (en) | Karaoke (accompaniment to recorded music) device | |
JP2005107265A (en) | Musical work recording data and musical work recording medium | |
JPH08234784A (en) | Harmony generating device | |
JPH10240272A (en) | Acoustic equipment reproducing song | |
JPH0772882A (en) | Karaoke device | |
JPH10301581A (en) | Karaoke device with vocal mimicry function |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20040402 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040727 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040927 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20041012 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20041025 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313532 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20071112 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081112 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081112 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091112 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101112 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101112 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111112 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111112 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121112 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121112 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131112 Year of fee payment: 9 |
|
LAPS | Cancellation because of no payment of annual fees |