JP4581699B2 - 音程認識装置およびこれを利用した音声変換装置 - Google Patents

音程認識装置およびこれを利用した音声変換装置 Download PDF

Info

Publication number
JP4581699B2
JP4581699B2 JP2005014707A JP2005014707A JP4581699B2 JP 4581699 B2 JP4581699 B2 JP 4581699B2 JP 2005014707 A JP2005014707 A JP 2005014707A JP 2005014707 A JP2005014707 A JP 2005014707A JP 4581699 B2 JP4581699 B2 JP 4581699B2
Authority
JP
Japan
Prior art keywords
pitch
deviation
value
interval
music
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005014707A
Other languages
English (en)
Other versions
JP2006201614A (ja
Inventor
真儀 河野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Victor Company of Japan Ltd
Original Assignee
Victor Company of Japan Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Victor Company of Japan Ltd filed Critical Victor Company of Japan Ltd
Priority to JP2005014707A priority Critical patent/JP4581699B2/ja
Publication of JP2006201614A publication Critical patent/JP2006201614A/ja
Application granted granted Critical
Publication of JP4581699B2 publication Critical patent/JP4581699B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Auxiliary Devices For Music (AREA)
  • Electrophonic Musical Instruments (AREA)

Description

本発明は、音程偏差を算出する音程認識装置およびこれを利用した音声変換装置に関する。
従来テープレコーダで楽曲を録音および再生し私的に楽しむ形態が普及していた。近年はミニディスク(MD)などの普及によりテープレコーダは使用されなくなってきており、テープレコーダの入手自体が困難になってきている。しかし、過去にテープレコーダで録音したコンテンツの中には家族や友人の演奏した楽曲やラジオ放送を録音したものなど再入手困難なコンテンツがある。これらを今後再生するためにコンパクトディスク(CD)、MD、パーソナルコンピュータのハードディスク(HDD)などの記録媒体にデータを変換して記録することが行われている。これらの記録媒体に記録することにより、将来にわたっていつでもコンテンツを再生して楽しむことが可能になる。
ところで、従来使用されていたテープレコーダの再生速度は媒体を駆動するモータの回転速度や媒体送りの軸の太さに依存しているため、通常±1.5%程度の再生速度偏差が生じる。これに加え、録音装置と再生装置とが異なり、録音装置が規格より早い速度偏差を持ち、再生装置が規格より遅い速度偏差を持つような場合、さらに速度偏差が大きくなってしまうことがある。その結果、音程がオリジナルの音程とずれてしまい、再生した楽曲に合わせて楽器を演奏する場合などに楽器の音程と再生した楽曲の音程とが微妙にずれ、不快な思いをするという問題があった。
この音程のずれを解消するために、再生装置に再生速度を変えることができる機能を設け音程のずれを修正してCD等に取り込む方法がある。しかし、この方法を用いるには使用者が音程の微細なずれを認識する高度な音程識別能力を有することが必要であり、一般的に使用することは難しかった。音程の微細なずれを認識する装置として、楽器の音階を正しくチューニングするためのチューナーと呼ばれる装置があり、これは予め設定されている基準音に対して楽器などで発せられた音が高いか低いかをランプやメーターで表示するものである。しかし、従来のチューナーは単一音でなければずれを認識することができず、認識しても音程を合わせる操作に手間がかかるという問題があった。
また、カラオケにおいて伴奏音楽の音程とずれた音程の歌声が発せられた場合にその歌声の音程を補正する装置として、特許文献1に記載の装置がある。この装置は、歌声の音程を抽出するとともに伴奏音楽の音階から歌声の音程に至近の音程を検出し、音声の音程を至近の音程に周波数変換する。この変換により、歌声の音程が伴奏音楽の音程に近くなるように自動的に補正されてスピーカから出力されるため、使用者に手間がかからずに音程を変換することができる。
特開2003−167587号
しかし、特許文献1のカラオケ装置も歌声の音程のずれを認識して変換する場合、単一音で認識しており、複数の音が重なった楽曲の音程のずれを算出することはできないという問題があった。
本発明は上記事情に鑑みてなされたものであり、入力した楽曲が複数の音が重なった楽曲でも基準となる音程とのずれを算出することができる音程認識装置を提供することを目的とする。
また、上記音程認識装置で算出された音程のずれを基に、入力した楽曲の音程を使用者が調整をすることなく自動的に変換することができる音声変換装置を提供することを目的とする。
上記目的を達成するための請求項1に記載の音程認識装置は、入力された楽曲のデジタル音声データを予め設定された処理区間で区切る処理区間区切り手段と、前記処理区間ごとに区切られ時間領域で表される前記デジタル音声データを周波数データに変換する周波数データ変換手段と、変換された前記周波数データのエネルギー値のピーク値を検出するピーク値検出手段と、検出されたピーク値から、予め設定された数のピーク値を選択するピーク値選択手段と、選択されたピーク値を持つ周波数と、基準とする音の周波数との周波数偏差の値を求め、この周波数偏差の値によって前記ピーク値を、前記基準とする音に対する複数の音程偏差に分類するピーク値分類手段と、分類されたピーク値の数をそれぞれ前記処理区間ごとに加算集計するピーク値区間集計手段と、前記ピーク値の集計値の最頻値が3分類以上ある場合、もしくは2分類ありその2分類が隣り合っていない場合は、当該処理区間における音程偏差は不定とし、前記最頻値が1分類のみである場合は、その分類の音程偏差を当該処理区間の音程偏差として算出する区間音程偏差算出手段と、前記楽曲ごとに前記処理区間ごとの音程偏差を加算集計する区間音程偏差集計手段と、前記音程偏差の集計値を基に、基準となる音階に対する前記楽曲全体の音程偏差を算出する全体音程偏差算出手段とを備えることを特徴とする。
また、請求項2は請求項1に記載の音程認識装置であり、前記区間音程偏差算出手段は、前記最頻値が2分類ありその2分類が隣り合っている場合にはその2分類の音程偏差を当該処理区間の音程の偏差として算出し、前記区間音程偏差集計手段は、前記区間音程偏差算出手段において前記最頻値が2分類ありその2分類が隣り合っている場合に当該処理区間の音程の偏差として算出された2分類の音程偏差はそれぞれ寄与率を1/2として、前記楽曲ごとに前記処理区間ごとの音程偏差を加算集計することを特徴とする。
また、請求項は請求項1または2に記載の音声認識装置であり、前記ピーク値分類手段で分類されたピーク値を持つ周波数に対応する音名を算出するとともに、前記ピーク値を音名ごとに分類するピーク値音名分類手段と、音名ごとに分類されたピーク値を集計するピーク値音名集計手段と、前記ピーク値音名集計手段で集計された集計値を基に前記楽曲の調性を算出する調性算出手段とを備えることを特徴とする。
また、請求項4に記載の音声変換装置は、請求項1〜3いずれか1項に記載の音程認識装置と、前記音声認識装置に入力された楽曲のデジタル音声データを記憶する中間記憶手段と、前記音声認識装置によって算出された前記楽曲全体の音程偏差を基に、前記中間記憶手段に記憶されている前記デジタル音声データを変換して変換デジタル音声データを生成する音程変換手段とを備えることを特徴とする。
本発明の音程認識装置によれば、入力した楽曲が複数の音が重なった楽曲でも基準となる音程とのずれを算出することができる。
また、本発明の音声変換装置によれば、入力した楽曲の音程と基準となる音程とのずれを算出するとともに、入力した楽曲の音程を自動的に変換して基準となる音程に合わせることが可能であり、使用者は簡単な使用方法で利用することができる。
《第一実施形態》
〈前提とする条件〉
本発明の第一実施形態による音程認識装置を説明するにあたり、前提とする条件について説明する。
まず、本実施形態で対象とする楽曲は、1オクターブを12音に分けた音で構成される、いわゆる西洋音階から構成される楽曲である。この西洋音階で構成され現在多く使われている鍵盤楽器の中央のA(ハ長調の「ラ」)の音の周波数は、440Hzである。また、この西洋音階の隣り合う音の周波数の比率は一定であり、いわゆる平均律で楽曲が構成されている。
1オクターブ離れた2音の低音と高音との周波数の比率は、1:2である。1オクターブは12音から構成されるので、隣り合う2音の低音と高音との周波数比率は、下記式(1)で表される。
Figure 0004581699
この隣り合う2音の周波数比率を100セントと表現する。本実施形態において、上記の周波数および周波数比率により表される音階を基準音階とする。
また本実施形態において、音程認識装置に入力する楽曲は以下の性質を持つものとする。
(1)基準音階の音程との差(以下、「音程偏差」と呼ぶ)は小さな値であり、一般的に50セント以下である。
(2)音程偏差は1曲を通じてほとんど変化しない。
(3)オリジナルの楽曲は基準音階の音で演奏されている。
(4)発音される個々の楽器や声楽の音は正確な音程ではない場合がある。
また、入力するのは楽曲であり、楽曲を演奏する際には音程の揺らぎが生ずることがあることを考慮して、音程偏差を算出するための周波数分解能を適切に設定する必要がある。そのため、基準音階において隣り合う音との間隔である半音を10段階に分割する程度の周波数分解能、すなわち10セント程度での音程偏差の算出が適当である。この10セントという値に絶対的な意味はなく、5〜15セント程度の周波数分解能が実現できればよい。
また、オリジナルの楽曲の音程が基準音階の音を持つということは、換言すれば、楽音として音程を持って発せられる音の周波数をfとすると、fは下記式(2)で表され基準音階の音名を表すfのいずれかに等しくなるということである。
Figure 0004581699
ここで、音程に一定の偏差がある場合、音程偏差をaとして下記式(3)で表されるf’を式(2)のfの代わりに使うことにより入力するオリジナルの楽曲の音程を表すことができる。
Figure 0004581699
また、楽曲には音程を持つ楽音以外にも打楽器や歌声の子音など明確な音程を持たないものもあるので、発せられる音の周波数全てがfに近いわけではない。
〈第一実施形態による音程認識装置10aの構成〉
上記の内容を前提とし、本発明の第一実施形態による音程認識装置10aを図1および図2を用いて説明する。
本実施形態における音程認識装置10aを示すブロック図を図1に示す。本実施形態における音程認識装置10aは、デジタル音声データを入力し、音程偏差を算出して出力するものである。
本実施形態における音程認識装置10aは、処理区間区切り手段101と、周波数データ変換手段102と、ピーク値検出手段103と、ピーク値選択手段104と、ピーク値分類手段105と、ピーク値区間集計手段106と、区間音程偏差算出手段107と、区間音程偏差集計手段108と、全体音程偏差算出手段109とを有する。
処理区間区切り手段101は、入力されたデジタル音声データを後述するような予め設定された処理区間単位に区切る。以下の周波数データ変換手段102から区間音程偏差算出手段107までは、区切られた1処理区間ごとに実行される。周波数データ変換手段102は、サンプリングされたデジタル音声データを時間領域で表される時間データから周波数データに変換する。ピーク値検出手段103は、変換された周波数データからピークを生じているエネルギー値(以下、ピーク値という。)を検出する。ピーク値選択手段104は、検出されたピーク値からさらに予め設定された数のピーク値を大きいものから選択する。ピーク値分類手段105は、選択されたピーク値を持つそれぞれの周波数の式(2)fに対する偏差を算出するとともに、この偏差の値によってピーク値を分類する。ピーク値区間集計手段106は、区切られた処理区間ごとに分類されたピーク値を加算集計する。区間音程偏差算出手段107は、ピーク値区間集計手段106での集計結果を基に処理区間ごとの音程偏差を算出する。区間音程偏差集計手段108は、算出された処理区間ごとの音程偏差を分類し加算集計する。全体音程偏差算出手段109は、処理区間ごとの音程偏差の集計結果を基に楽曲全体の音程偏差を算出する。
〈第一実施形態による音程認識装置10aの動作〉
以下、本実施形態における音程認識装置10aの動作を図2のフローチャートを用いて説明する。
まず、音程認識の対象となる楽曲のデジタル音声データ列である入力データが音程認識装置10aに入力される(S1)。本実施例において入力されるデジタル音声データ列は、44100Hzのサンプリング周波数でサンプリングされ、1サンプルあたり16ビットの量子化ビット数のデジタル音声データである。
入力されたデジタル音声データは、音程認識装置10aの処理区間区切り手段101によって後述する処理区間単位に区切られる(S2)。以下、一区間ごとに処理が行われる。
処理区間ごとに区切られたデシタル音声データの時間データは、周波数データ変換手段102によって周波数データに変換される(S3)。変換方法は、本実施形態ではFFT(Fast Fourier Transform:高速フーリエ変換)が使用される。FFTを使用するときはサンプル数は2のべき乗になっている必要があるので、サンプリング周波数の44100Hz(44100サンプル/秒)を網羅する最小の2のべき乗である216、つまり65536サンプルを1処理区間の単位とする。
また、音程のずれは2つの周波数の比で表され、周波数の差が同じなら高音よりも低音のほうが音程のずれが大きいため、周波数データに変換される際の周波数分解能は低音の周波数を基に算出される。一般的に楽曲の音声成分のうちベースや通奏低音などの低い周波数の成分は220Hz程度であり、この成分の半音(100セント)に相当する周波数は式(1)を基に算出すると約13Hzになる。このとき、5〜10セントの分解能で音程を識別するためには、周波数分解能は13Hzの1/10以下である必要があり、望ましくは0.5から1Hz程度である。本実施形態における周波数分解能は、44100Hz/65536サンプル、つまり0.673Hzであり、上記の望ましい範囲に含まれる。
次に、ピーク値検出手段103によって、周波数データからエネルギー値のピーク値が検出される(S4)。この検出は、単純に前後のデータよりも大きいデータを持つ値を抜き出す方法により行われる。ここでデジタル音声データは0Hzから44100Hzまでの周波数データに変換されているが、そのうち音声の基音のみ認識できれば良いので、周波数を100Hzから1000Hzの範囲に制限してピーク値が検出される。
次に、ピーク値選択手段104によって、検出された処理区間内の複数のピーク値からエネルギー値が上位のピーク値が選択される(S5)。エネルギー値が上位のピーク値の選択数は10〜20が適切であり、単純に上位のピーク値が固定数選択される方法で行われる。
選択された上位のピーク値は、ピーク値分類手段105においてhist(−4)からhist(5)で表される10値の分類値に分類される(S6)。この分類値の分解能は半音のセント値である100セントを10分割した10セントであり、ここでhist(0)は基準音階の音、hist(5)は基準音階の音より50セント程度高い音と認識される音、hist(−4)は基準音階の音より40セント程度低い音と認識される音である。
選択されたピーク値が、これら10値のどの分類に属するかを算出する方法について説明する。まず、選択されたピーク値を持つ周波数と式(2)のfとの比率(セント値)が算出される。基準音階の音の周波数はここでは440Hzにするが、基準音階の音であればどの音の周波数を使用しても構わない。基準音階の音の周波数440Hzとの比率(セント値)をnとすると、nは下記式(4)で表される。
Figure 0004581699
ここで、r=f/440とし、定数を小数にすると、下記式(5)で表される。
Figure 0004581699
前述したように半音は常に100セントであるので、分割数やサンプリング周波数にかかわらず、440Hzを基準にした基準音階を構成する音の周波数のセント値nを100で割った剰余は必ず0になる。言い換えればここで算出したnを100で割った剰余が基準音階の音程に対する偏差になる。
このセント値nを100で割った剰余をmとすると、mが95から99までと0から4までの時はhist(0)、つまり基準音階の音程であると判断される。mが5から14はhist(1)、15から24はhist(2)、25から34はhist(3)、35から44はhist(4)、45から54はhist(5)、55から64はhist(−4)、65から74はhist(−3)、75から84はhist(−2)、85から94はhist(−1)に分類される。
次に、ピーク値区間集計手段106によって、分類されたピーク値の数が区間ごとに加算集計される(S7)。そしてこの集計値を基に、区間音程偏差算出手段107により処理区間ごとの音程の偏差が算出される(S8)。
処理区間ごとの音程の偏差の算出方法について説明する。集計されたピーク値は理想的には特定の分類に集中するが、現実には、(a)音程のない打楽器が入っている、(b)基音以外の倍音が多く含まれている、(c)演奏中に音程がずれる、などの理由により、特定の分類に集中しないことがある。基本的には区間ごとの集計値の最頻値を持つ分類がその区間での偏差となるが、最頻値が明確でない場合は以下の方法により偏差が算出される。
最頻値が3分類以上あり同じ値の場合、もしくは2分類あり同じ値の場合、しかもその分類どうしが隣り合っていない場合、その処理区間における音程の偏差は不定とみなされ、算出されない。最頻値が隣り合う2分類の場合は両者をその処理区間における音程の偏差とするが、全体集計する際には寄与率を1/2とする。最頻値が1分類のみの場合は、その分類をその処理区間における音程の偏差とする。
上記の方法により算出された各処理区間の音程偏差は、全体音程偏差算出手段109により楽曲ごとに加算集計される(S9)。集計されることにより、最頻値を持つ分類の音程偏差がこの楽曲全体の音程偏差として算出される(S10)。
以上の第一実施形態による音程認識装置10aにより、デジタル音声データ列で表された楽曲が入力されると基準音階に対する音程偏差が自動的に算出され、ユーザに楽曲の音程のずれに関する情報を提供することができる。
《第二実施形態》
本発明の第二実施形態による音程認識装置10bを図3および図4を用いて説明する。本実施形態における前提条件は、第一実施形態と同様である。
〈第二実施形態による音程認識装置10bの構成〉
本実施形態における音程認識装置10bを示すブロック図を図3に示す。
本実施形態においては、音程認識装置10bにピーク値音名分類手段110、音名集計手段111、および調性算出手段112を有する他は第一実施形態の音程認識装置10aと同じ構成である。音程認識装置10aと同じ構成部分については説明を省略する。
本実施形態におけるピーク値音名分類手段110はピーク値選択手段104で選択されたピーク値を音名別に分類し、音名集計手段111は音名別に分類されたピーク値を加算集計し、調性算出手段112は音名集計手段111での集計結果を基に楽曲の調性を算出する。
〈第二実施形態による音程認識装置10bの動作〉
以下、本実施形態における音程認識装置10bの動作を図4のフローチャートを用いて説明する。
図4において、S21〜S30は図2のS1〜S10と同じ処理であるため説明を省略する。
ステップS25において、デジタル音声データから変換された周波数データのピーク値が選択されると、このピーク値が第一実施形態のステップS6と同様の処理で分類される(S26)とともに、ピーク値音名分類手段110において音名が算出され、この音名ごとに分類される(S31)。
ピーク値の音名を算出する方法について説明する。まず、選択されたピーク値を持つ周波数と基準音階の音の周波数との比率(セント値)が算出される。基準音階の音の周波数はここでは440Hzにするが、基準音階の音であればどの周波数を使用しても構わない。基準音階の音の周波数440Hzとの比率(セント値)をnとすると、nは下記式(6)で表される。
Figure 0004581699
ここで、r=f/440とし、定数を小数にすると、下記式(7)で表される。
Figure 0004581699
前述したように半音は常に100セントであるので、分割数やサンプリング周波数にかかわらず、セント値nの十の位を四捨五入した百の位以上の値により音名が算出される。このとき、1200セントは1オクターブであり、1200セント離れた周波数は同じ音名である。セント値をnとすると音名pは、下記式(8)で表される。
Figure 0004581699
pは0から11までの値をとり、基準音階の音の周波数が440Hzの場合、pが0のときはAの音、1のときはA♯もしくはB♭の音、2のときはBの音・・・11のときはG♯もしくはA♭の音になる。
上記の方法で算出された音名別にピーク値が分類されるとき、ピーク値分類手段105によって分類されたhist(−4)からhist(5)ごとに分類され、音名集計手段111において加算集計される(S32)。
1曲の全ての区間処理が終了した後、調性算出手段112で調性が算出される(S33)。ここで、hist(−4)からhist(5)に分類されて集計されているデータのうち、全体偏差算出手段によって算出された偏差量mに対するhist(m)に分類されたデータのみが用いられる。
調性を算出する方法について説明する。音名集計手段111では、分類hist(m)に該当するデータがAからG♯までの12音名に分類され、それぞれの頻度値が加算集計されている。この12個のデータのうち、頻度値の低いものが5個取り除かれる。そして、残った音名で作成可能な音階の調性が選択される。
例えば、音名集計手段111でA♯、C、D、F、Gが取り除かれ、A、B、C♯、D♯、E、F♯、G♯が使用されるとする。この7つの音名により作成される音階の調性はホ長調(E Major)もしくは嬰ハ短調(C♯ Minor)であるので、調性算出手段112で算出される調性はこの2調性ということになる。取り除かれた音名が5個以外であったり、矛盾したデータが取り除かれた場合、算出される調性が複数あったり1つもなかったりする場合がある。その場合は、矛盾する音名が少ない調性が選択される。
例えば、A、C♯、D♯、F♯、G♯が取り除かれ、A♯、B、C、D、E、F、Gが残っているとする。この場合、残った7音全ての音名により作成可能な音階はないが、この7音のうち6音により作成可能な音階の調性は、ハ長調(C Major)、イ短調(A Minor)、ヘ長調(F Major)、ニ短調(D Minor)であるので、この楽曲の調性はこれら6調のいずれかであると判断される。
以上の第二実施形態による音程認識装置10bにより、音程偏差の他に調性も算出され、音程のずれに関する情報のみでなく調性の情報もユーザに提供することができる。
《第三実施形態》
本発明の第三実施形態による音声変換装置1aを図5および図6を用いて説明する。本実施形態における前提条件は、第一実施形態と同様である。
〈第三実施形態による音声変換装置1aの構成〉
本実施形態は第一実施形態による音程認識装置10aを利用して音声変換装置1aを構成したものであり、本実施形態中の音程認識装置10aは第一実施形態による音程認識装置10aと構成および処理内容が同じであるため説明は省略する。
図5は、本発明の第三実施形態における音声変換装置1aを示す全体図である。本実施形態における音声変換装置1aは、音声取り込み手段20と、中間記憶手段30と、音程認識装置10aと、音程変換手段40とを備える。
音声取り込み手段20は、テープレコーダ等の入力装置2から入力された音声を予め設定されたサンプリング周波数でサンプリングし、デジタル音声データを得る。中間記憶手段30は、得られたデジタル音声データを記憶する。音程変換手段40は、中間記憶手段30に記憶されたデジタル音声データを、音程認識装置10aで算出された音程偏差分変換し、出力装置3に送信する。
〈第三実施形態による音声変換装置1aの動作〉
以下、本実施形態における音声変換装置1aの動作を図6のフローチャートを用いて説明する。
まず、テープレコーダなどの入力装置2から音声変換装置1aに楽曲が入力される(S41)。入力された楽曲は、音声取り込み手段20において所定のサンプリング周波数、例えば44100Hzでサンプリングされ、デジタル音声データに変換される(S42)。このデジタル音声データは中間記憶手段30および音程認識装置10aに送信される。
中間記憶手段30では、受信したデジタル音声データが一旦蓄積される(S43)。音程認識装置10aでは、受信したデジタル音声データに第一実施形態と同様の処理が行われ、楽曲全体の音程偏差が算出される(S44)。
次に、音程変換手段40において、中間記憶手段30に蓄積されたデジタル音声データが音程認識装置10aで算出された楽曲全体の音程偏差を基に変換される(S45)。この音程の変換は、デジタル音声データをリサンプリングすることにより行われる。リサンプリングを行うと音程と同時に音長も変化するため、テープレコーダ等の入力装置2で楽曲が録音または再生される際に生じた速度偏差も減少させることができる。
音程変換手段40で変換されたデジタル音声データは、出力装置3に送信されることにより、基準音階に準じた楽曲が出力され再生される。
以上の第三実施形態による音声変換装置1aにより、入力された楽曲が基準音階に準じて変換されたデジタル音声データを得ることができる。
《第四実施形態》
本発明の音声変換装置1aとしてパーソナルコンピュータ4を用いた第四実施形態について図7を用いて説明する。本実施形態における前提条件は、第一実施形態と同様である。
〈第四実施形態による音声変換装置1aとしてのパーソナルコンピュータ4の構成〉
図7は音声変換装置1aとしてパーソナルコンピュータ4を使用した場合の外観図である。本実施形態におけるパーソナルコンピュータ4には、入力装置2としてのテープレコーダ5が接続されている。本実施形態による音声変換装置1aの動作は、パーソナルコンピュータ4上のソフトウェアで実現される。パーソナルコンピュータ4は、操作ボタンを表示する表示画面41を有し、操作ボタンには音声取り込みを開始させるためのスタートボタン42、停止させるためのストップボタン43、および音程変換を実行させるための実行ボタン44がある。また、パーソナルコンピュータ4は、変換したデジタル音声データを記憶するハードディスク45を有する。
〈第四実施形態による音声変換装置1aとしてのパーソナルコンピュータ4の動作〉
まず、音声変換装置1aとしてのパーソナルコンピュータ4上でユーザによりソフトウェアが起動された後、パーソナルコンピュータ4に接続されたテープレコーダ5が再生状態にされるとともにソフトウェアにより表示されているスタートボタン42が操作されることにより、テープレコーダ5から再生された楽曲の音声がパーソナルコンピュータ4に入力される。
テープレコーダ5から楽曲の再生が終了した後、ユーザによりテープレコーダ5は停止状態にされるとともにパーソナルコンピュータ4の表示画面41上に表示されているストップボタン43が操作され、パーソナルコンピュータ4への取り込みが停止される。入力された楽曲の音声は、デジタル音声データに変換されて記憶される。
次に、パーソナルコンピュータ4の表示画面41上に表示されている実行ボタン44が操作されることにより、入力された楽曲全体の音程偏差が算出される。この音程偏差を基に記憶されているデジタル音声データが変換され、基準音階に準じて音程および速度が変換されたデジタル音声データが得られる。得られたデジタル音声データは、オーディオファイルとしてパーソナルコンピュータ4上のハードディスク45に記録される。
以上の第四実施形態による音声変換装置1aとしてのパーソナルコンピュータ4により、ユーザが複雑な操作をすることなしに、基準音階に準じて音程が変換されたデジタル音声データを取得でき、さらに保存することができる。
《第五実施形態》
本発明の第五実施形態による音声変換装置1bを図8および図9を用いて説明する。
〈第五実施形態による音声変換装置1bの構成〉
図8は、本発明の第五実施形態による音声変換装置1bを示す全体図である。本実施形態においては、ユーザにより基準音階の音の周波数を入力することが可能な指示手段50aを有する他は第一実施形態と同じ構成である。
〈第五実施形態による音声変換装置1bの動作〉
本実施形態における音声変換装置1bの主な動作は第三実施形態と同じであるが、図8に示すように、指示手段50aが音声変換装置1bに設けられ、音程認識装置10aまたは音程変換手段40の中の処理を所望の条件で行うように指示を与えることができる点が異なる。
指示の内容として、例えば基準となる周波数を変更する場合について説明する。第一実施形態〜第四実施形態においては、
(1) Aの音の周波数は、440Hzである。
(2) 音程偏差は小さな値である。
という前提条件が含まれていたが、演奏によっては442Hzを使用することも多く行われている。この場合、約8セントの差があるので、音程偏差を誤って算出してしまう可能性がある。例えば、オリジナルの楽曲の録音がヘ長調で行われ、再生が70セント低い音程で行われている場合(半音近く音がずれている場合)は、第一実施形態の音程認識装置10aにより音程偏差が算出されるとホ長調のオリジナル楽曲が30セント高い音程で再生されていると誤認識する。
そこで、ユーザにより本実施形態の指示手段50aを用いて基準にするAの音の周波数をオリジナルの楽曲で使用された周波数の442Hzに指定されれば、音程認識装置10aのピーク値分類手段105では指示手段50aで指示された周波数に対する比率を基にピーク値が分類される。
また、ユーザにより本実施形態の指示手段50aを用いて音程変換手段40で常に音程を上げる方向に変換するように指示されれば、例えば音程偏差算出結果が−30セントのときは、音程変換手段40には−30セントではなく+70セントの値が送られる。
図9は音声変換装置1bとしてパーソナルコンピュータ4を使用した場合の外観図である。パーソナルコンピュータ4の表示画面41には、ユーザにより変換の条件や基準とする周波数を入力可能な入力画面46を有する。使用の際は、ユーザにより入力画面46の内容が選択され、この内容を基に音声変換が行われる。
以上のように、本実施形態によれば、ユーザが指示した内容から算出される音程偏差を用いて音声データが変換され、調性の誤認識が低減し、ユーザの所望の音声データを得ることができる。
《第六実施形態》
本発明の第六実施形態による音声変換装置1を図10〜図12を用いて説明する。本実施形態における前提条件は、第一実施形態と同様である。
〈第六実施形態による音声変換装置1cの構成〉
図10は、本発明の第六実施形態による音声変換装置1cを示す全体図である。本実施形態においては、指示手段50bがユーザにより調性を指定する機能および調性の選択方法を指示する機能を有する他は第五実施形態と同じ構成である。
〈第六実施形態による音声変換装置1cの動作〉
以下、本実施形態における音声変換装置1cの動作を図11のフローチャートを用いて説明する。ステップS51〜ステップS54の処理は、図6のステップS41〜ステップS44の処理と同じであるため、説明を省略する。
本実施形態における音声変換装置1cの主な動作は第五実施形態と同じであり、図10に示すように、指示手段50bにより音程変換装置40に指示が与えられる。指示手段50bにより与えられる指示内容は、調性の指定または変換のための調性の選択方法の指示などがある。
この指示手段50bの指示内容のうち、調性の指定は変換する楽曲の調性が既知の場合に行うことができる。クラシック音楽の場合は、演奏される楽曲の調性が既知の場合が多く、例えばベートーベンの交響曲第9番はニ短調で演奏される。
そこで、ユーザにより本実施形態の指示手段50bを用いて既知の調性が指示されたときは、音程変換手段40では、指示手段50bにより指示された調性と音程認識装置10bの調性算出手段112で算出された調性とが比較され(S55、S56)、調性が一致していない場合は、その差から調性の偏差が算出される(S56)。さらに音程変換手段40では、音程認識装置10bで算出された音程偏差にこの調性の偏差が加えられた値を基に、中間記憶手段30に記憶されているデシタル音声データの変換が行われる(S57)。
このとき、調性算出手段112で算出される調性が複数になる場合があるが、その場合はユーザが指示した調性と同じかまたは、主音が近い調性が選択され、この調性を基に偏差が算出される。この調性算出手段112で算出された複数の調性は主音が離れた調性になるため、主音が近い調性は容易に選択される。
また、指示手段50bの指示内容のうち、変換のための調性の選択方法について説明する。一般にシャープが5つも6つもついた複雑な調性で楽曲が演奏されることは少ない。そのため、音程認識装置10bの調性算出手段112で算出された調性がこのような通常使わない調性であり、音程を上げることによりこの調性に変換される場合、音程を下げて簡単な調性に変換するように指示することができる。
図12は音声変換装置1cとしてパーソナルコンピュータ4を使用した場合の外観図である。パーソナルコンピュータ4の表示画面41には、ユーザにより調性等を入力可能な入力メニュー47を有する。使用の際は、ユーザにより入力メニュー47で調性の指定や変換のための調性の選択方法が指定され、この内容を基にデジタル音声データの音程変換が行われる。
以上のように、本実施形態によれば、ユーザが指示した調性または調性の選択方法が指定されることにより、調性の誤認識が低減し、精度の高い変換を行うことが可能になる。
《第七実施形態》
本発明の第七実施形態による音声変換装置としての音程変換専用装置6を図13を用いて説明する。本実施形態における前提条件は、第一実施形態と同様である。
〈第七実施形態による音声変換装置としての音程変換専用装置6の構成〉
本実施形態においては、入力音声の取り込みおよび変換に専用装置の音程変換専用装置6を用いるが、その構成は音声変換装置1a〜1cのいずれかと同様である。本実施形態における音程変換専用装置6は、メニュー表示部61、操作指示部62、ディスク書き込み部63を有する。
本実施形態における音程変換装置6が有するメニュー表示部61は音声データ取り込み、変換、または保存などの操作を選ぶためのメニューを表示する。操作指示部62は、入力されたデジタル音声データに対する音程偏差算出または音声変換のための条件設定を指示する。ディスク書き込み部63は、算出された音程偏差で変換されたデジタル音声データを書き込み型ディスクに記憶する。
〈第七実施形態による音声変換装置としての音程変換専用装置6の動作〉
本実施形態における音程変換専用装置6の動作を説明する。まず、ユーザの操作により音声変換専用装置6のメニュー表示部61が表示される。さらに、ユーザにより操作指示部62の音声取り込み用のボタンが操作されるとともに接続されているテープレコーダ5が再生状態にされることにより、テープレコーダ5から音声データが取り込まれ、デジタル音声データに変換されて記憶される。
次に、ユーザの所望の音声変換処理の条件があるときには、ユーザにより操作指示部62の条件指定用のボタンが操作されることによりその条件が指定される。そして、ユーザにより操作指示部62の音声変換用のボタンが操作されることにより、メニュー表示部61に表示された指示内容に基づいて記憶されているデジタル音声データの音声変換処理が行われる。指定された条件により変換されたデジタル音声データは、操作指示部62の保存用のボタンが選択されることによりディスク書き込み部63で書き込み型ディスクに記憶される。
本実施形態により、変換されたデジタル音声データを書き込み型ディスクに保存することができ、変換されたデータを持ち運ぶことが可能になり、かつ再生したいときに他のディスク再生装置を用いて再生することも可能になる。
《その他の実施形態》
上記の実施形態において、サンプリング周波数を44100Hz、量子化ビット数を16ビットに設定したが、本発明はこの値には限定されない。
また、周波数データ変換手段102で用いられるデジタル音声データの時間データから周波数データへの変換はFFTに限定されず、周波数データに変換できる手段であれば他の方法でもよい。
また、ピーク値選択手段104におけるピーク値の選択は、エネルギー値が上位のものから固定数を選択する方法に限定されず、最上位のエネルギーとの比率が一定以上のものを選択する方法や上位からの合計エネルギーの割合が一定値を超えるまで選択する方法などでもよい。
また、音程偏差を算出するための周波数分解能は10セントに限定されないが、5〜15セントの間が好ましく、周波数分解能が変更されたときはピーク値分類手段105における分類および全体偏差算出手段における集計の間隔も連動して変化する。
また、区間音程偏差算出手段107において、最頻値とそれ以外の分類の集計値がある一定値、例えば2以上の差がない場合はこの区間の音程偏差は不定とすることもできる。
また、音名集計手段111で取り除かれる音名は5個に限らず、他の頻度値との相対関係より取り除く個数を調整してもよい。
また、第一実施形態〜第六実施形態では音声変換装置1としてパーソナルコンピュータ4を使用し、第七実施形態では音声変換専用装置6を使用しているが、これには限定されない。
以上のように、本発明は多様な実施形態をとることが可能であり、簡単な操作でユーザの目的に合った精度の音声変換を行うことができる。

本発明の第一実施形態による音程認識装置を示すブロック図である。 本発明の第一実施形態による音程認識装置の動作を示すフローチャートである。 本発明の第二実施形態による音程認識装置を示すブロック図である。 本発明の第二実施形態による音程認識装置の動作を示すフローチャートである。 本発明の第三実施形態による音声変換装置を示すブロック図である。 本発明の第三実施形態による音声変換装置の動作を示すフローチャートである。 本発明の第四実施形態による音声変換装置としてパーソナルコンピュータを使用した場合を示す外観図である。 本発明の第五実施形態による音声変換装置を示すブロック図である。 本発明の第五実施形態による音声変換装置としてパーソナルコンピュータを使用した場合を示す外観図である。 本発明の第六実施形態による音声変換装置を示すブロック図である。 本発明の第六実施形態による音声変換装置の動作を示すフローチャートである。 本発明の第六実施形態による音声変換装置としてパーソナルコンピュータを使用した場合を示す外観図である。 本発明の第七実施形態による音声変換装置として音程変換専用装置を使用した場合を示す外観図である。
符号の説明
1a、1b、1c 音声変換装置
2 入力装置
3 出力装置
4 パーソナルコンピュータ
5 テープレコーダ
6 音声変換専用装置
10a、10b、10c 音程認識装置
20 音声取り込み手段
30 中間記憶手段
40 音程変換手段
41 表示画面
42 スタートボタン
43 ストップボタン
44 実行ボタン
45 ハードディスク
46、47 入力メニュー
50a、50b 指示手段
61 メニュー表示部
62 操作指示部
63 ディスク書き込み部
101 処理区間区切り手段
102 周波数データ変換手段
103 ピーク値検出手段
104 ピーク値選択手段
105 ピーク値分類手段
106 ピーク値区間集計手段
107 区間音程偏差算出手段
108 区間音程偏差集計手段
109 全体音程偏差算出手段
110 ピーク値音名分類手段
111 音名集計手段
112 調性算出手段

Claims (4)

  1. 入力された楽曲のデジタル音声データを予め設定された処理区間で区切る処理区間区切り手段と、
    前記処理区間ごとに区切られ時間領域で表される前記デジタル音声データを周波数データに変換する周波数データ変換手段と、
    変換された前記周波数データのエネルギー値のピーク値を検出するピーク値検出手段と、
    検出されたピーク値から、予め設定された数のピーク値を選択するピーク値選択手段と、
    選択されたピーク値を持つ周波数と、基準とする音の周波数との周波数偏差の値を求め、この周波数偏差の値によって前記ピーク値を、前記基準とする音に対する複数の音程偏差に分類するピーク値分類手段と、
    分類されたピーク値の数をそれぞれ前記処理区間ごとに加算集計するピーク値区間集計手段と、
    前記ピーク値の集計値の最頻値が3分類以上ある場合、もしくは2分類ありその2分類が隣り合っていない場合は、当該処理区間における音程偏差は不定とし、前記最頻値が1分類のみである場合は、その分類の音程偏差を当該処理区間の音程偏差として算出する区間音程偏差算出手段と、
    前記楽曲ごとに前記処理区間ごとの音程偏差を加算集計する区間音程偏差集計手段と、
    前記音程偏差の集計値を基に、基準となる音階に対する前記楽曲全体の音程偏差を算出する全体音程偏差算出手段と、
    を備えることを特徴とする音程認識装置。
  2. 前記区間音程偏差算出手段は、前記最頻値が2分類ありその2分類が隣り合っている場合にはその2分類の音程偏差を当該処理区間の音程の偏差として算出し、
    前記区間音程偏差集計手段は、前記区間音程偏差算出手段において前記最頻値が2分類ありその2分類が隣り合っている場合に当該処理区間の音程の偏差として算出された2分類の音程偏差はそれぞれ寄与率を1/2として、前記楽曲ごとに前記処理区間ごとの音程偏差を加算集計する
    ことを特徴とする請求項1に記載の音程認識装置。
  3. 前記ピーク値分類手段で分類されたピーク値を持つ周波数に対応する音名を算出するとともに、前記ピーク値を音名ごとに分類するピーク値音名分類手段と、
    音名ごとに分類されたピーク値を集計するピーク値音名集計手段と、
    前記ピーク値音名集計手段で集計された集計値を基に前記楽曲の調性を算出する調性算出手段と、
    を備えることを特徴とする請求項1または2に記載の音程認識装置。
  4. 請求項1〜3いずれか1項に記載の音程認識装置と、
    前記音声認識装置に入力された楽曲のデジタル音声データを記憶する中間記憶手段と、
    前記音声認識装置によって算出された前記楽曲全体の音程偏差を基に、前記中間記憶手段に記憶されている前記デジタル音声データを変換して変換デジタル音声データを生成する音程変換手段と、
    を備えることを特徴とする音声変換装置。
JP2005014707A 2005-01-21 2005-01-21 音程認識装置およびこれを利用した音声変換装置 Expired - Fee Related JP4581699B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005014707A JP4581699B2 (ja) 2005-01-21 2005-01-21 音程認識装置およびこれを利用した音声変換装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005014707A JP4581699B2 (ja) 2005-01-21 2005-01-21 音程認識装置およびこれを利用した音声変換装置

Publications (2)

Publication Number Publication Date
JP2006201614A JP2006201614A (ja) 2006-08-03
JP4581699B2 true JP4581699B2 (ja) 2010-11-17

Family

ID=36959644

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005014707A Expired - Fee Related JP4581699B2 (ja) 2005-01-21 2005-01-21 音程認識装置およびこれを利用した音声変換装置

Country Status (1)

Country Link
JP (1) JP4581699B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6759560B2 (ja) 2015-11-10 2020-09-23 ヤマハ株式会社 調律推定装置及び調律推定方法
CN112435680A (zh) * 2019-08-08 2021-03-02 北京字节跳动网络技术有限公司 音频处理方法、装置、电子设备及计算机可读存储介质
KR102634002B1 (ko) * 2021-11-19 2024-02-05 김남정 음악 미디어에 대한 가사 표시 정보를 제공하는 방법

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01219622A (ja) * 1988-02-29 1989-09-01 Nec Home Electron Ltd 自動採譜方法及び装置
JPH05173557A (ja) * 1991-12-25 1993-07-13 Brother Ind Ltd 自動採譜装置
JPH05273976A (ja) * 1992-03-25 1993-10-22 Yamaha Corp 演奏データの調検出装置
JPH11133951A (ja) * 1997-10-27 1999-05-21 Alpine Electron Inc 音情報処理装置及び記憶媒体
JP2000298475A (ja) * 1999-03-30 2000-10-24 Yamaha Corp 和音判定装置、方法及び記録媒体
JP2004325744A (ja) * 2003-04-24 2004-11-18 Kawai Musical Instr Mfg Co Ltd 音程判定装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01219622A (ja) * 1988-02-29 1989-09-01 Nec Home Electron Ltd 自動採譜方法及び装置
JPH05173557A (ja) * 1991-12-25 1993-07-13 Brother Ind Ltd 自動採譜装置
JPH05273976A (ja) * 1992-03-25 1993-10-22 Yamaha Corp 演奏データの調検出装置
JPH11133951A (ja) * 1997-10-27 1999-05-21 Alpine Electron Inc 音情報処理装置及び記憶媒体
JP2000298475A (ja) * 1999-03-30 2000-10-24 Yamaha Corp 和音判定装置、方法及び記録媒体
JP2004325744A (ja) * 2003-04-24 2004-11-18 Kawai Musical Instr Mfg Co Ltd 音程判定装置

Also Published As

Publication number Publication date
JP2006201614A (ja) 2006-08-03

Similar Documents

Publication Publication Date Title
US7714222B2 (en) Collaborative music creation
JP4823804B2 (ja) コード名検出装置及びコード名検出用プログラム
US7579541B2 (en) Automatic page sequencing and other feedback action based on analysis of audio performance data
US7288710B2 (en) Music searching apparatus and method
US9852721B2 (en) Musical analysis platform
US9804818B2 (en) Musical analysis platform
WO2007010637A1 (ja) テンポ検出装置、コード名検出装置及びプログラム
WO2009003347A1 (fr) Appareil de karaoké
EP1569199A1 (en) Musical composition data creation device and method
JP4212446B2 (ja) カラオケ装置
JP3996565B2 (ja) カラオケ装置
JP4581699B2 (ja) 音程認識装置およびこれを利用した音声変換装置
JP2007264569A (ja) 検索装置、制御方法及びプログラム
JP4204941B2 (ja) カラオケ装置
JP2007256619A (ja) 評価装置、制御方法及びプログラム
JP5012263B2 (ja) 演奏クロック生成装置、データ再生装置、演奏クロック生成方法、データ再生方法およびプログラム
JP5092589B2 (ja) 演奏クロック生成装置、データ再生装置、演奏クロック生成方法、データ再生方法およびプログラム
JP4839967B2 (ja) 指導装置及びプログラム
JP5005445B2 (ja) コード名検出装置及びコード名検出用プログラム
JP2009003225A (ja) コード名検出装置及びコード名検出用プログラム
JP2000293188A (ja) 和音リアルタイム認識方法及び記憶媒体
JP4202964B2 (ja) 映像データへの楽曲データ付加装置
JP4048249B2 (ja) カラオケ装置
JP5034642B2 (ja) カラオケ装置
JP2005107332A (ja) カラオケ装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070629

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100104

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100119

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100318

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100803

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100816

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130910

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130910

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130910

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees