JP6252421B2 - 採譜装置、及び採譜システム - Google Patents

採譜装置、及び採譜システム Download PDF

Info

Publication number
JP6252421B2
JP6252421B2 JP2014201117A JP2014201117A JP6252421B2 JP 6252421 B2 JP6252421 B2 JP 6252421B2 JP 2014201117 A JP2014201117 A JP 2014201117A JP 2014201117 A JP2014201117 A JP 2014201117A JP 6252421 B2 JP6252421 B2 JP 6252421B2
Authority
JP
Japan
Prior art keywords
data
note
target
transition
musical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014201117A
Other languages
English (en)
Other versions
JP2016071188A (ja
Inventor
誠司 黒川
誠司 黒川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Brother Industries Ltd
Original Assignee
Brother Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Brother Industries Ltd filed Critical Brother Industries Ltd
Priority to JP2014201117A priority Critical patent/JP6252421B2/ja
Publication of JP2016071188A publication Critical patent/JP2016071188A/ja
Application granted granted Critical
Publication of JP6252421B2 publication Critical patent/JP6252421B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Reverberation, Karaoke And Other Acoustics (AREA)
  • Auxiliary Devices For Music (AREA)

Description

本発明は、演奏音を採譜する技術に関する。
従来、入力された演奏音の音圧の推移から、1つ1つの音符の期間を特定し、入力された演奏音の周波数の推移から、当該音符の期間における音高を特定し採譜する採譜装置が知られている(特許文献1参照)。
特開2011−65043号公報
採譜装置において、採譜すべき対象となる演奏音は、特定の楽曲を演奏した音であることが多い。特定の楽曲においては、時間軸に沿って配置された音符の音高の変化が大きかったり、音符の並びが複雑であったりする場合がある。さらに、特定の楽曲を演奏する場合には、様々な技巧を用いて演奏されることがある。
このような場合、特定の楽曲を演奏した音声は、その演奏を実施した状況や演奏をした人物によってばらつきが生じる。このようにばらつきが生じた音声を従来の技術によって採譜しても、音符の音高及び音価を一義に特定できないという課題が生じる。
つまり、従来の技術では、音符の音高及び音価を一義に特定できないために採譜の精度を向上させることが難しかった。
そこで、本発明は、採譜の精度を向上させることを目的とする。
上記目的を達成するためになされた本発明は、音声取得手段と、対象特定手段と、導出手段と、類似取得手段と、採譜手段とを備える採譜装置に関する。
本発明における音声取得手段は、入力された音声の波形を表す音声波形データを取得する。対象特定手段は、音声取得手段で取得した音声波形データに基づいて、対象音声データを特定する。本発明における対象音声データとは、採譜対象音符を含む期間として規定された規定区間に対応する音声波形データの区間である。ここで言う採譜対象音符は、音高及び音価を有した複数の音符のうち少なくとも2つの音符である。
そして、導出手段は、対象特定手段で特定した対象音声データに基づいて、対象音声データにおける基本周波数の推移を表す対象音声周波数推移、及び対象音声データにおける音圧の推移を表す対象音声音圧推移を導出する。
類似取得手段は、記憶装置から、対象音声周波数推移との類似度が第1基準値以上である楽音周波数推移と、対象音声音圧推移との類似度が第2基準値以上である楽音音圧推移との両者を含む特定音声データに含まれる音符データを取得する。ここで言う記憶装置には、楽音データごとに、楽音周波数推移と、楽音音圧推移と、音符データとが対応付けられた特定音声データが格納されている。また、ここで言う楽音データとは、音高及び音価を有した複数の音符のうち少なくとも2つの音符である演奏対象音符を含む期間を演奏した音それぞれの波形を表す。楽音周波数推移は、楽音データにおける基本周波数の推移を表す。楽音音圧推移は、楽音データにおける音圧の推移を表す。音符データは、演奏対象音符の音高及び音価を表す。
また、本発明における採譜手段は、類似取得手段で取得した音符データに基づいて、採譜対象音符それぞれの音価及び音高を特定する。
音圧推移及び音高推移は、通常、特定の音符の並びや特定の技巧を用いて演奏された音声に基づくものであれば、類似性を有する。
このため、本発明の採譜装置によれば、類似度の高い複数の音圧推移及び音高推移によって表される演奏対象音符に基づいて採譜対象音符の音高及び音価を特定することで、当該採譜対象音符に対する採譜の精度や、特定の技巧を用いて演奏された音符に対する採譜の精度を向上させることができる。
換言すれば、本発明の採譜装置によれば、採譜の精度を向上させることができる。
なお、ここで言う演奏とは、楽器を演奏することでも良いし、歌を歌うことでも良い。
本発明は、採譜システムとしてなされていても良い。
本発明における採譜システムは、音声波形データを取得する音声取得手段と、対象音声データを特定する対象特定手段と、対象音声周波数推移、及び対象音声音圧推移を導出する導出手段と、特定音声データが格納された記憶装置から、対象音声周波数推移との類似度が第1基準値以上である楽音周波数推移と、対象音声音圧推移との類似度が第2基準値以上である楽音音圧推移とを含む特定音声データに含まれる音符データを取得する類似取得手段と、その取得した音符データに基づいて、採譜対象音符それぞれの音価及び音高を特定する採譜手段とを備えている。
このような採譜システムによれば、請求項1に係る採譜装置と同様の効果を得ることができる。
そして、本発明の採譜システムにおける採譜手段は、音価特定手段と、音高特定手段とを備えていても良い。
音価特定手段は、音符データそれぞれによって表される演奏対象音符の開始タイミング、及び、当該開始タイミングと対となる終了タイミングに基づいて、採譜対象音符の音価を特定する。また、音高特定手段は、音符データそれぞれによって表される演奏対象音符の音高に基づいて、採譜対象音符の音高を特定する。
このような採譜システムによれば、採譜対象音符の音価を、演奏対象音符の開始タイミングに基づいて特定できる。また、本発明の採譜システムによれば、採譜対象音符の音高を、演奏対象音符の音高に基づいて特定できる。
さらに、本発明においては、音符データに、当該音符データによって表される演奏対象音符それぞれの音価よりも短い区間である分析単位区間を時間軸に沿って連続するように複数設定してもよい。この場合、採譜システムにおける音価特定手段は、その設定された分析単位区間ごとに、演奏対象音符の開始タイミングを集計した結果、最も多い分析単位区間を採譜対象音符の開始タイミングとし、分析単位区間ごとに演奏対象音符の終了タイミングを集計した結果、最も多い分析単位区間を終了タイミングとして特定してもよい。
すなわち、本発明の採譜システムにおいては、音符データによって表される演奏対象音符の開始タイミング及び終了タイミングを集計した結果、最多となる開始タイミング及び終了タイミングを、採譜対象音符の開始タイミング及び終了タイミングとして特定できる。
また、本発明の採譜システムにおける音高特定手段は、音符データによって表される演奏対象音符の音高を、音高ごとに集計した結果、最も多い音高を採譜対象音符の音高として特定してもよい。
すなわち、本発明の採譜システムにおいては、音符データによって表される演奏対象音符の音高を、音高ごとに集計した結果、最も多い音高を採譜対象音符の音高として特定できる。
そして、本発明の採譜システムにおける導出手段は、対象音声データを、対象音声データにおける基本周波数の中央値にて正規化したデータを対象音声周波数推移として導出しても良い。この場合、楽音周波数推移は、演奏対象音符を含む期間における基本周波数の中央値にて正規化されていても良い。
このような採譜システムでは、対象音声周波数推移や楽音周波数推移が正規化されているため、各対象音声データや楽音データにて演奏された音符間の相対的な音高差に従って類似性を判定できる。したがって、本発明の採譜システムによれば、より多くの楽音周波数推移を類似度合いが高いものと判定できる。
なお、本発明における楽音音圧推移は、楽音データにおける音圧の中央値にて正規化されていても良い。この場合、本発明の採譜システムにおける導出手段は、対象音声データを、対象音声データにおける音圧の中央値にて正規化したデータを対象音声音圧推移として導出しても良い。
このような採譜システムでは、対象音声音圧推移や楽音音圧推移が正規化されているため、各対象音声データや楽音データにて演奏された音符間の相対的な音圧差に従って類似性を判定できる。したがって、本発明の採譜システムによれば、より多くの楽音音圧推移を類似度合いが高いものと判定できる。
本発明が適用されたシステムの概略構成を示すブロック図である。 情報処理装置が実行するデータ生成処理の処理手順を示すフローチャートである。 情報処理装置が実行する採譜処理の処理手順を示すフローチャートである。 採譜処理における対象音声データの取得を説明する説明図である。 採譜処理における音圧推移、周波数推移を説明する説明図であり、(A)は音圧推移を、(B)は周波数推移を説明する説明図である。 採譜処理において音符区間の特定方法を説明する説明図である。 採譜処理において音符の音高の特定方法を説明する説明図であり、(A)は正規化された周波数推移に採譜対象音符を重畳した様子を説明する図であり、(B)は音名を特定する方法を説明する説明図である。
以下に本発明の実施形態を図面と共に説明する。
<システム構成>
図1に示す情報処理装置2は、楽曲を演奏した演奏音を表す音声波形データSPに基づいて、その演奏音を採譜する装置である。
このような、音声波形データSPに基づく採譜を実行するために構築されるシステム1は、情報処理装置2と、情報記憶サーバ10と、カラオケ装置30とを備えている。
カラオケ装置30は、指定された楽曲を再生し、その楽曲の再生(演奏)中に入力された歌唱音声を録音することで、音声波形データSPを生成する。
情報記憶サーバ10は、カラオケ装置30にて生成された音声波形データSPを格納する。情報処理装置2は、音声波形データSPに基づいて、その音声波形データSPによって演奏された音を採譜する。
情報記憶サーバ10は、通信部12と、記憶部14と、制御部16とを備えている。
このうち、通信部12は、通信網を介して、情報記憶サーバ10が外部との間で通信を行う。すなわち、情報記憶サーバ10は、通信網を介してカラオケ装置30と接続されている。なお、ここで言う通信網は、有線による通信網であっても良いし、無線による通信網であっても良い。
記憶部14は、記憶内容を読み書き可能に構成された周知の記憶装置である。この記憶部14には、カラオケ用に予め生成されたMIDI楽曲MDが格納されている。また、記憶部14には、カラオケ装置30にて生成された音声波形データSPが格納される。
制御部16は、周知のマイクロコンピュータを中心に構成された制御装置である。
カラオケ装置30は、指定された楽曲を演奏する周知の装置である。このカラオケ装置30には、マイク62と、スピーカ60と、表示部64とが接続されている。
すなわち、カラオケ装置30では、指定された楽曲に対応するMIDI楽曲MDを取得して再生演奏し、その指定された楽曲の再生演奏中にマイク62を介して入力された歌唱音声を録音することで、音声波形データSPを生成する。
本実施形態においては、情報記憶サーバ10と、カラオケ装置30とにより、周知のネットワークカラオケが構築されている。
<情報処理装置>
情報処理装置2は、入力受付部3と、情報出力部4と、記憶部5と、制御部6とを備えた周知の情報処理装置(例えば、パーソナルコンピュータ)である。
入力受付部3は、外部からの情報や指令の入力を受け付ける入力機器である。ここでの入力機器とは、例えば、キーやスイッチ、可搬型の記憶媒体(例えば、CDやDVD、フラッシュメモリ)に記憶されたデータを読み取る読取ドライブ、通信網を介して情報を取得する通信ポートなどである。情報出力部4は、外部に情報を出力する出力装置である。ここでの出力装置とは、可搬型の記憶媒体にデータを書き込む書込ドライブや、通信網に情報を出力する通信ポートなどである。
記憶部5は、記憶内容を読み書き可能に構成された周知の記憶装置である。記憶部5には、少なくとも1つのMIDI楽曲MDと、楽曲を演奏した演奏音を表す少なくとも1つの楽曲データWDと、音声波形データSPとが記憶されている。なお、記憶部5に記憶される楽曲データWDは、楽曲ごとにMIDI楽曲MDと対応付けられている。
なお、図1に示す符号「n」は、MIDI楽曲MD及び楽曲データWDを識別する識別子であり、1以上の自然数である。
制御部6は、ROM7,RAM8,CPU9を備えた周知のマイクロコンピュータを中心に構成された周知の制御装置である。ROM7は、電源が切断されても記憶内容を保持する必要がある処理プログラムやデータを記憶する。RAM8は、処理プログラムやデータを一時的に記憶する。CPU9は、ROM7やRAM8に記憶された処理プログラムに従って各処理を実行する。
本実施形態のROM7には、データ生成処理を制御部6が実行するため処理プログラムと、採譜処理を制御部6が実行するための処理プログラムとが記憶されている。
データ生成処理は、MIDI楽曲MDと、そのMIDI楽曲MDに対応する楽曲データWDとに基づいて、演奏対象音符を演奏した音の特性を表す特定音声データを生成して記憶部5に記憶する処理である。なお、ここで言う演奏対象音符とは、音高及び音価を有した複数の音符のうち少なくとも2つの音符のそれぞれである。
また、採譜処理は、データ生成処理にて生成された特定音声データと、1つの音声波形データSPとに基づいて、その音声波形データSPによって表される演奏音を採譜する処理である。
<楽曲データ>
次に、楽曲データWDは、楽曲を識別する楽曲IDと、楽曲を演奏した音を表す原盤波形データとを備えたデータであり、楽曲ごと、かつ演奏者ごとに予め用意されている。
本実施形態の原盤波形データは、複数の楽器の演奏音と、歌唱旋律を歌唱したボーカル音とを含む音声データである。この音声データは、非圧縮音声ファイルフォーマットの音声ファイルによって構成されたデータであっても良いし、音声圧縮フォーマットの音声ファイルによって構成されたデータであっても良い。
なお、以下では、原盤波形データに含まれる楽器の演奏音を表す音声波形データを伴奏データと称し、原盤波形データに含まれるボーカル音を表す音声波形データをボーカルデータと称す。
<MIDI楽曲>
MIDI楽曲MDは、楽曲ごとに予め用意されたものであり、周知のMIDI(Musical Instrument Digital Interface)規格によって、一つの楽曲の楽譜を表したデータである。この演奏データは、楽曲IDと、当該楽曲にて用いられる楽器ごとの楽譜を表す楽譜トラックと、楽曲における小節の開始位置を表す小節開始情報とを少なくとも有している。
そして、楽譜トラックには、MIDI音源から出力される個々の演奏音について、少なくとも、音高(いわゆるノートナンバー)と、MIDI音源が演奏音を出力する期間(以下、音符長と称す)とが規定されている。楽譜トラックにおける音符長は、当該演奏音の出力を開始するまでの当該楽曲の演奏開始からの時間を表す演奏開始タイミング(いわゆるノートオンタイミング)と、当該演奏音の出力を終了するまでの当該楽曲の演奏開始からの時間を表す演奏終了タイミング(いわゆるノートオフタイミング)とによって規定されている。
すなわち、楽譜トラックでは、ノートナンバーと、ノートオンタイミング及びノートオフタイミングによって表される音符長とによって、1つの音符NOが規定される。そして、楽譜トラックは、音符NOが演奏順に配置されることによって、1つの楽譜として機能する。なお、楽譜トラックは、例えば、鍵盤楽器、弦楽器、打楽器、及び管楽器などの楽器ごとに用意されている。このうち、本実施形態では、特定の楽器(例えば、ヴィブラフォン)が、楽曲における歌唱旋律を担当する楽器として規定されている。
<データ生成処理>
次に、情報処理装置2の制御部6が実行するデータ生成処理について説明する。
このデータ生成処理は、処理プログラムを起動するための起動指令が、情報処理装置2の入力受付部3を介して入力されたタイミングで起動される。
そして、図2に示すデータ生成処理が起動されると、まず、制御部6は、情報処理装置2の記憶部5に記憶されている全ての楽曲データWDの中から、指定された一つの楽曲データWDを取得する(S110)。なお、本実施形態のS110においては、制御部6は、記憶部5から楽曲データWDを取得したが、楽曲データWDの取得元はこれに限らず、制御部6は、可搬型の記憶媒体や通信網を介して接続されたサーバなどから楽曲データWDを取得しても良い。
データ生成処理では、制御部6は、続いて、S110にて取得した楽曲データWD(以下、「取得楽曲データ」と称す)に含まれる原盤波形データを取得する(S120)。さらに、制御部6は、S120にて取得した原盤波形データから、ボーカルデータと伴奏データとを分離して抽出する(S130)。このS130において制御部6が実行する、伴奏データとボーカルデータとの分離手法として、周知の手法(例えば、特開2008−134606に記載された“PreFEst”)を使って推定された音高および調波成分を利用する手法が考えられる。なお、PreFEstとは、原盤波形データにおいて最も優勢な音声波形をボーカルデータとみなしてボーカルの音高(即ち、基本周波数)および調波成分の大きさを推定する手法である。
データ生成処理では、続いて、制御部6は、ボーカルデータにおける音圧レベルの推移を表すボーカル音圧推移を特定する(S140)。さらに、制御部6は、ボーカルデータにおける基本周波数f0の推移を表すボーカル周波数推移を特定する(S150)。
具体的に、本実施形態のS140,S150では、制御部6は、まず、規定時間窓AW(j)をボーカルデータに設定する。この規定時間窓AW(j)は、予め規定された単位時間(例えば、10[ms])を有した分析窓である。本実施形態においては、規定時間窓AWは、時間軸に沿って互いに隣接かつ連続するように設定される。なお、符号jは、規定時間窓AWを識別する識別子である。
続いて、制御部6は、周知の手法により、ボーカルデータにおける各規定時間窓AW(j)での音圧レベルLpを算出する。なお、音圧レベルLpは、ボーカルデータの規定時間窓AW(j)における音圧の二乗平均平方根pを、基準となる音圧p0で除したものの常用対数に、所定の係数(通常、「20」)を乗じること(即ち、Lp=20×log10(p/p0))で求めることができる。
さらに、制御部6は、各規定時間窓AW(j)での音圧レベルLpを、ボーカルデータにおける時間軸に沿って配置することで、ボーカル音圧推移を特定する。
また、ボーカル周波数推移を特定するために、制御部6は、ボーカルデータにおける各規定時間窓AW(j)での基本周波数f0を導出する。この基本周波数f0の導出手法として、種種の周知の手法が考えられる。一例として、制御部6は、ボーカルデータに設定された規定時間窓AW(j)それぞれについて、周波数解析(例えば、DFT)を実施し、自己相関の結果、最も強い周波数成分を基本周波数f0とすることが考えられる。
そして、制御部6は、それらの規定時間窓AW(j)ごとに導出された基本周波数f0を、ボーカルデータにおける時間軸に沿って配置することで、ボーカル周波数推移を特定する。
データ生成処理では、制御部6は、続いて、S110で取得した楽曲データWDと同一の楽曲IDが対応付けられた一つのMIDI楽曲MDを取得する(S160)。さらに、制御部6は、取得楽曲データの各音符に対応する各音の再生時間に、S160で取得したMIDI楽曲MD(以下、「取得MIDI」と称す)を構成する各音符の演奏タイミングが一致するように、その取得MIDIを調整する(S170)。この取得MIDIを調整する手法として、周知の手法(例えば、特許第5310677号に記載の手法)を用いることが考えられる。特許第5310677号に記載された手法では、制御部6は、取得MIDIをレンダリングし、その取得MIDIのレンダリング結果と取得楽曲データの原盤波形データとの双方を規定時間単位でスペクトルデータに変換する。そして、双方のスペクトルデータ上の時間が同期するように、各演奏音の演奏開始タイミング、演奏終了タイミング、及び小節開始情報を修正する。なお、スペクトルデータ上の時間が同期するように調整する際には、DPマッチングを用いても良い。
さらに、データ生成処理では、制御部6は、S170にて時間調整が実施されたMIDI楽曲MDから、歌唱旋律を表すメロディトラックを取得する(S180)。このS180において取得するメロディトラックには、歌唱旋律を構成する各音符(以下、「メロディ音符」と称す)NO(i)が規定されている。なお、符号iは、メロディ音符NOを識別する識別子であり、歌唱旋律の時間軸に沿って増加するように規定されている。
さらに、データ生成処理では、制御部6は、ボーカル音圧推移及びボーカル周波数推移を、予め規定された区間である楽音ブロックごとに分割する(S190)。本実施形態における楽音ブロックは、楽曲における小節のそれぞれである。すなわち、各小節に含まれる音高及び音価を有した複数の音符のうち少なくとも2つの音符が、特許請求の範囲に記載された演奏対象音符の一例である。
具体的に本実施形態のS190では、制御部6は、S170にて時間調整された小節開始情報によって表されるタイミングにてボーカル音圧推移及びボーカル周波数推移を分割する。これにより、ボーカル音圧推移及びボーカル周波数推移が、当該楽曲における小節を楽音ブロック単位として分割される。なお、以下では、楽音ブロックごとに分割されたボーカル音圧推移それぞれを、楽音音圧推移と称し、楽音ブロックごとに分割されたボーカル周波数推移それぞれを、楽音周波数推移と称す。
そして、データ生成処理では、制御部6は、取得MIDIに基づいて、各楽音ブロックに含まれるメロディ音符NO(i)の特性を表す音符プロパティを特定する(S200)。なお、ここで言う音符プロパティは、特許請求の範囲の記載における音符データの一例である。本実施形態における音符データは、演奏対象音符それぞれの音高及び音価を表す。ここで言う音価は、演奏対象音符それぞれにおける演奏開始タイミングから演奏終了タイミングまでの時間長である。
続いて、データ生成処理では、制御部6が、楽音ブロックごとのボーカル音圧推移及びボーカル周波数推移を正規化する(S210)。このS210では、制御部6は、楽音ブロックごとのボーカル音圧推移を、当該楽音ブロックでのボーカル音圧推移における音圧の中央値にて除すことで、ボーカル音圧推移の正規化を実行する。また、S210では、制御部6は、楽音ブロックごとのボーカル周波数推移を、当該楽音ブロックでのボーカル周波数推移における基本周波数の中央値にて除すことで、ボーカル周波数推移の正規化を実行する。
そして、データ生成処理では、制御部6は、楽音周波数推移と、楽音音圧推移と、音符プロパティとを対応付けた特定音声データを生成する(S220)。ここで言う特定音声データにおける楽音周波数推移及び楽音音圧推移は、S210にて正規化されたものである。
具体的に本実施形態のS220では、まず、制御部6は、メロディ音符NO(i)を時間軸に沿って配置した音符推移を生成する。その音符推移に対して、制御部6は、規定時間窓AW(j)を設定し、各演奏対象音符に対応する規定時間窓AW(j)に、音符プロパティを付与する。音符プロパティには、具体的には、ノートナンバー(音高)や、その規定時間窓AW(j)が演奏開始タイミングnnt(i)であれば、演奏開始タイミングを表す開始タイミング、その規定時間窓AW(j)が演奏終了タイミングnft(i)であれば、演奏終了タイミングを表す終了タイミングを含む。さらに、音符プロパティには、各種の時間制御情報(例えば、テンポ,分解能など)などを含んでも良い。
さらに、小節開始位置情報によって表されるタイミングそれぞれにて音符推移を分割して、楽音ブロックごとの音符推移を特定する。そして、その特定した楽音ブロックごとの音符推移に規定された各規定時間窓AW(j)と、その音符推移に含まれる各メロディ音符NOの音符プロパティと、正規化された楽音周波数推移と、正規化された楽音音圧推移とを、対応する楽音ブロックごとに対応付けることで、特定音声データを生成する。
なお、音符推移に設定される規定時間窓AW(j)は、ボーカルデータに設定される規定時間窓AW(j)と共通である。すなわち、音符推移、楽音音圧推移、及び楽音周波数推移に設定されている規定時間窓AW(j)は、符号jが共通であれば、同一タイミングであることを意味する。本実施形態における規定時間窓AWは、特許請求の範囲に記載された分析単位区間の一例である。
データ生成処理では、制御部6は、S220にて生成した特定音声データを記憶部5に記憶する(S230)。
その後、制御部6は、本データ生成処理を終了し、起動指令が入力されるまで待機する。
<採譜処理>
次に、情報処理装置2の制御部6が実行する採譜処理について説明する。
この採譜処理は、処理プログラムを起動するための起動指令が、情報処理装置2の入力受付部3を介して入力されたタイミングで起動される。
図3に示すように採譜処理が起動されると、制御部6は、まず、記憶部5に記憶されている全ての音声波形データSPの中から、指定された1つの音声波形データSPを取得する(S310)。
採譜処理では、制御部6は、続いて、S310にて取得した音声波形データSPを楽音ブロックごとに分割した対象音声データを生成する(S320)。このS320では、制御部6は、図4に示すように、データ生成処理におけるS180と同様、S310にて取得した音声波形データSPを、その音声波形データSPに対応するMIDI楽曲に含まれる小節開始情報によって表されるタイミングにて分割する。これにより、当該楽曲における小節ごとの音声波形データSPが、対象音声データとして生成される。
なお、本発明における対象音声データの生成方法は、これに限るものではなく、例えば、音声波形データSPを小節ごとに分割する周知の手法を用いても良い。この場合、周知の手法としては、「後藤真孝,村岡洋一,"音楽音響信号を対象としたビートトラッキングシステム 小節線の検出と打楽器音の有無に応じた音楽的知識の選択",情報処理学会 音楽情報科学研究会 研究報告 97−MUS−21−8,Vol.97,No.67,July 1997」が考えられる。
採譜処理では、続いて、制御部6は、対象音声データそれぞれにおける音圧レベルの推移を表す対象音圧推移を特定する(S330)。さらに、制御部6は、対象音声データそれぞれにおける基本周波数f0の推移を表す対象周波数推移を特定する(S340)。これと共に、S340では、制御部6は、対象音圧推移と対象周波数推移とを対応する楽曲ブロックごとに対応付けることで採譜対象データを生成して、記憶部5に記憶する。ここで言う採譜対象データとは、楽曲ブロックごとに対応付けられた対象音圧推移と対象周波数推移との組である。
具体的に、本実施形態のS330,S340では、制御部6は、まず、分析時間窓SW(k)を対象音声データに設定する。本実施形態においては、分析時間窓SWは、時間軸に沿って互いに隣接かつ連続するように設定される。なお、符号kは、分析時間窓SWを識別する識別子である。
続いて、制御部6は、周知の手法により、対象音声データにおける各分析時間窓SW(k)での音圧レベルLpを算出する。なお、音圧レベルLpは、対象音声データの分析時間窓SW(k)における音圧の二乗平均平方根pを、基準となる音圧p0で除したものの常用対数に、所定の係数(通常、「20」)を乗じること(即ち、Lp=20×log10(p/p0))で求めることができる。
さらに、制御部6は、各分析時間窓SW(k)での音圧レベルLpを、対象音声データにおける時間軸に沿って配置することで、対象音圧推移を特定する。図5(A)に示すように本実施形態における対象音圧推移は、正規化されている。この正規化は、当該対象音圧推移における音圧レベルの中央値にて除すことで実行すれば良い。
また、対象周波数推移を特定するために、制御部6は、対象音声データにおける各分析時間窓SW(k)での基本周波数f0を導出する。この基本周波数f0の導出手法として、種種の周知の手法が考えられる。一例として、制御部6は、対象音声データに設定された分析時間窓SW(k)それぞれについて、周波数解析(例えば、DFT)を実施し、自己相関の結果、最も強い周波数成分を基本周波数f0とすることが考えられる。
そして、制御部6は、それらの分析時間窓SW(k)ごとに導出された基本周波数f0を、対象音声データにおける時間軸に沿って配置することで、対象周波数推移を特定する。図5(B)に示すように本実施形態における対象周波数推移は、正規化されている。この正規化は、当該対象周波数推移における基本周波数の中央値にて除すことで実行すれば良い。
なお、S330,S340では、全ての対象音声データに対して、対象音圧推移と対象周波数推移とを特定する。
さらに、採譜処理では、制御部6は、S330,S340にて生成した採譜対象データの中から、1つの採譜対象データを1つ取得する(S350)。
そして、採譜処理では、制御部6は、S350にて取得した採譜対象データに類似する全ての特定音声データに含まれる音符プロパティそれぞれを記憶部5から取得する(S360)。本実施形態のS360では、制御部6は、S350にて取得した採譜対象データに含まれる対象音声周波数推移との類似度が第1基準値以上である楽音周波数推移と、S350にて取得した採譜対象データに含まれる対象音声音圧推移との類似度が第2基準値以上である楽音音圧推移との双方を含む特定音声データに含まれる音符プロパティを取得する。なお、類似度は、相関値であり、周知の相関係数である。
また、ここで言う第1基準値とは、対象音声周波数推移と楽音周波数推移とが類似するものとして予め規定された値である。また、ここで言う第2基準値とは、対象音声音圧推移と楽音音圧推移とが類似するものとして予め規定された値である。この第2基準値は、第1基準値と同一の値であっても良いし、異なる値であっても良い。
さらに、採譜処理では、制御部6は、S360にて取得した音符プロパティに基づいて音符の期間(即ち、音価)を決定する(S370)。
具体的に本実施形態のS370では、図6に示すように、制御部6は、S360にて取得した音符プロパティそれぞれにおいて、開始タイミングが割り当てられた規定時間窓AW(j)を特定する。また、S370では、制御部6は、S360にて取得した音符プロパティそれぞれにおいて、終了タイミングが割り当てられた規定時間窓AW(j)を特定する。
そして、制御部6は、その開始タイミングが割り当てられた規定時間窓AW、及び終了タイミングが割り当てられた規定時間窓AWを、規定時間窓AWごとに集計する。この集計の結果、制御部6は、開始タイミングの個数が最も多い規定時間窓AWを、採譜対象音符における開始タイミングとして特定する。さらに、制御部6は、終了タイミングの個数が最も多い規定時間窓AWを、当該採譜対象音符における終了タイミングとして特定する。
さらに、本実施形態のS370では、制御部6は、特定した開始タイミングと終了タイミングとの対によって表される期間それぞれを音符の期間(即ち、音価)として特定する。なお、図6における符号“S”は、開始タイミングが割り当てられた規定時間窓AWを表し、符号“E”は終了タイミングが割り当てられた規定時間窓AWを表す。
続いて、採譜処理では、制御部6は、S360にて取得した音符プロパティに基づいて、採譜対象音符の音高を決定する(S380)。
具体的に本実施形態のS380では、制御部6は、図6に示すように、S360にて取得した各音符プロパティにおける各規定時間窓AWの音高を、S370にて特定した音符の期間に対応する規定時間窓AWごと、かつ、音高ごとに集計する。そして、制御部6は、S370にて特定した音符の期間に対応する規定時間窓AWの音高を集計した結果、最も数が多い音高を当該音符の音高として特定する。さらに、図6に示す色の濃淡は、色が濃いほど、当該音高が含まれる規定時間窓AWの個数が多いことを表す。
なお、本実施形態においては、図7(A)に示すように、S370及びS380にて決定した採譜対象音符の音価及び音高に、対象周波数推移を重畳し、図7(B)に示すように、採譜対象音符の音価及び音高と対象周波数推移とが最も一致する音名を、採譜対象音符における音名として半音単位で特定してもよい。
そして、採譜処理では、制御部6は、全ての採譜対象データに対してS350〜S380までのステップを実施したか否かを判定する(S390)。このS390での判定の結果、S350〜S380までのステップを全ての採譜対象データに対して実行していなければ(S390:NO)、制御部6は、本採譜処理を、S350へと戻す。そのS350では、制御部6は、S350〜S380までのステップを未実施の採譜対象データの中から、1つの採譜対象データを取得して、採譜処理をS360へと移行させる。
一方、S390での判定の結果、S350〜S390までのステップを全ての採譜対象データに対して実行していれば(S390:YES)、制御部6は、本採譜処理を終了する。
[実施形態の効果]
音圧推移及び音高推移は、通常、特定の音符の並びや特定の技巧を用いて演奏された音声に基づくものであれば、類似性を有する。
このため、本実施形態の採譜処理では、対象音圧推移に類似する楽音音圧推移及び対象周波数推移に類似する楽音周波数推移と対応付けられた、演奏対象音符それぞれの開始タイミング及び終了タイミングを集計した結果、最も可能性が高いと考えられるタイミングを、採譜対象音符の開始タイミング及び終了タイミングとして決定している。また、本実施形態の採譜処理では、対象音圧推移に類似する楽音音圧推移及び対象周波数推移に類似する楽音周波数推移と対応付けられた、演奏対象音符それぞれの音高を集計した結果、最も可能性が高いと考えられる音高を、採譜対象音符の音高として特定している。
すなわち、情報処理装置2によれば、類似度の高い複数の音圧推移及び音高推移と対応付けられた演奏対象音符の音高及び音価を集計することで、採譜対象音符として最も可能性の高い音価及び音高を特定できる。
換言すれば、情報処理装置2によれば、採譜対象音符に対する採譜の精度を向上させることができる。
ところで、本実施形態における楽音音圧推移、及び対象音圧推移は、正規化されている。
このため、本実施形態の採譜処理によれば、各対象音声データや特定音声データにて演奏された音符間の相対的な音圧差や、相対的な周波数差に従って類似性を判定できる。
したがって、採譜処理によれば、より多くの楽音音圧推移、及び楽音周波数推移を類似度が高いものと判定できる。そして、採譜処理によれば、それらの類似度が高い楽音音圧推移及び楽音周波数推移と対応付けられた演奏対象音符の音符プロパティに基づいて、採譜対象音符の音価及び音高を特定するため、採譜の精度を向上させることができる。
[その他の実施形態]
以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において、様々な態様にて実施することが可能である。
例えば、上記実施形態における音声波形データSPは、楽曲を歌唱した歌唱音声であったが、本発明における音声波形データSPは、楽曲を楽器にて演奏した音でも良い。
また、上記実施形態の採譜処理においては、開始タイミングまたは終了タイミングが割り当てられた規定時間窓AWを集計した結果、その個数が最も多い規定時間窓AWを、採譜対象音符における開始タイミングまたは終了タイミングとして決定していたが、採譜対象音符の音価の決定方法は、これに限るものではない。例えば、開始タイミングまたは終了タイミングが割り当てられた規定時間窓AWを集計した結果、その開始タイミングまたは終了タイミングが割り当てられた規定時間窓AWの代表値を、採譜対象音符における開始タイミングまたは終了タイミングとしてもよい。ここで言う代表値とは、例えば、中央値である。
また、上記実施形態の採譜処理においては、各規定時間窓AWの音高を集計した結果、その個数が最も多い音高を採譜対象音符における音高として決定していたが、採譜対象音符の音高の決定方法は、これに限るものではない。例えば、規定時間窓AWに割り当てられた音高を集計した結果、その音高の代表値を、採譜対象音符における音高としてもよい。ここで言う代表値とは、例えば、中央値である。
また、上記実施形態においては、データ生成処理の実行主体を情報処理装置2としていたが、データ生成処理の実行主体は、情報処理装置2に限るものではなく、情報記憶サーバ10であっても良い。また、上記実施形態においては、特定音声データは、情報処理装置2に格納されていたが、本発明における特定音声データを格納する対象は、これに限るものではなく、その他のサーバであっても良い。
上記実施形態においては、採譜処理の実行主体を、情報処理装置2としていたが、採譜処理の実行主体は、情報処理装置2に限るものではなく、情報記憶サーバ10であっても良い。
なお、上記実施形態の構成の一部を省略した態様も本発明の実施形態である。また、上記実施形態と変形例とを適宜組み合わせて構成される態様も本発明の実施形態である。また、特許請求の範囲に記載した文言によって特定される発明の本質を逸脱しない限度において考え得るあらゆる態様も本発明の実施形態である。
また、本発明は、音声波形データSPを採譜する採譜装置やシステムの他、音声波形データSPを採譜するためにコンピュータが実行するプログラム、音声波形データSPを採譜する方法等、種々の形態で実現することができる。
[実施形態と特許請求の範囲との対応関係]
最後に、上記実施形態の記載と、特許請求の範囲の記載との関係を説明する。
上記実施形態の採譜処理におけるS310を実行することで得られる機能が、特許請求の範囲に記載された音声取得手段の一例であり、採譜処理におけるS320を実行することで得られる機能が、特許請求の範囲に記載された対象特定手段の一例である。また、採譜処理のS330,S340を実行することで得られる機能が、特許請求の範囲に記載された導出手段の一例であり、S360を実行することで得られる機能が、特許請求の範囲に記載された類似取得手段の一例である。
さらに、上記実施形態の採譜処理におけるS370,S380を実行することで得られる機能が、特許請求の範囲に記載された採譜手段の一例である。このうち、S370を実行することで得られる機能が、特許請求の範囲に記載された音価特定手段の一例であり、S380を実行することで得られる機能が、特許請求の範囲に記載された音高特定手段の一例である。
1…システム 2…情報処理装置 3…入力受付部 4…情報出力部 5…記憶部 6…制御部 7…ROM 8…RAM 9…CPU 10…情報記憶サーバ 12…通信部 14…記憶部 16…制御部 30…カラオケ装置 60…スピーカ 62…マイク 64…表示部

Claims (7)

  1. 入力された音声の波形を表す音声波形データを取得する音声取得手段と、
    前記音声取得手段で取得した音声波形データに基づいて、音高及び音価を有した複数の音符のうち少なくとも2つの音符である採譜対象音符を含む期間として規定された規定区間に対応する前記音声波形データの区間である対象音声データを特定する対象特定手段と、
    前記対象特定手段で特定した対象音声データに基づいて、前記対象音声データにおける基本周波数の推移を表す対象音声周波数推移、及び前記対象音声データにおける音圧の推移を表す対象音声音圧推移を導出する導出手段と、
    音高及び音価を有した複数の音符のうち少なくとも2つの音符である演奏対象音符を含む期間を演奏した音それぞれの波形を表す楽音データごとに、当該楽音データにおける基本周波数の推移を表す楽音周波数推移と、当該楽音データにおける音圧の推移を表す楽音音圧推移と、前記演奏対象音符の音高及び音価とを表す音符データとが対応付けられた特定音声データが格納された記憶装置から、前記導出手段で導出された対象音声周波数推移との類似度が第1基準値以上である前記楽音周波数推移と、前記対象音声音圧推移との類似度が第2基準値以上である前記楽音音圧推移との両者を含む特定音声データに含まれる音符データを取得する類似取得手段と、
    前記類似取得手段で取得した前記音符データに基づいて、前記採譜対象音符それぞれの音価及び音高を特定する採譜手段と
    を備えることを特徴とする採譜装置。
  2. 入力された音声の波形を表す音声波形データを取得する音声取得手段と、
    前記音声取得手段で取得した音声波形データに基づいて、音高及び音価を有した複数の音符のうち少なくとも2つの音符である採譜対象音符を含む期間として規定された規定区間に対応する前記音声波形データの区間である対象音声データを特定する対象特定手段と、
    前記対象特定手段で特定した対象音声データに基づいて、前記対象音声データにおける基本周波数の推移を表す対象音声周波数推移、及び前記対象音声データにおける音圧の推移を表す対象音声音圧推移を導出する導出手段と、
    音高及び音価を有した複数の音符のうち少なくとも2つの音符である演奏対象音符を含む期間を演奏した音それぞれの波形を表す楽音データごとに、当該楽音データにおける基本周波数の推移を表す楽音周波数推移と、当該楽音データにおける音圧の推移を表す楽音音圧推移と、前記演奏対象音符の音高及び音価とを表す音符データとが対応付けられた特定音声データが格納された記憶装置から、前記導出手段で導出された対象音声周波数推移との類似度が第1基準値以上である前記楽音周波数推移と、前記対象音声音圧推移との類似度が第2基準値以上である前記楽音音圧推移とを含む特定音声データに含まれる音符データを取得する類似取得手段と、
    前記類似取得手段で取得した前記音符データに基づいて、前記採譜対象音符それぞれの音価及び音高を特定する採譜手段と
    を備えることを特徴とする採譜システム。
  3. 前記採譜手段は、
    前記音符データそれぞれによって表される前記演奏対象音符の開始タイミング、及び、当該開始タイミングと対となる前記演奏対象音符の終了タイミングに基づいて、前記採譜対象音符の音価を特定する音価特定手段と、
    前記音符データそれぞれによって表される前記演奏対象音符の音高に基づいて、前記採譜対象音符の音高を特定する音高特定手段と
    を備えることを特徴とする請求項2に記載の採譜システム。
  4. 前記音価特定手段は、
    前記音符データによって表される前記演奏対象音符それぞれの音価よりも短い区間である分析単位区間を時間軸に沿って連続するように前記音符データに複数設定し、その設定された分析単位区間ごとに前記演奏対象音符での前記開始タイミングを集計した結果、最も多い前記分析単位区間を前記採譜対象音符の開始タイミングとし、前記分析単位区間ごとに前記演奏対象音符の前記終了タイミングを集計した結果、最も多い前記分析単位区間を前記終了タイミングとして特定する
    ことを特徴とする請求項3に記載の採譜システム。
  5. 前記音高特定手段は、
    前記音符データによって表される前記演奏対象音符の音高を、前記音高ごとに集計した結果、最も多い音高を前記採譜対象音符の音高として特定する
    ことを特徴とする請求項3または請求項4に記載の採譜システム。
  6. 前記楽音周波数推移は、前記演奏対象音符を含む期間における基本周波数の中央値にて正規化されており、
    前記導出手段は、
    前記対象音声データを、前記対象音声データにおける基本周波数の中央値にて正規化したデータを前記対象音声周波数推移として導出する
    ことを特徴とする請求項5に記載の採譜システム。
  7. 前記楽音音圧推移は、前記楽音データにおける音圧の中央値にて正規化されており、
    前記導出手段は、
    前記対象音声データを、前記対象音声データにおける音圧の中央値にて正規化したデータを前記対象音声音圧推移として導出する
    ことを特徴とする請求項2から請求項6までのいずれか一項に記載の採譜システム。
JP2014201117A 2014-09-30 2014-09-30 採譜装置、及び採譜システム Active JP6252421B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014201117A JP6252421B2 (ja) 2014-09-30 2014-09-30 採譜装置、及び採譜システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014201117A JP6252421B2 (ja) 2014-09-30 2014-09-30 採譜装置、及び採譜システム

Publications (2)

Publication Number Publication Date
JP2016071188A JP2016071188A (ja) 2016-05-09
JP6252421B2 true JP6252421B2 (ja) 2017-12-27

Family

ID=55864547

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014201117A Active JP6252421B2 (ja) 2014-09-30 2014-09-30 採譜装置、及び採譜システム

Country Status (1)

Country Link
JP (1) JP6252421B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108062218B (zh) * 2018-01-16 2023-12-05 北京唱吧科技股份有限公司 一种声卡装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3832266B2 (ja) * 2001-03-22 2006-10-11 ヤマハ株式会社 演奏データ作成方法および演奏データ作成装置

Also Published As

Publication number Publication date
JP2016071188A (ja) 2016-05-09

Similar Documents

Publication Publication Date Title
JP6060867B2 (ja) 情報処理装置,データ生成方法,及びプログラム
JP4613923B2 (ja) 楽音処理装置およびプログラム
JP4479701B2 (ja) 楽曲練習支援装置、動的時間整合モジュールおよびプログラム
JP6252421B2 (ja) 採譜装置、及び採譜システム
JP5782972B2 (ja) 情報処理システム,プログラム
JP6056799B2 (ja) プログラム、情報処理装置、及びデータ生成方法
JP2017067902A (ja) 音響処理装置
JP5267495B2 (ja) 楽器音分離装置、及びプログラム
JP6252420B2 (ja) 音声合成装置、及び音声合成システム
JP6075314B2 (ja) プログラム,情報処理装置,及び評価方法
JP6075313B2 (ja) プログラム,情報処理装置,及び評価データ生成方法
JP6260565B2 (ja) 音声合成装置、及びプログラム
JP5983670B2 (ja) プログラム、情報処理装置、及びデータ生成方法
JP6365483B2 (ja) カラオケ装置,カラオケシステム,及びプログラム
JP5879813B2 (ja) 複数音源の識別装置および複数音源に連動する情報処理装置
JP5310677B2 (ja) 音源分離装置、及びプログラム
JP2012118234A (ja) 信号処理装置,及びプログラム
JP6406182B2 (ja) カラオケ装置、及びカラオケシステム
JP6011506B2 (ja) 情報処理装置,データ生成方法,及びプログラム
JP5569307B2 (ja) プログラム、及び編集装置
JP6380305B2 (ja) データ生成装置、カラオケシステム、及びプログラム
JP2011186054A (ja) タイミング特定装置、及びプログラム
JP6365561B2 (ja) カラオケシステム、カラオケ装置、及びプログラム
JP2008268358A (ja) カラオケ装置、歌唱評価方法およびプログラム
JP5541008B2 (ja) データ修正装置、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161220

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171026

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171031

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171113

R150 Certificate of patent or registration of utility model

Ref document number: 6252421

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150