JP6693189B2 - 音信号処理方法 - Google Patents

音信号処理方法 Download PDF

Info

Publication number
JP6693189B2
JP6693189B2 JP2016048562A JP2016048562A JP6693189B2 JP 6693189 B2 JP6693189 B2 JP 6693189B2 JP 2016048562 A JP2016048562 A JP 2016048562A JP 2016048562 A JP2016048562 A JP 2016048562A JP 6693189 B2 JP6693189 B2 JP 6693189B2
Authority
JP
Japan
Prior art keywords
time length
sound signal
beat
index
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016048562A
Other languages
English (en)
Other versions
JP2017161852A (ja
Inventor
陽 前澤
陽 前澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2016048562A priority Critical patent/JP6693189B2/ja
Priority to DE112017001277.5T priority patent/DE112017001277B4/de
Priority to CN201780015943.3A priority patent/CN108780634B/zh
Priority to PCT/JP2017/009745 priority patent/WO2017155098A1/ja
Publication of JP2017161852A publication Critical patent/JP2017161852A/ja
Priority to US16/117,154 priority patent/US10629177B2/en
Application granted granted Critical
Publication of JP6693189B2 publication Critical patent/JP6693189B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/40Rhythm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • G10H1/368Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems displaying animated or moving pictures synchronized with the music or audio part
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • G06F17/141Discrete Fourier transforms
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10GREPRESENTATION OF MUSIC; RECORDING MUSIC IN NOTATION FORM; ACCESSORIES FOR MUSIC OR MUSICAL INSTRUMENTS NOT OTHERWISE PROVIDED FOR, e.g. SUPPORTS
    • G10G3/00Recording music in notation form, e.g. recording the mechanical operation of a musical instrument
    • G10G3/04Recording music in notation form, e.g. recording the mechanical operation of a musical instrument using electrical means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • G10H1/0025Automatic or semi-automatic music composition, e.g. producing random music, applying rules from music theory or modifying a musical piece
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/40Rhythm
    • G10H1/42Rhythm comprising tone forming circuits
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/051Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction or detection of onsets of musical sounds or notes, i.e. note attack timings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/066Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for pitch analysis as part of wider processing for musical purposes, e.g. transcription, musical performance evaluation; Pitch recognition, e.g. in polyphonic sounds; Estimation or use of missing fundamental
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/076Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of timing, tempo; Beat detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/325Synchronizing two or more audio tracks or files according to musical features or musical timings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/215Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
    • G10H2250/235Fourier transform; Discrete Fourier Transform [DFT]; Fast Fourier Transform [FFT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Discrete Mathematics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Auxiliary Devices For Music (AREA)
  • Electrophonic Musical Instruments (AREA)

Description

本発明は、楽曲を示す音信号から、楽曲における拍および小節の時間長を推定する技術に関する。
音信号を解析する技術が知られている。例えば特許文献1および2には、楽曲を示す音信号からその楽曲の拍点、テンポ、小節線の位置、およびコードを、確率モデルを用いて推定する技術が記載されている。
特開2015−114361号公報 特開2015−200803号公報
特許文献1および2に記載の技術においては、拍点、テンポ、拍子、およびコード進行等の遷移確率モデルをあらかじめ定義する必要があった。
これに対し本発明は、入力音信号から拍および小節の長さをより簡単に推定する技術を提供する。
本発明は、楽曲を示す入力音信号における単位時間長を取得するステップと、前記入力音信号から音色特徴量を計算するステップと、前記音色特徴量に対し、前記入力音信号において前記単位時間長を基準として前記楽曲における1拍および1小節の時間長を仮定した場合に、当該仮定された時間長の妥当性を示す指標を計算するステップと、前記指標に基づいて前記単位時間長を基準とする前記1拍および1小節の時間長を推定するステップとを有する音信号処理方法を提供する。
また、本発明は、楽曲を示す入力音信号における単位時間長を取得するステップと、前記入力音信号から音色特徴量を計算するステップと、前記単位時間長を基準とする時間領域において前記音色特徴量に対し振幅離散フーリエ変換を行うステップと、前記振幅離散フーリエ変換の結果に対し、前記時間領域において前記単位時間長を基準とする前記楽曲における1拍および1小節の時間長に対応する窓関数を適用することにより当該1拍および1小節の時間長の指標を計算するステップと、前記指標に基づいて前記単位時間長を基準とする前記1拍の時間長および前記1小節の時間長を推定するステップとを有する音信号処理方法を提供する。
前記1拍および1小節の時間長の組み合わせに対してあらかじめ設定された優先度を用いて前記指標が計算されてもよい。
本発明によれば、入力音信号から拍および小節の長さをより簡単に推定することができる。
一実施形態に係る音信号処理装置1の機能構成を例示する図。 音信号処理装置1のハードウェア構成を例示する図。 音信号処理装置1の動作を例示するフローチャート。 指標計算処理の詳細を例示するフローチャート。 DFT結果を例示する図。 統合されたDFT結果を例示する図。 記憶されている優先度を例示する図。
1.構成
図1は、一実施形態に係る音信号処理装置1の機能構成を例示する図である。音信号処理装置1は、楽曲を示す音信号(以下「入力音信号」という)から、その楽曲における拍子を推定する装置である。
音信号処理装置1は、入力音取得手段11、単位時間取得手段12、特徴量計算手段13、指標計算手段14、推定手段15、記憶手段16、および出力手段17を有する。入力音取得手段11は、入力音信号すなわち以下の処理の対象となる楽曲を示す音信号を取得する。単位時間取得手段12は、入力音信号における単位時間長を取得する。特徴量計算手段13は、入力音信号から、音色特徴量を計算する。指標計算手段14は、特徴量計算手段13により計算された音色特徴量に対し、入力音信号において単位時間長を基準として1拍および1小節の時間長を仮定した場合に、仮定された時間長の妥当性を示す指標を計算する。推定手段15は、指標計算手段14により計算された指標に基づいて、単位時間長を基準とする1拍および1小節の時間長を推定する。
記憶手段16は、1拍および1小節の時間長の組み合わせに対してあらかじめ設定された優先度を記憶している。この例で、推定手段15は、記憶手段16に記憶されている優先度に基づいて、1拍および1小節の時間長を推定する。出力手段17は、推定手段15により推定された1拍および1小節の時間長に関する情報を出力する。
図2は、音信号処理装置1のハードウェア構成を例示する図である。音信号処理装置1は、CPU(Central Processing Unit)101、メモリー102、ストレージ103、通信インターフェース104、入力装置105、および出力装置106を有するコンピュータ装置である。CPU101は、音信号処理装置1の各部を制御する制御装置である。メモリー102は、CPU101がプログラムを実行する際のワークエリアとして機能する主記憶装置である。ストレージ103は、各種のプログラムおよびデータを記憶する不揮発性の記憶装置である。通信インターフェース104は、他の装置と所定の通信規格に従った通信を行う装置である。入力装置105は、音信号処理装置に情報を入力するための装置であり、例えば、マイクロフォン、タッチスクリーン、キーパッド、およびボタンの少なくとも1つを含む。出力装置106は、情報を出力するための装置であり、例えば、ディスプレイおよびスピーカの少なくとも一方を含む。
ストレージ103は、コンピュータ装置を音信号処理装置1として機能させるためのプログラムを記憶している。CPU101がこのプログラムを実行することにより、図1に示した機能が実装される。このプログラムを実行しているCPU101は、入力音取得手段11、単位時間取得手段12、特徴量計算手段13、指標計算手段14、および推定手段15の一例である。メモリー102およびストレージ103は、記憶手段16の一例である。出力装置106は、出力手段17の一例である。
2.動作
図3は、音信号処理装置1の動作を例示するフローチャートである。図3のフローは、例えば、上記のプログラムが起動されたことを契機として開始される。このフローは、楽曲の拍および小節の時間長を推定する音信号処理方法に係るものである。例えば、拍が八分音符の倍数であると仮定すると、拍および小節の時間長の推定は、1拍を構成する八分音符の数b、および1小節を構成する拍の数mを求めることに相当する。パラメーターmは、この楽曲がm拍子であることを示している。例えば、2拍子の楽曲ではm=2であり、3拍子の楽曲ではm=3であり、4拍子の楽曲ではm=4である。拍および小節の時間長の推定は、詳細には以下のとおり行われる。
ステップS1において、入力音取得手段11は、入力音信号を取得する。入力音信号は、例えば、非圧縮または圧縮形式(wavやmp3等)の音データに基づく楽曲の音信号であるが、これに限定されるものではない。この音データは、ストレージ103にあらかじめ記憶されていてもよいし、音信号処理装置1の外部から入力されてもよい。
ステップS2において、単位時間取得手段12は、単位時間長taを取得する。単位時間長taとは、楽曲における音楽的な時間の最小単位をいい、例えば、ある楽器の演奏音の繰り返し単位(一例としてはハイハットでリズムを刻んでいる場合において、ハイハットの一打から次の一打までの間隔)をいう。単位時間長taは、この楽曲における例えば八分音符または十六分音符の長さに相当する。一例として、単位時間取得手段12は、入力音信号を解析することにより、単位時間長taを計算する。単位時間長taの計算には公知の技術が用いられる。あるいは、単位時間長taは、ユーザーの指示入力により指定されてもよい。この場合、単位時間取得手段12は、ユーザーの指示入力に応じて単位時間長taを取得する。具体的には、例えば、入力音に合せて単位時間長に相当するタイミングでユーザーがボタンを繰り返し押し(またはタッチスクリーンをタップし)、単位時間取得手段12は、これに応じて単位時間長taを決定する。
音信号処理装置1により自動的に計算されるにせよ、ユーザーの指示入力により指定されるにせよ、音信号における特徴が現れるタイミング(一例としてはハイハットが鳴るタイミング)は、必ずしも完全に周期的ではない。そのため、ステップS2において取得される単位時間長taは、入力音信号のうち解析対象の全区間を通じて一定である必要はない。入力音信号は複数の区間に区分され、各区間において単位時間長taは異なっていてもよい。すなわち、単位時間長taは後述する音色特徴量を平滑化するための時間長の列である。あるいは、音信号処理装置1は、平均値を計算する等の手法により、解析対象の全区間を通じて一定の単位時間長taを決定してもよい。この場合において、楽曲の中でこのタイミングの間隔の変化がしきい値(例えば平均値の10%)を超えた部分(例えば曲中でテンポが変わっている部分)については、音信号処理装置1は、他の部分とは分けて処理を行ってもよい。
再び図3を参照する。ステップS3において、特徴量計算手段13は、音色特徴量を計算する。この例で、音色特徴量としては、MFCC(メル周波数ケプストラム係数)が用いられる。MFCCは、多次元(一例としては12次元)のベクトルである。MFCCは、音信号において音色の特徴を表すパラメーターとして広く知られており、MFCCの計算には公知の技術が用いられる。MFCCは、各時間フレームにおいて指定された単位時間長taを単位として、時間フレーム毎に計算される。すなわち、ステップS3において、MFCCの特徴系列x[d,t]が得られる。x[d,t]は、時刻tにおける第d次元の特徴量を示している(d∈[0,D]、t∈[0,T])。なお時刻tは、単位時間長taを単位として表される。
ステップS4において、指標計算手段14は、指標を計算する。この指標は、音色特徴量に対し、入力音信号において単位時間長taを基準として1拍および1小節の時間長を仮定した場合に、その仮定された時間長の妥当性を示すものである。
図4は、ステップS4における指標計算処理の詳細を例示するフローチャートである。ステップS41において、指標計算手段14は、MFCCを時間領域で離散フーリエ変換(DFT)する。これにより、DFTの絶対値R[d,n]が得られる(次式(1))。なお、nは周波数に相当するパラメーターである(n∈[0,N])。
Figure 0006693189
図5は、DFT結果を例示する図である。DFT結果は、MFCCの次元に相当する数だけ得られる。例えばMFCCが12次元のベクトルである場合、DFTの結果は12個得られる。なお、このDFT結果において、縦軸はスペクトル強度を示しており、横軸は単位時間長taを基準とする周期τ[ta]を示している。例えば、周期τ=3に現れているピークは、周期3taの繰り返しに相当するピークである。
再び図4を参照する。ステップS42において、指標計算手段14は、複数のDFTスペクトルから、指標S[l]を計算する。指標S[l]は、入力音信号において周期lの繰り返しが現れる強さを示している(l∈[0,L])。具体的には、指標計算手段14は、次式(2)により積和S[l]を計算する。
Figure 0006693189
ここで、w[l,n]は、
Figure 0006693189
ただし
Figure 0006693189
である。式(2)〜(4)は、長さNの振幅DFTにおいて周期lに対応する周辺のデータを積和することを意味する。すなわち、w[l,n]は、周期lの周辺のデータを切り出すための窓関数である。なお、式(4)のλは実験的に決められる定数である。すなわち、ステップS42は、DFTの結果に対し、時間領域において単位時間長taを基準とする楽曲における1拍および1小節の時間長に対応する窓関数を適用することにより、その1拍および1小節の時間長の指標を計算するものである。
図6は、指標S[l]を例示する図である。ここでは説明のため、DFT値ΣRdおよび窓関数w[l,n]を併せて図示している。この図はl=4の例を示している。指標S[l]は、DFTスペクトルの周期l周辺におけるパワー(図中のハッチングした領域の面積)に相当する。指標計算手段14は、複数の周期lの各々について、指標S[l]を計算する。指標計算手段14は、計算したS[l]を記憶手段16に記憶する。
再び図4を参照する。ステップS43において、指標計算手段14は、拍および小節を構成する単位時間長taの数を仮定する。より詳細には、指標計算手段14は、1拍を構成する単位時間長taの数b、および1小節を構成する拍の数mを仮定する。すなわち、指標計算手段14は、1拍の長さをb・taと仮定し、1小節の長さをm・b・taと仮定する。
この例で、mおよびbの組み合わせ(m,b)の候補は、音楽的な観点からあらかじめ限定されている。まず第1に、ほとんどの楽曲は2拍子、3拍子、または4拍子である。したがって、例えばm∈{2,3,4}に限定してしまっても多くの場合、問題がない。また、単位時間長taが八分音符または十六分音符に対応していると考えると、m∈{2,3,4}に限定してしまっても多くの場合、問題がない。mおよびbを例えば上記のように限定すると、組み合わせ(m,b)の候補は9通りに限定される。記憶手段16は、組み合わせの候補を特定する情報を記憶している。指標計算手段14は、これら9通りの候補の中から、一の組み合わせを順次、選択する。なお、ここで説明した組み合わせ(m,b)の候補の限定は単なる例示でありこれに限定されるものではない。
ステップS44において、指標計算手段14は、選択された組み合わせ(m,b)に対応する優先度P0[m,b]を取得する。優先度P0はあらかじめ設定されており、記憶手段16に記憶されている。
図7は、記憶手段16に記憶されている優先度P0を例示する図である。ここでは、組み合わせ(m,b)の各々について優先度P0が設定されている。また、ここでは説明のため、備考欄に各組み合わせ(m,b)が何拍子であるかを記載している。なお、この備考自体は記憶手段16に記憶されていなくてよい。この例で、優先度P0は、その値が高いほどその(m,b)の組み合わせが発生する可能性が高いことを意味する。例えば、(m,b)=(4,2)は4/4拍子に相当する(単位時間長taは八分音符に相当)。4/4拍子の楽曲は頻出であるので、ここではP0[4,2]=1.0に設定されている。一方、(m,b)=(4,3)は12/8拍子に相当するが、12/8拍子の楽曲は4/4拍子の楽曲と比較すると出現頻度が低いので、ここではP0[4,3]=0.1に設定されている。指標計算手段14は、記憶手段に記憶されている優先度の中から、選択された組み合わせ(m,b)を読み出す。
再び図4を参照する。ステップS45において、指標計算手段14は、指標P[m,b]を計算する。指標P[m,b]は、仮定された組み合わせ(m,b)の妥当性を示すものである。この例では、その値が大きいほど組み合わせ(m,b)が妥当であることを示す。具体的に、指標計算手段14は、次式(5)により指標P[m,b]を計算する。
Figure 0006693189
一例として、(m,b)=(4,4)である場合、
Figure 0006693189
である。指標計算手段14は、計算した指標P[m,b]を記憶手段16に記憶する。
なお、指標S[l]についてはmおよびbの積に相当するS[mb]まで計算されている必要がある。すなわち、mおよびbの最大値mmaxおよびbmaxに対し、周期lは、
Figure 0006693189
をカバーしている必要がある。例えば、mmax=4およびbmax=4であった場合、
Figure 0006693189
である。したがって、指標計算手段14は、ステップS42において、式(8)の範囲で指標S[l]を計算する。
ステップS46において、指標計算手段14は、(m,b)の全ての組み合わせ候補について指標P[m,b]の計算が完了したか判断する。まだ指標P[m,b]を計算していない組み合わせ(m,b)があったと判断された場合(S46:NO)、指標計算手段14は、処理をステップS43に移行する。以下、組み合わせ(m,b)を更新し、ステップS44およびS45の処理が繰り返し実行される。全ての組み合わせ候補について指標P[m,b]の計算が完了したと判断された場合(S46:YES)、指標計算手段14は、図4のフローを終了する。
再び図3を参照する。ステップS5において、推定手段15は、入力音信号においてもっともらしい組み合わせ(m,b)を推定する。具体的には、指標計算手段14は、指標P[m,b]が最も高い値を示した組み合わせ(m,b)がもっともらしいと推定する。
ステップS6において、出力手段17は、推定手段15により推定された組み合わせ(m,b)に関する情報を出力する。組み合わせ(m,b)に関する情報は、例えば、入力音信号に係る楽曲の拍子(4/4拍子、4/3拍子等)である。あるいは、出力手段17は、組み合わせ(m,b)を特定するためのパラメーターを出力する。出力先がユーザーである場合、この情報の出力は、例えばディスプレイにおける表示である。出力先が他の音信号処理システムであった場合、この情報の出力は、例えばデータの出力である。
3.実施例
表1は、上記の実施形態に係る方法(実施例)と比較例に係る方法とによる拍子推定の結果を例示するものである。本願の発明者らは、実際の楽曲に対し実施例に係る方法および比較例に係る方法を用いて拍子推定を行い、その正解率を評価した。比較例としては、楽曲の拍子をすべて4/4拍子と推定するアルゴリズムが用いられた。拍子推定の対象として、いわゆるポピュラー音楽系の楽曲を100曲準備した。なお、楽曲は4拍子系(拍子の分子が2の倍数)と3拍子系(拍子の分子が3の倍数)とに分類した。
Figure 0006693189
実施例では4拍子系の楽曲に対する正解率が比較例よりも若干低下しているが、3拍子系の楽曲に対する正解率が劇的に向上しており、全体としては正解率が比較例よりも大幅に改善した。
4.変形例
本発明は上述の実施形態に限定されるものではなく、種々の変形実施が可能である。以下、変形例をいくつか説明する。以下の変形例のうち2つ以上のものが組み合わせて用いられてもよい。
指標P[m,b]の具体的な計算方法は実施形態で例示したものに限定されない。例えば、優先度P0は考慮されなくてもよい。すなわち、式(5)の右辺第3項は省略されてもよい。
実施形態においては組み合わせ(m,b)の候補が音楽的な観点から限定されている例を説明したが、このような限定は行われなくてもよい。例えば、mおよびbはそれぞれ取り得る値の範囲が個別に設定されており、これらの範囲内で可能な組み合わせ(m,b)が全て組み合わせの候補とされてもよい。なおこの場合において、優先度P0により、音楽的に意味の無い組み合わせ(m,b)がもっともらしいと推定される可能性を排除してもよい。例えば、(m,b)=(7,3)の組み合わせは7/8拍子に相当するが、7/8拍子の楽曲は存在自体が少ないので、優先度P0を低い値、例えば負の値に設定してもよい。
実施形態の例では数mは1小節に含まれる拍の数を表していたが、数mは1小節に含まれる単位時間長taの数を表していてもよい。この場合、数mは数bの整数倍でなければならないので、組み合わせ(m,b)の候補を限定する際に数mが数bの整数倍でないものを除外してもよい。あるいは、組み合わせ(m,b)の候補は限定せずに、数mが数bの整数倍でない組み合わせ(m,b)に対応する優先度P0を極端に低い値、例えば−∞に設定してもよい。
音色特徴量は実施形態で説明したものに限定されない。例えば、フォルマント周波数、LPC(Linear Predictive Coding)ケプストラム等、MFCC以外の特徴量が用いられてもよい。
窓関数は式(3)で例示されたものに限定されない。周期lの周辺のスペクトルを切り出すことができるものであれば関数の形式はどのようなものであってもよい。
実施形態の例では単一の装置が図1の機能をすべて有していたが、図1の機能は、クライアント装置およびサーバ装置に分けて実装されていてもよい。例えば、特徴量計算手段13、指標計算手段14、推定手段15、および記憶手段16がサーバ装置に実装され、入力音取得手段11、単位時間取得手段12、および出力手段17がクライアント装置に実装されてもよい。
音信号処理装置1のCPU101等により実行されるプログラムは、光ディスク、磁気ディスク、半導体メモリーなどの記憶媒体により提供されてもよいし、インターネット等の通信回線を介してダウンロードされてもよい。また、このプログラムは、図3のすべてのステップを備える必要はない。例えば、このプログラムは、ステップS1、ステップS2およびステップS6のみを備えていてもよい。また、このプログラムは、ステップS1、ステップS2およびステップS3のみを備えるようにしてもよい。さらに、このプログラムは、ステップS1およびステップS6のみを備えるようにしてもよい。
1…音信号処理装置、11…入力音取得手段、12…単位時間取得手段、13…特徴量計算手段、14…指標計算手段、15…推定手段、16…記憶手段、17…出力手段、101…CPU、102…メモリー、103…ストレージ、104…通信インターフェース、105…入力装置、106…出力装置

Claims (3)

  1. 楽曲を示す入力音信号における単位時間長を取得するステップと、
    前記入力音信号から音色特徴量を計算するステップと、
    前記音色特徴量に対し、前記入力音信号において前記単位時間長を基準として前記楽曲における1拍および1小節の時間長を仮定した場合に、当該仮定された時間長の妥当性を示す指標を計算するステップと、
    前記指標に基づいて前記単位時間長を基準とする前記1拍および1小節の時間長を推定するステップと
    を有する音信号処理方法。
  2. 楽曲を示す入力音信号における単位時間長を取得するステップと、
    前記入力音信号から音色特徴量を計算するステップと、
    前記単位時間長を基準とする時間領域において前記音色特徴量に対し振幅離散フーリエ変換を行うステップと、
    前記振幅離散フーリエ変換の結果に対し、前記時間領域において前記単位時間長を基準とする前記楽曲における1拍および1小節の時間長に対応する窓関数を適用することにより当該1拍および1小節の時間長の指標を計算するステップと、
    前記指標に基づいて前記単位時間長を基準とする前記1拍の時間長および前記1小節の時間長を推定するステップと
    を有する音信号処理方法。
  3. 前記1拍および1小節の時間長の組み合わせに対してあらかじめ設定された優先度を用いて前記指標が計算される
    請求項1または2に記載の音信号処理方法。
JP2016048562A 2016-03-11 2016-03-11 音信号処理方法 Active JP6693189B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2016048562A JP6693189B2 (ja) 2016-03-11 2016-03-11 音信号処理方法
DE112017001277.5T DE112017001277B4 (de) 2016-03-11 2017-03-10 Tonsignalverarbeitungsverfahren und Tonsignalverarbeitungsvorrichtung
CN201780015943.3A CN108780634B (zh) 2016-03-11 2017-03-10 声音信号处理方法及声音信号处理装置
PCT/JP2017/009745 WO2017155098A1 (ja) 2016-03-11 2017-03-10 音信号処理方法および音信号処理装置
US16/117,154 US10629177B2 (en) 2016-03-11 2018-08-30 Sound signal processing method and sound signal processing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016048562A JP6693189B2 (ja) 2016-03-11 2016-03-11 音信号処理方法

Publications (2)

Publication Number Publication Date
JP2017161852A JP2017161852A (ja) 2017-09-14
JP6693189B2 true JP6693189B2 (ja) 2020-05-13

Family

ID=59789409

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016048562A Active JP6693189B2 (ja) 2016-03-11 2016-03-11 音信号処理方法

Country Status (5)

Country Link
US (1) US10629177B2 (ja)
JP (1) JP6693189B2 (ja)
CN (1) CN108780634B (ja)
DE (1) DE112017001277B4 (ja)
WO (1) WO2017155098A1 (ja)

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000221979A (ja) * 1999-02-02 2000-08-11 Roland Corp テンポ等の演算装置
JP2002116454A (ja) * 2000-10-10 2002-04-19 Seiko Epson Corp 液晶装置および電子機器
JP3982443B2 (ja) * 2003-03-31 2007-09-26 ソニー株式会社 テンポ解析装置およびテンポ解析方法
JP4767691B2 (ja) * 2005-07-19 2011-09-07 株式会社河合楽器製作所 テンポ検出装置、コード名検出装置及びプログラム
WO2007010637A1 (ja) * 2005-07-19 2007-01-25 Kabushiki Kaisha Kawai Gakki Seisakusho テンポ検出装置、コード名検出装置及びプログラム
US7518053B1 (en) * 2005-09-01 2009-04-14 Texas Instruments Incorporated Beat matching for portable audio
JP4672613B2 (ja) * 2006-08-09 2011-04-20 株式会社河合楽器製作所 テンポ検出装置及びテンポ検出用コンピュータプログラム
JP4916947B2 (ja) * 2007-05-01 2012-04-18 株式会社河合楽器製作所 リズム検出装置及びリズム検出用コンピュータ・プログラム
JP5008766B2 (ja) * 2008-04-11 2012-08-22 パイオニア株式会社 テンポ検出装置及びテンポ検出プログラム
JP5282548B2 (ja) * 2008-12-05 2013-09-04 ソニー株式会社 情報処理装置、音素材の切り出し方法、及びプログラム
JP5203404B2 (ja) * 2010-02-13 2013-06-05 学校法人 龍谷大学 テンポ値検出装置およびテンポ値検出方法
US8983082B2 (en) * 2010-04-14 2015-03-17 Apple Inc. Detecting musical structures
JP2012022221A (ja) * 2010-07-16 2012-02-02 Ryukoku Univ 拍時刻推定装置および拍時刻推定方法
US9099064B2 (en) * 2011-12-01 2015-08-04 Play My Tone Ltd. Method for extracting representative segments from music
JP6179140B2 (ja) * 2013-03-14 2017-08-16 ヤマハ株式会社 音響信号分析装置及び音響信号分析プログラム
CN104217729A (zh) * 2013-05-31 2014-12-17 杜比实验室特许公司 音频处理方法和音频处理装置以及训练方法
GB201310861D0 (en) * 2013-06-18 2013-07-31 Nokia Corp Audio signal analysis
GB2518663A (en) * 2013-09-27 2015-04-01 Nokia Corp Audio analysis apparatus
JP6252147B2 (ja) 2013-12-09 2017-12-27 ヤマハ株式会社 音響信号分析装置及び音響信号分析プログラム
JP5866545B1 (ja) 2014-03-06 2016-02-17 パナソニックIpマネジメント株式会社 表示制御装置および表示制御プログラム
JP6295794B2 (ja) 2014-04-09 2018-03-20 ヤマハ株式会社 音響信号分析装置及び音響信号分析プログラム
US10395669B2 (en) * 2016-02-25 2019-08-27 Sony Interactive Entertainment Inc. Voice analysis apparatus, voice analysis method, and program

Also Published As

Publication number Publication date
CN108780634A (zh) 2018-11-09
US20180374463A1 (en) 2018-12-27
JP2017161852A (ja) 2017-09-14
DE112017001277B4 (de) 2021-06-10
DE112017001277T5 (de) 2018-11-29
US10629177B2 (en) 2020-04-21
WO2017155098A1 (ja) 2017-09-14
CN108780634B (zh) 2023-05-09

Similar Documents

Publication Publication Date Title
JP6017687B2 (ja) オーディオ信号分析
JP5454317B2 (ja) 音響解析装置
JP2020505652A5 (ja)
JP6759545B2 (ja) 評価装置およびプログラム
JP6743425B2 (ja) 音信号処理方法および音信号処理装置
CN105957515A (zh) 声音合成方法、声音合成装置和存储声音合成程序的介质
JPWO2020031544A1 (ja) 楽譜データの情報処理装置
JP6252147B2 (ja) 音響信号分析装置及び音響信号分析プログラム
JP6295794B2 (ja) 音響信号分析装置及び音響信号分析プログラム
JP7139628B2 (ja) 音処理方法および音処理装置
JP6693189B2 (ja) 音信号処理方法
JP5126055B2 (ja) 歌唱採点システムおよびプログラム
JP6747236B2 (ja) 音響解析方法および音響解析装置
JP7243147B2 (ja) コード推定方法、コード推定装置およびプログラム
JP2015200685A (ja) アタック位置検出プログラムおよびアタック位置検出装置
JP2017161572A (ja) 音信号処理方法および音信号処理装置
JP5131130B2 (ja) 追従性評価システム,カラオケシステムおよびプログラム
JP2020154240A (ja) 楽曲解析方法および楽曲解析装置
JP7106897B2 (ja) 音声処理方法、音声処理装置およびプログラム
JP7176114B2 (ja) 楽曲解析装置、プログラムおよび楽曲解析方法
JP7200483B2 (ja) 音声処理方法、音声処理装置およびプログラム
JP6234134B2 (ja) 音声合成装置
US20230395047A1 (en) Audio analysis method, audio analysis system and program
WO2023068228A1 (ja) 音響処理方法、音響処理システムおよびプログラム
JP6584230B2 (ja) 演奏練習支援装置およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190124

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200317

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200330

R151 Written notification of patent or utility model registration

Ref document number: 6693189

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151