JP6035702B2 - 音響処理装置および音響処理方法 - Google Patents
音響処理装置および音響処理方法 Download PDFInfo
- Publication number
- JP6035702B2 JP6035702B2 JP2011045974A JP2011045974A JP6035702B2 JP 6035702 B2 JP6035702 B2 JP 6035702B2 JP 2011045974 A JP2011045974 A JP 2011045974A JP 2011045974 A JP2011045974 A JP 2011045974A JP 6035702 B2 JP6035702 B2 JP 6035702B2
- Authority
- JP
- Japan
- Prior art keywords
- frequency
- unit
- value
- processing
- coefficient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000012545 processing Methods 0.000 title claims description 257
- 238000003672 processing method Methods 0.000 title claims 2
- 239000011295 pitch Substances 0.000 claims description 165
- 238000004458 analytical method Methods 0.000 claims description 164
- 238000000034 method Methods 0.000 claims description 134
- 230000001629 suppression Effects 0.000 claims description 56
- 230000007704 transition Effects 0.000 claims description 40
- 238000001514 detection method Methods 0.000 claims description 30
- 230000004807 localization Effects 0.000 claims description 26
- 238000003860 storage Methods 0.000 claims description 22
- 230000008569 process Effects 0.000 description 99
- 238000001228 spectrum Methods 0.000 description 75
- 230000006870 function Effects 0.000 description 42
- 238000004364 calculation method Methods 0.000 description 40
- 238000012937 correction Methods 0.000 description 36
- SIIZPVYVXNXXQG-UQTMIEBXSA-N [(2r,3r,4r,5r)-5-(6-aminopurin-9-yl)-4-[[(2r,3s,4r,5r)-5-(6-aminopurin-9-yl)-3,4-dihydroxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-3-hydroxyoxolan-2-yl]methyl [(2r,3r,4r,5r)-2-(6-aminopurin-9-yl)-4-hydroxy-5-(phosphonooxymethyl)oxolan-3-yl] hydrogen phos Chemical compound C1=NC2=C(N)N=CN=C2N1[C@@H]1O[C@H](COP(O)(=O)O[C@H]2[C@@H](O[C@H](COP(O)(O)=O)[C@H]2O)N2C3=NC=NC(N)=C3N=C2)[C@@H](O)[C@H]1OP(O)(=O)OC[C@H]([C@@H](O)[C@H]1O)O[C@H]1N1C(N=CN=C2N)=C2N=C1 SIIZPVYVXNXXQG-UQTMIEBXSA-N 0.000 description 22
- 238000009826 distribution Methods 0.000 description 21
- 238000010586 diagram Methods 0.000 description 17
- 230000008901 benefit Effects 0.000 description 16
- 238000011156 evaluation Methods 0.000 description 15
- 230000004048 modification Effects 0.000 description 12
- 238000012986 modification Methods 0.000 description 12
- 238000009527 percussion Methods 0.000 description 11
- 230000014509 gene expression Effects 0.000 description 10
- 102220614306 F-box only protein 4_S12E_mutation Human genes 0.000 description 8
- 102220614300 F-box only protein 4_S12A_mutation Human genes 0.000 description 7
- 230000008859 change Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 4
- 238000000926 separation method Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000012706 support-vector machine Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000005314 correlation function Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 230000001934 delay Effects 0.000 description 3
- 230000005484 gravity Effects 0.000 description 3
- 102220313179 rs1553259785 Human genes 0.000 description 3
- 102220259718 rs34120878 Human genes 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 102200084388 rs121918345 Human genes 0.000 description 2
- 102220276093 rs1555932427 Human genes 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- WWYNJERNGUHSAO-XUDSTZEESA-N (+)-Norgestrel Chemical compound O=C1CC[C@@H]2[C@H]3CC[C@](CC)([C@](CC4)(O)C#C)[C@@H]4[C@@H]3CCC2=C1 WWYNJERNGUHSAO-XUDSTZEESA-N 0.000 description 1
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/36—Accompaniment arrangements
- G10H1/361—Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/066—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for pitch analysis as part of wider processing for musical purposes, e.g. transcription, musical performance evaluation; Pitch recognition, e.g. in polyphonic sounds; Estimation or use of missing fundamental
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/325—Musical pitch modification
- G10H2210/331—Note pitch correction, i.e. modifying a note pitch or replacing it by the closest one in a given scale
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/005—Algorithms for electrophonic musical instruments or musical processing, e.g. for automatic composition or resource allocation
- G10H2250/015—Markov chains, e.g. hidden Markov models [HMM], for musical processing, e.g. musical analysis or musical composition
- G10H2250/021—Dynamic programming, e.g. Viterbi, for finding the most likely or most desirable sequence in music analysis, processing or composition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/025—Envelope processing of music signals in, e.g. time domain, transform domain or cepstrum domain
- G10H2250/031—Spectrum envelope processing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02087—Noise filtering the noise being separate speech, e.g. cocktail party
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/07—Synergistic effects of band splitting and sub-band processing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/40—Visual indication of stereophonic sound image
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Stereophonic System (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
Description
図1は、本発明の第1実施形態の音響処理装置100のブロック図である。図1に示すように、音響処理装置100には入力装置12と表示装置14と信号供給装置16と放音装置18とが接続される。入力装置12は、利用者からの指示を受付ける操作子で構成される。表示装置14(例えば液晶表示装置)は、音響処理装置100からの指示に応じて画像を表示する。
発音点解析部52は、音響信号xのうち選択領域148内の各音響成分の発音点の直後の部分(音量が立上がるアタック部分)が成分抑圧処理を通過するように基礎係数列H(t)を加工する。図4は、発音点解析部52の動作のフローチャートである。単位区間Tu毎に図4の処理が実行される。図4の処理を開始すると、発音点解析部52は、音響信号xLの周波数スペクトルXLと音響信号xRの周波数スペクトルXRとを、時間軸上で相対応する単位区間Tuについて加算または平均することで単位区間Tu毎に周波数スペクトル(複素スペクトル)Zを生成する(S11)。なお、音響信号xLと音響信号xRとの加算(または平均)のうち選択領域148内の各音像点qに対応する複数の周波数成分を選択して周波数軸上に配列した系列を周波数スペクトルZとして利用することも可能である。発音点解析部52は、周波数スペクトルZのうち特定帯域B0内の各周波数成分Z(f,t)の解析で各音響成分の発音点を検出する(S12A〜S12E)。発音点の検出には公知の技術が任意に採用され得るが、以下に例示する方法が格別に好適である。
基本周波数解析部56は、特定帯域B0内の音響成分のうち目標成分以外で調波構造を持つ音響成分が成分抑圧処理を通過するように発音点解析部52での処理後の基礎係数列H(t)を加工することで処理係数列G(t)を生成する。概略的には、基本周波数解析部56は、選択領域148内(特定帯域B0内)の複数の周波数成分からM個の基本周波数(ピッチ)F0を単位区間Tu毎に検出するとともに、各単位区間TuのM個の基本周波数F0のうち目標成分に該当する可能性が高い基本周波数F0を目標周波数Ftar(tar:target)として特定し、M個の基本周波数F0のうち目標周波数Ftar以外の各基本周波数F0とその倍音周波数とに対応する音響成分が成分抑圧処理を通過するように処理係数列G(t)を生成する。図9に示すように、基本周波数解析部56は、周波数検出部62と指標算定部64と遷移解析部66と係数列設定部68とを含んで構成される。基本周波数解析部56の各要素について以下に詳述する。
周波数検出部62は、選択領域148内の複数の周波数成分に対応するM個の基本周波数F0を検出する。周波数検出部62による基本周波数F0の検出には公知の技術が任意に採用され得るが、図10を参照して以下に例示する方法が格別に好適である。図10の処理は単位区間Tu毎に順次に実行される。なお、以下に例示する方法の詳細は、A. P. Klapuri, "Multiple fundamental frequency estimation based on harmonicity and spectral smoothness", IEEE Trans. Speech and Audio Proc., 11(6), 804-816, 2003に開示されている。
図9の指標算定部64は、周波数検出部62が処理S27で特定したN個の候補周波数Fc(1)〜Fc(N)の各々について、その候補周波数Fc(n)(n=1〜N)に対応する調波構造の特徴量(典型的には音色の特徴量)と目標成分に想定される特徴量との類否を示す特性指標値V(n)を算定する。すなわち、特性指標値V(n)は、候補周波数Fc(n)が目標成分に該当する可能性を音響特性(音色)の観点から評価した指標(歌唱音を目標成分とした本実施形態では音声らしさの尤度)に相当する。以下の説明ではMFCC(Mel Frequency Cepstral Coeffcient)を調波構造の特徴量として例示する。ただし、MFCC以外の特徴量を利用することも可能である。
図9の遷移解析部66は、周波数検出部62が単位区間Tu毎に算定したN個の候補周波数Fc(1)〜Fc(N)から、目標成分の基本周波数に該当する可能性が高い目標周波数Ftarを選択する。すなわち、目標周波数Ftarの時系列(軌跡)が特定される。図9に示すように、遷移解析部66は、第1処理部71と第2処理部72とを含んで構成される。第1処理部71および第2処理部72の各々の機能について以下に詳述する。
第1処理部71は、N個の候補周波数Fc(1)〜Fc(N)のうち目標成分に該当する可能性が高い候補周波数Fc(n)を単位区間Tu毎に特定する。図16は、第1処理部71の動作のフローチャートである。周波数検出部62がN個の候補周波数Fc(1)〜Fc(N)を最新の1個の単位区間(以下では特に「新規単位区間」という)Tuについて特定するたびに図16の処理が実行される。
ところで、音響信号xのなかには目標成分が存在しない単位区間Tu(例えば歌唱音が停止した区間)も存在する。第1処理部71による経路RAの探索では各単位区間Tuにおける目標成分の有無が判断されないから、実際には目標成分が存在しない単位区間Tuについても経路RA上では候補周波数Fc(n)が特定される。以上の事情を考慮して、第2処理部72は、経路RAの各候補周波数Fc(n)に対応するK個の単位区間Tuの各々について目標成分の有無を判定する。
本発明の第2実施形態を以下に説明する。なお、以下に例示する各態様において作用や機能が第1実施形態と同等である要素については、以上の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
発音点の直後の区間τに対応する係数値h(f,t)を発音点解析部52が通過値γ1に設定する以上の各形態では、選択領域148内の音響成分のうち打楽器音以外の音響成分(例えば目標成分たる歌唱音)についても発音点の直後の区間が成分抑圧処理を通過する結果となる。第3実施形態では、目標成分の発音点については直後の区間に対応する係数値h(f,t)を抑圧値γ0に設定する。
第3実施形態では、音響信号xの目標成分の音高の時系列と楽曲情報DMが指定する基準音高PREFの時系列(以下「基準音高系列」という)との間で時間的な対応を仮定したが、実際には両者が完全には対応しない場合もある。そこで、第4実施形態では、音響信号xに対する基準音高系列の相対的な位置(時間軸上の時刻)を調整する。
図30は、第5実施形態における基本周波数解析部56および記憶装置24のブロック図である。図30に示すように、記憶装置24は、第3実施形態と同様に楽曲情報DMを記憶する。第5実施形態の基本周波数解析部56は、楽曲情報DMで指定される基準音高PREFの時系列を、音響信号xの目標成分の基本周波数Ftarの時系列を特定するために利用する。
図32は、第6実施形態における基本周波数解析部56のブロック図である。第6実施形態の基本周波数解析部56は、第1実施形態と同様の要素(周波数検出部62,指標算定部64,遷移解析部66,係数列設定部68)に補正部94を追加した構成である。補正部94は、遷移解析部66が特定した基本周波数Ftarを補正することで基本周波数Ftar_c(c:corrected)を生成する。なお、第5実施形態と同様に、記憶装置24には、音響信号xと共通の楽曲の基準音高PREFを時系列に指定する楽曲情報DMが格納される。
Ftar_c=β×Ftar ……(13)
以上の形態には様々な変形が加えられる。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様は併合され得る。
発音点解析部52および基本周波数解析部56の一方を省略した構成や、発音点解析部52と基本周波数解析部56との順序を逆転させた構成も採用され得る。また、第2実施形態では、目標成分が存在しないと発音解析部84が判定した各単位区間Tuについて発音点解析部52や基本周波数解析部56が動作を停止する構成も採用され得る。
指標算定部64は省略され得る。指標算定部64を省略した構成では、第1処理部71での経路RAの特定に特性指標値V(n)が適用されない。すなわち、処理S42での確率PA2(n)の算定が省略され、尤度Ls(Fc(n))に応じた確率PA1(n)と前後の単位区間Tuでの周波数差εに応じた確率PA3(n)_νとに応じて経路RAが特定される。
第1実施形態における特性指標値V(n)の算定や第2実施形態における目標成分の有無の判定の手段はSVMに限定されない。例えば、k-meansアルゴリズム等の公知の技術による学習の結果を利用した構成でも、第1実施形態での特性指標値V(n)の算定(目標成分に該当するか否かの分類)や第2実施形態での目標成分の有無の判定が実現され得る。
周波数検出部62がM個の基本周波数F0を検出する方法は任意である。例えば、特開2001−125562号公報に開示されるように、相異なる基本周波数の調波構造を示す複数の音モデルの混合分布として音響信号xをモデル化したときの各音モデルの重み値から基本周波数の確率密度関数を推定し、確率密度関数のピークが存在するM個の基本周波数F0を特定する構成(PreFEst)も採用され得る。
図35の部分(A)に示すように、処理係数列G(t)を利用した成分抑圧処理の実行後の周波数スペクトルY(YL,YR)には、係数値g(f,t)の抑圧値γ0と通過値γ1との差異に起因した急激な強度の変化が発生して再生音の音質を低下させる可能性がある。そこで、図35の部分(B)の例示のように、周波数スペクトルYのうち処理係数列G(t)の抑圧値γ0に対応する帯域b内の成分を、信号処理部35が補間する構成も採用され得る。周波数スペクトルYの補間には、例えばスプライン補間等の公知の補間技術が任意に採用され得る。なお、帯域b内の位相角を決定する方法は任意であるが、例えば処理前の周波数スペクトルX(XL,XR)の位相角を適用する構成や、帯域bの両側の位相角を補間する構成や、位相角を乱数に設定する構成が採用され得る。
以上の各形態では、M個の基本周波数F0のうち尤度Ls(δF)の降順でN個の基本周波数F0を周波数検出部62が候補周波数Fc(1)〜Fc(N)として選択したが(図10の処理S27)、N個の候補周波数Fc(1)〜Fc(N)を特定する方法は任意である。例えば、処理S26で特定されたM個の基本周波数F0について指標算定部64が特性指標値Vを算定し、M個の基本周波数F0のうち特性指標値Vが大きいN個(目標成分らしいN個)を候補周波数Fc(1)〜Fc(N)として特定する構成も採用され得る。
以上の各形態では、処理係数列G(t)を生成する係数列生成部33と処理係数列G(t)を音響信号xに適用する信号処理部35との双方を具備する音響処理装置100を例示したが、処理係数列G(t)を生成する音響処理装置(処理係数列生成装置)としても本発明は実現され得る。処理係数列生成装置が生成した処理係数列G(t)は、別個の音響処理装置に搭載された信号処理部35に提供されて音響信号xの処理(目標成分の抑圧)に利用される。
係数列加工部44(44A,44B)が、処理係数列G(t)を変形することで、目標成分を強調する処理係数列Ge(t)(e:enhance)を生成する構成も好適である。処理係数列Ge(t)は、処理係数列G(t)と同様に信号処理部35での処理に適用される。具体的には、強調用の処理係数列Ge(t)の各係数値は、目標成分の抑圧用の処理係数列G(t)の各係数値g(f,t)を通過値γ1から減算した数値に設定される。すなわち、処理係数列Ge(t)のうち音響信号xに目標成分が存在する各周波数fの係数値は、音響成分を通過させる大きい数値に設定され、目標成分が存在しない各周波数fの係数値は、音響成分を抑圧させる小さい数値に設定される。
Claims (7)
- 音響信号の目標成分が抑圧されるように周波数毎の係数値が設定された処理係数列を前記音響信号の単位区間毎に生成する装置であって、
特定帯域のうち所定方向の定位成分の各周波数の係数値が前記音響信号を抑圧する抑圧値に設定されるとともに他の周波数の係数値が前記音響信号を維持する通過値に設定された基礎係数列を生成する基礎係数列生成手段と、
前記基礎係数列生成手段が生成した前記基礎係数列において前記特定帯域内の各周波数に対応する複数の係数値のうち前記目標成分以外の各周波数の係数値を前記通過値に変更することで前記単位区間毎に前記処理係数列を生成する係数列加工手段と
を具備する音響処理装置。 - 前記係数列加工手段は、
前記音響信号のうち前記特定帯域内の周波数成分の発生点から所定の時間にわたって当該周波数の係数値が前記通過値に設定されるように、前記基礎係数列生成手段による生成後の基礎係数列を加工する発音点解析手段を含む
請求項1の音響処理装置。 - 基準音高の時系列を記憶する記憶手段を具備し、
前記発音点解析手段は、前記特定帯域内の各周波数成分の複数の発生点のうち前記基準音高の時系列に対応する発生点については、前記所定の時間においても前記係数値を前記抑圧値に設定する
請求項2の音響処理装置。 - 前記係数列加工手段は、
前記音響信号の前記特定帯域内の周波数成分について単位区間毎に特定される複数の基本周波数のうち前記目標成分に該当する可能性が高い基本周波数を目標周波数として特定し、前記複数の基本周波数のうち前記目標周波数以外の各基本周波数とその倍音周波数とに対応する各係数値が前記通過値に設定されるように、前記基礎係数列生成手段による生成後の基礎係数列を加工する基本周波数解析手段を含む
請求項1から請求項3の何れかの音響処理装置。 - 前記基本周波数解析手段は、
前記音響信号のうち前記特定帯域内の周波数成分について単位区間毎に複数の基本周波数を特定する周波数検出手段と、
動的計画法による経路探索で単位区間毎の前記複数の基本周波数から前記目標周波数の時系列を特定する遷移解析手段と、
前記複数の基本周波数のうち前記遷移解析手段が特定した目標周波数以外の各基本周波数とその倍音周波数とに対応する各係数値が前記通過値に設定されるように前記基礎係数列を加工する係数列設定手段とを含み、
前記遷移解析手段は、
動的計画法による経路探索で単位区間毎の前記複数の基本周波数から基本周波数の時系列を特定する第1処理手段と、
目標成分の有無を単位区間毎に判定する第2処理手段とを含み、
前記第1処理手段が特定した複数の基本周波数の時系列のうち前記第2処理手段が前記目標成分の存在を肯定した単位区間の基本周波数を前記目標周波数として特定する
請求項4の音響処理装置。 - 前記係数列加工手段は、
前記複数の単位区間で構成される解析区間毎に前記目標成分の有無を判定し、前記目標成分の存在が否定される解析区間内の単位区間について、全部の係数値が前記通過値に設定された前記処理係数列を生成する発音解析手段を含む
請求項1から請求項5の何れかの音響処理装置。 - 音響信号の目標成分が抑圧されるように周波数毎の係数値が設定された処理係数列を前記音響信号の単位区間毎に生成する方法であって、コンピュータシステムが、
特定帯域のうち所定方向の定位成分の各周波数の係数値が前記音響信号を抑圧する抑圧値に設定されるとともに他の周波数の係数値が前記音響信号を維持する通過値に設定された基礎係数列を生成し、
前記生成した前記基礎係数列において前記特定帯域内の各周波数に対応する複数の係数値のうち前記目標成分以外の各周波数の係数値を前記通過値に変更することで前記単位区間毎に前記処理係数列を生成する
音響処理方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011045974A JP6035702B2 (ja) | 2010-10-28 | 2011-03-03 | 音響処理装置および音響処理方法 |
EP11186824.6A EP2447944B1 (en) | 2010-10-28 | 2011-10-27 | Technique for suppressing particular audio component |
US13/284,199 US9070370B2 (en) | 2010-10-28 | 2011-10-28 | Technique for suppressing particular audio component |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010242244 | 2010-10-28 | ||
JP2010242244 | 2010-10-28 | ||
JP2011045974A JP6035702B2 (ja) | 2010-10-28 | 2011-03-03 | 音響処理装置および音響処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012109924A JP2012109924A (ja) | 2012-06-07 |
JP6035702B2 true JP6035702B2 (ja) | 2016-11-30 |
Family
ID=45218213
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011045974A Expired - Fee Related JP6035702B2 (ja) | 2010-10-28 | 2011-03-03 | 音響処理装置および音響処理方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US9070370B2 (ja) |
EP (1) | EP2447944B1 (ja) |
JP (1) | JP6035702B2 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8660842B2 (en) * | 2010-03-09 | 2014-02-25 | Honda Motor Co., Ltd. | Enhancing speech recognition using visual information |
US20120300100A1 (en) * | 2011-05-27 | 2012-11-29 | Nikon Corporation | Noise reduction processing apparatus, imaging apparatus, and noise reduction processing program |
US9218728B2 (en) * | 2012-02-02 | 2015-12-22 | Raytheon Company | Methods and apparatus for acoustic event detection |
JP5915281B2 (ja) * | 2012-03-14 | 2016-05-11 | ヤマハ株式会社 | 音響処理装置 |
US9305567B2 (en) * | 2012-04-23 | 2016-04-05 | Qualcomm Incorporated | Systems and methods for audio signal processing |
JP2014178641A (ja) * | 2013-03-15 | 2014-09-25 | Yamaha Corp | 分離用データ処理装置およびプログラム |
JP6263383B2 (ja) * | 2013-12-26 | 2018-01-17 | Pioneer DJ株式会社 | 音声信号処理装置、音声信号処理装置の制御方法、プログラム |
US9552741B2 (en) * | 2014-08-09 | 2017-01-24 | Quantz Company, Llc | Systems and methods for quantifying a sound into dynamic pitch-based graphs |
US9782672B2 (en) * | 2014-09-12 | 2017-10-10 | Voyetra Turtle Beach, Inc. | Gaming headset with enhanced off-screen awareness |
US9626947B1 (en) * | 2015-10-21 | 2017-04-18 | Kesumo, Llc | Fret scanners and pickups for stringed instruments |
WO2020249870A1 (en) * | 2019-06-12 | 2020-12-17 | Tadadaa Oy | A method for processing a music performance |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2971162B2 (ja) * | 1991-03-26 | 1999-11-02 | マツダ株式会社 | 音響装置 |
US7092881B1 (en) * | 1999-07-26 | 2006-08-15 | Lucent Technologies Inc. | Parametric speech codec for representing synthetic speech in the presence of background noise |
JP3413634B2 (ja) | 1999-10-27 | 2003-06-03 | 独立行政法人産業技術総合研究所 | 音高推定方法及び装置 |
JP2002044793A (ja) * | 2000-07-25 | 2002-02-08 | Yamaha Corp | 音響信号処理方法及び装置 |
JP3670562B2 (ja) * | 2000-09-05 | 2005-07-13 | 日本電信電話株式会社 | ステレオ音響信号処理方法及び装置並びにステレオ音響信号処理プログラムを記録した記録媒体 |
JP2002199500A (ja) * | 2000-12-25 | 2002-07-12 | Sony Corp | 仮想音像定位処理装置、仮想音像定位処理方法および記録媒体 |
US6917912B2 (en) * | 2001-04-24 | 2005-07-12 | Microsoft Corporation | Method and apparatus for tracking pitch in audio analysis |
US7099821B2 (en) * | 2003-09-12 | 2006-08-29 | Softmax, Inc. | Separation of target acoustic signals in a multi-transducer arrangement |
US8219390B1 (en) * | 2003-09-16 | 2012-07-10 | Creative Technology Ltd | Pitch-based frequency domain voice removal |
JP2006100869A (ja) * | 2004-09-28 | 2006-04-13 | Sony Corp | 音声信号処理装置および音声信号処理方法 |
JP4637725B2 (ja) * | 2005-11-11 | 2011-02-23 | ソニー株式会社 | 音声信号処理装置、音声信号処理方法、プログラム |
KR100644717B1 (ko) * | 2005-12-22 | 2006-11-10 | 삼성전자주식회사 | 다채널 오디오 신호 생성 장치 및 그 방법 |
JP4322283B2 (ja) * | 2007-02-26 | 2009-08-26 | 独立行政法人産業技術総合研究所 | 演奏判定装置およびプログラム |
WO2008122974A1 (en) * | 2007-04-06 | 2008-10-16 | Technion Research & Development Foundation Ltd. | Method and apparatus for the use of cross modal association to isolate individual media sources |
JP5298649B2 (ja) | 2008-01-07 | 2013-09-25 | 株式会社コルグ | 音楽装置 |
-
2011
- 2011-03-03 JP JP2011045974A patent/JP6035702B2/ja not_active Expired - Fee Related
- 2011-10-27 EP EP11186824.6A patent/EP2447944B1/en not_active Not-in-force
- 2011-10-28 US US13/284,199 patent/US9070370B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
EP2447944B1 (en) | 2014-12-17 |
US9070370B2 (en) | 2015-06-30 |
US20120106758A1 (en) | 2012-05-03 |
EP2447944A2 (en) | 2012-05-02 |
EP2447944A3 (en) | 2013-11-06 |
JP2012109924A (ja) | 2012-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6035702B2 (ja) | 音響処理装置および音響処理方法 | |
Salamon et al. | Melody extraction from polyphonic music signals using pitch contour characteristics | |
US7754958B2 (en) | Sound analysis apparatus and program | |
US5521324A (en) | Automated musical accompaniment with multiple input sensors | |
US9747918B2 (en) | Dynamically adapted pitch correction based on audio input | |
JP5961950B2 (ja) | 音声処理装置 | |
Benetos et al. | Polyphonic music transcription using note onset and offset detection | |
US9804818B2 (en) | Musical analysis platform | |
JP2008209572A (ja) | 演奏判定装置およびプログラム | |
JP2012037722A (ja) | 音合成用データ生成装置およびピッチ軌跡生成装置 | |
JP5747562B2 (ja) | 音響処理装置 | |
US11646044B2 (en) | Sound processing method, sound processing apparatus, and recording medium | |
JP2018004870A (ja) | 音声合成装置および音声合成方法 | |
JP5790496B2 (ja) | 音響処理装置 | |
Amado et al. | Pitch detection algorithms based on zero-cross rate and autocorrelation function for musical notes | |
Liang et al. | Musical Offset Detection of Pitched Instruments: The Case of Violin. | |
JP5618743B2 (ja) | 歌唱音声評価装置 | |
US20230419929A1 (en) | Signal processing system, signal processing method, and program | |
JP7106897B2 (ja) | 音声処理方法、音声処理装置およびプログラム | |
JP7200483B2 (ja) | 音声処理方法、音声処理装置およびプログラム | |
JP4489058B2 (ja) | 和音判定方法および装置 | |
Kellum | Violin driven synthesis from spectral models | |
Bapat et al. | Pitch tracking of voice in tabla background by the two-way mismatch method | |
JP2018072369A (ja) | 音響解析方法および音響解析装置 | |
JP2014134687A (ja) | 音響解析装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140122 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150108 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150331 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20150410 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150601 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160202 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20161004 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20161017 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6035702 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
LAPS | Cancellation because of no payment of annual fees |