JP2017067903A - Acoustic analysis device - Google Patents
Acoustic analysis device Download PDFInfo
- Publication number
- JP2017067903A JP2017067903A JP2015191028A JP2015191028A JP2017067903A JP 2017067903 A JP2017067903 A JP 2017067903A JP 2015191028 A JP2015191028 A JP 2015191028A JP 2015191028 A JP2015191028 A JP 2015191028A JP 2017067903 A JP2017067903 A JP 2017067903A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- point
- intensity
- harmonic
- analysis unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 200
- 230000003247 decreasing effect Effects 0.000 claims abstract description 4
- 238000000034 method Methods 0.000 claims description 57
- 230000008569 process Effects 0.000 claims description 46
- 230000007423 decrease Effects 0.000 claims description 11
- 238000001514 detection method Methods 0.000 abstract description 13
- 238000012545 processing Methods 0.000 description 77
- 238000011156 evaluation Methods 0.000 description 49
- 230000005236 sound signal Effects 0.000 description 35
- 239000013256 coordination polymer Substances 0.000 description 16
- 230000000694 effects Effects 0.000 description 13
- 238000000605 extraction Methods 0.000 description 12
- 230000008901 benefit Effects 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 238000009527 percussion Methods 0.000 description 7
- 238000012706 support-vector machine Methods 0.000 description 7
- 230000004807 localization Effects 0.000 description 6
- 230000002238 attenuated effect Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000000052 comparative effect Effects 0.000 description 2
- 239000012636 effector Substances 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000012850 discrimination method Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Landscapes
- Auxiliary Devices For Music (AREA)
Abstract
Description
本発明は、音響を解析する技術に関する。 The present invention relates to a technique for analyzing sound.
音響信号のうち音響が発音される発音区間を解析するための各種の技術が従来から提案されている。例えば特許文献1には、音響信号のSN(Signal to Noise)比が所定の条件を充足する期間を発音区間として特定する構成が開示されている。 Conventionally, various techniques for analyzing a sound generation section in which sound is generated in an acoustic signal have been proposed. For example, Patent Document 1 discloses a configuration in which a period in which an SN (Signal to Noise) ratio of an acoustic signal satisfies a predetermined condition is specified as a sounding section.
ところで、打楽器等の各種の楽器が発音する音響の解析には当該楽器の発音区間の特定が重要である。しかし、例えば打楽器が素早く連打された場合のように発音源が短い間隔で複数回にわたり発音した場合には、最初の発音による音響が充分に減衰する以前に直後の発音が開始する。したがって、特許文献1の技術のもとでは、複数回にわたる発音が1個の発音区間に包含される可能性がある。しかし、実際の演奏音の解析の場面では、発音の開始直後の特性の解析が重要である場合が想定されるから、発音源が短い間隔で複数回にわたり発音した場合でも、最初の発音による音響のみを含む発音区間を高精度に特定することが重要である。以上の事情を考慮して、本発明は、音響信号のうち発音源の発音の直後の発音区間を高精度に特定することを目的とする。 By the way, it is important to specify the sound generation section of the musical instrument for the analysis of sound produced by various musical instruments such as percussion instruments. However, when the sound source is sounded a plurality of times at short intervals, for example, when the percussion instrument is struck quickly, the immediate sounding starts before the sound due to the first sound is sufficiently attenuated. Therefore, under the technique of Patent Document 1, a plurality of pronunciations may be included in one pronunciation period. However, in the actual performance sound analysis scene, it is assumed that the analysis of the characteristics immediately after the start of sounding is important, so even if the sound source is sounded multiple times at short intervals, the sound of the first sounding It is important to specify a pronunciation interval including only high precision. In view of the above circumstances, an object of the present invention is to specify a sound generation section immediately after sound generation of a sound source in an acoustic signal with high accuracy.
以上の課題を解決するために、本発明の好適な態様に係る音響解析装置は、音響信号のうち音響の発音が開始される発音始点と当該音響の発音が終了する発音終点とを解析する音響解析装置であって、音響信号の強度の極大点を発音始点として特定する始点解析部と、発音始点の経過後に音響信号の強度が経時的に減少する過程で強度が増加に反転する極小点を、増加後の極大点での強度と当該極大点までの強度の最小値との差分に応じた変動指標が終点閾値を上回る場合に発音終点として特定する終点解析部とを具備する。以上の態様では、発音始点の経過後に音響信号の強度が経時的に減少する過程で強度が増加に反転する極小点を、変動指標が終点閾値を上回る場合に発音終点として特定する。すなわち、発音源が短い間隔で複数回にわたり発音した場合(最初の発音による音響が充分に減衰する以前に直後の発音が開始する場合)には、発音始点に対応する最初の発音のみを発音区間が包含するように発音終点が特定される。したがって、音響信号のうち発音源の発音の直後の発音区間を高精度に特定することが可能である。 In order to solve the above problems, an acoustic analysis device according to a preferred aspect of the present invention is an acoustic analysis device that analyzes a sound generation start point at which sound generation is started and a sound generation end point at which sound generation ends in the sound signal. An analysis device that includes a start point analysis unit that identifies a maximum point of the intensity of an acoustic signal as a pronunciation start point, and a minimum point at which the intensity reverses to increase in the process of decreasing the intensity of the acoustic signal over time after the start of the sound generation point. And an end point analysis unit that specifies the end point of sound generation when the variation index according to the difference between the intensity at the maximum point after the increase and the minimum value of the intensity up to the maximum point exceeds the end point threshold value. In the above aspect, the minimum point where the intensity reverses to increase in the process in which the intensity of the acoustic signal decreases with time after the sounding start point has elapsed is specified as the sounding end point when the variation index exceeds the end point threshold. In other words, when the sound source is sounded multiple times at short intervals (when the sound immediately after the start sound is sufficiently attenuated), only the first sound corresponding to the sound start point is generated. The pronunciation end point is specified to include. Therefore, it is possible to specify the sound generation section immediately after the sound generation of the sound source in the acoustic signal with high accuracy.
本発明の好適な態様において、終点解析部は、極小点を発音終点として特定する以前に、発音始点での強度に応じた減衰閾値を下回るまで音響信号の強度が当該発音始点から減少した場合に、減衰閾値を強度が下回る時点を発音終点として特定する。以上の態様では、極小点が発音終点として特定される以前に、発音始点での強度に応じた減衰閾値を下回るまで音響信号の強度が発音始点から減少した場合に、強度が減衰閾値を下回る時点が発音終点として特定される。したがって、発音始点の経過後に発音源が発音することなく音響信号が減衰する場合に、発音始点からの減衰の度合に応じた適切な発音終点を設定できるという利点がある。 In a preferred aspect of the present invention, the end point analysis unit, when the minimum point is specified as the pronunciation end point, when the intensity of the acoustic signal decreases from the sound start point until it falls below the attenuation threshold corresponding to the intensity at the sound start point. The point in time when the intensity falls below the attenuation threshold is specified as the pronunciation end point. In the above aspect, when the intensity of the acoustic signal decreases from the sounding start point until the minimum point is identified as the sounding end point and falls below the attenuation threshold corresponding to the intensity at the sounding start point, Is identified as the pronunciation end point. Accordingly, there is an advantage that an appropriate sounding end point can be set according to the degree of attenuation from the sounding start point when the sound signal is attenuated without sounding by the sounding source after the sounding start point has elapsed.
本発明の好適な態様において、始点解析部は、音響信号の強度の極大点を順次に検出する一方、極大点での強度と当該極大点までの強度の最小値との差分に応じた変動指標が、終点閾値よりも大きい始点閾値を上回る場合に、当該極大点を発音始点として特定する。以上の態様では、音響信号の強度の極大点が順次に検出される一方、極大点での強度と当該極大点までの強度の最小値である基準値との差分に応じた変動指標が始点閾値を上回る場合に、当該極大点が発音始点として特定される。したがって、音響信号から検出される複数の極大点のうち発音源の明瞭な発音の開始を発音始点として高精度に特定できるという利点がある。 In a preferred aspect of the present invention, the start point analysis unit sequentially detects the maximum point of the intensity of the acoustic signal, while the variation index according to the difference between the intensity at the maximum point and the minimum value of the intensity up to the maximum point. Is greater than the start point threshold value greater than the end point threshold value, the local maximum point is specified as the pronunciation start point. In the above aspect, the maximum point of the intensity of the acoustic signal is sequentially detected, while the variation index according to the difference between the intensity at the maximum point and the reference value that is the minimum value of the intensity up to the maximum point is the starting point threshold value. When the value exceeds the maximum value, the local maximum point is specified as the pronunciation starting point. Therefore, there is an advantage that it is possible to specify with high accuracy the clear start of the sound source of the sound source among the plurality of maximum points detected from the acoustic signal.
本発明の好適な態様において、変動指標は、極大点での強度と当該極大点までの強度の最小値との差分を当該極大点での強度により除算した数値である。以上の態様では、極大点での強度と基準値との差分を極大点での強度により除算することで変動指標が算定される。すなわち、差分が音響信号の音量の大小に依存しない数値に正規化される。したがって、音響信号の音量に関わらず発音始点および発音終点を適切に特定することが可能である。 In a preferred aspect of the present invention, the variation index is a numerical value obtained by dividing the difference between the intensity at the maximum point and the minimum value of the intensity up to the maximum point by the intensity at the maximum point. In the above aspect, the variation index is calculated by dividing the difference between the intensity at the maximum point and the reference value by the intensity at the maximum point. That is, the difference is normalized to a numerical value that does not depend on the volume of the sound signal. Therefore, it is possible to appropriately specify the sound generation start point and the sound generation end point regardless of the volume of the acoustic signal.
本発明の好適な態様において、始点解析部は、音響信号の強度の第1極大点以降の待機区間内に、第1極大点を上回る強度の第2極大点を検出した場合に、第1極大点を発音始点の候補から除外する。以上の態様では、音響信号の強度の極大点以降の待機区間内に、当該極大点を上回る強度の極大点が検出された場合に、極大点が発音始点の候補から除外される。したがって、発音源による1回の発音の開始から音響信号の強度が増加する過程で複数の極大点が検出される場合でも、当該発音に対応した1個の極大点を含む発音区間を適切に特定することが可能である。 In a preferred aspect of the present invention, when the start point analysis unit detects a second maximum point having an intensity exceeding the first maximum point in a standby section after the first maximum point of the intensity of the acoustic signal, the first maximum is detected. The point is excluded from the pronunciation start point candidates. In the above aspect, when a maximum point with an intensity exceeding the maximum point is detected in the standby section after the maximum point of the intensity of the acoustic signal, the maximum point is excluded from the pronunciation start point candidates. Therefore, even when multiple local maximum points are detected in the process of increasing the intensity of the sound signal from the start of a single sound generation by the sound source, the sound generation section including one local maximum point corresponding to the sound generation is appropriately specified. Is possible.
<第1実施形態>
図1は、本発明の第1実施形態の音響処理装置12の構成図である。図1に例示される通り、音響処理装置12には複数の収音装置14と放音装置16とが接続される。複数の収音装置14の各々は、当該収音装置14の周囲の音響を表す音響信号XAを生成する。音響信号XAは、例えば左右2チャネルのステレオ形式の信号である。複数の収音装置14が生成した複数の音響信号XAが音響処理装置12に並列に供給される。なお、収音装置14が生成した音響信号XAをアナログからデジタルに変換するA/D変換器の図示は便宜的に省略した。
<First Embodiment>
FIG. 1 is a configuration diagram of the
各収音装置14は相異なる発音源の近傍に配置される。発音源は、例えば演奏により楽音を発音する楽器や歌唱音声を発音する歌唱者である。第1実施形態では、収録スタジオ等の音響空間の内部で歌唱者と複数の楽器とにより音楽を演奏する場合を想定する。各収音装置14が生成する音響信号XAには、当該収音装置14の近傍の発音源から発音された音響が優勢に含有されるが、当該音響と比較して小音量で他の発音源の音響も含有され得る。
Each
第1実施形態の各発音源は、調波音または非調波音を発音する。調波音は、基本周波数の基音成分と複数の倍音成分とを周波数軸上に配列した調波構造が明瞭に観測される調波性の音響である。例えば弦楽器または管楽器等の調波楽器の楽音や歌唱音声等の人間の発声音が調波音の典型例である。他方、非調波音は、調波構造が明瞭に観測されない非調波性の音響である。例えばドラムやシンバル等の打楽器の楽音が非調波音の典型例である。 Each sound source in the first embodiment generates a harmonic sound or a non-harmonic sound. The harmonic sound is a harmonic sound in which the harmonic structure in which the fundamental frequency component of the fundamental frequency and a plurality of harmonic components are arranged on the frequency axis is clearly observed. For example, a musical sound of a harmonic instrument such as a stringed instrument or a wind instrument or a human vocal sound such as a singing voice is a typical example of a harmonic sound. On the other hand, non-harmonic sound is non-harmonic sound in which the harmonic structure is not clearly observed. For example, percussion musical sounds such as drums and cymbals are typical examples of non-harmonic sounds.
なお、調波音は、調波性の音響成分を非調波性の音響成分と比較して優勢に含有する音響を意味する。したがって、調波性の音響成分のみで構成される音響のほか、調波性の音響成分と非調波性の音響成分との双方を含有するが全体としては調波性が優勢である音響も、調波音の概念に包含される。同様に、非調波音は、非調波性の音響成分を調波性の音響成分と比較して優勢に含有する音響を意味する。したがって、非調波性の音響成分のみで構成される音響のほか、調波性の音響成分と非調波性の音響成分との双方を含有するが全体としては非調波性が優勢である音響も、非調波音の概念に包含される。以下の説明では、調波音に関連する要素の符号に添字H(H:Harmonic)を付加し、非調波音に関連する要素の符号に添字P(P:Percussive)を付加する場合がある。 Note that the harmonic sound means sound containing a harmonic acoustic component predominantly compared to a non-harmonic acoustic component. Therefore, in addition to sound composed only of harmonic acoustic components, there is also acoustic that contains both harmonic acoustic components and non-harmonic acoustic components, but the harmonics predominate as a whole. Included in the concept of harmonic sounds. Similarly, non-harmonic sound refers to sound that predominately contains non-harmonic acoustic components compared to harmonic acoustic components. Therefore, it contains both harmonic and non-harmonic acoustic components in addition to the sound composed only of non-harmonic acoustic components, but the non-harmonic property is dominant as a whole. Sound is also included in the concept of non-harmonic sound. In the following description, the subscript H (H: Harmonic) may be added to the code of the element related to the harmonic sound, and the subscript P (P: Percussive) may be added to the code of the element related to the non-harmonic sound.
音響処理装置12は、複数の音響信号XAに対する音響処理で音響信号XBを生成する。具体的には、第1実施形態の音響処理装置12は、複数の音響信号XAの混合(ミキシング)により左右2チャネルのステレオ形式の音響信号XBを生成する。放音装置16(例えばスピーカやヘッドホン)は、音響処理装置12が生成した音響信号XBに応じた音響を放音する。なお、音響処理装置12が生成した音響信号XBをデジタルからアナログに変換するD/A変換器の図示は便宜的に省略した。また、図1では各収音装置14と放音装置16とを音響処理装置12とは別個の要素として図示したが、複数の収音装置14と放音装置16とを音響処理装置12に搭載することも可能である。
The
図1に例示される通り、音響処理装置12は、制御装置122と記憶装置124とを具備するコンピュータシステムで実現される。記憶装置124は、例えば磁気記録媒体や半導体記録媒体等の公知の記録媒体または複数種の記録媒体の組合せであり、制御装置122が実行するプログラムや制御装置122が使用する各種のデータを記憶する。制御装置122は、記憶装置124が記憶するプログラムを実行することで、複数の音響信号XAの各々を解析する音響解析部20と、音響解析部20による解析結果を利用して複数の音響信号XAから音響信号XBを生成する音響処理部30とを実現する。なお、制御装置122の機能の一部または全部を専用の電子回路で実現する構成や、制御装置122の機能を複数の装置に分散した構成も採用され得る。
As illustrated in FIG. 1, the
音響解析部20は、複数の収音装置14から供給される複数の音響信号XAの各々について、当該音響信号XAが表す音響の発音源の種類を特定する。具体的には、音響解析部20は、各音響信号XAの発音源の種類を示す情報(以下「音源識別情報」という)Dを生成する。音源識別情報Dは、例えば発音源の名称(具体的には楽器名や演奏パート名)である。
The
図2は、音響解析部20の構成図である。図2に例示される通り、第1実施形態の音響解析部20は、発音区間検出部40と特徴量抽出部50と音源識別部60とを具備する。なお、以下の説明では、任意の1系統の音響信号XAに対する処理に便宜的に着目するが、複数の音響信号XAの各々について同様の処理が実行される。
FIG. 2 is a configuration diagram of the
図2の発音区間検出部40は、音響信号XAについて複数の発音区間Pを検出する。図3には、音響信号XAの波形と発音区間Pとの関係が図示されている。図3から理解される通り、各発音区間Pは、音響信号XAが表す音響が発音される時間軸上の区間であり、音響の発音が開始する時点(以下「発音始点」という)TSから終点(以下「発音終点」という)TEまでの区間である。
The sounding
図2の特徴量抽出部50は、音響信号XAの特徴量Fを抽出する。第1実施形態の特徴量抽出部50は、発音区間検出部40が検出した発音区間P毎に特徴量Fを順次に抽出する。特徴量Fは、発音区間P内の音響信号XAの音響的な特徴を表す指標である。第1実施形態の特徴量Fは、相異なる複数種の特性値f(f1,f2,……)を包含するベクトルで表現される。具体的には、音響信号XAの音色を表すMFCC(Mel-frequency cepstral coefficients),発音区間P内の音響の立上がりの急峻度,基音成分に対する倍音成分の強度比,音響信号XAの強度の符号が反転する回数または頻度である零交差数等の複数種の特性値fが特徴量Fに包含される。
The feature
各発音源が発音する音響の特徴は、発音始点TSの直後に特に顕著となる。第1実施形態では、音響信号XAの発音始点TS毎(発音区間P毎)に音響信号XAの特徴量Fが抽出されるから、発音の有無や時点とは無関係に音響信号XAを区分した区間毎に特徴量Fを抽出する構成と比較して、発音源の種類毎に固有の特徴が顕著に反映された特徴量Fを抽出できるという利点がある。もっとも、発音源による発音の有無や時点とは無関係に音響信号XAを時間軸上で区分した区間毎に特徴量Fを抽出する(したがって発音区間検出部40は省略される)ことも可能である。音源識別部60は、特徴量抽出部50が抽出した特徴量Fを利用して音響信号XAの発音源の種類を識別することで音源識別情報Dを生成する。
The characteristics of the sound generated by each sound source are particularly prominent immediately after the sound generation start point TS. In the first embodiment, since the feature amount F of the acoustic signal XA is extracted for each sounding start point TS (for each sounding section P) of the sound signal XA, the section in which the sound signal XA is divided regardless of the presence or time of sounding. Compared with the configuration in which the feature amount F is extracted every time, there is an advantage that the feature amount F in which a unique feature is significantly reflected for each type of sound source can be extracted. However, it is also possible to extract the feature amount F for each section obtained by dividing the acoustic signal XA on the time axis regardless of whether or not the sound source is sounded and the time point (therefore, the sounding
図1の音響処理部30は、音響解析部20が音響信号XA毎に解析した音源識別情報Dを参照して複数の音響信号XAに音響処理を実行することで音響信号XBを生成する。具体的には、音響信号XAの音源識別情報Dが示す発音源の種類毎に事前に設定された音響処理が当該音響信号XAに対して実行される。音響信号XAに対する音響処理としては、例えば残響効果や歪効果等の各種の音響効果を付与する効果付与処理(エフェクタ)や、周波数帯域毎の音量を調整する特性調整処理(イコライザ),音像が定位する位置を調整する定位調整処理(パン),音量を調整する音量調整処理が例示される。効果付与処理で音響信号XAに付与される音響効果の種類や度合,特性調整処理で音響信号XAに付与される周波数特性,定位調整処理で調整される音像の位置,音量調整処理による調整内容(ゲイン)等の各種のパラメータが、音源識別情報Dが示す発音源の種類毎に個別に設定される。そして、音響処理部30は、以上に例示した音響処理後の複数の音響信号XAを混合(ミキシング)することで音響信号XBを生成する。すなわち、第1実施形態の音響処理部30は、調波性解析部62による発音源の識別結果を反映した自動ミキシングを実現する。以下、第1実施形態における発音区間検出部40および音源識別部60の各々の具体的な構成を説明する。
The
<発音区間検出部40>
図4は、発音区間検出部40の構成図である。図4に例示される通り、第1実施形態の発音区間検出部40Aは、信号処理部42と始点解析部44と終点解析部46とを具備する。なお、以下の説明では、任意の1系統の音響信号XAに対する処理に便宜的に着目するが、実際には複数の音響信号XAの各々について同様の処理が実行される。
<Sound
FIG. 4 is a configuration diagram of the sounding
信号処理部42は、収音装置14から供給される音響信号XAの信号処理で音響信号XEを生成する。音響信号XEは、音響信号XAの時間軸上の包絡線(エンベロープ)に相当する。具体的には、信号処理部42は、音響信号XAの各信号値を絶対値に変換したうえで高周波成分を抑圧(平滑化処理)することで音響信号XEを生成する。音響信号XEの波形が図5に例示されている。なお、外部装置で生成された音響信号XEが音響処理装置12に供給される構成では、音響処理装置12から信号処理部42が省略され得る。
The
図4の始点解析部44は、音響信号XEのうち音響の発音が開始される発音始点TSを特定する。終点解析部46は、音響信号XEのうち音響の発音が終了する発音終点TEを特定する。第1実施形態では、始点解析部44による発音始点TSの特定と終点解析部46による発音終点TEの特定とが、音響信号XEの生成に並行して実時間的に音響信号XEの始点から時間の経過とともに順次に実行される。始点解析部44および終点解析部46の各々の動作を以下に説明する。
The start
<始点解析部44>
図5に例示される通り、第1実施形態の始点解析部44は、音響信号XEの強度(振幅またはパワー)Qが増加から減少に反転する極大点(ピーク)xHを発音始点TSとして特定する。ただし、第1実施形態の始点解析部44は、音響信号XEから検出される全部の極大点xHを発音始点TSとするのではなく、音響信号XEから検出される複数の極大点xHのうち所定の条件を充足する極大点xHを選択的に発音始点TSとして特定する。
<Start
As illustrated in FIG. 5, the start
具体的には、始点解析部44は、図5に例示された極大点xH1のように、極大点xHでの音響信号XEの強度QHと基準値QREFとの差分(QH−QREF)に応じた変動指標δが所定の閾値(以下「始点閾値」という)ZSを上回る場合(δ>ZS)に当該極大点xHを発音始点TSとして確定する。他方、図5に例示された極大点xH0のように、変動指標δが始点閾値ZSを下回る極大値xHは発音始点TSとされない。
Specifically, the start
基準値QREFは、直前の発音始点TS(処理開始の直後は音響信号XEの始点)以降における音響信号XEの強度Qの最小値となるように発音始点TSの解析処理の進行とともに随時に更新される。変動指標δは、例えば、極大点xHでの強度QHと基準値QREFとの差分(QH−QREF)を当該強度QHで除算した数値(δ=(QH−QREF)/QH)である。強度QHでの除算により、変動指標δは、音響信号XEの全体的な音量の大小に依存しない数値に正規化される。始点閾値ZSは、事前に選定された所定の正数である。 The reference value QREF is updated as the analysis process of the sound generation start point TS progresses so that it becomes the minimum value of the intensity Q of the sound signal XE after the immediately preceding sound generation start point TS (immediately after the start of processing is the start point of the sound signal XE). The The variation index δ is, for example, a numerical value (δ = (QH−QREF) / QH) obtained by dividing the difference (QH−QREF) between the intensity QH at the local maximum point xH and the reference value QREF by the intensity QH. By dividing by the intensity QH, the variation index δ is normalized to a numerical value that does not depend on the overall volume of the acoustic signal XE. The starting point threshold value ZS is a predetermined positive number selected in advance.
図6は、始点解析部44が発音始点TSを特定する処理(以下「始点解析処理」という)のフローチャートである。始点解析部44は、音響信号XEの始点から順次に極大点xHを検出し、極大点xHの検出毎に図6の始点解析処理を開始する。
FIG. 6 is a flowchart of processing (hereinafter referred to as “start point analysis processing”) in which the start
音響信号XEの極大点xHの検出を契機として始点解析処理を開始すると、始点解析部44は、当該極大点xHでの強度QHと現時点での基準値QREFとの差分(QH−QREF)に応じた変動指標δが始点閾値ZSを上回るか否かを判定する(SC1)。変動指標δが始点閾値ZSを下回る場合(SC1:NO)、始点解析部44は、今回の極大点xHを発音始点TSとして特定することなく始点解析処理を終了する。他方、変動指標δが始点閾値ZSを上回る場合(SC1:YES)、始点解析部44は、今回の極大点xHを発音始点TSとして特定する(SC2)。そして、始点解析部44は、基準値QREFを今回の極大点xHでの強度QHに更新する(SC3)。発音始点TSが経過すると音響信号XEは減衰するから、発音始点TSの経過後は基準値QREFは経時的に減少していく。以上が始点解析処理の好適例である。
When starting point analysis processing is triggered by the detection of the local maximum point xH of the acoustic signal XE, the starting
<終点解析部46>
図4の終点解析部46は、前述の通り、音響信号XEのうち音響の発音が終了する発音終点TEを特定する。図7は、終点解析部46が発音終点TEを特定する処理(以下「終点解析処理」という)のフローチャートである。始点解析部44による発音始点TSの特定(SC2)を契機として図7の終点解析処理が開始される。
<End
As described above, the end
発音始点TSの特定を契機として終点解析処理を開始すると、終点解析部46は、当該発音始点TSから所定の時間τが経過したか否かを判定する(SD1)。発音始点TSから所定の時間τが経過していない場合(SD1:NO)、終点解析部46は、現時点の音響信号XEの強度Qが所定の閾値(以下「減衰閾値」という)Z0を下回るか否かを判定する(SD2)。減衰閾値Z0は、直前の発音始点TSでの音響信号XEの強度QHに応じた数値に設定される。具体的には、発音始点TSでの強度QHに1未満の正数(例えば0.4〜0.6の任意の数値)を乗算した数値が減衰閾値Z0として好適である。強度Qが閾値Z0を下回る場合(SD2:YES)、終点解析部46は現時点を発音終点TEとして特定する(SD3)。すなわち、発音始点TSの経過後で音響信号XEの強度Qが減衰閾値Z0を下回るまで減少した時点が発音終点TEとして特定される。
When the end point analysis processing is started in response to the specification of the pronunciation start point TS, the end
ところで、例えば打楽器が素早く連打された場合のように発音源が短い間隔で複数回にわたり発音した場合には、最初の発音による音響が充分に減衰する以前に直後の発音が開始する。したがって、音響信号XEの強度Qが減衰閾値Z0を下回る時点を発音終点TEとして特定するだけでは、発音始点TSから発音終点TEまでの1個の発音区間Pに発音源の複数回にわたる発音が包含される結果となる。しかし、例えば特徴量抽出部50による特徴量Fの抽出や音源識別部60による発音源の種類の識別等の音響信号XAの解析の場面では、発音源の発音の開始直後の特性の解析が重要である。以上の事情を考慮して、第1実施形態の終点解析部46は、発音源が短い間隔で複数回にわたり発音した場合でも、発音始点TSに対応する最初の発音のみを発音区間Pが包含するように(すなわち第2回目以降の発音が発音区間Pに包含されないように)、発音終点TEを特定する。
By the way, when the sound source is sounded a plurality of times at short intervals, for example, when a percussion instrument is quickly repeatedly struck, the immediately following sounding starts before the sound of the first sounding is sufficiently attenuated. Therefore, only by specifying the time point when the intensity Q of the acoustic signal XE falls below the attenuation threshold value Z0 as the sounding end point TE, the sound source of the sound source is included in one sounding period P from the sounding start point TS to the sounding end point TE. Result. However, in the scene of analysis of the acoustic signal XA such as the extraction of the feature amount F by the feature
具体的には、音響信号XEの強度Qが減衰閾値Z0を上回る場合(SD2:NO)、終点解析部46は、発音始点TS以降に音響信号XEの強度Qが減少から増加に反転する極小点(ディップ)xLが検出されたか否かを判定する(SD4)。極小点xLが検出されない場合(SD4:NO)、終点解析部46は処理をステップSD1に移行して、発音始点TSから時間τが経過するか(SD1:YES)、音響信号XEの強度Qが減衰閾値Z0を下回るまで(SD2:YES)、極小点xLの発生を監視する。
Specifically, when the intensity Q of the acoustic signal XE exceeds the attenuation threshold Z0 (SD2: NO), the end
他方、音響信号XEの強度Qが減衰閾値Z0を下回る以前に極小点(以下では特に「対象極小点」という)xLが検出されると(SD4:YES)、終点解析部46は、対象極小点xLの直後の極大点xHが検出されたか否かを判定する(SD5)。極大点xHが検出されない場合(SD5:NO)、終点解析部46は処理をステップSD1に移行する。なお、対象極小点xLが検出された場合(SD4:YES)に、当該対象極小点xLでの強度Qが現時点の基準値QREFを下回るときには(Q<QREF)、基準値QREFが当該対象極小点xLでの強度Qに更新される。すなわち、基準値QREFは、前述の通り、発音始点TS以降における強度Qの最小値(例えば対象極小点xLでの強度Q)となるように更新される。
On the other hand, if the local minimum point (hereinafter referred to as “target local minimum point”) xL is detected before the intensity Q of the acoustic signal XE falls below the attenuation threshold value Z0 (SD4: YES), the end
図5には、対象極小点xLの直後の極大点xH2が例示されている。極大点xH2が検出されると(SD5:YES)、終点解析部46は、当該極大点xH2での強度QHと現時点での基準値QREFとの差分(QH−QREF)に応じた変動指標δが終点閾値ZEを上回るか否かを判定する(SD6)。変動指標δは、前述の通り、強度QHと基準値QREFとの差分(QH−QREF)を当該強度QHで除算した数値である。なお、現時点の基準値QREFは、対象極小点xLでの強度Qである可能性が高い。また、終点閾値ZEは、発音始点TSの特定に利用される前述の始点閾値ZSを下回る所定の正数に設定される(ZE<ZS)。
FIG. 5 illustrates a local maximum point xH2 immediately after the target local minimum point xL. When the local maximum point xH2 is detected (SD5: YES), the end
変動指標δが終点閾値ZEを下回る場合(SD6:NO)には、対象極小点xLの直後に極大点xHが観測されたものの発音始点TSの直後の発音源の発音による強度Qの増加(第2回目以降の発音)とまでは推定できない。したがって、発音終点TEをまだ確定せずに引続き音響信号XEの強度Qを監視する必要がある。そこで、終点解析部46は、処理をステップSD1に移行して、発音始点TSから時間τが経過するか(SD1:YES)、音響信号XEの強度Qが減衰閾値Z0を下回るまで(SD2:YES)、極小点xLの発生を監視する。
When the variation index δ is lower than the end point threshold value ZE (SD6: NO), the maximum point xH is observed immediately after the target minimum point xL, but the intensity Q increases due to the pronunciation of the pronunciation source immediately after the pronunciation start point TS (No. 1). Cannot be estimated until the second and subsequent pronunciations. Therefore, it is necessary to continuously monitor the intensity Q of the acoustic signal XE without determining the pronunciation end point TE yet. Therefore, the end
他方、変動指標δが終点閾値ZEを上回るほど極大点xHの強度Qが増加した場合(SD6:YES)には、対象極小点xLの直後の極大点xHは、発音始点TSの直後の発音源の発音(すなわち最初の発音の直後の第2回目以降の発音)による強度Qの増加と推定される。したがって、発音始点TSから対象極小点xLまでを発音区間Pとして確定し、第2回目以降の発音に対応する直後の極大点xHは発音区間Pから除外する必要がある。そこで、終点解析部46は、対象極小点xLを発音終点TEとして特定する(SD7)。すなわち、対象極小点xLの直後の極大点xHについて変動指標δが終点閾値ZEを上回る場合に、当該対象極小点xLが事後的に発音終点TEとして確定される。
On the other hand, when the intensity Q of the maximum point xH increases as the variation index δ exceeds the end point threshold value ZE (SD6: YES), the maximum point xH immediately after the target minimum point xL is the sound source immediately after the sound generation start point TS. It is presumed that the intensity Q is increased due to the pronunciation (ie, the second and subsequent pronunciations immediately after the first pronunciation). Therefore, it is necessary to determine from the sounding start point TS to the target local minimum point xL as the sounding section P, and to exclude the local maximum point xH corresponding to the second and subsequent sounding from the sounding section P. Therefore, the end
以上の説明から理解される通り、第1実施形態の終点解析部46は、発音始点TSの経過後に音響信号XEの強度Qが経時的に減少する過程で検出される対象極小点xLを、変動指標δが終点閾値ZEを上回る場合(SD6:YES)に発音終点TEとして特定し(SD7)、変動指標δが終点閾値ZEを下回る場合(SD6:NO)には発音終点TEとしない。なお、対象極小点xLの直後に検出された図5の極大点xH2については、図6を参照して説明した通り、変動指標δが始点閾値ZSを上回ることを条件として発音始点TSとして特定される。変動指標δが始点閾値ZSを上回る場合には終点閾値ZEも当然に上回るから、当該極大点xHの直前の対象極小点xLは発音終点TEとして確定される。
As understood from the above description, the end
他方、音響信号XEの強度Qが減衰閾値Z0を下回る(SD2:YES)ことも、発音始点TSの経過後の極小点xLが発音終点TEとして特定される(SD7)こともなく、直前の発音始点TSから時間τが経過すると(SD1:YES)、終点解析部46は、発音始点TSから時間τが経過した時点を発音終点TEとして特定する(SD8)。以上の説明から理解される通り、終点解析部46は、基本的には音響信号XEの強度Qが減衰閾値Z0を下回る時点を発音終点TEとして特定する一方(SD3)、発音始点TSの直後の発音源の発音が推定される場合(SD6:YES)には、発音区間Pから当該発音が除外されるように極小点xLを発音終点TEとして確定し(SD7)、何れの条件も成立しない場合には発音始点TSから時間τが経過した時点を発音終点TEとして特定する(SD8)。
On the other hand, the intensity Q of the acoustic signal XE falls below the attenuation threshold Z0 (SD2: YES), or the minimum point xL after the elapse of the sounding start point TS is not specified as the sounding end point TE (SD7). When the time τ elapses from the start point TS (SD1: YES), the end
以上に説明した通り、第1実施形態では、発音始点TSの経過後に音響信号XEの強度Qが経時的に減少する過程で強度Qが増加に反転する極小点xLを、変動指標δが終点閾値ZEを上回る場合に発音終点TEとして特定する。すなわち、発音源が短い間隔で複数回にわたり発音した場合(最初の発音による音響が充分に減衰する以前に直後の発音が開始する場合)には、発音始点TSに対応する最初の発音のみを発音区間Pが包含するように発音終点TEが特定される。したがって、音響信号XAの解析に重要な発音直後の区間を発音区間Pとして高精度に特定することが可能である。音源識別部60による発音源の識別には、発音源の種類毎の相違が顕著となる発音直後の特性が特に重要である。したがって、発音直後の区間を発音区間Pとして高精度に特定できる第1実施形態は格別に好適である。
As described above, in the first embodiment, the minimal point xL where the intensity Q reverses to increase in the process in which the intensity Q of the acoustic signal XE decreases with time after the sound generation start point TS elapses, and the variation index δ is the end point threshold value. If it exceeds ZE, it is specified as the pronunciation end point TE. In other words, when the sound source is sounded multiple times at short intervals (when the sound immediately after the sound of the first sound begins to decay before the sound is sufficiently attenuated), only the first sound corresponding to the sound start point TS is sounded. The pronunciation end point TE is specified so as to be included in the section P. Therefore, it is possible to specify the interval immediately after the sound generation important for the analysis of the acoustic signal XA as the sound generation interval P with high accuracy. For the sound source identification by the sound
また、第1実施形態では、変動指標δが終点閾値ZEを上回る極小点xLの到来前に、発音始点TSでの強度QHに応じた減衰閾値Z0を下回るまで音響信号XEの強度Qが発音始点TSと比較して減少した場合(SD2:YES)に、当該強度Qが減衰閾値Z0を下回る時点が発音終点TEとして特定される。したがって、発音始点TSの経過後に発音源が発音することなく音響信号XEが減衰する場合に、発音始点TSからの減衰の度合に応じた適切な発音終点TEを設定できるという利点がある。 Further, in the first embodiment, before the arrival of the minimum point xL where the variation index δ exceeds the end point threshold value ZE, the intensity Q of the acoustic signal XE is reduced to the sounding start point until it falls below the attenuation threshold value Z0 corresponding to the intensity QH at the sounding start point TS. When it decreases compared to TS (SD2: YES), the time point when the intensity Q falls below the attenuation threshold value Z0 is specified as the sound generation end point TE. Therefore, when the sound signal XE attenuates without sound generation after the sound generation start point TS has elapsed, there is an advantage that an appropriate sound generation end point TE can be set according to the degree of attenuation from the sound generation start point TS.
第1実施形態では、音響信号XEの強度Qの極大点xHを順次に検出する一方、極大点xHでの強度QHと当該極大点xHまでの強度Qの最小値である基準値QREFとの差分(QH−QREF)に応じた変動指標δが始点閾値ZSを上回る場合に、当該極大点xHが発音始点TSとして特定される。したがって、音響信号XEから検出される複数の極大点xHのうち発音源の明瞭な発音の開始を発音始点TSとして高精度に特定できるという利点がある。 In the first embodiment, the maximum point xH of the intensity Q of the acoustic signal XE is sequentially detected, while the difference between the intensity QH at the maximum point xH and the reference value QREF that is the minimum value of the intensity Q up to the maximum point xH. When the variation index δ according to (QH−QREF) exceeds the start point threshold value ZS, the local maximum point xH is specified as the sound generation start point TS. Therefore, there is an advantage that the start of clear sound generation of the sound source among the plurality of maximum points xH detected from the acoustic signal XE can be specified with high accuracy as the sound start point TS.
また、極大点xHでの強度QHと当該極大点xHまでの強度Qの最小値である基準値QREFとの差分(QH−QREF)を極大点xHでの強度QHにより除算することで変動指標δが算定される。すなわち、差分(QH−QREF)が音響信号XEの音量の大小に依存しない数値に正規化される。したがって、音響信号XEの音量に関わらず発音始点TSおよび発音終点TEを適切に特定することが可能である。 Further, the variation index δ is obtained by dividing the difference (QH−QREF) between the intensity QH at the maximum point xH and the reference value QREF that is the minimum value of the intensity Q up to the maximum point xH by the intensity QH at the maximum point xH. Is calculated. That is, the difference (QH−QREF) is normalized to a numerical value that does not depend on the volume of the acoustic signal XE. Therefore, it is possible to appropriately specify the sound generation start point TS and the sound generation end point TE regardless of the volume of the acoustic signal XE.
<音源識別部60>
図8は、第1実施形態の音源識別部60の構成図である。図8に例示される通り、第1実施形態の音源識別部60は、調波性解析部62と第1解析部64と第2解析部66と音源特定部68とを具備する。
<Sound
FIG. 8 is a configuration diagram of the sound
調波性解析部62は、音響信号XAが表す音響(以下「対象音」という)が調波音および非調波音の何れに該当するかを音響信号XAの特徴量Fから解析する。第1実施形態の調波性解析部62は、対象音が調波音に該当する確度WH(第1確度)と対象音が非調波音に該当する確度WP(第2確度)とを算定する。
The
具体的には、特徴量Fの解析で調波音と非調波音とを判別する公知のパターン認識器が調波性解析部62として任意に利用される。第1実施形態では、教師あり学習を利用した統計モデルの代表例であるサポートベクターマシーン(SVM:Support Vector Machine)を調波性解析部62として例示する。すなわち、調波性解析部62は、調波音と非調波音とを含む多数の音響の学習データを適用した機械学習で事前に決定された超平面を利用して、特徴量Fの対象音が調波音および非調波音の何れに該当するかを特徴量F毎(発音区間P毎)に順次に判別する。そして、調波性解析部62は、例えば所定の期間内に対象音が調波音であると判別した回数の比率(調波音と判別した回数/当該期間内の判別の総回数)を調波音の確度WHとして算定する一方、対象音が非調波音であると判別した回数の比率を非調波音の確度WPとして算定する(WH+WP=1)。以上の説明から理解される通り、音響信号XAの対象音が調波音である可能性(尤度)が高いほど確度WHは大きい数値となり、対象音が非調波音である可能性が高いほど確度WPは大きい数値となる。
Specifically, a known pattern recognizer that discriminates between harmonic and non-harmonic sounds by analyzing the feature value F is arbitrarily used as the
第1解析部64は、音響信号XAの対象音の発音源が複数種の調波音源の何れに該当するかを音響信号XAの特徴量Fから解析する。調波音源は、調波音を発音する発音源(例えば調波楽器)を意味する。図8では、ベース(Bass),ギター(Guitar),男性歌唱者(male Vo.),女性歌唱者(female Vo.)の4種類が、対象音の発音源の候補となる調波音源として例示されている。具体的には、第1実施形態の第1解析部64は、N種類(Nは2以上の自然数)の調波音源の各々について、対象音の発音源が当該調波音源に該当する確度に応じた評価値EH(n)(EH(1)〜EH(N))を設定する。
The
図9は、第1解析部64が評価値EH(1)〜EH(N)を設定する処理(以下「調波解析処理」という)のフローチャートである。特徴量抽出部50による特徴量Fの抽出毎(したがって発音区間P毎)に図9の調波解析処理が実行される。
FIG. 9 is a flowchart of processing (hereinafter referred to as “harmonic analysis processing”) in which the
調波解析処理を開始すると、第1解析部64は、事前に選定されたN種類の調波音源から任意の2種類の調波音源を選択する全通り(NC2通り)の組合せの各々について、対象音の発音源が当該組合せの2種類の調波音源の何れに該当するかを、特徴量Fを利用して判別する(SA1)。以上の判別には、2種類の調波音源を判別候補とするサポートベクターマシーンが好適に利用される。すなわち、調波音源の組合せに相当するNC2通りのサポートベクターマシーンに特徴量Fを適用することで、当該組合せ毎に対象音の発音源が2種類の調波音源から選択される。
When the harmonic analysis process is started, the
第1解析部64は、N種類の調波音源の各々について、対象音の発音源が当該調波音源に該当する確度CH(n)(CH(1)〜CH(N))を算定する(SA2)。任意の1個(第n番目)の調波音源の確度CH(n)は、例えば、合計NC2回にわたる判別のうち対象音の発音源が第n番目の調波音源に該当すると判別された回数の比率(調波音源に該当すると判別された回数/NC2)である。以上の説明から理解される通り、音響信号XAの対象音の発音源がN種類のうち第n番目の調波音源に該当する可能性(尤度)が高いほど確度CH(n)は大きい数値となる。
For each of the N types of harmonic sound sources, the
第1解析部64は、調波音源毎に算定された確度CH(n)の順位に対応した数値(得点)を評価値EH(n)としてN種類の調波音源の各々について設定する(SA3)。具体的には、確度CH(n)が大きいほど評価値EH(n)が大きい数値となるように確度CH(n)の順位に応じた数値が各調波音源の評価値EH(n)に付与される。例えば、確度CH(n)の降順で最上位に位置する調波音源の評価値EH(n)は数値ε1(例えばε1=100)に設定され、確度CH(n)が第2位に位置する調波音源の評価値EH(n)は数値ε1を下回る数値ε2(例えばε2=80)に設定され、確度CH(n)が第3位に位置する調波音源の評価値EH(n)は数値ε2を下回る数値ε3(例えばε3=60)に設定され、所定の順位を下回る残余の調波音源の評価値EH(n)は最小値(例えば0)に設定される、という具合である。以上の説明から理解される通り、音響信号XAの対象音の発音源がN種類のうち第n番目の調波音源に該当する可能性が高いほど評価値EH(n)は大きい数値となる。以上が調波解析処理の好適例である。
The
図8の第2解析部66は、音響信号XAの対象音の発音源が複数種の非調波音源の何れに該当するかを音響信号XAの特徴量Fから解析する。非調波音源は、非調波音を発音する発音源(例えば打楽器等の非調波楽器)を意味する。図8では、バスドラム(Kick),スネアドラム(Snare),ハイハット(Hi-Hat),フロアタム(F-Tom),シンバル(Cymbal)の5種類が、対象音の発音源の候補となる非調波音源として例示されている。具体的には、第1実施形態の第2解析部66は、M種類(Mは2以上の自然数)の非調波音源の各々について、対象音の発音源が当該非調波音源に該当する確度に応じた評価値EP(m)(EP(1)〜EP(M))を設定する。なお、調波音源の種類数Nと非調波音源の種類数Mとの異同は不問である。
The
第2解析部66によるM個の評価値EP(1)〜EP(M)の設定(非調波解析処理)は、図9に例示した調波解析処理(第1解析部64による評価値EH(n)の設定)と同様である。具体的には、第2解析部66は、M種類の非調波音源から2種類を選択する全通り(MC2通り)の組合せの各々について、対象音の発音源が当該組合せの2種類の非調波音源の何れに該当するかを判別し、対象音の発音源が第m番目の非調波音源に該当する確度CP(m)を非調波音源毎に算定する。非調波音源の判別には、調波解析処理での調波音源の判別と同様にサポートベクターマシーンが好適に利用される。
The setting (non-harmonic analysis process) of the M evaluation values EP (1) to EP (M) by the
そして、第2解析部66は、M種類の非調波音源の各々について、確度CP(m)の順位に対応した数値を評価値EP(m)として設定する。確度CP(m)の任意の順位に位置する非調波音源の評価値EP(m)には、確度CH(n)の順番で同順位に位置する調波音源の評価値EH(n)と同等の数値が付与される。具体的には、確度CP(m)の降順で最上位に位置する非調波音源の評価値EP(m)は数値ε1に設定され、確度CP(m)が第2位に位置する非調波音源の評価値EP(m)は数値ε2に設定され、確度CP(m)が第3位に位置する非調波音源の評価値EP(m)は数値ε3に設定され、所定の順位を下回る残余の調波音源の評価値EP(m)は最小値(例えば0)に設定される。したがって、音響信号XAの対象音の発音源がM種類のうち第m番目の非調波音源に該当する可能性(尤度)が高いほど評価値EP(m)は大きい数値となる。
Then, the
特徴量抽出部50が音響信号XAから抽出する任意の1個の特徴量Fは、前述の通り、相異なる特性値f1(第1特性値)および特性値f2(第2特性値)を含む複数の特性値fで構成される。第1実施形態の第1解析部64は、特徴量Fの特性値f1を利用して、対象音の発音源がN種類の調波音源の各々に該当する確度CH(n)を解析する。他方、第2解析部66は、特徴量Fの特性値f2を利用して、対象音の発音源がM種類の非調波音源の各々に該当する確度CP(m)を解析する。すなわち、第1解析部64が調波音源の確度CH(n)の算定に利用する特徴量F(特性値f1)と第2解析部66が非調波音源の確度CP(m)の算定に適用する特徴量F(特性値f2)とは相違する。
As described above, any one feature quantity F extracted from the acoustic signal XA by the feature
具体的には、第1解析部64による確度CH(n)の算定には、調波音源の種類毎に相違が顕著となる特性値f1が利用される。例えば、音色を表すMFCCや、基音成分に対する倍音成分の強度比等の特性値f1が、調波音の確度CH(n)の算定に好適に利用される。他方、第2解析部66による確度CP(m)の算定には、非調波音源の種類毎に相違が顕著となる特性値f2が利用される。例えば、音響の立上がりの急峻度や零交差数等の特性値f2が、非調波音の確度CP(m)の算定に好適に利用される。なお、第1解析部64が利用する特性値f1と第2解析部66が利用する特性値f2とを部分的に共通させることも可能である。
Specifically, for the calculation of the accuracy CH (n) by the
図8の音源特定部68は、調波性解析部62と第1解析部64と第2解析部66とによる以上の解析の結果に応じて音響信号XAの発音源の種類を特定する。発音源の種類の特定は発音区間P毎に実行される。図8に例示される通り、第1実施形態の音源特定部68は、乗算部682と乗算部684と選択処理部686とを包含する。
The sound
乗算部682は、第1解析部64がN種類の調波音源について設定したN個の評価値EH(1)〜EH(N)の各々に、調波性解析部62が解析した調波音の確度WHを乗算することでN個の識別指標R(R=EH(n)×WH)を算定する。他方、乗算部684は、第2解析部66がM種類の非調波音源について設定したM個の評価値EP(1)〜EP(M)の各々に、調波性解析部62が解析した非調波音の確度WPを乗算することでM個の識別指標R(R=EP(m)×WP)を算定する。乗算部682および乗算部684の処理により、N種類の調波音源とM種類の非調波音源とを含むK種類(K=N+M)の候補音源の各々について識別指標Rが算定される。以上の説明から理解される通り、確度WHは、調波音の各評価値EH(n)に対する加重値に相当し、確度WPは、非調波音の各評価値EP(m)に対する加重値に相当する。対象音が調波音に該当する確度WHが大きいほど調波音源の識別指標Rが相対的に優勢となり、対象音が非調波音に該当する確度WPが大きいほど非調波音源の識別指標Rが相対的に優勢となる。
The multiplying
選択処理部686は、乗算部682および乗算部684が算定したK個の識別指標Rに応じて音響信号XAの対象音の発音源の種類を特定し、当該発音源の種類を示す音源識別情報D(例えば楽器名)を生成する。具体的には、選択処理部686は、K種類の候補音源のうち識別指標Rが最大となる1種類の候補音源を対象音の発音源として選択し、当該候補音源を指定する音源識別情報Dを生成する。すなわち、音響信号XAの対象音の発音源の種類が識別される。以上に例示した処理が複数の音響信号XAの各々について実行されることで、対象音の発音源の種類を示す音源識別情報Dが音響信号XA毎に生成される。音響解析部20の具体例は以上の通りである。
The
図1の音響処理部30は、調波性解析部62が音響信号XA毎に解析した音源識別情報Dを参照して複数の音響信号XAに音響処理を実行することで音響信号XBを生成する。具体的には、音響信号XAの音源識別情報Dが示す発音源の種類毎に事前に設定された音響処理が当該音響信号XAに対して実行される。音響信号XAに対する音響処理としては、例えば残響効果や歪効果等の各種の音響効果を付与する効果付与処理(エフェクタ)や、周波数帯域毎の音量を調整する特性調整処理(イコライザ),音像が定位する位置を調整する定位調整処理(パン),音量を調整する音量調整処理が例示される。効果付与処理で音響信号XAに付与される音響効果の種類や度合,特性調整処理で音響信号XAに付与される周波数特性,定位調整処理で調整される音像の位置,音量調整処理による調整内容(ゲイン)等の各種のパラメータが、音源識別情報Dが示す発音源の種類毎に個別に設定される。そして、音響処理部30は、以上に例示した音響処理後の複数の音響信号XAを混合(ミキシング)することで音響信号XBを生成する。すなわち、第1実施形態の音響処理部30は、調波性解析部62による発音源の識別結果を反映した自動ミキシングを実現する。
The
図10は、第1実施形態の音源識別部60が任意の1系統の音響信号XAについて対象音の発音源の種類を特定する処理(以下「音源識別処理」という)のフローチャートである。複数の音響信号XAの各々について、特徴量抽出部50による特徴量Fの抽出毎(発音区間P毎)に図10の音源識別処理が実行される。
FIG. 10 is a flowchart of a process (hereinafter referred to as “sound source identification process”) in which the sound
音源識別処理を開始すると、調波性解析部62は、音響信号XAが表す対象音が調波音および非調波音の何れに該当するかを音響信号XAの特徴量Fから解析する(SB1)。他方、第1解析部64は、図9を参照して説明した調波解析処理によりN種類の調波音源の各々について評価値EH(n)(EH(1)〜EH(N))を算定し(SB2)、第2解析部66は、調波解析処理と同様の非調波解析処理によりM種類の非調波音源の各々について評価値EP(m)(EP(1)〜EP(M))を算定する(SB3)。そして、音源特定部68は、調波性解析部62と第1解析部64と第2解析部66とによる以上の解析の結果に応じて音響信号XAの発音源の種類を特定する(SB4)。なお、調波性解析部62による調波性の解析と、第1解析部64による調波解析処理と、第2解析部66による非調波解析処理との順序は任意である。例えば調波解析処理(SB2)および非調波解析処理(SB3)の実行後に調波性解析部62が調波性を解析することも可能である。
When the sound source identification process is started, the
以上に説明した通り、第1実施形態では、調波音と非調波音とを相互に区別して対象音の発音源の種類が特定される。具体的には、対象音が調波音および非調波音の各々に該当する確度(WH,WP)を調波性解析部62が解析した結果と、対象音の発音源がN種類の調波音源の各々に該当する確度CH(n)を第1解析部64が解析した結果と、対象音の発音源がM種類の非調波音源の各々に該当する確度CP(m)を第2解析部66が解析した結果とを利用して、対象音の発音源の種類が特定される。したがって、調波音と非調波音とを区別せずに発音源の種類を特定する構成と比較して対象音の発音源の種類を高精度に特定することが可能である。第1解析部64や第2解析部66の未学習の発音源についても音響処理部30による調波音/非調波音の識別は可能であるという利点もある。
As described above, in the first embodiment, the type of sound source of the target sound is specified by distinguishing the harmonic sound and the non-harmonic sound from each other. Specifically, the
また、第1実施形態では、対象音が調波音に該当する確度WHと各調波音源の評価値EH(n)との乗算、および、対象音が非調波音に該当する確度WPと各非調波音源の評価値EP(m)との乗算により、K種類の候補楽器(N種類の調波音源およびM種類の非調波音源)の各々について識別指標Rが算定され、各識別指標Rに応じて対象音の発音源の種類が特定される。すなわち、対象音が調波音に該当する確度WHが大きいほど調波音源の識別指標Rが相対的に優勢となり、対象音が非調波音に該当する確度WPが大きいほど非調波音源の識別指標Rが相対的に優勢となる。したがって、K個の識別指標Rの比較により対象音の発音源の種類を簡便かつ高精度に特定できるという利点がある。 In the first embodiment, the accuracy WH corresponding to the target sound corresponding to the harmonic sound and the evaluation value EH (n) of each harmonic sound source are multiplied, and the accuracy WP corresponding to the target sound corresponding to the subharmonic sound and each non-harmonic sound. The identification index R is calculated for each of K types of musical instruments (N types of harmonic sources and M types of non-harmonic sources) by multiplication with the harmonic sound source evaluation value EP (m). The type of sound source of the target sound is specified according to the above. That is, as the accuracy WH corresponding to the target sound corresponds to the harmonic sound, the harmonic sound source identification index R becomes relatively dominant, and as the accuracy WP corresponding to the target sound corresponds to the non-harmonic sound, the identification index of the non-harmonic sound source increases. R becomes relatively dominant. Therefore, there is an advantage that the type of sound source of the target sound can be specified easily and with high accuracy by comparing the K identification indexes R.
ところで、例えば対象音の発音源が調波音源に該当する確度CH(n)を評価値EH(n)として利用するとともに対象音の発音源が非調波音源に該当する確度CP(m)を評価値EP(m)として利用する構成(以下「比較例」という)では、評価値EH(n)の数値が調波音源の種類数Nに依存するとともに評価値EP(m)の数値が非調波音源の種類数Mに依存する。例えば、調波音源の種類数Nが多いほど確度CH(n)は小さい数値となる。したがって、調波音源の種類数Nと非調波音源の種類数Mとが相違する場合には、評価値EH(n)と評価値EP(m)とを適切に比較できないという問題がある。第1実施形態では、対象音の発音源が調波音源に該当する確度CH(n)の順位に応じた数値が評価値EH(n)として調波音源毎に設定され、対象音の発音源が非調波音源に該当する確度CP(m)の順位に応じた数値が評価値EP(m)として非調波音源毎に設定される。すなわち、評価値EH(n)は調波音源の種類数Nに依存しない数値に設定され、評価値EP(m)は非調波音源の種類数Mに依存しない数値に設定される。したがって、第1実施形態によれば、例えば調波音源の種類数Nと非調波音源の種類数Mとが相違する場合でも評価値EH(n)と評価値EP(m)とを適切に比較できるという利点がある。調波音源の種類数Nおよび非調波音源の種類数Mの制約が緩和されると換言することも可能である。ただし、前述の比較例も本発明の範囲には包含される。 By the way, for example, the accuracy CH (n) corresponding to the sound source of the target sound corresponding to the harmonic sound source is used as the evaluation value EH (n) and the accuracy CP (m) corresponding to the sound source of the target sound corresponding to the non-harmonic sound source is used. In the configuration used as the evaluation value EP (m) (hereinafter referred to as “comparative example”), the numerical value of the evaluation value EH (n) depends on the number N of types of harmonic sound sources and the numerical value of the evaluation value EP (m) is not Depends on the number M of types of harmonic sound sources. For example, the accuracy CH (n) becomes smaller as the number N of types of harmonic sound sources increases. Therefore, when the number N of harmonic sound sources and the number M of non-harmonic sound sources are different, there is a problem that the evaluation value EH (n) and the evaluation value EP (m) cannot be appropriately compared. In the first embodiment, a numerical value corresponding to the rank of the accuracy CH (n) corresponding to the sound source of the target sound corresponding to the harmonic sound source is set as the evaluation value EH (n) for each harmonic sound source, and the sound source of the target sound A numerical value corresponding to the rank of the accuracy CP (m) corresponding to the subharmonic sound source is set for each subharmonic sound source as the evaluation value EP (m). That is, the evaluation value EH (n) is set to a value that does not depend on the number N of harmonic sound sources, and the evaluation value EP (m) is set to a value that does not depend on the number M of non-harmonic sound sources. Therefore, according to the first embodiment, for example, the evaluation value EH (n) and the evaluation value EP (m) are appropriately set even when the number N of harmonic sound sources is different from the number M of non-harmonic sound sources. There is an advantage that it can be compared. In other words, the restrictions on the number N of harmonic sound sources and the number M of non-harmonic sound sources are relaxed. However, the comparative examples described above are also included in the scope of the present invention.
また、第1実施形態では、第1解析部64が調波音源の確度CH(n)の算定に利用する特徴量F(特性値f1)と第2解析部66が非調波音源の確度CP(m)の算定に適用する特徴量F(特性値f2)とが相違する。具体的には、例えば第1解析部64による確度CH(n)の算定には調波音の識別に好適な特性値f1が利用され、第2解析部66による確度CP(m)の算定には非調波音の識別に好適な特性値f2が利用される。したがって、調波音源の確度CH(n)の算定と非調波音源の確度CP(m)の算定とに同種の特徴量を利用する構成と比較して、対象音の発音源を高精度に特定できるという利点がある。ただし、第1解析部64と第2解析部66とが共通の特徴量Fを利用することも可能である。
In the first embodiment, the
<第2実施形態>
本発明の第2実施形態を説明する。なお、以下に例示する各形態において作用や機能が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。
Second Embodiment
A second embodiment of the present invention will be described. In addition, about the element which an effect | action and function are the same as that of 1st Embodiment in each form illustrated below, the code | symbol used by description of 1st Embodiment is diverted, and each detailed description is abbreviate | omitted suitably.
図11に例示される通り、発音源による1回の発音(例えば打楽器の1回の打撃による発音)の開始直後に強度Qが増加する過程において複数回の極大点xH(xH1,xH2)が観測される場合がある。図11の極大点xH1の変動指標δは始点閾値ZSを上回るから、変動指標δが始点閾値ZSを上回る全部の極大点xHを発音始点TSとして確定する第1実施形態では、極大点xH1および極大点xH2の双方が発音始点TSとして特定される。しかし、音響信号XEの強度は、極大点xH1の直後の極大点xH2まで増加する。すなわち、極大点xH1および極大点xH2は、実際には発音源の1回の発音に対応すると推定される。したがって、極大点xH1を発音始点TSとして特定することなく直後の極大点xH2のみを発音始点TSとして特定し、極大点xH1および極大点xH2の双方を1個の発音区間Pに包含させるべきである。以上の事情を考慮して、第2実施形態では、音響信号XEの強度Qの1個の極大点xH1の直後に、当該極大点xH1を上回る強度Qの極大点xH2を検出した場合に、先行の極大点xH1を発音始点TSの候補から除外する。 As illustrated in FIG. 11, a plurality of local maximum points xH (xH1, xH2) are observed in the process in which the intensity Q increases immediately after the start of one sound generation by the sound source (for example, sound generation by one percussion instrument percussion). May be. Since the fluctuation index δ of the local maximum point xH1 in FIG. 11 exceeds the starting point threshold value ZS, in the first embodiment in which all the local maximum points xH whose fluctuation index δ exceeds the starting point threshold value ZS are determined as the pronunciation starting point TS, the local maximum point xH1 and the local maximum point Both of the points xH2 are specified as the pronunciation start point TS. However, the intensity of the acoustic signal XE increases to the maximum point xH2 immediately after the maximum point xH1. That is, it is estimated that the local maximum point xH1 and the local maximum point xH2 actually correspond to one sound generation of the sound source. Accordingly, without specifying the local maximum point xH1 as the pronunciation start point TS, only the local maximum point xH2 immediately after is specified as the pronunciation start point TS, and both the local maximum point xH1 and the local maximum point xH2 should be included in one sound generation section P. . Considering the above circumstances, in the second embodiment, when a local maximum point xH2 having an intensity Q exceeding the local maximum point xH1 is detected immediately after one local maximum point xH1 of the intensity Q of the acoustic signal XE, the preceding is performed. The maximum point xH1 is excluded from the pronunciation start point TS candidates.
具体的には、変動指標δが始点閾値ZSを上回る任意の1個の極大点xH1(第1極大点)を第1実施形態と同様の方法で検出すると、始点解析部44は、図11に例示される通り、当該極大点xH1に対応する時間軸上の位置に待機区間Vを設定する。待機区間Vは、極大点xH1を発音始点TSとして確定することを留保する区間であり、極大点xH1以降に設定される。第2実施形態の始点解析部44は、極大点xH1を始点とする所定長の待機区間Vを設定する。
Specifically, when any one local maximum point xH1 (first local maximum point) in which the variation index δ exceeds the starting point threshold value ZS is detected by the same method as that in the first embodiment, the starting
待機区間Vを設定すると、始点解析部44は、極大点xH1以降の音響信号XEについて極大点xHの探索を継続する。前述の通り、音響信号XEの強度Qは、極大点xH1以降に増加する可能性がある。極大点xH1を上回る強度の極大点xH2(第2極大点)を待機区間V内に検出した場合、始点解析部44は、先行の極大点xH1を発音始点TSの候補から除外する。以上の処理を順次に実行し、検出済の極大点xHを上回る強度の極大点xHを検出することなく待機区間Vが経過すると、始点解析部44は、待機区間Vの満了前に最後に検出した極大点xHを発音始点TSとして確定する。
When the standby section V is set, the start
以上の説明から理解される通り、第2実施形態では、音響信号XEの強度Qの極大点xH1以降の待機区間V内に、当該極大点xH1を上回る強度Qの極大点xH2が検出された場合に、極大点xH1が発音始点TSの候補から除外される。したがって、発音源による1回の発音の開始から音響信号XEの強度Qが増加する過程で複数の極大点xHが検出される場合でも、当該発音に対応した1個の極大点xHを含む発音区間Pを適切に特定することが可能である。 As understood from the above description, in the second embodiment, when a local maximum point xH2 having an intensity Q exceeding the local maximum point xH1 is detected in the standby section V after the local maximum point xH1 of the intensity Q of the acoustic signal XE. In addition, the local maximum point xH1 is excluded from the candidates for the pronunciation start point TS. Therefore, even when a plurality of local maximum points xH are detected in the process of increasing the intensity Q of the acoustic signal XE from the start of one sound generation by the sound source, the sound generation section including one local maximum point xH corresponding to the sound generation It is possible to specify P appropriately.
なお、第2実施形態では、1個の極大点xH1を始点とする待機区間Vを設定したが、極大点xH1を上回る強度Qの極大点xH2を検出した場合に、当該極大点xH2を始点とする待機区間Vを新規に設定する(すなわち極大点xHの検出毎に待機区間Vを更新する)ことも可能である。 In the second embodiment, the standby interval V starting from one local maximum point xH1 is set. However, when a local maximum point xH2 having an intensity Q exceeding the local maximum point xH1 is detected, the local maximum point xH2 is set as the starting point. It is also possible to newly set the waiting section V to be performed (that is, to update the waiting section V every time the maximum point xH is detected).
<変形例>
以上に例示した各態様は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2個以上の態様は、相互に矛盾しない範囲で適宜に併合され得る。
<Modification>
Each aspect illustrated above can be variously modified. Specific modifications are exemplified below. Two or more modes arbitrarily selected from the following examples can be appropriately combined within a range that does not contradict each other.
(1)前述の各形態では、調波性解析部62がサポートベクターマシンにより調波音と非調波音とを判別したが、調波性解析部62による調波音/非調波音の判別方法は以上の例示に限定されない。例えば、調波音および非調波音の各々の特徴量Fの分布傾向を表現する混合正規分布を利用して対象音を調波音と非調波音とに判別する方法や、K-meansアルゴリズムを利用したクラスタリングで対象音を調波音と非調波音とに判別する方法も採用され得る。第1解析部64および第2解析部66の各々が対象音の発音源の種類を推定する方法についても同様に、前述の各形態で例示したサポートベクターマシンには限定されず、公知のパターン認識技術を任意に採用することが可能である。
(1) In each of the above embodiments, the
(2)前述の各形態では、調波性解析部62が解析した調波音の確度WHをN個の評価値EH(1)〜EH(N)に乗算するとともに非調波音の確度WPをM個の評価値EP(1)〜EP(M)に乗算したが、調波音の確度WHおよび非調波音の確度WPを音響信号XAの発音源の種類に反映させる方法は以上の例示に限定されない。例えば、音響信号XAの対象音が調波音および非調波音の何れに該当するかを確度WHおよび確度WPに応じて判別し、N個の評価値EH(1)〜EH(N)およびM個の評価値EP(1)〜EP(M)の何れかを調波性の判別結果に応じて選択的に利用して、音源特定部68が発音源の種類を特定することも可能である。
(2) In the above-described embodiments, the harmonic sound accuracy WH analyzed by the
具体的には、調波性解析部62は、確度WHが確度WPを上回る場合には対象音を調波音と判別し、確度WPが確度WHを上回る場合には対象音を非調波音と判別する。音源特定部68は、対象音が調波音であると判別された場合には、第1解析部64が算定したN個の評価値EH(1)〜EH(N)のなかの最大値に対応する調波音源を発音源の種類として特定する一方、対象音が非調波音であると判別された場合には、第2解析部66が算定したM個の評価値EP(1)〜EP(M)のなかの最大値に対応する非調波音源を発音源の種類として特定する。以上に例示した構成は、前述の各形態において、確度WHおよび確度WPの一方を1に設定するとともに他方を0に設定した構成とも換言される。なお、対象音が調波音であると調波性解析部62が判別した場合に第2解析部66による非調波解析処理(M個の評価値EP(1)〜EP(M)の算定)を省略する構成や、対象音が非調波音であると調波性解析部62が解析した場合に第1解析部64による調波解析処理(N個の評価値EH(1)〜EH(N)の算定)を省略する構成も採用され得る。
Specifically, the
以上の例示から理解される通り、音源特定部68は、調波性解析部62と第1解析部64と第2解析部66とによる解析結果に応じて対象音の発音源の種類を特定する要素として包括的に表現され、第1解析部64および第2解析部66の双方の解析結果を利用するか一方の解析結果のみを利用するかは、本発明において不問である。
As understood from the above examples, the sound
(3)前述の各形態では始点閾値ZSを固定値としたが、始点閾値ZSを可変値とすることも可能である。例えば、極大点xHでの音響信号XEの強度QHに応じた数値(例えば強度QHを所定値に乗算した数値)を始点閾値ZSとして利用し、図6のステップSC1では、極大点xHでの強度QHと基準値QREFとの差分(QH−QREF)を変動指標δとして始点閾値ZSと比較することも可能である。終点閾値ZEについても同様に可変値とすることが可能である。また、始点閾値ZSまたは終点閾値ZEを利用者からの指示に応じて可変に設定することも可能である。 (3) In each of the above-described embodiments, the starting point threshold value ZS is a fixed value, but the starting point threshold value ZS may be a variable value. For example, a numerical value corresponding to the intensity QH of the acoustic signal XE at the local maximum point xH (for example, a numerical value obtained by multiplying the predetermined value by the intensity QH) is used as the start point threshold value ZS, and in step SC1 in FIG. It is also possible to compare the difference (QH−QREF) between QH and the reference value QREF with the starting point threshold value ZS using the variation index δ. Similarly, the end point threshold value ZE can be a variable value. It is also possible to variably set the start point threshold value ZS or the end point threshold value ZE according to an instruction from the user.
(4)移動体通信網やインターネット等の通信網を介して端末装置(例えば携帯電話機やスマートフォン)と通信するサーバ装置で音響処理装置12を実現することも可能である。具体的には、音響処理装置12は、端末装置から通信網を介して受信した複数の音響信号XAから前述の各形態と同様の処理で音響信号XBを生成して端末装置に送信する。なお、端末装置から受信した複数の音響信号XAの各々の発音源の種類(音源識別情報D)を音響解析部20が識別して端末装置に通知し、端末装置に搭載された音響処理部30が識別結果に応じて複数の音響信号XAから音響信号XBを生成することも可能である。すなわち、音響処理部30は音響処理装置12から省略され得る。また、音響信号XAの発音区間Pの発音始点TSおよび発音終点TEを端末装置に通知する構成(例えば端末装置が特徴量抽出部50および音源解析部20を具備する構成)では、音響処理装置12の音響解析部20から特徴量抽出部50と音源識別部60とが省略される。
(4) It is also possible to realize the
以上の説明から理解される通り、本発明の好適な態様は、音響信号XAのうち音響の発音が開始される発音始点TSと当該音響の発音が終了する発音終点TEとを解析する装置(音響解析装置)として包括的に表現される。音響解析装置における音響処理部30の有無は不問である。
As will be understood from the above description, the preferred embodiment of the present invention is an apparatus for analyzing the sound generation start point TS at which sound generation is started and the sound generation end point TE at which sound generation ends (acoustic signal XA). Analysis device). The presence or absence of the
(5)前述の各形態で例示した音響処理装置12は、前述の通り制御装置122とプログラムとの協働で実現される。プログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。また、以上に例示したプログラムは、通信網を介した配信の形態で提供されてコンピュータにインストールされ得る。
(5) The
(6)本発明は、前述の各形態に係る音響処理装置12の動作方法としても特定される。例えば、発音区間検出部40が音響信号XAのうち音響の発音が開始される発音始点TSと当該音響の発音が終了する発音終点TEとを解析する方法(音響解析方法)においては、コンピュータ(単体の装置のほか、相互に別体の複数の装置で構成されたコンピュータシステムも含む)が、音響信号XAの強度Qの極大点xHを発音始点TSとして特定し(図6の始点解析処理)、発音始点TSの経過後に音響信号XAの強度Qが経時的に減少する過程で強度Qが増加に反転する極小点xLを、増加後の極大点xHでの強度QHと当該極大点xHまでの強度Qの最小値QREFとの差分に応じた変動指標δが終点閾値ZEを上回る場合に発音終点TEとして特定する(図7の終点解析処理)。
(6) The present invention is also specified as an operation method of the
12……音響処理装置、14……収音装置、16……放音装置、122……制御装置、124……記憶装置、20……音響解析部、30……音響処理部、40……発音区間検出部、42……信号処理部、44……始点解析部、46……終点解析部、50……特徴量抽出部、60……音源識別部、62……調波性解析部、64……第1解析部64、66……第2解析部、68……音源特定部、682……乗算部、684……乗算部、686……選択処理部。
DESCRIPTION OF
Claims (5)
前記音響信号の強度の極大点を前記発音始点として特定する始点解析部と、
前記発音始点の経過後に前記音響信号の強度が経時的に減少する過程で強度が増加に反転する極小点を、前記増加後の極大点での強度と当該極大点までの強度の最小値との差分に応じた変動指標が終点閾値を上回る場合に前記発音終点として特定する終点解析部と
を具備する音響解析装置。 A sound analysis device that analyzes a sound generation start point at which sound generation starts and a sound end point at which sound generation ends in an acoustic signal,
A starting point analysis unit that identifies the maximum point of the intensity of the acoustic signal as the starting point of sound generation;
The minimum point at which the intensity reverses to increase in the process in which the intensity of the acoustic signal decreases with time after the start of the sounding start point, the intensity at the maximum point after the increase and the minimum value of the intensity up to the maximum point An acoustic analysis device comprising: an end point analysis unit that identifies the sound generation end point when a variation index corresponding to the difference exceeds an end point threshold value.
請求項1の音響解析装置。 The end point analysis unit determines the attenuation when the intensity of the acoustic signal has decreased from the sounding start point until the minimum point falls below an attenuation threshold corresponding to the intensity at the sounding start point before specifying the minimum point as the sounding end point. The acoustic analysis device according to claim 1, wherein a point in time when the intensity falls below a threshold is specified as the pronunciation end point.
請求項1または請求項2の音響解析装置。 The starting point analysis unit sequentially detects the maximum point of the intensity of the acoustic signal, while a variation index according to the difference between the intensity at the maximum point and the minimum value of the intensity up to the maximum point is the end point threshold value The acoustic analysis device according to claim 1, wherein the local maximum point is specified as the sound generation start point when a start point threshold value greater than the threshold value is exceeded.
請求項1から請求項3の何れかの音響解析装置。 The acoustic analysis according to any one of claims 1 to 3, wherein the variation index is a numerical value obtained by dividing a difference between the intensity at the local maximum point and the minimum value of the intensity up to the local maximum point by the intensity at the local maximum point. apparatus.
請求項1から請求項4の何れかの音響解析装置。
When the start point analysis unit detects a second maximum point having an intensity exceeding the first maximum point in a standby section after the first maximum point of the intensity of the acoustic signal, the start point analysis unit generates the first maximum point as the pronunciation The acoustic analysis device according to any one of claims 1 to 4, wherein the acoustic analysis device is excluded from a starting point candidate.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015191028A JP6565549B2 (en) | 2015-09-29 | 2015-09-29 | Acoustic analyzer |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015191028A JP6565549B2 (en) | 2015-09-29 | 2015-09-29 | Acoustic analyzer |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017067903A true JP2017067903A (en) | 2017-04-06 |
JP6565549B2 JP6565549B2 (en) | 2019-08-28 |
Family
ID=58494569
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015191028A Active JP6565549B2 (en) | 2015-09-29 | 2015-09-29 | Acoustic analyzer |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6565549B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10243680B2 (en) | 2015-09-30 | 2019-03-26 | Yamaha Corporation | Audio processing device and audio processing method |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6039691A (en) * | 1983-08-13 | 1985-03-01 | 電子計算機基本技術研究組合 | Voice recognition |
JPS6377097A (en) * | 1986-09-19 | 1988-04-07 | 松下電器産業株式会社 | Voice recognition equipment |
JP2000250565A (en) * | 1999-02-25 | 2000-09-14 | Ricoh Co Ltd | Device and method for detecting voice section, voice recognition method and recording medium recorded with its method |
KR101193362B1 (en) * | 2012-04-13 | 2012-10-19 | 최병기 | Method for dividing string into pronunciation unit, method for representation of the tone of string using thereof and storage medium storing video clip representing the tone of string |
JP2013156544A (en) * | 2012-01-31 | 2013-08-15 | Brother Ind Ltd | Vocalization period specifying device, voice parameter generating device and program |
-
2015
- 2015-09-29 JP JP2015191028A patent/JP6565549B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6039691A (en) * | 1983-08-13 | 1985-03-01 | 電子計算機基本技術研究組合 | Voice recognition |
JPS6377097A (en) * | 1986-09-19 | 1988-04-07 | 松下電器産業株式会社 | Voice recognition equipment |
JP2000250565A (en) * | 1999-02-25 | 2000-09-14 | Ricoh Co Ltd | Device and method for detecting voice section, voice recognition method and recording medium recorded with its method |
JP2013156544A (en) * | 2012-01-31 | 2013-08-15 | Brother Ind Ltd | Vocalization period specifying device, voice parameter generating device and program |
KR101193362B1 (en) * | 2012-04-13 | 2012-10-19 | 최병기 | Method for dividing string into pronunciation unit, method for representation of the tone of string using thereof and storage medium storing video clip representing the tone of string |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10243680B2 (en) | 2015-09-30 | 2019-03-26 | Yamaha Corporation | Audio processing device and audio processing method |
Also Published As
Publication number | Publication date |
---|---|
JP6565549B2 (en) | 2019-08-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102610222B (en) | Music transcription method, system and device | |
CN105719661A (en) | Automatic discrimination method for playing timbre of string instrument | |
US20090171485A1 (en) | Segmenting a Humming Signal Into Musical Notes | |
JP2023081946A (en) | Learning device, automatic music transcription device, learning method, automatic music transcription method and program | |
JP5127982B2 (en) | Music search device | |
JP4205824B2 (en) | Singing evaluation device and karaoke device | |
US10298192B2 (en) | Sound processing device and sound processing method | |
JP6565548B2 (en) | Acoustic analyzer | |
JP2010210758A (en) | Method and device for processing signal containing voice | |
JP6565549B2 (en) | Acoustic analyzer | |
JP2013164584A (en) | Acoustic processor | |
Nwe et al. | On fusion of timbre-motivated features for singing voice detection and singer identification | |
KR101092228B1 (en) | System and method for recognizing instrument to classify signal source | |
JP2008015388A (en) | Singing skill evaluation method and karaoke machine | |
JP6098422B2 (en) | Information processing apparatus and program | |
JP2011022489A (en) | Pitch recognition method, pitch recognition program, recording medium and pitch recognition system | |
JP2015200685A (en) | Attack position detection program and attack position detection device | |
JP5843074B2 (en) | Stringed instrument performance evaluation apparatus and stringed instrument performance evaluation program | |
JP5157474B2 (en) | Sound processing apparatus and program | |
Chien et al. | An Acoustic-Phonetic Approach to Vocal Melody Extraction. | |
Joo et al. | Melody Extraction based on Harmonic Coded Structure. | |
JP5272141B2 (en) | Voice processing apparatus and program | |
JP5169297B2 (en) | Sound processing apparatus and program | |
JP5082760B2 (en) | Sound control apparatus and program | |
MOUNIR ABDELMESSIH SHEHATA | Acoustic Event Detection: Feature, Evaluation and Dataset Design |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180725 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190621 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190702 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190715 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6565549 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313532 |