JP2017067903A - Acoustic analysis device - Google Patents

Acoustic analysis device Download PDF

Info

Publication number
JP2017067903A
JP2017067903A JP2015191028A JP2015191028A JP2017067903A JP 2017067903 A JP2017067903 A JP 2017067903A JP 2015191028 A JP2015191028 A JP 2015191028A JP 2015191028 A JP2015191028 A JP 2015191028A JP 2017067903 A JP2017067903 A JP 2017067903A
Authority
JP
Japan
Prior art keywords
sound
point
intensity
harmonic
analysis unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015191028A
Other languages
Japanese (ja)
Other versions
JP6565549B2 (en
Inventor
慶太 有元
Keita Arimoto
慶太 有元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2015191028A priority Critical patent/JP6565549B2/en
Publication of JP2017067903A publication Critical patent/JP2017067903A/en
Application granted granted Critical
Publication of JP6565549B2 publication Critical patent/JP6565549B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Auxiliary Devices For Music (AREA)

Abstract

PROBLEM TO BE SOLVED: To specify an utterance section immediately after the utterance of the utterance source from among acoustic signals with high accuracy.SOLUTION: An utterance section detection part 40 is an element for analyzing an utterance start point TS where the utterance of the acoustic sound is started and an utterance end point TE where the utterance of the acoustic sound is finished from among the acoustic signals XA, and includes: a start point analysis part 44 for specifying a maximum point of intensity of the acoustic sound XE as the utterance start point TS; and an end point analysis part 46 for specifying a minimum point where intensity of the acoustic signal XE is turned oppositely to the increase in the course of decreasing the intensity after the lapse of the utterance start point TS with time, as the utterance end point in the case where a fluctuation index according to a difference between the intensity at the maximum point after the increase and the minimum value of the intensity until the maximum point exceeds a final point threshold value.SELECTED DRAWING: Figure 4

Description

本発明は、音響を解析する技術に関する。   The present invention relates to a technique for analyzing sound.

音響信号のうち音響が発音される発音区間を解析するための各種の技術が従来から提案されている。例えば特許文献1には、音響信号のSN(Signal to Noise)比が所定の条件を充足する期間を発音区間として特定する構成が開示されている。   Conventionally, various techniques for analyzing a sound generation section in which sound is generated in an acoustic signal have been proposed. For example, Patent Document 1 discloses a configuration in which a period in which an SN (Signal to Noise) ratio of an acoustic signal satisfies a predetermined condition is specified as a sounding section.

特開2008−170806号公報JP 2008-170806 A

ところで、打楽器等の各種の楽器が発音する音響の解析には当該楽器の発音区間の特定が重要である。しかし、例えば打楽器が素早く連打された場合のように発音源が短い間隔で複数回にわたり発音した場合には、最初の発音による音響が充分に減衰する以前に直後の発音が開始する。したがって、特許文献1の技術のもとでは、複数回にわたる発音が1個の発音区間に包含される可能性がある。しかし、実際の演奏音の解析の場面では、発音の開始直後の特性の解析が重要である場合が想定されるから、発音源が短い間隔で複数回にわたり発音した場合でも、最初の発音による音響のみを含む発音区間を高精度に特定することが重要である。以上の事情を考慮して、本発明は、音響信号のうち発音源の発音の直後の発音区間を高精度に特定することを目的とする。   By the way, it is important to specify the sound generation section of the musical instrument for the analysis of sound produced by various musical instruments such as percussion instruments. However, when the sound source is sounded a plurality of times at short intervals, for example, when the percussion instrument is struck quickly, the immediate sounding starts before the sound due to the first sound is sufficiently attenuated. Therefore, under the technique of Patent Document 1, a plurality of pronunciations may be included in one pronunciation period. However, in the actual performance sound analysis scene, it is assumed that the analysis of the characteristics immediately after the start of sounding is important, so even if the sound source is sounded multiple times at short intervals, the sound of the first sounding It is important to specify a pronunciation interval including only high precision. In view of the above circumstances, an object of the present invention is to specify a sound generation section immediately after sound generation of a sound source in an acoustic signal with high accuracy.

以上の課題を解決するために、本発明の好適な態様に係る音響解析装置は、音響信号のうち音響の発音が開始される発音始点と当該音響の発音が終了する発音終点とを解析する音響解析装置であって、音響信号の強度の極大点を発音始点として特定する始点解析部と、発音始点の経過後に音響信号の強度が経時的に減少する過程で強度が増加に反転する極小点を、増加後の極大点での強度と当該極大点までの強度の最小値との差分に応じた変動指標が終点閾値を上回る場合に発音終点として特定する終点解析部とを具備する。以上の態様では、発音始点の経過後に音響信号の強度が経時的に減少する過程で強度が増加に反転する極小点を、変動指標が終点閾値を上回る場合に発音終点として特定する。すなわち、発音源が短い間隔で複数回にわたり発音した場合(最初の発音による音響が充分に減衰する以前に直後の発音が開始する場合)には、発音始点に対応する最初の発音のみを発音区間が包含するように発音終点が特定される。したがって、音響信号のうち発音源の発音の直後の発音区間を高精度に特定することが可能である。   In order to solve the above problems, an acoustic analysis device according to a preferred aspect of the present invention is an acoustic analysis device that analyzes a sound generation start point at which sound generation is started and a sound generation end point at which sound generation ends in the sound signal. An analysis device that includes a start point analysis unit that identifies a maximum point of the intensity of an acoustic signal as a pronunciation start point, and a minimum point at which the intensity reverses to increase in the process of decreasing the intensity of the acoustic signal over time after the start of the sound generation point. And an end point analysis unit that specifies the end point of sound generation when the variation index according to the difference between the intensity at the maximum point after the increase and the minimum value of the intensity up to the maximum point exceeds the end point threshold value. In the above aspect, the minimum point where the intensity reverses to increase in the process in which the intensity of the acoustic signal decreases with time after the sounding start point has elapsed is specified as the sounding end point when the variation index exceeds the end point threshold. In other words, when the sound source is sounded multiple times at short intervals (when the sound immediately after the start sound is sufficiently attenuated), only the first sound corresponding to the sound start point is generated. The pronunciation end point is specified to include. Therefore, it is possible to specify the sound generation section immediately after the sound generation of the sound source in the acoustic signal with high accuracy.

本発明の好適な態様において、終点解析部は、極小点を発音終点として特定する以前に、発音始点での強度に応じた減衰閾値を下回るまで音響信号の強度が当該発音始点から減少した場合に、減衰閾値を強度が下回る時点を発音終点として特定する。以上の態様では、極小点が発音終点として特定される以前に、発音始点での強度に応じた減衰閾値を下回るまで音響信号の強度が発音始点から減少した場合に、強度が減衰閾値を下回る時点が発音終点として特定される。したがって、発音始点の経過後に発音源が発音することなく音響信号が減衰する場合に、発音始点からの減衰の度合に応じた適切な発音終点を設定できるという利点がある。   In a preferred aspect of the present invention, the end point analysis unit, when the minimum point is specified as the pronunciation end point, when the intensity of the acoustic signal decreases from the sound start point until it falls below the attenuation threshold corresponding to the intensity at the sound start point. The point in time when the intensity falls below the attenuation threshold is specified as the pronunciation end point. In the above aspect, when the intensity of the acoustic signal decreases from the sounding start point until the minimum point is identified as the sounding end point and falls below the attenuation threshold corresponding to the intensity at the sounding start point, Is identified as the pronunciation end point. Accordingly, there is an advantage that an appropriate sounding end point can be set according to the degree of attenuation from the sounding start point when the sound signal is attenuated without sounding by the sounding source after the sounding start point has elapsed.

本発明の好適な態様において、始点解析部は、音響信号の強度の極大点を順次に検出する一方、極大点での強度と当該極大点までの強度の最小値との差分に応じた変動指標が、終点閾値よりも大きい始点閾値を上回る場合に、当該極大点を発音始点として特定する。以上の態様では、音響信号の強度の極大点が順次に検出される一方、極大点での強度と当該極大点までの強度の最小値である基準値との差分に応じた変動指標が始点閾値を上回る場合に、当該極大点が発音始点として特定される。したがって、音響信号から検出される複数の極大点のうち発音源の明瞭な発音の開始を発音始点として高精度に特定できるという利点がある。   In a preferred aspect of the present invention, the start point analysis unit sequentially detects the maximum point of the intensity of the acoustic signal, while the variation index according to the difference between the intensity at the maximum point and the minimum value of the intensity up to the maximum point. Is greater than the start point threshold value greater than the end point threshold value, the local maximum point is specified as the pronunciation start point. In the above aspect, the maximum point of the intensity of the acoustic signal is sequentially detected, while the variation index according to the difference between the intensity at the maximum point and the reference value that is the minimum value of the intensity up to the maximum point is the starting point threshold value. When the value exceeds the maximum value, the local maximum point is specified as the pronunciation starting point. Therefore, there is an advantage that it is possible to specify with high accuracy the clear start of the sound source of the sound source among the plurality of maximum points detected from the acoustic signal.

本発明の好適な態様において、変動指標は、極大点での強度と当該極大点までの強度の最小値との差分を当該極大点での強度により除算した数値である。以上の態様では、極大点での強度と基準値との差分を極大点での強度により除算することで変動指標が算定される。すなわち、差分が音響信号の音量の大小に依存しない数値に正規化される。したがって、音響信号の音量に関わらず発音始点および発音終点を適切に特定することが可能である。   In a preferred aspect of the present invention, the variation index is a numerical value obtained by dividing the difference between the intensity at the maximum point and the minimum value of the intensity up to the maximum point by the intensity at the maximum point. In the above aspect, the variation index is calculated by dividing the difference between the intensity at the maximum point and the reference value by the intensity at the maximum point. That is, the difference is normalized to a numerical value that does not depend on the volume of the sound signal. Therefore, it is possible to appropriately specify the sound generation start point and the sound generation end point regardless of the volume of the acoustic signal.

本発明の好適な態様において、始点解析部は、音響信号の強度の第1極大点以降の待機区間内に、第1極大点を上回る強度の第2極大点を検出した場合に、第1極大点を発音始点の候補から除外する。以上の態様では、音響信号の強度の極大点以降の待機区間内に、当該極大点を上回る強度の極大点が検出された場合に、極大点が発音始点の候補から除外される。したがって、発音源による1回の発音の開始から音響信号の強度が増加する過程で複数の極大点が検出される場合でも、当該発音に対応した1個の極大点を含む発音区間を適切に特定することが可能である。   In a preferred aspect of the present invention, when the start point analysis unit detects a second maximum point having an intensity exceeding the first maximum point in a standby section after the first maximum point of the intensity of the acoustic signal, the first maximum is detected. The point is excluded from the pronunciation start point candidates. In the above aspect, when a maximum point with an intensity exceeding the maximum point is detected in the standby section after the maximum point of the intensity of the acoustic signal, the maximum point is excluded from the pronunciation start point candidates. Therefore, even when multiple local maximum points are detected in the process of increasing the intensity of the sound signal from the start of a single sound generation by the sound source, the sound generation section including one local maximum point corresponding to the sound generation is appropriately specified. Is possible.

本発明の第1実施形態に係る音響処理装置の構成図である。1 is a configuration diagram of a sound processing apparatus according to a first embodiment of the present invention. 音響解析部の構成図である。It is a block diagram of an acoustic analysis part. 音響信号の各発音区間の説明図である。It is explanatory drawing of each sound generation area of an acoustic signal. 発音区間検出部の構成図である。It is a block diagram of a pronunciation area detection part. 発音区間検出部の動作の説明図である。It is explanatory drawing of operation | movement of a pronunciation area detection part. 始点解析処理のフローチャートである。It is a flowchart of a starting point analysis process. 終点解析処理のフローチャートである。It is a flowchart of an end point analysis process. 音源識別部の構成図である。It is a block diagram of a sound source identification part. 調波解析処理のフローチャートである。It is a flowchart of a harmonic analysis process. 音源識別処理のフローチャートである。It is a flowchart of a sound source identification process. 第2実施形態における始点解析処理の説明図である。It is explanatory drawing of the starting point analysis process in 2nd Embodiment.

<第1実施形態>
図1は、本発明の第1実施形態の音響処理装置12の構成図である。図1に例示される通り、音響処理装置12には複数の収音装置14と放音装置16とが接続される。複数の収音装置14の各々は、当該収音装置14の周囲の音響を表す音響信号XAを生成する。音響信号XAは、例えば左右2チャネルのステレオ形式の信号である。複数の収音装置14が生成した複数の音響信号XAが音響処理装置12に並列に供給される。なお、収音装置14が生成した音響信号XAをアナログからデジタルに変換するA/D変換器の図示は便宜的に省略した。
<First Embodiment>
FIG. 1 is a configuration diagram of the sound processing apparatus 12 according to the first embodiment of the present invention. As illustrated in FIG. 1, a plurality of sound collection devices 14 and sound emission devices 16 are connected to the sound processing device 12. Each of the plurality of sound collection devices 14 generates an acoustic signal XA representing the sound around the sound collection device 14. The acoustic signal XA is, for example, a stereo signal with two channels on the left and right. A plurality of acoustic signals XA generated by the plurality of sound collecting devices 14 are supplied to the acoustic processing device 12 in parallel. The A / D converter for converting the acoustic signal XA generated by the sound collection device 14 from analog to digital is not shown for convenience.

各収音装置14は相異なる発音源の近傍に配置される。発音源は、例えば演奏により楽音を発音する楽器や歌唱音声を発音する歌唱者である。第1実施形態では、収録スタジオ等の音響空間の内部で歌唱者と複数の楽器とにより音楽を演奏する場合を想定する。各収音装置14が生成する音響信号XAには、当該収音装置14の近傍の発音源から発音された音響が優勢に含有されるが、当該音響と比較して小音量で他の発音源の音響も含有され得る。   Each sound collecting device 14 is arranged in the vicinity of a different sound source. The sound source is, for example, a musical instrument that produces a musical tone or a singer that produces a singing voice. In the first embodiment, it is assumed that music is played by a singer and a plurality of musical instruments inside an acoustic space such as a recording studio. The sound signal XA generated by each sound collection device 14 predominately contains sound produced from a sound source in the vicinity of the sound collection device 14, but other sound sources with a lower volume than the sound. Can also be included.

第1実施形態の各発音源は、調波音または非調波音を発音する。調波音は、基本周波数の基音成分と複数の倍音成分とを周波数軸上に配列した調波構造が明瞭に観測される調波性の音響である。例えば弦楽器または管楽器等の調波楽器の楽音や歌唱音声等の人間の発声音が調波音の典型例である。他方、非調波音は、調波構造が明瞭に観測されない非調波性の音響である。例えばドラムやシンバル等の打楽器の楽音が非調波音の典型例である。   Each sound source in the first embodiment generates a harmonic sound or a non-harmonic sound. The harmonic sound is a harmonic sound in which the harmonic structure in which the fundamental frequency component of the fundamental frequency and a plurality of harmonic components are arranged on the frequency axis is clearly observed. For example, a musical sound of a harmonic instrument such as a stringed instrument or a wind instrument or a human vocal sound such as a singing voice is a typical example of a harmonic sound. On the other hand, non-harmonic sound is non-harmonic sound in which the harmonic structure is not clearly observed. For example, percussion musical sounds such as drums and cymbals are typical examples of non-harmonic sounds.

なお、調波音は、調波性の音響成分を非調波性の音響成分と比較して優勢に含有する音響を意味する。したがって、調波性の音響成分のみで構成される音響のほか、調波性の音響成分と非調波性の音響成分との双方を含有するが全体としては調波性が優勢である音響も、調波音の概念に包含される。同様に、非調波音は、非調波性の音響成分を調波性の音響成分と比較して優勢に含有する音響を意味する。したがって、非調波性の音響成分のみで構成される音響のほか、調波性の音響成分と非調波性の音響成分との双方を含有するが全体としては非調波性が優勢である音響も、非調波音の概念に包含される。以下の説明では、調波音に関連する要素の符号に添字H(H:Harmonic)を付加し、非調波音に関連する要素の符号に添字P(P:Percussive)を付加する場合がある。   Note that the harmonic sound means sound containing a harmonic acoustic component predominantly compared to a non-harmonic acoustic component. Therefore, in addition to sound composed only of harmonic acoustic components, there is also acoustic that contains both harmonic acoustic components and non-harmonic acoustic components, but the harmonics predominate as a whole. Included in the concept of harmonic sounds. Similarly, non-harmonic sound refers to sound that predominately contains non-harmonic acoustic components compared to harmonic acoustic components. Therefore, it contains both harmonic and non-harmonic acoustic components in addition to the sound composed only of non-harmonic acoustic components, but the non-harmonic property is dominant as a whole. Sound is also included in the concept of non-harmonic sound. In the following description, the subscript H (H: Harmonic) may be added to the code of the element related to the harmonic sound, and the subscript P (P: Percussive) may be added to the code of the element related to the non-harmonic sound.

音響処理装置12は、複数の音響信号XAに対する音響処理で音響信号XBを生成する。具体的には、第1実施形態の音響処理装置12は、複数の音響信号XAの混合(ミキシング)により左右2チャネルのステレオ形式の音響信号XBを生成する。放音装置16(例えばスピーカやヘッドホン)は、音響処理装置12が生成した音響信号XBに応じた音響を放音する。なお、音響処理装置12が生成した音響信号XBをデジタルからアナログに変換するD/A変換器の図示は便宜的に省略した。また、図1では各収音装置14と放音装置16とを音響処理装置12とは別個の要素として図示したが、複数の収音装置14と放音装置16とを音響処理装置12に搭載することも可能である。   The sound processing device 12 generates the sound signal XB by sound processing on the plurality of sound signals XA. Specifically, the sound processing device 12 according to the first embodiment generates a left and right two-channel stereo sound signal XB by mixing (mixing) a plurality of sound signals XA. The sound emitting device 16 (for example, a speaker or headphones) emits sound according to the acoustic signal XB generated by the sound processing device 12. In addition, illustration of the D / A converter which converts the acoustic signal XB which the acoustic processing apparatus 12 produced | generated from digital to analog was abbreviate | omitted for convenience. In FIG. 1, each sound collecting device 14 and sound emitting device 16 are illustrated as separate elements from the sound processing device 12, but a plurality of sound collecting devices 14 and sound emitting devices 16 are mounted on the sound processing device 12. It is also possible to do.

図1に例示される通り、音響処理装置12は、制御装置122と記憶装置124とを具備するコンピュータシステムで実現される。記憶装置124は、例えば磁気記録媒体や半導体記録媒体等の公知の記録媒体または複数種の記録媒体の組合せであり、制御装置122が実行するプログラムや制御装置122が使用する各種のデータを記憶する。制御装置122は、記憶装置124が記憶するプログラムを実行することで、複数の音響信号XAの各々を解析する音響解析部20と、音響解析部20による解析結果を利用して複数の音響信号XAから音響信号XBを生成する音響処理部30とを実現する。なお、制御装置122の機能の一部または全部を専用の電子回路で実現する構成や、制御装置122の機能を複数の装置に分散した構成も採用され得る。   As illustrated in FIG. 1, the sound processing device 12 is realized by a computer system including a control device 122 and a storage device 124. The storage device 124 is a known recording medium such as a magnetic recording medium or a semiconductor recording medium, or a combination of a plurality of types of recording media, and stores a program executed by the control device 122 and various data used by the control device 122. . The control device 122 executes a program stored in the storage device 124, thereby analyzing each of the plurality of acoustic signals XA, and using the analysis result by the acoustic analysis unit 20, the plurality of acoustic signals XA. The acoustic processing unit 30 that generates the acoustic signal XB from the above is realized. A configuration in which some or all of the functions of the control device 122 are realized by a dedicated electronic circuit, or a configuration in which the functions of the control device 122 are distributed to a plurality of devices may be employed.

音響解析部20は、複数の収音装置14から供給される複数の音響信号XAの各々について、当該音響信号XAが表す音響の発音源の種類を特定する。具体的には、音響解析部20は、各音響信号XAの発音源の種類を示す情報(以下「音源識別情報」という)Dを生成する。音源識別情報Dは、例えば発音源の名称(具体的には楽器名や演奏パート名)である。   The acoustic analysis unit 20 specifies, for each of the plurality of acoustic signals XA supplied from the plurality of sound collection devices 14, the type of sound generation source represented by the acoustic signal XA. Specifically, the acoustic analysis unit 20 generates information (hereinafter referred to as “sound source identification information”) D indicating the type of sound source of each acoustic signal XA. The sound source identification information D is, for example, the name of the sound source (specifically, the instrument name or performance part name).

図2は、音響解析部20の構成図である。図2に例示される通り、第1実施形態の音響解析部20は、発音区間検出部40と特徴量抽出部50と音源識別部60とを具備する。なお、以下の説明では、任意の1系統の音響信号XAに対する処理に便宜的に着目するが、複数の音響信号XAの各々について同様の処理が実行される。   FIG. 2 is a configuration diagram of the acoustic analysis unit 20. As illustrated in FIG. 2, the acoustic analysis unit 20 of the first embodiment includes a sounding section detection unit 40, a feature amount extraction unit 50, and a sound source identification unit 60. In the following description, although attention is paid to the processing for an arbitrary one system of acoustic signals XA for convenience, the same processing is executed for each of the plurality of acoustic signals XA.

図2の発音区間検出部40は、音響信号XAについて複数の発音区間Pを検出する。図3には、音響信号XAの波形と発音区間Pとの関係が図示されている。図3から理解される通り、各発音区間Pは、音響信号XAが表す音響が発音される時間軸上の区間であり、音響の発音が開始する時点(以下「発音始点」という)TSから終点(以下「発音終点」という)TEまでの区間である。   The sounding section detection unit 40 in FIG. 2 detects a plurality of sounding sections P for the acoustic signal XA. FIG. 3 shows the relationship between the waveform of the acoustic signal XA and the sound generation section P. As can be understood from FIG. 3, each sound generation section P is a time-axis section where the sound represented by the sound signal XA is generated, and from the point in time when sound generation starts (hereinafter referred to as “pronunciation start point”) TS to the end point This is a section up to TE (hereinafter referred to as “pronunciation end point”).

図2の特徴量抽出部50は、音響信号XAの特徴量Fを抽出する。第1実施形態の特徴量抽出部50は、発音区間検出部40が検出した発音区間P毎に特徴量Fを順次に抽出する。特徴量Fは、発音区間P内の音響信号XAの音響的な特徴を表す指標である。第1実施形態の特徴量Fは、相異なる複数種の特性値f(f1,f2,……)を包含するベクトルで表現される。具体的には、音響信号XAの音色を表すMFCC(Mel-frequency cepstral coefficients),発音区間P内の音響の立上がりの急峻度,基音成分に対する倍音成分の強度比,音響信号XAの強度の符号が反転する回数または頻度である零交差数等の複数種の特性値fが特徴量Fに包含される。   The feature quantity extraction unit 50 in FIG. 2 extracts the feature quantity F of the acoustic signal XA. The feature amount extraction unit 50 according to the first embodiment sequentially extracts the feature amount F for each sound generation section P detected by the sound generation section detection unit 40. The feature amount F is an index representing the acoustic feature of the acoustic signal XA in the sound generation section P. The feature amount F of the first embodiment is expressed as a vector including a plurality of different characteristic values f (f1, f2,...). Specifically, the MFCC (Mel-frequency cepstral coefficients) representing the timbre of the acoustic signal XA, the steepness of the acoustic rise in the sound generation section P, the intensity ratio of the harmonic component to the fundamental component, and the sign of the intensity of the acoustic signal XA A plurality of types of characteristic values f such as the number of inversions or the number of zero crossings, which is the frequency, are included in the feature amount F.

各発音源が発音する音響の特徴は、発音始点TSの直後に特に顕著となる。第1実施形態では、音響信号XAの発音始点TS毎(発音区間P毎)に音響信号XAの特徴量Fが抽出されるから、発音の有無や時点とは無関係に音響信号XAを区分した区間毎に特徴量Fを抽出する構成と比較して、発音源の種類毎に固有の特徴が顕著に反映された特徴量Fを抽出できるという利点がある。もっとも、発音源による発音の有無や時点とは無関係に音響信号XAを時間軸上で区分した区間毎に特徴量Fを抽出する(したがって発音区間検出部40は省略される)ことも可能である。音源識別部60は、特徴量抽出部50が抽出した特徴量Fを利用して音響信号XAの発音源の種類を識別することで音源識別情報Dを生成する。   The characteristics of the sound generated by each sound source are particularly prominent immediately after the sound generation start point TS. In the first embodiment, since the feature amount F of the acoustic signal XA is extracted for each sounding start point TS (for each sounding section P) of the sound signal XA, the section in which the sound signal XA is divided regardless of the presence or time of sounding. Compared with the configuration in which the feature amount F is extracted every time, there is an advantage that the feature amount F in which a unique feature is significantly reflected for each type of sound source can be extracted. However, it is also possible to extract the feature amount F for each section obtained by dividing the acoustic signal XA on the time axis regardless of whether or not the sound source is sounded and the time point (therefore, the sounding section detection unit 40 is omitted). . The sound source identification unit 60 generates the sound source identification information D by identifying the type of the sound source of the acoustic signal XA using the feature amount F extracted by the feature amount extraction unit 50.

図1の音響処理部30は、音響解析部20が音響信号XA毎に解析した音源識別情報Dを参照して複数の音響信号XAに音響処理を実行することで音響信号XBを生成する。具体的には、音響信号XAの音源識別情報Dが示す発音源の種類毎に事前に設定された音響処理が当該音響信号XAに対して実行される。音響信号XAに対する音響処理としては、例えば残響効果や歪効果等の各種の音響効果を付与する効果付与処理(エフェクタ)や、周波数帯域毎の音量を調整する特性調整処理(イコライザ),音像が定位する位置を調整する定位調整処理(パン),音量を調整する音量調整処理が例示される。効果付与処理で音響信号XAに付与される音響効果の種類や度合,特性調整処理で音響信号XAに付与される周波数特性,定位調整処理で調整される音像の位置,音量調整処理による調整内容(ゲイン)等の各種のパラメータが、音源識別情報Dが示す発音源の種類毎に個別に設定される。そして、音響処理部30は、以上に例示した音響処理後の複数の音響信号XAを混合(ミキシング)することで音響信号XBを生成する。すなわち、第1実施形態の音響処理部30は、調波性解析部62による発音源の識別結果を反映した自動ミキシングを実現する。以下、第1実施形態における発音区間検出部40および音源識別部60の各々の具体的な構成を説明する。   The sound processing unit 30 in FIG. 1 generates the sound signal XB by performing sound processing on the plurality of sound signals XA with reference to the sound source identification information D analyzed by the sound analysis unit 20 for each sound signal XA. Specifically, acoustic processing set in advance for each type of sound source indicated by the sound source identification information D of the acoustic signal XA is executed on the acoustic signal XA. As acoustic processing for the acoustic signal XA, for example, effect imparting processing (effector) that imparts various acoustic effects such as reverberation effect and distortion effect, characteristic adjustment processing (equalizer) that adjusts the volume for each frequency band, and sound image localization Examples are a localization adjustment process (pan) for adjusting the position to be performed and a volume adjustment process for adjusting the volume. The type and degree of the sound effect given to the sound signal XA by the effect applying process, the frequency characteristic given to the sound signal XA by the characteristic adjusting process, the position of the sound image adjusted by the localization adjusting process, and the adjustment contents by the volume adjusting process ( Various parameters such as gain) are individually set for each type of sound source indicated by the sound source identification information D. Then, the sound processing unit 30 generates the sound signal XB by mixing (mixing) the plurality of sound signals XA after the sound processing exemplified above. That is, the acoustic processing unit 30 according to the first embodiment realizes automatic mixing that reflects the sound source identification result by the harmonic analysis unit 62. Hereinafter, a specific configuration of each of the sounding section detection unit 40 and the sound source identification unit 60 in the first embodiment will be described.

<発音区間検出部40>
図4は、発音区間検出部40の構成図である。図4に例示される通り、第1実施形態の発音区間検出部40Aは、信号処理部42と始点解析部44と終点解析部46とを具備する。なお、以下の説明では、任意の1系統の音響信号XAに対する処理に便宜的に着目するが、実際には複数の音響信号XAの各々について同様の処理が実行される。
<Sound generation section detector 40>
FIG. 4 is a configuration diagram of the sounding section detection unit 40. As illustrated in FIG. 4, the sounding section detection unit 40A of the first embodiment includes a signal processing unit 42, a start point analysis unit 44, and an end point analysis unit 46. In the following description, attention is paid to the processing for an arbitrary one-system acoustic signal XA for the sake of convenience, but actually the same processing is executed for each of the plurality of acoustic signals XA.

信号処理部42は、収音装置14から供給される音響信号XAの信号処理で音響信号XEを生成する。音響信号XEは、音響信号XAの時間軸上の包絡線(エンベロープ)に相当する。具体的には、信号処理部42は、音響信号XAの各信号値を絶対値に変換したうえで高周波成分を抑圧(平滑化処理)することで音響信号XEを生成する。音響信号XEの波形が図5に例示されている。なお、外部装置で生成された音響信号XEが音響処理装置12に供給される構成では、音響処理装置12から信号処理部42が省略され得る。   The signal processing unit 42 generates an acoustic signal XE by signal processing of the acoustic signal XA supplied from the sound collection device 14. The acoustic signal XE corresponds to an envelope (envelope) on the time axis of the acoustic signal XA. Specifically, the signal processing unit 42 generates the acoustic signal XE by converting each signal value of the acoustic signal XA into an absolute value and then suppressing (smoothing) the high frequency component. The waveform of the acoustic signal XE is illustrated in FIG. In the configuration in which the acoustic signal XE generated by the external device is supplied to the acoustic processing device 12, the signal processing unit 42 can be omitted from the acoustic processing device 12.

図4の始点解析部44は、音響信号XEのうち音響の発音が開始される発音始点TSを特定する。終点解析部46は、音響信号XEのうち音響の発音が終了する発音終点TEを特定する。第1実施形態では、始点解析部44による発音始点TSの特定と終点解析部46による発音終点TEの特定とが、音響信号XEの生成に並行して実時間的に音響信号XEの始点から時間の経過とともに順次に実行される。始点解析部44および終点解析部46の各々の動作を以下に説明する。   The start point analysis unit 44 in FIG. 4 specifies a sound generation start point TS at which sound generation is started in the sound signal XE. The end point analysis unit 46 specifies a sound generation end point TE at which sound generation ends in the sound signal XE. In the first embodiment, the specification of the sound generation start point TS by the start point analysis unit 44 and the specification of the sound generation end point TE by the end point analysis unit 46 are timed from the start point of the sound signal XE in real time in parallel with the generation of the sound signal XE. It is executed sequentially with the passage of time. The operations of the start point analysis unit 44 and the end point analysis unit 46 will be described below.

<始点解析部44>
図5に例示される通り、第1実施形態の始点解析部44は、音響信号XEの強度(振幅またはパワー)Qが増加から減少に反転する極大点(ピーク)xHを発音始点TSとして特定する。ただし、第1実施形態の始点解析部44は、音響信号XEから検出される全部の極大点xHを発音始点TSとするのではなく、音響信号XEから検出される複数の極大点xHのうち所定の条件を充足する極大点xHを選択的に発音始点TSとして特定する。
<Start point analysis unit 44>
As illustrated in FIG. 5, the start point analysis unit 44 of the first embodiment specifies the maximum point (peak) xH where the intensity (amplitude or power) Q of the acoustic signal XE reverses from increase to decrease as the sound generation start point TS. . However, the start point analysis unit 44 of the first embodiment does not set all the local maximum points xH detected from the acoustic signal XE as the sound generation start point TS, but is a predetermined one of a plurality of local maximum points xH detected from the acoustic signal XE. The local maximum point xH that satisfies the above condition is selectively specified as the pronunciation start point TS.

具体的には、始点解析部44は、図5に例示された極大点xH1のように、極大点xHでの音響信号XEの強度QHと基準値QREFとの差分(QH−QREF)に応じた変動指標δが所定の閾値(以下「始点閾値」という)ZSを上回る場合(δ>ZS)に当該極大点xHを発音始点TSとして確定する。他方、図5に例示された極大点xH0のように、変動指標δが始点閾値ZSを下回る極大値xHは発音始点TSとされない。   Specifically, the start point analysis unit 44 responds to the difference (QH−QREF) between the intensity QH of the acoustic signal XE at the local maximum point xH and the reference value QREF as the local maximum point xH1 illustrated in FIG. When the variation index δ exceeds a predetermined threshold value (hereinafter referred to as “starting point threshold value”) ZS (δ> ZS), the local maximum point xH is determined as the pronunciation starting point TS. On the other hand, like the local maximum point xH0 illustrated in FIG. 5, the local maximum value xH whose fluctuation index δ is lower than the starting point threshold value ZS is not set as the pronunciation starting point TS.

基準値QREFは、直前の発音始点TS(処理開始の直後は音響信号XEの始点)以降における音響信号XEの強度Qの最小値となるように発音始点TSの解析処理の進行とともに随時に更新される。変動指標δは、例えば、極大点xHでの強度QHと基準値QREFとの差分(QH−QREF)を当該強度QHで除算した数値(δ=(QH−QREF)/QH)である。強度QHでの除算により、変動指標δは、音響信号XEの全体的な音量の大小に依存しない数値に正規化される。始点閾値ZSは、事前に選定された所定の正数である。   The reference value QREF is updated as the analysis process of the sound generation start point TS progresses so that it becomes the minimum value of the intensity Q of the sound signal XE after the immediately preceding sound generation start point TS (immediately after the start of processing is the start point of the sound signal XE). The The variation index δ is, for example, a numerical value (δ = (QH−QREF) / QH) obtained by dividing the difference (QH−QREF) between the intensity QH at the local maximum point xH and the reference value QREF by the intensity QH. By dividing by the intensity QH, the variation index δ is normalized to a numerical value that does not depend on the overall volume of the acoustic signal XE. The starting point threshold value ZS is a predetermined positive number selected in advance.

図6は、始点解析部44が発音始点TSを特定する処理(以下「始点解析処理」という)のフローチャートである。始点解析部44は、音響信号XEの始点から順次に極大点xHを検出し、極大点xHの検出毎に図6の始点解析処理を開始する。   FIG. 6 is a flowchart of processing (hereinafter referred to as “start point analysis processing”) in which the start point analysis unit 44 specifies the pronunciation start point TS. The start point analysis unit 44 sequentially detects the maximum point xH from the start point of the acoustic signal XE, and starts the start point analysis process of FIG. 6 each time the maximum point xH is detected.

音響信号XEの極大点xHの検出を契機として始点解析処理を開始すると、始点解析部44は、当該極大点xHでの強度QHと現時点での基準値QREFとの差分(QH−QREF)に応じた変動指標δが始点閾値ZSを上回るか否かを判定する(SC1)。変動指標δが始点閾値ZSを下回る場合(SC1:NO)、始点解析部44は、今回の極大点xHを発音始点TSとして特定することなく始点解析処理を終了する。他方、変動指標δが始点閾値ZSを上回る場合(SC1:YES)、始点解析部44は、今回の極大点xHを発音始点TSとして特定する(SC2)。そして、始点解析部44は、基準値QREFを今回の極大点xHでの強度QHに更新する(SC3)。発音始点TSが経過すると音響信号XEは減衰するから、発音始点TSの経過後は基準値QREFは経時的に減少していく。以上が始点解析処理の好適例である。   When starting point analysis processing is triggered by the detection of the local maximum point xH of the acoustic signal XE, the starting point analysis unit 44 responds to the difference (QH−QREF) between the intensity QH at the local maximum point xH and the current reference value QREF. It is determined whether or not the variation index δ exceeds the starting point threshold value ZS (SC1). When the variation index δ is less than the start point threshold value ZS (SC1: NO), the start point analysis unit 44 ends the start point analysis process without specifying the current local maximum point xH as the pronunciation start point TS. On the other hand, when the variation index δ exceeds the start point threshold value ZS (SC1: YES), the start point analysis unit 44 specifies the current local maximum point xH as the pronunciation start point TS (SC2). Then, the start point analysis unit 44 updates the reference value QREF to the intensity QH at the current local maximum point xH (SC3). Since the sound signal XE attenuates when the sound generation start point TS elapses, the reference value QREF decreases with time after the sound generation start point TS elapses. The above is a preferred example of the starting point analysis process.

<終点解析部46>
図4の終点解析部46は、前述の通り、音響信号XEのうち音響の発音が終了する発音終点TEを特定する。図7は、終点解析部46が発音終点TEを特定する処理(以下「終点解析処理」という)のフローチャートである。始点解析部44による発音始点TSの特定(SC2)を契機として図7の終点解析処理が開始される。
<End point analysis unit 46>
As described above, the end point analysis unit 46 in FIG. 4 identifies the sound generation end point TE at which sound generation ends in the sound signal XE. FIG. 7 is a flowchart of processing (hereinafter referred to as “end point analysis processing”) in which the end point analysis unit 46 specifies the pronunciation end point TE. The end point analysis process in FIG. 7 is started when the start point analysis unit 44 specifies the pronunciation start point TS (SC2).

発音始点TSの特定を契機として終点解析処理を開始すると、終点解析部46は、当該発音始点TSから所定の時間τが経過したか否かを判定する(SD1)。発音始点TSから所定の時間τが経過していない場合(SD1:NO)、終点解析部46は、現時点の音響信号XEの強度Qが所定の閾値(以下「減衰閾値」という)Z0を下回るか否かを判定する(SD2)。減衰閾値Z0は、直前の発音始点TSでの音響信号XEの強度QHに応じた数値に設定される。具体的には、発音始点TSでの強度QHに1未満の正数(例えば0.4〜0.6の任意の数値)を乗算した数値が減衰閾値Z0として好適である。強度Qが閾値Z0を下回る場合(SD2:YES)、終点解析部46は現時点を発音終点TEとして特定する(SD3)。すなわち、発音始点TSの経過後で音響信号XEの強度Qが減衰閾値Z0を下回るまで減少した時点が発音終点TEとして特定される。   When the end point analysis processing is started in response to the specification of the pronunciation start point TS, the end point analysis unit 46 determines whether or not a predetermined time τ has elapsed from the pronunciation start point TS (SD1). If the predetermined time τ has not elapsed since the sound generation start point TS (SD1: NO), the end point analysis unit 46 determines whether the current intensity Q of the acoustic signal XE falls below a predetermined threshold (hereinafter referred to as “attenuation threshold”) Z0. It is determined whether or not (SD2). The attenuation threshold Z0 is set to a numerical value corresponding to the intensity QH of the acoustic signal XE at the immediately preceding sounding start point TS. Specifically, a numerical value obtained by multiplying the intensity QH at the pronunciation start point TS by a positive number less than 1 (for example, an arbitrary numerical value of 0.4 to 0.6) is suitable as the attenuation threshold Z0. When the intensity Q is lower than the threshold value Z0 (SD2: YES), the end point analysis unit 46 specifies the current time point as the pronunciation end point TE (SD3). In other words, the point in time when the intensity Q of the acoustic signal XE decreases after the sounding start point TS falls below the attenuation threshold Z0 is specified as the sounding end point TE.

ところで、例えば打楽器が素早く連打された場合のように発音源が短い間隔で複数回にわたり発音した場合には、最初の発音による音響が充分に減衰する以前に直後の発音が開始する。したがって、音響信号XEの強度Qが減衰閾値Z0を下回る時点を発音終点TEとして特定するだけでは、発音始点TSから発音終点TEまでの1個の発音区間Pに発音源の複数回にわたる発音が包含される結果となる。しかし、例えば特徴量抽出部50による特徴量Fの抽出や音源識別部60による発音源の種類の識別等の音響信号XAの解析の場面では、発音源の発音の開始直後の特性の解析が重要である。以上の事情を考慮して、第1実施形態の終点解析部46は、発音源が短い間隔で複数回にわたり発音した場合でも、発音始点TSに対応する最初の発音のみを発音区間Pが包含するように(すなわち第2回目以降の発音が発音区間Pに包含されないように)、発音終点TEを特定する。   By the way, when the sound source is sounded a plurality of times at short intervals, for example, when a percussion instrument is quickly repeatedly struck, the immediately following sounding starts before the sound of the first sounding is sufficiently attenuated. Therefore, only by specifying the time point when the intensity Q of the acoustic signal XE falls below the attenuation threshold value Z0 as the sounding end point TE, the sound source of the sound source is included in one sounding period P from the sounding start point TS to the sounding end point TE. Result. However, in the scene of analysis of the acoustic signal XA such as the extraction of the feature amount F by the feature amount extraction unit 50 and the identification of the type of the sound source by the sound source identification unit 60, it is important to analyze the characteristics immediately after the start of the sound source. It is. Considering the above circumstances, the end point analysis unit 46 of the first embodiment includes only the first pronunciation corresponding to the pronunciation start point TS even if the pronunciation source is pronounced multiple times at short intervals. As described above (that is, so that the second and subsequent pronunciations are not included in the pronunciation period P), the pronunciation end point TE is specified.

具体的には、音響信号XEの強度Qが減衰閾値Z0を上回る場合(SD2:NO)、終点解析部46は、発音始点TS以降に音響信号XEの強度Qが減少から増加に反転する極小点(ディップ)xLが検出されたか否かを判定する(SD4)。極小点xLが検出されない場合(SD4:NO)、終点解析部46は処理をステップSD1に移行して、発音始点TSから時間τが経過するか(SD1:YES)、音響信号XEの強度Qが減衰閾値Z0を下回るまで(SD2:YES)、極小点xLの発生を監視する。   Specifically, when the intensity Q of the acoustic signal XE exceeds the attenuation threshold Z0 (SD2: NO), the end point analysis unit 46 determines the minimum point at which the intensity Q of the acoustic signal XE reverses from decreasing to increasing after the sounding start point TS. (Dip) It is determined whether xL is detected (SD4). When the minimum point xL is not detected (SD4: NO), the end point analysis unit 46 proceeds to step SD1 to determine whether the time τ has elapsed from the pronunciation start point TS (SD1: YES) or the intensity Q of the acoustic signal XE is Until the attenuation threshold value Z0 falls below (SD2: YES), the occurrence of the minimum point xL is monitored.

他方、音響信号XEの強度Qが減衰閾値Z0を下回る以前に極小点(以下では特に「対象極小点」という)xLが検出されると(SD4:YES)、終点解析部46は、対象極小点xLの直後の極大点xHが検出されたか否かを判定する(SD5)。極大点xHが検出されない場合(SD5:NO)、終点解析部46は処理をステップSD1に移行する。なお、対象極小点xLが検出された場合(SD4:YES)に、当該対象極小点xLでの強度Qが現時点の基準値QREFを下回るときには(Q<QREF)、基準値QREFが当該対象極小点xLでの強度Qに更新される。すなわち、基準値QREFは、前述の通り、発音始点TS以降における強度Qの最小値(例えば対象極小点xLでの強度Q)となるように更新される。   On the other hand, if the local minimum point (hereinafter referred to as “target local minimum point”) xL is detected before the intensity Q of the acoustic signal XE falls below the attenuation threshold value Z0 (SD4: YES), the end point analysis unit 46 It is determined whether or not the maximum point xH immediately after xL has been detected (SD5). When the local maximum point xH is not detected (SD5: NO), the end point analysis unit 46 shifts the processing to step SD1. If the target minimum point xL is detected (SD4: YES) and the intensity Q at the target minimum point xL is lower than the current reference value QREF (Q <QREF), the reference value QREF is the target minimum point. Updated to strength Q at xL. That is, as described above, the reference value QREF is updated so as to be the minimum value of the intensity Q after the sounding start point TS (for example, the intensity Q at the target minimum point xL).

図5には、対象極小点xLの直後の極大点xH2が例示されている。極大点xH2が検出されると(SD5:YES)、終点解析部46は、当該極大点xH2での強度QHと現時点での基準値QREFとの差分(QH−QREF)に応じた変動指標δが終点閾値ZEを上回るか否かを判定する(SD6)。変動指標δは、前述の通り、強度QHと基準値QREFとの差分(QH−QREF)を当該強度QHで除算した数値である。なお、現時点の基準値QREFは、対象極小点xLでの強度Qである可能性が高い。また、終点閾値ZEは、発音始点TSの特定に利用される前述の始点閾値ZSを下回る所定の正数に設定される(ZE<ZS)。   FIG. 5 illustrates a local maximum point xH2 immediately after the target local minimum point xL. When the local maximum point xH2 is detected (SD5: YES), the end point analysis unit 46 calculates the variation index δ according to the difference (QH−QREF) between the intensity QH at the local maximum point xH2 and the current reference value QREF. It is determined whether or not the end point threshold value ZE is exceeded (SD6). As described above, the variation index δ is a numerical value obtained by dividing the difference (QH−QREF) between the strength QH and the reference value QREF by the strength QH. It is highly possible that the current reference value QREF is the intensity Q at the target minimum point xL. The end point threshold value ZE is set to a predetermined positive number lower than the above-described start point threshold value ZS used for specifying the sound generation start point TS (ZE <ZS).

変動指標δが終点閾値ZEを下回る場合(SD6:NO)には、対象極小点xLの直後に極大点xHが観測されたものの発音始点TSの直後の発音源の発音による強度Qの増加(第2回目以降の発音)とまでは推定できない。したがって、発音終点TEをまだ確定せずに引続き音響信号XEの強度Qを監視する必要がある。そこで、終点解析部46は、処理をステップSD1に移行して、発音始点TSから時間τが経過するか(SD1:YES)、音響信号XEの強度Qが減衰閾値Z0を下回るまで(SD2:YES)、極小点xLの発生を監視する。   When the variation index δ is lower than the end point threshold value ZE (SD6: NO), the maximum point xH is observed immediately after the target minimum point xL, but the intensity Q increases due to the pronunciation of the pronunciation source immediately after the pronunciation start point TS (No. 1). Cannot be estimated until the second and subsequent pronunciations. Therefore, it is necessary to continuously monitor the intensity Q of the acoustic signal XE without determining the pronunciation end point TE yet. Therefore, the end point analysis unit 46 shifts the process to step SD1 until the time τ elapses from the sound generation start point TS (SD1: YES) or until the intensity Q of the acoustic signal XE falls below the attenuation threshold Z0 (SD2: YES). ), Monitoring the occurrence of the minimum point xL.

他方、変動指標δが終点閾値ZEを上回るほど極大点xHの強度Qが増加した場合(SD6:YES)には、対象極小点xLの直後の極大点xHは、発音始点TSの直後の発音源の発音(すなわち最初の発音の直後の第2回目以降の発音)による強度Qの増加と推定される。したがって、発音始点TSから対象極小点xLまでを発音区間Pとして確定し、第2回目以降の発音に対応する直後の極大点xHは発音区間Pから除外する必要がある。そこで、終点解析部46は、対象極小点xLを発音終点TEとして特定する(SD7)。すなわち、対象極小点xLの直後の極大点xHについて変動指標δが終点閾値ZEを上回る場合に、当該対象極小点xLが事後的に発音終点TEとして確定される。   On the other hand, when the intensity Q of the maximum point xH increases as the variation index δ exceeds the end point threshold value ZE (SD6: YES), the maximum point xH immediately after the target minimum point xL is the sound source immediately after the sound generation start point TS. It is presumed that the intensity Q is increased due to the pronunciation (ie, the second and subsequent pronunciations immediately after the first pronunciation). Therefore, it is necessary to determine from the sounding start point TS to the target local minimum point xL as the sounding section P, and to exclude the local maximum point xH corresponding to the second and subsequent sounding from the sounding section P. Therefore, the end point analysis unit 46 specifies the target minimum point xL as the pronunciation end point TE (SD7). That is, when the variation index δ exceeds the end point threshold value ZE at the local maximum point xH immediately after the target local minimum point xL, the target local minimum point xL is subsequently determined as the pronunciation end point TE.

以上の説明から理解される通り、第1実施形態の終点解析部46は、発音始点TSの経過後に音響信号XEの強度Qが経時的に減少する過程で検出される対象極小点xLを、変動指標δが終点閾値ZEを上回る場合(SD6:YES)に発音終点TEとして特定し(SD7)、変動指標δが終点閾値ZEを下回る場合(SD6:NO)には発音終点TEとしない。なお、対象極小点xLの直後に検出された図5の極大点xH2については、図6を参照して説明した通り、変動指標δが始点閾値ZSを上回ることを条件として発音始点TSとして特定される。変動指標δが始点閾値ZSを上回る場合には終点閾値ZEも当然に上回るから、当該極大点xHの直前の対象極小点xLは発音終点TEとして確定される。   As understood from the above description, the end point analysis unit 46 of the first embodiment varies the target minimum point xL detected in the process in which the intensity Q of the acoustic signal XE decreases with time after the sound generation start point TS elapses. When the index δ exceeds the end point threshold value ZE (SD6: YES), the sound generation end point TE is specified (SD7), and when the variation index δ is less than the end point threshold value ZE (SD6: NO), the sound generation end point TE is not set. Note that the local maximum point xH2 of FIG. 5 detected immediately after the target local minimum point xL is specified as the pronunciation start point TS on the condition that the variation index δ exceeds the start point threshold value ZS, as described with reference to FIG. The When the variation index δ exceeds the start point threshold value Z S, the end point threshold value ZE naturally also exceeds, so the target minimum point x L immediately before the maximum point x H is determined as the pronunciation end point TE.

他方、音響信号XEの強度Qが減衰閾値Z0を下回る(SD2:YES)ことも、発音始点TSの経過後の極小点xLが発音終点TEとして特定される(SD7)こともなく、直前の発音始点TSから時間τが経過すると(SD1:YES)、終点解析部46は、発音始点TSから時間τが経過した時点を発音終点TEとして特定する(SD8)。以上の説明から理解される通り、終点解析部46は、基本的には音響信号XEの強度Qが減衰閾値Z0を下回る時点を発音終点TEとして特定する一方(SD3)、発音始点TSの直後の発音源の発音が推定される場合(SD6:YES)には、発音区間Pから当該発音が除外されるように極小点xLを発音終点TEとして確定し(SD7)、何れの条件も成立しない場合には発音始点TSから時間τが経過した時点を発音終点TEとして特定する(SD8)。   On the other hand, the intensity Q of the acoustic signal XE falls below the attenuation threshold Z0 (SD2: YES), or the minimum point xL after the elapse of the sounding start point TS is not specified as the sounding end point TE (SD7). When the time τ elapses from the start point TS (SD1: YES), the end point analysis unit 46 specifies the time point when the time τ elapses from the sound generation start point TS as the sound generation end point TE (SD8). As understood from the above description, the end point analysis unit 46 basically specifies the time point when the intensity Q of the acoustic signal XE falls below the attenuation threshold value Z0 as the sounding end point TE (SD3), but immediately after the sounding start point TS. When the pronunciation of the pronunciation source is estimated (SD6: YES), the minimum point xL is determined as the pronunciation end point TE so that the pronunciation is excluded from the pronunciation period P (SD7), and none of the conditions is satisfied Is specified as a sound generation end point TE (SD8).

以上に説明した通り、第1実施形態では、発音始点TSの経過後に音響信号XEの強度Qが経時的に減少する過程で強度Qが増加に反転する極小点xLを、変動指標δが終点閾値ZEを上回る場合に発音終点TEとして特定する。すなわち、発音源が短い間隔で複数回にわたり発音した場合(最初の発音による音響が充分に減衰する以前に直後の発音が開始する場合)には、発音始点TSに対応する最初の発音のみを発音区間Pが包含するように発音終点TEが特定される。したがって、音響信号XAの解析に重要な発音直後の区間を発音区間Pとして高精度に特定することが可能である。音源識別部60による発音源の識別には、発音源の種類毎の相違が顕著となる発音直後の特性が特に重要である。したがって、発音直後の区間を発音区間Pとして高精度に特定できる第1実施形態は格別に好適である。   As described above, in the first embodiment, the minimal point xL where the intensity Q reverses to increase in the process in which the intensity Q of the acoustic signal XE decreases with time after the sound generation start point TS elapses, and the variation index δ is the end point threshold value. If it exceeds ZE, it is specified as the pronunciation end point TE. In other words, when the sound source is sounded multiple times at short intervals (when the sound immediately after the sound of the first sound begins to decay before the sound is sufficiently attenuated), only the first sound corresponding to the sound start point TS is sounded. The pronunciation end point TE is specified so as to be included in the section P. Therefore, it is possible to specify the interval immediately after the sound generation important for the analysis of the acoustic signal XA as the sound generation interval P with high accuracy. For the sound source identification by the sound source identification unit 60, the characteristic immediately after the sound generation in which the difference for each type of sound source becomes significant is particularly important. Therefore, the first embodiment that can specify the section immediately after the sound generation as the sound generation section P with high accuracy is particularly suitable.

また、第1実施形態では、変動指標δが終点閾値ZEを上回る極小点xLの到来前に、発音始点TSでの強度QHに応じた減衰閾値Z0を下回るまで音響信号XEの強度Qが発音始点TSと比較して減少した場合(SD2:YES)に、当該強度Qが減衰閾値Z0を下回る時点が発音終点TEとして特定される。したがって、発音始点TSの経過後に発音源が発音することなく音響信号XEが減衰する場合に、発音始点TSからの減衰の度合に応じた適切な発音終点TEを設定できるという利点がある。   Further, in the first embodiment, before the arrival of the minimum point xL where the variation index δ exceeds the end point threshold value ZE, the intensity Q of the acoustic signal XE is reduced to the sounding start point until it falls below the attenuation threshold value Z0 corresponding to the intensity QH at the sounding start point TS. When it decreases compared to TS (SD2: YES), the time point when the intensity Q falls below the attenuation threshold value Z0 is specified as the sound generation end point TE. Therefore, when the sound signal XE attenuates without sound generation after the sound generation start point TS has elapsed, there is an advantage that an appropriate sound generation end point TE can be set according to the degree of attenuation from the sound generation start point TS.

第1実施形態では、音響信号XEの強度Qの極大点xHを順次に検出する一方、極大点xHでの強度QHと当該極大点xHまでの強度Qの最小値である基準値QREFとの差分(QH−QREF)に応じた変動指標δが始点閾値ZSを上回る場合に、当該極大点xHが発音始点TSとして特定される。したがって、音響信号XEから検出される複数の極大点xHのうち発音源の明瞭な発音の開始を発音始点TSとして高精度に特定できるという利点がある。   In the first embodiment, the maximum point xH of the intensity Q of the acoustic signal XE is sequentially detected, while the difference between the intensity QH at the maximum point xH and the reference value QREF that is the minimum value of the intensity Q up to the maximum point xH. When the variation index δ according to (QH−QREF) exceeds the start point threshold value ZS, the local maximum point xH is specified as the sound generation start point TS. Therefore, there is an advantage that the start of clear sound generation of the sound source among the plurality of maximum points xH detected from the acoustic signal XE can be specified with high accuracy as the sound start point TS.

また、極大点xHでの強度QHと当該極大点xHまでの強度Qの最小値である基準値QREFとの差分(QH−QREF)を極大点xHでの強度QHにより除算することで変動指標δが算定される。すなわち、差分(QH−QREF)が音響信号XEの音量の大小に依存しない数値に正規化される。したがって、音響信号XEの音量に関わらず発音始点TSおよび発音終点TEを適切に特定することが可能である。   Further, the variation index δ is obtained by dividing the difference (QH−QREF) between the intensity QH at the maximum point xH and the reference value QREF that is the minimum value of the intensity Q up to the maximum point xH by the intensity QH at the maximum point xH. Is calculated. That is, the difference (QH−QREF) is normalized to a numerical value that does not depend on the volume of the acoustic signal XE. Therefore, it is possible to appropriately specify the sound generation start point TS and the sound generation end point TE regardless of the volume of the acoustic signal XE.

<音源識別部60>
図8は、第1実施形態の音源識別部60の構成図である。図8に例示される通り、第1実施形態の音源識別部60は、調波性解析部62と第1解析部64と第2解析部66と音源特定部68とを具備する。
<Sound source identification unit 60>
FIG. 8 is a configuration diagram of the sound source identification unit 60 of the first embodiment. As illustrated in FIG. 8, the sound source identification unit 60 of the first embodiment includes a harmonic analysis unit 62, a first analysis unit 64, a second analysis unit 66, and a sound source identification unit 68.

調波性解析部62は、音響信号XAが表す音響(以下「対象音」という)が調波音および非調波音の何れに該当するかを音響信号XAの特徴量Fから解析する。第1実施形態の調波性解析部62は、対象音が調波音に該当する確度WH(第1確度)と対象音が非調波音に該当する確度WP(第2確度)とを算定する。   The harmonic analysis unit 62 analyzes whether the sound represented by the sound signal XA (hereinafter referred to as “target sound”) corresponds to a harmonic sound or a non-harmonic sound from the feature value F of the sound signal XA. The harmonic analysis unit 62 of the first embodiment calculates the accuracy WH (first accuracy) that the target sound corresponds to the harmonic sound and the accuracy WP (second accuracy) that the target sound corresponds to the non-harmonic sound.

具体的には、特徴量Fの解析で調波音と非調波音とを判別する公知のパターン認識器が調波性解析部62として任意に利用される。第1実施形態では、教師あり学習を利用した統計モデルの代表例であるサポートベクターマシーン(SVM:Support Vector Machine)を調波性解析部62として例示する。すなわち、調波性解析部62は、調波音と非調波音とを含む多数の音響の学習データを適用した機械学習で事前に決定された超平面を利用して、特徴量Fの対象音が調波音および非調波音の何れに該当するかを特徴量F毎(発音区間P毎)に順次に判別する。そして、調波性解析部62は、例えば所定の期間内に対象音が調波音であると判別した回数の比率(調波音と判別した回数/当該期間内の判別の総回数)を調波音の確度WHとして算定する一方、対象音が非調波音であると判別した回数の比率を非調波音の確度WPとして算定する(WH+WP=1)。以上の説明から理解される通り、音響信号XAの対象音が調波音である可能性(尤度)が高いほど確度WHは大きい数値となり、対象音が非調波音である可能性が高いほど確度WPは大きい数値となる。   Specifically, a known pattern recognizer that discriminates between harmonic and non-harmonic sounds by analyzing the feature value F is arbitrarily used as the harmonic analysis unit 62. In the first embodiment, a support vector machine (SVM) which is a representative example of a statistical model using supervised learning is exemplified as the harmonic analysis unit 62. That is, the harmonic analysis unit 62 uses the hyperplane determined in advance by machine learning to which a large number of acoustic learning data including harmonic and non-harmonic sounds is used to generate the target sound of the feature amount F. It is sequentially determined for each feature amount F (for each sounding section P) whether the harmonic sound or the non-harmonic sound is applicable. Then, the harmonic analysis unit 62 determines, for example, the ratio of the number of times that the target sound is determined to be harmonic sound within a predetermined period (the number of times determined as harmonic sound / the total number of determinations within the period) of the harmonic sound. While calculating as the accuracy WH, the ratio of the number of times that the target sound is determined to be a non-harmonic sound is calculated as the accuracy WP of the non-harmonic sound (WH + WP = 1). As understood from the above description, the higher the possibility (likelihood) that the target sound of the acoustic signal XA is a harmonic sound, the higher the probability WH, and the higher the possibility that the target sound is a non-harmonic sound. WP is a large number.

第1解析部64は、音響信号XAの対象音の発音源が複数種の調波音源の何れに該当するかを音響信号XAの特徴量Fから解析する。調波音源は、調波音を発音する発音源(例えば調波楽器)を意味する。図8では、ベース(Bass),ギター(Guitar),男性歌唱者(male Vo.),女性歌唱者(female Vo.)の4種類が、対象音の発音源の候補となる調波音源として例示されている。具体的には、第1実施形態の第1解析部64は、N種類(Nは2以上の自然数)の調波音源の各々について、対象音の発音源が当該調波音源に該当する確度に応じた評価値EH(n)(EH(1)〜EH(N))を設定する。   The first analysis unit 64 analyzes from the feature quantity F of the acoustic signal XA whether the sound source of the target sound of the acoustic signal XA corresponds to a plurality of types of harmonic sound sources. The harmonic sound source means a sound source (for example, a harmonic instrument) that generates harmonic sounds. In FIG. 8, four types of bass (Bass), guitar (Guitar), male singer (male Vo.), And female singer (female Vo.) Are illustrated as harmonic sound sources that are candidates for the sound source of the target sound. Has been. Specifically, the first analysis unit 64 of the first embodiment sets the accuracy of the sound source of the target sound corresponding to the harmonic sound source for each of N types (N is a natural number of 2 or more) of harmonic sound sources. The corresponding evaluation value EH (n) (EH (1) to EH (N)) is set.

図9は、第1解析部64が評価値EH(1)〜EH(N)を設定する処理(以下「調波解析処理」という)のフローチャートである。特徴量抽出部50による特徴量Fの抽出毎(したがって発音区間P毎)に図9の調波解析処理が実行される。   FIG. 9 is a flowchart of processing (hereinafter referred to as “harmonic analysis processing”) in which the first analysis unit 64 sets the evaluation values EH (1) to EH (N). The harmonic analysis process shown in FIG. 9 is executed every time the feature amount F is extracted by the feature amount extraction unit 50 (therefore, every sounding section P).

調波解析処理を開始すると、第1解析部64は、事前に選定されたN種類の調波音源から任意の2種類の調波音源を選択する全通り(N2通り)の組合せの各々について、対象音の発音源が当該組合せの2種類の調波音源の何れに該当するかを、特徴量Fを利用して判別する(SA1)。以上の判別には、2種類の調波音源を判別候補とするサポートベクターマシーンが好適に利用される。すなわち、調波音源の組合せに相当するN2通りのサポートベクターマシーンに特徴量Fを適用することで、当該組合せ毎に対象音の発音源が2種類の調波音源から選択される。 When the harmonic analysis process is started, the first analysis unit 64 selects each of the two combinations ( N C 2 types) of selecting any two types of harmonic sound sources from the N types of harmonic sound sources selected in advance. For which the sound source of the target sound corresponds to which of the two types of harmonic sound sources of the combination, using the feature value F (SA1). For the above discrimination, a support vector machine using two types of harmonic sound sources as discrimination candidates is preferably used. That is, by applying the feature value F to N C 2 support vector machines corresponding to combinations of harmonic sound sources, the sound source of the target sound is selected from two types of harmonic sound sources for each combination.

第1解析部64は、N種類の調波音源の各々について、対象音の発音源が当該調波音源に該当する確度CH(n)(CH(1)〜CH(N))を算定する(SA2)。任意の1個(第n番目)の調波音源の確度CH(n)は、例えば、合計N2回にわたる判別のうち対象音の発音源が第n番目の調波音源に該当すると判別された回数の比率(調波音源に該当すると判別された回数/N2)である。以上の説明から理解される通り、音響信号XAの対象音の発音源がN種類のうち第n番目の調波音源に該当する可能性(尤度)が高いほど確度CH(n)は大きい数値となる。 For each of the N types of harmonic sound sources, the first analysis unit 64 calculates the accuracy CH (n) (CH (1) to CH (N)) that the sound source of the target sound corresponds to the harmonic sound source ( SA2). The accuracy CH (n) of an arbitrary one (nth) harmonic sound source is determined, for example, as the sound source of the target sound corresponds to the nth harmonic sound source out of a total of N C two determinations. The ratio of the number of times (number of times determined to correspond to a harmonic sound source / NC 2 ). As understood from the above description, the probability CH (n) is larger as the probability (likelihood) that the sound source of the target sound of the acoustic signal XA corresponds to the nth harmonic sound source out of N types is higher. It becomes.

第1解析部64は、調波音源毎に算定された確度CH(n)の順位に対応した数値(得点)を評価値EH(n)としてN種類の調波音源の各々について設定する(SA3)。具体的には、確度CH(n)が大きいほど評価値EH(n)が大きい数値となるように確度CH(n)の順位に応じた数値が各調波音源の評価値EH(n)に付与される。例えば、確度CH(n)の降順で最上位に位置する調波音源の評価値EH(n)は数値ε1(例えばε1=100)に設定され、確度CH(n)が第2位に位置する調波音源の評価値EH(n)は数値ε1を下回る数値ε2(例えばε2=80)に設定され、確度CH(n)が第3位に位置する調波音源の評価値EH(n)は数値ε2を下回る数値ε3(例えばε3=60)に設定され、所定の順位を下回る残余の調波音源の評価値EH(n)は最小値(例えば0)に設定される、という具合である。以上の説明から理解される通り、音響信号XAの対象音の発音源がN種類のうち第n番目の調波音源に該当する可能性が高いほど評価値EH(n)は大きい数値となる。以上が調波解析処理の好適例である。   The first analysis unit 64 sets a numerical value (score) corresponding to the rank of the accuracy CH (n) calculated for each harmonic sound source as an evaluation value EH (n) for each of the N types of harmonic sound sources (SA3). ). Specifically, the numerical value according to the order of the accuracy CH (n) is set as the evaluation value EH (n) of each harmonic sound source so that the evaluation value EH (n) becomes a larger value as the accuracy CH (n) increases. Is granted. For example, the evaluation value EH (n) of the harmonic sound source located at the top in the descending order of the accuracy CH (n) is set to a numerical value ε1 (for example, ε1 = 100), and the accuracy CH (n) is located in the second place. The harmonic sound source evaluation value EH (n) is set to a numerical value ε2 (for example, ε2 = 80) lower than the numerical value ε1, and the evaluation value EH (n) of the harmonic sound source with the accuracy CH (n) in the third place is The numerical value ε3 (for example, ε3 = 60) lower than the numerical value ε2 is set, and the evaluation value EH (n) of the remaining harmonic sound source lower than the predetermined rank is set to the minimum value (for example, 0). As understood from the above description, the evaluation value EH (n) becomes larger as the sound source of the target sound of the acoustic signal XA is more likely to correspond to the nth harmonic sound source among the N types. The above is a preferred example of harmonic analysis processing.

図8の第2解析部66は、音響信号XAの対象音の発音源が複数種の非調波音源の何れに該当するかを音響信号XAの特徴量Fから解析する。非調波音源は、非調波音を発音する発音源(例えば打楽器等の非調波楽器)を意味する。図8では、バスドラム(Kick),スネアドラム(Snare),ハイハット(Hi-Hat),フロアタム(F-Tom),シンバル(Cymbal)の5種類が、対象音の発音源の候補となる非調波音源として例示されている。具体的には、第1実施形態の第2解析部66は、M種類(Mは2以上の自然数)の非調波音源の各々について、対象音の発音源が当該非調波音源に該当する確度に応じた評価値EP(m)(EP(1)〜EP(M))を設定する。なお、調波音源の種類数Nと非調波音源の種類数Mとの異同は不問である。   The second analysis unit 66 in FIG. 8 analyzes from the feature quantity F of the acoustic signal XA which of the plural types of non-harmonic sound sources the sound source of the target sound of the acoustic signal XA corresponds to. A non-harmonic sound source means a sound source that produces non-harmonic sounds (for example, a non-harmonic instrument such as a percussion instrument). In FIG. 8, bass drum (Kick), snare drum (Snare), hi-hat (Hi-Hat), floor tom (F-Tom), and cymbal (Cymbal) are non-tones that are candidates for the sound source of the target sound. Illustrated as a wave source. Specifically, in the second analysis unit 66 of the first embodiment, for each of M types (M is a natural number of 2 or more) of non-harmonic sound sources, the sound source of the target sound corresponds to the non-harmonic sound source. An evaluation value EP (m) (EP (1) to EP (M)) corresponding to the accuracy is set. The difference between the number N of harmonic sound sources and the number M of non-harmonic sound sources is not questioned.

第2解析部66によるM個の評価値EP(1)〜EP(M)の設定(非調波解析処理)は、図9に例示した調波解析処理(第1解析部64による評価値EH(n)の設定)と同様である。具体的には、第2解析部66は、M種類の非調波音源から2種類を選択する全通り(M2通り)の組合せの各々について、対象音の発音源が当該組合せの2種類の非調波音源の何れに該当するかを判別し、対象音の発音源が第m番目の非調波音源に該当する確度CP(m)を非調波音源毎に算定する。非調波音源の判別には、調波解析処理での調波音源の判別と同様にサポートベクターマシーンが好適に利用される。 The setting (non-harmonic analysis process) of the M evaluation values EP (1) to EP (M) by the second analysis unit 66 is the harmonic analysis process (evaluation value EH by the first analysis unit 64) illustrated in FIG. (Setting (n)). Specifically, the second calculating unit 66, for each of all combinations (M C 2 combinations) selecting two kinds from M kinds of non-harmonic sound source, two types of sound sources the combination of the target sound The accuracy CP (m) corresponding to the sound source of the target sound corresponding to the mth non-harmonic sound source is calculated for each non-harmonic sound source. For the discrimination of the non-harmonic sound source, a support vector machine is preferably used as in the case of the harmonic sound source discrimination in the harmonic analysis process.

そして、第2解析部66は、M種類の非調波音源の各々について、確度CP(m)の順位に対応した数値を評価値EP(m)として設定する。確度CP(m)の任意の順位に位置する非調波音源の評価値EP(m)には、確度CH(n)の順番で同順位に位置する調波音源の評価値EH(n)と同等の数値が付与される。具体的には、確度CP(m)の降順で最上位に位置する非調波音源の評価値EP(m)は数値ε1に設定され、確度CP(m)が第2位に位置する非調波音源の評価値EP(m)は数値ε2に設定され、確度CP(m)が第3位に位置する非調波音源の評価値EP(m)は数値ε3に設定され、所定の順位を下回る残余の調波音源の評価値EP(m)は最小値(例えば0)に設定される。したがって、音響信号XAの対象音の発音源がM種類のうち第m番目の非調波音源に該当する可能性(尤度)が高いほど評価値EP(m)は大きい数値となる。   Then, the second analysis unit 66 sets a numerical value corresponding to the rank of the accuracy CP (m) as the evaluation value EP (m) for each of the M types of non-harmonic sound sources. The evaluation value EP (m) of the non-harmonic sound source located at an arbitrary rank of the accuracy CP (m) includes the evaluation value EH (n) of the harmonic sound source located at the same rank in the order of the accuracy CH (n). Equivalent numbers are given. Specifically, the evaluation value EP (m) of the non-harmonic sound source positioned at the top in the descending order of the accuracy CP (m) is set to the numerical value ε1, and the non-harmonic signal having the accuracy CP (m) positioned at the second position. The evaluation value EP (m) of the wave source is set to the numerical value ε2, and the evaluation value EP (m) of the non-harmonic sound source with the accuracy CP (m) located at the third place is set to the numerical value ε3. The evaluation value EP (m) of the remaining harmonic sound source below is set to a minimum value (for example, 0). Therefore, the higher the possibility (likelihood) that the sound source of the target sound of the acoustic signal XA corresponds to the mth non-harmonic sound source among the M types, the larger the evaluation value EP (m) becomes.

特徴量抽出部50が音響信号XAから抽出する任意の1個の特徴量Fは、前述の通り、相異なる特性値f1(第1特性値)および特性値f2(第2特性値)を含む複数の特性値fで構成される。第1実施形態の第1解析部64は、特徴量Fの特性値f1を利用して、対象音の発音源がN種類の調波音源の各々に該当する確度CH(n)を解析する。他方、第2解析部66は、特徴量Fの特性値f2を利用して、対象音の発音源がM種類の非調波音源の各々に該当する確度CP(m)を解析する。すなわち、第1解析部64が調波音源の確度CH(n)の算定に利用する特徴量F(特性値f1)と第2解析部66が非調波音源の確度CP(m)の算定に適用する特徴量F(特性値f2)とは相違する。   As described above, any one feature quantity F extracted from the acoustic signal XA by the feature quantity extraction unit 50 includes a plurality of characteristic values f1 (first characteristic values) and characteristic values f2 (second characteristic values). Of characteristic value f. The first analysis unit 64 of the first embodiment uses the characteristic value f1 of the feature amount F to analyze the accuracy CH (n) corresponding to each of the N types of harmonic sound sources as the sound source of the target sound. On the other hand, the second analysis unit 66 uses the characteristic value f2 of the feature amount F to analyze the accuracy CP (m) in which the sound source of the target sound corresponds to each of the M types of non-harmonic sound sources. That is, the first analysis unit 64 calculates the characteristic amount F (characteristic value f1) used for calculating the harmonic source accuracy CH (n), and the second analysis unit 66 calculates the non-harmonic source accuracy CP (m). This is different from the applied feature amount F (characteristic value f2).

具体的には、第1解析部64による確度CH(n)の算定には、調波音源の種類毎に相違が顕著となる特性値f1が利用される。例えば、音色を表すMFCCや、基音成分に対する倍音成分の強度比等の特性値f1が、調波音の確度CH(n)の算定に好適に利用される。他方、第2解析部66による確度CP(m)の算定には、非調波音源の種類毎に相違が顕著となる特性値f2が利用される。例えば、音響の立上がりの急峻度や零交差数等の特性値f2が、非調波音の確度CP(m)の算定に好適に利用される。なお、第1解析部64が利用する特性値f1と第2解析部66が利用する特性値f2とを部分的に共通させることも可能である。   Specifically, for the calculation of the accuracy CH (n) by the first analysis unit 64, a characteristic value f1 in which the difference is remarkable for each type of harmonic sound source is used. For example, the characteristic value f1 such as the MFCC representing the tone color or the intensity ratio of the harmonic component to the fundamental component is preferably used for calculating the accuracy CH (n) of the harmonic sound. On the other hand, for the calculation of the accuracy CP (m) by the second analysis unit 66, a characteristic value f2 in which the difference is remarkable for each type of non-harmonic sound source is used. For example, the characteristic value f2 such as the steepness of the acoustic rise and the number of zero crossings is preferably used for calculating the accuracy CP (m) of the subharmonic sound. The characteristic value f1 used by the first analysis unit 64 and the characteristic value f2 used by the second analysis unit 66 can be partially shared.

図8の音源特定部68は、調波性解析部62と第1解析部64と第2解析部66とによる以上の解析の結果に応じて音響信号XAの発音源の種類を特定する。発音源の種類の特定は発音区間P毎に実行される。図8に例示される通り、第1実施形態の音源特定部68は、乗算部682と乗算部684と選択処理部686とを包含する。   The sound source specifying unit 68 in FIG. 8 specifies the type of sound source of the acoustic signal XA according to the results of the above analysis by the harmonic analysis unit 62, the first analysis unit 64, and the second analysis unit 66. The type of the sound source is specified for each sound generation section P. As illustrated in FIG. 8, the sound source identification unit 68 of the first embodiment includes a multiplication unit 682, a multiplication unit 684, and a selection processing unit 686.

乗算部682は、第1解析部64がN種類の調波音源について設定したN個の評価値EH(1)〜EH(N)の各々に、調波性解析部62が解析した調波音の確度WHを乗算することでN個の識別指標R(R=EH(n)×WH)を算定する。他方、乗算部684は、第2解析部66がM種類の非調波音源について設定したM個の評価値EP(1)〜EP(M)の各々に、調波性解析部62が解析した非調波音の確度WPを乗算することでM個の識別指標R(R=EP(m)×WP)を算定する。乗算部682および乗算部684の処理により、N種類の調波音源とM種類の非調波音源とを含むK種類(K=N+M)の候補音源の各々について識別指標Rが算定される。以上の説明から理解される通り、確度WHは、調波音の各評価値EH(n)に対する加重値に相当し、確度WPは、非調波音の各評価値EP(m)に対する加重値に相当する。対象音が調波音に該当する確度WHが大きいほど調波音源の識別指標Rが相対的に優勢となり、対象音が非調波音に該当する確度WPが大きいほど非調波音源の識別指標Rが相対的に優勢となる。   The multiplying unit 682 adds the harmonic sound analyzed by the harmonicity analyzing unit 62 to each of the N evaluation values EH (1) to EH (N) set by the first analyzing unit 64 for the N types of harmonic sound sources. N identification indices R (R = EH (n) × WH) are calculated by multiplying the accuracy WH. On the other hand, in the multiplication unit 684, the harmonic analysis unit 62 analyzes each of the M evaluation values EP (1) to EP (M) set by the second analysis unit 66 for the M types of non-harmonic sound sources. By multiplying the non-harmonic sound accuracy WP, M identification indices R (R = Ep (m) × WP) are calculated. The identification index R is calculated for each of K types (K = N + M) candidate sound sources including N types of harmonic sound sources and M types of non-harmonic sound sources by the processing of the multiplication unit 682 and the multiplication unit 684. As understood from the above description, the accuracy WH corresponds to a weight value for each evaluation value EH (n) of the harmonic sound, and the accuracy WP corresponds to a weight value for each evaluation value EP (m) of the non-harmonic sound. To do. The higher the accuracy WH that the target sound corresponds to the harmonic sound, the greater the identification index R of the harmonic sound source, and the higher the accuracy WP that the target sound corresponds to the non-harmonic sound, the higher the identification index R of the non-harmonic sound source. Relatively dominant.

選択処理部686は、乗算部682および乗算部684が算定したK個の識別指標Rに応じて音響信号XAの対象音の発音源の種類を特定し、当該発音源の種類を示す音源識別情報D(例えば楽器名)を生成する。具体的には、選択処理部686は、K種類の候補音源のうち識別指標Rが最大となる1種類の候補音源を対象音の発音源として選択し、当該候補音源を指定する音源識別情報Dを生成する。すなわち、音響信号XAの対象音の発音源の種類が識別される。以上に例示した処理が複数の音響信号XAの各々について実行されることで、対象音の発音源の種類を示す音源識別情報Dが音響信号XA毎に生成される。音響解析部20の具体例は以上の通りである。   The selection processing unit 686 specifies the type of the sound source of the target sound of the acoustic signal XA according to the K identification indexes R calculated by the multiplication unit 682 and the multiplication unit 684, and the sound source identification information indicating the type of the sound source D (for example, instrument name) is generated. Specifically, the selection processing unit 686 selects one type of candidate sound source having the maximum identification index R among the K types of candidate sound sources as the sound source of the target sound, and the sound source identification information D for designating the candidate sound source. Is generated. That is, the type of sound source of the target sound of the acoustic signal XA is identified. By executing the processing exemplified above for each of the plurality of acoustic signals XA, sound source identification information D indicating the type of sound source of the target sound is generated for each acoustic signal XA. Specific examples of the acoustic analysis unit 20 are as described above.

図1の音響処理部30は、調波性解析部62が音響信号XA毎に解析した音源識別情報Dを参照して複数の音響信号XAに音響処理を実行することで音響信号XBを生成する。具体的には、音響信号XAの音源識別情報Dが示す発音源の種類毎に事前に設定された音響処理が当該音響信号XAに対して実行される。音響信号XAに対する音響処理としては、例えば残響効果や歪効果等の各種の音響効果を付与する効果付与処理(エフェクタ)や、周波数帯域毎の音量を調整する特性調整処理(イコライザ),音像が定位する位置を調整する定位調整処理(パン),音量を調整する音量調整処理が例示される。効果付与処理で音響信号XAに付与される音響効果の種類や度合,特性調整処理で音響信号XAに付与される周波数特性,定位調整処理で調整される音像の位置,音量調整処理による調整内容(ゲイン)等の各種のパラメータが、音源識別情報Dが示す発音源の種類毎に個別に設定される。そして、音響処理部30は、以上に例示した音響処理後の複数の音響信号XAを混合(ミキシング)することで音響信号XBを生成する。すなわち、第1実施形態の音響処理部30は、調波性解析部62による発音源の識別結果を反映した自動ミキシングを実現する。   The acoustic processing unit 30 in FIG. 1 generates an acoustic signal XB by performing acoustic processing on a plurality of acoustic signals XA with reference to the sound source identification information D analyzed by the harmonic analysis unit 62 for each acoustic signal XA. . Specifically, acoustic processing set in advance for each type of sound source indicated by the sound source identification information D of the acoustic signal XA is executed on the acoustic signal XA. As acoustic processing for the acoustic signal XA, for example, effect imparting processing (effector) that imparts various acoustic effects such as reverberation effect and distortion effect, characteristic adjustment processing (equalizer) that adjusts the volume for each frequency band, and sound image localization Examples are a localization adjustment process (pan) for adjusting the position to be performed and a volume adjustment process for adjusting the volume. The type and degree of the sound effect given to the sound signal XA by the effect applying process, the frequency characteristic given to the sound signal XA by the characteristic adjusting process, the position of the sound image adjusted by the localization adjusting process, and the adjustment contents by the volume adjusting process ( Various parameters such as gain) are individually set for each type of sound source indicated by the sound source identification information D. Then, the sound processing unit 30 generates the sound signal XB by mixing (mixing) the plurality of sound signals XA after the sound processing exemplified above. That is, the acoustic processing unit 30 according to the first embodiment realizes automatic mixing that reflects the sound source identification result by the harmonic analysis unit 62.

図10は、第1実施形態の音源識別部60が任意の1系統の音響信号XAについて対象音の発音源の種類を特定する処理(以下「音源識別処理」という)のフローチャートである。複数の音響信号XAの各々について、特徴量抽出部50による特徴量Fの抽出毎(発音区間P毎)に図10の音源識別処理が実行される。   FIG. 10 is a flowchart of a process (hereinafter referred to as “sound source identification process”) in which the sound source identification unit 60 of the first embodiment specifies the type of sound source of the target sound for any one system of acoustic signals XA. For each of the plurality of acoustic signals XA, the sound source identification process of FIG. 10 is executed every time the feature amount F is extracted by the feature amount extraction unit 50 (for each sound generation section P).

音源識別処理を開始すると、調波性解析部62は、音響信号XAが表す対象音が調波音および非調波音の何れに該当するかを音響信号XAの特徴量Fから解析する(SB1)。他方、第1解析部64は、図9を参照して説明した調波解析処理によりN種類の調波音源の各々について評価値EH(n)(EH(1)〜EH(N))を算定し(SB2)、第2解析部66は、調波解析処理と同様の非調波解析処理によりM種類の非調波音源の各々について評価値EP(m)(EP(1)〜EP(M))を算定する(SB3)。そして、音源特定部68は、調波性解析部62と第1解析部64と第2解析部66とによる以上の解析の結果に応じて音響信号XAの発音源の種類を特定する(SB4)。なお、調波性解析部62による調波性の解析と、第1解析部64による調波解析処理と、第2解析部66による非調波解析処理との順序は任意である。例えば調波解析処理(SB2)および非調波解析処理(SB3)の実行後に調波性解析部62が調波性を解析することも可能である。   When the sound source identification process is started, the harmonic analysis unit 62 analyzes whether the target sound represented by the acoustic signal XA corresponds to the harmonic sound or the non-harmonic sound from the feature value F of the acoustic signal XA (SB1). On the other hand, the first analysis unit 64 calculates the evaluation value EH (n) (EH (1) to EH (N)) for each of the N types of harmonic sound sources by the harmonic analysis process described with reference to FIG. (SB2), the second analysis unit 66 performs evaluation values EP (m) (EP (1) to EP (M) for each of the M types of non-harmonic sound sources by the non-harmonic analysis process similar to the harmonic analysis process. )) Is calculated (SB3). The sound source identification unit 68 identifies the type of sound source of the acoustic signal XA according to the results of the above analysis by the harmonic analysis unit 62, the first analysis unit 64, and the second analysis unit 66 (SB4). . The order of the harmonic analysis by the harmonic analysis unit 62, the harmonic analysis processing by the first analysis unit 64, and the non-harmonic analysis processing by the second analysis unit 66 is arbitrary. For example, after the harmonic analysis process (SB2) and the non-harmonic analysis process (SB3) are performed, the harmonic analysis unit 62 can analyze the harmonics.

以上に説明した通り、第1実施形態では、調波音と非調波音とを相互に区別して対象音の発音源の種類が特定される。具体的には、対象音が調波音および非調波音の各々に該当する確度(WH,WP)を調波性解析部62が解析した結果と、対象音の発音源がN種類の調波音源の各々に該当する確度CH(n)を第1解析部64が解析した結果と、対象音の発音源がM種類の非調波音源の各々に該当する確度CP(m)を第2解析部66が解析した結果とを利用して、対象音の発音源の種類が特定される。したがって、調波音と非調波音とを区別せずに発音源の種類を特定する構成と比較して対象音の発音源の種類を高精度に特定することが可能である。第1解析部64や第2解析部66の未学習の発音源についても音響処理部30による調波音/非調波音の識別は可能であるという利点もある。   As described above, in the first embodiment, the type of sound source of the target sound is specified by distinguishing the harmonic sound and the non-harmonic sound from each other. Specifically, the harmonic analysis unit 62 analyzes the accuracy (WH, WP) that the target sound corresponds to each of the harmonic sound and the non-harmonic sound, and N types of harmonic sound sources as the sound source of the target sound. The analysis results of the accuracy CH (n) corresponding to each of the first and second analysis portions 64 and the accuracy CP (m) corresponding to each of the M types of non-harmonic sound sources as the sound source of the target sound The type of sound source of the target sound is specified using the result analyzed by 66. Therefore, it is possible to specify the sound source type of the target sound with high accuracy as compared with the configuration in which the sound source type is specified without distinguishing between the harmonic sound and the non-harmonic sound. There is also an advantage that harmonic sound / non-harmonic sound can be identified by the sound processing unit 30 for the unlearned sound source of the first analysis unit 64 and the second analysis unit 66.

また、第1実施形態では、対象音が調波音に該当する確度WHと各調波音源の評価値EH(n)との乗算、および、対象音が非調波音に該当する確度WPと各非調波音源の評価値EP(m)との乗算により、K種類の候補楽器(N種類の調波音源およびM種類の非調波音源)の各々について識別指標Rが算定され、各識別指標Rに応じて対象音の発音源の種類が特定される。すなわち、対象音が調波音に該当する確度WHが大きいほど調波音源の識別指標Rが相対的に優勢となり、対象音が非調波音に該当する確度WPが大きいほど非調波音源の識別指標Rが相対的に優勢となる。したがって、K個の識別指標Rの比較により対象音の発音源の種類を簡便かつ高精度に特定できるという利点がある。   In the first embodiment, the accuracy WH corresponding to the target sound corresponding to the harmonic sound and the evaluation value EH (n) of each harmonic sound source are multiplied, and the accuracy WP corresponding to the target sound corresponding to the subharmonic sound and each non-harmonic sound. The identification index R is calculated for each of K types of musical instruments (N types of harmonic sources and M types of non-harmonic sources) by multiplication with the harmonic sound source evaluation value EP (m). The type of sound source of the target sound is specified according to the above. That is, as the accuracy WH corresponding to the target sound corresponds to the harmonic sound, the harmonic sound source identification index R becomes relatively dominant, and as the accuracy WP corresponding to the target sound corresponds to the non-harmonic sound, the identification index of the non-harmonic sound source increases. R becomes relatively dominant. Therefore, there is an advantage that the type of sound source of the target sound can be specified easily and with high accuracy by comparing the K identification indexes R.

ところで、例えば対象音の発音源が調波音源に該当する確度CH(n)を評価値EH(n)として利用するとともに対象音の発音源が非調波音源に該当する確度CP(m)を評価値EP(m)として利用する構成(以下「比較例」という)では、評価値EH(n)の数値が調波音源の種類数Nに依存するとともに評価値EP(m)の数値が非調波音源の種類数Mに依存する。例えば、調波音源の種類数Nが多いほど確度CH(n)は小さい数値となる。したがって、調波音源の種類数Nと非調波音源の種類数Mとが相違する場合には、評価値EH(n)と評価値EP(m)とを適切に比較できないという問題がある。第1実施形態では、対象音の発音源が調波音源に該当する確度CH(n)の順位に応じた数値が評価値EH(n)として調波音源毎に設定され、対象音の発音源が非調波音源に該当する確度CP(m)の順位に応じた数値が評価値EP(m)として非調波音源毎に設定される。すなわち、評価値EH(n)は調波音源の種類数Nに依存しない数値に設定され、評価値EP(m)は非調波音源の種類数Mに依存しない数値に設定される。したがって、第1実施形態によれば、例えば調波音源の種類数Nと非調波音源の種類数Mとが相違する場合でも評価値EH(n)と評価値EP(m)とを適切に比較できるという利点がある。調波音源の種類数Nおよび非調波音源の種類数Mの制約が緩和されると換言することも可能である。ただし、前述の比較例も本発明の範囲には包含される。   By the way, for example, the accuracy CH (n) corresponding to the sound source of the target sound corresponding to the harmonic sound source is used as the evaluation value EH (n) and the accuracy CP (m) corresponding to the sound source of the target sound corresponding to the non-harmonic sound source is used. In the configuration used as the evaluation value EP (m) (hereinafter referred to as “comparative example”), the numerical value of the evaluation value EH (n) depends on the number N of types of harmonic sound sources and the numerical value of the evaluation value EP (m) is not Depends on the number M of types of harmonic sound sources. For example, the accuracy CH (n) becomes smaller as the number N of types of harmonic sound sources increases. Therefore, when the number N of harmonic sound sources and the number M of non-harmonic sound sources are different, there is a problem that the evaluation value EH (n) and the evaluation value EP (m) cannot be appropriately compared. In the first embodiment, a numerical value corresponding to the rank of the accuracy CH (n) corresponding to the sound source of the target sound corresponding to the harmonic sound source is set as the evaluation value EH (n) for each harmonic sound source, and the sound source of the target sound A numerical value corresponding to the rank of the accuracy CP (m) corresponding to the subharmonic sound source is set for each subharmonic sound source as the evaluation value EP (m). That is, the evaluation value EH (n) is set to a value that does not depend on the number N of harmonic sound sources, and the evaluation value EP (m) is set to a value that does not depend on the number M of non-harmonic sound sources. Therefore, according to the first embodiment, for example, the evaluation value EH (n) and the evaluation value EP (m) are appropriately set even when the number N of harmonic sound sources is different from the number M of non-harmonic sound sources. There is an advantage that it can be compared. In other words, the restrictions on the number N of harmonic sound sources and the number M of non-harmonic sound sources are relaxed. However, the comparative examples described above are also included in the scope of the present invention.

また、第1実施形態では、第1解析部64が調波音源の確度CH(n)の算定に利用する特徴量F(特性値f1)と第2解析部66が非調波音源の確度CP(m)の算定に適用する特徴量F(特性値f2)とが相違する。具体的には、例えば第1解析部64による確度CH(n)の算定には調波音の識別に好適な特性値f1が利用され、第2解析部66による確度CP(m)の算定には非調波音の識別に好適な特性値f2が利用される。したがって、調波音源の確度CH(n)の算定と非調波音源の確度CP(m)の算定とに同種の特徴量を利用する構成と比較して、対象音の発音源を高精度に特定できるという利点がある。ただし、第1解析部64と第2解析部66とが共通の特徴量Fを利用することも可能である。   In the first embodiment, the first analysis unit 64 uses the characteristic amount F (characteristic value f1) used for calculating the harmonic source accuracy CH (n) and the second analysis unit 66 uses the non-harmonic source accuracy CP. The feature amount F (characteristic value f2) applied to the calculation of (m) is different. Specifically, for example, the characteristic value f1 suitable for identifying harmonics is used for the calculation of the accuracy CH (n) by the first analysis unit 64, and for the calculation of the accuracy CP (m) by the second analysis unit 66, for example. A characteristic value f2 suitable for identifying non-harmonic sound is used. Therefore, the sound source of the target sound is highly accurate compared to a configuration that uses the same type of feature quantity for the calculation of the harmonic source accuracy CH (n) and the non-harmonic source accuracy CP (m). There is an advantage that it can be identified. However, it is also possible for the first analysis unit 64 and the second analysis unit 66 to use a common feature amount F.

<第2実施形態>
本発明の第2実施形態を説明する。なお、以下に例示する各形態において作用や機能が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。
Second Embodiment
A second embodiment of the present invention will be described. In addition, about the element which an effect | action and function are the same as that of 1st Embodiment in each form illustrated below, the code | symbol used by description of 1st Embodiment is diverted, and each detailed description is abbreviate | omitted suitably.

図11に例示される通り、発音源による1回の発音(例えば打楽器の1回の打撃による発音)の開始直後に強度Qが増加する過程において複数回の極大点xH(xH1,xH2)が観測される場合がある。図11の極大点xH1の変動指標δは始点閾値ZSを上回るから、変動指標δが始点閾値ZSを上回る全部の極大点xHを発音始点TSとして確定する第1実施形態では、極大点xH1および極大点xH2の双方が発音始点TSとして特定される。しかし、音響信号XEの強度は、極大点xH1の直後の極大点xH2まで増加する。すなわち、極大点xH1および極大点xH2は、実際には発音源の1回の発音に対応すると推定される。したがって、極大点xH1を発音始点TSとして特定することなく直後の極大点xH2のみを発音始点TSとして特定し、極大点xH1および極大点xH2の双方を1個の発音区間Pに包含させるべきである。以上の事情を考慮して、第2実施形態では、音響信号XEの強度Qの1個の極大点xH1の直後に、当該極大点xH1を上回る強度Qの極大点xH2を検出した場合に、先行の極大点xH1を発音始点TSの候補から除外する。   As illustrated in FIG. 11, a plurality of local maximum points xH (xH1, xH2) are observed in the process in which the intensity Q increases immediately after the start of one sound generation by the sound source (for example, sound generation by one percussion instrument percussion). May be. Since the fluctuation index δ of the local maximum point xH1 in FIG. 11 exceeds the starting point threshold value ZS, in the first embodiment in which all the local maximum points xH whose fluctuation index δ exceeds the starting point threshold value ZS are determined as the pronunciation starting point TS, the local maximum point xH1 and the local maximum point Both of the points xH2 are specified as the pronunciation start point TS. However, the intensity of the acoustic signal XE increases to the maximum point xH2 immediately after the maximum point xH1. That is, it is estimated that the local maximum point xH1 and the local maximum point xH2 actually correspond to one sound generation of the sound source. Accordingly, without specifying the local maximum point xH1 as the pronunciation start point TS, only the local maximum point xH2 immediately after is specified as the pronunciation start point TS, and both the local maximum point xH1 and the local maximum point xH2 should be included in one sound generation section P. . Considering the above circumstances, in the second embodiment, when a local maximum point xH2 having an intensity Q exceeding the local maximum point xH1 is detected immediately after one local maximum point xH1 of the intensity Q of the acoustic signal XE, the preceding is performed. The maximum point xH1 is excluded from the pronunciation start point TS candidates.

具体的には、変動指標δが始点閾値ZSを上回る任意の1個の極大点xH1(第1極大点)を第1実施形態と同様の方法で検出すると、始点解析部44は、図11に例示される通り、当該極大点xH1に対応する時間軸上の位置に待機区間Vを設定する。待機区間Vは、極大点xH1を発音始点TSとして確定することを留保する区間であり、極大点xH1以降に設定される。第2実施形態の始点解析部44は、極大点xH1を始点とする所定長の待機区間Vを設定する。   Specifically, when any one local maximum point xH1 (first local maximum point) in which the variation index δ exceeds the starting point threshold value ZS is detected by the same method as that in the first embodiment, the starting point analysis unit 44 is shown in FIG. As illustrated, the standby section V is set at a position on the time axis corresponding to the local maximum point xH1. The standby section V is a section in which it is reserved that the local maximum point xH1 is determined as the sound generation start point TS, and is set after the local maximum point xH1. The start point analysis unit 44 of the second embodiment sets a standby section V having a predetermined length starting from the maximum point xH1.

待機区間Vを設定すると、始点解析部44は、極大点xH1以降の音響信号XEについて極大点xHの探索を継続する。前述の通り、音響信号XEの強度Qは、極大点xH1以降に増加する可能性がある。極大点xH1を上回る強度の極大点xH2(第2極大点)を待機区間V内に検出した場合、始点解析部44は、先行の極大点xH1を発音始点TSの候補から除外する。以上の処理を順次に実行し、検出済の極大点xHを上回る強度の極大点xHを検出することなく待機区間Vが経過すると、始点解析部44は、待機区間Vの満了前に最後に検出した極大点xHを発音始点TSとして確定する。   When the standby section V is set, the start point analysis unit 44 continues searching for the maximum point xH for the acoustic signal XE after the maximum point xH1. As described above, the intensity Q of the acoustic signal XE may increase after the maximum point xH1. When a local maximum point xH2 (second local maximum point) having an intensity exceeding the local maximum point xH1 is detected in the standby section V, the start point analysis unit 44 excludes the preceding local maximum point xH1 from the pronunciation start point TS candidates. When the standby section V passes without detecting the local maximum point xH having an intensity exceeding the detected local maximum point xH, the start point analysis unit 44 finally detects the standby section V before the expiration. The determined local maximum point xH is determined as the pronunciation start point TS.

以上の説明から理解される通り、第2実施形態では、音響信号XEの強度Qの極大点xH1以降の待機区間V内に、当該極大点xH1を上回る強度Qの極大点xH2が検出された場合に、極大点xH1が発音始点TSの候補から除外される。したがって、発音源による1回の発音の開始から音響信号XEの強度Qが増加する過程で複数の極大点xHが検出される場合でも、当該発音に対応した1個の極大点xHを含む発音区間Pを適切に特定することが可能である。   As understood from the above description, in the second embodiment, when a local maximum point xH2 having an intensity Q exceeding the local maximum point xH1 is detected in the standby section V after the local maximum point xH1 of the intensity Q of the acoustic signal XE. In addition, the local maximum point xH1 is excluded from the candidates for the pronunciation start point TS. Therefore, even when a plurality of local maximum points xH are detected in the process of increasing the intensity Q of the acoustic signal XE from the start of one sound generation by the sound source, the sound generation section including one local maximum point xH corresponding to the sound generation It is possible to specify P appropriately.

なお、第2実施形態では、1個の極大点xH1を始点とする待機区間Vを設定したが、極大点xH1を上回る強度Qの極大点xH2を検出した場合に、当該極大点xH2を始点とする待機区間Vを新規に設定する(すなわち極大点xHの検出毎に待機区間Vを更新する)ことも可能である。   In the second embodiment, the standby interval V starting from one local maximum point xH1 is set. However, when a local maximum point xH2 having an intensity Q exceeding the local maximum point xH1 is detected, the local maximum point xH2 is set as the starting point. It is also possible to newly set the waiting section V to be performed (that is, to update the waiting section V every time the maximum point xH is detected).

<変形例>
以上に例示した各態様は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2個以上の態様は、相互に矛盾しない範囲で適宜に併合され得る。
<Modification>
Each aspect illustrated above can be variously modified. Specific modifications are exemplified below. Two or more modes arbitrarily selected from the following examples can be appropriately combined within a range that does not contradict each other.

(1)前述の各形態では、調波性解析部62がサポートベクターマシンにより調波音と非調波音とを判別したが、調波性解析部62による調波音/非調波音の判別方法は以上の例示に限定されない。例えば、調波音および非調波音の各々の特徴量Fの分布傾向を表現する混合正規分布を利用して対象音を調波音と非調波音とに判別する方法や、K-meansアルゴリズムを利用したクラスタリングで対象音を調波音と非調波音とに判別する方法も採用され得る。第1解析部64および第2解析部66の各々が対象音の発音源の種類を推定する方法についても同様に、前述の各形態で例示したサポートベクターマシンには限定されず、公知のパターン認識技術を任意に採用することが可能である。 (1) In each of the above embodiments, the harmonic analysis unit 62 discriminates between harmonic and non-harmonic sounds using the support vector machine, but the harmonic / non-harmonic sound discrimination method by the harmonic analysis unit 62 is as described above. It is not limited to the illustration. For example, a method of discriminating a target sound into a harmonic sound and a non-harmonic sound using a mixed normal distribution that expresses a distribution tendency of the feature amount F of each of the harmonic sound and the non-harmonic sound, or a K-means algorithm is used. A method of discriminating the target sound into a harmonic sound and a non-harmonic sound by clustering may be employed. Similarly, the method in which each of the first analysis unit 64 and the second analysis unit 66 estimates the type of the sound source of the target sound is not limited to the support vector machine exemplified in each of the above-described embodiments, and is well-known pattern recognition. Any technique can be employed.

(2)前述の各形態では、調波性解析部62が解析した調波音の確度WHをN個の評価値EH(1)〜EH(N)に乗算するとともに非調波音の確度WPをM個の評価値EP(1)〜EP(M)に乗算したが、調波音の確度WHおよび非調波音の確度WPを音響信号XAの発音源の種類に反映させる方法は以上の例示に限定されない。例えば、音響信号XAの対象音が調波音および非調波音の何れに該当するかを確度WHおよび確度WPに応じて判別し、N個の評価値EH(1)〜EH(N)およびM個の評価値EP(1)〜EP(M)の何れかを調波性の判別結果に応じて選択的に利用して、音源特定部68が発音源の種類を特定することも可能である。 (2) In the above-described embodiments, the harmonic sound accuracy WH analyzed by the harmonic analysis unit 62 is multiplied by N evaluation values EH (1) to EH (N), and the non-harmonic sound accuracy WP is set to M. Although the evaluation values EP (1) to EP (M) are multiplied, the method of reflecting the accuracy WH of the harmonic sound and the accuracy WP of the non-harmonic sound in the type of the sound source of the acoustic signal XA is not limited to the above examples. . For example, it is determined according to the accuracy WH and the accuracy WP whether the target sound of the acoustic signal XA corresponds to the harmonic sound or the non-harmonic sound, and N evaluation values EH (1) to EH (N) and M It is also possible for the sound source specifying unit 68 to specify the type of the sound source by selectively using any one of the evaluation values EP (1) to EP (M) according to the harmonic discrimination result.

具体的には、調波性解析部62は、確度WHが確度WPを上回る場合には対象音を調波音と判別し、確度WPが確度WHを上回る場合には対象音を非調波音と判別する。音源特定部68は、対象音が調波音であると判別された場合には、第1解析部64が算定したN個の評価値EH(1)〜EH(N)のなかの最大値に対応する調波音源を発音源の種類として特定する一方、対象音が非調波音であると判別された場合には、第2解析部66が算定したM個の評価値EP(1)〜EP(M)のなかの最大値に対応する非調波音源を発音源の種類として特定する。以上に例示した構成は、前述の各形態において、確度WHおよび確度WPの一方を1に設定するとともに他方を0に設定した構成とも換言される。なお、対象音が調波音であると調波性解析部62が判別した場合に第2解析部66による非調波解析処理(M個の評価値EP(1)〜EP(M)の算定)を省略する構成や、対象音が非調波音であると調波性解析部62が解析した場合に第1解析部64による調波解析処理(N個の評価値EH(1)〜EH(N)の算定)を省略する構成も採用され得る。   Specifically, the harmonic analysis unit 62 determines the target sound as a harmonic sound when the accuracy WH exceeds the accuracy WP, and determines the target sound as a non-harmonic sound when the accuracy WP exceeds the accuracy WH. To do. When it is determined that the target sound is a harmonic sound, the sound source identification unit 68 corresponds to the maximum value among the N evaluation values EH (1) to EH (N) calculated by the first analysis unit 64. If the target sound is determined to be a non-harmonic sound while the harmonic sound source to be identified is identified as the type of sound source, the M evaluation values EP (1) to EP (2) calculated by the second analysis unit 66 are determined. The non-harmonic sound source corresponding to the maximum value in M) is specified as the type of sound source. The configuration exemplified above is also referred to as a configuration in which one of the accuracy WH and the accuracy WP is set to 1 and the other is set to 0 in each of the above-described embodiments. When the harmonic analysis unit 62 determines that the target sound is a harmonic sound, non-harmonic analysis processing (calculation of M evaluation values EP (1) to EP (M)) by the second analysis unit 66 is performed. When the harmonic analysis unit 62 analyzes that the target sound is a non-harmonic sound, harmonic analysis processing (N evaluation values EH (1) to EH (N A configuration in which the calculation of () is omitted may be employed.

以上の例示から理解される通り、音源特定部68は、調波性解析部62と第1解析部64と第2解析部66とによる解析結果に応じて対象音の発音源の種類を特定する要素として包括的に表現され、第1解析部64および第2解析部66の双方の解析結果を利用するか一方の解析結果のみを利用するかは、本発明において不問である。   As understood from the above examples, the sound source specifying unit 68 specifies the type of sound source of the target sound according to the analysis results by the harmonic analysis unit 62, the first analysis unit 64, and the second analysis unit 66. Whether the analysis results of both the first analysis unit 64 and the second analysis unit 66 are used or only one of the analysis results is used is unquestioned in the present invention.

(3)前述の各形態では始点閾値ZSを固定値としたが、始点閾値ZSを可変値とすることも可能である。例えば、極大点xHでの音響信号XEの強度QHに応じた数値(例えば強度QHを所定値に乗算した数値)を始点閾値ZSとして利用し、図6のステップSC1では、極大点xHでの強度QHと基準値QREFとの差分(QH−QREF)を変動指標δとして始点閾値ZSと比較することも可能である。終点閾値ZEについても同様に可変値とすることが可能である。また、始点閾値ZSまたは終点閾値ZEを利用者からの指示に応じて可変に設定することも可能である。 (3) In each of the above-described embodiments, the starting point threshold value ZS is a fixed value, but the starting point threshold value ZS may be a variable value. For example, a numerical value corresponding to the intensity QH of the acoustic signal XE at the local maximum point xH (for example, a numerical value obtained by multiplying the predetermined value by the intensity QH) is used as the start point threshold value ZS, and in step SC1 in FIG. It is also possible to compare the difference (QH−QREF) between QH and the reference value QREF with the starting point threshold value ZS using the variation index δ. Similarly, the end point threshold value ZE can be a variable value. It is also possible to variably set the start point threshold value ZS or the end point threshold value ZE according to an instruction from the user.

(4)移動体通信網やインターネット等の通信網を介して端末装置(例えば携帯電話機やスマートフォン)と通信するサーバ装置で音響処理装置12を実現することも可能である。具体的には、音響処理装置12は、端末装置から通信網を介して受信した複数の音響信号XAから前述の各形態と同様の処理で音響信号XBを生成して端末装置に送信する。なお、端末装置から受信した複数の音響信号XAの各々の発音源の種類(音源識別情報D)を音響解析部20が識別して端末装置に通知し、端末装置に搭載された音響処理部30が識別結果に応じて複数の音響信号XAから音響信号XBを生成することも可能である。すなわち、音響処理部30は音響処理装置12から省略され得る。また、音響信号XAの発音区間Pの発音始点TSおよび発音終点TEを端末装置に通知する構成(例えば端末装置が特徴量抽出部50および音源解析部20を具備する構成)では、音響処理装置12の音響解析部20から特徴量抽出部50と音源識別部60とが省略される。 (4) It is also possible to realize the acoustic processing device 12 by a server device that communicates with a terminal device (for example, a mobile phone or a smartphone) via a communication network such as a mobile communication network or the Internet. Specifically, the acoustic processing device 12 generates an acoustic signal XB from the plurality of acoustic signals XA received from the terminal device via the communication network, and transmits the acoustic signal XB to the terminal device by the same processing as in the above-described embodiments. Note that the acoustic analysis unit 20 identifies the type of sound source (sound source identification information D) of each of the plurality of acoustic signals XA received from the terminal device, notifies the terminal device, and the acoustic processing unit 30 mounted on the terminal device. However, it is also possible to generate the acoustic signal XB from the plurality of acoustic signals XA according to the identification result. That is, the sound processing unit 30 can be omitted from the sound processing device 12. In the configuration in which the terminal device is notified of the sound generation start point TS and the sound generation end point TE of the sound generation section P of the acoustic signal XA (for example, the terminal device includes the feature amount extraction unit 50 and the sound source analysis unit 20), the sound processing device 12 The feature amount extraction unit 50 and the sound source identification unit 60 are omitted from the acoustic analysis unit 20.

以上の説明から理解される通り、本発明の好適な態様は、音響信号XAのうち音響の発音が開始される発音始点TSと当該音響の発音が終了する発音終点TEとを解析する装置(音響解析装置)として包括的に表現される。音響解析装置における音響処理部30の有無は不問である。   As will be understood from the above description, the preferred embodiment of the present invention is an apparatus for analyzing the sound generation start point TS at which sound generation is started and the sound generation end point TE at which sound generation ends (acoustic signal XA). Analysis device). The presence or absence of the acoustic processing unit 30 in the acoustic analysis device is not questioned.

(5)前述の各形態で例示した音響処理装置12は、前述の通り制御装置122とプログラムとの協働で実現される。プログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。また、以上に例示したプログラムは、通信網を介した配信の形態で提供されてコンピュータにインストールされ得る。 (5) The sound processing device 12 exemplified in the above-described embodiments is realized by the cooperation of the control device 122 and the program as described above. The program may be provided in a form stored in a computer-readable recording medium and installed in the computer. The recording medium is, for example, a non-transitory recording medium, and an optical recording medium (optical disk) such as a CD-ROM is a good example, but a known arbitrary one such as a semiconductor recording medium or a magnetic recording medium This type of recording medium can be included. Further, the program exemplified above can be provided in the form of distribution via a communication network and installed in a computer.

(6)本発明は、前述の各形態に係る音響処理装置12の動作方法としても特定される。例えば、発音区間検出部40が音響信号XAのうち音響の発音が開始される発音始点TSと当該音響の発音が終了する発音終点TEとを解析する方法(音響解析方法)においては、コンピュータ(単体の装置のほか、相互に別体の複数の装置で構成されたコンピュータシステムも含む)が、音響信号XAの強度Qの極大点xHを発音始点TSとして特定し(図6の始点解析処理)、発音始点TSの経過後に音響信号XAの強度Qが経時的に減少する過程で強度Qが増加に反転する極小点xLを、増加後の極大点xHでの強度QHと当該極大点xHまでの強度Qの最小値QREFとの差分に応じた変動指標δが終点閾値ZEを上回る場合に発音終点TEとして特定する(図7の終点解析処理)。 (6) The present invention is also specified as an operation method of the sound processing device 12 according to each of the above-described embodiments. For example, in a method (acoustic analysis method) in which the sounding section detection unit 40 analyzes a sounding start point TS at which sound generation is started and a sounding end point TE at which sound generation ends in the sound signal XA, a computer (single unit) is used. In addition to the above device, a computer system composed of a plurality of devices separated from each other) specifies the local maximum point xH of the intensity Q of the acoustic signal XA as the pronunciation starting point TS (starting point analysis processing in FIG. 6), The intensity xH at the maximum point xH after the increase and the intensity up to the maximum point xH after the intensity Q of the acoustic signal XA decreases with time after the sounding start point TS has elapsed. When the variation index δ according to the difference between the Q and the minimum value QREF exceeds the end point threshold value ZE, the sound generation end point TE is specified (end point analysis process in FIG. 7).

12……音響処理装置、14……収音装置、16……放音装置、122……制御装置、124……記憶装置、20……音響解析部、30……音響処理部、40……発音区間検出部、42……信号処理部、44……始点解析部、46……終点解析部、50……特徴量抽出部、60……音源識別部、62……調波性解析部、64……第1解析部64、66……第2解析部、68……音源特定部、682……乗算部、684……乗算部、686……選択処理部。
DESCRIPTION OF SYMBOLS 12 ... Sound processing device, 14 ... Sound collection device, 16 ... Sound emission device, 122 ... Control device, 124 ... Memory | storage device, 20 ... Sound analysis part, 30 ... Sound processing part, 40 ... Sound generation section detection unit 42... Signal processing unit 44... Start point analysis unit 46... End point analysis unit 50 .. feature amount extraction unit 60 .. sound source identification unit 62. 64... First analysis unit 64, 66... Second analysis unit, 68... Sound source identification unit, 682.

Claims (5)

音響信号のうち音響の発音が開始される発音始点と当該音響の発音が終了する発音終点とを解析する音響解析装置であって、
前記音響信号の強度の極大点を前記発音始点として特定する始点解析部と、
前記発音始点の経過後に前記音響信号の強度が経時的に減少する過程で強度が増加に反転する極小点を、前記増加後の極大点での強度と当該極大点までの強度の最小値との差分に応じた変動指標が終点閾値を上回る場合に前記発音終点として特定する終点解析部と
を具備する音響解析装置。
A sound analysis device that analyzes a sound generation start point at which sound generation starts and a sound end point at which sound generation ends in an acoustic signal,
A starting point analysis unit that identifies the maximum point of the intensity of the acoustic signal as the starting point of sound generation;
The minimum point at which the intensity reverses to increase in the process in which the intensity of the acoustic signal decreases with time after the start of the sounding start point, the intensity at the maximum point after the increase and the minimum value of the intensity up to the maximum point An acoustic analysis device comprising: an end point analysis unit that identifies the sound generation end point when a variation index corresponding to the difference exceeds an end point threshold value.
前記終点解析部は、前記極小点を前記発音終点として特定する以前に、前記発音始点での強度に応じた減衰閾値を下回るまで前記音響信号の強度が当該発音始点から減少した場合に、前記減衰閾値を強度が下回る時点を前記発音終点として特定する
請求項1の音響解析装置。
The end point analysis unit determines the attenuation when the intensity of the acoustic signal has decreased from the sounding start point until the minimum point falls below an attenuation threshold corresponding to the intensity at the sounding start point before specifying the minimum point as the sounding end point. The acoustic analysis device according to claim 1, wherein a point in time when the intensity falls below a threshold is specified as the pronunciation end point.
前記始点解析部は、前記音響信号の強度の極大点を順次に検出する一方、前記極大点での強度と当該極大点までの強度の最小値との差分に応じた変動指標が、前記終点閾値よりも大きい始点閾値を上回る場合に、当該極大点を前記発音始点として特定する
請求項1または請求項2の音響解析装置。
The starting point analysis unit sequentially detects the maximum point of the intensity of the acoustic signal, while a variation index according to the difference between the intensity at the maximum point and the minimum value of the intensity up to the maximum point is the end point threshold value The acoustic analysis device according to claim 1, wherein the local maximum point is specified as the sound generation start point when a start point threshold value greater than the threshold value is exceeded.
前記変動指標は、前記極大点での強度と当該極大点までの強度の最小値との差分を当該極大点での強度により除算した数値である
請求項1から請求項3の何れかの音響解析装置。
The acoustic analysis according to any one of claims 1 to 3, wherein the variation index is a numerical value obtained by dividing a difference between the intensity at the local maximum point and the minimum value of the intensity up to the local maximum point by the intensity at the local maximum point. apparatus.
前記始点解析部は、前記音響信号の強度の第1極大点以降の待機区間内に、前記第1極大点を上回る強度の第2極大点を検出した場合に、前記第1極大点を前記発音始点の候補から除外する
請求項1から請求項4の何れかの音響解析装置。
When the start point analysis unit detects a second maximum point having an intensity exceeding the first maximum point in a standby section after the first maximum point of the intensity of the acoustic signal, the start point analysis unit generates the first maximum point as the pronunciation The acoustic analysis device according to any one of claims 1 to 4, wherein the acoustic analysis device is excluded from a starting point candidate.
JP2015191028A 2015-09-29 2015-09-29 Acoustic analyzer Active JP6565549B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015191028A JP6565549B2 (en) 2015-09-29 2015-09-29 Acoustic analyzer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015191028A JP6565549B2 (en) 2015-09-29 2015-09-29 Acoustic analyzer

Publications (2)

Publication Number Publication Date
JP2017067903A true JP2017067903A (en) 2017-04-06
JP6565549B2 JP6565549B2 (en) 2019-08-28

Family

ID=58494569

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015191028A Active JP6565549B2 (en) 2015-09-29 2015-09-29 Acoustic analyzer

Country Status (1)

Country Link
JP (1) JP6565549B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10243680B2 (en) 2015-09-30 2019-03-26 Yamaha Corporation Audio processing device and audio processing method

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6039691A (en) * 1983-08-13 1985-03-01 電子計算機基本技術研究組合 Voice recognition
JPS6377097A (en) * 1986-09-19 1988-04-07 松下電器産業株式会社 Voice recognition equipment
JP2000250565A (en) * 1999-02-25 2000-09-14 Ricoh Co Ltd Device and method for detecting voice section, voice recognition method and recording medium recorded with its method
KR101193362B1 (en) * 2012-04-13 2012-10-19 최병기 Method for dividing string into pronunciation unit, method for representation of the tone of string using thereof and storage medium storing video clip representing the tone of string
JP2013156544A (en) * 2012-01-31 2013-08-15 Brother Ind Ltd Vocalization period specifying device, voice parameter generating device and program

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6039691A (en) * 1983-08-13 1985-03-01 電子計算機基本技術研究組合 Voice recognition
JPS6377097A (en) * 1986-09-19 1988-04-07 松下電器産業株式会社 Voice recognition equipment
JP2000250565A (en) * 1999-02-25 2000-09-14 Ricoh Co Ltd Device and method for detecting voice section, voice recognition method and recording medium recorded with its method
JP2013156544A (en) * 2012-01-31 2013-08-15 Brother Ind Ltd Vocalization period specifying device, voice parameter generating device and program
KR101193362B1 (en) * 2012-04-13 2012-10-19 최병기 Method for dividing string into pronunciation unit, method for representation of the tone of string using thereof and storage medium storing video clip representing the tone of string

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10243680B2 (en) 2015-09-30 2019-03-26 Yamaha Corporation Audio processing device and audio processing method

Also Published As

Publication number Publication date
JP6565549B2 (en) 2019-08-28

Similar Documents

Publication Publication Date Title
CN102610222B (en) Music transcription method, system and device
CN105719661A (en) Automatic discrimination method for playing timbre of string instrument
US20090171485A1 (en) Segmenting a Humming Signal Into Musical Notes
JP2023081946A (en) Learning device, automatic music transcription device, learning method, automatic music transcription method and program
JP5127982B2 (en) Music search device
JP4205824B2 (en) Singing evaluation device and karaoke device
US10298192B2 (en) Sound processing device and sound processing method
JP6565548B2 (en) Acoustic analyzer
JP2010210758A (en) Method and device for processing signal containing voice
JP6565549B2 (en) Acoustic analyzer
JP2013164584A (en) Acoustic processor
Nwe et al. On fusion of timbre-motivated features for singing voice detection and singer identification
KR101092228B1 (en) System and method for recognizing instrument to classify signal source
JP2008015388A (en) Singing skill evaluation method and karaoke machine
JP6098422B2 (en) Information processing apparatus and program
JP2011022489A (en) Pitch recognition method, pitch recognition program, recording medium and pitch recognition system
JP2015200685A (en) Attack position detection program and attack position detection device
JP5843074B2 (en) Stringed instrument performance evaluation apparatus and stringed instrument performance evaluation program
JP5157474B2 (en) Sound processing apparatus and program
Chien et al. An Acoustic-Phonetic Approach to Vocal Melody Extraction.
Joo et al. Melody Extraction based on Harmonic Coded Structure.
JP5272141B2 (en) Voice processing apparatus and program
JP5169297B2 (en) Sound processing apparatus and program
JP5082760B2 (en) Sound control apparatus and program
MOUNIR ABDELMESSIH SHEHATA Acoustic Event Detection: Feature, Evaluation and Dataset Design

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180725

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190621

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190702

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190715

R151 Written notification of patent or utility model registration

Ref document number: 6565549

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313532