JP2002366189A - System for identifying and detecting music and voice - Google Patents

System for identifying and detecting music and voice

Info

Publication number
JP2002366189A
JP2002366189A JP2001217355A JP2001217355A JP2002366189A JP 2002366189 A JP2002366189 A JP 2002366189A JP 2001217355 A JP2001217355 A JP 2001217355A JP 2001217355 A JP2001217355 A JP 2001217355A JP 2002366189 A JP2002366189 A JP 2002366189A
Authority
JP
Japan
Prior art keywords
signal
function
group
delay
music
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001217355A
Other languages
Japanese (ja)
Inventor
Junichi Kakumoto
純一 角元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP2001217355A priority Critical patent/JP2002366189A/en
Publication of JP2002366189A publication Critical patent/JP2002366189A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To provide signal processing technique for automatically improving clarity in sound transmission in an electronic circuit and a digital signal processing field in the industry of equipment such as acoustic equipment, broadcasting unit, a receiver or guide broadcasting equipment. SOLUTION: A signal is generated which has a specified delay time within the range of the several hundreds of milliseconds of an original acoustic signal, energy is calculated between the signal and the original signal, a low-pass filter is made to work and, then, a kind of relative strength is calculated in a time difference. The correlation is statistically evaluated so as to obtain a music and sound identifying function.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【001】[0101]

【発明の所属する技術分野】[音響機器、放送機器、受
信機器、案内放送機器]などの装置産業における、電子
回路やディジタル信号処理分野において、音声の伝達明
瞭性を自動的に向上させる信号処理技術。
BACKGROUND OF THE INVENTION Signal processing for automatically improving voice transmission clarity in the field of electronic circuits and digital signal processing in the device industry such as [acoustic equipment, broadcasting equipment, receiving equipment, and guide broadcasting equipment] Technology.

【002】[0092]

【発明が解決しようとしている課題】近年、音響機器、
AV機器の音質は、電子回路の伝達特性に手を加えるこ
とによって、低音域を強調する傾向が高い。このような
手法は、主として音楽の音質に重点を置いて設計されて
いるケースが多い。このようなシステムでは、ニュース
や天気予報など音声の明瞭性伝達を重視する信号におい
て、明瞭性の確保の妨げになることが多い。一般的に
[音楽の豊かさを表現するに必要な特性]と[音声の内
容を伝達するに必要な特性]とは相容れない通過特性が
要求される。双方のニーズを満足するフィルターが存在
しない以上、この問題解決には、音楽と音声の識別機能
が必要となる。
In recent years, audio equipment,
The sound quality of AV equipment tends to emphasize the bass range by modifying the transfer characteristics of the electronic circuit. In many cases, such a method is designed mainly with an emphasis on the sound quality of music. In such a system, it is often difficult to ensure clarity in a signal such as news or weather forecast that emphasizes clarity of voice. Generally, pass characteristics that are incompatible with [characteristics necessary for expressing richness of music] and [characteristics required for transmitting audio content] are required. Since there is no filter that satisfies both needs, a solution to this problem requires the ability to distinguish between music and speech.

【003】[0093]

【問題を解決するための手段】一般的に、音声信号は音
楽信号に比べ、自己相関関数の強度が[時間差が大きく
なると共に]減衰する傾向が強いことが実験により確か
められる。音声ならば、[個人差]や[ニュース、天気
予報、会話、映画などのセリフ、BGMの有無など、音
声の内容]の影響を受け、大きなバラツキはあるもの
の、また、音楽であれば、[音楽のテンポ]や[楽器の
種類]や[演奏方法]などの影響を受けバラツキがある
ものの、平均的には音声と音楽はこの点で大きく性質を
異にする。本発明はこの点に着目し、[フーリエ分析や
その結果のパターン分析など]多量の演算処理をするこ
となく小規模な演算処理工程でこの問題を解決する。
In general, it has been confirmed by experiments that the intensity of the autocorrelation function of a voice signal tends to attenuate [as the time difference increases], as compared with a music signal. If it is voice, it is influenced by [individual difference] and [the content of the voice such as news, weather forecast, conversation, dialogue of movies, etc., and the presence or absence of BGM]. Although there are variations due to the effects of music tempo, instrument type, and playing method, on average, speech and music differ greatly in this respect. The present invention pays attention to this point, and solves this problem by a small-scale arithmetic processing step without performing a large amount of arithmetic processing [Fourier analysis and pattern analysis of the result thereof].

【004】[0093]

【従来の技術】特にない。コンシューマ商品であれば、
通常はユーザが好みの音質に調整し、録音とかPAの分
野では専門の調整員がケースバイケースで音質を調整し
ている。
2. Description of the Related Art If it ’s a consumer product,
Normally, the user adjusts the sound quality to his or her preference, and in the field of recording and PA, a specialized adjuster adjusts the sound quality on a case-by-case basis.

【005】[0056]

【用語の定義】[音声]とは人が話をする声の信号であ
るものとする。[音楽信号]とは音楽を構成する楽器音
や歌声などの信号であるものとする。[加算]とは一般
的に減算も含むものとする。[加算、減算、乗算、除
算、対数]とは厳密に数学的なものではなく、実用的な
装置を作る上に差し支えのない誤差を許容できる機能で
あるものとする。[有効成分]とは2個の音響信号の積
に含まれるところの相関強度と強い関係を持つ[正また
は負]の直流成分]もしくは[長周期の交流成分]であ
るとする。[無効成分]とは2個の音響信号の積に含ま
れるところの相関強度とは無関係の短周期の交流成分で
あるとする。[DSP]とは信号処理に特化した演算処
理集積回路とする。
[Definition of terms] [Speech] is a signal of a voice spoken by a person. [Music signal] is a signal such as an instrumental sound or a singing voice that constitutes music. [Addition] generally includes subtraction. [Addition, subtraction, multiplication, division, logarithm] is not strictly mathematical, but is a function that can tolerate an error that does not hinder a practical device. The “effective component” is assumed to be a “positive or negative DC component” or a “long-period AC component” having a strong relationship with the correlation strength included in the product of two acoustic signals. It is assumed that the "ineffective component" is a short-period AC component that is not included in the correlation strength and included in the product of the two acoustic signals. [DSP] is an arithmetic processing integrated circuit specialized in signal processing.

【006】第1図は本発明の一実施例を示すブロック図
である。説明を簡単で、かつ、実用的に充分なものにす
るために、遅延機能が2個ある場合の実施例を示す。実
機能を得るための実用的信号処理の実施例であることか
ら、本発明の本質と係わらない機能が多く含まれている
が、本発明の一般性についての範囲が制限されるもので
はない。一般的に、遅延機能の数は応用装置に要求され
るところの[性能とコスト]に依存して決定される。本
発明はコンシューマ商品へ応用されることから、一般的
な人の感覚に照らして必要かつ十分な機能を満足する実
施例である。
FIG. 1 is a block diagram showing one embodiment of the present invention. In order to make the description simple and practically sufficient, an embodiment in which there are two delay functions will be described. Since this is an embodiment of practical signal processing for obtaining actual functions, it includes many functions not related to the essence of the present invention, but does not limit the generality of the present invention. In general, the number of delay functions is determined depending on [performance and cost] required for an application device. Since the present invention is applied to a consumer product, it is an embodiment satisfying necessary and sufficient functions in light of general human senses.

【007】f(t)は入力音響信号、DLY_1、DL
Y_2はそれぞれ特定の遅延時間D1、D2を持つ遅延
機能であり、それぞれのブロック名称を第1遅延機能、
第2遅延機能とする。MPY_0、MPY_1、MPY
_2、はそれぞれ2つの入力を4象限乗算する乗算機能
であり、それぞれの名称を第0乗算機能、第1乗算機
能、第2乗算機能とする。ブロックLPFのLPF_
0、LPF_1、LPF_2、はそれぞれ遮断周波数F
Rを持つ同一特性の低域フィルタ機能であり、それぞれ
の名称を第0低域フィルタ機能、第1低域フィルタ機
能、第2低域フィルタ機能とする。RMS_0、RMS
_1、RMS_2はそれぞれ入力信号の短時間の平均値
または実行値またはそれらに類する値を得る機能であ
り、それぞれの名称を第0平均化機能、第1平均化機
能、第2平均化機能とする。平均化機能のそれぞれの出
力をP0(t)、P1(t)、P2(t)とする。
F (t) is the input audio signal, DLY_1, DL
Y_2 is a delay function having specific delay times D1 and D2, respectively.
This is the second delay function. MPY_0, MPY_1, MPY
_2 is a multiplication function that multiplies two inputs by four quadrants, and their names are a zeroth multiplication function, a first multiplication function, and a second multiplication function. LPF_ of block LPF
0, LPF_1 and LPF_2 respectively have a cutoff frequency F
R is a low-pass filter function having the same characteristics and has the same name as the 0th low-pass filter function, the first low-pass filter function, and the second low-pass filter function. RMS_0, RMS
_1 and RMS_2 are functions for obtaining a short-time average value or an execution value of an input signal or a value similar thereto, respectively, and their names are a zeroth averaging function, a first averaging function, and a second averaging function, respectively. . Let the outputs of the averaging function be P0 (t), P1 (t) and P2 (t).

【008】ブロックSMPLのSMPL_0、SMPL
_1、SMPL_2は平均化機能の出力を周期TS間、
積分し、結果をサンプリングする、サンプリング機能で
ある。その出力はそれぞれ、PS0(t)、PS1
(t)、PS2(t)である。SGTはサンプリング機
能の出力PS1(t)、PS2(t)、の大きい方を選
択する選択機能である。その出力はPS12(t)であ
る。
SMPL_0, SMPL of block SMPL
_1 and SMPL_2 output the output of the averaging function during the period TS.
This is a sampling function that integrates and samples the result. The outputs are PS0 (t), PS1
(T) and PS2 (t). SGT is a selection function for selecting the larger of the outputs PS1 (t) and PS2 (t) of the sampling function. Its output is PS12 (t).

【009】LOG_0、LOG_12は、それぞれPS
0(t)、P12(t)を対数変換する、対数演算機能
である。PL0(t)、PL12(t)はそれぞれLO
G_0、LOG_12の出力である。NRMはPL12
(t)とPL0(t)の差を出力する正規化機能であ
り、その出力はG(t)である。DIFFは周期TSご
とにG(t)とG(t−TS)の差分を演算する差分機
能であり、その出力はH(t)である。AVGは周期T
SのN倍の期間、積分しその結果をサンプリング出力す
る積分機能である。その出力はJ(t)である。DTC
TはJ(t)をさらに平均化し、音声と音楽を識別し、
音響フィルターFLTを制御するに必要な信号に変換す
るための検出機能である。DTCTは平均化のためのパ
ラメータ、デッドゾーンZded、スレッショルドLt
hd、平均化のアタック時定数TAavgとレリース時
定数TRavgを持つ。
LOG_0 and LOG_12 are PS
It is a logarithmic operation function that performs logarithmic conversion of 0 (t) and P12 (t). PL0 (t) and PL12 (t) are LO
Outputs of G_0 and LOG_12. NRM is PL12
This is a normalization function that outputs the difference between (t) and PL0 (t), and the output is G (t). DIFF is a difference function for calculating the difference between G (t) and G (t-TS) for each cycle TS, and its output is H (t). AVG is period T
This is an integration function of integrating N times of S and sampling and outputting the result. The output is J (t). DTC
T further averages J (t) to distinguish between voice and music,
This is a detection function for converting into a signal necessary for controlling the acoustic filter FLT. DTCT is a parameter for averaging, dead zone Zded, threshold Lt.
hd, an averaging attack time constant TAavg and a release time constant TRavg.

【010】CTRLは検出機能の出力M(t)により、
入力音響信号の相関強度を判定し、または相関強度に対
応し[音響特性の制御に必要な]音響特性制御信号を発
生する制御機能である。FLTは音響特性を変える可変
定数フィルター機能である。
CTRL is determined by the output M (t) of the detection function.
This is a control function of determining the correlation strength of the input audio signal or generating an acoustic characteristic control signal [necessary for controlling the acoustic characteristic] corresponding to the correlation intensity. FLT is a variable constant filter function that changes acoustic characteristics.

【011】以下の説明で付番nは0,1,2のいずれか
であり同一番号は同ブロックに属する。[MPY_0、
LPF_0、RMS_0]からなるブロックは入力音響
信号の短時間平均強度P0(t)を出力する。乗算機能
MPY_0の2つの入力は、共に入力音響信号f(t)
である。したがってMPY_0の出力C0(t)はf
(t)の二乗であることから、全成分が有効成分であ
り、常に正の値である。平均化機能RMS_0の出力P
0(t)はC0(t)の短時間平均強度である。P0
(t)はf(t)とf(t−Dn)との相関強度の正規
化のために使われる。P0(t)のディメンジョンは音
響信号の自乗である。
In the following description, the number n is 0, 1, or 2, and the same number belongs to the same block. [MPY_0,
LPF_0, RMS_0] outputs the short-time average intensity P0 (t) of the input audio signal. The two inputs of the multiplication function MPY_0 are both input sound signals f (t).
It is. Therefore, the output C0 (t) of MPY_0 is f
Since it is the square of (t), all components are effective components and always have positive values. Output P of averaging function RMS_0
0 (t) is the short-time average intensity of C0 (t). P0
(T) is used for normalizing the correlation strength between f (t) and f (t-Dn). The dimension of P0 (t) is the square of the acoustic signal.

【012】[MPY_n、LPF_n、RMS_n]か
らなるブロックは入力音響信号f(t)と入力信号の遅
延信号f(t_Dn)の短時間平均相関強度Pn(t)
を出力する。乗算機能MPY_nの2つの入力の一方
は、入力音響信号f(t)であり他の一方はf(t)の
時間Dn遅れの遅延信号f(t−Dn)である。遅延時
間は本実施例では数十msec〜数百msecが実験
上、良好であることを確認している。MPY_nの出力
Cn(t)はf(t)とf(t−Dn)の積である。C
0(t)はf(t)の完全な二乗であるが、Cn(t)
は音響信号の全周波数帯において[位相と周波数が必ず
しも同じではない2個の信号の積]であることから[元
々の周波数の2倍の成分に近い周波数成分を含み、正負
に変化するところの無効成分]を多く含む。f(t)の
周期が安定しているほど、Cn(t)に含まれる[正ま
たは負]の有効成分は多くなる。
The block consisting of [MPY_n, LPF_n, RMS_n] is a short-time average correlation strength Pn (t) between the input acoustic signal f (t) and the delay signal f (t_Dn) of the input signal.
Is output. One of two inputs of the multiplication function MPY_n is an input sound signal f (t), and the other is a delay signal f (t-Dn) delayed by a time Dn of f (t). In this embodiment, it is confirmed by experiment that the delay time is several tens msec to several hundred msec. The output Cn (t) of MPY_n is the product of f (t) and f (t-Dn). C
0 (t) is the perfect square of f (t), but Cn (t)
Is the product of two signals whose phase and frequency are not necessarily the same in all frequency bands of the acoustic signal, and therefore contains a frequency component that is close to twice the original frequency and changes to positive or negative. Inactive ingredients]. As the period of f (t) becomes more stable, the number of [positive or negative] effective components contained in Cn (t) increases.

【013】一般的に、[音楽や音声]の信号は[弦や膜
や構造体の固有振動]により発生することから、信号は
自己相関強度を持ってる。従って、Cn(t)には[有
効成分すなわち低域成分]が含まれるが、音源の振動が
安定して持続しているほど有効成分が大きくなり、振動
に変化が大きいほど有効成分は小さくなる。音楽から音
声にかけて、その間に明確な境目はないが、一般的に、
音声は[音質や音程]の変化が複雑に大きく変化する傾
向にあり、音楽は[音質や音程]が安定している傾向に
ある。従ってP1(t)、P2(t)の大きさはP0
(t)よりも小さいのが一般的である。そして、その大
きさの度合いや時間変化の度合いの数値評価によって、
音声か音楽かの判定材料とする。
Generally, a signal of [music or voice] is generated by [a natural vibration of a string, a membrane, or a structure], so that the signal has an autocorrelation strength. Therefore, Cn (t) includes an [effective component, that is, a low-frequency component], but the effective component increases as the vibration of the sound source is stably maintained, and the effective component decreases as the change in the vibration increases. . From music to audio, there is no clear line between them, but in general,
Voice tends to have a large change in [sound quality and pitch] in a complicated manner, and music tends to have stable [sound quality and pitch]. Therefore, the magnitudes of P1 (t) and P2 (t) are P0
It is generally smaller than (t). And, by numerical evaluation of the degree of the magnitude and the degree of time change,
This is used as a material for determining whether the sound or the music.

【014】低域フィルター機能LFP_nはCn(t)
から無効成分を取り除き有効成分CLn(t)を取り出
す。低域フィルター機能LPF_nは通常、簡単な[1
次低域フィルターか2次低域フィルター]が使われる。
本実施例では、遮断周波数が1Hz〜20Hzの2次低
域フィルターである。LPF_nをどのような特性とす
るかについては本発明の本質とするところではないので
詳細説明を省略する。
The low-pass filter function LFP_n is Cn (t)
The inactive component is removed from, and the active component CLn (t) is extracted. The low pass filter function LPF_n is usually a simple [1
Second-order low-pass filter or second-order low-pass filter].
In this embodiment, the filter is a secondary low-pass filter having a cutoff frequency of 1 Hz to 20 Hz. Since the characteristics of the LPF_n are not the essence of the present invention, detailed description is omitted.

【015】平均化機能RMSnはCLn(t)の短時間
平均強度Pn(t)を取り出す。CLn(t)のディメ
ンジョンが2個の音響信号の乗算であることから、P0
(t)のディメンジョンと合わせなければならないこと
から、RMSnの機能は[絶対値の短時間平均値]が簡
単で有効である。RMSn(t)がどのような手法でC
Ln(t)の短時間平均強度を得るか、については本発
明の本質とするところではないので詳細説明を省略す
る。
The averaging function RMSn extracts the short-time average intensity Pn (t) of CLn (t). Since the dimension of CLn (t) is a multiplication of two acoustic signals, P0
Since the RMSn function must be matched with the dimension of (t), the short-time average of the absolute value is a simple and effective function of the RMSn. RMSn (t) determines how C
Since obtaining the short-time average intensity of Ln (t) is not the essence of the present invention, the detailed description is omitted.

【016】一連の信号処理には、ほとんどのケースでデ
ィジタルシグナルプロセッサが使われる。そして、この
種の信号処理に許されるコストが応用商品の性格上、数
十円(数十セント)程度であることから、計算工程と使
用するメモリー数を最小限としなければならない。一
方、音響信号の音質制御は人の感性に照らして高速であ
る必要はない。本実施例ではSMPLまでは音響データ
のサンプリング周期ごとに、その後の処理は50mse
c〜100msecごとのサンプリングによる計算によ
り判定している。SMPL_nでは、時間TSの間、P
n(t)を積分し、その結果をサンプリング値として出
力する。PS1(t)とPS2(t)の値の大きい方を
SGTが選択し、出力PS12(t)を得る。任意の周
波数範囲で正確に相関強度を得ることは計算量が多いこ
とから、実施例では2個の相関強度を計算し、いずれか
大きい方を選択することによって、少ない計算量で、実
用性を確保している。nの値が幾つであるか、について
は本発明の本質とするところではない。
In most cases, a digital signal processor is used for a series of signal processing. Since the cost allowed for this type of signal processing is about several tens of yen (several tens of cents) due to the nature of applied products, the number of calculation steps and the number of memories used must be minimized. On the other hand, it is not necessary to control the sound quality of the acoustic signal at a high speed in light of human sensitivity. In this embodiment, until the SMPL, every sampling cycle of the acoustic data, the subsequent processing is 50 ms.
The determination is made by calculation based on sampling every c to 100 msec. In SMPL_n, during time TS, P
n (t) is integrated, and the result is output as a sampling value. The SGT selects the larger value of PS1 (t) and PS2 (t), and obtains the output PS12 (t). Since obtaining the correlation strength accurately in an arbitrary frequency range requires a large amount of calculation, in the present embodiment, two correlation strengths are calculated, and by selecting the larger one, the practicality can be reduced with a small calculation amount. Is secured. The value of n is not the essence of the present invention.

【017】PL12(t)の大きさは入力信号の大きさ
に依存することから、正規化する意味でPL0(t)と
の比が必要である。PS12(t)/PS0(t)の値
を計算するよりも、{Log(PL12(t))}−
{Log(PL0(t))}が信号処理上、都合が良い
ことから、PS0(t)とPS12(t)については対
数演算機能LOG_0、LOG_12によって、対数変
換される。NRMは単なる減算工程で、その出力G
(t)はPL12(t)−PL0(t)であり、この値
は、Log{P12(t)/P0(t)}であり、元々
の信号の二乗平均値で正規化された、相関強度の短時間
平均である。従って、G(t)は入力信号の強度の影響
を受けない。
Since the magnitude of PL12 (t) depends on the magnitude of the input signal, a ratio with PL0 (t) is required for normalization. Rather than calculating the value of PS12 (t) / PS0 (t), {Log (PL12 (t))} −
Since {Log (PL0 (t))} is convenient for signal processing, PS0 (t) and PS12 (t) are logarithmically converted by logarithmic calculation functions LOG_0 and LOG_12. NRM is a mere subtraction process whose output G
(T) is PL12 (t) -PL0 (t), the value of which is Log {P12 (t) / P0 (t)}, the correlation strength normalized by the root mean square value of the original signal. Is the short-term average of Therefore, G (t) is not affected by the strength of the input signal.

【018】差分機能DIFFの出力H(t)はG(t)
−G(t−Ts)である。一般的に、音楽信号の場合は
ボーカルも含めてG(t)の大きさの対時間変化が小さ
く、ニュースや天気予報のなどの音声信号はG(t)の
大きさの対時間変化が大きい。この実施例では[G
(t)の大きさの時間変化の度合い]を音楽と音声の判
定に利用している。音楽と音声の判定について、G
(t)のどのような性質を使うかは本発明の本質とする
ところではない。SMPL_NはさらにH(t)を平滑
する。この実施例では、J(t)はH(t)+H(t−
TS)+H(t−2TS)+H(t−3TS)である
が、この平滑機能の有無または手法については本発明の
本質とするところではない。
The output H (t) of the difference function DIFF is G (t)
−G (t−Ts). Generally, in the case of a music signal, the change of the magnitude of G (t) with respect to time including vocals is small, and in the case of an audio signal such as a news or weather forecast, the change of the magnitude of G (t) with time is large. . In this embodiment, [G
(The degree of temporal change in the magnitude of (t)) is used for the determination of music and voice. About the judgment of music and voice, G
The nature of (t) to use is not the essence of the present invention. SMPL_N further smoothes H (t). In this embodiment, J (t) is H (t) + H (t−
TS) + H (t−2TS) + H (t−3TS), but the presence or absence or method of this smoothing function is not the essence of the present invention.

【019】DTCTは平均化出力J(t)を入力とし、
音質制御をしやすいような信号に、さらに平滑する機能
である。音響信号の統計的性質は常に大きく変動し、大
きく変動する値をそのまま音質制御信号として利用する
と、制御された音響信号は人の聴感に違和感を与える。
そのため、様様な平滑手法が使われるが、この実施例で
は判定のための中心値Lthdと不感帯Zdedを設
け、さらに、アタックタイムTAavgとレリースタイ
ムTRavg を持つ時定数機能により平滑し、音質制
御信号M(t)を生成する。DTCTの平滑機能の有無
または手法については本発明の本質とするところではな
い。
The DTCT receives an averaged output J (t) as an input,
This function is to further smooth the signal to make it easier to control the sound quality. The statistical properties of the sound signal always fluctuate greatly, and if a value that fluctuates greatly is used as it is as the sound quality control signal, the controlled sound signal gives a sense of incongruity to human hearing.
For this reason, various smoothing methods are used. In this embodiment, a center value Lthd and a dead zone Zded for determination are provided, and further, the sound quality control signal M is smoothed by a time constant function having an attack time TAavg and a release time TRavg. (T) is generated. The existence or method of the smoothing function of the DTCT is not the essence of the present invention.

【020】一般的に、音声の明瞭性を高くするには、音
声の認識に不必要な周波数成分である、ピッチ成分を取
り除くことが望ましい。このピッチ成分は音声のスペク
トル分布上、最も低音側に存在することから、低音域を
抑制することにより、明瞭性の向上を計る。音声のピッ
チ成分は個人差も大きく、また、マイクロホンの使い
方、マイクロホンの種類、放送のときの音響効果によっ
ても大きく左右されるが、いずれにしても、低音域の抑
制は明瞭度を向上させるに有効であることは周知されて
いる。従って、この実施例では、入力信号が音声である
と判定すれば、CTRは音響フィルターFLTを低音域
抑制の特性とするよう動作する。
Generally, in order to enhance the clarity of speech, it is desirable to remove pitch components, which are unnecessary frequency components for speech recognition. Since this pitch component exists on the lowest tone side in the voice spectrum distribution, the clarity is improved by suppressing the low tone range. The pitch component of voice varies greatly from person to person, and is greatly influenced by the use of microphones, the type of microphones, and the sound effects at the time of broadcasting.In any case, suppression of the low-frequency range improves clarity. It is well known that it is effective. Therefore, in this embodiment, if it is determined that the input signal is a voice, the CTR operates so that the acoustic filter FLT has characteristics of suppressing the low frequency range.

【021】遅延時間Dnの値をどのように選ぶかは本発
明の本質とすところではないが、Dnの値が音楽と音声
の識別の性能に影響することから、第1図の実施例での
Dnについて詳細説明を加える。実験の結果、Dnの平
均値はおおむね数十ミリ秒から数百ミリ秒が適当であ
る。このDnの平均時間が[短くなれば総じて有効成分
は多くなり]、[長くなれば総じて有効成分は少なくな
る]。音声においても、[ニュースなど幾分早い音声]
と[解説などの幾分遅い音声]では有効成分の大きさは
異なる。また、個人差も大きい。
How to select the value of the delay time Dn is not the essence of the present invention. However, since the value of Dn affects the performance of discriminating between music and voice, the embodiment of FIG. Dn will be described in detail. As a result of the experiment, it is appropriate that the average value of Dn is approximately several tens to several hundreds of milliseconds. The average time of this Dn is [the active ingredient generally increases as the length decreases] and [the active ingredient decreases as the length increases]. [Somewhat faster sound such as news]
And [somewhat slower sound such as commentary] have different active component sizes. Also, individual differences are large.

【022】[0222]

【表1】の説明 説明を簡単にするために、一例として、遅延時間D1を
100msecとし、D2を82msecとした場合の
図1の実施例の構成に基づく実施例で、信号が純粋な正
弦波の場合、音楽として検出できるところの計算上の期
待検出率を表1に示す。
Description of Table 1 For simplicity of explanation, as an example, in the embodiment based on the configuration of the embodiment of FIG. 1 where the delay time D1 is 100 msec and D2 is 82 msec, the signal is a pure sine wave. Table 1 shows the calculated expected detection rates that can be detected as music.

【023】表1の説明を簡単にするために、横方向にA
〜Fの列の記号、縦方向に1〜85の行の欄の名前を付
す。行1は示す数値が検出率(単位%)であることを示
す。行2は相関強度が0.5以上の強い相関を持ってい
るサンプルの数を示す。行3はサンプルの母数を示す。
A列の8〜85は12平均率音階上にある入力信号の周
波数を示す。B列の8〜85は遅延機能D1が82ms
ecの場合の元々の信号との相関強度である。C列の8
〜85はB列の相関強度が0.5以上のものについて
“1”のマークを記入してある。D列の8〜85は遅延
時間が100msecの場合の元々の信号との相関強度
である。E列の8〜85はD列の相関強度が0.5以上
のものについて“1”のマークを記入してある。F列
は、遅延時間が82msecと100msecの場合の
相関強度のいずれかが0.5以上のものについて“1”
のマークを記入してある。表に示すように、遅延時間が
82msecの場合、サンプル母数71に対し、音楽信
号としての検出数が50、その検出率は70.4(%)
である。遅延時間が100msecの場合、サンプル母
数71に対し、音楽信号としての検出数が50、その検
出率は70.4(%)である。遅延時間が82msec
と100msecの二つを採用したシステムでは、母数
71に対し、検出数66、検出率93.0(%)であ
る。以上は純粋な正弦波の場合である。
To simplify the description in Table 1, A
The names of the columns in columns F to F and the names of the columns in rows 1 to 85 in the vertical direction are given. Row 1 shows that the numerical value shown is the detection rate (unit%). Row 2 shows the number of samples having a strong correlation with a correlation strength of 0.5 or more. Row 3 shows the sample parameter.
8 to 85 in column A indicate the frequencies of the input signals on the 12-average scale. The delay function D1 is 82 ms for 8 to 85 in column B
ec is the correlation strength with the original signal. 8 in column C
Nos. To 85 are marked with "1" for those having a correlation intensity of row B of 0.5 or more. 8 to 85 in the D column indicate the correlation strength with the original signal when the delay time is 100 msec. In columns 8 to 85 in column E, "1" marks are entered for columns D having a correlation strength of 0.5 or more. The F column indicates “1” for one having a correlation strength of 0.5 or more when the delay time is 82 msec and 100 msec.
Is marked. As shown in the table, when the delay time is 82 msec, the number of detected music signals is 50 and the detection rate is 70.4 (%) with respect to the sample parameter 71.
It is. When the delay time is 100 msec, the number of detections as a music signal is 50 with respect to the sample parameter 71, and the detection rate is 70.4 (%). 82 msec delay time
In the system adopting the two parameters of 100 and 100 msec, the number of detections is 66 and the detection rate is 93.0 (%) with respect to the population parameter 71. The above is the case of a pure sine wave.

【024】[0243]

【表2】の説明 第1図の実施例について、実際の音楽信号と音声信号に
対する、実際の信号処理プログラムの性能を確認したも
のである。各数値のディメンジョンについては説明を省
略する。No.の縦列欄は信号の番号を示す。M/Sの
縦列欄はソース信号が音楽信号か音声信号かを示す。S
ourceの縦列欄はソース信号の種類を示す。付番_
Eはスピーチが英語、付番_JPはスピーチが日本語で
あることを示す。G(t)の縦列欄はそれぞれのソース
について、第1図の実施例中のブロックLOG_12の
出力G(t)を示す。H(t)の縦列欄はそれぞれのソ
ースについて、第1図の実施例中のブロックDIFFの
出力H(t)を示す。M(t)の縦列欄はそれぞれのソ
ースについて、第1図の実施例中のブロックDTCTの
出力M(t)を示す。
Description of Table 2 With respect to the embodiment of FIG. 1, the performance of an actual signal processing program for actual music signals and audio signals was confirmed. The description of the dimension of each numerical value is omitted. No. Column indicates signal numbers. The column of M / S indicates whether the source signal is a music signal or an audio signal. S
The column of source indicates the type of the source signal. Numbering_
E indicates that the speech is in English, and Numbering_JP indicates that the speech is in Japanese. The column of G (t) shows the output G (t) of the block LOG_12 in the embodiment of FIG. 1 for each source. The column of H (t) shows the output H (t) of the block DIFF in the embodiment of FIG. 1 for each source. The column of M (t) shows the output M (t) of the block DTCT in the embodiment of FIG. 1 for each source.

【025】表2中番号1〜9行は信号ソースが音楽の場
合のそれぞれG(t)、H(t)、M(t)、の値を示
す。表2中番号10〜20行は信号ソースが音声の場合
のそれぞれG(t)、H(t)、M(t)、の値を示
す。G(t)の値については音楽の場合は79.8〜1
15の範囲にあるが、音声の場合は165〜213の範
囲にあり、明確に判別されていることがわかる。H
(t)の値については音楽の場合は−17〜−26.8
の範囲にあるが、音声の場合は1.0〜13.1の範囲
にあり、明確に判別されていることがわかる。M(t)
の値については音楽の場合は−11.4〜−32.7の
範囲にあるが、音声の場合は7.0〜37.8の範囲に
あり、明確に判別されていることがわかる。これらの演
算結果がある範囲に分布しているのは、それぞれの信号
の持つ特徴の現れであって、実際は境界線は明確なもの
ではない。少なくとも、明確な音声は明確に音声と判定
され、明確な音楽は明確に音楽と判定される。このこと
は、本発明の本質を損ねるものではない。
The numbers 1 to 9 in Table 2 show the values of G (t), H (t) and M (t) when the signal source is music. Lines 10 to 20 in Table 2 show the values of G (t), H (t), and M (t) when the signal source is audio, respectively. The value of G (t) is 79.8-1 for music.
Although it is in the range of 15 and in the case of voice, it is in the range of 165 to 213, and it can be seen that it is clearly discriminated. H
The value of (t) is -17 to -26.8 in the case of music.
However, in the case of voice, it is in the range of 1.0 to 13.1, and it can be seen that it is clearly discriminated. M (t)
Is in the range of -11.4 to -32.7 in the case of music, but is in the range of 7.0 to 37.8 in the case of audio, which indicates that the value is clearly discriminated. The distribution of these calculation results in a certain range is a manifestation of the characteristics of each signal, and the boundaries are not clear in practice. At least, clear voice is clearly determined to be voice, and clear music is clearly determined to be music. This does not impair the essence of the present invention.

【026】[0262]

【発明の実施の形態】以下の例ような、音楽や音声を伝
達する装置。 1)コンピュータやDSPのプログラム 2)DSPPチップ 3)AV機器、ステレオ装置、テレビ、ラジオ、PAシ
ステムなど
BEST MODE FOR CARRYING OUT THE INVENTION An apparatus for transmitting music and voice as in the following example. 1) Computer and DSP programs 2) DSPP chips 3) AV equipment, stereo equipment, televisions, radios, PA systems, etc.

【027】[0279]

【発明の効果】1)本発明は公知の技術を組み合わせる
ことによって、音声の明瞭性を自動的に制御する機能で
あり、音楽を主体に作られた装置などにありがちな、音
声の明瞭性に欠ける音質を自動補正する。ニュース、天
気予報、株式情報など、内容の聞き取りが重要な場合、
便利である。特に[数値情報などに関する音声]や[短
時間に多くの内容を伝えている音声]に極めて有効であ
る。
As described above, the present invention is a function of automatically controlling the clarity of voice by combining known techniques. The clarity of voice, which is often found in devices mainly made of music, is improved. Automatically correct missing sound quality. When it ’s important to hear about news, weather, stocks, etc.
It is convenient. In particular, it is extremely effective for [speech related to numerical information and the like] and [speech that conveys many contents in a short time].

【028】[0285]

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の一実施例FIG. 1 shows an embodiment of the present invention.

【符号の説明】[Explanation of symbols]

以下の説明で付番nは0,1,2のいずれかである In the following description, the number n is 0, 1, or 2.

【INPUT】入力信号端子[INPUT] Input signal terminal

【f(t)】入力信号[F (t)] input signal

【Output】出力端子[Output] Output terminal

【F(t)】出力信号[F (t)] output signal

【DLY_n】遅延機能[DLY_n] delay function

【Dn】遅延時間[Dn] Delay time

【f(t−Dn)】遅延信号[F (t-Dn)] delay signal

【MPY_n】乗算器[MPY_n] Multiplier

【Cn(t)】乗算器の出力信号[Cn (t)] Multiplier output signal

【LPF】低域フィルター[LPF] Low pass filter

【LPF_n】低域フィルター[LPF_n] Low-pass filter

【FR】低域フィルターの遮断周波数[FR] Cutoff frequency of low-pass filter

【CLn(t)】低域フィルターの出力[CLn (t)] Output of low-pass filter

【RMS_n】短時間平均強度算出機能[RMS_n] Short-time average intensity calculation function

【Pn(t)】短時間平均強度機能の出力[Pn (t)] Output of short-time average intensity function

【SMPL】積分とサンプリング機能[SMPL] Integration and sampling function

【SMPL_n】積分とサンプリング機能[SMPL_n] Integration and sampling function

【TS】積分時間 または サンプリング周期[TS] Integration time or sampling cycle

【PSn(t)】サンプリング信号[PSn (t)] sampling signal

【SGT】大きい方の信号選択機能[SGT] Larger signal selection function

【PS12(t)】大きい方の信号[PS12 (t)] Larger signal

【LOG_0】対数演算機能[LOG_0] Logarithmic calculation function

【LOG_12】対数演算機能[LOG_12] Logarithmic operation function

【PL0(t)】基準相関強度[PL0 (t)] reference correlation strength

【PL12(t)】検出相関強度[PL12 (t)] detected correlation strength

【NRM】正規化機能[NRM] Normalization function

【G(t)】正規化された検出相関強度[G (t)] normalized detected correlation intensity

【DIFF】差分演算機能[DIFF] Difference calculation function

【H(t)】差分出力[H (t)] Difference output

【SMPL_N】積分とサンプリング機能[SMPL_N] Integration and sampling function

【N】TSの倍数の積分時間[N] Integration time of multiple of TS

【J(t)】NTS サンプリング周期の検出値[J (t)] N * TS Detected value of sampling period

【DTCT】平滑機能[DTCT] Smoothing function

【TAavg】アタック時定数[TAavg] Attack time constant

【TRavg】レリース時定数[TRavg] Release time constant

【Zded】検出不感帯[Zded] Detection dead zone

【Lthd】検出レベル[Lthd] Detection level

【M(t)】平滑機能の出力[M (t)] Output of smoothing function

【CTR】音響フィルターの制御機能[CTR] Acoustic filter control function

【FLT】制御を受けて、音声/音楽の最適特性を得
る、可変定数フィルター
[FLT] Variable constant filter under control to obtain optimal voice / music characteristics

【029】[0290]

【表の簡単な説明】[Brief explanation of the table]

【表1】図1の実施例の正弦波入力に対する検出部の応
Table 1 Response of the detection unit to the sine wave input of the embodiment of FIG.

【表2】図1の実施例の実信号入力に対する検出部の応
Table 2 Response of the detection unit to the actual signal input in the embodiment of FIG.

【030】[0302]

【表中の符号説明】[Explanation of symbols in table]

【信号周波数】入力信号が12平均率音階上の正弦波の
場合の信号の周波数
[Signal frequency] The frequency of the signal when the input signal is a sine wave on a 12-average scale

【遅延時間】図1のD1またはD2なる遅延時間[Delay time] Delay time of D1 or D2 in FIG.

【相関強度】純粋な自己相関係数[Correlation strength] Pure autocorrelation coefficient

【相関強度が0.5以上】1を最大とする自己相関係数
が0.5以上
[Correlation strength is 0.5 or more] The autocorrelation coefficient that maximizes 1 is 0.5 or more

【システムとして相関強度が0.5以上】遅延時間D
1、D2のどちらか大きい方
[The correlation strength is 0.5 or more as a system] Delay time D
1, whichever is greater, D2

【母数】サンプル数[Parameter] Number of samples

【相関強度が0.5以上の数】サンプル数の内、相関強
度が0.5以上の強いサンプルの数
[Number with correlation strength of 0.5 or more] Among the sample numbers, the number of strong samples with correlation strength of 0.5 or more

【検出率%】相関強度が0.5以上のサンプルの割合[Detection rate%] Percentage of samples with correlation strength of 0.5 or more

【No.】サンプルの番号の欄[No. ] Sample number column

【S】音楽か音声かの区別の欄[S] Field for distinction between music and voice

【Source】信号の種類を示す欄[Source] Column indicating signal type

【G(t)】図1の正規化機能NRMの出力[G (t)] Output of the normalization function NRM of FIG.

【H(t)】図1の差分機能DIFFの出力[H (t)] Output of the difference function DIFF of FIG.

【M(t)】図1の平滑機能DTCTの出力[M (t)] Output of the smoothing function DTCT of FIG.

Claims (2)

【特許請求の範囲】[Claims] 【請求項1】任意の音響信号を第1音響信号とし、第1
音響信号を入力とする1個または互いに遅延時間が異な
る複数個の遅延機能を第1遅延機能群とし、第1遅延機
能群のそれぞれの出力信号を第1遅延信号群とし、[第
1音響信号]と[個々の第1遅延信号群]との積を得る
機能を第1乗算機能群とし、第1乗算機能群の個々の出
力信号に対し[積分もしくは低域フィルタ]を作用させ
る機能を第1低域フィルタ機能群とし、第1低域フィル
タ機能群の個々の出力信号に対し任意の手法による[平
均値または実行値]を得る機能を第1平均化機能群と
し、第1平均化機能群のそれぞれの出力を第1相関強度
群とし、第1音響信号を入力とするところの[フィルタ
特性を可変できる機能]を第1可変フィルタ機能とす
る。少なくとも[第1遅延機能群と第1乗算機能群と第
1平均化機能群]を有することを第1の特徴とし[第1
相関強度群もしくは第1相関強度群に依存する]信号群
を[音楽と音声を識別]するところの信号として利用す
ることを第2の特徴とする、音楽信号と音声信号の識別
検出方式。
An arbitrary sound signal is set as a first sound signal, and
One or a plurality of delay functions having different delay times with an audio signal as an input are referred to as a first delay function group, and respective output signals of the first delay function group are referred to as a first delay signal group. ] And [individual first delay signal group] are referred to as a first multiplication function group, and a function of applying an [integration or low-pass filter] to each output signal of the first multiplication function group is referred to as a first multiplication function group. The first averaging function group is a function of obtaining an [average value or an execution value] by an arbitrary method for each output signal of the first low-pass filter function group. Each output of the group is referred to as a first correlation strength group, and a function of changing a filter characteristic, which receives a first acoustic signal as an input, is referred to as a first variable filter function. A first feature is that it has at least a [first delay function group, a first multiplication function group, and a first averaging function group].
A second feature is that a signal group is used as a signal for [discriminating between music and voice], and the signal group is dependent on the correlation strength group or the first correlation strength group.
【請求項2】上記請求項1の少なくとも[第1遅延機能
群と第1乗算機能群と第1平均化機能群]を有すること
を第1の特徴とし、[第1相関強度群もしくは第1相関
強度群に依存する]信号が第1可変フィルタ機能のフィ
ルタ特性を制御する構造を持つことを第2の特徴とする
音響信号制御方式。
2. A first feature of the present invention is that it has at least a [first delay function group, a first multiplication function group, and a first averaging function group]. The second characteristic is that the signal has a structure for controlling the filter characteristic of the first variable filter function.
JP2001217355A 2001-06-12 2001-06-12 System for identifying and detecting music and voice Pending JP2002366189A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001217355A JP2002366189A (en) 2001-06-12 2001-06-12 System for identifying and detecting music and voice

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001217355A JP2002366189A (en) 2001-06-12 2001-06-12 System for identifying and detecting music and voice

Publications (1)

Publication Number Publication Date
JP2002366189A true JP2002366189A (en) 2002-12-20

Family

ID=19051693

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001217355A Pending JP2002366189A (en) 2001-06-12 2001-06-12 System for identifying and detecting music and voice

Country Status (1)

Country Link
JP (1) JP2002366189A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006171458A (en) * 2004-12-16 2006-06-29 Sharp Corp Tone quality controller, content display device, program, and recording medium

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006171458A (en) * 2004-12-16 2006-06-29 Sharp Corp Tone quality controller, content display device, program, and recording medium

Similar Documents

Publication Publication Date Title
JP5141180B2 (en) Frequency band expanding apparatus, frequency band expanding method, reproducing apparatus and reproducing method, program, and recording medium
KR101101384B1 (en) Parameterized temporal feature analysis
RU2467406C2 (en) Method and apparatus for supporting speech perceptibility in multichannel ambient sound with minimum effect on surround sound system
EP2064918B1 (en) A hearing aid with histogram based sound environment classification
US8193436B2 (en) Segmenting a humming signal into musical notes
Hill et al. A hybrid virtual bass system for optimized steady-state and transient performance
MX2008013753A (en) Audio gain control using specific-loudness-based auditory event detection.
DE102012103553A1 (en) AUDIO SYSTEM AND METHOD FOR USING ADAPTIVE INTELLIGENCE TO DISTINCT THE INFORMATION CONTENT OF AUDIOSIGNALS IN CONSUMER AUDIO AND TO CONTROL A SIGNAL PROCESSING FUNCTION
EP2172930B1 (en) Audio signal processing device and audio signal processing method
EP0619041A1 (en) Speech information extractor
CN110248300B (en) Howling suppression method based on autonomous learning and sound amplification system
US20050147262A1 (en) Method for decreasing the dynamic range of a signal and electronic circuit
WO2023221559A1 (en) Karaoke audio processing method and apparatus, and computer-readable storage medium
CN111415644A (en) Audio comfort degree prediction method and device, server and storage medium
CN117544262A (en) Dynamic control method, device, equipment and storage medium for directional broadcasting
Kates et al. Integrating cognitive and peripheral factors in predicting hearing-aid processing effectiveness
CN112927713B (en) Audio feature point detection method, device and computer storage medium
Mu et al. An objective analysis method for perceptual quality of a virtual bass system
JP2002366189A (en) System for identifying and detecting music and voice
Master et al. Dialog Enhancement via Spatio-Level Filtering and Classification
EP3772224B1 (en) Vibration signal generation apparatus and vibration signal generation program
Lee et al. Effective bass enhancement using second-order adaptive notch filter
Hoffmann et al. Smart Virtual Bass Synthesis algorithm based on music genre classification
US6633847B1 (en) Voice activated circuit and radio using same
Hoffmann et al. Towards audio signal equalization based on spectral characteristics of a listening room and music content reproduced