JP2011247950A - Signal feature extraction device and signal feature extraction method - Google Patents

Signal feature extraction device and signal feature extraction method Download PDF

Info

Publication number
JP2011247950A
JP2011247950A JP2010118536A JP2010118536A JP2011247950A JP 2011247950 A JP2011247950 A JP 2011247950A JP 2010118536 A JP2010118536 A JP 2010118536A JP 2010118536 A JP2010118536 A JP 2010118536A JP 2011247950 A JP2011247950 A JP 2011247950A
Authority
JP
Japan
Prior art keywords
feature extraction
data
feature
signal
filter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010118536A
Other languages
Japanese (ja)
Other versions
JP5598815B2 (en
Inventor
Takumi Kobayashi
匠 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
Original Assignee
National Institute of Advanced Industrial Science and Technology AIST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Advanced Industrial Science and Technology AIST filed Critical National Institute of Advanced Industrial Science and Technology AIST
Priority to JP2010118536A priority Critical patent/JP5598815B2/en
Publication of JP2011247950A publication Critical patent/JP2011247950A/en
Application granted granted Critical
Publication of JP5598815B2 publication Critical patent/JP5598815B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

PROBLEM TO BE SOLVED: To provide a signal feature extraction device and signal feature extraction method for highly accurately extracting a feature from a signal such as an acoustic signal.SOLUTION: The signal feature extraction device includes: complex Fourier transformation means for transforming a digital input signal sampled only for a prescribed period into a frequency axis; and feature extraction means for extracting high-order local correlation feature data from data which is transformed by the complex Fourier transformation means. The device may include filter means for adding data by each prescribed band before/after the feature extraction means. Thus, a feature is highly accurately extracted from an audio or acoustic signal or another time series signal, so as to improve accuracy in identifying a signal with the feature in a phase.

Description

本発明は、信号特徴抽出装置および信号特徴抽出方法に関するものであり、特に音声、音響信号あるいはその他の時系列信号から特徴を抽出する信号特徴抽出装置および信号特徴抽出方法に関する。   The present invention relates to a signal feature extraction device and a signal feature extraction method, and more particularly to a signal feature extraction device and a signal feature extraction method for extracting features from speech, acoustic signals or other time series signals.

従来、例えば音声認識や機械の故障診断等のために、音声あるいはその他の音響信号から音源を認識、識別する技術が各種提案されている。下記特許文献1にはこのような音源の識別方法の一例が開示されている。この音源の識別方法は、機械装置からの音響信号を高速フーリエ変換して周波数スペクトルを求め、次にこの周波数スペクトルに対してファジィルールによるフィルタリング処理を行うことにより、周波数スペクトルの特徴部を抽出する。   Conventionally, various techniques for recognizing and identifying a sound source from voice or other acoustic signals have been proposed for voice recognition, machine failure diagnosis, and the like. Patent Document 1 below discloses an example of such a sound source identification method. In this sound source identification method, a frequency spectrum is obtained by performing a fast Fourier transform on an acoustic signal from a mechanical device, and then the frequency spectrum is subjected to filtering processing by a fuzzy rule to extract a characteristic portion of the frequency spectrum. .

次に、この抽出されたスペクトルデータを階層型ニューラルネットワークに入力し、この階層型ニューラルネットワーク内で、上記スペクトルデータに基づき演算された演算データと予め記憶されている判断用データとを比較するとともに、この比較データを所定の評価関数により判断して音源を識別する際に、上記判断用データを入力されたスペクトルデータに応じて切り換える。   Next, the extracted spectrum data is input to the hierarchical neural network, and the calculation data calculated based on the spectrum data is compared with the judgment data stored in advance in the hierarchical neural network. When the comparison data is judged by a predetermined evaluation function to identify the sound source, the judgment data is switched according to the input spectrum data.

特開平8−44695号公報JP-A-8-44695

前記した従来の信号特徴抽出方法においては、下記のような問題点があった。
(1)信号に含まれる各周波数成分の位相情報が抽出されておらず、位相に特徴がある信号の識別精度が低かった。
(2)各周波数成分からの線形特徴を抽出しており、周波数間での関係性に注目した特徴量はほとんど提案されていない。
The above-described conventional signal feature extraction method has the following problems.
(1) The phase information of each frequency component included in the signal has not been extracted, and the identification accuracy of the signal characterized by the phase was low.
(2) Linear features are extracted from each frequency component, and few feature quantities that focus on the relationship between frequencies have been proposed.

本発明の目的は、前記のような従来技術の問題点を解決し、音声、音響信号あるいはその他の時系列信号から高精度に特徴を抽出する信号特徴抽出装置および信号特徴抽出方法を提供することにある。   An object of the present invention is to provide a signal feature extraction apparatus and a signal feature extraction method for solving features of the prior art as described above and extracting features with high accuracy from speech, acoustic signals or other time series signals. It is in.

本発明の信号特徴抽出装置は、所定期間だけサンプリングされたデジタル入力信号を周波数軸に変換する複素フーリエ変換手段と、前記複素フーリエ変換手段において変換されたデータから高次局所相関特徴データを抽出する特徴抽出手段とを備えたことを主要な特徴とする。   The signal feature extraction apparatus of the present invention extracts a complex Fourier transform means for converting a digital input signal sampled for a predetermined period into a frequency axis, and extracts higher-order local correlation feature data from the data transformed by the complex Fourier transform means. The main feature is the provision of a feature extraction means.

また、前記した信号特徴抽出装置において、前記高次局所相関特徴は、時間軸および周波数軸にそって2次元に配列された多数のデータの内の1つに注目し、その注目データと予め定められたマスクパターンによって決定される近傍のデータとの相関値を算出するものである点にも特徴がある。   In the signal feature extraction apparatus described above, the higher-order local correlation feature focuses on one of a large number of data arranged two-dimensionally along the time axis and the frequency axis, and is determined in advance as the attention data. Another feature is that a correlation value with neighboring data determined by the mask pattern is calculated.

また、前記した信号特徴抽出装置において、前記高次局所相関特徴は、フーリエ変換手段から入力された複素データの位相情報をベクトル表現に変換するベクトル変換手段を備えている点にも特徴がある。   In the signal feature extraction apparatus described above, the higher-order local correlation feature is characterized in that it includes a vector conversion unit that converts phase information of complex data input from the Fourier transform unit into a vector representation.

また、前記した信号特徴抽出装置において、複数のバンドパスフィルターからなるフィルターバンクを適用可能であり、入力されたデータに重みを乗算して加算し、出力する複数のバンドパスフィルター手段が、前記複素フーリエ変換手段と前記特徴抽出手段の間に、あるいは前記特徴抽出手段の後に配置される点にも特徴がある。   In the signal feature extraction apparatus described above, a filter bank composed of a plurality of bandpass filters can be applied, and a plurality of bandpass filter means for multiplying and adding the input data to the weighted data and outputting the data, There is also a feature in that it is arranged between the Fourier transform means and the feature extraction means or after the feature extraction means.

また、前記した信号特徴抽出装置において、前記フィルター手段は、入力信号を参照して、各バンドパスフィルターの帯域幅が振幅の時間平均値の周波数分布が一様になるように決定された分布平滑化フィルターである点にも特徴がある。   In the signal feature extraction apparatus described above, the filter means refers to the input signal, and the distribution smoothing in which the bandwidth of each bandpass filter is determined so that the frequency distribution of the time average value of the amplitude is uniform. Another characteristic is that it is a filter.

また、前記した信号特徴抽出装置において、前記特徴抽出手段の後にあるいは前記フィルター手段の後に振幅情報の対数変換手段が配置された点にも特徴がある。   Further, the signal feature extraction device described above is characterized in that logarithmic conversion means for amplitude information is arranged after the feature extraction means or after the filter means.

本発明の信号特徴抽出方法は、所定期間だけサンプリングされたデジタル入力信号を周波数軸に変換する複素フーリエ変換処理を行うステップと、前記複素フーリエ変換処理において変換されたデータから高次局所相関特徴データを抽出する特徴抽出処理を行うステップとを含むことを主要な特徴とする。   The signal feature extraction method of the present invention includes a step of performing a complex Fourier transform process for converting a digital input signal sampled for a predetermined period into a frequency axis, and higher-order local correlation feature data from the data transformed in the complex Fourier transform process. And a step of performing a feature extraction process for extracting.

本発明の信号特徴抽出装置および信号特徴抽出方法には以下のような効果がある。
(1)音声、音響信号あるいはその他の時系列信号から高精度に特徴を抽出することができ、位相に特徴がある信号の識別精度が向上する。
(2)高次局所自己相関により、周波数間の関係性を効果的に抽出することが可能となり、識別精度が向上する。
The signal feature extraction apparatus and signal feature extraction method of the present invention have the following effects.
(1) Features can be extracted with high accuracy from speech, acoustic signals, or other time-series signals, and the identification accuracy of signals having characteristics in phase is improved.
(2) The high-order local autocorrelation can effectively extract the relationship between frequencies, and the identification accuracy is improved.

図1は本発明の信号特徴抽出装置のハードウェア構成を示すブロック図である。FIG. 1 is a block diagram showing a hardware configuration of a signal feature extraction apparatus according to the present invention. 図2は本発明の信号特徴抽出方法を使用した信号認識処理の内容を示すフローチャートである。FIG. 2 is a flowchart showing the contents of signal recognition processing using the signal feature extraction method of the present invention. 図3はフーリエ変換処理の内容を示す説明図である。FIG. 3 is an explanatory diagram showing the contents of the Fourier transform process. 図4は本発明の特徴抽出処理において使用するマスクパターンの内容を示す説明図である。FIG. 4 is an explanatory diagram showing the contents of the mask pattern used in the feature extraction processing of the present invention. 図5は本発明のフェーズインデックスHLACにおける量子化方法(1)を示す説明図である。FIG. 5 is an explanatory diagram showing a quantization method (1) in the phase index HLAC of the present invention. 図6は本発明のフェーズインデックスHLACにおける量子化方法(2)を示す説明図である。FIG. 6 is an explanatory diagram showing the quantization method (2) in the phase index HLAC of the present invention. 図7はMelフィルターの特性例を示す説明図である。FIG. 7 is an explanatory diagram showing a characteristic example of the Mel filter.

以下に、この発明の実施の形態を実施例によって、図面に基づき詳細に説明する。なお、実施例においては音をマイクにて入力する例を開示するが、本発明はコンピューターに入力可能な任意の電気信号に適用可能である。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. In addition, although the example which inputs a sound with a microphone is disclosed in the Example, this invention is applicable to the arbitrary electric signals which can be input into a computer.

図1は本発明の信号特徴抽出装置のハードウェア構成を示すブロック図である。マイク10は例えば対象物から発生する可聴音を電気信号に変換し、コンピューター11に出力する。コンピューター11は例えば音信号を取り込むためのインターフェイス回路(マイク入力回路:サンプリング、A/D変換回路)を備えた周知のパソコン(PC)であってもよい。本発明は、パソコンなどの周知の任意のコンピューター11に後述する処理を実行するプログラムを作成、インストールすることにより実現される。   FIG. 1 is a block diagram showing a hardware configuration of a signal feature extraction apparatus according to the present invention. The microphone 10 converts, for example, audible sound generated from an object into an electric signal and outputs it to the computer 11. The computer 11 may be, for example, a known personal computer (PC) provided with an interface circuit (microphone input circuit: sampling, A / D conversion circuit) for capturing a sound signal. The present invention is realized by creating and installing a program for executing processing to be described later on any known computer 11 such as a personal computer.

モニタ装置12はコンピューター11の周知の出力装置であり、例えば対象物が発する音の種別などの認識結果等をオペレータに表示するために使用される。キーボード13およびマウス14は、オペレータが入力に使用する周知の入力装置である。   The monitor device 12 is a well-known output device of the computer 11 and is used, for example, to display a recognition result or the like of the type of sound emitted by the object to the operator. The keyboard 13 and the mouse 14 are well-known input devices used for input by the operator.

図2(a)は本発明の信号特徴抽出方法を使用した信号認識処理(1)の内容を示すフローチャートである。S10においては、マイク10から入力されたアナログ信号が所定の周期でサンプリングされ、A/D変換されたデジタル信号データから、移動する時間窓を用いた公知の複素フーリエ変換処理を行う。   FIG. 2A is a flowchart showing the contents of the signal recognition process (1) using the signal feature extraction method of the present invention. In S10, the analog signal input from the microphone 10 is sampled at a predetermined cycle, and A / D converted digital signal data is subjected to a known complex Fourier transform process using a moving time window.

図3はフーリエ変換処理の内容を示す説明図である。マイク10から入力されたアナログ信号は所定の周期(例えば50μ秒(サンプリング周波数20kHz))でサンプリングされ、A/D変換されて、一旦保存される。このデジタル信号データは所定の長さ(例えば数秒)の時間窓を用いて切り出され、公知の短時間複素フーリエ変換処理によって、下記の数式1に示す周波数軸上の複数の離散複素数値Fに変換される。なお、Aはその周波数成分の振幅、θは位相を表している。   FIG. 3 is an explanatory diagram showing the contents of the Fourier transform process. The analog signal input from the microphone 10 is sampled at a predetermined period (for example, 50 μsec (sampling frequency 20 kHz)), A / D converted, and temporarily stored. This digital signal data is cut out using a time window of a predetermined length (for example, several seconds) and converted into a plurality of discrete complex values F on the frequency axis shown in the following equation 1 by a known short-time complex Fourier transform process. Is done. A represents the amplitude of the frequency component, and θ represents the phase.

Figure 2011247950
Figure 2011247950

時間窓は1〜複数サンプリング周期毎に移動され、所定の期間(例えば数十秒)だけフーリエ変換処理が行われる。この結果、図3右側に示すような、時間軸および周波数軸にそって配列された多数の複素数データFが得られる。   The time window is moved every one to a plurality of sampling periods, and the Fourier transform process is performed for a predetermined period (for example, several tens of seconds). As a result, a large number of complex data F arranged along the time axis and the frequency axis as shown on the right side of FIG. 3 is obtained.

S11においては、特徴抽出処理として、(1)フーリエHLAC(Fourier HLAC、以下FHLACと記す)、(2)フェーズインデックスHLAC(Phase
Index HLAC、以下PHLAC)と記す)のいずれか1つの特徴データを算出する。
In S11, as feature extraction processing, (1) Fourier HLAC (Fourier HLAC, hereinafter referred to as FHLAC), (2) Phase index HLAC (Phase
Index HLAC (hereinafter referred to as PHLAC)) is calculated.

(1)FHLAC:
FHLACは本発明者が発明したフーリエ高次局所自己相関特徴である。まず、図3右側に示された時間軸および周波数軸にそって配列された多数の複素数データFの内の1つに注目し、その注目複素数データと予め定められたマスクパターンによって決定される近傍の複素数データとの相関値を算出する。この処理を全てのマスクパターンについて実行することによって、1つの注目複素数データに関して、マスクパターンの数と等しい複数の複素数データXの集合からなる特徴データが得られる。
(1) FHLAC:
FHLAC is a Fourier higher order local autocorrelation feature invented by the inventors. First, pay attention to one of a large number of complex data F arranged along the time axis and the frequency axis shown on the right side of FIG. 3, and the neighborhood determined by the complex data of interest and a predetermined mask pattern. The correlation value with the complex number data is calculated. By executing this process for all mask patterns, feature data consisting of a set of a plurality of complex data X equal to the number of mask patterns is obtained for one target complex data.

図4は本発明の特徴抽出処理において使用するマスクパターンの内容を示す説明図である。マスクパターンの決定においては注目データを中心とする3×3の正方形の内部に限定し、中心の注目データは必ず1回以上選択されるものとする。また、上下左右および斜め方向に並行移動して重なるマスクパターンは注目データを移動させれば重複するので1つを残して他を削除する。   FIG. 4 is an explanatory diagram showing the contents of the mask pattern used in the feature extraction processing of the present invention. In determining the mask pattern, it is limited to the inside of a 3 × 3 square centering on the attention data, and the attention data at the center is always selected at least once. In addition, mask patterns that overlap by moving in parallel in the up / down / left / right and diagonal directions overlap if the data of interest is moved.

この重複排除の結果、中心および他の1点を選択する1次のマスクパターンが(1)〜(4)の4種類、中心および他の2点を選択する2次のマスクパターンが(1)〜(20)の20種類残る。また、中心を2回選択する1次のマスクパターン(5)が1種類、中心を2回および他の1点を選択する2次のマスクパターン(21)〜(28)が8種類、中心を3回選択する2次のマスクパターン(29)が1種類存在する。
マスクパターンの黒丸●のある位置の複素数データ同士の相関値が算出される。同じ位置に2個以上の黒丸●があるときは、その値が2個以上あると考えて他と同様に相関を取る(自分自身を2回以上かける)。なお、特徴データの抽出には1次あるいは2次マスクの一方のみを使用してもよいし、1次および2次マスクの双方を使用してもよい。
As a result of this de-duplication, there are four types of primary mask patterns (1) to (4) for selecting the center and another one point, and a secondary mask pattern for selecting the center and the other two points (1). 20 types of (20) remain. In addition, there are one type of primary mask pattern (5) for selecting the center twice, eight types of secondary mask patterns (21) to (28) for selecting the center twice and another point, and the center. There is one type of secondary mask pattern (29) selected three times.
Correlation values between complex number data at positions with black circles ● in the mask pattern are calculated. If there are two or more black circles ● at the same position, consider that there are two or more values and correlate like the others (multiply yourself twice or more). Note that only one of the primary and secondary masks may be used for extracting feature data, or both the primary and secondary masks may be used.

1次および2次のマスクパターンを用いた1次および2次相関の演算式を下記の数式2、3に示す。演算においては一方の複素数の虚数の正負を反転させる複素共役をとっており、(Fの上部のバーで表現)相関値も複素数である。1次相関値の位相情報はその周波数成分の位相の1次微分情報を示しており、2次相関値の位相情報はその周波数成分の位相の2次微分情報を示している。
なお、図4のパターン(5)、(29)など、自分自身のみのマスクパターンの場合には、実数値の特徴が得られ、これは従来のパワースペクトル特徴に一致する。
Equations 2 and 3 below show arithmetic expressions for primary and secondary correlations using primary and secondary mask patterns. In the calculation, a complex conjugate that reverses the sign of the imaginary number of one complex number is taken, and the correlation value (represented by a bar above F) is also a complex number. The phase information of the primary correlation value indicates the primary differential information of the phase of the frequency component, and the phase information of the secondary correlation value indicates the secondary differential information of the phase of the frequency component.
In the case of a mask pattern only for itself, such as the patterns (5) and (29) in FIG. 4, a real-valued feature is obtained, which matches the conventional power spectrum feature.

Figure 2011247950
Figure 2011247950

Figure 2011247950
Figure 2011247950

なお、上記数式2、3においては複数の振幅Aを乗算しているが、演算は乗算以外に、*(内積)、min(A,B)(A、Bの小さい方)などであってもよい。従って、演算を任意の関数fとすれば以下の数式4、5のように表現できる。   In the above formulas 2 and 3, a plurality of amplitudes A are multiplied. However, in addition to multiplication, the calculation may be * (inner product), min (A, B) (the smaller of A and B), etc. Good. Therefore, if the calculation is an arbitrary function f, it can be expressed as the following formulas 4 and 5.

Figure 2011247950
Figure 2011247950

Figure 2011247950
Figure 2011247950

注目複素数データを周波数軸および時間軸方向に走査(スキャン)して全ての複素数データFについて上記の処理を行って複素数データXの集合を求めたものがFHLACである。   The FHLAC is a set of complex data X obtained by scanning the complex data of interest in the frequency axis and time axis directions and performing the above processing on all the complex data F.

(2)PHLAC:
PHLACはやはり本発明者が発明したフーリエ高次局所自己相関特徴である。図3右側に示された時間軸および周波数軸にそって2次元に配列された多数の複素数データFの1つに注目し、その注目複素数データと予め定められたマスクパターンによって決定される近傍の複素数データとの相関値を算出する。この際、各複素数データについて位相情報を量子化表現(ベクトル表現)に変換してから相関をとる。
なお、PHLACにおいては、自分自身を2回以上選択する相関(図4のマスクパターン(5)、(21)〜(29))はとらない。
(2) PHLAC:
PHLAC is also a Fourier higher order local autocorrelation feature invented by the inventors. Attention is paid to one of a large number of complex data F arranged two-dimensionally along the time axis and the frequency axis shown on the right side of FIG. 3, and the vicinity of the neighborhood determined by the complex data of interest and a predetermined mask pattern. A correlation value with complex number data is calculated. At this time, the phase information is converted into a quantized expression (vector expression) for each complex number data, and then correlation is obtained.
In PHLAC, the correlation (mask patterns (5), (21) to (29) in FIG. 4) for selecting itself twice or more is not taken.

図5は本発明のPHLAC(フェーズインデックスHLAC)における量子化方法(1)を示す説明図である。前記した数式1の複素数Fを複素平面上で表すと、図5左側に示すように表すことができる。ここで、位相θは、それぞれが均等な角度だけ他と方向が異なる複数(図5では8個)の基準方向(1〜8)の内、複素数Fを挟む2個の基準方向の重み付け和によって表すことができる。   FIG. 5 is an explanatory diagram showing a quantization method (1) in PHLAC (phase index HLAC) of the present invention. When the complex number F of Equation 1 is expressed on the complex plane, it can be expressed as shown on the left side of FIG. Here, the phase θ is determined by a weighted sum of two reference directions sandwiching a complex number F among a plurality (eight in FIG. 5) of reference directions (1 to 8) that are different in direction from each other by an equal angle. Can be represented.

例えば図5に示す複素数Fの場合には、θがベクトル2と3のちょうど中間にあるので、ベクトル2とベクトル3の重みがそれぞれ0.5、他の重みは0である8個の実数によって表すことができる。そこでこの8個の重み値を8次元のベクトルhとすると、複素数Fは以下の数式6のように表わされる。   For example, in the case of the complex number F shown in FIG. 5, since θ is exactly in the middle of the vectors 2 and 3, the weights of the vectors 2 and 3 are 0.5 and the other weights are 0, respectively. Can be represented. Therefore, assuming that these eight weight values are an eight-dimensional vector h, the complex number F is expressed by the following Equation 6.

Figure 2011247950
Figure 2011247950

ここで、数式6の表現を使用し、前記した1次および2次のマスクパターンを用いた1次および2次相関の演算式を下記の数式7、8に示す。なお、関数fは前記したものと同一である。   Here, using the expression of Formula 6, the primary and secondary correlation calculation formulas using the primary and secondary mask patterns are shown in Formulas 7 and 8 below. The function f is the same as described above.

Figure 2011247950
Figure 2011247950

Figure 2011247950
Figure 2011247950

演算は数式7においてはベクトルの外積(outer-product)となり、数式8においてはテンソル積となる。数式7の1つのマスクパターンと対応する1次相関特徴は8×8個の実数値からなるベクトル、数式8の1つのマスクパターンと対応する2次相関特徴は8×8×8個の実数値からなるベクトルとなる。   The calculation is a vector outer product in Equation 7, and a tensor product in Equation 8. The primary correlation feature corresponding to one mask pattern of Formula 7 is a vector composed of 8 × 8 real values, and the secondary correlation feature corresponding to one mask pattern of Formula 8 is 8 × 8 × 8 real values. A vector consisting of

次に、PHLACの変形例について説明する。上記したPHLACにおいては位相θを8次元のベクトルhによる量子化表現に変換する例を開示したが、数式4あるいは5に示す複素数データXの位相差分情報をベクトルhを用いた量子化表現に変換することも可能である。   Next, a modified example of PHLAC will be described. In the above-described PHLAC, the example in which the phase θ is converted into the quantized representation by the 8-dimensional vector h has been disclosed. However, the phase difference information of the complex number data X shown in Equation 4 or 5 is converted into the quantized representation using the vector h. It is also possible to do.

下記の数式9においては数式4の位相差分情報を8次元のベクトルhによる量子化表現に変換している。また、下記の数式10においては数式5の位相情報を2つの位相差分情報の和に変形し、2個の8次元のベクトルhの積による量子化表現に変換している。数式9、10においては数式4、5よりも次元が低下し、データ量が減少している。   In the following Expression 9, the phase difference information of Expression 4 is converted into a quantized expression by an 8-dimensional vector h. In Expression 10 below, the phase information of Expression 5 is transformed into the sum of two pieces of phase difference information, and converted into a quantized expression by the product of two 8-dimensional vectors h. In Equations 9 and 10, the dimensions are lower than those in Equations 4 and 5, and the data amount is reduced.

Figure 2011247950
Figure 2011247950

Figure 2011247950
Figure 2011247950

次に、PHLACの他の変形例について説明する。上記したPHLACにおいては位相情報θを量子化表現に変換する例を開示したが、この変形例は位相情報の代わりに位相の周波数微分値である群遅延あるいは位相の時間微分値である瞬時周波数を用いる。   Next, another modification of PHLAC will be described. In the above-described PHLAC, an example in which the phase information θ is converted into a quantized expression has been disclosed. However, in this modification, an instantaneous frequency which is a group delay that is a phase frequency differential value or a time differential value of a phase is used instead of the phase information. Use.

図6は本発明のフェーズインデックスHLACにおいて、位相情報の代わりに群遅延あるいは瞬時周波数を用いる場合の量子化方法を示す説明図である。群遅延あるいは瞬時周波数は周期性のない値であるので、最小値と最大値の間を複数の区間に分割し、量子化する。   FIG. 6 is an explanatory diagram showing a quantization method when a group delay or an instantaneous frequency is used instead of phase information in the phase index HLAC of the present invention. Since the group delay or instantaneous frequency is a value having no periodicity, the minimum value and the maximum value are divided into a plurality of sections and quantized.

群遅延あるいは瞬時周波数の値(θハット)は、複数(図6では8個)の基準値(1〜8)の内、群遅延あるいは瞬時周波数の値(θハット)を挟む2個の基準値の重み付け和によって表すことができる。そこでこの8個の重み値を上述した8次元のベクトルhとする。以下は前述した処理と同一である。最小値、最大値、区間の分け方は学習データ(入力信号データ)から決定してもよいし、事前にパラメータとして与えてもよい。   The group delay or instantaneous frequency value (θ hat) is two reference values sandwiching the group delay or instantaneous frequency value (θ hat) among a plurality (eight in FIG. 6) of reference values (1 to 8). Can be represented by a weighted sum of Therefore, these eight weight values are set as the above-described 8-dimensional vector h. The following is the same as the processing described above. The method of dividing the minimum value, maximum value, and section may be determined from learning data (input signal data), or may be given as a parameter in advance.

S12においてはフィルター処理として(1)分布平滑化フィルター処理、(2)Melフィルター処理のいずれかを行う。フィルター処理においては、複数のバンドパスフィルター機能を使用して下記の数式11に示す演算が行われる。各バンドパスフィルターは入力されたデータに重みを乗算して加算(積算、合算)し、出力する。なお、wはフィルターの重みである。この結果、特徴データXの周波数方向のデータ数がフィルターの数に減少する。   In S12, either (1) distribution smoothing filter processing or (2) Mel filter processing is performed as filter processing. In the filter processing, the calculation shown in the following Expression 11 is performed using a plurality of bandpass filter functions. Each bandpass filter multiplies the input data by the weight and adds (accumulates and adds) and outputs the result. W is the weight of the filter. As a result, the number of data in the frequency direction of the feature data X is reduced to the number of filters.

Figure 2011247950
Figure 2011247950

Melフィルター処理:
図7はMelフィルターの特性例を示す説明図である。公知のMelフィルターは、複数のバンドパスフィルターからなるフィルターバンクである。各フィルターの特性は図7に示すような3角形の形をしており、それぞれのフィルターの重みを積分した値は同一となっている。
Mel filter processing:
FIG. 7 is an explanatory diagram showing a characteristic example of the Mel filter. A known Mel filter is a filter bank composed of a plurality of bandpass filters. The characteristic of each filter has a triangular shape as shown in FIG. 7, and the integrated value of the weight of each filter is the same.

各フィルターの中心周波数の間隔は周波数が高くなるほど広くなっており、周波数軸を対数スケールで表わした場合に、Melフィルターの各フィルターの中心周波数は等間隔に配置されている。また、各フィルターの帯域幅も同じ幅になる。   The intervals between the center frequencies of the filters become wider as the frequency becomes higher. When the frequency axis is expressed in a logarithmic scale, the center frequencies of the filters of the Mel filter are arranged at equal intervals. Also, the bandwidth of each filter is the same.

分布平滑化フィルター処理:
前記したMelフィルターは各バンドパスフィルターの中心周波数が対数スケールにおいて等間隔に配置されているが、信号によってはこれが最適な配置とは限らない。そこで、本発明者は以下に示す分布平滑化フィルターを発明した。この分布平滑化フィルターにおいては、Melフィルターと同様に複数のバンドパスフィルターからなるフィルターバンクを用いる。
Distribution smoothing filter processing:
In the above-described Mel filter, the center frequencies of the bandpass filters are arranged at regular intervals on a logarithmic scale, but this is not always the optimal arrangement depending on the signal. Therefore, the present inventor has invented the following distribution smoothing filter. In this distributed smoothing filter, a filter bank composed of a plurality of band pass filters is used in the same manner as the Mel filter.

分布平滑化フィルターの各バンドパスフィルターの帯域幅は、入力信号の特性に合わせて以下のように決定される。まず、下記の数式12によって、複素数データFの振幅AからH、qを求める。Hは周波数kのヒストグラム値(=振幅の時間平均値)であり、qは周波数軸におけるHの累積分布関数となる。また、gは任意の関数であり、対数(log)関数あるいは閾値をもつステップ関数などでもよい。   The bandwidth of each bandpass filter of the distributed smoothing filter is determined as follows according to the characteristics of the input signal. First, H and q are obtained from the amplitude A of the complex number data F by the following Expression 12. H is a histogram value of frequency k (= time average value of amplitude), and q is a cumulative distribution function of H on the frequency axis. Further, g is an arbitrary function, and may be a logarithmic (log) function or a step function having a threshold value.

Figure 2011247950
Figure 2011247950

このqは、周波数kが増加するに従って0から1まで単調増加する関数である。このqによって周波数軸を変換すると、振幅の小さい帯域は狭くなり、振幅の大きな帯域は広くなるので、変換された周波数軸を均等に区切ると、各区間における振幅の加算値が同一(一様分布)になるような新たな周波数軸が得られる。この新たな周波数軸上で均等な重みとなる、即ち、各バンドパスフィルターの中心周波数の間隔が均等であり、かつフィルター特性の形状も同一となるようなフィルター群を構成する。   This q is a function that monotonously increases from 0 to 1 as the frequency k increases. When the frequency axis is converted by q, the band with small amplitude becomes narrow and the band with large amplitude becomes wide. Therefore, when the converted frequency axis is equally divided, the added value of the amplitude in each section is the same (uniform distribution) A new frequency axis can be obtained. A filter group is formed in which the weights are even on the new frequency axis, that is, the intervals between the center frequencies of the bandpass filters are equal, and the filter characteristics have the same shape.

具体的には、例えばこのqの値を均等に分割する点(例えば10等分であれば、0、0.1、0.2…0.9、1.0)の周波数を求め、この周波数を各バンドパスフィルターの境界の周波数あるいは中心周波数とする。
フィルターをこのように構成すれば、入力信号の特性に合わせて、振幅の大きな帯域はバンドパスフィルターの帯域幅が狭くなり、特徴を細かく抽出することができる。従って、認識、識別精度が向上する。
Specifically, for example, the frequency of a point that equally divides the value of q (for example, 0, 0.1, 0.2,... Is the boundary frequency or center frequency of each bandpass filter.
If the filter is configured in this manner, the bandwidth of the band-pass filter becomes narrow in the band having a large amplitude in accordance with the characteristics of the input signal, and the feature can be extracted finely. Therefore, recognition and identification accuracy are improved.

S13においては、必要に応じて振幅Aについて対数変換を行う。この処理によって例えば大きな雑音の影響を抑制することができる。   In S13, logarithmic conversion is performed on the amplitude A as necessary. By this processing, for example, the influence of large noise can be suppressed.

S14においては、抽出された特徴データに基づき、公知の認識、識別処理が行われる。例えばxiを時間窓を用いて得られた学習用の特徴ベクトル群であるとすると、xiに対して主成分分析(フーリエHLACの場合には複素固有値問題になる。)を行うことによって、学習データに頻繁に含まれる(正常な)特徴ベクトルの張る空間Vが求まる。そして、入力特徴ベクトルをxとするとき、以下に示す数式13によってd2を求め、この値の大小によって異音かどうか、即ち故障か否かを判定する。 In S14, known recognition and identification processing is performed based on the extracted feature data. For example, if xi is a feature vector group for learning obtained using a time window, learning data is obtained by performing principal component analysis (in the case of Fourier HLAC, a complex eigenvalue problem) on xi. A space V spanned by (normal) feature vectors frequently included in is obtained. Then, when the input feature vector is x, d 2 is obtained by the following formula 13, and it is determined whether the noise is abnormal, that is, whether it is a failure or not by the magnitude of this value.

Figure 2011247950
Figure 2011247950

図2(b)は本発明の信号特徴抽出方法を使用した信号認識処理の実施例2の内容を示すフローチャートである。前述した実施例1においてはS11の特徴抽出処理を行った後にS12のフィルター処理を行う例を開示したが、実施例2は、実施例1のS11とS12の実行順序を入れ替えてS16(=S12)、S17(=S11)としたものである。その他の処理は実施例1と同一である。実施例2においてはフィルター処理によってデータ量が減少するので、特徴抽出処理の負荷が軽減され、全体の処理速度が向上する。   FIG. 2B is a flowchart showing the contents of a second embodiment of the signal recognition process using the signal feature extraction method of the present invention. In the first embodiment described above, the example in which the filtering process in S12 is performed after the feature extraction process in S11 has been disclosed. However, in the second embodiment, the execution order of S11 and S12 in the first embodiment is switched to S16 (= S12 ), S17 (= S11). Other processes are the same as those in the first embodiment. In the second embodiment, the amount of data is reduced by the filter processing, so that the load of the feature extraction processing is reduced and the overall processing speed is improved.

以上実施例を説明したが、本発明の装置には更に以下のような変形例も考えられる。実施例においてはA/D変換後に一旦保存し、オフライン処理を行う例を開示したが、処理速度が間に合えばリアルタイムで処理してもよい。   Although the embodiments have been described above, the following modifications can be considered for the apparatus of the present invention. In the embodiment, an example is disclosed in which after A / D conversion is temporarily stored and offline processing is performed, but processing may be performed in real time if the processing speed is in time.

本発明は音声その他の音響信号を初め、コンピューターに入力可能な任意の信号の認識、識別、機械の故障等による異音検出に適用可能である。   The present invention can be applied to the detection of abnormal sounds such as speech and other acoustic signals, as well as recognition and identification of arbitrary signals that can be input to a computer, and machine failure.

10…マイク
11…コンピューター
12…モニタ装置
13…キーボード
14…マウス

DESCRIPTION OF SYMBOLS 10 ... Microphone 11 ... Computer 12 ... Monitor apparatus 13 ... Keyboard 14 ... Mouse

Claims (7)

所定期間だけサンプリングされたデジタル入力信号を周波数軸に変換する複素フーリエ変換手段と、
前記複素フーリエ変換手段において変換されたデータから高次局所相関特徴データを抽出する特徴抽出手段と
を備えたことを特徴とする信号特徴抽出装置。
Complex Fourier transform means for transforming a digital input signal sampled for a predetermined period into a frequency axis;
A signal feature extraction apparatus comprising: feature extraction means for extracting high-order local correlation feature data from data transformed by the complex Fourier transform means.
前記高次局所相関特徴は、時間軸および周波数軸にそって2次元に配列された多数のデータの内の1つに注目し、その注目データと予め定められたマスクパターンによって決定される近傍のデータとの相関値を算出するものであることを特徴とする請求項1に記載の特徴抽出装置。   The high-order local correlation feature focuses on one of a large number of data arrayed two-dimensionally along the time axis and the frequency axis, and a neighborhood determined by the target data and a predetermined mask pattern. The feature extraction apparatus according to claim 1, wherein a correlation value with data is calculated. 前記高次局所相関特徴は、フーリエ変換手段から入力された複素データの位相情報をベクトル表現に変換するベクトル変換手段を備えていることを特徴とする請求項2に記載の特徴抽出装置。   The feature extraction apparatus according to claim 2, wherein the higher-order local correlation feature includes a vector conversion unit that converts phase information of complex data input from a Fourier transform unit into a vector representation. 複数のバンドパスフィルターからなるフィルターバンクであり、各バンドパスフィルターは入力されたデータに重みを乗算して加算し、出力するフィルター手段が、前記複素フーリエ変換手段と前記特徴抽出手段の間に、あるいは前記特徴抽出手段の後に配置されていることを特徴とする請求項1に記載の特徴抽出装置。   The filter bank is composed of a plurality of bandpass filters, each bandpass filter multiplies the input data by multiplying the weights, and outputs the filter means between the complex Fourier transform means and the feature extraction means, Alternatively, the feature extraction apparatus according to claim 1, wherein the feature extraction device is disposed after the feature extraction unit. 前記フィルター手段は、入力信号を参照して、各バンドパスフィルターの帯域幅が振幅の時間平均値の周波数分布が一様になるように決定された分布平滑化フィルターであることを特徴とする請求項4に記載の特徴抽出装置。   The filter means is a distribution smoothing filter in which a bandwidth of each bandpass filter is determined with reference to an input signal so that a frequency distribution of time average values of amplitudes is uniform. Item 5. The feature extraction device according to Item 4. 前記特徴抽出手段の後にあるいは前記フィルター手段の後に振幅情報の対数変換手段が配置されたことを特徴とする請求項2に記載の特徴抽出装置。   3. The feature extraction apparatus according to claim 2, wherein a logarithmic conversion unit for amplitude information is arranged after the feature extraction unit or after the filter unit. 所定期間だけサンプリングされたデジタル入力信号を周波数軸に変換する複素フーリエ変換処理を行うステップと、
前記複素フーリエ変換処理において変換されたデータから高次局所相関特徴データを抽出する特徴抽出処理を行うステップと
を含むことを特徴とする信号特徴抽出方法。

Performing a complex Fourier transform process for converting a digital input signal sampled for a predetermined period into a frequency axis;
Performing a feature extraction process of extracting high-order local correlation feature data from the data transformed in the complex Fourier transform process.

JP2010118536A 2010-05-24 2010-05-24 Signal feature extraction apparatus and signal feature extraction method Active JP5598815B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010118536A JP5598815B2 (en) 2010-05-24 2010-05-24 Signal feature extraction apparatus and signal feature extraction method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010118536A JP5598815B2 (en) 2010-05-24 2010-05-24 Signal feature extraction apparatus and signal feature extraction method

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2013253726A Division JP5644934B2 (en) 2013-12-09 2013-12-09 Signal feature extraction apparatus and signal feature extraction method

Publications (2)

Publication Number Publication Date
JP2011247950A true JP2011247950A (en) 2011-12-08
JP5598815B2 JP5598815B2 (en) 2014-10-01

Family

ID=45413332

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010118536A Active JP5598815B2 (en) 2010-05-24 2010-05-24 Signal feature extraction apparatus and signal feature extraction method

Country Status (1)

Country Link
JP (1) JP5598815B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015177602A (en) * 2014-03-13 2015-10-05 株式会社東芝 On-train train control device
CN107967917A (en) * 2016-10-19 2018-04-27 福特全球技术公司 The vehicle periphery audio classification learnt by neural network machine

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01233499A (en) * 1988-03-14 1989-09-19 Nec Corp Method and device for coding and decoding voice signal
JPH10332774A (en) * 1997-05-29 1998-12-18 Hitachi Ltd Controller for electronic device characteristic evaluation device
JP2008116588A (en) * 2006-11-01 2008-05-22 National Institute Of Advanced Industrial & Technology Feature extracting apparatus and method, and program
JP2008145504A (en) * 2006-12-06 2008-06-26 Nippon Telegr & Teleph Corp <Ntt> Signal feature extracting method, signal feature extracting device, signal feature extracting program, and recording medium thereof
JP2008185845A (en) * 2007-01-30 2008-08-14 National Institute Of Advanced Industrial & Technology Method and device of hlac feature extraction from conversion value of one-dimensional signal
WO2009034686A1 (en) * 2007-09-11 2009-03-19 Panasonic Corporation Sound judging device, sound sensing device, and sound judging method

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01233499A (en) * 1988-03-14 1989-09-19 Nec Corp Method and device for coding and decoding voice signal
JPH10332774A (en) * 1997-05-29 1998-12-18 Hitachi Ltd Controller for electronic device characteristic evaluation device
JP2008116588A (en) * 2006-11-01 2008-05-22 National Institute Of Advanced Industrial & Technology Feature extracting apparatus and method, and program
JP2008145504A (en) * 2006-12-06 2008-06-26 Nippon Telegr & Teleph Corp <Ntt> Signal feature extracting method, signal feature extracting device, signal feature extracting program, and recording medium thereof
JP2008185845A (en) * 2007-01-30 2008-08-14 National Institute Of Advanced Industrial & Technology Method and device of hlac feature extraction from conversion value of one-dimensional signal
WO2009034686A1 (en) * 2007-09-11 2009-03-19 Panasonic Corporation Sound judging device, sound sensing device, and sound judging method

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNJ201010075198; 加藤俊祐他: '"フィッシャー重みマップを利用した高次局所自己相関特徴による音素認識"' 日本音響学会2005年秋季研究発表会講演論文集CD-ROM , 200509, pp.171-172 *
JPN6013050125; 加藤俊祐他: '"フィッシャー重みマップを利用した高次局所自己相関特徴による音素認識"' 日本音響学会2005年秋季研究発表会講演論文集CD-ROM , 200509, pp.171-172 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015177602A (en) * 2014-03-13 2015-10-05 株式会社東芝 On-train train control device
CN107967917A (en) * 2016-10-19 2018-04-27 福特全球技术公司 The vehicle periphery audio classification learnt by neural network machine

Also Published As

Publication number Publication date
JP5598815B2 (en) 2014-10-01

Similar Documents

Publication Publication Date Title
KR101122838B1 (en) Method and apparatus for separating sound-source signal and method and device for detecting pitch
JP6027087B2 (en) Acoustic signal processing system and method for performing spectral behavior transformations
JP4650662B2 (en) Signal processing apparatus, signal processing method, program, and recording medium
US8050910B2 (en) Pitch extraction with inhibition of harmonics and sub-harmonics of the fundamental frequency
CN107305774A (en) Speech detection method and device
US20120103166A1 (en) Signal Processing Device, Signal Processing Method, and Program
JP6334895B2 (en) Signal processing apparatus, control method therefor, and program
JP5644934B2 (en) Signal feature extraction apparatus and signal feature extraction method
CN112786057B (en) Voiceprint recognition method and device, electronic equipment and storage medium
Aravind et al. Audio spoofing verification using deep convolutional neural networks by transfer learning
JP4705480B2 (en) How to find the fundamental frequency of a harmonic signal
JP5598815B2 (en) Signal feature extraction apparatus and signal feature extraction method
JP4496378B2 (en) Restoration method of target speech based on speech segment detection under stationary noise
JP5994639B2 (en) Sound section detection device, sound section detection method, and sound section detection program
JP5974901B2 (en) Sound segment classification device, sound segment classification method, and sound segment classification program
JP5825607B2 (en) Signal feature extraction apparatus and signal feature extraction method
Ram et al. Deep neural network based speech enhancement
Baghel et al. Classification of multi speaker shouted speech and single speaker normal speech
JP2017067929A (en) Learning device, identification device, method for the same, and program
JP5579884B2 (en) Sound identification condition selection device and abnormal sound determination device
de León et al. A complex wavelet based fundamental frequency estimator in singlechannel polyphonic signals
JP2010185682A (en) General harmonic analyzer and frequency analyzer
US11881200B2 (en) Mask generation device, mask generation method, and recording medium
Chadha et al. A Unique Glottal Flow Parameters based Features for Anti-spoofing Countermeasures in Automatic Speaker Verification
JP2020012976A (en) Sound source separation evaluation device and sound source separation device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121205

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130920

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131008

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140521

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140715

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140801

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140804

R150 Certificate of patent or registration of utility model

Ref document number: 5598815

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250