JP4840819B2 - 1次元信号の2値化によるhlac特徴量抽出方法および特徴量抽出装置 - Google Patents
1次元信号の2値化によるhlac特徴量抽出方法および特徴量抽出装置 Download PDFInfo
- Publication number
- JP4840819B2 JP4840819B2 JP2007101279A JP2007101279A JP4840819B2 JP 4840819 B2 JP4840819 B2 JP 4840819B2 JP 2007101279 A JP2007101279 A JP 2007101279A JP 2007101279 A JP2007101279 A JP 2007101279A JP 4840819 B2 JP4840819 B2 JP 4840819B2
- Authority
- JP
- Japan
- Prior art keywords
- hlac
- circuit
- signal
- feature quantity
- dimensional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
一方、音響信号などの1次元信号からHLAC特徴を抽出する技術はいまだ確立されていない。
従来の(動)画像からのHLAC特徴量抽出では、2値化画像を用いるため高次相関(つまり画素の輝度値を何乗しても)値がオーバーフローを起こすことはなく安定に計算を行える。しかし、1次元信号の場合は、例えば1サンプル値が16ビットで量子化されている場合は−3万から+3万程度のダイナミックレンジを持ち、その値からオーバーフローを起こさないように高次相関を求めるためには、演算装置のハードウェアまたはソフトウェアの負荷が増大してしまう。この場合、超音波帯の信号やそれ以上の高い周波数成分を含む一次元信号からのHLAC特徴抽出などでは、リアルタイム処理が困難になるという問題がある。また、高次相関と低次相関の間で値の桁が大きく異なるため、例えば、その特徴量を用いて主成分分析などを行うときに、安定した数値演算が難しくなる。
アナログ信号から1次元2値HLACにより特徴量を抽出するには、アナログ信号の振幅値を2値化する必要がある。本発明では、振幅の2値化に「(1)パルス幅変調を用いる方法」と「(2)グレイコード等を用いて2値表記に変換した振幅値を時系列に並べて2次元の2値画像を生成する方法」の2種類の方法を用いる。
(1)パルス幅変調(Pulse Width Modulation:PWM)を用いる方法:
アナログ入力信号を2値化する手段の1つとしてPWMを用い、これにより2値化した信号から1次元2値HLAC特徴を抽出する。
PWM信号は、アナログ入力信号の振幅値に比例してパルス幅を増減させる変調方式である。PWM信号の振幅値は正と負の2値信号となる。この変調機能を実現するハードウェアの回路図を図1に示す。
入力観測信号と基準の三角波信号を比較器2で比較し、比較器2のPWM出力信号を任意のサンプリング周波数を基準クロックとしてサンプリング手段3でサンプリングし、レジスタ4に順次記憶する。レジスタ4の記憶状態は、マトリクス回路9の結線状態を反映するAND回路6の出力を累積加算回路7で加算し、この加算値をラッチ回路8から「PWM+BinHLAC信号」として取り出す。結線マトリクス回路9は、HLACの算出に用いるマスクを定義する。
この1次元2値HLAC特徴量算出回路1では、PWM信号は、基準となる三角波信号と帯域制限フィルタを通したアナログ入力信号をコンパレータ2で比較し、その比較出力として得られるため、ハードウェア化が容易である。なお、三角波の周波数はアナログ入力信号の最高周波数より十分大きく設定する必要がある。
図2(a)はアナログ入力信号の波形図。図2(b)は図2(a)のアナログ入力信号をPWM処理したパルス信号の波形図。図2(c)は、PWM信号の変化をより強調するために、図2(b)のPWM信号の差分(詳細は後記する)を求めた信号の波形図である。
図1のコンパレータ2の出力のPWM信号は連続時間の2値信号である。この2値信号をサンプリング手段3によりあるサンプリング周波数でサンプリングし、各サンプル値を1ビットで出力する。1ビットのサンプル値は、サンプリング周波数に同期してシフトするシフトレジスタ4に記憶する。図1に示すシフトレジスタ4は、上から下にビットをシフトするので、最も上にあるビットは現時刻のサンプル値を表し、最も下にあるビットが最も過去のサンプル値を表す。
以下に、PWM信号またはその差分信号から、1次元2値HLAC特徴量を算出する方法について説明する。
離散時間信号の1次元2値HLACは次式により求められる。
黒く塗りつぶした位置が相関の算出に用いるビットを示す。各マスクパターンの最も左がa0を示し、右側に順にa1,a2,…のビットを示す。例えば、1次のマスクパターンは、a0は常に0で固定、a1が1,2,3と変化する3つのマスクパターンを持つ。
マスクパターンは図1の回路図において、シフトレジスタの出力線と論理積回路の入力線により構成する結線マトリックス回路9の結線を操作することにより実装する。専用ハードウェアは例えばFPGA(Field Programmable Gate Array:フィールドプログラマブルゲートアレイ)などの素子を用い、この結線は動的に変更可能にしておくことで、任意の次数のマスクパターンを実装可能とする。図1に示している結線は、図3に示したレジスタ幅が4でマスクの次数を2まで考慮するときのマスクパターンを示している。
Clock信号はカウンター回路にも入力し、累積加算回路7による加算回数を数える。そして、加算回数がフレームのサンプル数に一致したとき、カウンター回路5から制御信号を出力し、その時点での各累積加算回路7の出力値をラッチ回路8で記憶する。その後、累積加算回路7の値をゼロに戻し、次のフレームの特徴量計算の初期化を行う。このカウンター回路5からの制御信号は、1つのフレームのHLAC特徴量が確定したことを外部回路へ知らせるための割込み信号としても用いる。
図4は、本発明のグレイコード等を用いて2値表記に変換した振幅値を時系列に並べて2次元の2値画像を生成する方法によって特徴量の算出を行う手順を示す図である。
図4のフローチャートを説明する。なお、図中、Sはステップの省略形を意味する。
(1)1次元アナログ入力信号を取り込む(S1):
観測信号である1次元アナログ入力信号を、アナログ−ディジタル変換(A/D変換)する。
(2)サンプル値の変換(μ−Law、GrayCode、など)(S2):
S1で変換したディジタル信号の量子化値を、典型的な線形量子化手段の他に、音声信号の圧縮などで広く用いられているμ−Law量子化手段、またはグレイコード量子化手段などを用いて変換する。
(3)2値イメージの生成(S3):
S2で求めた離散時間の量子化サンプル値の時系列データより、2値イメージデータを生成する。このとき、例えば、各サンプル値を8ビットで量子化して、その8ビットのビットパターンを時系列順に並べると、図5に示すように2値のイメージが生成される。
(4)2次元2値HLACの算出(S4):
このようにして、2値イメージデータに対して2次元2値HLAC処理を適用しHLAC特徴量を算出する。
(5)HLAC特徴量出力(S5):
S4で算出したHLAC特徴量を、記憶手段に記憶すると共に、異常検出、特定信号の認識や検索または計数などの処理のために読み出す。
終了
(1)HLAC特徴量抽出方法は、1次元信号をPWMにより2値化し、その1次元2値信号に1次元2値HLACを適用してHLAC特徴量を求めることを特徴とする。
(2)HLAC特徴量抽出方法は、上記1次元信号の各振幅値を、線形量子化、μ‐Law量子化、および、グレイコード量子化の内のいずれか1つにより2値化し、その時系列として生成される2値画像へ2次元2値HLACを適用することを特徴とする。
(3)1次元信号をPWMにより2値化し、その1次元2値信号に1次元2値HLACを適用してHLAC特徴量を求めるHLAC特徴量抽出回路は、前記1次元2値HLACを適用する時に、HLACの算出に用いるマスクパターンを任意のパターン形状に変更できるようにしたことを特徴とする。
1次元アナログ入力信号を2値化することで高速な特徴抽出処理が可能になる。特にPWMと1次元2値HLACを組み合わせた特徴抽出方法においては、本発明の回路用いてハードウェアを構成することで、高速処理が可能で、マスクパターンを動的に変更可能な汎用性の高い装置が実現される。
もう一つの2値化方法として、アナログ入力信号をディジタル信号に変換し、グレイコードを用いて生成した2値イメージに2D・2値HLACを適用することにより、特徴抽出の安定性を飛躍的に改善する。
(1)Pulse Width Modulation(PWM)を用いる手法:
同一男性話者が発声した単語をランダムに繋ぎ合わせて10種類の音声データを生成する。生成した音声データにどの単語がいくつ含まれているかを、音声信号のPWM信号とその差分信号のそれぞれから抽出したHLAC特徴量を用いて計数する。実験に用いる単語数を60個から100個まで10個刻みで増やし、提案特徴量を用いた計数精度を調べる。
実験に用いたサンプリング周波数16kHzの音声信号を10倍にアップサンプリングし、基本周波数16kHzの三角波と比較することでアナログ信号を2値化するためのPWM信号を生成した。
1次元2値HLACの算出では、マスク点数を8、マスク点間隔は100サンプル、そして最高次数を5とした。
同一男性話者が発声した単語をランダムに繋ぎ合わせて100個の音声データを生成する。生成した音声データの中にどの単語がいくつ含まれているかを、
(a)振幅を正規化した1次元信号に1D−濃淡HLACを適用する手段、
(b)PWM信号に1D−2値HLACを適用する手段、
(c)1次元信号のサンプル値時系列を線形量子化により2イメージパターンに変換し、2D−2値HLACを適用する手段
(d)1次元信号のサンプル値時系列をGrayCodeにより2値イメージパターンに変換し、2D−2値HLACを適用する手段、
の4種類で単語の計数実験を行う。
1.1D−濃淡HLAC;
マスク点数=6、最高次数=2(特徴量は28次元)
2.PWM+1D−2値HLAC;
マスク点数=6、最高次数=3(特徴量は26次元)
3.線形量子化+2D−2値HLAC;
マスク=3×3、最高次数=2(特徴量は25次元)
4.グレイコード+2D・2値HLAC;
マスク=3×3、最高次数=2(特徴量は25次元)。
マスクパターンのマスク点間隔を変えることで、特徴量の性能が大きく変化する。最適なマスクパターンのマスク点間隔は、基本的に分析する信号に依存する。1と2の手法に関してはマスク点間隔を0.0625msから25msまで変化させながら実験を行う。3と4の手法に関してはビットパターン軸に沿ったマスク点間隔を1から7ビット幅、時間軸に沿ったマスク点間隔を0.0625msから25msまで変化させながら実験を行う。
生成した100個のサンプルから単語音声数を同時計数し、全サンプルの計数結果が正解したときのみ計数成功とする。もし、100個のサンプルの内1つでも計数結果が間違っていたら計数失敗とする。
特徴量毎に、マスク点間隔を変えて計数実験を行い、全実験数に対する計数成功数の割合として計数成功出現割合を求める。この計数成功出現割合が大きいほど、マスク点間隔に依存しないで安定的に単語計数が行えることを示し、特徴量として性能が高いことを意味する。
図6は、それぞれの方法の計数成功出現率を示す図である。
図6に示されるように、係数成功出現率[%]は、「1D・Gray(濃淡)HLAC」の方法では47.37、「PWM+1D・Bin(2値)HLAC」の方法では48.68、「Linear(線形量子化)+2D・Bin(2値)HLAC」の方法では0.19、「GrayCode(グレイコード)+2D・Bin(2値)HLAC」の方法では57.89となる。
図6に示す全ての方法において、計数成功出現率がゼロになっていないことから、マスク点間隔を適切に設定すれば、単語音声数の計数を正しく行えることがわかる。
「1D・Gray(濃淡)HLAC」の方法より、「PWM+1D・Bin(2値)HLAC」の方法の方が特徴量としての性能が高いと言える。「Linear(線形量子化)+2D・Bin(2値)HLAC」の方法に関しては、性能がマスク点間隔に大きく依存するので、事前に分析する信号の特徴を正確に調べておく必要がある。一方、「GrayCode(グレイコード)+2D・Bin(2値)HLAC」の方法ではマスク点間隔への依存が小さくなり、特徴量としての性能が大きく改善されている。
2・・比較器
3・・サンプリング手段
4・・シフトレジスタ
5・・カウンター
6・・AND
7・・累積加算回路
8・・ラッチ回路
9・・マトリクス回路
Claims (4)
- 1次元入力観測信号と基準の三角波信号を比較してPWM出力信号を出力する比較器2と、
前記比較器2のPWM出力信号を任意のサンプリング周波数を基準クロックとしてサンプリングするサンプリング手段3と、
前記サンプリング手段3のサンプリング出力を順次記憶するシフトレジスタ4と、
前記シフトレジスタ4の出力線と論理積回路の入力線により構成し、HLACの算出に用いるマスクを定義するように結線する結線マトリクス回路9と、
前記論理積回路の入力線を自身の入力線とする複数のAND回路6と、
前記複数のAND回路6の出力を累積加算する累積加算回路7と、
前記累積加算回路7で加算した加算値を信号として取り出すラッチ回路8とを有し、
前記結線マトリクス回路9における前記マスクの結線パターンを、それぞれの前記AND回路6へそれぞれの相関値が出力されるように構成することを特徴とする1次元2値HLAC特徴量算出回路。 - 前記結線マトリクス回路9を、HLACの算出に用いるマスクとして構成したことを特徴とする請求項1記載の1次元2値HLAC特徴量算出回路。
- 前記結線マトリクス回路9の結線を動的に変更操作できる素子で構成したことを特徴とする請求項1又は2記載の1次元2値HLAC特徴量算出回路。
- 前記素子を、フィールドプログラマブルゲートアレイとしたことを特徴とする請求項3記載の1次元2値HLAC特徴量算出回路。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007101279A JP4840819B2 (ja) | 2007-04-09 | 2007-04-09 | 1次元信号の2値化によるhlac特徴量抽出方法および特徴量抽出装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007101279A JP4840819B2 (ja) | 2007-04-09 | 2007-04-09 | 1次元信号の2値化によるhlac特徴量抽出方法および特徴量抽出装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008257084A JP2008257084A (ja) | 2008-10-23 |
JP4840819B2 true JP4840819B2 (ja) | 2011-12-21 |
Family
ID=39980702
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007101279A Expired - Fee Related JP4840819B2 (ja) | 2007-04-09 | 2007-04-09 | 1次元信号の2値化によるhlac特徴量抽出方法および特徴量抽出装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4840819B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5131863B2 (ja) * | 2009-10-30 | 2013-01-30 | 独立行政法人産業技術総合研究所 | Hlac特徴量抽出方法、異常検出方法及び装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7734464B2 (en) * | 2005-05-20 | 2010-06-08 | Tektronix, Inc. | RF autocorrelation signal trigger generator |
JP4905962B2 (ja) * | 2007-01-30 | 2012-03-28 | 独立行政法人産業技術総合研究所 | 1次元信号の変換値からのhlac特徴抽出方法および装置 |
-
2007
- 2007-04-09 JP JP2007101279A patent/JP4840819B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2008257084A (ja) | 2008-10-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10679643B2 (en) | Automatic audio captioning | |
JP6198872B2 (ja) | 聴覚注意手がかりを用いた音声の音節/母音/音素の境界の検出 | |
He et al. | Wavelet neural network approach for fault diagnosis of analogue circuits | |
US8050910B2 (en) | Pitch extraction with inhibition of harmonics and sub-harmonics of the fundamental frequency | |
JPS58130396A (ja) | 音声認識装置 | |
WO1984002992A1 (en) | Signal processing and synthesizing method and apparatus | |
CN107564543B (zh) | 一种高情感区分度的语音特征提取方法 | |
Durand et al. | Feature adapted convolutional neural networks for downbeat tracking | |
US20230267950A1 (en) | Audio signal generation model and training method using generative adversarial network | |
Khadem-hosseini et al. | Error correction in pitch detection using a deep learning based classification | |
US4388491A (en) | Speech pitch period extraction apparatus | |
Sunny et al. | Recognition of speech signals: an experimental comparison of linear predictive coding and discrete wavelet transforms | |
JP4840819B2 (ja) | 1次元信号の2値化によるhlac特徴量抽出方法および特徴量抽出装置 | |
Okawa et al. | Audio classification of bit-representation waveform | |
De Mori | A descriptive technique for automatic speech recognition | |
WO2001080222A1 (fr) | Procede et dispositif de reconnaissance vocale, procede et dispositif de synthese vocale, support d'enregistrement | |
Valero-Mas et al. | Assessing the relevance of onset information for note tracking in piano music transcription | |
CN108962389A (zh) | 用于风险提示的方法及系统 | |
ES2536560T3 (es) | Método para descubrir y reconocer patrones | |
JP2014044447A (ja) | 信号特徴抽出装置および信号特徴抽出方法 | |
CN111008356A (zh) | 一种基于WTSVD算法扣除背景的γ能谱集分析方法 | |
Samiotis et al. | Hybrid Annotation Systems for Music Transcription | |
Gasser et al. | On computing morphological similarity of audio signals | |
Figueiredo | Efficient adaptive multiresolution representation of music signals | |
CN117497008A (zh) | 基于声门振动序列动态建模的语音情感识别方法和工具 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090319 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101124 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101207 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20101211 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20101213 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110130 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110920 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110928 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4840819 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141014 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141014 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |