JP2616913B2 - 音声スペクトル分析方法 - Google Patents

音声スペクトル分析方法

Info

Publication number
JP2616913B2
JP2616913B2 JP61278052A JP27805286A JP2616913B2 JP 2616913 B2 JP2616913 B2 JP 2616913B2 JP 61278052 A JP61278052 A JP 61278052A JP 27805286 A JP27805286 A JP 27805286A JP 2616913 B2 JP2616913 B2 JP 2616913B2
Authority
JP
Japan
Prior art keywords
signal
channel
time
frame
pass filter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP61278052A
Other languages
English (en)
Other versions
JPS63153598A (ja
Inventor
奉文 中谷
尚五 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Publication of JPS63153598A publication Critical patent/JPS63153598A/ja
Application granted granted Critical
Publication of JP2616913B2 publication Critical patent/JP2616913B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

【発明の詳細な説明】 技術分野 本発明は、音声スペクトル分析方法、より詳細には、
音声認識システムにおける時間−周波数パターン(Time
Spectrum Pattern)から音声の特徴量としてローカル
ピークを抽出する音声スペクトル分析方法に関する。
従来技術 単語音声認識において、音声スペクトルより音源に依
存する個人差、つまり、音声スペクトルの傾きを補正
し、BTSP(Binary Time Spectrum Pattern)としてフォ
ルマントに類似するローカルピークの抽出方法等の有効
性については既に提案されている。前記傾きを補正する
方法として、現在、最小自乗推定法が広く用いられてい
るが、演算時間等に問題がある。この補正方法として、
ディジタルフィルタを用いた方法があるが、このディジ
タルフィルタを用いた方法は、音声スペクトルの傾き補
正のために、データの1フレーム分を低周波から高周
波,高周波から低周波、即ち、1ch−15ch,15ch−1chと
数回繰り返しサンプリングして(第7図参照)スペクト
ル波形を時間信号波形とみなし、これに直線位相のディ
ジタルフィルタ(H.P.F;C.I.C.フィルタ)によつてフィ
ルタリングを行ない、傾きを取り除き、ローカルピーク
を抽出するものである。
しかし、多チャンネルの音声単語を処理するためには
上記の方法では信号の流れがスムーズでないため処理上
の問題点が生ずる。
目的 本発明は、上述のごとき実情に鑑みてなされたもの
で、特に、TSP(時間−周波数パターン)の周波数パタ
ーン上のローカルピークを抽出し、これを特徴量として
比較するマッチング法を用いる音声スペクトル分析方法
において、前記ローカルピークを抽出するための効率的
な方法を提供することを目的としてなされたものであ
る。
構成 本発明は、上記目的を達成するために、時刻をパラメ
ータとした周波数パターンの(TSP)の各時刻に対する
一組のパターンをシーケンシャルな時間信号とし、それ
を適当なハイパスフィルタに通して近似的に低周波数成
分を除去して重畳しているローカルピークに相当する高
周波成分を抽出する音声スペクトル分析方法において、
TSP信号をシーケンシャル時間信号に変換する際、i番
目のフレーム信号をi+1番目のフレーム信号へ接続す
るのに、連続的に接続するか、フレーム間に適当な零を
挿入するかによつて接続して擬似的周期信号を構成し、
得られた擬似的周期信号をハイパスフィルタを通すこと
により連続的にローカルピークを抽出するようにしたこ
と、或いは、TSP信号をシーケンシャル時間信号に変換
する際、i番目のフレーム信号が低周波成分1チャンネ
ルから高周波成分Nチャンネルの順に時系列化している
とした時、i+1番目のフレーム信号はNチャンネルか
ら1チャンネルの順に、i+2番目のフレーム信号は1
チャンネルからNチャンネルの順に順次接続して擬似的
周期信号を構成し、ハイパスフィルタを通すことにより
連続的にピークを抽出するようにしたことを特徴とした
ものである。以下、本発明の実施例に基いて説明する。
音声認識の方法として音声信号のスペクトルパターン
を適当な時間間隔で標本化したTSPを用いたマッチング
方法がある。これはTSPの周波数パターン上のローカル
ピークを抽出し、それを特徴量として比較するマッチン
グ方法である。
時間−周波数パターン(TSP)は、時刻をパラメータ
とした周波数パターンであり、第2図に示すような構成
となつており、各時刻に対する一組のパターンをフレー
ムと呼んでいる。第2図のTSP信号を第3図のようなシ
ーケンシャル時間信号と考え、それを適当なハイパスフ
ィルタに通す。第3図のシーケンシャル信号は、近似的
に、低周波信号にローカルピークに対応する高周波成分
が混入したものと考えることができ、したがつて、ハイ
パスフィルタによつて、その高周波成分を抽出すること
ができる。
本発明は、隣接したフレームの音声スペクトルが急激
な変化をしていないことに着目してなされたもので、最
初に、本発明の第1の実施例について説明すると、この
実施例は、単語の音声スペクトルデータを連続的に接続
した信号、つまり、1フレームの1チャンネル−Nチャ
ンネル,2フレームの1チャンネル−Nチャンネル…のよ
うに構成した信号を、ディジタルフィルタの入力として
与えるようにしたもので、以下に実施例として15chのバ
ンドパスフィルタバンク構成におけるローカルピーク抽
出方法について説明する。
音声入力信号は、前処理を行なつた後、Nチャンネル
のバンドパスフィルタバンクで周波数分析され、整流平
滑後、その出力がT秒毎にディジタル化され、1フレー
ム分の音声スペクトルデータが得られる。更に具体的に
は、入力音声は、15ch, Q=6のバンドパスフィルタバンク(250Hz〜6.3kHz)
で周波数分析され、整流平滑された出力が10msec毎に12
bitの分解能でA/D変換され、各フレームの音声スペクト
ルデータが得られる。このようなデータを1chから15ch
までのシーケンシャルデータに変換し、最後に零を1個
付け加える。これを繰り返すことによつて、第3図に示
すようなデータを構成する。次に、第3図のデータを時
間信号と考え、第1図のフィルタに通す。第1図のフィ
ルタは直線位相ハイパスフィルタであり、その周波数特
性は第4図に示す通りである。このディジタルフィルタ
として単係数のFIRフィルタと同等であるC.I.C.フィル
タを用いる。C.I.C.フィルタは単独では直線位相のL.P.
F.であるが、カスケード接続をおこなつた後、位相合わ
せを行ない加算することによつてH.P.F.を構成すること
ができる。これにより、次式で表わされる第1図のH.P.
F.構成を得ることができる。
第5図は、音声スペクトルデータ(a)を、本実施例
による方法で処理した結果(d)と、従来の方法(現在
のBTSP方式に組み込まれているもの)で処理した結果
(c)と、最小自乗推定法で処理した結果(b)とを比
較した図である。
しかし、上記第1の実施例においては、データの後に
必ず次フレームの1チャンネルデータが来るためこの間
のデータの相関性は小さい。従って一般にはNチャンネ
ル−1チャンネル間で大きな信号ギャップを発生してス
ペクトルの傾きに不要な過度的な信号を付加することに
なる。
そこでこの不要分を除去する方法を本発明の第2の実
施例として提案する。つまり、この第2の実施例による
と、隣接したフレームの音声スペクトルで急激な変化を
していないことから、Nチャンネル(又は1チャンネ
ル)の後に次フレームのNチャンネル(又は1チャンネ
ル)を接続すれば、この間の信号ギャップは非常に小さ
いので接続部で上述の如き大きな過度的信号が発生しな
いことになる。
以下にその実施例として15chのバンドパスフィルタバ
ンク構成におけるローカルピーク抽出方法について説明
する。
入力音声は、前記第1の実施例と同様、15ch,1/3oct,
Q=6のバンドパスフィルタバンク(250Hz−6.3KHz)で
周波数分析され、整流平滑後その出力が10msec毎に12bi
tの分解能でA/D変換され、各フレームの音声スペクトル
データが得られる。このようなデータを1チャンネルか
ら15チャンネルまでシーケンシャルデータに変換したの
が第7図に示した従来の技術であり、隔フレームごとに
チャンネルを逆に接続したのが第6図に示した本実施例
である。このようにすると、低周波成分が1/2になり、
この時間信号に変換したデータを第1図に示した直線位
相ハイパスフィルタで濾波する際の除去比が大きくとれ
ることになる。このフィルタの周波数特性は第4図に示
した通りである。
なお、本発明は、ハードウェアで実施できるがソフト
ウェアでも実現できることは言うに及ばない。
第8図は、上述のごとき音声スペクトルの分析に使用
して好適な電気回路の一例を示すブロック線図、第9図
は、その信号波形図で、10はフィルタバンク、11はホー
ルド回路、12はタイマー、13はアップダウン(U/D)カ
ウンタ、14はC.I.C.カウンタ、15はコントロール回路、
16はバッファ回路で、U/Dカウンタ13によって、ホール
ド回路11の出力を1〜15〜1〜15〜1chと切り換えると
ともに、コントロール回路15によってバッファ回路16の
出力を1フレームおきに反転して第9図に示すような出
力信号を得ている。
第10図は、第8図に示した回路の従来例を示す図で、
図中、第8図に示した回路と同様な作用をする部分には
第8図の場合と同一の参照番号が付してある。而して、
第8図に示した回路と第10図に示した回路との相異は、
第10図に示した従来回路においては、ゲート回路17を具
備しているのに対し、第8図の回路は、このゲート回路
17を具備していない点にある。そのため、第10図の回路
においては、ゲート回路17をコントロール回路16で制御
するようにしており、このゲート回路17を制御する信号
T0は例えば第11図にAにて示す1周期分を取り出して得
ている。従って、第10図に示した従来例においては、1
フレーム(Tf)の中で第11図に示した処理をしなければ
ならないが、第8図に示した回路においては、1フレー
ム(Tf)で1回の処理で済ませることができ、扱う信号
の時間を4倍以上にとることができ、処理が非常に楽に
なる。特に、ソフトで処理する場合には、その効果が大
きく、また、処理時間が短いので、他の時間に他のJob
をすることができる。
効果 以上の説明から明らかなように、本発明によると、連
続的に信号を通しながらローカルピークの抽出を可能と
するものであり、ハードウェア間の変動が自動的に反映
されるため、その性質を積極的に利用することが可能で
ある。また、本発明の第1の実施例によると、BTSPに組
み込まれている従来の方式に比べ、時間−周波数信号を
一方向のシーケンシャル信号として連続的に処理するこ
とができる。ローカルピークの抽出をソフトウェアで実
施する場合、従来通りの方法が使用でき、ハードウェア
による場合は、従来方法と比べ、簡単になる。また、本
発明の第2の実施例によると、時間−周波数信号(TS
P)を双方向のシーケンシャル信号として連続的に処理
することができ、従来のように同じフレームを何回か繰
返す必要がなくハードウェアによる場合にも従来と比べ
メモリ等を必要とせず簡単になる。
【図面の簡単な説明】
第1図は、本発明の実施に使用するハイパスフィルタの
一例を示す図、第2図は、時間−周波数パターン図、第
3図は、本発明の第1の実施例によるシーケンシャル時
間信号波形図、第4図は、ハイパスフィルタの周波数振
幅特性図、第5図は、ローカルピークの各例を示す図
で、(a)図は音声スペクトル、(b)図は最小2乗推
定法による処理結果、(c)図は従来のBTSPを用いた方
法による処理結果、(d)図は本発明による処理結果を
示す図、第6図は、本発明の第2の実施例を説明するた
めのシーケンシャル時間信号波形図、第7図は、従来の
ローカルピーク抽出法の一例を説明するための図、第8
図は、本発明による音声スペクトル分析に使用して好適
な電気回路の一例を示すブロック線図、第9図は、第8
図の動作説明をするための信号波形図、第10図は、第8
図に示した回路の従来例を示す電気的ブロック線図、第
11図は、第10図の動作説明するための信号波形図であ
る。 1〜5……遅延回路、6,7……加算器、8,9……係数器、
10……フィルタバンク、11……ホールド回路、12……タ
イマー、13……アップダウン(U/D)カウンタ、14……
C.I.Cカウンタ、15……コントロール回路、16……バッ
ファ回路、17……ゲート回路。

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】時刻をパラメータとした周波数パターン
    (TSP)の各時刻に対する一組のパターンをシーケンシ
    ャルな時間信号とし、それを適当なハイパスフィルタに
    通して近似的に低周波数成分を除去して重畳しているロ
    ーカルピークに相当する高周波成分を抽出する音声スペ
    クトル分析方法において、TSP信号をシーケンシャル時
    間信号に変換する際、i番目のフレーム信号をi+1番
    目のフレーム信号へ接続するのに、連続的に接続する
    か、フレーム間に適当な零を挿入するかによって接続し
    て擬似的周期信号を構成し、得られた前記擬似的周期信
    号をハイパスフィルタに通すようにしたことを特徴とす
    る音声スペクトル分析方法。
  2. 【請求項2】時刻をパラメータとした周波数パターン
    (TSP)の各時刻に対する一組のパターンをシーケンシ
    ャルな時間信号とし、それを適当なハイパスフィルタに
    通して近似的に低周波数成分を除去して重畳しているロ
    ーカルピークに相当する高周波成分を抽出する音声スペ
    クトル分析方法において、TSP信号をシーケンシャル時
    間信号に変換する際、i番目のフレーム信号が低周波成
    分1チャンネルから高周波成分Nチャンネルの順に時系
    列化しているとした時、i+1番目のフレーム信号はN
    チャンネルから1チャンネルの順に、i+2番目のフレ
    ーム信号は1チャンネルからNチャンネルの順に順次接
    続して擬似的周期信号を構成し、ハイパスフィルタに通
    すようにしたことを特徴とする音声スペクトル分析方
    法。
JP61278052A 1985-11-21 1986-11-21 音声スペクトル分析方法 Expired - Lifetime JP2616913B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP26205285 1985-11-21
JP60-262052 1985-11-21
JP61-199735 1986-08-26
JP19973586 1986-08-26

Publications (2)

Publication Number Publication Date
JPS63153598A JPS63153598A (ja) 1988-06-25
JP2616913B2 true JP2616913B2 (ja) 1997-06-04

Family

ID=26511726

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61278052A Expired - Lifetime JP2616913B2 (ja) 1985-11-21 1986-11-21 音声スペクトル分析方法

Country Status (2)

Country Link
US (1) US4833717A (ja)
JP (1) JP2616913B2 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2638303B1 (fr) * 1988-10-26 1991-01-18 Texas Instruments France Filtre interpolatif perfectionne
DE4111995A1 (de) * 1991-04-12 1992-10-15 Philips Patentverwaltung Schaltungsanordnung zur spracherkennung
US5712953A (en) * 1995-06-28 1998-01-27 Electronic Data Systems Corporation System and method for classification of audio or audio/video signals based on musical content
US5839099A (en) * 1996-06-11 1998-11-17 Guvolt, Inc. Signal conditioning apparatus
US7366315B2 (en) * 1999-02-05 2008-04-29 Hearworks Pty, Limited Adaptive dynamic range optimization sound processor
EP1172020B1 (en) * 1999-02-05 2006-09-06 Hearworks Pty Ltd. Adaptive dynamic range optimisation sound processor
JP3270028B2 (ja) 1999-09-10 2002-04-02 株式会社ソニー・コンピュータエンタテインメント 電磁シールド板、電磁シールド構造体及びエンタテインメント装置
KR100381372B1 (ko) * 2001-06-15 2003-04-26 주식회사 엑스텔테크놀러지 음성특징 추출장치
WO2003044543A2 (en) * 2001-08-22 2003-05-30 Wavecrest Corporation Method and apparatus for measuring a waveform
DE10208469A1 (de) * 2002-02-27 2003-09-04 Bsh Bosch Siemens Hausgeraete Elektrisches Gerät, insbesondere Dunstabzugshaube

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2672512A (en) * 1949-02-02 1954-03-16 Bell Telephone Labor Inc System for analyzing and synthesizing speech
US2990453A (en) * 1955-12-06 1961-06-27 James L Flanagan Automatic spectrum analyzer
US2938079A (en) * 1957-01-29 1960-05-24 James L Flanagan Spectrum segmentation system for the automatic extraction of formant frequencies from human speech
US3165586A (en) * 1960-08-11 1965-01-12 Melpar Inc Microscope spectrum analyzer
US3335225A (en) * 1964-02-20 1967-08-08 Melpar Inc Formant period tracker
US3539726A (en) * 1968-12-16 1970-11-10 Univ Oklahoma State System for storing cochlear profiles
US3786188A (en) * 1972-12-07 1974-01-15 Bell Telephone Labor Inc Synthesis of pure speech from a reverberant signal
JPS60200177A (ja) * 1984-03-23 1985-10-09 Ricoh Co Ltd 信号処理方法
US4640134A (en) * 1984-04-04 1987-02-03 Bio-Dynamics Research & Development Corporation Apparatus and method for analyzing acoustical signals

Also Published As

Publication number Publication date
US4833717A (en) 1989-05-23
JPS63153598A (ja) 1988-06-25

Similar Documents

Publication Publication Date Title
US4864620A (en) Method for performing time-scale modification of speech information or speech signals
US5054085A (en) Preprocessing system for speech recognition
JP2616913B2 (ja) 音声スペクトル分析方法
US20220383884A1 (en) System and method for identifying and processing audio signals
US4937868A (en) Speech analysis-synthesis system using sinusoidal waves
WO1994010771A1 (en) Simultaneous transmission of audio and data signals
US4809331A (en) Apparatus and methods for speech analysis
US8311812B2 (en) Fast and accurate extraction of formants for speech recognition using a plurality of complex filters in parallel
US5003602A (en) Speech recognition LSI system
JP2859634B2 (ja) 雑音除去装置
JPH01146413A (ja) 音響信号処理回路
JPH08328593A (ja) スペクトル分析方法
JPH054355Y2 (ja)
RU2776969C1 (ru) Способ выделения полезной составляющей из входного сигнала, содержащего полезную составляющую и шум
JP2832942B2 (ja) マルチパルス型符号化装置
JP3233543B2 (ja) インパルス駆動点抽出方法およびピッチ波形抽出方法とその装置
JPH09214290A (ja) 曲線位相フィルタによる信号のスペクトル抽出法
JPH06175694A (ja) 音声分析装置
JPS60101598A (ja) 音声区間検出装置
JPH0365560B2 (ja)
SU1180969A2 (ru) Спектрополосный анализатор дл распознавани речевых команд
JPS6229798B2 (ja)
JPH02310600A (ja) マルチパルス音声符号化方法
JPS5848112B2 (ja) オンセイブンセキキ
Arkhipov et al. Pitch extraction using a generated decision function

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term