JPS5850360B2 - 音声認識装置における前処理方法 - Google Patents

音声認識装置における前処理方法

Info

Publication number
JPS5850360B2
JPS5850360B2 JP53055556A JP5555678A JPS5850360B2 JP S5850360 B2 JPS5850360 B2 JP S5850360B2 JP 53055556 A JP53055556 A JP 53055556A JP 5555678 A JP5555678 A JP 5555678A JP S5850360 B2 JPS5850360 B2 JP S5850360B2
Authority
JP
Japan
Prior art keywords
spectrum
band
inverse
inverse filter
waveform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP53055556A
Other languages
English (en)
Other versions
JPS54147708A (en
Inventor
熹 市川
和男 中田
晃 中島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP53055556A priority Critical patent/JPS5850360B2/ja
Priority to US06/037,026 priority patent/US4283601A/en
Priority to DE2919085A priority patent/DE2919085C2/de
Priority to GB7916488A priority patent/GB2022896B/en
Publication of JPS54147708A publication Critical patent/JPS54147708A/ja
Publication of JPS5850360B2 publication Critical patent/JPS5850360B2/ja
Expired legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Noise Elimination (AREA)
  • Telephonic Communication Services (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

【発明の詳細な説明】 本発明は、音声認識装置における前処理方法、特に、電
話回線網などの伝送系を通して入力される音声を認識す
るための音声認識装置における前処理方法に関するもの
である。
計算機システムを含む情報サービスセンタと電話回線網
とを結びつけた情報サービスシステムでは、情報サービ
スセンタからの出力は音声応答装置の音声を用い、電話
回線網への通話者からの入力は押釦信号または直接音声
を用いており、通話者からの入力音声は電話回線網を経
て情報サービスセンタに送られ、そこで、標準音声との
類似度を調べて音声認識を行っている。
このように、回線網を経た入力音声は、伝送系の伝送特
性の影響を受けて歪んだものとなっており、また、回線
網の歪の特性は一様ではなく、経路によって異なるのが
普通である。
したがって、音声認識装置では、異った歪の特性を持っ
た回線から送られて来る入力音声を比較することになる
ので、この歪の影響を除くか正規化するなどして低減す
る必要がある。
そのため、入力音声のスペクトルの回線による歪を補正
する方法として、同一発明者による特願昭52−192
40号のような方法が考えられている。
第1図は、この方法を実現する音声認識装置の構成を示
すもので、第2図は第1図の各部のスペクトルおよび伝
送特性を示すものである。
第1図において、音声SPはある伝送特性を有する電話
系1を経た後、サンプリングによる折返し雑音防止用の
低域済波器2を通り、アナログディジタル変換器(以下
、A−D変換器という。
)により、所定周波数でサンプリングされて、ディジタ
ル信号に変換される。
そして、このディジタル変換された音声から分析部4に
おいて所定分析区間における特徴パラメータが求められ
それが逆フィルタ5に入力され、入力音声をこの逆フィ
ルタ5に通すことによって、電話系1の特性の相違を打
消した音声が認識部6に入力される。
認識部6では、このようにして得られた音声と標準音声
とを比較し、その類似度を求めて、認識を行う。
第2図aは電話系1を通す前の音声の平均スペクトルを
模擬的に示しており、第2図すは電話系1の伝送特性を
示している。
第2図すから解るように、電話系1の伝送特性は0.3
KHz〜3.4 KHzの帯域内を有しているため、電
話系1を経た音声の平均スペクトルは第2図Cのように
、急峻な特性で帯域制限され、帯域外に雑音を含んでい
る。
また、サンプリングによる折返し雑音を防止する低域済
波器2はあまり急峻な遮断特性とすると、後の処理に悪
影響を与えるため、通常は、第2図dに示すように、電
話帯域の上限の3.4 KHzより多少下の周波数から
減衰を開始し、4〜5K)lz(例えば、4.2 KH
2)に遮断周波数fcを持つフィルタが使用される。
このような低VF波器2を通すことにより、遮断周波数
fc以上の雑音成分はほとんど除かれるが、3.4 K
Hz以下の音声帯域の情報も多少けずられ、情報の劣化
が生ずるという問題がある。
A−D変換器3では、通常、サンプリング周波数8〜1
0KHzでサンプリングを行っているので、A−D変換
器3で得られるディジタル信号の平均パワースペクトル
は、第2図eに示すように、サンプリング周波数の半分
の周波数である周波数fsを中心に線対称形状でサンプ
リング周波数まで延びている。
このA−D変換器3の出力を分析部4でスペクトル分析
し、分析されたスペクトルの逆特性を逆フィルタ5に設
定することにより、逆フィルタ5の伝送特性は第2図f
のようになる。
このように、第2図eに示すようなスペクトルを有する
音声を分析部4で分析し、その結果で逆フィルタ5の特
性を設定する場合、第2図eに示すスペクトルは電話系
の帯域の上限および下限で急峻に立下っており、分析部
4で分析される帯域、すなわち、周波数0−fsの内に
これらの急峻な特性を含んでおり、したがって、分析結
果のスペクトルの逆特性が設定される逆フィルタは、電
話帯域の上限および下限部分の急峻な特性をフォローす
る部分で不安定になり易く、また、電話帯域内の特性の
フォローも悪くなるという問題がある。
さらに、逆フィルタを経た音声の平均スペクトルは、第
2図gに示すように、帯域内では電話系の影響が正規化
され平坦になるが、帯域外では、雑音成分を大きく増幅
したものとなっている。
なぜなら、逆フィルタでは、入力音声のスペクトルの小
さい部分が逆に強調されるためである。
本発明の目的は、逆フィルタの安定性を増加し、帯域内
の音声情報の劣化を防止し、かつ、帯域外の雑音の影響
を受けないようにした音声認識装置の前処理方法を提供
することにある。
このような目的を達成するために、本発明では、伝送系
を経て入力され、サンプリングされてディジタル化され
た音声をフーリエ変換して周波数スペクトルを得、この
スペクトルの内、伝送系の帯域内の成分およびサンプリ
ングによる折返し成分のみをOK)lzから始まる連続
する周波数帯域として取り出し、それを新たなスペクト
ルとして逆フーリエ変換し、その変換結果を逆フィルタ
の特性として使用するようにしたことに特徴がある。
以下、本発明の実施例を図面により詳細に説明する。
なお、本発明でいう音声認識とは、単語認識、話者認識
、話者識別などのように、音声波形情報を認識、計測な
どするものを総称したものである。
第3図は本発明による前処理方法を実現する音声認識装
置の一実施例を示すもので、第4図は第3図の動作を説
明するためのスペクトルおよび特性を示す。
第3図において、Tは高速フーリエ変換器、8は帯域選
択回路、9は逆フーリエ変換器を示す。
そして、低域ろ波器2の遮断周波数fcは、第4図aの
ように、電話帯域の上限3.4 KHz以下の音声を損
わない程度に充分に高く、かつ、サンプリング周波数の
半分の周波数fsより低くなるように設定される。
したがって、周波数fsは電話帯域の上限である3、
4 KHzよりは高くなければならない。
このような構成において、音声SPが第2図すに示す特
性を有する電話系1を経て、第4図aに示すように、電
話帯域の上限より高い周波数で減衰を始め、遮断周波数
fcが充分高いような減衰特性を持った低域ろ波器2を
通過し、A−D変換器3に入力されると、上述したよう
に規定されるサンプリング周波数でサンプリングされ、
所定ビットのディジタル信号に変換される。
この変換出力は高速フーリエ変換器7で、分析対象音声
の全区間を一括してフーリエ変換され、第4図すに示す
ようなスペクトル特性が得られる。
次に、帯域選択回路8では、第4図すに示すスペクトル
から、音声の存在する帯域、すなわち、電話帯域0.3
〜3.4 KHzとサンプリングによる折返し成分の帯
域だけを取り出し、それらを第4図CのようにOHzか
ら並び換えたスペクトルを得る。
この時、高速フーリエ変換器7は、2のべき乗の音声波
形データに対して行うのが便利であるので、入力される
音声波形データが2のべき乗にならない時は、そのデー
タの後にOを挿入して全体として2のべき乗となるよう
にすれば好都合である。
また、逆フーリエ変換器9のデータ数も2のべき乗であ
ると便利である。
例えば、第4図Cから解るように、選択されたスペクト
ルの等価サンプリング周波数、すなわち 2 X f
s/は電話帯域中3.1 K)lz (= 3.4 K
)lz −0,3K11z )の2倍である6、2に1
1zとなるから、その2倍の12.4KI(zをA−D
変換器3のサンプリング周波数2fsとすれば、その半
分の周波数fsは6.2KHzとなり、電話帯域の上限
3.4 KH7より太きいという条件も満たす。
したがって、2fs′までを表わすスペクトルのデータ
の数が2のべき乗の値であれば、2fs=2(2fs′
)の関係から、2fsまでを表わすスペクトルのデータ
の数も2のべき乗となり、好都合である。
通常、音声波形のサンプル値は数ioo点以上であるか
ら、その値を2のべき乗に選択することにより、2fs
′、2fsも自動的に2のべき乗となる。
上述した例では、2fsは2fs′の2倍にとっである
が、一般には、2fsは2 f s’の2n倍(n≧2
)にとることができる。
しかしながら、この場合、サンプリング周波数が大きく
なり、それだけデータメモリの容量も大きくなり、高速
フーリエ変換器の処理量も増大することを考えると、必
要最小限度である2倍にとるのが望ましい。
すなわち、電話帯域が周波数f1から周波数f2までで
ある時、(f2 fl)X2n+1≧f2×2の関係
を満足する最小のn(n=1,2.・・・)を選び(f
2−fl)X2n+1でサンプリングスルツカよい。
第4図Cとbとを比較して解るように、逆フーリエ変換
器9に入力される周波数スペクトル(第4図C)には、
音声音域外の成分は全くなくなっているため、分析部4
で分析される帯域、すなわち、0〜f s/の中には帯
域遮断の急峻な特性が消滅し、かつ、帯域外の雑音成分
も消滅している。
その結果、逆フィルタ5に不安定な要因となる急峻な特
性を要求しないで済むので、安定で、かつ帯域内の伝送
特性を良くフォローする逆フィルタが実現できるととも
に、帯域内の音声情報を劣化させることなく、帯域外の
雑音を完全に除去させることができる。
また、上述したように、サンプリング周波数の半分子s
を高い周波数、例えば、6.2KHzに設定できるので
、低域ろ波器2の減衰特性を、電話帯域の上限3.4
Kflzより高い値で立上るように設定でき、帯域内の
音声情報をこの部分で劣化させるようなことはない。
さらに、逆フィルタに入力される変換波形の等価サンプ
リング周波数2 f s/は6.2KIIzとなり、従
来のように、8〜l0KH7のサンプリング周波数と比
べて非常に低い値となっているため、分析部4、逆フィ
ルタ5、認識部6で処理される処理量は減少され、それ
だけ、これらの処理速度は向上され、高速フーリエ変換
器7、帯域選択回路8、逆フーリエ変換器9での処理が
増加することを考慮に入れても、全体としてはむしろ従
来より向上している。
第5図は第3図の前処理装置部分の一実施例の構成を示
すもので、第3図の高速フーリエ変換器7、帯域選択回
路8、逆フーリエ変換部9、分析部4、逆フィルタ5に
相当する部分である。
図において、11〜15はレジスタ、16はフーリエ変
換装置、17は逆フーリエ変換装置、18は逆フイルタ
係数計算回路、19は逆フイルタ通過回路、20は制御
部を示す。
このような構成において、レジスタ11には第3図のA
−D変換器3からのディジタル音声波形が格納されてお
り、このレジスタ11内の音声波形はフーリエ変換装置
16に送られ、入力音声波形のデータ数を下まわらない
2のべき乗の最小の数のデータのフーリエ変換がなされ
、その結果がレジスタ12に送られる。
したがって、レジスタ12には、第4図すに示すような
スペクトル情報が記憶される。
制御部20からの制御信号により、レジスタ12内の電
話帯域0.3〜3.4 K11zおよびその折り返し成
分の帯域のスペクトルが取り出され、レジスタ13に、
第4図Cに示すように、帯域を詰めた状態のスペクトル
が記憶される。
次に、逆フーリエ変換装置11では、フーリエ変換装置
16で行ったフーリエ変換の点数の半分の数の逆フーリ
エ変換を行いレジスタ14に送る。
逆フイルタ係数計算回路18では、制御部20からの制
御信号によりレジスタ14から所定長さの音声データを
順次一定間隔ずらして取り出して、スペクトル分析し、
所定のパラメータ、例えば、偏自己相関係数を求め、そ
の係数を逆フイルタ通過回路19に送って、その中の逆
フィルタの特性を設定する。
さらに、制御部20からの制御信号でレジスタ14内の
音声データが順次逆フイルタ通過回路19に通され、逆
フィルタリングされ、その結果レジスタ15に格納され
る。
第6図は第5図の一部、すなわち、逆フイルタ係数計算
回路18、逆フイルタ通過回路19部分の具体的構成の
一例を示すもので、公知の技術であるPARCOR分析
技術(例えば、特公昭4918007号公報に示されて
いる。
)を利用して、偏自己相関係数を求め、その係数で逆フ
ィルタの特性を設定する例である。
図において、100,200は入力端子、101〜10
3,201〜203は信号遅延メモリ、111.112
は相関器、121,122,131゜132.221,
222,231,232は掛算器、141〜14P、1
51〜15P、241〜24P、251〜25Pは加算
器、160はシフトレジスタ、170は平均値算出装置
を示す。
第6図において、分析すべき音声は端子100より入力
され、三分して一方は信号遅延メモリ101へ、他方の
信号は更に三分され相関器111、掛算器131および
加算器151に行く。
遅延メモリ101で遅延された信号は三分され、自己相
関器1丁η、掛算器121、加算器141に行く。
相関器111は二つの入力信号の間の相関を求める機能
を持った公知の装置で、その出力は第一次の偏自己相関
係数181 (PARCOR係数)として出力される一
方、掛算器121と131の一方の入力として用いられ
る。
偏自己相関係数181はシフトレジスタ160に貯えら
れる。
掛算器121と131の出力は各々第一次の前向き及び
後向き波形予測値であって加算器151と141に加え
られ、入力端子100からの入力と遅延メモリ101の
出力との差が各々第一次の前向きおよび後向き予測信号
差と遅延メモリ102への入力として出力される。
以下同様にして第P次までの偏自己相関係数182〜1
8Pと第P次の藺向き予測誤差が分析抽出される。
端子100にはサンプリング間隔で次々と音声データが
はいってくるので偏自己相関係数181〜18Pも刻々
計算され、シフトレジスタ160へ格納されていく。
シフトレジスタ160のレジスタシフトの周期をサンプ
リングの間隔に一致させておけば、全区間終了時には、
全区間の偏自己相関係数が、各次数ごとにシフトレジス
タ160に格納されていることになる。
平均値算出装置110は全区間の分析終了後、各次数の
偏自己相関係数の平均をとり、その平均値をその次数の
偏自己相関係数として逆フィルタにセットし、逆フイル
タ操作が行われている間その値を保持する。
逆フィルタはスペクトル分析部、すなわち逆フイルタ係
数計算回路におけるPARCOR分析フィルタと同じ構
造を持つが、スペクトル分析部において求められた偏自
己相関係数パラメータが予め設定されているところのみ
が異なり、分析された音声の全平均スペクトルの逆特性
のフィルタとなる。
入力端子200から入力されるレジスタ14中の音声デ
ータは上記逆フィルタによりフィルタリングされる。
第7図は、第3図の認識部6の具体的構成の一例を示す
もので、15は第6図の同じ符号に対応するレジスタ、
21はバッファレジスタ、22はパラメータ抽出装置、
23はパラメータレジスタ、24は標準パラメータメモ
リ、25は距離計算回路、26は距離レジスタ、27は
最小値計算回路、28は制御部を示す。
このような構成において、レジスタ15には逆フィルタ
を通過した音声データが格納されており、制御部28か
らの制御信号により、その音声データを一定の長さずつ
、一定の間隔で順次取り出し、バッファレジスタ21を
経由してパラメータ抽出装置22に送る。
このパラメータ抽出装置22は認識に必要なパラメータ
を抽出するもので、例えは、特公昭49−18009号
公報に示す分析部が使用でき、パラメータとして偏自己
相関係数が抽出され、パラメータレジスタ23に入力さ
れる。
一方、標準パラメータメモリ24には、予め計算され登
録されているパラメータの組(単語認識の場合は、各単
語のパラメータ時系列、話者認識の場合は、各話者のパ
ラメータ時系列)が格納されており、制御部28からの
制御信号により、この格納内容を順次取り出し、距離計
算回路25に入力する。
距離計算回路25では、パラメータレジスタ23から出
力された特徴パラメータと、標準パラメータメモリ24
からの標準パラメータとを比較して、その類仰度、すな
わち距離を計算し、その結果を距離レジスタ26に送る
この距離計算回路25としては、例えば、特開昭47−
30242号公報に示す技術が利用できる。
全ての標準パラメータとの距離を算出し終ると、制御部
28からの信号により、距離レジスタ26の中の全距離
を最小値計算回路27に送って距離の最小値を求め、そ
の最小値を示す標準パラメータを代表するカテゴリを出
力する。
第8図は、第3図の認識部6の具体的構成の他の例を示
すもので、マイクロコンピユータラ使った例を示す。
図において、30は前処理装置からの音声データを記憶
するランダムアクセスメモリ、31はデータバス、32
は演算ユニット、33はシーケンサやマイクロ命令メモ
リなどからなる制御部、34は掛算器、35は結果の表
示回路、36は標準音声のパラメータメモリを示す。
以下、このような構成のマイクロコンピュータで実行さ
れる認識処利方法について説明する。
音声を上述したPARCOR技術により分析し、音声間
の類似性を評価する場合は、各種のパラメータが波形の
自己相関係数から求められることは良く知られている。
したがって、上述した偏自己相関係数にや線形予測係数
αは自己相関係数ρから求めることができる。
また、線形予測係数αや偏自己相関係数にで表現される
波形のスペクトルの類似性の評価も自己相関係数ρと線
形予測係数αから得られることも良く知られている。
このような手法を用いると、以下に述べるように、逆フ
ィルタの処理も実現できる。
いま、ランダムアクセスメモリ30に記憶されている音
声波形x1の全区間Nに亘る自己相関係数ρτを、 次の(1)式とする。
但し、IPは逆フィルタの次数、τは自己相関係数の次
数である。
この式より、全体のスペクトルを表わす線形予測係数α
は、良く知られた手法で、次の(2)式で示す連立−次
方程式を解くことにより求められる。
一方、メモリ30内の音声波形をT秒ずつずらしなから
Mサンプル(1フレーム)ずつ取り出した場合における
、その部分の自己相関係数を考える。
いま、K番回目に取り出したM個のサンプル波形値(以
下、K番目のフレームという。
)の自己相関係数をにρτとすると、それは、上述した
全音声の場合と同様に、次の(4)式で表わされる。
この式と(3)式とから、次の(5)式を求めると、そ
のにγτは、音声全体のスペクトルの逆特性を持った逆
フィルタを通ったに番目のフレームの音声の自己相関係
数となっている。
Kγτ−AoKρτ+ ΣAJ (Kρτ−j+にρτ
十j)・・・(5)」=1 この(5)式のにγは逆フィルタを通した音声波形の自
己相関係数であり、逆フィルタのスペクトルと入力音声
波形のスペクトルが完全に逆極性であれば、逆フィルタ
の出力波形のスペクトルは白色(無声音)となり、自己
相関係数にγは最小となる。
すなわち、この方法を応用すれば、2つの音声波形のス
ペクトルの合致の度合を評価することができる。
この評価の方法をより具体的に説明する。
2つの音声の内、第1の音声の自己相関係数をにγ(1
)、第2の音声の自己相関係数をに′γ(2)としく第
1の音声のKと第2音声のKは時間的に線形な関係で評
価する場合には一致するが、非線形な時間軸をとるダイ
ナミックプログラミング(DP)マツチングなどでは一
致しない。
)、同様に、それより得られる逆スペクトル係数をKA
(1)、 K’A(2)とすると、2つの音声のKとに
′番目のフレーム間の類似度dは次の(6)式で表現さ
れる。
dの値が小さいほど2つの音声のスペクトルは類似する
ことになる。
2つの音声波形のスペクトルが完全に一致すると、(6
)式の第1項と第2項の各々の分母、分子が等しくなり
、d−2となる。
一般には、両者は一致しないから、不一致の場合は、分
子の方が分母より大きくなって、dの値は大きくなる。
上述した手法を用いる場合は、逆フィルタを波形領域で
実行しなくても、自己相関係数の形で得るようにしても
よいことが解る。
この場合、処理の途中で線形予測パラメータの一種であ
る線形予測係数(回帰係数とも呼ばれている。
)Kαを得て処理しており、この係数にαの値が充分安
定であることが必要なことは言うまでもない。
特に、間接的に逆フィルタを通した結果を自己相関係数
にγの形で得るため、その安定性から受ける影響は大き
い。
Kγ。
は0次の自己相関係数であり、逆フィルタの出力波形の
パワースペクトルを表わしているので、得られた線形予
測係数にαが不安定であると、物理的にあり得ない負の
値を取ることもある。
この場合でも、上述した処理を施すことによって非常に
安定な係数にαが得られ、結果として、非常に優れた認
識結果が得られる。
上述したような、逆スペクトルパラメータを経た出力波
形(残差波形)の残差相関を利用した評価法では、スペ
クトル全体の合致の度合いを評価しているため、第1図
の例のように、偏自己相関係数の一致の度合いの総合で
評価するより安定である。
なぜなら、偏自己相関係数を求めるための演算精度の影
響などが個々の係数に表われ、全体としての誤差は小さ
いが、個々の係数では誤差が大きく表われる場合がある
からである。
上述した処理を第8図の装置で実現する場合、ランダム
アクセスメモリ30に記憶された音声波形を1フレーム
ずつ順次取り出し、データバス31を介して演算ユニッ
ト32に送り、制御部33からの指令に従って、掛算器
34とともに次の演算を行わせる。
まず、(4)式に従って、自己相関係数にρを求め、こ
の係数を利用して、(2)式に従って線形予測係数にα
を求める。
次1こ、この線形予測係数にαを利用して(3)式に従
って逆スペクトルパラメータKAを算出し、それから、
(5)式に従って逆フィルタを通した音声波形の自己相
関係数にγを求める。
さらに、標準パラメータメモリ36に格納されている標
準パラメータに’A 、 K’γを順次読み出して、そ
れと上述したように求められたKA、にγとによって、
(6)式に従って類似度dを求め、その類似度の大小に
よって音声認識処理を行う。
上述した本発明の実施例の効果を、電話音声を対象にし
た話者照合の例について述べる。
この例では、異なる2個所の市外局から市外回線を経て
第3の個所で記録した音声を用いて評価した結果であっ
て、第7図に示す認識部を用いて、偏自己相関係数の特
徴パラメータで認識した場合、第・1図の従来の認識方
法によれば、話者照合率(本人の音声を他人と見なして
誤って拒否する率と、他人の音声を誤って本人と見なし
て受付ける率が等しくなる:よう判定域値を定め、その
値により判定した時の正答率をいう。
)は65饅程度であるが、第3図の本発明による認識で
は、話者照合率は78饅に改善されている。
また、第8図の認識部を用い、残差相関を照合に利用し
た場合、第1図の従来の認識では話者照合率は75%程
度であるが、第3図の本発明の認識では約90俤の照合
率が得られた。
話者照合では、本来、その照合率が、音韻認識とは基本
的に異なり、100%可能である保証は全くなく、雑音
と回線歪みのない理想的条件でも95%程度であること
を考えると、上述した90%の照合率は画期的である。
なお、前処理を施した音声波形の認識部としては、上述
した例に限らず、種々の公知の認識手段が使用できるこ
とは言うまでもない。
また、第3図のフーリエ変換装置、帯域選択回路、逆フ
ーリエ変換装置の代りに、マイクロコンピュータなどを
使用し、上述した装置の動作をプログラムで実行させる
ようにしてもよい。
さらに、サンプリング周波数、電話帯域などは上述した
例の値に限らず、任意の値をとり得る。
以上述べたように、本発明によれば、逆フィルタの安定
性を増加させ、帯域内の音声情報の劣化を防止し、かつ
、帯域外の雑音の影響を受けないようにできるので、充
分に高い確度で音声認識を行うことができる。
【図面の簡単な説明】
第1図は従来の音声認識装置の構成図、第2図は第1図
の各部のスペクトルおよび特性を示す図、第3図は本発
明による前処理方法を実現する音声認識装置の一実施例
の構成図、第4図は第3図の各部のスペクトルおよび特
性を示す図、第5図は第3図の前処理装置部分の具体的
構成の一例を示す構成図、第6図は第5図の一部の具体
的構成の一例を示す構成図、第7図および第8図はそれ
ぞれ第3図の認識部の具体的構成の一例を示す構成図で
ある。 1・・・・・・電話系、3・・・・・・A−D変換器、
4・・・・・・分析器、5・・・・・・逆フィルタ、7
・・・・・・フーリエ変換装置、8・・・・・・帯域選
択回路、9・・・・・・逆フーリエ変換装置。

Claims (1)

  1. 【特許請求の範囲】 1 ある伝送帯域を有する伝送系を通して入力される音
    声波形を分析して所定パラメータを得、このパラメータ
    の逆特性を有する逆フィルタに上記音声波形を通した後
    、音声波形の認識処理を行う音声認識装置において、上
    記音声波形をフーリエ変換して周波数スペクトルを得、
    該スペクトルから上記伝送帯域内のスペクトルのみを抽
    出して逆フーリエ変換し、その変換結果をスペクトル分
    析するとともに、上記逆フィルタに通すようにしたこと
    を特徴とする前処理方法。 2 前記伝送系の帯域中のは72n”川(nは正の整数
    )倍をサンプリング周波数として、前記音声波形をディ
    ジタル信号に変換した後フーリエ変換することを特徴と
    する特許請求の範囲第1項記載の音声認識装置における
    前処理方法。 3 前記分析パラメータとして偏自己相関係数を使用し
    たことを特徴とする特許請求の範囲第1項記載の前処理
    方法。
JP53055556A 1978-05-12 1978-05-12 音声認識装置における前処理方法 Expired JPS5850360B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP53055556A JPS5850360B2 (ja) 1978-05-12 1978-05-12 音声認識装置における前処理方法
US06/037,026 US4283601A (en) 1978-05-12 1979-05-08 Preprocessing method and device for speech recognition device
DE2919085A DE2919085C2 (de) 1978-05-12 1979-05-11 Vorverarbeitungsverfahren und -vorrichtung für eine Spracherkennungsvorrichtung
GB7916488A GB2022896B (en) 1978-05-12 1979-05-11 Preprocessing a speech signal for a speech recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP53055556A JPS5850360B2 (ja) 1978-05-12 1978-05-12 音声認識装置における前処理方法

Publications (2)

Publication Number Publication Date
JPS54147708A JPS54147708A (en) 1979-11-19
JPS5850360B2 true JPS5850360B2 (ja) 1983-11-10

Family

ID=13001966

Family Applications (1)

Application Number Title Priority Date Filing Date
JP53055556A Expired JPS5850360B2 (ja) 1978-05-12 1978-05-12 音声認識装置における前処理方法

Country Status (4)

Country Link
US (1) US4283601A (ja)
JP (1) JPS5850360B2 (ja)
DE (1) DE2919085C2 (ja)
GB (1) GB2022896B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6458874A (en) * 1987-08-28 1989-03-06 Kitz Corp Ball valve

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4397006A (en) * 1980-12-31 1983-08-02 Mobil Oil Corporation Cross trace coherent noise filtering for seismograms
CA1171945A (en) * 1981-04-16 1984-07-31 Mitel Corporation Voice recognizing telephone call denial system
JPS58145998A (ja) * 1982-02-25 1983-08-31 ソニー株式会社 音声過渡点検出方法
DE3216871A1 (de) * 1982-05-03 1983-11-03 Heinrich-Hertz-Institut für Nachrichtentechnik Berlin GmbH, 1000 Berlin Verfahren zur referenzselektion fuer ein automatisches sprachverarbeitungssystem
US4451700A (en) * 1982-08-27 1984-05-29 M. A. Kempner, Inc. Automatic audience survey system
US4991217A (en) * 1984-11-30 1991-02-05 Ibm Corporation Dual processor speech recognition system with dedicated data acquisition bus
US4790016A (en) * 1985-11-14 1988-12-06 Gte Laboratories Incorporated Adaptive method and apparatus for coding speech
US4628529A (en) * 1985-07-01 1986-12-09 Motorola, Inc. Noise suppression system
US4630304A (en) * 1985-07-01 1986-12-16 Motorola, Inc. Automatic background noise estimator for a noise suppression system
JPH01118900A (ja) * 1987-11-01 1989-05-11 Ricoh Co Ltd 雑音抑圧装置
IL84948A0 (en) * 1987-12-25 1988-06-30 D S P Group Israel Ltd Noise reduction system
US5276765A (en) * 1988-03-11 1994-01-04 British Telecommunications Public Limited Company Voice activity detection
IN184794B (ja) * 1993-09-14 2000-09-30 British Telecomm
FR2722631B1 (fr) * 1994-07-13 1996-09-20 France Telecom Etablissement P Procede et systeme de filtrage adaptatif par egalisation aveugle d'un signal telephonique numerique et leurs applications
JP3452443B2 (ja) * 1996-03-25 2003-09-29 三菱電機株式会社 騒音下音声認識装置及び騒音下音声認識方法
EP0954854A4 (en) * 1996-11-22 2000-07-19 T Netix Inc PARTIAL VALUE-BASED SPEAKER VERIFICATION BY UNIFYING DIFFERENT CLASSIFIERS USING CHANNEL, ASSOCIATION, MODEL AND THRESHOLD ADAPTATION
JP4279357B2 (ja) * 1997-04-16 2009-06-17 エマ ミックスト シグナル シー・ブイ 特に補聴器における雑音を低減する装置および方法
US6003000A (en) * 1997-04-29 1999-12-14 Meta-C Corporation Method and system for speech processing with greatly reduced harmonic and intermodulation distortion
EP0945852A1 (en) * 1998-03-25 1999-09-29 BRITISH TELECOMMUNICATIONS public limited company Speech synthesis
US6912496B1 (en) * 1999-10-26 2005-06-28 Silicon Automation Systems Preprocessing modules for quality enhancement of MBE coders and decoders for signals having transmission path characteristics
GB2355834A (en) 1999-10-29 2001-05-02 Nokia Mobile Phones Ltd Speech recognition
GB0023498D0 (en) * 2000-09-26 2000-11-08 Domain Dynamics Ltd Spectral reconfiguration permutation and mapping
DE10116358A1 (de) * 2001-04-02 2002-11-07 Micronas Gmbh Vorrichtung und Verfahren zur Erfassung und Unterdrückung von Störungen
US6751564B2 (en) 2002-05-28 2004-06-15 David I. Dunthorn Waveform analysis
WO2005034395A2 (en) * 2003-09-17 2005-04-14 Nielsen Media Research, Inc. Methods and apparatus to operate an audience metering device with voice commands
WO2007070789A2 (en) * 2005-12-12 2007-06-21 Nielsen Media Research, Inc. Systems and methods to wirelessly meter audio/visual devices
US9015740B2 (en) 2005-12-12 2015-04-21 The Nielsen Company (Us), Llc Systems and methods to wirelessly meter audio/visual devices
US9124769B2 (en) 2008-10-31 2015-09-01 The Nielsen Company (Us), Llc Methods and apparatus to verify presentation of media content

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4032710A (en) * 1975-03-10 1977-06-28 Threshold Technology, Inc. Word boundary detector for speech recognition equipment
JPS5272504A (en) * 1975-12-15 1977-06-17 Fuji Xerox Co Ltd Device for recognizing word audio

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6458874A (en) * 1987-08-28 1989-03-06 Kitz Corp Ball valve

Also Published As

Publication number Publication date
GB2022896A (en) 1979-12-19
DE2919085A1 (de) 1979-11-15
JPS54147708A (en) 1979-11-19
US4283601A (en) 1981-08-11
GB2022896B (en) 1982-09-08
DE2919085C2 (de) 1983-08-04

Similar Documents

Publication Publication Date Title
JPS5850360B2 (ja) 音声認識装置における前処理方法
US4864620A (en) Method for performing time-scale modification of speech information or speech signals
JP3423906B2 (ja) 音声の動作特性検出装置および検出方法
US20180233120A1 (en) Method and a system for decomposition of acoustic signal into sound objects, a sound object and its use
US7508948B2 (en) Reverberation removal
JP4350690B2 (ja) 音声品質向上方法及び装置
Kopec et al. Speech analysis homomorphic prediction
WO1998043237A1 (en) Recognition system
JP4050350B2 (ja) 音声認識をする方法とシステム
Deepak et al. Epoch extraction using zero band filtering from speech signal
CN111883154B (zh) 回声消除方法及装置、计算机可读的存储介质、电子装置
JPH05108099A (ja) 音声認識用回路装置
Keerthana et al. CWT-based approach for epoch extraction from telephone quality speech
Gangamohan et al. A Robust and Alternative Approach to Zero Frequency Filtering Method for Epoch Extraction.
JPS6356560B2 (ja)
JP3270866B2 (ja) 雑音除去方法および雑音除去装置
JP4166405B2 (ja) 駆動信号分析装置
Dasgupta et al. Detection of Glottal Excitation Epochs in Speech Signal Using Hilbert Envelope.
JP4537821B2 (ja) オーディオ信号分析方法、その方法を用いたオーディオ信号認識方法、オーディオ信号区間検出方法、それらの装置、プログラムおよびその記録媒体
JPH10190470A (ja) 周波数荷重評価関数に基づくスペクトル特徴パラメータ抽出装置
JPH0318720B2 (ja)
Govind et al. Improved epoch extraction from speech signals using wavelet synchrosqueezed transform
JP2003316380A (ja) 会話を含む音の信号処理を行う前の段階の処理におけるノイズリダクションシステム
JP2880683B2 (ja) 雑音抑制装置
JP4313740B2 (ja) 残響除去方法、プログラムおよび記録媒体