JPS6039695A - 自動音声アクチビテイ検出方法および装置 - Google Patents
自動音声アクチビテイ検出方法および装置Info
- Publication number
- JPS6039695A JPS6039695A JP14076284A JP14076284A JPS6039695A JP S6039695 A JPS6039695 A JP S6039695A JP 14076284 A JP14076284 A JP 14076284A JP 14076284 A JP14076284 A JP 14076284A JP S6039695 A JPS6039695 A JP S6039695A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- noise
- frame
- voice
- magnitude
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000000694 effects Effects 0.000 title claims description 27
- 238000000034 method Methods 0.000 title claims description 22
- 238000001514 detection method Methods 0.000 claims description 32
- 239000013598 vector Substances 0.000 claims description 13
- 230000009466 transformation Effects 0.000 claims description 12
- 230000005236 sound signal Effects 0.000 claims description 11
- 238000000926 separation method Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 2
- 238000000844 transformation Methods 0.000 claims description 2
- 238000001914 filtration Methods 0.000 claims 1
- 230000001131 transforming effect Effects 0.000 claims 1
- 230000006870 function Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 7
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 6
- 239000000872 buffer Substances 0.000 description 6
- 239000004020 conductor Substances 0.000 description 6
- 229910052760 oxygen Inorganic materials 0.000 description 6
- 239000001301 oxygen Substances 0.000 description 6
- 230000008569 process Effects 0.000 description 4
- CIWBSHSKHKDKBQ-JLAZNSOCSA-N Ascorbic acid Chemical compound OC[C@H](O)[C@H]1OC(=O)C(O)=C1O CIWBSHSKHKDKBQ-JLAZNSOCSA-N 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 239000000523 sample Substances 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000003990 capacitor Substances 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- VMXUWOKSQNHOCA-UKTHLTGXSA-N ranitidine Chemical group [O-][N+](=O)\C=C(/NC)NCCSCC1=CC=C(CN(C)C)O1 VMXUWOKSQNHOCA-UKTHLTGXSA-N 0.000 description 1
- 239000013074 reference sample Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Complex Calculations (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔発明の技術分野〕
本発明は、比較的高いレベルの雑音のある環境において
話す人と無関係の音声アクチビテイの検出を行うための
方法および装置に関するものであシ、マたそのような話
す人と無r!、9係の音声アクチビテイ検出を利用した
自動音声認識装置に関するものである。
話す人と無関係の音声アクチビテイの検出を行うための
方法および装置に関するものであシ、マたそのような話
す人と無r!、9係の音声アクチビテイ検出を利用した
自動音声認識装置に関するものである。
本発明は、本出願人が1983年3月9日出願した米国
特許出願第473,422号の発明と関連したものであ
る。
特許出願第473,422号の発明と関連したものであ
る。
自動音声認識システムは、通信装置、コンピュータその
他の機械に対して人間の最も自然な便利な通信方法とし
てインターフェイスをする人間のための手段を提供する
ものである。要求されれば、これは電話、コンピュータ
等のオペレータが他の人を呼出した)、データを入力さ
せたシ、情報を要求した)、システムを制御したシする
ことを、オペレータが手や眼が他の作業で使えなかった
シ、暗かったシ、或は端末において座っていることがで
きないような場合にも可能にする。
他の機械に対して人間の最も自然な便利な通信方法とし
てインターフェイスをする人間のための手段を提供する
ものである。要求されれば、これは電話、コンピュータ
等のオペレータが他の人を呼出した)、データを入力さ
せたシ、情報を要求した)、システムを制御したシする
ことを、オペレータが手や眼が他の作業で使えなかった
シ、暗かったシ、或は端末において座っていることがで
きないような場合にも可能にする。
従来知られている自動音声認識方法は次のようにして行
われる。すなわちパントノ!スフィルタ(BPF)でろ
波された可聴周波数音声入力信号が周期にサンプリング
されてデータフレームが生成され、次いでそのデータが
予備処理されて音声処理にさらに適したものであるパラ
メータ値の処理されたフレームに変換され、複数のテン
グレー) (templite )を蓄積しく各テング
レートは1つの語を表わす/やラメータ値の予め生成さ
れ処理された複数のフレームであシ、そのH社−緒にさ
れた時に自動音声認識装置の基準断食を形成する)、音
声の処理されたフレームを予め定められたアルゴリズム
例えばダイナミックプ四グラオンダアルゴリズム(DP
A )に従ってテンプレートと比較する。DPAはI
EgETrans、Aooustiam+5peech
and SignalProeess+ing+AS
SP −23巻67〜72頁(1975年2月)にF、
イタクラ氏によって発表されておシ、与えられたテンプ
レートと話された語との間の最良の時間整列路または整
合を有することが認められている。
われる。すなわちパントノ!スフィルタ(BPF)でろ
波された可聴周波数音声入力信号が周期にサンプリング
されてデータフレームが生成され、次いでそのデータが
予備処理されて音声処理にさらに適したものであるパラ
メータ値の処理されたフレームに変換され、複数のテン
グレー) (templite )を蓄積しく各テング
レートは1つの語を表わす/やラメータ値の予め生成さ
れ処理された複数のフレームであシ、そのH社−緒にさ
れた時に自動音声認識装置の基準断食を形成する)、音
声の処理されたフレームを予め定められたアルゴリズム
例えばダイナミックプ四グラオンダアルゴリズム(DP
A )に従ってテンプレートと比較する。DPAはI
EgETrans、Aooustiam+5peech
and SignalProeess+ing+AS
SP −23巻67〜72頁(1975年2月)にF、
イタクラ氏によって発表されておシ、与えられたテンプ
レートと話された語との間の最良の時間整列路または整
合を有することが認められている。
自動音声認識はエネルギの測定に基いた音声の終シの点
の検出に依存している。従来の技術においては音声アク
チピテイ検出装置は音声であると仮定されたエネルギの
存在と沈黙であると仮定されたエネルギの欠如とを弁別
している。
の検出に依存している。従来の技術においては音声アク
チピテイ検出装置は音声であると仮定されたエネルギの
存在と沈黙であると仮定されたエネルギの欠如とを弁別
している。
それ故従来の自動音声認識装置は比較的静かな環境で使
用することが必要であシ、そうでなければ認識の正確度
は急激に低下する。静かな環境が必要であることは音声
g識装置が適用される用途を制限する。例えば従来の音
声認識装置杜維音の多い工場の床の上に置いて動作させ
たル、航空機のコックビット中等で使用することは困難
である。これらの軸音の多い環境では音声が存在しない
時に雑音が発生し、雑音は時には音声信号レベル以上の
レベルを有し、音声信号が存在しているかどうか判定す
ることは困難である。それ故、話す人と無関係な音声ア
クチビテイ検出の方法および装置を捉供することが望ま
れておシ、音声が存在し麦い時に雑音が比較的高いレベ
ルで発生するよう外環境において動作しなければならな
い自動音声認識装置において使用するそのような音声ア
クチビテイ検出の方法および装置が望まれている。
用することが必要であシ、そうでなければ認識の正確度
は急激に低下する。静かな環境が必要であることは音声
g識装置が適用される用途を制限する。例えば従来の音
声認識装置杜維音の多い工場の床の上に置いて動作させ
たル、航空機のコックビット中等で使用することは困難
である。これらの軸音の多い環境では音声が存在しない
時に雑音が発生し、雑音は時には音声信号レベル以上の
レベルを有し、音声信号が存在しているかどうか判定す
ることは困難である。それ故、話す人と無関係な音声ア
クチビテイ検出の方法および装置を捉供することが望ま
れておシ、音声が存在し麦い時に雑音が比較的高いレベ
ルで発生するよう外環境において動作しなければならな
い自動音声認識装置において使用するそのような音声ア
クチビテイ検出の方法および装置が望まれている。
本発明は、音声が存在しない時に音声信号に等しいかそ
れよ多大きい信号強度であってもよい雑音信号レベルで
発生する雑音を含む雑音の存在している中で音声信号の
音声アクチビテイ検出を行う方法および装置に関するも
のである。
れよ多大きい信号強度であってもよい雑音信号レベルで
発生する雑音を含む雑音の存在している中で音声信号の
音声アクチビテイ検出を行う方法および装置に関するも
のである。
入力信号はデジタル化され、このデジタル化された信号
に関係するデジタル信号値のフレームが反覆的に形成さ
れる。音声信号および雑音信号は自動的処分離される。
に関係するデジタル信号値のフレームが反覆的に形成さ
れる。音声信号および雑音信号は自動的処分離される。
好ましい実施態様においてはこれは話す人とは無関係釦
予め定められた、一定の動作すなわち変換をフレームに
ついて行うことによって為される。
予め定められた、一定の動作すなわち変換をフレームに
ついて行うことによって為される。
また、好ましい実施態様においては、入力信号は周波数
に応じてろ波されて卵数のフィルタ出力信号が形成され
、それらは次いでデジタル化される。フレームはデジタ
ル化されたフィルタ出力信号から生成される。線形変換
がそのデジタル信号値のフレームに適用されて各フレー
ムに対するスカラ特徴が生成され、その大きさは雑音信
号よシ音声信号に対して大きい。
に応じてろ波されて卵数のフィルタ出力信号が形成され
、それらは次いでデジタル化される。フレームはデジタ
ル化されたフィルタ出力信号から生成される。線形変換
がそのデジタル信号値のフレームに適用されて各フレー
ムに対するスカラ特徴が生成され、その大きさは雑音信
号よシ音声信号に対して大きい。
検出しきい値がスカラ特徴の大きさに対して生成され、
それは反覆的に更新される。スカラ特徴は検出しきい値
と比較され、複数の連続した比較の結果が蓄積される。
それは反覆的に更新される。スカラ特徴は検出しきい値
と比較され、複数の連続した比較の結果が蓄積される。
蓄積された結果は予め定められた方法で組合わされ、音
声信号が偽 存在する時驚指示が得られる。
声信号が偽 存在する時驚指示が得られる。
音声信号が存在する指示が与えられる時、フレームは認
識可能な語の語希を表わす蓄積されたテングレートと比
較される前にさらに前処理される。比較はダイナミック
プログラミングアルゴリズム(DPA )に基いて行わ
れる。
識可能な語の語希を表わす蓄積されたテングレートと比
較される前にさらに前処理される。比較はダイナミック
プログラミングアルゴリズム(DPA )に基いて行わ
れる。
本発明の目的、特徴および効果は、添付図面を参照にし
た以下の実施例の説明によってさらに明らかになるであ
ろう。
た以下の実施例の説明によってさらに明らかになるであ
ろう。
第1図は自動音声認識装置100のブロック図である。
それは、マイクロホン102と、マイクロホン前置増巾
器104と、この増巾器104の可聴周波数信号出力の
デジタルスペクトルサンプリングを行うバンド/4スフ
イルタ/9ンク(以下BPFとい5)回路108と、プ
ロセッサ間通信回路114および116によって相互接
続された一対のf0セッサ110および112と、およ
び外部不揮発メモリ装置118とを備えている。好まし
い実施例ではプロセッサ110.112はモトローラ社
のMC68000をマイクロプロセッサであシ、プロセ
ッサ間通信回路114,116はMC68000型マイ
ク四プロセッサ間のデータの転送および中断を処理する
ための通常の設計の回路である。MC68000型に対
する中断方法についてはMC68000型の説明書に充
分に記載されている。
器104と、この増巾器104の可聴周波数信号出力の
デジタルスペクトルサンプリングを行うバンド/4スフ
イルタ/9ンク(以下BPFとい5)回路108と、プ
ロセッサ間通信回路114および116によって相互接
続された一対のf0セッサ110および112と、およ
び外部不揮発メモリ装置118とを備えている。好まし
い実施例ではプロセッサ110.112はモトローラ社
のMC68000をマイクロプロセッサであシ、プロセ
ッサ間通信回路114,116はMC68000型マイ
ク四プロセッサ間のデータの転送および中断を処理する
ための通常の設計の回路である。MC68000型に対
する中断方法についてはMC68000型の説明書に充
分に記載されている。
音声認識アルゴリズムはプロセッサ110および112
のEPROMメモリ部分122および124にそれぞれ
蓄積されておシ、予め定められた断食は外部不揮発繊メ
モリ装置11B中の予め作られたテンプレートとして蓄
積されている。メモリ装置118は例えばインテル社の
Aプルメモリ7110型でよく、それは100万ピツト
を蓄積できる。この実施例では断食中に36語しかなく
、平均テンブレ′−ト当ヤ要求される4000ビツトを
有する36のテングレートがある。したがってバブルメ
モリは約250のテンプレートを蓄積できる。テンプレ
ートがBPF回路108から音声データの入来フレーム
との比較のために必要であるとき、それらはメモリ11
8からプロセッサ112中の動作メモリ126に呼出さ
れる。
のEPROMメモリ部分122および124にそれぞれ
蓄積されておシ、予め定められた断食は外部不揮発繊メ
モリ装置11B中の予め作られたテンプレートとして蓄
積されている。メモリ装置118は例えばインテル社の
Aプルメモリ7110型でよく、それは100万ピツト
を蓄積できる。この実施例では断食中に36語しかなく
、平均テンブレ′−ト当ヤ要求される4000ビツトを
有する36のテングレートがある。したがってバブルメ
モリは約250のテンプレートを蓄積できる。テンプレ
ートがBPF回路108から音声データの入来フレーム
との比較のために必要であるとき、それらはメモリ11
8からプロセッサ112中の動作メモリ126に呼出さ
れる。
第2図を参照すると、BPF回路108の詳細なブロッ
ク図が示されている。第1図の導線130上の前置増巾
器104からの出力信号は10 kpmの3 dbバン
ド巾を有する入力増巾器200に送られる。これに続い
てオクターブ当p 6 dbのプレエンファシスを行う
増巾器202があシ500或は50001izの周波数
において台9 選択実にカットする。これは一般に音声データ中の振巾
では高い周波数のものの方が振巾が低)− いために低い周波数よシ高い周波数において高い利得を
与えるために通常使用されている。増巾器202の出力
信号は分割されアンチ・アリアス(、antl−all
aslng )フィルタ204(j!断同周波数14
kHz )および2o6c遮P’R周波数10、5 )
cHz )の各入力部に与えられる。これらは次のサン
プリングのために生じるアリアスを消去するために設け
られている。
ク図が示されている。第1図の導線130上の前置増巾
器104からの出力信号は10 kpmの3 dbバン
ド巾を有する入力増巾器200に送られる。これに続い
てオクターブ当p 6 dbのプレエンファシスを行う
増巾器202があシ500或は50001izの周波数
において台9 選択実にカットする。これは一般に音声データ中の振巾
では高い周波数のものの方が振巾が低)− いために低い周波数よシ高い周波数において高い利得を
与えるために通常使用されている。増巾器202の出力
信号は分割されアンチ・アリアス(、antl−all
aslng )フィルタ204(j!断同周波数14
kHz )および2o6c遮P’R周波数10、5 )
cHz )の各入力部に与えられる。これらは次のサン
プリングのために生じるアリアスを消去するために設け
られている。
フィルタ204および206の出力はIIPF回路20
8および210にそれぞれ供給される。
8および210にそれぞれ供給される。
BPF回路208はチャンネル1〜9f:含み、BPF
回路210はチャンネル10〜19を含む。
回路210はチャンネル10〜19を含む。
−チャンネル1〜18のそれぞれは1/3オクターブフ
イルタを含んでいる。チャンネル19は全オクターブフ
ィルタを含んでいる。チャンネルフィルタはRatic
on社R5604型およびR56606型のスイッチド
キャパシタ装置を使用して通常の形式で構成されている
。第3図はBPF回路208および210のクロック入
力周波数、中心周波数および19のチャンネルの3 d
bバンド巾を示している。BPF回路208および21
0に対して要求されるバンドパスフィルタクロック周波
数入力は通常の方法で1.632MHzり四ツク213
によって駆動されるクロック発生回路212から発生さ
れる。
イルタを含んでいる。チャンネル19は全オクターブフ
ィルタを含んでいる。チャンネルフィルタはRatic
on社R5604型およびR56606型のスイッチド
キャパシタ装置を使用して通常の形式で構成されている
。第3図はBPF回路208および210のクロック入
力周波数、中心周波数および19のチャンネルの3 d
bバンド巾を示している。BPF回路208および21
0に対して要求されるバンドパスフィルタクロック周波
数入力は通常の方法で1.632MHzり四ツク213
によって駆動されるクロック発生回路212から発生さ
れる。
BPF回路208および210の出力は整流され、ロー
パスフィルタでろ波され(遮断周波数=30Hz)、同
時にサンプリング回路214中の19のサンプルおよび
保持回路においてサンプリングされる。19のチャンネ
ルサンプルはマルチプレクサ216およびz 1 B
(Siliconlx社DG506型)を通って多重化
され、対数〜Φ変換器C5illeonix社DF33
1型)においてアナログ信号からデジタル信号に変換さ
れる。変換器220は8ビット順次出力を有し、それは
パスxs;tを通ってプロセッサ110へ−の入力とす
るために直列並列レジスタ(NatlonalSeml
conductor DM86 LS 62型)222
にお、いて並列フォーマットに変換される。
パスフィルタでろ波され(遮断周波数=30Hz)、同
時にサンプリング回路214中の19のサンプルおよび
保持回路においてサンプリングされる。19のチャンネ
ルサンプルはマルチプレクサ216およびz 1 B
(Siliconlx社DG506型)を通って多重化
され、対数〜Φ変換器C5illeonix社DF33
1型)においてアナログ信号からデジタル信号に変換さ
れる。変換器220は8ビット順次出力を有し、それは
パスxs;tを通ってプロセッサ110へ−の入力とす
るために直列並列レジスタ(NatlonalSeml
conductor DM86 LS 62型)222
にお、いて並列フォーマットに変換される。
2 MHzのクロック発生器224は回路214、マル
チプレクサ216および218およびめ変換器220の
ために種々のタイミング信号を発生する。サンプルおよ
び保持命令は10ミリ秒毎に1回、線215によって回
路214に与えられる。各サンプルおよび保持回路はタ
イミング回路226から回路216と218へパス21
7を経て送信された5ビツト選択信号に応答して順次K
(500マイクロ秒毎に1回)多重化される。4ビツト
は回路によって使用され、一方1ピットはどの回路を選
択するかに使用される。それ故ψ変換器の19のサンプ
ルされたチャンネルプラス基本基準サンプルに10ミリ
秒が取られる。これらの20個の8ピットデジタル信号
はデータフレームと呼ばれ、それらは適当々時間にパス
132上をマイクロプロセッサ110へ送られる。フレ
ーム毎に1つの状態信号がタイミング発生回路226か
ら発生され、導線228を経てプロセッサll0J/C
Jiえられる。との信号はプロセッサ110の入力に対
するタイミングでフィルタ回路10Bを同期させる。タ
イミング発生回路226はさらに導′mX S Oを経
てプロセッサ110に2 kHzデータ準備準備ストロ
−用力する。これはプロセッサ110に対してフレーム
轟り2oの中断信号を与える。
チプレクサ216および218およびめ変換器220の
ために種々のタイミング信号を発生する。サンプルおよ
び保持命令は10ミリ秒毎に1回、線215によって回
路214に与えられる。各サンプルおよび保持回路はタ
イミング回路226から回路216と218へパス21
7を経て送信された5ビツト選択信号に応答して順次K
(500マイクロ秒毎に1回)多重化される。4ビツト
は回路によって使用され、一方1ピットはどの回路を選
択するかに使用される。それ故ψ変換器の19のサンプ
ルされたチャンネルプラス基本基準サンプルに10ミリ
秒が取られる。これらの20個の8ピットデジタル信号
はデータフレームと呼ばれ、それらは適当々時間にパス
132上をマイクロプロセッサ110へ送られる。フレ
ーム毎に1つの状態信号がタイミング発生回路226か
ら発生され、導線228を経てプロセッサll0J/C
Jiえられる。との信号はプロセッサ110の入力に対
するタイミングでフィルタ回路10Bを同期させる。タ
イミング発生回路226はさらに導′mX S Oを経
てプロセッサ110に2 kHzデータ準備準備ストロ
−用力する。これはプロセッサ110に対してフレーム
轟り2oの中断信号を与える。
第4図を参照すると本発明の自動音声HMeltアルゴ
リズム装置400のブロック図が示されている。それは
4個のサブ動作部分に分けられることができる。すなわ
ちバンドパスフィルタデータ変換装置402;音声アク
チビテイ検出装置404:可変フレーム率エンコードお
よヒ正規化メルーセグストラル(mol−eepstr
al)変換装置406;および認識装置408である。
リズム装置400のブロック図が示されている。それは
4個のサブ動作部分に分けられることができる。すなわ
ちバンドパスフィルタデータ変換装置402;音声アク
チビテイ検出装置404:可変フレーム率エンコードお
よヒ正規化メルーセグストラル(mol−eepstr
al)変換装置406;および認識装置408である。
音声アクチビテイ検出装許404はVaxll/780
において使用するためのC言語およびMC68000型
において使用するための組立%言語で構成されている。
において使用するためのC言語およびMC68000型
において使用するための組立%言語で構成されている。
C言語は技術社会において一般に使用されウェスターン
・エレクトリック社から入手できる高次元言語である。
・エレクトリック社から入手できる高次元言語である。
装置404のC言語形式については後述する。それKつ
いては第7図の説明に関連してさらに詳細に説明する。
いては第7図の説明に関連してさらに詳細に説明する。
前述のように500ミリ秒毎にマイクロプロセッサ11
0は導線230を介して回路10Bによって中断される
。その中断を処理するソフトウェアはBPF変換装置4
02である。通常、パス132からの新しい8ピツトフ
イルタ値はバッファ中に蓄積されるが10ミリ秒毎に(
20回目の中断)新しいフレーム信号が導線228を経
て送られる。BPF変換装置402はバッファされた1
9個の8ビツトフイルタ値を取シ、最初の3つの値を組
合せて第1の係数にし、次の2つの値を第2の係数とし
、19番目の値を捨てる。何故ならば、特に雑音環境に
おいては何か有用な情報であっても少ししか含まれてい
ないことが発見されたからである。その結果の15係数
は入力信号の1つの10ミリ秒フレームを特徴づける。
0は導線230を介して回路10Bによって中断される
。その中断を処理するソフトウェアはBPF変換装置4
02である。通常、パス132からの新しい8ピツトフ
イルタ値はバッファ中に蓄積されるが10ミリ秒毎に(
20回目の中断)新しいフレーム信号が導線228を経
て送られる。BPF変換装置402はバッファされた1
9個の8ビツトフイルタ値を取シ、最初の3つの値を組
合せて第1の係数にし、次の2つの値を第2の係数とし
、19番目の値を捨てる。何故ならば、特に雑音環境に
おいては何か有用な情報であっても少ししか含まれてい
ないことが発見されたからである。その結果の15係数
は入力信号の1つの10ミリ秒フレームを特徴づける。
変換された音声フレームは、もしも音声アクチビテイ検
出装置404が音声の存在を指示したならば、バッファ
4101C,次いでVFREおよびメル・セプストラル
変#l!、装置406に伝送される。音声アクチピテイ
検出装f1404については後で詳しく説明する。この
検出装置404が音声の存在を指示した瞬間を考えると
、変換装W406においては予め蓄積されたフレームと
バッファ410中の現在のフレームとの間のユークリッ
ド距離(Euclidean distancs )が
決定される。もしもその差が小であり(同様に大きい)
、データの2フレ一ム以上がスキップされるととがない
々らば、現在のフレームは通過する。他方それは将来の
比較のために蓄積され、正規化されたメル・セグストラ
ル変換の次のステツブに通過する。平均で回路108か
らのデータフレームの半分が通過する(すなわち、毎秒
50フレーム)。
出装置404が音声の存在を指示したならば、バッファ
4101C,次いでVFREおよびメル・セプストラル
変#l!、装置406に伝送される。音声アクチピテイ
検出装f1404については後で詳しく説明する。この
検出装置404が音声の存在を指示した瞬間を考えると
、変換装W406においては予め蓄積されたフレームと
バッファ410中の現在のフレームとの間のユークリッ
ド距離(Euclidean distancs )が
決定される。もしもその差が小であり(同様に大きい)
、データの2フレ一ム以上がスキップされるととがない
々らば、現在のフレームは通過する。他方それは将来の
比較のために蓄積され、正規化されたメル・セグストラ
ル変換の次のステツブに通過する。平均で回路108か
らのデータフレームの半分が通過する(すなわち、毎秒
50フレーム)。
処理されるべきデータを減少させるために、15個のフ
ィルタ係数は線形変換マトリックスによって5個の係数
に減少される。一般に使用されるマトリックスは5個の
メル・コサインベクトルのファミリーから成シ、それは
バンド/母スフイルタのデータをメル・セプストラル係
数の近似値に変換する。メル・コサイン線形変換につい
ては[1lDavis+S、B、およびMermels
toin*P。
ィルタ係数は線形変換マトリックスによって5個の係数
に減少される。一般に使用されるマトリックスは5個の
メル・コサインベクトルのファミリーから成シ、それは
バンド/母スフイルタのデータをメル・セプストラル係
数の近似値に変換する。メル・コサイン線形変換につい
ては[1lDavis+S、B、およびMermels
toin*P。
の論文Evaluation of Aaous+tl
c Parameterfor Monosyllab
le Word Identlfieatlon(Jo
urnal Aaoust、Soo、Am−第645u
ppl・1・S 180〜181頁および(2)同じく
両氏の論文Comparliion of Param
etsr Representationsfor M
onosyllabie Word Rscognit
lon InContlnuously 5poken
5sntences (IEIJTrans。
c Parameterfor Monosyllab
le Word Identlfieatlon(Jo
urnal Aaoust、Soo、Am−第645u
ppl・1・S 180〜181頁および(2)同じく
両氏の論文Comparliion of Param
etsr Representationsfor M
onosyllabie Word Rscognit
lon InContlnuously 5poken
5sntences (IEIJTrans。
Aeoust、+5peech+S1gnal Pro
e、、AS8P−28巻357〜366頁に記載されて
いる。しかしながら本発明の実施例においてはメル・コ
サイン線形変換における変形の正規化されたメル・セゾ
ストラル変換と呼ばれるものが使用されている。すなわ
ち未処理のBPFデータは正規化されてゼロ平均にされ
、500 Hzよシ上で実質ゼロスロープに正規化され
、1ステツプにおいてメル・コサイン変換される。最初
のメル・セゾストラル係数(それはスペクトルスロープ
に非常に敏感である)は使用されない。
e、、AS8P−28巻357〜366頁に記載されて
いる。しかしながら本発明の実施例においてはメル・コ
サイン線形変換における変形の正規化されたメル・セゾ
ストラル変換と呼ばれるものが使用されている。すなわ
ち未処理のBPFデータは正規化されてゼロ平均にされ
、500 Hzよシ上で実質ゼロスロープに正規化され
、1ステツプにおいてメル・コサイン変換される。最初
のメル・セゾストラル係数(それはスペクトルスロープ
に非常に敏感である)は使用されない。
メル・セゾストラル変換を受けた各フレームはそれから
f0セッサの動作メモリ126中に今蓄積されている断
案を表わすテンプレートのそれぞれと比較される。比較
は前述の米国特許出願473.422号明細書に記載さ
れた、周知のダイナミックプログラミングアルゴリズム
(DPA)に基づいたアルゴリズムの認?8j部408
に従って行われる。DPAについては前述のようにF、
イタクラ氏の論文に記載されている。上述の米国特許出
願においてはDPAの変形方式が使用されパス境界制御
による窓のある(windowed) DPAと呼ばれ
ている。DPAの概要は以下第5図の説明に関連して与
えられる。テンプレートはy軸502上に置かれ、uW
&されるべき入力語はズ軸504上に置かれてDPAマ
トリックス500が形成される。マトリックス中のセル
は何れも語フレームを有スるテンプレートフレームの1
つづつのマツピングに対応する。これらの/ヤターンの
フトーム間の任意の時間整列は左下隅から右上隅へのマ
トリックスを通る通路によって表わされることができる
。代表的な整列路506が示されている。DPA機能は
、マトリックス中において変数A、B、Cによシ表わさ
れる隣接セルに終る最良の通路に延びることによシ名セ
ルDK対する最良の通路を順次発見することによってマ
トリックスを通る局部的に最良の通路を発見する。最小
スコアを有する通路はDK局部通路強制を受けるように
延びるように選択される。各水平または垂直ステップは
斜方向ステップが後続しなければならない。例えばもし
も垂直ステップがセルCに行われたならば、セルCにお
ける通路はセルDK対する最良の通路として選択される
ことはできない。セルDにおける通路スコアは前の通路
スコア(A、BまたはCからの)fラスセルDにおける
フレームからフレームまでの距離によって更新される。
f0セッサの動作メモリ126中に今蓄積されている断
案を表わすテンプレートのそれぞれと比較される。比較
は前述の米国特許出願473.422号明細書に記載さ
れた、周知のダイナミックプログラミングアルゴリズム
(DPA)に基づいたアルゴリズムの認?8j部408
に従って行われる。DPAについては前述のようにF、
イタクラ氏の論文に記載されている。上述の米国特許出
願においてはDPAの変形方式が使用されパス境界制御
による窓のある(windowed) DPAと呼ばれ
ている。DPAの概要は以下第5図の説明に関連して与
えられる。テンプレートはy軸502上に置かれ、uW
&されるべき入力語はズ軸504上に置かれてDPAマ
トリックス500が形成される。マトリックス中のセル
は何れも語フレームを有スるテンプレートフレームの1
つづつのマツピングに対応する。これらの/ヤターンの
フトーム間の任意の時間整列は左下隅から右上隅へのマ
トリックスを通る通路によって表わされることができる
。代表的な整列路506が示されている。DPA機能は
、マトリックス中において変数A、B、Cによシ表わさ
れる隣接セルに終る最良の通路に延びることによシ名セ
ルDK対する最良の通路を順次発見することによってマ
トリックスを通る局部的に最良の通路を発見する。最小
スコアを有する通路はDK局部通路強制を受けるように
延びるように選択される。各水平または垂直ステップは
斜方向ステップが後続しなければならない。例えばもし
も垂直ステップがセルCに行われたならば、セルCにお
ける通路はセルDK対する最良の通路として選択される
ことはできない。セルDにおける通路スコアは前の通路
スコア(A、BまたはCからの)fラスセルDにおける
フレームからフレームまでの距離によって更新される。
この距離はもしも斜めのステップが通路スコアの正規化
罠よυ選択されるシらば加える前に2倍にされる。DP
A機能の移動は各発声フレームに対してテンプレート軸
に沿っている。以上説明した機能はB変数をセルDのス
コアにリセットし、A変数をセルCあスコアにリセット
し、Cに対して新しい値を蓄積部から検索することKよ
って認識アルゴリズムの最も内側のループにおいて反覆
される。
罠よυ選択されるシらば加える前に2倍にされる。DP
A機能の移動は各発声フレームに対してテンプレート軸
に沿っている。以上説明した機能はB変数をセルDのス
コアにリセットし、A変数をセルCあスコアにリセット
し、Cに対して新しい値を蓄積部から検索することKよ
って認識アルゴリズムの最も内側のループにおいて反覆
される。
しかしながら装置406と408が動作できる前に、音
声の始めと終シが検出されなければならない。雑音が少
いか、全く存在しない静かな環境において音声認識が行
われる場合には、エネルギ測定に基いた終点検出が使用
できる。
声の始めと終シが検出されなければならない。雑音が少
いか、全く存在しない静かな環境において音声認識が行
われる場合には、エネルギ測定に基いた終点検出が使用
できる。
しかしながら、例えば航空機特に戦闘機の環境では伝統
的な音声アクチビティ検出器−を使用できなくするよう
な2つの形式の雑音が存在する。
的な音声アクチビティ検出器−を使用できなくするよう
な2つの形式の雑音が存在する。
すなわちエンジンと風からの背景雑音が音声信号に加え
られ、その結果、信号と付加された雑音の分離の昔から
の検出の問題を生じる。第6図の曲線602を参照され
たい。マスクに酸素調整器を使用すると吸入および排気
から雑音が発生し、それは音声と共働せず偽似検出を生
じる可能性がある。曲線604および606を参照され
たい。これらの雑音と関連した信号の振巾は多くのコッ
クピットの状態におりて音声信号の振巾を超過する。
られ、その結果、信号と付加された雑音の分離の昔から
の検出の問題を生じる。第6図の曲線602を参照され
たい。マスクに酸素調整器を使用すると吸入および排気
から雑音が発生し、それは音声と共働せず偽似検出を生
じる可能性がある。曲線604および606を参照され
たい。これらの雑音と関連した信号の振巾は多くのコッ
クピットの状態におりて音声信号の振巾を超過する。
第7図を参照して音声アクチビテイ検出装置404を詳
細に説明する。BPF変換装置402からのデータの多
数のフレームは種々の発声者と酸素調整装置からの音声
と雑音の両者を表わしておル、フレームに供給されたと
き話している音声範囲に亘って音声と雑音との間の良好
な分離を与える一定した変換を決定するように何機ベク
トル702が発見され、その変形されたフレーム704
との内積703はバンドパスフィルタ705から出力さ
れ、雑音から音声を良好に分離するスケーラ%、徴70
6を与えることが決定された。BPF変換装置402か
ら来るフレームは対数AJ/′D変換器220の作用に
よシ対数的に符号化されたフレームである。しかしなが
ら、雑音信号と音声信号のエネルギに比例したフレーム
が形成されるならば、さらによい結果が得られる。これ
は705からのBPFフレームをフレーム成分707の
逆対数の2乗動作することによって行われる。このステ
ップは特徴のダイナミック範囲を増加することによって
音声アクチビテイ検出を強調し、したがって音声スペク
トルのピークと比較的ブロードな雑音および音声以外の
ス(り、トルとの間のさらに良好な分離を与える。
細に説明する。BPF変換装置402からのデータの多
数のフレームは種々の発声者と酸素調整装置からの音声
と雑音の両者を表わしておル、フレームに供給されたと
き話している音声範囲に亘って音声と雑音との間の良好
な分離を与える一定した変換を決定するように何機ベク
トル702が発見され、その変形されたフレーム704
との内積703はバンドパスフィルタ705から出力さ
れ、雑音から音声を良好に分離するスケーラ%、徴70
6を与えることが決定された。BPF変換装置402か
ら来るフレームは対数AJ/′D変換器220の作用に
よシ対数的に符号化されたフレームである。しかしなが
ら、雑音信号と音声信号のエネルギに比例したフレーム
が形成されるならば、さらによい結果が得られる。これ
は705からのBPFフレームをフレーム成分707の
逆対数の2乗動作することによって行われる。このステ
ップは特徴のダイナミック範囲を増加することによって
音声アクチビテイ検出を強調し、したがって音声スペク
トルのピークと比較的ブロードな雑音および音声以外の
ス(り、トルとの間のさらに良好な分離を与える。
良好な特徴ベクトルFを導出する念めに、音声が存在し
ない時に生じる雑音と複数の発声者うに行われ変形され
る。データは音声フレーム[8)および雑音フレーム[
N)のセットに分ケラれる。検査によシFKおける良好
な直感的推論が行われ、次いで以下の式によって全ての
〔S〕および全ての(N) KよるFの内積が作られ、
その結果のスカラ特徴の2つのクラスの統計的オーバー
ラツプCF、 S)および(:F、N]が測定され、分
離したフィギュア・オノ・メリットが形成される(・は
2個のベクトルの内積を形成する表示である)。
ない時に生じる雑音と複数の発声者うに行われ変形され
る。データは音声フレーム[8)および雑音フレーム[
N)のセットに分ケラれる。検査によシFKおける良好
な直感的推論が行われ、次いで以下の式によって全ての
〔S〕および全ての(N) KよるFの内積が作られ、
その結果のスカラ特徴の2つのクラスの統計的オーバー
ラツプCF、 S)および(:F、N]が測定され、分
離したフィギュア・オノ・メリットが形成される(・は
2個のベクトルの内積を形成する表示である)。
各特徴ベクトル成分子jにおける小さな変化が作られ、
例えばFの第1の成分子1は少し大きく作られ、それか
ら少し小さく作られ、次いで同じことがf3について行
われ、以下同様に行われる・冬季さな変化に対してF、
SおよびF、Nは全てのフレーム〔S〕および〔N〕お
よび再び測定された分離に対して再び計算される。これ
はよシ良好な分離のためのFの変化を行わせる方向を特
定する。したがってFld変化され、出発点に対して新
しいベクトルが得られ、このプロセスは反覆される。こ
の方法は傾斜サーチとして知られている。
例えばFの第1の成分子1は少し大きく作られ、それか
ら少し小さく作られ、次いで同じことがf3について行
われ、以下同様に行われる・冬季さな変化に対してF、
SおよびF、Nは全てのフレーム〔S〕および〔N〕お
よび再び測定された分離に対して再び計算される。これ
はよシ良好な分離のためのFの変化を行わせる方向を特
定する。したがってFld変化され、出発点に対して新
しいベクトルが得られ、このプロセスは反覆される。こ
の方法は傾斜サーチとして知られている。
顕著な改善であることを示す特徴ベクトルFが形成され
る時、それがどのように働くかを確認することが認識装
置アルゴリズムにおいて試みられた。もしも成る形式の
紋音が依然として検出をトリがすることが発見され、或
は成る音声が調和してミスされたならば、それらのザン
ゾルが取られ、データベース[S]および[N)に加算
される。それから新しいベクトルが古いデータと同様に
新しいデータを処理するためにサーチされる。
る時、それがどのように働くかを確認することが認識装
置アルゴリズムにおいて試みられた。もしも成る形式の
紋音が依然として検出をトリがすることが発見され、或
は成る音声が調和してミスされたならば、それらのザン
ゾルが取られ、データベース[S]および[N)に加算
される。それから新しいベクトルが古いデータと同様に
新しいデータを処理するためにサーチされる。
傾斜サーチ中所要の内積および分離の計算を行う補助と
して、VAXコンピュータに対してC言語中に1つのプ
ログラムが作られた。上述した多少変形した傾斜サーチ
用のプログラムのリストについては後に示す。
して、VAXコンピュータに対してC言語中に1つのプ
ログラムが作られた。上述した多少変形した傾斜サーチ
用のプログラムのリストについては後に示す。
好ましい実施例では、前述の傾斜サーチにょシ発見され
た15のパラメータ特徴ベクトルは次のとおシである。
た15のパラメータ特徴ベクトルは次のとおシである。
10.0
2 13.9
35.9
41.2
51.4
61.4
71.5
81.6
92.4
10 1.3
11 2.0
12 1.2
13 4.8
14 −13.6
15 0.0
一度最良の特徴ベクトルが決定されると、変形フレーム
との白状動作によシ形成されたスカラ特徴は集められて
、第7図に全体を710で示されたヒストグラムに形成
される。X軸712はスカラ特徴の大きさであシ、一方
、y軸714は特定の大きさが生じる回数である。ジェ
ット雑音716および酸素調整装置雑音718はしきい
値720以下で生じる。一方音声722はしきい値72
0よシ上で生じる。
との白状動作によシ形成されたスカラ特徴は集められて
、第7図に全体を710で示されたヒストグラムに形成
される。X軸712はスカラ特徴の大きさであシ、一方
、y軸714は特定の大きさが生じる回数である。ジェ
ット雑音716および酸素調整装置雑音718はしきい
値720以下で生じる。一方音声722はしきい値72
0よシ上で生じる。
音声認識装置が例えば戦闘機のコックピットで使用され
ている時、音声アクチピテイ検出装M404は最初に検
出しきい値を選択するが、その後連続的に統計を集め、
特徴726のヒストグラムを更新する。1000フレー
ム毎に検出しきい値はヒストグラム中の統計に基いて調
整される。例えばピーク750はヒストグラム710中
に位置し、サーチはビーク750の前方へ低い点720
を位置させる。しきい値は低い点の値に1または2のよ
うな向等かの値をプラスした値に設定される。最後に各
ヒストグラムエントリは2分されヒストグラム値が過大
にガって行くことのないように保持する。
ている時、音声アクチピテイ検出装M404は最初に検
出しきい値を選択するが、その後連続的に統計を集め、
特徴726のヒストグラムを更新する。1000フレー
ム毎に検出しきい値はヒストグラム中の統計に基いて調
整される。例えばピーク750はヒストグラム710中
に位置し、サーチはビーク750の前方へ低い点720
を位置させる。しきい値は低い点の値に1または2のよ
うな向等かの値をプラスした値に設定される。最後に各
ヒストグラムエントリは2分されヒストグラム値が過大
にガって行くことのないように保持する。
検出しきい値708の大きさは各フレームに対してゾi
ツク730においてスカラ特徴706の大きさから減算
される。重みづけ機能732がf0ツク730の出力値
に適用されてそれらが734においてろ波されクランプ
される前にに平滑にする。重みづけ機能はブロック73
0から大きな負の値を減少させ小さな正の値を減少させ
る。大きな正の値は実質上影響を受けずそのままである
。重みづけ機能はフィルタおよびフランジ機能734に
よシ行われる積分処理と共同して音声検出の始めおよび
終シの間の鋭いカットオフ点を与える。大きな負の値は
もつと小さな値よシも音声不存在の指示の良好な結果を
与えるものではなく、音声が存在する時を指示すること
から積分処理を歪ませ遅延させる。
ツク730においてスカラ特徴706の大きさから減算
される。重みづけ機能732がf0ツク730の出力値
に適用されてそれらが734においてろ波されクランプ
される前にに平滑にする。重みづけ機能はブロック73
0から大きな負の値を減少させ小さな正の値を減少させ
る。大きな正の値は実質上影響を受けずそのままである
。重みづけ機能はフィルタおよびフランジ機能734に
よシ行われる積分処理と共同して音声検出の始めおよび
終シの間の鋭いカットオフ点を与える。大きな負の値は
もつと小さな値よシも音声不存在の指示の良好な結果を
与えるものではなく、音声が存在する時を指示すること
から積分処理を歪ませ遅延させる。
小さい正の値は音声が存在するかどうかについての不確
実性を生じ、検出されないままの方がよい。実施例の重
みづけ機能およびフィルタおよびフランジ機能はC言語
において与えられる。
実性を生じ、検出されないままの方がよい。実施例の重
みづけ機能およびフィルタおよびフランジ機能はC言語
において与えられる。
装置402からの4つの連続フレームに対応するフィル
タおよびフラング機能734から4つの値はバッファ7
36中に蓄按される。マルチフレーム決定論理装置73
8は音声が存在するかどうかを決定するために使用され
る。例えばもしも音声が存在しないならば、およびもし
も4個のベソファ全てが正の指示を与えられるならば、
その時には決定鉱音声が存在するとされる。そしてこれ
は第4図のグロック410に転送される。それ以外では
決定は音声が依然として存在しないとされる。他方音声
が現在存在しているならば、決定はもしもバッファのど
れか1つが音声が存在していることを指示するならば音
声が存在するとする。もしも4個のバッファ全てが音声
信号が存在しないことを指示す 。
タおよびフラング機能734から4つの値はバッファ7
36中に蓄按される。マルチフレーム決定論理装置73
8は音声が存在するかどうかを決定するために使用され
る。例えばもしも音声が存在しないならば、およびもし
も4個のベソファ全てが正の指示を与えられるならば、
その時には決定鉱音声が存在するとされる。そしてこれ
は第4図のグロック410に転送される。それ以外では
決定は音声が依然として存在しないとされる。他方音声
が現在存在しているならば、決定はもしもバッファのど
れか1つが音声が存在していることを指示するならば音
声が存在するとする。もしも4個のバッファ全てが音声
信号が存在しないことを指示す 。
るならば音声杜今終ったと決定される。゛上述の復号は
C言語で行われる。
C言語で行われる。
実施例において装置402,404および406はプロ
セッサ110中で動作され、−刃装置408はプロセッ
サ112中で動作する。
セッサ110中で動作され、−刃装置408はプロセッ
サ112中で動作する。
しかしながら、2個のプロセッサが1個に組合されるべ
き理由はない。本発明は分離された語認職による36語
の語垂に関するものであるけれども、音声アクチビテイ
検出装置がもつと大きな語粟の連続音声認識装置と共に
使用できない理由はない。また予め定められた特徴ベク
トルおよび音声フレーム間の内積の使用による音声アク
チビテイ検出は、バンドパスフィルタ変換装置402か
らデジタル信号の値の対数に比例しているこのフレーム
を通って直接与えられた音声フレームについて行われる
とともできる。
き理由はない。本発明は分離された語認職による36語
の語垂に関するものであるけれども、音声アクチビテイ
検出装置がもつと大きな語粟の連続音声認識装置と共に
使用できない理由はない。また予め定められた特徴ベク
トルおよび音声フレーム間の内積の使用による音声アク
チビテイ検出は、バンドパスフィルタ変換装置402か
らデジタル信号の値の対数に比例しているこのフレーム
を通って直接与えられた音声フレームについて行われる
とともできる。
同様に内積は、デジタル信号がデジタル信号の大きさに
比例し、2乗に比例しないフレームを使用して行われる
こともできる。
比例し、2乗に比例しないフレームを使用して行われる
こともできる。
認識装置の実行の結果は、コックビットの音圧レベルが
115 dBで加速力が5Gである最悪の場合に対して
85から95%の認識正確度を示している。事実、その
システムは低レベル周囲雑音特性(95+%正確度)か
ら約106dBの雑音レベルまで劣化を示さない。しか
しながら、5Gの加速力における1 15 dBの音響
レベルはしばしば見せかけであることが指摘されなけれ
ばなら々い。/ぐイロットは部分的に周囲のコックビッ
ト雑音から密閉されている酸素h14整装置中に話す。
115 dBで加速力が5Gである最悪の場合に対して
85から95%の認識正確度を示している。事実、その
システムは低レベル周囲雑音特性(95+%正確度)か
ら約106dBの雑音レベルまで劣化を示さない。しか
しながら、5Gの加速力における1 15 dBの音響
レベルはしばしば見せかけであることが指摘されなけれ
ばなら々い。/ぐイロットは部分的に周囲のコックビッ
ト雑音から密閉されている酸素h14整装置中に話す。
しかしながら、雑音および加速力によるストレスによっ
て74イロツトは正常の話し方よシ劣った話し方で話す
ようKなる。また酸素調整装置中へのパイロットのスト
レスによる息によって生じた雑音も存在する。
て74イロツトは正常の話し方よシ劣った話し方で話す
ようKなる。また酸素調整装置中へのパイロットのスト
レスによる息によって生じた雑音も存在する。
以上本発明をその特定の実施例に関連して説明したけれ
ども、その他の多くの実施態様が特許請求の範囲に記載
された発明の技術的範囲に含まれることを理解すべきで
ある。
ども、その他の多くの実施態様が特許請求の範囲に記載
された発明の技術的範囲に含まれることを理解すべきで
ある。
第1図は本発明の1実施例のブロック図であシ、第2図
は第1図の装置のパントノやスフイルタ部分の詳細ブロ
ック図である。第3図は第2図のフィルタ特性を示し、
第4図は本発明における音声認識アルゴリズムの動作を
示すためのブロック図であシ、第5図は第4図における
認識部分の整列および整合をまとめたグラフである。第
6図は音声ならびにジェット雑音および酸素調整装置雑
音の振巾対周波数特性を示し、第7図は第4図の音声認
識アルゴリズムの音声アクチピテイ検出部分の詳細なブ
ロック図を示すO 第1頁の続き @発明者 ジョージ・ペンスコ 7 0発 明 者 ローレンス−カーリン アエ @発明者 アレン・アール・スミ ア ス −: メリカ合衆国、カリフォルニア州、ラモナ、ハンドルバ
・ロード 16927 メリカ合衆国、カリフォルニア州、ボモノ、イースト・
イッス・ストリート 623 4リ力合衆国、コネチカット州、ハンチイントン、バタ
カツプ・レーン 27
は第1図の装置のパントノやスフイルタ部分の詳細ブロ
ック図である。第3図は第2図のフィルタ特性を示し、
第4図は本発明における音声認識アルゴリズムの動作を
示すためのブロック図であシ、第5図は第4図における
認識部分の整列および整合をまとめたグラフである。第
6図は音声ならびにジェット雑音および酸素調整装置雑
音の振巾対周波数特性を示し、第7図は第4図の音声認
識アルゴリズムの音声アクチピテイ検出部分の詳細なブ
ロック図を示すO 第1頁の続き @発明者 ジョージ・ペンスコ 7 0発 明 者 ローレンス−カーリン アエ @発明者 アレン・アール・スミ ア ス −: メリカ合衆国、カリフォルニア州、ラモナ、ハンドルバ
・ロード 16927 メリカ合衆国、カリフォルニア州、ボモノ、イースト・
イッス・ストリート 623 4リ力合衆国、コネチカット州、ハンチイントン、バタ
カツプ・レーン 27
Claims (9)
- (1)音声が存在していない時に発生している雑音を含
む雑音の存在下に音声アクチビティを検出し、それにお
いて前記雑音と関係する信号から前記音声に関係する信
号を自動的に分離することを特徴とする音声アクチピテ
ィ検出方法。 - (2) 前記雑音信号は前記音声信号の大きさに等しい
かそれよシ大きいものである特許請求の範囲第1項記載
の方法。 - (3) 前記信号を分離する方法として、前記音声およ
び雑音信号を周波数によってろ波して複数のフィルタ出
力信号を出力させ、これらフィルタ出力信号をデジタル
化し、それらフィルタ出力信号に関係する複数のデジタ
ル信号値を有するフレームを反覆形成し、話す人と無関
係の、予め定められた、一定の変換を前記フレームの前
記デジタル信号値に適用して前記音声信号に関係するク
レームを前記雑音信号に関係するフレームから分離する
特許請求の範囲第1項記載の方法。 - (4)前記予め定められた、一定の変換を適用するに際
して前記雑音信号と関係するフレームと関係したスカラ
特徴の大きさより大きい大きさを持つ前記音声信号と関
係する前記フレームの大部分に対してスカラ特徴を生成
する特許請求の範囲第3項記載の方法。 - (5) 前記フレームと関係する前記スカラ特徴の大き
さを蓄積し、その蓄積された大きさから検出しきい値を
反覆して設定し、各フレームの前記スカラ特徴を前記し
きい値と比較して、前記音声信号の存在しない前記雑音
信号から音声信号を分離する特許請求の範囲第4項記載
の方法・ - (6)前記蓄積されたスカラ%徴の大きさからスカラ特
徴の大きさのヒストグラムを形成し、前記検出しきい値
の設定はNを約1oooとしてNフレーム毎に1画集行
される特許請求の範間第5項記載の方法。 − - (7)帥記スカラ特徴としきい値の比較は前記検出しき
い値を前記スカラ特徴の大きさから減算して未処理の特
徴値を生成することによって行われ、さらに複数の連続
するフレームと関係する前記未処理の複数の特徴値が蓄
積され、予め定められた態様によってそれら複数の未処
理の特徴値がデコードされて音声信号が存在する時を指
示する特許請求の範囲第5項記載の方法。 - (8) 前記デジタル信号値に変換を適用する方法は、
各フレームにおける前記複数のデジタル信号値に対して
等しい数のvI数の素子を有する一定の線形特徴ベクト
ルを形成し、前記線形特徴ベクトルとデジタル信号値の
各フレームとの内積を形成することを含む特許請求の範
囲第4項記載の方法。 - (9) 前記フレームの前記複数のデジタル信号値は前
記音声および雑音信号の大きさの2乗に関係している特
許請求の範囲第3項記載の方法。 卸 音声信号に関係した信号および雑音に関係した信号
をデジタル化し、前記音声および雑音信号に関係したデ
ジタル信号値のフレームを形成する手段と、 前記デジタル化する手段に結合されて前記雑音信号から
音声信号を自動的に分離する分離手段とを具備している
ことを特徴とする音声が存在しない時に発生する雑音を
含んだ雑音の存在下において音声の音声アクチビテイ検
出を行う装置。 Qツ 前記分離手段は、話す人と無関係の、予め定めら
れた、一定の変換を前記フレームの前記デジタル信号値
に対して施す手段を備え、それKよって前記音声信号に
関係するフレームが前記雑音信号に関係するフレームか
ら分離される特許請求の範囲第10項記載の装置。 (ロ)前記変換を施す手段は、前記フレームからスカラ
特徴を生成する手段を備え、分離手段はしきい値を設定
し、更新する手段を備え、前記検出しきい値よシ大きさ
の小さいスカラ特徴と関係するフレームは雑音信号と関
係するものとして考慮され、検出しきい値よシ大きさが
大きいスカラ特徴は音声信号と関係するものとして考慮
される如く構成されている特許請求の範囲第11項記載
の装置。 α罎 前記スカラ特徴を前記検出しきい値と比較する手
段と、複数の連続するフレームに対して検数の前記比較
の結果を蓄積する手段と、蓄積された結果を組合わせて
音声信号が存在する時の指示を得る手段とを備えている
特許請求の範囲第12項記載の装置◎ 04 前記雑音信号の大きさが前記音声信号の大きさに
等しいかそれよ〕大きいものである特許請求の範囲第1
0項記載の装置0 (ロ) 前記フレームのデジタル信号値が前記音声およ
び雑音信号の大きさの2乗に関係している特許請求の範
囲第11項記載の装置。 0時 音声と関係する信号および雑音と関係する信号と
をデジタル化し、前記音声および雑音信号と関係するデ
ジタル信号値のフレームを形成する手段と、 音声信号が存在している時を決定するために前記雑音信
号から音声48号を自動的に分離するように前記デジタ
ル化する手段に結合された音声アクチピテイ手段と、 前記デジタル化する手段および前記音声アクチビテイ手
段に結合されて音声信号が存在することを帥記音声アク
チビテイ手段が決定する時にさらに認識処理をするのに
一層適しているパラメトリックデータのフレームに前記
フレームを変換する音声認識手段と、 前記音声認識手段に結合され、前記音声信号が認識され
るように認識されるべき前記音声を表わしている複数の
テンプレートと前記/母うメトリックデータのフレーム
の選択された1個とを比較する手段とを具備しているこ
とを特徴とする音声が存在しない時に発生する雑音を含
む雑音の存在下で音声の自ml N 識を行う装置。 O′/)比較はダイナミック・プログラミング・アルゴ
リズムによって行われる特許請求の範囲第16項記載の
装置・ (1時 前記音声アクチピティ手段は、前記フレームか
らスカラ特徴を生成する手段と、検出しきい値を設定し
、更新する手段と、前記スカラ特徴を検出しきい値と比
較する手段と、複数の連続するフレームに対して前記複
数の比較の結果を蓄積する手段と、前記蓄積された結果
を組合わせて音声信号が存在する時の指示を得る手段と
を備え、前記検出しきい値を設定し更新する手段におい
ては検出しきい値よシ大きさが小さいスカラ特徴を有す
るフレームは雑音信号と関係するものとして考慮され、
検出しきい値より大きさが大きいスカラ特徴を有するフ
レームは音声信号と関係するものとして考慮される特許
請求の範囲第16項記載の装置。 0呻 前記雑音信号の大きさが音声信号の大きさに等し
いか大きいものである特許請求の範囲第16項記載の装
置。 に)音声アクチピテイ手段に結合された前記デジタル信
号のフレームを変形してデジタル信号の変形フレームを
形成する手段が設けられ、それにおいて前記デジタル信
号値は前記音声および雑音信号の大きさの2乗に関係す
るものである特許請求の範囲第16項記載の装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US51206883A | 1983-07-08 | 1983-07-08 | |
US512068 | 1983-07-08 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPS6039695A true JPS6039695A (ja) | 1985-03-01 |
Family
ID=24037538
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP14076284A Pending JPS6039695A (ja) | 1983-07-08 | 1984-07-09 | 自動音声アクチビテイ検出方法および装置 |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP0143161A1 (ja) |
JP (1) | JPS6039695A (ja) |
CA (1) | CA1218458A (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2278984A (en) * | 1993-06-11 | 1994-12-14 | Redifon Technology Limited | Speech presence detector |
GB2422279A (en) * | 2004-09-29 | 2006-07-19 | Fluency Voice Technology Ltd | Determining Pattern End-Point in an Input Signal |
US9959887B2 (en) | 2016-03-08 | 2018-05-01 | International Business Machines Corporation | Multi-pass speech activity detection strategy to improve automatic speech recognition |
KR102643501B1 (ko) * | 2016-12-26 | 2024-03-06 | 현대자동차주식회사 | 대화 처리 장치, 이를 포함하는 차량 및 대화 처리 방법 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS56135898A (en) * | 1980-03-26 | 1981-10-23 | Sanyo Electric Co | Voice recognition device |
JPS5797599A (en) * | 1980-12-10 | 1982-06-17 | Matsushita Electric Ind Co Ltd | System of detecting final end of each voice section |
JPS57177197A (en) * | 1981-04-24 | 1982-10-30 | Hitachi Ltd | Pick-up system for sound section |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2433800A1 (fr) * | 1978-08-17 | 1980-03-14 | Thomson Csf | Discriminateur de parole et recepteur comportant un tel discriminateur |
JPS5876899A (ja) * | 1981-10-31 | 1983-05-10 | 株式会社東芝 | 音声区間検出装置 |
-
1984
- 1984-07-05 EP EP84107846A patent/EP0143161A1/en not_active Withdrawn
- 1984-07-06 CA CA000458275A patent/CA1218458A/en not_active Expired
- 1984-07-09 JP JP14076284A patent/JPS6039695A/ja active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS56135898A (en) * | 1980-03-26 | 1981-10-23 | Sanyo Electric Co | Voice recognition device |
JPS5797599A (en) * | 1980-12-10 | 1982-06-17 | Matsushita Electric Ind Co Ltd | System of detecting final end of each voice section |
JPS57177197A (en) * | 1981-04-24 | 1982-10-30 | Hitachi Ltd | Pick-up system for sound section |
Also Published As
Publication number | Publication date |
---|---|
EP0143161A1 (en) | 1985-06-05 |
CA1218458A (en) | 1987-02-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US4933973A (en) | Apparatus and methods for the selective addition of noise to templates employed in automatic speech recognition systems | |
US4624008A (en) | Apparatus for automatic speech recognition | |
US5732394A (en) | Method and apparatus for word speech recognition by pattern matching | |
US4811399A (en) | Apparatus and method for automatic speech recognition | |
US20060206321A1 (en) | Noise reduction using correction vectors based on dynamic aspects of speech and noise normalization | |
US4589131A (en) | Voiced/unvoiced decision using sequential decisions | |
JPH06332492A (ja) | 音声検出方法および検出装置 | |
US4665548A (en) | Speech analysis syllabic segmenter | |
JPH0743598B2 (ja) | 音声認識方法 | |
US5806022A (en) | Method and system for performing speech recognition | |
CN113192535B (zh) | 一种语音关键词检索方法、系统和电子装置 | |
US4370521A (en) | Endpoint detector | |
JPH0792988A (ja) | 音声検出装置と映像切り替え装置 | |
JP5803125B2 (ja) | 音声による抑圧状態検出装置およびプログラム | |
KR101122590B1 (ko) | 음성 데이터 분할에 의한 음성 인식 장치 및 방법 | |
KR101122591B1 (ko) | 핵심어 인식에 의한 음성 인식 장치 및 방법 | |
JPS6039695A (ja) | 自動音声アクチビテイ検出方法および装置 | |
JP3354252B2 (ja) | 音声認識装置 | |
JP3523382B2 (ja) | 音声認識装置及び音声認識方法 | |
JP3039623B2 (ja) | 音声認識装置 | |
JP3046029B2 (ja) | 音声認識システムに使用されるテンプレートに雑音を選択的に付加するための装置及び方法 | |
US20080228477A1 (en) | Method and Device For Processing a Voice Signal For Robust Speech Recognition | |
JPS60114900A (ja) | 有音・無音判定法 | |
JPS63502304A (ja) | 高雑音環境における言語認識のためのフレ−ム比較法 | |
JP7511374B2 (ja) | 発話区間検知装置、音声認識装置、発話区間検知システム、発話区間検知方法及び発話区間検知プログラム |