JP3352144B2 - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JP3352144B2 JP3352144B2 JP11395193A JP11395193A JP3352144B2 JP 3352144 B2 JP3352144 B2 JP 3352144B2 JP 11395193 A JP11395193 A JP 11395193A JP 11395193 A JP11395193 A JP 11395193A JP 3352144 B2 JP3352144 B2 JP 3352144B2
- Authority
- JP
- Japan
- Prior art keywords
- unit
- matching
- data
- voice
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Description
たっては、背景雑音や不要語の付加による音声区間検出
の誤りを防ぐためにワードスポッティング法を用いる認
識処理が一般に行われている。これは、任意の入力音声
からあらかじめ定めた単語や音節等の単位を捜し出すも
ので、音声区間検出を行わず種々の部分区間を設定し各
標準パターンとの類似度を求め、すべての部分区間を通
して類似度が最大となる単語を認識結果とするものであ
る。
す。図7で、音声データはバッファ71に格納され、マ
ッチング処理部72で音声データのすべての部分区間を
通して全単語辞書73との類似計算を行う。制御部74
はマッチング処理部72によるマッチング及び類似計算
を制御する。
ワードスポッティング法による認識処理は音声分析デー
タすべての部分区間を通して全単語辞書との類似計算を
行うので計算量が膨大となり、マッチング処理にかなり
の時間を要するため対象単語を増すことができないとい
う欠点がある。
あげるために高価な高高速のプロセッサを用いるという
解決手段も考えられるが、コストアップになり、様々な
分野に今後適用が期待される音声認識装置の普及にはそ
れが安価であることが潜在的に要請されている面からみ
て、実用性に欠けるという問題点がある。
れたものであり、背景雑音や不要語に左右されることな
く、しかも処理時間が短く、音声認識率が高く、実用性
の高い音声認識装置を提供することを目的とする。
めに第1による音声認識装置は、入力音声を分析して音
声データを得る音声分析部と、音声データから標準音声
パターンを生成する辞書生成部と、入力した音声データ
の音声パターンと標準音声パターンとのマッチングを行
うマッチング部と、上記音声分析部、辞書生成部、及び
マッチング部を制御する制御部と、を備えた音声認識装
置であって、辞書生成部が、音声データを所定の帯域別
に分析し帯域別辞書データを作成する帯域別分析手段
と、音声データを音声データの全帯域にわたって分析し
全帯域辞書データを作成する全帯域分析手段と、を有
し、マッチング部が、音声データを記憶する記憶部と、
記憶された音声データと全帯域辞書データとのマッチン
グにより得た類似度が第1のしきい値より大きい1つ以
上の候補単語を選択する予備選択部と、候補単語と帯域
別辞書データとのワードスポッティング法によるマッチ
ング処理により候補単語の内から類似度が第2のしきい
値より大きい候補単語を認識単語として出力するマッチ
ング処理部と、を有することを特徴とする。
において、候補単語の選択処理を行う予備選択部の動作
と、候補単語の内からの認識単語の抽出処理を行うマッ
チング処理部の動作とが並列的に実行されることを特徴
とする。
は、辞書生成部が、帯域別分析手段により音声データを
所定の帯域別に分析し帯域別辞書データを作成し、全帯
域分析手段により音声データを音声データの全帯域にわ
たって分析し全帯域辞書データを作成する。そして、マ
ッチング部が、記憶部に音声データを記憶し、予備選択
部により記憶された音声データと全帯域辞書データとの
マッチングにより得た類似度が第1のしきい値より大き
い1つ以上の候補単語を選択し、マッチング処理部によ
り候補単語と帯域別辞書データとのワードスポッティン
グ法によるマッチング処理により候補単語の内から類似
度が第2のしきい値より大きい候補単語を認識単語とし
て出力する。
において、予備選択部による候補単語の抽出処理と、マ
ッチング処理部による候補単語の内からの認識単語の抽
出処理とが並列的に実行される。
ック図であり、音声認識装置1は分析部2、認識部3、
辞書4、及び制御部5から構成されており、認識部3は
スイッチ31、登録動作を行う辞書生成部32、及び認
識動作を行うマッチング部35から構成されている。制
御部5はスイッチ31により辞書生成部32或いはマッ
チング部35の選択制御を行う。入力した音声信号は分
析部2の7チャンネルの帯域フィルタで周波数分析され
た後、認識部3に入力される。ここで、帯域フィルタの
特性を、 CH1……… 200Hz 〜 500Hz CH2……… 500Hz 〜 870Hz CH3……… 870Hz 〜 1350Hz CH4………1350Hz 〜 2050Hz CH5………2050Hz 〜 3200Hz CH6………3200Hz 〜 5500Hz CH7……… 200Hz 〜 5500Hz とする。CH1〜6はバンドパスフィルタ群で構成さ
れ、CH7は全帯域フィルタである(いずれも図示せ
ず)。
るとバンドパスフィルタ群CH1〜CH6で分析された
音声データと、全帯域フィルタCH7で分析された予備
選択のための音声データを用いて辞書生成部32により
辞書データを生成する。なお、本実施例ではCH1〜C
H6の辞書データは現時点で一般に用いられている方法
により作成している。
による辞書データは予備選択に用いるため以下の処理で
作成する。
z)で周波数分析された音声データは絶対値検波した後
平滑LPF(ローパスフィルタ)で平滑化する。その後
信号は10msecでA/D変換する。A/D変換特性は
8bitの非線形特性であり図2に示すような特性を有す
る。 辞書生成部6は分析部2で出力されたデジタルデー
タを時間方向に等間隔に再サンプルしてNポイントのデ
ータに削減する。これにより個人差等に起因する時間的
ずれが吸収されたものとなる。 辞書生成部6は更に上記の段階で得た再サンプル
データからカテゴリKのNポイントのサンプルデータa
k(f1)を以下の数式により平滑化、正規化し第1軸
Bk,lを計算する。
1=1からN−2までの総和であることを意味する。な
お、f1=1,2,…,N−2は再サンプルフレームで
ある。
以下の数式により微分処理して正規化し第2軸Bk,2を
計算する。
1からN−2までの総和であることを意味する。なお、
f1=1,2,…,N−2は再サンプルフレームであ
る。
る1軸及び2軸を各単語毎に作成し、辞書データとして
辞書4に登録する。認識処理の場合にはこの辞書データ
とのマッチングを行い対象単語を絞り込む。辞書作成後
は制御部5はスイッチ31をマッチング部35に設定し
認識処理動作を指示する。
ック図であり、図4は認識部3の音声認識動作を示すフ
ローチャート、図5は全帯域(CH7)の音声パターン
の例である。
6、記憶部に相当するバッファ37及びマッチング処理
部38を有している。マッチング部35では分析部2で
周波数分析された音声データがバッファ37に入力され
る。
た音声データと予備選択のために全帯域フィルタCH7
で分析された全単語の辞書データとのマッチングを行っ
て候補単語を選びその結果を制御部5に送出する。マッ
チング処理部38は制御部5からの候補単語の結果と帯
域フィルタCH1〜CH6の辞書データとのマッチング
を行う。
ッチ31を認識モードに設定すると図4に示すフローチ
ャートに従って認識処理が開始される。認識処理では、
まず初期設定を行いcount(カウンタ)、ans,及びflog
(フラグ)を0にセットし、次にバッファ31の更新を
行う。
れている最も古い音声を1組削除し新しいデータを1組
入力することである。従って、10msec経過し新しい
音声データが入力されるまで次のステップには進まな
い。
しきい値、L2は認識単語判定のためのしきい値、coun
t値は認識単語判定の合否期間であり、図4(A)はメ
インステップ、図4(B)は図4(A)のステップ1
(処理1)のサブステップを示す。
1−6の処理を行う。 (1−1) 図5の音声パターンの例(全帯域)に示す
ようにある時刻e0を終端として、予め定めた単語の継
続時間長の最大値(β)、最小値(α)より単語の始端
検索区間(s0〜s1)を求める。
ターンを再サンプルし全帯域フィルタCH7の全単語辞
書とのマッチングを行う。類似度rkの計算は以下の式
により行う。
ン、Bk,1はカテゴリkの第1軸の辞書である。なお、
記号Σは(X・Bk,1)/‖X‖2についてのl=1から
2までの総和であることを意味する。
1)より大きい対象単語を全て候補単語として記憶す
る。
フィルタCH1〜CH6の辞書データとのマッチングを
行い候補単語の内で最大の類似度Rとその単語Kを求め
る。
0)より大きければ変数ansを類似度Rに変数nをKに
する(これにより、変数ansは最大類似度を内容とする
こととなる)。
いて、s0をs0+1にインクリメント(Increment;
増加)し、以下同様に(1−1)〜(1−5)の動作を
s0がs1に等しくなるまで繰り返す。
値(L2)より小さければバッファを更新し、ステップ
1を繰り返す。L2より大きければ以下の処理を行う。
NSの内容より大きければansの内容をANSに、nを
Nに入れ、countを0にする。
クリメントし、countが50になるまでバッファを更新
し上記ステップ1からステップ3の処理を繰り返す。
その単語Nを認識単語として出力する。
数を上位3単語としたが、3単語に限ることなく任意の
語数でよい。
述の本発明の方式による認識部の音声認識動作につい
て、ある1つの始終端(s0,e0)に対してマッチン
グ回数を比較してみる。対象単語は20単語とし予備選
択で3語選ばれたとすると、従来方式では、 6(チャンネル)×R(サンプル数)×20(単語)=
120R(回) 本方式では、 1(チャンネル)×R(サンプル数)×20(単語)+
6(チャンネル)×R(サンプル数)×3(単語)=3
8R(回) となり、本方式によるマッチング回数は従来方式の約1
/3となる。
理時間が短縮できるので、安価な機器構成で実現可能と
なる。また、同じハードウエア構成であれば対象単語を
増やすことができるので利用効率が向上する。
及び図3)と同様であり、辞書の作成処理も実施例1と
同様にして作成する。以下、本実施例における認識処理
動作について説明する。
示すフローチャートであり、図6(A)はメインステッ
プ、図6(B)は図6(A)の予備選択処理ステップ、
図6(C),図(A)のマッチング処理ステップであ
る。辞書作成後は制御部5はスイッチ31をマッチング
部35に設定し認識処理動作を指示する。
析された音声データがバッファ37に入力される。予備
選択部36はバッファ37に記憶された音声データと予
備選択のため全帯域フィルタCH7で分析された全単語
の辞書データとのマッチングを行って候補単語を選び出
す。マッチング処理部38は制御部5からの候補単語の
結果と帯域フィルタCH1〜CH6の辞書データとのマ
ッチングを行う。
(図6(B))とマッチング処理(図6(C))は独立
しており、メインステップ6(A)で並列に行うように
する。実施例1では候補単語のマッチング処理を行った
後にs0をインクリメントし再び予備選択を行っていた
が(図4のステップ1(1−6)参照)、本実施例では
マッチング処理の終了を待たずに別々に処理を行うので
処理時間を実施例1より短縮することができる。
識動作について説明する。なお、図6のフローチャート
で用いている変数等の記号の意味は図4と同様である。
ッチ31を認識モードに設定すると図4に示すフローチ
ャートに従って認識処理が開始される。認識処理では、
まず初期設定を行いcount(カウンタ),ans,及びflog
(フラグ)を0にセットし、次にバッファ31の更新を
行う。
から1−1−4の予備選択処理及び1−2−1から1−
2−3のマッチング処理を行う。
を終端として、予め定た単語の継続時間長の最大値
(β)、最小値(α)より単語の始端検索区間(s0〜
s1)を求める。
声パターンを再サンプルし全帯域フィルタCH7の全単
語辞書とのマッチングを行う。類似度rkの計算は以下
の式により行う。
ン、Bk,lはカテゴリkの第1軸の辞書である。なお、
記号Σは(X・Bk,l)/‖X‖2についてのl=1から
2までの総和であることを意味する。
(L1)より大きい対象単語を全て候補単語として記憶
する。L1より大きい対象単語がなければ、ss0をs
s0+1にインクリメントする。
リメントし、以下同様に上記(1−1−1)〜(1−1
−3)の動作をs0がs1に等しくなるまで繰り返す。
帯域フィルタCH1〜CH6の辞書データとのマッチン
グを行い、候補単語の内で最大の類似度Rとその単語K
を求める。
値;0)より大きければ変数ansを類似度Rに変数nを
Kにする(これにより、変数ansは最大類似度を内容と
することとなる)。
ンクリメントし、以下同様に上記(1−2−1)及び
(1−1−2)の動作をss0がs1に等しくなるまで
繰り返す。
値(L2)より小さければバッファを更新し、ステップ
1の予備選択及びマッチング処理を繰り返す。L2より
大きくなれば以下の処理を行う。
NSの内容より大きければansの内容をANSに、nを
Nに入れ、countを0にする。
クリメントし、countが50になるまでバッファを更新
し上記ステップ1からステップ3の処理を繰り返す。
その単語Nを認識単語として出力する。
りも処理時間が短縮できるので、安価な機器構成で実現
可能となる。また、同じハードウエア構成であれば対象
単語を増やすことができるので利用効率が向上する。
理しているので、実施例1に比べ更に処理時間を短縮し
得る。また、処理時間に余裕があるので候補単語による
マッチングをきめ細かく行うことができ、認識性能を向
上させることができる。
ば、予備選択部で音声データと全帯域辞書データとのマ
ッチングにより候補単語を絞り込み、その後マッチング
処理部で帯域別辞書データとのマッチングを行い認識単
語を出力するよう構成されているので、音声認識時間が
従来の方式よりも大幅に短縮される。従って、対象単語
を増やすことができ、対象単語対費用効果が増大する。
また、このことから従来程度の対象単語を対象とする場
合はより安価な装置として供給可能であり、音声認識装
置の普及に寄与し得る。第2の発明によれば、更に、予
備選択とマッチング処理を平行処理するよう構成した場
合には処理速度の一層の向上と認識効率の一層の向上が
可能となる。
る。
る。
ある。
ある。
ック図である。
Claims (2)
- 【請求項1】 入力音声を分析して音声データを得る音
声分析部と、 前記音声データから標準音声パターンを生成する辞書生
成部と、 入力した音声データの音声パターンと前記標準音声パタ
ーンとのマッチングを行うマッチング部と、 上記音声分析部、辞書生成部、及びマッチング部を制御
する制御部と、を備えた音声認識装置であって、 前記辞書生成部が、 音声データを所定の帯域別に分析し帯域別辞書データを
作成する帯域別分析手段と、 音声データを音声データの全帯域にわたって分析し全帯
域辞書データを作成する全帯域分析手段と、を有し、 前記マッチング部が、 音声データを記憶する記憶部と、 前記記憶された音声データと全帯域辞書データとのマッ
チングにより得た類似度が第1のしきい値より大きい1
つ以上の候補単語を選択する予備選択部と、 前記候補単語と前記帯域別辞書データとのワードスポッ
ティング法によるマッチング処理により前記候補単語の
内から類似度が第2のしきい値より大きい候補単語を認
識単語として出力するマッチング処理部と、を有するこ
とを特徴とする音声認識装置。 - 【請求項2】 請求項1記載の音声認識装置において、
候補単語の選択処理を行う予備選択部の動作と、候補単
語の内からの認識単語の抽出処理を行うマッチング処理
部の動作とが並列的に実行されることを特徴とする音声
認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11395193A JP3352144B2 (ja) | 1993-04-16 | 1993-04-16 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11395193A JP3352144B2 (ja) | 1993-04-16 | 1993-04-16 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH06301399A JPH06301399A (ja) | 1994-10-28 |
JP3352144B2 true JP3352144B2 (ja) | 2002-12-03 |
Family
ID=14625301
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP11395193A Expired - Lifetime JP3352144B2 (ja) | 1993-04-16 | 1993-04-16 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3352144B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100395222B1 (ko) * | 1998-12-12 | 2003-10-17 | 엘지전자 주식회사 | 음성사서함서비스(브이엠에스)를 위한 음성인식시스템 |
JP5037041B2 (ja) * | 2006-06-23 | 2012-09-26 | アルパイン株式会社 | 車載用音声認識装置及び音声コマンド登録方法 |
JP4867622B2 (ja) | 2006-11-29 | 2012-02-01 | 日産自動車株式会社 | 音声認識装置、および音声認識方法 |
-
1993
- 1993-04-16 JP JP11395193A patent/JP3352144B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPH06301399A (ja) | 1994-10-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3114975B2 (ja) | 音素推定を用いた音声認識回路 | |
US4811399A (en) | Apparatus and method for automatic speech recognition | |
CN111816218A (zh) | 语音端点检测方法、装置、设备及存储介质 | |
US7328076B2 (en) | Generalized envelope matching technique for fast time-scale modification | |
JPS59121100A (ja) | 連続音声認識装置 | |
JP2980026B2 (ja) | 音声認識装置 | |
US4989249A (en) | Method of feature determination and extraction and recognition of voice and apparatus therefore | |
JP3352144B2 (ja) | 音声認識装置 | |
Jeyalakshmi et al. | HMM and K-NN based automatic musical instrument recognition | |
JP3699912B2 (ja) | 音声特徴量抽出方法と装置及びプログラム | |
JP2002062892A (ja) | 音響分類装置 | |
JP2000099077A (ja) | 音声認識装置 | |
JP2002244697A (ja) | 音声認証装置、音声認証方法、及びプログラム | |
Ezers et al. | Musical Instruments Recognition App | |
JP2001083978A (ja) | 音声認識装置 | |
JP2002372982A (ja) | 音響信号分析方法及び装置 | |
JP3065088B2 (ja) | 音声認識装置 | |
JPH03223799A (ja) | 分離しているワード、特に非常に大きい語いの認識方法と装置 | |
Susithra et al. | Simulink Implementation of MFCC for Audio Signal Processing Applications | |
JPH04219798A (ja) | 話者適応音声認識方法および装置 | |
JPH05134697A (ja) | 音声認識装置 | |
JPH04204899A (ja) | 音声認識装置 | |
CN118136019A (zh) | 音频数据的音律解析播放方法、设备及存储介质 | |
JPH01319099A (ja) | 音声認識装置 | |
JPH09198078A (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080920 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090920 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100920 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110920 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110920 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120920 Year of fee payment: 10 |