JP2966460B2 - 音声切り出し方法及び音声認識装置 - Google Patents

音声切り出し方法及び音声認識装置

Info

Publication number
JP2966460B2
JP2966460B2 JP2030185A JP3018590A JP2966460B2 JP 2966460 B2 JP2966460 B2 JP 2966460B2 JP 2030185 A JP2030185 A JP 2030185A JP 3018590 A JP3018590 A JP 3018590A JP 2966460 B2 JP2966460 B2 JP 2966460B2
Authority
JP
Japan
Prior art keywords
sound
voice
threshold
signal
region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2030185A
Other languages
English (en)
Other versions
JPH03233600A (ja
Inventor
真一 鶴藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Denki Co Ltd
Original Assignee
Sanyo Denki Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Denki Co Ltd filed Critical Sanyo Denki Co Ltd
Priority to JP2030185A priority Critical patent/JP2966460B2/ja
Publication of JPH03233600A publication Critical patent/JPH03233600A/ja
Priority to US08/897,734 priority patent/US6411928B2/en
Application granted granted Critical
Publication of JP2966460B2 publication Critical patent/JP2966460B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】 (イ)産業上の利用分野 本発明は、音声認識装置、更にはこの音声認識装置に
入力される音声の時間領域の検出を行うなめの音声切り
出し方法に関する。
(ロ)従来の技術 音声認識装置に於ては、音声を入力するためのマイク
には、音声の他に常に周囲雑音が入力されてしまうの
で、この周囲雑音に含まれる音声の時間領域を正確に検
出することが重要課題である。
例えば、バックグランドミュージック(BGM)が流れ
ているような事務所に於ても、音声認識によって、例え
ばワードプロセッサへの入力を行うなどの必要性が出て
くる場合があり、この場合にはBGMが話者の音声に混じ
って音声認識のためのマイクに入力されるので、この入
力音響信号のどの時間位置からどの時間位置までが音声
領域であるかを正確に検出できなければ、音声認識は不
可能である。このような事は、カーステレオなどの車載
音響機器で音楽や歌曲を再生中の自動車内で自動車電装
機器を音声認識操作しようとする場合でも同じである。
従って、従来装置では、マイクに入力された信号のレ
ベルを検知して、これが予じめ音声を発生する環境や条
件から決定した特定の閾値以上になる時間を音声の時間
領域と見做して切り出す音声切り出し方法が採用されて
いた。
しかしながら、このような従来の音声切り出し方法で
は、周囲雑音であるBGMや歌曲の再生レベルが一定でな
いので、従来の固定的な閾値を用いているだけでは正確
な音声の切り出しができない不都合があった。
(ハ)発明が解決しようとする課題 本発明は上述の従来の不都合に鑑みてなされたもので
あり、そのレベルが変動する周囲雑音環境下に於ても正
確に音声の時間領域を検出することのできる音声切り出
し方法を提供し、更には、この音声切り出し方法の採用
によって音声認識装置を実現しようとするものである。
(ニ)課題を解決するための手段 本発明の音声切り出し方法は、音声が存在する音響信
号のレベルが特定の閾値以上に達する時間領域に音声の
存在を検出して音声領域を切り出す方法であって、上記
音響信号とは異なる音響入力手段で検出した周囲雑音レ
ベルにより上記閾値を設定し、該閾値により音響信号領
域を切り出し、該音響信号領域を音声領域として抽出す
るものである。
又、本発明の音声認識装置は、音声を入力するマイ
ク、該マイクから得られる音響信号を分析して音声の特
徴パラメータ時系列を抽出する音声分析部、該音声分析
部から得られる特徴パラメータ時系列に基づいて音声パ
タンを作成する音声パタン作成部、予じめ複数の標準的
音声の音声パタンを標準音声パタンとして貯えた標準音
声パタンメモリ、該メモリの各音声パタンと上記音声パ
タンとをパタンマッチングして上記音声パタンを識別す
る識別部、周囲雑音を入力するための音響入力端子、該
入力端子に接続された周囲雑音の発生源である音響機器
からの雑音音響レベルにより第1の音声切り出し閾値を
設定する第1切り出し閾値設定部、該設定部により設定
された第1切り出し閾値により上記マイクから得られる
音響信号から第1の音響信号領域を検出する第1切り出
し制御部、該制御部で検出した第1の音響信号領域が中
心に存在する音響信号に対して更に周囲雑音レベルに基
づき上記第1の閾値より低いレベルの第2の閾値を設定
する第2切り出し閾値設定部、該設定部により設定され
た第2切り出し閾値により上記第1の音響信号領域が含
まれる第2の音響信号領域を検出する第2切り出し制御
部を備え、該第2切り出し制御部で検出された第2の音
響信号領域を音声領域と見做し、上記音声分析部から得
られる特徴パラメータ時系列の内、上記音声領域に存在
する特徴パラメータ時系列に基づき、上記音声パタン作
成部で音声パタンを作成するものである。
(ホ)作用 本発明の音声切り出し方法によれば、音声が存在する
音響信号から音声の時間領域をそのレベルで検出するた
めの閾値を周囲雑音レベルに従ってダイナミックに設定
できるので、周囲雑音が変動する環境下でも有効な音声
領域の検出が可能となる。
本発明の音声認識装置によれば、第1切り出し制御部
が周囲雑音に応じて変動する第1の閾値を用いて音声が
存在する音響信号から音声が必ず存在すると見做せる第
1の音響信号領域を検出し、更に第2切り出し制御部が
上記第1の閾値より小さい第2の閾値を用いて上記第1
の音響信号領域を中心として時間長を拡張した第2の音
響信号領域を検出し、該第2の音響信号領域を音声領域
と見做すことによって、該音声領域に亘たる音響信号か
ら音声の特徴を適切に表す特徴パラメータが抽出でき、
この特徴パラメータに基づく音声パタンの作成により音
声認識率の向上が可能となる。
(ヘ)実施例 第1図に本発明の音声認識装置の一実施例の成図を示
す。
同図に於て、1は音声が入力されるマイク、2はマイ
ク1から入力される音響信号を分析して音声の特徴を表
す特徴パラメータの時系列を抽出する音声分析部であ
り、例えば、周波数分析により音響信号レベル情報を保
存したスペクトルパラメータが得られる。3は上記音声
分析部2から得られる特徴パラメータの時系列に対して
音声が存在する時間領域を切り出すための第1切り出し
制御部であり、該時間領域の先頭特徴パラメータと最終
特徴パラメータとに夫々仮のスタート部号とエンド符号
とを付与して、一連の特徴パラメータの時系列(これら
符号付与パラメータの前後に連なる十分な数の時系列を
含む)を出力する。4は該第1切り出し制御部3から仮
のスタート符号とエンド符号とが付与された特徴パラメ
ータ時系列を一時的に記憶する第1音声バッファであ
る。
5は上記マイクとは異なる雑音レベル入力端子であ
り、これには周囲雑音入力用の第2のマイクあるいは、
周囲雑音源となる音響再生機器の出力端子、またはこの
音響再生機器での再生レベル表示(例えば、LEDのバー
表示からなるレベルメータ)用の信号線が接続される。
6は上記第1切り出し制御部3での特徴パラメータ時系
列に対する音声の時間領域切り出しに必要な第1の閾値
を上記マイク1からの音響信号と上記雑音レベル入力端
子3からの周囲雑音レベルとを参照して設定する第1閾
値設定部である。
7は上記第1音声バッファ4から得られる仮のスター
ト符号とエンド符号とが付与された特徴パラメータの時
系列に対して、再度厳密に音声が存在する時間領域を切
り出すための第2切り出し制御部であり、該時間領域の
仮の先頭特徴パラメータより時間的に前の位置(真の音
声領域のスタート位置に対応する)の特徴パラメータに
真のスタート符号を付与すると共に仮の最終特徴パラメ
ータより時間的に後の位置(真の音声領域のエンド位
置)の特徴パラメータに真のエンド符号を付与して、こ
れら一連の特徴パラメータの時系列を出力する。8は該
第2切り出し制御部7から真のスタート符号とエンド符
号とが付与された特徴パラメータ時系列を一時的に記憶
する第2音声バッファである。9は上記第2切り出し制
御部7での特徴パラメータ時系列に対する音声の真の時
間領域切り出しに必要な第2の閾値を上記第1の閾値よ
り小さく設定する第2閾値設定部であり、音声の真の時
間領域を適切に抽出できるような値、例えば環境によっ
て多少異なるが経験的に第1の閾値の80%程度に設定さ
れる。
10は上記第2バッファ8に記憶された真のスタート符
号とエンド符号とが付与された特徴パラメータ時系列か
らこれら符号間に属する真の音声領域の特徴パラメータ
時系列に基づいて入力音声パタンを作成する音声パタン
作成部であり、特定の時系列に特徴パタンを正規化した
音声パタンが得られる。11は上記雑音レベル入力端子5
から得られる雑音レベルを上記第2切り出し制御部7か
ら得られる真の音声領域に亘って記憶する雑音レベルバ
ッファ、12は該雑音レベルバッファ11の雑音レベルの時
間平均値と経験的に設定された所定の所定レベルと比較
するレベル比較部であり、該雑音レベルバッファ11の平
均雑音レベルが所定レベルより大きい時に上記音声パタ
ン作成部10での音声パタン作成処理を禁止する。
13は予じめ多数の標準的音声の音声パタンを標準音声
パタンとして記憶した標準音声パタンメモリ、14は上記
音声パタン作成部10から得られる入力音声パタンを上記
標準音声パタンメモリ13の各標準音声パタンをパタンマ
ッチングしてパタン間誤差が最も小さくしかもこの誤差
の許容限度である認識閾値以下の誤差となる標準音声パ
タンを検出する識別部であり、検出された標準音声パタ
ンに対応する認識結果信号を出力する。
15は上記識別部14での認識閾値を上記雑音レベルバッ
ファ11の平均雑音レベルに応じて可変設定する認識閾値
設定部であり、平均雑音レベルが多き時にはこの認識閾
値が大きくなる。
第2図は本発明の音声認識装置に於ける音声切り出し
動作を示す信号波形図であり、同図に基づき動作を詳述
する。
まず、音声の時間領域の切り出し閾値設定の方法につ
いて解説する。
第1切り出し閾値設定部6は、第2図のNで示す階段
状に変化する雑音レベル入力端子5からの雑音レベルを
一定時間毎(例えば5msec毎)に取り込み、取り込んだ
レベルに応じて音声の切り出しのための第1の閾値を決
定している。この場合、雑音レベル入力端子5には、LE
Dのバー表示からなるレベルメータ用の信号線が接続さ
れている。
即ち、この切り出し閾値(Vt1と記述する)設定は以
下の如き雑音レベルNの関数になる。
Vt1=f(N) 以下に、f(N)の具体例を列挙する。
第1の関数例 f(N)=a×N+bである。
ここで、a、bは夫々定数を示しており、特に、bは
通常の定常的な騒音状態においては、第1切り出し制御
部3でマイク1から入力される雑音が音声として切り出
されることのないように通常の定常的な騒音のレベルよ
り大きな値が与えられている。
第2の関数例 ここで、場合分け条件cは定数。
第3の関数例 ここで、場合分け条件cは定数。更に、t1、t2は現時
点より前の時間を意味し、aiは時間iに関する重みであ
る。従って、上記の式は音声入力前のマイク1からの雑
音だけの音響信号レベルの時間平均に上述の定数bを加
えたものとなる。
以上示したf(N)は、既知音声のみが雑音としてマ
イク1に入力される場合を想定したものであるが、この
他にもマイク1に入力されるものとしては、定常的な周
囲雑音がある。この場合は、上記のような閾値設定で
は、対処できない。従って、周囲雑音がマイク1で常時
入力されるため、この入力を第1切り出し閾値設定部6
で蓄えながら現在の入力時から一定時間前(例えば50ms
ec程度)のマイク1からの入力を基に、切り出しの閾値
を設定する方法が有効である。この場合の切り出しの閾
値設定の方法を以下に示す。
第4の関数例 ここで、Piは現在の入力時から一定時間(例えば、50
msec程度)前のマイク1からの入力のパワーを示すもの
である。
第5の関数例 上記第4の関数例に於て、雑音レベルNが定数cより
大きいか小さいかの場合分けに関係なく、上記式と式
のf(N)の値の大きいほうの値をf(N)とするこ
とができる。
以上の如きf(N)の関数例の採用によって、第2図
の実線曲線で示す様に、周囲雑音Nに応じて変動する第
1の閾値Vt1が決定される。
従って、上記第1切り出し制御部3が音声分析部2か
ら得られる特徴パラメータ時系列のレベル[この場合、
第2図の破線曲線Vで示す如く、各時点に於いて、周波
数スペクトルレベルvの総和Σv(=V)]と第1の閾
値Vt1との比較を行い、Σv≧Vt1となる連続した時系列
の先頭時点Ts1の特徴パラメータに仮のストート符号を
付与し、その最終時点Te1の特徴パラメータに仮のエン
ド符号を付与する。
斯して、仮のストート符号とエンド符号とが付与され
た特徴パラメータ時系列は、第1音声バッファ4に格納
される。この時、該バッファ4には仮のスタート符号が
付与された特徴パラメータ以前の時系列と仮のエンド符
号が付与された特徴パラメータ以後の時系列も十分に格
納されている。
次に、第2切り出し制御部7による音声切り出しにつ
いて説明する。
雑音レベル入力端子5からの雑音レベルが大きい場合
には、上記第1切り出し制御部3では、音声の語頭及び
語尾が正確に切り出されない可能性があり、このため真
の音声領域より短い音声領域しか検出できないことにな
る。従って、第2切り出し制御部7はこれを補う為に設
けられている。
即ち、第2切り出し制御部7では、第1切り出し閾値
設定部3で設定される第1の閾値Vt1より小さい値の第
2の閾値Vt2を設定し、この閾値Vt2を用いて、上記第1
音声バッファ4の特徴パラメータ時系列に対して、より
適切な音声領域の切り出しを行う。
ここで、第2の閾値Vt2の設定について説明を加え
る。第1切り出し閾値設定部6で設定された第1の閾値
Vt1は時間情報と共に第2切り出し閾値設定部9に情報
提供される。
該第2切り出し閾値設定部9は、第1切り出し閾値設
定部6で設定された第1の閾値Vt1によって求められた
仮の先頭時点Ts1の音声レベルV(Ts1)=Vt1(Ts1)な
る第1の閾値より小さい第2の閾値Vt2を決定すると共
に仮の最終時点Te1の音声レベルV(Te1)=Vt1(Te1)
より小さい第2の閾値Vt2を決定する。
具体的には、真の先頭時点Ts2を決定するための第2
の閾値Vt2はVt1(Ts1)の関数になり、以下の如く表さ
れる。
例えば、Vt2=Vt1(Ts1)−d、dは定数 または、Vt2=Vt1(Ts1)/m、mは定数 更に、真の最終時点Te2を決定するための第2の閾値V
t2はVt1(Te1)の関数になり、真の先頭時点Ts2の場合
と同じく、以下の如く表される。
例えば、Vt2=Vt1(Te1)−d、dは定数 または、Vt2=Vt1(Te1)/m、mは定数 なお、これら第2の閾値Vt2の設定の場合も第1の閾
値Vt1の設定の場合と同様に、最小値定数cを設定して
おけば、定常雑音を領域まで音声として切り出す危惧は
ない。
従って、第2切り出し閾値設定部9で設定された第2
の閾値Vt2を用いて第2切り出し制御部7は、第1音声
バッファ4に記憶されている時点Ts1前で、V(Ts2)=
Vt2となる音声の真の先頭時点と見做せる時点Ts2を検出
して、この時点の特徴パラメータに真のスタート符号を
付与する。さらに、時点Te1後でV(Te2)=Vt2となる
音声の真の最終時点と見做せる時点Te2を検出して、こ
の時点の特徴パラメータに真のエンド符号を付与する。
斯して、真のスタート符号とエンド符号が付与された
特徴パラメータ時系列は、第2音声バッファ8に一時的
に記憶され、このスタート符号とエンド符号とが付与さ
れた間の特徴パラメータ時系列が音声パタン作成部10に
供給される。
而して、雑音レベルが非常に大きい時には、上述の音
声切り出し手段によっても、正確な音声領域の検出が困
難になる場合があり、この時には音声認識を行わないよ
うな安全対策が必要になる。
従って、第1図の実施例に於ては、レベル比較部12を
設けて、上述の安全対策を講じている。
即ち、第2切り出し制御部7で切り出された音声領域
(第2図のTs2〜Te2)についての雑音レベルの雑音レベ
ルバッファ11に蓄えられているので、これに基づきレベ
ル比較装置12が雑音レベルの時間平均値ave(N)=ΣN
/(Te2−Ts2)を計算し、この値が一定値以上になる
時、上記音声パタン作成部10での音声パタン作成を禁止
することになる。
一方、許容範囲の雑音下に於て音声パタン作成部10が
作成した音声パタンは、予じめ標準パタンメモリ13に蓄
えられている多数の標準パタンとを識別部14でパタンマ
ッチングを行い、標準パタンのうち最も類似している
(即ち、誤差Dが最も小さい)標準パタンが認識結果と
して類似度(誤差Dと逆数的関係にある)と共に識別部
14に貯えられる。
この識別部14に於ては、認識閾値設定部15の認識の閾
値により最終的に識別部14に貯えられている認識結果を
有効とするかどうかの判定を行う。
ここで、認識閾値設定部15に於ける認識の閾値の設定
方法について説明する。誤差Dによって類似の程度を表
す場合には、該認識閾値Dtは、音声領域(第2図のTs2
〜Te2)の雑音平均レベルave(N)に追従して決定され
るものであり、例えば以下の例のように決められる。
Dt=p×ave(N)+q ここで、p、qは定数である。
即ち、認識閾値Dtは、周囲雑音が大きい時には大きく
設定される。
従って、識別部14は、このように周囲雑音のレベルに
応じて変動する該認識閾値Dtより、認識結果の類似度D
が大きい場合(類似している場合)は認識結果を有効と
するので、雑音レベルの大きさに応じて入力パタンが多
少変形してもこれを吸収して認識結果を導出することが
できる。
以上に説明した音声認識装置は、例えば、自動車内の
カーステレオの操作手段として用いることができ、この
場合には、周囲雑音としてこのカーステレオ自体が対象
となる。また、雑音レベル入力端子5への入力は、オー
ディオ機器の出力線から直接入力する以外にも、マイク
とアナログ/デジタルコンバータの使用により、マイク
から周囲雑音を採集することもできる。
(ト)発明の効果 本発明の音声切り出し方法によれば、音声が存在する
音響信号から音声の時間領域をそのレベルで検出するた
めの閾値を周囲雑音レベルに従ってダイナミックに設定
できるので、そのレベルが変動する音響再生環境の中で
も、有効な音声領域の検出ができる。さらに、本発明の
音声切り出し方法を採用した音声認識装置によれば、音
声領域のより適切な検出が可能になり、音声認識処理の
精度の向上が望める。
【図面の簡単な説明】
第1図は本発明の音声認識装置の構成を示すブロック
図、第2図は第1図の装置に採用した本発明の音声切り
出し方法を示す信号図である。 1……マイク、2……音声分析部、3……第1切り出し
閾値制御部、4……第1音声バッファ、5……雑音レベ
ル入力端子、6……第1切り出し閾値設定部、7……第
2切り出し閾値制御部、8……第2音声バッファ、9…
…第2切り出し閾値設定部、10……音声パタン作成部、
11……雑音レベルバッファ、12……レベル比較部、13…
…標準パタンメモリ、14……識別部、15……認識閾値設
定部。
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 昭63−262695(JP,A) 特開 昭54−91007(JP,A) 特開 昭57−177199(JP,A) 特開 平3−27698(JP,A) 特開 昭62−238599(JP,A) 特開 昭62−42197(JP,A) 特開 昭64−33599(JP,A) 特開 昭63−127285(JP,A) 特開 昭62−211699(JP,A) 特開 昭61−156100(JP,A) 特開 昭61−46999(JP,A) 特開 昭59−231600(JP,A) 特開 昭59−114599(JP,A) 特開 昭58−44499(JP,A) 特開 昭59−75300(JP,A) 特開 昭61−203497(JP,A) 特開 昭61−46998(JP,A) 特開 昭61−47000(JP,A) 特許2648014(JP,B2) 特公 昭63−29754(JP,B2) 日本音響学会講演論文集 平成3年3 月 2−5−8「音声認識カーオーディ オにおける音声切り出し方式」p.69− 70 1991年電子情報通信学会春季全国大会 講演論文集「A−229 音声認識カーオ ーディオの開発」p.1−229〜1−230 (58)調査した分野(Int.Cl.6,DB名) G10L 3/00 513 G10L 3/00 521 JICSTファイル(JOIS)

Claims (11)

    (57)【特許請求の範囲】
  1. 【請求項1】音声が存在する音響信号のレベルが特定の
    閾値以上に達する時間領域に音声の存在を検出して音声
    領域を切り出す音声切り出し方法に於て、 音楽などの音響を再生する音響機器のレベルメータ用の
    信号線が接続された信号入力手段を備え、該信号入力手
    段より入力した信号に基づいて、上記閾値を設定し、該
    閾値により音響信号領域を切り出し、該音響信号領域を
    音声領域として抽出する音声切り出し方法。
  2. 【請求項2】音声が存在する音響信号のレベルが特定の
    閾値以上に達する時間領域に音声の存在を検出して音声
    領域を切り出す音声切り出し方法に於て、 上記音響信号とは異なる音響入力手段で検出した周囲雑
    音レベルにより上記閾値を設定し、該閾値により音響信
    号領域を切り出し、該音響信号領域を音声領域として抽
    出する際に、上記周囲雑音レベルが所定の値より小さい
    時には、音響信号自身に基づいて上記閾値を設定する音
    声切り出し方法。
  3. 【請求項3】音声が存在する音響信号のレベルが特定の
    閾値以上に達する時間領域に音声の存在を検出して音声
    領域を切り出す音声切り出し方法に於て、 音楽などの音響を再生する音響機器のレベルメータ用の
    信号線が接続された信号入力手段を備え、該信号入力手
    段より入力した信号及び上記音響信号とに基づいて第1
    の閾値(Vt1)を設定し、該閾値により第1の音響信号
    領域を切り出し、その後、この第1の音響信号領域が中
    心に存在する音響信号に対し、更に周囲雑音レベルに基
    づき、上記第1の閾値より低いレベルの第2の閾値(Vt
    2)を設定し、該閾値により第1の音響信号領域が含ま
    れる第2の音響信号領域を切り出し、該第2の音響信号
    領域を音声領域として抽出することを特徴とする音声切
    り出し方法。
  4. 【請求項4】上記第1の閾値は、下記の式によって設定
    されることを特徴とする請求項2記載の音声切り出し方
    法。 Vt1=a×N+b (ただし、a,bは定数、Nは雑音レベル)
  5. 【請求項5】上記第1の閾値は、下記の式によって設定
    されることを特徴とする請求項2記載の音声切り出し方
    法。 Vt1=a×(N−c) [N≧cのとき] Vt1=b [N<Cのとき] (ただし、a,b,cは定数、Nは雑音レベル)
  6. 【請求項6】上記第1の閾値は、下記の式によって設定
    されることを特徴とする請求項2記載の音声切り出し方
    法。 (ただし、aは時間iに関する重み、b,cは定数、Niは
    時間iにおける雑音レベル、t1,t2は現在よりも一定時
    間前の任意の時間)
  7. 【請求項7】上記第1の閾値は、下記の式によって設定
    されることを特徴とする請求項2記載の音声切り出し方
    法。 (ただし、aiは時間iに関する重み、b,cは定数、Niは
    時間iにおける雑音レベル、Piはt1,t2は任意の時間)
  8. 【請求項8】上記第1の閾値は、下記の式及び式に
    よって求められる値のうちの大きい方の値を閾値として
    設定することを特徴とする請求項2記載の音声切り出し
    方法。 (ただし、aiは時間iに関する重み、b,cは定数、Niは
    時間iにおける雑音レベル、Piは現在よりも一定時間前
    のt1,t2は任意の時間)
  9. 【請求項9】上記第2の閾値は、下記の式及び式に
    よって設定され、該2つの閾値により第1の音響信号領
    域が含まれる第2の音響信号領域を切り出すことを特徴
    とする音声切り出し方法。 Vt2=Vt1(Ts1)−d 式 Vt2=Vt1(Te1)−d 式 (ただし、Vt1(Ts1)は第1の音響信号領域の先頭の閾
    値、Vt1(Te1)は第1の音響信号領域の終端の閾値、d
    は定数)
  10. 【請求項10】上記第2の閾値は、下記の式及び式
    によって設定され、該2つの閾値により第1の音響信号
    領域が含まれる第2の音響信号領域を切り出すことを特
    徴とする音声切り出し方法。 Vt2=Vt1(Ts1)/m 式 Vt2=Vt1(Te1)/m 式 (ただし、Vt1(Ts1)は第1の音響信号領域の先頭の閾
    値、Vt1(Te1)は第1の音響信号領域の終端の閾値、m
    は定数)
  11. 【請求項11】音声を入力するマイク、該マイクから得
    られる音響信号を分析して音声の特徴パラメータ時系列
    を抽出する音声分析部、該音声分析部から得られる特徴
    パラメータ時系列に基づいて音声パタンを作成する音声
    パタン作成部、予じめ複数の標準的音声の音声パタンを
    標準音声パタンとして貯えた標準音声パタンメモリ、該
    メモリの各音声パタンと上記音声パタンとをパタンマッ
    チングして上記音声パタンを識別する識別部、音楽など
    の音響を再生する音響機器のレベルメータ用の信号線が
    接続される入力端子、該入力端子より入力される信号に
    基づいて、第1の音声切り出し閾値を設定する第1切り
    出し閾値設定部、該設定部により設定された第1切り出
    し閾値により上記マイクから得られる音響信号から第1
    の音響信号領域を検出する第1切り出し制御部、該制御
    部で切り出した第1の音響信号領域が中心に存在する音
    響信号に対して更に周囲雑音レベルに基づき上記第1の
    閾値より低いレベルの第2の閾値を設定する第2切り出
    し閾値設定部、該設定部により設定された第2切り出し
    閾値により上記第1の音響信号領域が含まれる第2の音
    響信号領域を検出する第2切り出し制御部を備え、 該第2切り出し制御部で検出された第2の音響信号領域
    を音声領域と見做し、 上記音声分析部から得られる特徴パラメータ時系列の
    内、上記音声領域に存在する特徴パラメータ時系列に基
    づき、上記音声パタン作成部で音声パタンを作成するこ
    とを特徴とする音声認識装置。
JP2030185A 1990-02-09 1990-02-09 音声切り出し方法及び音声認識装置 Expired - Fee Related JP2966460B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2030185A JP2966460B2 (ja) 1990-02-09 1990-02-09 音声切り出し方法及び音声認識装置
US08/897,734 US6411928B2 (en) 1990-02-09 1997-07-21 Apparatus and method for recognizing voice with reduced sensitivity to ambient noise

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2030185A JP2966460B2 (ja) 1990-02-09 1990-02-09 音声切り出し方法及び音声認識装置

Publications (2)

Publication Number Publication Date
JPH03233600A JPH03233600A (ja) 1991-10-17
JP2966460B2 true JP2966460B2 (ja) 1999-10-25

Family

ID=12296699

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2030185A Expired - Fee Related JP2966460B2 (ja) 1990-02-09 1990-02-09 音声切り出し方法及び音声認識装置

Country Status (1)

Country Link
JP (1) JP2966460B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6324509B1 (en) * 1999-02-08 2001-11-27 Qualcomm Incorporated Method and apparatus for accurate endpointing of speech in the presence of noise
CN103863188B (zh) * 2014-04-03 2016-06-01 安徽师范大学 车用语音识别信号在线自诊断方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
1991年電子情報通信学会春季全国大会講演論文集「A−229 音声認識カーオーディオの開発」p.1−229〜1−230
日本音響学会講演論文集 平成3年3月 2−5−8「音声認識カーオーディオにおける音声切り出し方式」p.69−70

Also Published As

Publication number Publication date
JPH03233600A (ja) 1991-10-17

Similar Documents

Publication Publication Date Title
US8036884B2 (en) Identification of the presence of speech in digital audio data
US7133826B2 (en) Method and apparatus using spectral addition for speaker recognition
US7353167B2 (en) Translating a voice signal into an output representation of discrete tones
US8428945B2 (en) Acoustic signal classification system
US20150088509A1 (en) Anti-spoofing
KR20060021299A (ko) 매개변수화된 시간 특징 분석
KR101888058B1 (ko) 발화된 단어에 기초하여 화자를 식별하기 위한 방법 및 그 장치
US20090192788A1 (en) Sound Processing Device and Program
JP5050698B2 (ja) 音声処理装置およびプログラム
JP2966460B2 (ja) 音声切り出し方法及び音声認識装置
JP3046029B2 (ja) 音声認識システムに使用されるテンプレートに雑音を選択的に付加するための装置及び方法
JP3091537B2 (ja) 音声パターン作成方法
JP6003352B2 (ja) データ生成装置、及びデータ生成方法
JP2002372992A (ja) 話者識別方法
JP3322491B2 (ja) 音声認識装置
JPH0643892A (ja) 音声認識方法
JPH0430040B2 (ja)
JP3107905B2 (ja) 音声認識装置
JP3474949B2 (ja) 音声認識装置
JP5272141B2 (ja) 音声処理装置およびプログラム
JP3058569B2 (ja) 話者照合方法及び装置
JP2666296B2 (ja) 音声認識装置
JP2989231B2 (ja) 音声認識装置
JPS59170894A (ja) 音声区間の切り出し方式
JP2975808B2 (ja) 音声認識装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070813

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080813

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090813

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees