JP2752981B2 - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JP2752981B2 JP2752981B2 JP63044191A JP4419188A JP2752981B2 JP 2752981 B2 JP2752981 B2 JP 2752981B2 JP 63044191 A JP63044191 A JP 63044191A JP 4419188 A JP4419188 A JP 4419188A JP 2752981 B2 JP2752981 B2 JP 2752981B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- speech
- recognition
- pattern
- time series
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Description
【発明の詳細な説明】 〔概要〕 入力音声パターンから切り出された音声区間単位で音
声認識を行う音声認識装置に関し、 高雑音下でも正しい音声区間の切り出しと音声区間内
に混入した雑音の除去を行って、良好な精度の音声認識
を可能にすることを目的とし、 入力音声パターンから切り出された音声区間単位で音
声認識を行う音声認識装置において、同一内容の発声に
基づく複数個の入力音声パターン間に生じた時間軸の伸
縮を整合して整合音声パターンをそれぞれ生成する時間
軸整合手段と、生成された複数個の整合音声パターンを
用いて雑音除去を行い、音声区間切り出しを行うための
切り出し用音声パターンを生成する切り出し用音声パタ
ーン生成手段と、生成された複数個の整合音声パターン
を用いて雑音除去を行い、音声認識を行うための認識用
パターンを生成する認識用音声パターン生成手段を設け
るように構成する。
声認識を行う音声認識装置に関し、 高雑音下でも正しい音声区間の切り出しと音声区間内
に混入した雑音の除去を行って、良好な精度の音声認識
を可能にすることを目的とし、 入力音声パターンから切り出された音声区間単位で音
声認識を行う音声認識装置において、同一内容の発声に
基づく複数個の入力音声パターン間に生じた時間軸の伸
縮を整合して整合音声パターンをそれぞれ生成する時間
軸整合手段と、生成された複数個の整合音声パターンを
用いて雑音除去を行い、音声区間切り出しを行うための
切り出し用音声パターンを生成する切り出し用音声パタ
ーン生成手段と、生成された複数個の整合音声パターン
を用いて雑音除去を行い、音声認識を行うための認識用
パターンを生成する認識用音声パターン生成手段を設け
るように構成する。
本発明は、入力音声パターンから音声区間を切り出
し、切り出された音声区間単位で認識処理を行う音声認
識装置に関する。
し、切り出された音声区間単位で認識処理を行う音声認
識装置に関する。
音声には、音声パワーの存在する音声区間と音声パワ
ーの存在しない休止区間が混合しており、各音声区間
は、通常、単語等の1つのまとまった意味を持つ音声に
なっている。そこで、音声認識を行う場合は、第6図に
示すように、入力音声から音声区間を切り出し、切り出
された音声区間単位で認識処理を行うようにしている。
ーの存在しない休止区間が混合しており、各音声区間
は、通常、単語等の1つのまとまった意味を持つ音声に
なっている。そこで、音声認識を行う場合は、第6図に
示すように、入力音声から音声区間を切り出し、切り出
された音声区間単位で認識処理を行うようにしている。
第6図において、認識させたい音声をマイクロホン21
に入力する。音声はマイクロホン21で電気的な音声信号
に変換される。音声分析部22は、この音声信号を分析し
て音声パワー時系列と音声スペクトル時系列でそれぞれ
表される入力音声パターンを作成する。ここで、音声パ
ワーはスカラー量であり、数ミリ毎の各時刻における分
析窓内の音声波形のエネルギとして計算される。分析窓
は数十ミリ秒の長さを有し、ハニング窓と呼ばれるもの
がある。分析窓長を長くすれば、分析される音声スペク
トルの周波数分解能が高くなるが時間分解能は低下し、
逆に分析窓長を短くすれば、周波数分解能が低くなるが
時間分解能は高くなる。
に入力する。音声はマイクロホン21で電気的な音声信号
に変換される。音声分析部22は、この音声信号を分析し
て音声パワー時系列と音声スペクトル時系列でそれぞれ
表される入力音声パターンを作成する。ここで、音声パ
ワーはスカラー量であり、数ミリ毎の各時刻における分
析窓内の音声波形のエネルギとして計算される。分析窓
は数十ミリ秒の長さを有し、ハニング窓と呼ばれるもの
がある。分析窓長を長くすれば、分析される音声スペク
トルの周波数分解能が高くなるが時間分解能は低下し、
逆に分析窓長を短くすれば、周波数分解能が低くなるが
時間分解能は高くなる。
第7図(A)は、このようにして求められた音声パワ
ー時系列の一例を示したもので、縦軸は音声パワーを示
し、横軸は時間を示す。
ー時系列の一例を示したもので、縦軸は音声パワーを示
し、横軸は時間を示す。
一方、音声スペクトル時系列Vは、次の(1)式で示
される特徴ベクトルの時系列で表される。
される特徴ベクトルの時系列で表される。
V=(V1,V2,…Vj…VJ) …(1) Vj(j=1〜J、Jはパターン長)は、時刻jにおけ
る音声の特徴を表す特徴ベクトルで、次の(2)式で表
されるベクトル量である。
る音声の特徴を表す特徴ベクトルで、次の(2)式で表
されるベクトル量である。
Vj=(Vj1,Vj2,…Vjk…VjN) …(2) ここで、Vjk(k=1〜N)は特徴ベクトルVjのk番
目の要素で、音声をN個の周波数帯域に分けたときのk
番目の周波数成分(スペクトル成分)を表す。このスペ
クトル成分の計算には、例えばフィルタバンクや高速フ
ーリェ変換(FFT:Fast Fourier Transform)による方法
が用いられる。
目の要素で、音声をN個の周波数帯域に分けたときのk
番目の周波数成分(スペクトル成分)を表す。このスペ
クトル成分の計算には、例えばフィルタバンクや高速フ
ーリェ変換(FFT:Fast Fourier Transform)による方法
が用いられる。
音声区間切り出し部23は、音声区間切り出しアルゴリ
ズムに従って、第7図(A)に示すように、音声パワー
時系列より一定閾値以上の音声パワーレベルを持ったも
のを音声区間として切り出し、この切り出された音声区
間内の音声スペクトル時系列部分のみを、次段の認識部
24に送る。音声区間の始りは始端と呼ばれ、終りは終端
と呼ばれる(第7図(A)参照)。
ズムに従って、第7図(A)に示すように、音声パワー
時系列より一定閾値以上の音声パワーレベルを持ったも
のを音声区間として切り出し、この切り出された音声区
間内の音声スペクトル時系列部分のみを、次段の認識部
24に送る。音声区間の始りは始端と呼ばれ、終りは終端
と呼ばれる(第7図(A)参照)。
一方、テンプレート記憶部25には、認識対象となる単
語等の各種の音声の標準的な音声スペクトル時系列(以
下、テンプレートと呼ぶ)が予め求められて格納されて
いる。
語等の各種の音声の標準的な音声スペクトル時系列(以
下、テンプレートと呼ぶ)が予め求められて格納されて
いる。
認識部24は、音声区間切り出し部23より切り出された
音声スペクトル時系列とテンプレート記憶部25の各テン
プレートとを照合し、最もよく照合されたテンプレート
のカテゴリ名(単語名等)を認識結果として表示部26に
転送し表示させる。音声スペクトル時系列とテンプレー
トとの照合は、例えば動的計画法(DP法:DPはdynamic p
rogrammingの略)を用いて行われ、両者の距離の最も小
さいものが最もよく照合していると判断される。
音声スペクトル時系列とテンプレート記憶部25の各テン
プレートとを照合し、最もよく照合されたテンプレート
のカテゴリ名(単語名等)を認識結果として表示部26に
転送し表示させる。音声スペクトル時系列とテンプレー
トとの照合は、例えば動的計画法(DP法:DPはdynamic p
rogrammingの略)を用いて行われ、両者の距離の最も小
さいものが最もよく照合していると判断される。
従来の音声認識装置では、前述のように、一定の閾値
を設けて音声区間の切り出しを行っていた。
を設けて音声区間の切り出しを行っていた。
この音声区間切り出し方式では、第7図(B)に示す
ように、真の音声部分に対する本来の音声区間に接近し
た高いレベルの雑音がある場合、この雑音部分を取り除
き本来の音声区間を切り出すことが困難である。音声区
間検出の誤りは誤認識につながり、雑音の多い環境で音
声認識装置を使う場合、何度発声を繰り返しても正しく
認識されないという問題があった。
ように、真の音声部分に対する本来の音声区間に接近し
た高いレベルの雑音がある場合、この雑音部分を取り除
き本来の音声区間を切り出すことが困難である。音声区
間検出の誤りは誤認識につながり、雑音の多い環境で音
声認識装置を使う場合、何度発声を繰り返しても正しく
認識されないという問題があった。
また、正しい音声区間が検出されても、検出された音
声区間内に雑音が入り込んだ場合は、音声の特徴量が雑
音により変形し、音声スペクトル特性が変化するため認
識誤りをひき起すという問題があった。
声区間内に雑音が入り込んだ場合は、音声の特徴量が雑
音により変形し、音声スペクトル特性が変化するため認
識誤りをひき起すという問題があった。
本発明は、高雑音下においても正しい音声区間の切り
出しが行われるとともに、音声区間内に混入した雑音を
有効に除去し、良好な認識精度を持った音声認識装置を
提供することを目的とする。
出しが行われるとともに、音声区間内に混入した雑音を
有効に除去し、良好な認識精度を持った音声認識装置を
提供することを目的とする。
雑音は音声に無相関であるため、同じ内容の音声を複
数回発声したときに得られる各入力音声パターンは、理
想的な場合、音声部分は共通で雑音部分が異なるパター
ンになる。したがって、この同一内容の発声を複数回行
って得られる複数個の入力音声パターンを用いることに
より、雑音の混在する入力音声パターンから正しい音声
区間を切り出すことができる。本発明は、この着想に基
づいてなされたものである。
数回発声したときに得られる各入力音声パターンは、理
想的な場合、音声部分は共通で雑音部分が異なるパター
ンになる。したがって、この同一内容の発声を複数回行
って得られる複数個の入力音声パターンを用いることに
より、雑音の混在する入力音声パターンから正しい音声
区間を切り出すことができる。本発明は、この着想に基
づいてなされたものである。
以下前述の目的を達成するために本発明が採用した手
段を、第1図を参照して説明する。第1図は、本発明の
基本構成をブロック図で示したものである。
段を、第1図を参照して説明する。第1図は、本発明の
基本構成をブロック図で示したものである。
第1図において、同一内容の発声を複数回行って得ら
れる複数個の入力音声パターンが、時間軸整合手段11に
入力される。
れる複数個の入力音声パターンが、時間軸整合手段11に
入力される。
時間軸整合手段11は、同一内容の発声に基づく複数個
の入力音声パターン間に生じた時間軸の伸縮を整合して
整合音声パターンをそれぞれ生成する。
の入力音声パターン間に生じた時間軸の伸縮を整合して
整合音声パターンをそれぞれ生成する。
切り出し用音声パターン生成手段12は、時間軸整合手
段11で生成された複数個の整合音声パターンを用いて雑
音除去を行い、音声区間切出しを行うための切り出し用
音声パターンを生成する。
段11で生成された複数個の整合音声パターンを用いて雑
音除去を行い、音声区間切出しを行うための切り出し用
音声パターンを生成する。
認識用音声パターン生成手段13は、時間軸整合手段11
で生成された複数個の整合音声パターンを用いて雑音除
去を行い、音声認識を行うための認識用パターンを生成
する。
で生成された複数個の整合音声パターンを用いて雑音除
去を行い、音声認識を行うための認識用パターンを生成
する。
認識手段14は、切り出し用音声パターンより音声区間
の切り出しを行い、この音声区間内にある認識用音声パ
ターン部分に基づいて音声認識を行う。
の切り出しを行い、この音声区間内にある認識用音声パ
ターン部分に基づいて音声認識を行う。
時間軸整合手段11において、各入力音声パターン間に
生じる時間軸の伸縮の整合は、各入力音声パターンを表
す音声スペクトル時系列間の動的計画法(DP法)による
マッチング処理により行うことができる。
生じる時間軸の伸縮の整合は、各入力音声パターンを表
す音声スペクトル時系列間の動的計画法(DP法)による
マッチング処理により行うことができる。
切り出し用音声パターン生成手段12において、時間軸
整合手段11で生成された複数個の整合音声パターンを表
す各音声パワー時系列より最小パワー時系列を生成して
区間用音声パターンとすることができる。
整合手段11で生成された複数個の整合音声パターンを表
す各音声パワー時系列より最小パワー時系列を生成して
区間用音声パターンとすることができる。
認識用音声パターン生成手段13において、時間軸整合
手段11で生成された複数個の整合音声パターンを表す各
音声スペクトル時系列の対応する時刻の特徴ベクトルの
各要素毎に中央値処理を行って中央値音声スペクトル時
系列を生成して認識用音声パターンとすることができ
る。
手段11で生成された複数個の整合音声パターンを表す各
音声スペクトル時系列の対応する時刻の特徴ベクトルの
各要素毎に中央値処理を行って中央値音声スペクトル時
系列を生成して認識用音声パターンとすることができ
る。
また、認識用音声パターン生成手段13において、時間
軸整合手段11で生成された複数個の整合音声パターンを
表す各音声スペクトル時系列の対応する時刻の特徴ベク
トルの各要素毎に平均値処理を行って平均値音声スペク
トル時系列を生成して認識用音声パターンとすることが
できる。
軸整合手段11で生成された複数個の整合音声パターンを
表す各音声スペクトル時系列の対応する時刻の特徴ベク
トルの各要素毎に平均値処理を行って平均値音声スペク
トル時系列を生成して認識用音声パターンとすることが
できる。
〔作用〕 本発明の作用を、第2図及び第3図を参照して説明す
る。第2図は複数回発声時の各入力音声パターンの説明
図、第3図は整合音声パターンと切り出し用音声パター
ンの説明図である。
る。第2図は複数回発声時の各入力音声パターンの説明
図、第3図は整合音声パターンと切り出し用音声パター
ンの説明図である。
同一内容の発声を複数回行って得られる複数個の入力
音声パターンが、時間軸整合手段11に入力される。
音声パターンが、時間軸整合手段11に入力される。
同一内容の発声であっても、各入力音声パターンの時
間軸は、第2図(a)〜(c)に示すように変化する。
第2図は、縦軸に音声パワーをとり横軸に時間をとっ
て、音声パワー時系列で音声パターンを示したものであ
る。N1〜N3は雑音である。
間軸は、第2図(a)〜(c)に示すように変化する。
第2図は、縦軸に音声パワーをとり横軸に時間をとっ
て、音声パワー時系列で音声パターンを示したものであ
る。N1〜N3は雑音である。
時間軸整合手段11は、同一内容の発声に基づく複数個
の入力音声パターンにおける時間軸の伸縮を整合して整
合音声パターンをそれぞれ生成する。
の入力音声パターンにおける時間軸の伸縮を整合して整
合音声パターンをそれぞれ生成する。
切り出し用音声パターン生成手段12は、時間軸整合手
段11で生成された複数個の整合音声パターンを用いて雑
音除去を行い、音声区間切り出しを行うための切り出し
用音声パターンを生成して認識手段14に送る。
段11で生成された複数個の整合音声パターンを用いて雑
音除去を行い、音声区間切り出しを行うための切り出し
用音声パターンを生成して認識手段14に送る。
一方、認識用音声パターン生成手段13は、時間軸整合
手段11で生成された複数個の整合音声パターンを用いて
雑音除去を行い、音声認識を行うための認識用音声パタ
ーンを生成して認識手段14に送る。
手段11で生成された複数個の整合音声パターンを用いて
雑音除去を行い、音声認識を行うための認識用音声パタ
ーンを生成して認識手段14に送る。
認識手段14は、切り出し用音声パターンより音声区間
の切り出しを行い、この音声区間内にある認識用音声パ
ターン部分に基づいて音声認識を行う。
の切り出しを行い、この音声区間内にある認識用音声パ
ターン部分に基づいて音声認識を行う。
以上のようにすることにより、高雑音下においても、
正しい音声区間の切り出しが行われるとともに、音声区
間内に混入した雑音が有効に除去され、良好な認識精度
を持った音声認識を行うことができる。
正しい音声区間の切り出しが行われるとともに、音声区
間内に混入した雑音が有効に除去され、良好な認識精度
を持った音声認識を行うことができる。
同一内容の発声に基づく複数個の入力音声パターンの
時間軸は、一般に非線形に伸縮する。この場合、動的計
画法(DP法)を用いれば、各入力音声パターンの非線形
に伸縮した時間軸を整合させた整合音声パターンを生成
することができる。
時間軸は、一般に非線形に伸縮する。この場合、動的計
画法(DP法)を用いれば、各入力音声パターンの非線形
に伸縮した時間軸を整合させた整合音声パターンを生成
することができる。
切り出し用音声パターン生成手段12において、区間用
音声パターンを最小パワー時系列で生成すると、第3図
に示すように高雑音下でも雑音が有効に除去された区間
用音声パターンを生成することができる。
音声パターンを最小パワー時系列で生成すると、第3図
に示すように高雑音下でも雑音が有効に除去された区間
用音声パターンを生成することができる。
第3図において、(a),(b),(c)は、時間軸
整合手段11で生成された第2図(a),(b)及び
(c)の第一発声,第二発声及び第三発声に対する各整
合音声パターンを示したものである。各時刻における各
整合音声パワーの最小音声パワーを取り出すことによ
り、同図(d)に示すような最小パワー時系列が生成さ
れる。この最小パワー時系列を用いると、雑音N1〜N3が
有効に除去された切り出し用音声パターンを生成するこ
とができる。
整合手段11で生成された第2図(a),(b)及び
(c)の第一発声,第二発声及び第三発声に対する各整
合音声パターンを示したものである。各時刻における各
整合音声パワーの最小音声パワーを取り出すことによ
り、同図(d)に示すような最小パワー時系列が生成さ
れる。この最小パワー時系列を用いると、雑音N1〜N3が
有効に除去された切り出し用音声パターンを生成するこ
とができる。
認識用音声パターン生成手段13において、認識用音声
パターンを中央値音声スペクトル時系列で生成すると、
音声区間内に混入したパルス性の雑音が有効に除去さ
れ、良好な認識精度を持った音声認識を行うことができ
る。
パターンを中央値音声スペクトル時系列で生成すると、
音声区間内に混入したパルス性の雑音が有効に除去さ
れ、良好な認識精度を持った音声認識を行うことができ
る。
また、認識用音声パターン生成手段13において、認識
用音声パターンを平均値音声スペクトル時系列で生成す
ると、音声区間内に混入した持続性のあるランダム雑音
が平均化処理により除去され、有効な認識精度を持った
音声認識を行うことができる。
用音声パターンを平均値音声スペクトル時系列で生成す
ると、音声区間内に混入した持続性のあるランダム雑音
が平均化処理により除去され、有効な認識精度を持った
音声認識を行うことができる。
本発明の実施例を、第2図〜第5図を参照して説明す
る。第4図は本発明の一実施例の構成の説明図、第5図
は同実施例のDP法による時間軸整合処理の説明図であ
る。第2図及び第3図については、既に説明したとおり
である。
る。第4図は本発明の一実施例の構成の説明図、第5図
は同実施例のDP法による時間軸整合処理の説明図であ
る。第2図及び第3図については、既に説明したとおり
である。
(A)実施例の構成 第4図において、時間軸整合手段11,切り出し用音声
パターン生成手段12,認識用音声パターン生成手段13及
び認識手段14については、第1図で説明したとおりであ
る。
パターン生成手段12,認識用音声パターン生成手段13及
び認識手段14については、第1図で説明したとおりであ
る。
マイクロホン15は、発声された音声を入力して電気的
な音声信号に変換する。音声分析部16は、入力された音
声信号を分析して入力音声の特徴を抽出し、入力音声パ
ターンを表す音声パワー時系列と音声スペクトル時系列
を作成する。
な音声信号に変換する。音声分析部16は、入力された音
声信号を分析して入力音声の特徴を抽出し、入力音声パ
ターンを表す音声パワー時系列と音声スペクトル時系列
を作成する。
時間軸整合手段11において、入力音声バッファ111に
は、音声分析部16から入力された各入力音声パターンの
音声パワー時系列と音声スペクトル時系列が一時格納さ
れる。
は、音声分析部16から入力された各入力音声パターンの
音声パワー時系列と音声スペクトル時系列が一時格納さ
れる。
時間軸整合部112は、音声スペクトル時系列を用いてD
P法により、各入力音声パターンの時間軸を整合して整
合音声パターンを生成する。
P法により、各入力音声パターンの時間軸を整合して整
合音声パターンを生成する。
出力音声バッファ113は、生成された各整合音声パタ
ーンを一時格納する。
ーンを一時格納する。
認識手段14において、音声区間切り出し部141は、切
り出し用音声パターン生成手段12から入力された切り出
し用音声パターンを用いて音声区間の切り出しを行い、
切り出された音声区間内にある認識用音声パターン(音
声スペクトル時系列)部分を認識部142に送る。
り出し用音声パターン生成手段12から入力された切り出
し用音声パターンを用いて音声区間の切り出しを行い、
切り出された音声区間内にある認識用音声パターン(音
声スペクトル時系列)部分を認識部142に送る。
認識部142は、音声区間切り出し部141より切り出され
た認識用音声パターン(音声スペクトル時系列)部分と
テンプレート記憶部143にある各テンプレートを照合
し、最もよく照合したテンプレートのカテゴリ名を認識
結果として出力する。
た認識用音声パターン(音声スペクトル時系列)部分と
テンプレート記憶部143にある各テンプレートを照合
し、最もよく照合したテンプレートのカテゴリ名を認識
結果として出力する。
テンプレート記憶部143には、認識対象となる各音声
の標準的な音声スペクトル時系列(テンプレート)が格
納されている。表示部144には、認識部142の認識結果が
表示される。
の標準的な音声スペクトル時系列(テンプレート)が格
納されている。表示部144には、認識部142の認識結果が
表示される。
(B)実施例の動作 実施例の動作を、第2図,第3図及び第5図を参照し
て説明する。
て説明する。
発声者は、マイクロホン15に向って同一内容の発声を
複数回(この実施例では3回とする)行う。マイクロホ
ン15は、発声された音声を電気的な音声信号に変換し
て、音声分析部16に入力する。
複数回(この実施例では3回とする)行う。マイクロホ
ン15は、発声された音声を電気的な音声信号に変換し
て、音声分析部16に入力する。
音声分析部16は、入力された音声信号を分析して入力
音声の特徴を抽出し、入力音声パターンとして音声パワ
ー時系列と音声スペクトル時系列を作成する。各発声の
音声スペクトル時系列は、いずれも先に説明した(1)
および(2)式の形で表わされる特徴ベクトルの時系列
で表される。
音声の特徴を抽出し、入力音声パターンとして音声パワ
ー時系列と音声スペクトル時系列を作成する。各発声の
音声スペクトル時系列は、いずれも先に説明した(1)
および(2)式の形で表わされる特徴ベクトルの時系列
で表される。
作成された各入力音声パターンの音声パワー時系列及
び音声スペクトル時系列は、入力音声バッファ111に一
時格納される。
び音声スペクトル時系列は、入力音声バッファ111に一
時格納される。
発声者が同一内容の発声を行っても、各音素の発声時
間は変化する。したがって、作成された各発声の入力音
声パターンの時間軸は、第2図に示すように変化する。
同図(a),(b)及び(c)は、それぞれ第1発声,
第2発声及び第3発声の入力音声パターンと音声パワー
時系列で示したものである。N1〜N3は雑音である。各入
力音声パターンは時間軸方向に非線形に伸縮する。
間は変化する。したがって、作成された各発声の入力音
声パターンの時間軸は、第2図に示すように変化する。
同図(a),(b)及び(c)は、それぞれ第1発声,
第2発声及び第3発声の入力音声パターンと音声パワー
時系列で示したものである。N1〜N3は雑音である。各入
力音声パターンは時間軸方向に非線形に伸縮する。
時間軸整合部112は、音声スペクトル時系列を用いてD
P法により、各入力音声パターンの時間軸を整合して整
合音声パターンを生成する。
P法により、各入力音声パターンの時間軸を整合して整
合音声パターンを生成する。
第5図は、この入力音声パターンの時間軸整合処理を
説明したものである。
説明したものである。
第5図において、縦の時間軸aには、基準となる入力
音声パターンの音声スペクトル時系列が写像される。こ
の実施例では、第1発声の入力音声パターンが基準の入
力音声パターンに選定される。横の時間軸bには、整合
が行われる他の入力音声パターンすなわち第2発声及び
第3発声の入力音声パターンの音声スペクトル時系列が
写像される。なお、基準の入力音声パターンとして、第
2発声又は第3発声の入力音声パターンを用いるように
してもよい。また、各入力音声パターンの音声スペクト
ル時系列の波形は、説明の便宜のため模式的に示したも
のである。
音声パターンの音声スペクトル時系列が写像される。こ
の実施例では、第1発声の入力音声パターンが基準の入
力音声パターンに選定される。横の時間軸bには、整合
が行われる他の入力音声パターンすなわち第2発声及び
第3発声の入力音声パターンの音声スペクトル時系列が
写像される。なお、基準の入力音声パターンとして、第
2発声又は第3発声の入力音声パターンを用いるように
してもよい。また、各入力音声パターンの音声スペクト
ル時系列の波形は、説明の便宜のため模式的に示したも
のである。
時間軸整合部112は、DP法により、縦軸の基準の入力
音声パターンに横軸の被整合入力音声パターンが最もよ
く類似する(距離が最も小さくなる)ように、被整合入
力音声パターンの伸縮した時間軸を基準の入力音声パタ
ーンの時間軸に整合させる。図のWは、整合時の対応関
係を示したもので歪関数(Warping function)と呼ばれ
る。このDP法による整合処理自体は、時間正規化処理と
も呼ばれて良く知られているので、その処理内容の説明
は省略する。第3図(a),(b)及び(c)は、この
時間軸整合処理によって生成された、第1発声,第2発
声及び第3発声の各整合音声パターンを示したものであ
る。
音声パターンに横軸の被整合入力音声パターンが最もよ
く類似する(距離が最も小さくなる)ように、被整合入
力音声パターンの伸縮した時間軸を基準の入力音声パタ
ーンの時間軸に整合させる。図のWは、整合時の対応関
係を示したもので歪関数(Warping function)と呼ばれ
る。このDP法による整合処理自体は、時間正規化処理と
も呼ばれて良く知られているので、その処理内容の説明
は省略する。第3図(a),(b)及び(c)は、この
時間軸整合処理によって生成された、第1発声,第2発
声及び第3発声の各整合音声パターンを示したものであ
る。
生成された各整合音声パターンの音声パワー時系列及
び音声スペクトル時系列は、出力音声バッファ113に一
時格納される。
び音声スペクトル時系列は、出力音声バッファ113に一
時格納される。
切り出し用音声パターン生成手段12は、出力音声バッ
ファ113より、各整合音声パターンの音声パワー時系列
を取り出し、各音声パワー時系列の対応する各時刻にお
ける最小パワーを選択し、選択された最小値をパワー値
とする最小パワー時系列を生成し、切り出し用音声パタ
ーンとする。これにより、第3図(d)に示すように、
各整合音声パターンにあった雑音が除去され、音声部分
(共通部分)が強調された形の区間用音声パターンが生
成されて、音声区間切り出し部141に送られる。
ファ113より、各整合音声パターンの音声パワー時系列
を取り出し、各音声パワー時系列の対応する各時刻にお
ける最小パワーを選択し、選択された最小値をパワー値
とする最小パワー時系列を生成し、切り出し用音声パタ
ーンとする。これにより、第3図(d)に示すように、
各整合音声パターンにあった雑音が除去され、音声部分
(共通部分)が強調された形の区間用音声パターンが生
成されて、音声区間切り出し部141に送られる。
一方、認識用音声パターン生成手段13は、出力音声バ
ッファ113より各整合音声パターンの音声スペクトル時
系列を取り出し、各音声スペクトル時系列の対応する各
時刻における特徴ベクトルの各ベクトル要素に対して中
央値処理を行って中央値音声スペクトル時系列を生成す
る。これにより、音声区間内に混入したパルス性の雑音
を有効に除去することができる。
ッファ113より各整合音声パターンの音声スペクトル時
系列を取り出し、各音声スペクトル時系列の対応する各
時刻における特徴ベクトルの各ベクトル要素に対して中
央値処理を行って中央値音声スペクトル時系列を生成す
る。これにより、音声区間内に混入したパルス性の雑音
を有効に除去することができる。
いま、第i番目に発声した音声の音声スペクトル時系
列を表すベクトルをViとし、その時刻jにおける特徴ベ
クトルをVijとすると、音声スペクトル時系列Viは、先
に説明した(1)式と同様に(3)式で表される。
列を表すベクトルをViとし、その時刻jにおける特徴ベ
クトルをVijとすると、音声スペクトル時系列Viは、先
に説明した(1)式と同様に(3)式で表される。
Vi=(Vi1,Vi2…Vij…ViJ) …(3) ここで、1≦i≦I,I:発声回数(実施例ではI=3) 1≦j≦J,J:パターン長 また、特徴ベクトルVijは、先に説明した(2)式と
同様に、次の(4)式で表される。
同様に、次の(4)式で表される。
Vij=(Vij 1,Vij 2…Vij k,…Vij N) …(4) ここで、Vij k(k=1〜N)は、ベクトルVijのk番
目の要素(スペクトル成分)で、特徴ベクトルVijは、
N個の要素(スペクトル成分)から成っている。各音声
スペクトル時系列Viの時刻jにおける特徴ベクトルVij
(i=1〜I)のk番目の各要素Vij k(i=1〜I)の
中央値が、中央値音声スペクトルを表すベクトルの時刻
jの特徴ベクトルのk番目のベクトル要素になる。
目の要素(スペクトル成分)で、特徴ベクトルVijは、
N個の要素(スペクトル成分)から成っている。各音声
スペクトル時系列Viの時刻jにおける特徴ベクトルVij
(i=1〜I)のk番目の各要素Vij k(i=1〜I)の
中央値が、中央値音声スペクトルを表すベクトルの時刻
jの特徴ベクトルのk番目のベクトル要素になる。
このようにして生成された中央値音声スペクトル時系
列は、音声区間切り出し部141に送られる。
列は、音声区間切り出し部141に送られる。
音声区間切り出し部141は、音声区間切り出しアルゴ
リズムに従って、切り出し用音声パターン(最小パワー
時系列)より一定閾値以上の音声パワーレベルを持たも
のを正しい音声区間として切り出し、この切り出された
音声区間内の中央値音声スペクトル時系列部分のみを、
次段の認識部142に送る。
リズムに従って、切り出し用音声パターン(最小パワー
時系列)より一定閾値以上の音声パワーレベルを持たも
のを正しい音声区間として切り出し、この切り出された
音声区間内の中央値音声スペクトル時系列部分のみを、
次段の認識部142に送る。
認識部142は、入力された中央値音声スペクトル時系
列とテンプレート記憶部143にある各テンプレートをDP
法により照合し、最もよく照合した(距離が最も小さ
い)テンプレートのカテゴリ名(単語名)を認識結果と
して出力し、表示部144に表示させる。
列とテンプレート記憶部143にある各テンプレートをDP
法により照合し、最もよく照合した(距離が最も小さ
い)テンプレートのカテゴリ名(単語名)を認識結果と
して出力し、表示部144に表示させる。
(C)他の実施例 認識用音声パターンとして中央値音声スペクトル時系
列を用いる代りに、平均値音声スペクトル時系列を用い
ることができる。
列を用いる代りに、平均値音声スペクトル時系列を用い
ることができる。
平均値音声スペクトル時系列の場合は、前掲の(3)
及び(4)式に示す各音声スペクトル時系列Viの時刻j
における特徴ベクトルVij(i=1〜I)のk番目の各
要素Vij k(i=1〜I)の平均値が、平均値音声スペク
トル時系列を表すベクトルの時刻jの特徴ベクトルのk
番目の要素になる。
及び(4)式に示す各音声スペクトル時系列Viの時刻j
における特徴ベクトルVij(i=1〜I)のk番目の各
要素Vij k(i=1〜I)の平均値が、平均値音声スペク
トル時系列を表すベクトルの時刻jの特徴ベクトルのk
番目の要素になる。
この平均値音声スペクトル時系列を用いると、雑音が
平均化されるので、音声区間内に混入した持続性のある
ランダム雑音を有効に除去することができる。
平均化されるので、音声区間内に混入した持続性のある
ランダム雑音を有効に除去することができる。
以上説明したように、本発明によれば、次の諸効果が
得られる。
得られる。
(1)高雑音下においても、正しい音声区間の切り出し
が行われるとともに、音声区間内に混入した雑音が有効
に除去され、良好な認識精度を持った音声認識を行うこ
とができる。
が行われるとともに、音声区間内に混入した雑音が有効
に除去され、良好な認識精度を持った音声認識を行うこ
とができる。
(2)中央値処理を行って認識用音声パターンを生成す
ることにより、音声区間内に混入したパルス性雑音を有
効に除去し、良好な認識精度を持った音声認識を行うこ
とができる。
ることにより、音声区間内に混入したパルス性雑音を有
効に除去し、良好な認識精度を持った音声認識を行うこ
とができる。
(3)平均値処理を行って認識用音声パターンを生成す
ることにより、音声区間内に混入した持続性のあるラン
ダム雑音を有効に除去し、良好な認識精度を持った音声
認識を行うことができる。
ることにより、音声区間内に混入した持続性のあるラン
ダム雑音を有効に除去し、良好な認識精度を持った音声
認識を行うことができる。
第1図は、本発明の基本構成の説明図、 第2図は、複数回発声時の各入力音声パターンの説明
図、 第3図は、整合音声パターンと切り出し用音声パターン
の説明図、 第4図は、本発明の一実施例の構成の説明図、 第5図は、同実施例のDP法による時間軸整合処理の説明
図、 第6図は、従来の音声認識装置の構成の説明図、 第7図は、従来の音声認識装置の音声区間切り出し処理
の説明図である。 第1図及び第4図において、 11……時間軸整合手段、111……入力音声バッファ、112
……時間軸整合部、113……出力音声バッファ、12……
切り出し用音声パターン生成手段、13……認識用音声パ
ターン生成手段、14……認識手段、141……音声区間切
り出し部、142……認識部、143……テンプレート記憶
部、144……表示部、15……マイクロホン、16……音声
分析部。
図、 第3図は、整合音声パターンと切り出し用音声パターン
の説明図、 第4図は、本発明の一実施例の構成の説明図、 第5図は、同実施例のDP法による時間軸整合処理の説明
図、 第6図は、従来の音声認識装置の構成の説明図、 第7図は、従来の音声認識装置の音声区間切り出し処理
の説明図である。 第1図及び第4図において、 11……時間軸整合手段、111……入力音声バッファ、112
……時間軸整合部、113……出力音声バッファ、12……
切り出し用音声パターン生成手段、13……認識用音声パ
ターン生成手段、14……認識手段、141……音声区間切
り出し部、142……認識部、143……テンプレート記憶
部、144……表示部、15……マイクロホン、16……音声
分析部。
Claims (5)
- 【請求項1】入力音声パターンから切り出された音声区
間単位で音声認識を行う音声認識装置において、 (A)同一内容の発声に基づく複数個の入力音声パター
ン間に生じた時間軸の伸縮を整合して整合音声パターン
をそれぞれ生成する時間軸整合手段と、 (B)生成された複数個の整合音声パターンを用いて雑
音除去を行い、音声区間切り出しを行うための切り出し
用音声パターンを生成する切り出し用音声パターン生成
手段と、 (C)生成された複数個の整合音声パターンを用いて雑
音除去を行い、音声認識を行うための認識用音声パター
ンを生成する認識用音声パターン生成手段、 を備えたことを特徴とする音声認識装置。 - 【請求項2】時間軸整合手段が、各入力音声パターン間
に生じる時間軸の伸縮の整合を、各入力音声パターンを
表す音声スペクトル時系列間の動的計画法によるマッチ
ング処理により行うことを特徴とする請求項1記載の音
声認識装置。 - 【請求項3】切り出し用音声パターン生成手段が、複数
個の整合音声パターンを表す各音声パワー時系列よりの
最小値をパワー値とする最小パワー時系列を生成して切
り出し用音声パターンとすることを特徴とする請求項1
又は2記載の音声認識装置。 - 【請求項4】認識用音声パターン生成手段が、複数個の
整合音声パターンを表す各音声スペクトル時系列の対応
する時刻の特徴ベクトルの各要素毎に中央値処置を行っ
て中央値音声スペクトル時系列を生成して認識用音声パ
ターンとすることを特徴とする請求項1,2又は3記載の
音声認識装置。 - 【請求項5】認識用音声パターン生成手段が、複数個の
整合音声パターンを表す各音声スペクトル時系列の対応
する時刻の特徴ベクトルの各要素毎に平均値処理を行っ
て平均値音声スペクトル時系列を生成して認識用音声パ
ターンとすることを特徴とする請求項1,2又は3記載の
音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63044191A JP2752981B2 (ja) | 1988-02-29 | 1988-02-29 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63044191A JP2752981B2 (ja) | 1988-02-29 | 1988-02-29 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH01219797A JPH01219797A (ja) | 1989-09-01 |
JP2752981B2 true JP2752981B2 (ja) | 1998-05-18 |
Family
ID=12684678
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP63044191A Expired - Fee Related JP2752981B2 (ja) | 1988-02-29 | 1988-02-29 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2752981B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2042926C (en) * | 1990-05-22 | 1997-02-25 | Ryuhei Fujiwara | Speech recognition method with noise reduction and a system therefor |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5888797A (ja) * | 1981-11-20 | 1983-05-26 | 三洋電機株式会社 | 音声認識装置 |
JPS61236598A (ja) * | 1985-04-12 | 1986-10-21 | 株式会社リコー | 単語音声登録方式 |
JPS62211699A (ja) * | 1986-03-13 | 1987-09-17 | 株式会社東芝 | 音声区間検出回路 |
-
1988
- 1988-02-29 JP JP63044191A patent/JP2752981B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH01219797A (ja) | 1989-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3762327B2 (ja) | 音声認識方法および音声認識装置および音声認識プログラム | |
JPH0792673B2 (ja) | 認識用辞書学習方法 | |
JP2768274B2 (ja) | 音声認識装置 | |
JPH0585916B2 (ja) | ||
JP2007523374A (ja) | 自動音声認識器のためのトレーニングデータを生成する方法およびシステム | |
JPH0352640B2 (ja) | ||
JPH05341797A (ja) | 文脈依存型音声認識装置および方法 | |
WO1996013828A1 (en) | Method and system for identifying spoken sounds in continuous speech by comparing classifier outputs | |
JPH07334184A (ja) | 音響カテゴリ平均値計算装置及び適応化装置 | |
KR20010102549A (ko) | 화자 인식 방법 및 장치 | |
Ranjan et al. | Isolated word recognition using HMM for Maithili dialect | |
JP2996019B2 (ja) | 音声認識装置 | |
JPH10149191A (ja) | モデル適応方法、装置およびその記憶媒体 | |
JP2752981B2 (ja) | 音声認識装置 | |
JP2000194392A (ja) | 騒音適応型音声認識装置及び騒音適応型音声認識プログラムを記録した記録媒体 | |
JP3098593B2 (ja) | 音声認識装置 | |
JPH0283593A (ja) | ノイズ適応形音声認識装置 | |
JP3905620B2 (ja) | 音声認識装置 | |
JPH04324499A (ja) | 音声認識装置 | |
Ozaydin | An isolated word speaker recognition system | |
JP3767876B2 (ja) | 音声認識装置 | |
JP2658426B2 (ja) | 音声認識方法 | |
Clavijo et al. | System for Acquisition and Conditioning of Non-Audible Murmur Signals | |
JPH09160585A (ja) | 音声認識装置および音声認識方法 | |
Mut et al. | Improved Weighted Matching for Speaker Recognition. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |