JP2000206984A

JP2000206984A - 音声認識装置

Info

Publication number: JP2000206984A
Application number: JP11011457A
Authority: JP
Inventors: Tomohiro Narita; 知宏成田
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1999-01-20
Filing date: 1999-01-20
Publication date: 2000-07-28

Abstract

(57)【要約】【課題】フレーム周期を長く取り演算量を減らしなが
ら、動的特徴量精度の劣化を防ぎ、認識率低下を防止す
る。【解決手段】フレームごとに入力音声を演算した静的
特徴量と、該フレームに隣接する２つのフレーム間に位
置する疑似フレームの静的特徴量を静的特徴量補間手段
により、補間して得た補間静的特徴量を用いて動的特徴
量を演算し、該動的特徴量と上記静的特徴量から特徴ベ
クトルを作成し、特徴ベクトルの時系列に対する認識結
果を照合手段で出力する

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、フレームにおける
音声データの特徴量を表す静的特徴量と、動的特徴量を
統合し、特徴ベクトルとして用いる音声認識装置に関す
るものである。

【０００２】

【従来の技術】音声認識においては、フレームと呼ばれ
る所定長の音声データの特徴量を表す静的特徴量と、静
的特徴量の時間的変化成分を表す動的特徴量を統合した
特徴ベクトルを用いて行われる場合が多い。ここではそ
の一例として、北村正・片柳恵一共著、電子情報通信学
会論文誌（Ａ）「２次元メルケプストラムの静的特徴、
動的特徴を用いる数字音声認識」（J-72A,4;pp.640-64
7,1989）に記載されている従来の音声認識装置の説明を
行う。図４は従来の音声認識装置の構成を示す図であ
る。

【０００３】図において、１０１は入力音声データの特
徴量を演算する静的特徴量演算手段、１０３は静的特徴
量の時間変化成分を演算する動的特徴量演算手段、１０
４は静的特徴量と動的特徴量から特徴ベクトルを作成す
る特徴ベクトル作成手段、１０５は特徴ベクトルの時系
列に対する標準パターンとの照合により認識結果を出力
する照合手段である。以下従来の音声認識装置の動作に
ついて説明する。

【０００４】静的特徴量演算手段１０１では入力した音
声データに対しフレームと呼ばれる一定区間ごとの静的
特徴量を演算する。分析手段としては様々な方法が存在
するが、ここでは一例としてLPC分析を用いて説明を行
う。図５はLPCフロントエンド処理系のブロック図であ
る。以下この図を用いてLPC分析についての簡単な説明
を加える。

【０００５】音声データs(n)（nは音声データのサンプ
ル番号）を取得しデジタルフィルタにより高域強調を加
える（ＳＴ１００１）。この動作はプリエンファシスと
呼ばれ次式で表される。

【０００６】

【０００７】aはプリエンファシスの係数であり、通常
0.9〜1.0の値が用いられる。

【０００８】次にプリエンファシスされた音声データs'
(n)をNサンプルからなるフレームと呼ばれる単位にブロ
ック化する（ＳＴ１００２）。l番目の音声フレームをx
_l(n)と表し、フレーム間のサンプル間隔がM、音声デー
タ全体でLフレームあるとすれば、次式のように書け
る。

【０００９】

【００１０】次にフレームごとの始めと終りの部分での
不連続性を最小にするために、フレーム内の音声データ
に窓によって傾きをかける（ＳＴ１００３）。窓をとす
ると音声データに窓を掛けた結果は次式のようになる。

【００１１】

【００１２】また次式は音声認識装置で最も広く用いら
れているハミング窓である。

【００１３】

【００１４】次に窓掛けされたフレームごとに次式から
フレームlにおける自己相関係数r_l(m)を計算する（ＳＴ
１００４）。

【００１５】

【００１６】次にフレームl におけるLPC係数a₁(l),a
₂(l),…,a_p(l)を求める（ＳＴ１００５）。pはLPC分析
の次数である。LPC係数の導出法には様々なものが提案
されているが、自己相関係数からDurbin法により再帰的
に計算する方法が一般的に用いられている。

【００１７】次にフレームl におけるLPCケプストラム
係数c_i(l)(1≦i≦I)を、フレームlにおけるLPC係数から
次式に従い再帰的に求める（ＳＴ１００６）。IはLPCケ
プストラム係数の次元数である。

【００１８】

【００１９】一般的な音声認識装置では人間の聴覚特性
に合わせるためにLPCケプストラムに非線形伸縮をかけ
たフレームlにおけるLPCメルケプストラムmc_i(1≦i≦I)
を求め、これをフレームlにおける静的特徴量として用
いている（ＳＴ１００７）。

【００２０】次に動的特徴量演算手段の説明を行う。動
的特徴量演算手段１０３は、静的特徴量演算手段１０１
が演算した静的特徴量であるLPCメルケプストラムの時
系列から動的特徴量を演算する。一般的に動的特徴量を
求める際には、分析するフレームから前後ＴＤ間内のフ
レームの静的特徴量を用いる。よって、フレーム間の時
間間隔であるフレーム周期をＴとすると、動的特徴量演
算に用いる分析フレームの前後のフレーム数Ｄには、Ｄ
＝Ｔ_D／Ｔの関係がある。動的特徴量としてはΔケプス
トラム、2次元ケプストラムなどが一般的に用いられて
いるが、ここでは２次元ケプストラムを用いた方法を一
例として説明を行う。フレームｌにおける２次元メルケ
プストラムmc'_i(l)（１≦i≦I）は以下の式から計算す
る。

【００２１】

【００２２】特徴ベクトル作成手段１０４は静的特徴量
演算手段１０１が演算した静的特徴量及び、動的特徴量
演算手段１０３が演算した動的特徴量からフレームlに
おける特徴ベクトルを作成する。一般的な音声認識装置
ではI次のLPCメルケプストラムとそれに対応するI次のL
PCメルケプストラムの動的特徴量を統合してK=2I次の特
徴ベクトルを作成する。

【００２３】照合手段１０５は特徴ベクトル作成手段が
出力した特徴ベクトルの時系列に対する標準パターンと
の照合により認識結果を出力する。

【００２４】

【発明が解決しようとする課題】一般的な音声認識装置
における演算量は隣り合う２つのフレーム間の時間間隔
であるフレーム周期に依存する。フレーム周期が短いほ
ど、より詳細な照合をすることができるが、処理しなけ
ればならないフレーム数が増加するため、より多くの演
算量が要求される。

【００２５】演算性能の小さなCPUを用いる場合、フレ
ーム周期を長く取り演算量を減らすことが必要である
が、音声の特徴ベクトルのうち、動的特徴量の精度が劣
化してしまうという問題があり認識率低下の原因になっ
ていた。これを図６及び図７を用いて説明する。動的特
徴量を求める際には分析フレームから前後一定時間内の
フレームの特徴量を用いるが、フレーム周期が長くなれ
ばなるほど動的特徴量導出のために用いるフレーム数が
少なくなる。図６では計７フレーム分の静的特徴量を演
算に用いることができるのに対して、図６に対してフレ
ーム周期を３倍にした図７ではたった３フレーム分の静
的特徴量しか演算に用いることしかできない。このた
め、フレーム周期を長くした場合の動的特徴量は、フレ
ーム周期が短い場合の動的特徴量に比べて精度が下がっ
てしまうという問題があった。

【００２６】

【課題を解決するための手段】本発明は、入力された音
声を所定周期（フレーム）ごとに分析し静的特徴量を演
算する静的特徴量演算手段と、上記静的特徴量演算手段
が演算した隣接する２つのフレーム間に位置する疑似フ
レームの静的特徴量を補間して獲得する静的特徴量補間
手段と、上記静的特徴量演算手段が演算した静的特徴量
と、静的特徴量補間手段が補間した静的特徴量を用い動
的特徴量を演算する動的特徴量演算手段と、上記静的特
徴量演算手段が演算した静的特徴量と上記動的特徴量演
算手段が演算した動的特徴量から特徴ベクトルを作成す
る、特徴ベクトル作成手段と、上記特徴ベクトル作成手
段が出力した特徴ベクトルの時系列に対する標準パター
ンとの照合により認識結果を出力する照合手段とを備え
たものである。

【００２７】

【発明の実施の形態】実施の形態１本実施の形態１では従来例と同じく静的特徴量演算手段
としてLPC分析を用い、動的特徴量演算手段として２次
元ケプストラムを用い、静的特徴量補間手段として線形
補間を用いる方法を一例として説明を行う。図１は本発
明の実施の形態１を示したものである。図において、１
０１は入力音声データの特徴量を演算する静的特徴量演
算手段、１０２は隣接する２つのフレーム間に位置する
疑似フレームの静的特徴量を補間して獲得する静的特徴
量補間手段、１０３は静的特徴量の時間変化成分を演算
する動的特徴量演算手段、１０４は静的特徴量と動的特
徴量から特徴ベクトルを作成する特徴ベクトル作成手
段、１０５は特徴ベクトルの時系列に対する標準パター
ンとの照合により認識結果を出力する照合手段である。
以下実施例の動作について説明する。

【００２８】静的特徴量演算手段１０１では入力した音
声データに対しフレームlにおける静的特徴量であるI次
のLPCメルケプストラムmc_i(1≦i≦I)を演算する。分析
手段としてはLPC分析を用いる。この静的特徴量演算手
段１０１の動作は従来例の静的特徴量演算手段の動作と
同様のためここでは説明を省略する。

【００２９】静的特徴量補間手段１０２では、静的特徴
量演算手段１０１が演算した隣接する２つのフレームl,
l+1に対するLPCメルケプストラムmc_i(l)(1≦i≦I)及びm
c_i(l+1)(1≦i≦I)から、フレームlとl+1の間に位置する
Q個の疑似フレームl₁,l₂,…,l_QのLPCメルケプストラム
を次式に従い補間する。

【００３０】

【００３１】図２はQ=2の場合にLPCメルケプストラムの
ある次元が上式に従って線形補間された例を示したもの
である。動的特徴量を前後Dフレームから演算する場
合、補間された疑似フレーム及び補間に用いられたフレ
ームに対して、図２に示すように分析フレームlがs₀と
なるようにラベル付けが行われる。図２はD=3の場合の
例であり、s_-3,s_-2,…,s₃のラベルが付与されている。

【００３２】動的特徴量演算手段１０３は、静的特徴量
演算手段１０３が演算したLPCメルケプストラム及び、
静的特徴量補間手段１０２が補間したLPCメルケプスト
ラムを用い次式に従ってフレームlにおけるLPCメルケプ
ストラムの動的特徴量mc'_i(l)(1≦i≦I)を演算する。

【００３３】

【００３４】特徴ベクトル作成手段１０４は、静的特徴
量演算手段１０２が演算した静的特徴量及び、動的特徴
量演算手段１０３が演算した動的特徴量からフレームl
における特徴ベクトルを作成する。

【００３５】照合手段１０５は特徴ベクトル作成手段が
出力した特徴ベクトルの時系列に対する標準パターンと
の照合により認識結果を出力する。

【００３６】本発明では静的特徴量補間手段１０２が補
間したLPCメルケプストラムを用いることで動的特徴量
導出のために用いるフレーム数が増加し、単純にフレー
ム周期を長くした場合よりも精度の高い動的特徴量を求
めることができる。図３は図７と同じフレーム周期を用
いており、破線のフレームは静的特徴量を補間した疑似
フレームである。図３では図６と同じように計７フレー
ム分の静的特徴量を動的特徴量の演算に用いることがで
きる。

【００３７】本実施例では静的特徴量演算手段１０１を
LPC分析として、特徴パラメータをLPCメルケプストラム
としているが、その他の分析方式、特徴パラメータを用
いた場合も本特許の範疇とみなす。

【００３８】また本実施例では静的特徴量補間手段１０
２を線形補間としているが、補間対象となる疑似フレー
ムの前後複数フレームからなる静的特徴量の時系列から
導かれる線形回帰されたN次元多項式で補間すること
や、静的特徴量の時系列をフーリエ変換して得られる系
列にゼロデータを加えて逆フーリエ変換することで補間
することもでき、本特許の範疇とみなす。

【００３９】

【発明の効果】本発明では静的特徴量補間手段が補間し
た静的特徴量を用いることで、動的特徴量導出のために
用いるフレーム数が増加し、単純にフレーム周期を長く
した場合よりも精度の高い動的特徴量を求めることがで
きる。即ち、フレーム周期を長く取り演算量を減らしな
がら、動的特徴量精度の劣化を防ぎ、認識率低下を防止
する。

【図面の簡単な説明】

【図１】本発明の実施の形態１を示すブロック図であ
る。

【図２】実施の形態１の静的特徴量補間手段により線
形補間例の説明図である。

【図３】実施の形態１による静的特徴量から動的特徴
量を演算するときの説明図である。

【図４】従来の装置を示すブロック図である。

【図５】従来の装置によるフロントエンド処理系のブ
ロック図である。

【図６】静的特徴量から動的特徴量を演算するときの
説明図である。

【図７】異なるフレーム周期による静的特徴量から動
的特徴量を演算するときの説明図である。

【符号の説明】

１０１：静的特徴量演算手段、１０２：静的特徴量補間
手段、１０３：動的特徴量演算手段、１０４：特徴ベク
トル作成手段、１０５：照合手段。

Claims

【特許請求の範囲】

【請求項１】フレームと呼ばれる所定長の音声データ
の特徴量を表す静的特徴量と、この静的特徴量の時間的
変化成分を表す動的特徴量とを統合して特徴ベクトルと
して用いる音声認識装置において、入力された音声を一定周期ごとに分析し静的特徴量を演
算する静的特徴量演算手段と、上記静的特徴量演算手段が演算した隣接する２つのフレ
ーム間に位置する疑似フレームの静的特徴量を補間して
獲得する静的特徴量補間手段と、上記静的特徴量演算手段が演算した静的特徴量と、静的
特徴量補間手段が補間した静的特徴量とを用い動的特徴
量を演算する動的特徴量演算手段と、上記静的特徴量演算手段が演算した静的特徴量と上記動
的特徴量演算手段が演算した動的特徴量から特徴ベクト
ルを作成する、特徴ベクトル作成手段と、上記特徴ベクトル作成手段が出力した特徴ベクトルの時
系列に対する標準パターンとの照合により認識結果を出
力する照合手段とを備えたことを特徴とする音声認識装
置。