JPH054679B2

JPH054679B2 -

Info

Publication number: JPH054679B2
Application number: JP60241942A
Authority: JP
Inventors: Katsuyuki Futayada; Taisuke Watanabe
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1985-10-29
Filing date: 1985-10-29
Publication date: 1993-01-20
Also published as: JPS62100800A

Description

【発明の詳細な説明】産業上の利用分野本発明は人間の声を機械に認識させる音声認識
方法に関するものである。

従来の技術近年音声認識技術の開発が活発に行なわれ、商
品化されているが、これらのほとんどは声を登録
した人のみを認識対象とする特定話者用である。
特定話者用の装置は認識すべき言葉をあらかじめ
装置に登録する手間を要するため、連続的に長時
間使用する場合を除けば、使用者にとつて大きな
負担となる。大語彙単語を対象とする特定話者用
の音声認識方式においては、このよな負担および
処理量、記憶容量の点から音節など小さな単位を
標準パターンとする必要があるとして、次のよう
な認識方法が提案されている（日本音響学会研究
会資料S83−50）。即ち、予め各音節の標準パタ
ーンと、標準パターン作成時の統計量を求めてお
く。認識時にはまず入力と各音節の標準パターン
との距離（類似度）を、単純距離尺度を用いて計
算し、その後、この類似度を上記統計量（１次元
の統計分布）にあてはめて事後確率に変換する。
次に事後確率の時系列ラテイスを、情報削減の
後、辞書と照合して単語を認識する、というもの
である。

これに対し、声の登録を必要とせず、使い勝手
のよい不特定話者用の認識技術の研究が最近では
精力的に行なわれるようになつた。

音声認識方法を一般的に言うと、入力音声と辞
書中に格納してある標準的な音声（これらはパラ
メータ化してある）のパターンマツチングを行な
つて、類似度が最も高い辞書中の音声を認識結果
として出力するということである。この場合、入
力音声と辞書中の音声が物理的に全く同じものな
らば問題はないわけであるが、一般には同一音声
であつても、人が違つたり、言い方が違つている
ため、全く同じにはならない。

人の違い、言い方の違いなどは、物理的にはス
ペクトルの特徴の違いと時間的な特徴の違いとし
て表現される。すなわち、調音器官（口、舌、の
どなど）の形状は人ごとに異なつているので、人
が違えば同じ言葉でもスペクトル形状は異なる。
また早口で発声するか、ゆつくり発声するかによ
つて時間的な特徴は異なる。

不特定話者用の認識技術では、このようなスペ
クトルおよびその時間的変動を正規化して、標準
パターンと比較する必要がある。

音声認識装置の実用化に対するもう１つの課題
は、環境騒音に対して、どのように対処するかと
いうことである。事務所などで音声認識装置を使
用すると仮定すると、70dBA程度の騒音に耐え
る必要がある。

音声信号に対するノイズの混入は、音声区間の
検出精度に対して顕著な影響を与える。すなわ
ち、発話の前後にノイズが付加すると、発話して
いる区間に正確に決めることができなくなり、認
識結果に誤まりを生ずることになる。

使い易い音声認識装置を実現するためには、不
特定話者を対象とすることができ、しかも多少の
騒音環境でも高い認識率で作動できる方法を確立
することが必要である。

このような観点から、本出願人は音声区間が正
確に決められない場合にも高い認識率が確保でき
る、不特定話者向きの認識方法を提案した。以
下、この方法を従来例として取りあげ説明する。

第３図は本出願人が以前に提案した音声認識方
法の機能ブロツク図である。

図においては１は入力音声をデイジタル信号に
変換するAD変換部、２は音声を分析区間（フレ
ーム）毎に分析しスペクトル情報を求める音響分
析部、３は特徴パラメータを求める特徴パラメー
タ抽出部、４は音声の始端、終端の候補区間を決
める音声区間候補検出部、５は各音声区間につい
て始端と終端及び音声長を求める音声区間設定
部、６は単語長の伸縮を行う時間軸正規化部、７
は入力パターンと標準パターンとの類似度を計算
する距離計算部、８は予め作成された標準パター
ンを格納する標準パターン格納部、９は距離計算
部７で得られた類似度または距離の中から類似度
最大または距離最小のものを求める類似度比較部
である。

次にその動作について説明する。

入力音声をAD変換部１によつて12ビツトのデ
イジタル信号に変換する。標本化周波数は8KHz
である。音響分析部２では、１フレーム
（10msec）ごとに自己相関法によるLPC分析を行
なう。分析の次数は10次とし、線形予測係数α₁，
α₁，α₂…α₁₀を求める。またここではフレームご
との音声パワーW₀も求めておく。特徴パラメー
タ抽出部３では線形予測係数を用いて、LPCケ
プストラム係数Cl〜Cd（ｄは打切り次数）および
正規化対数残差パワーCoを求める。なお、LPC
分析とLPCケプストラム係数の抽出法に関して
は、例えば、J.D.マーケル、A.H.グレイ著鈴木久
喜訳「音声の線形予測」に詳しく記述してあるの
で、ここでは説明を省略する。また特徴パラメー
タ抽出部３では対数パワーLWoを次式で求める。

LWo＝10log₁₀Wo （式１）音声区間検出部４では（式１）で求めたLWo
を用いて音声の始端、終端の候補区間を決める。
音声区間は一意に決めることが望ましいが、環境
騒音などのノイズが混入すると、一意に決めるこ
とが難しい場合や、一意に決めると誤りを生する
場合が多い。このような事態を避けるために、始
端、終端の候補区間を求め、候補区間内には正確
な始端、終端が含まれるようにする。このように
すると、音声区間はあいまいにしか求められない
が、全く外れてしまう確率はずつと低くなる。

次に音声区間候補検出部４の機能の一例を説明
する。始端検出のための閾値θ¹ _s、θ² _s（θ¹ _s＞θ² _s）
お
よび終端検出のため閾値θ¹ _e、θ² _e（θ¹ _e＞θ² _e）あら
か
じめ定めておく。ここでθ¹ _s、θ¹ _eは、音声以外の区
間を含まないように高めに設定し、θ² _s、θ² _eは逆に
音声の区間を外さないように低めに設定する。第
４図に示すように、これらの閾値を入力音声の対
数パワー値（LW₀）に対して適用し、θ² _sを超える
最初のフレームをS₁、θ¹ _sを超える最初のフレーム
をS₂、そしてθ¹ _eより小さくなる最初のフレームを
e₁、θ² _eよりも低くなる最後のフレームをe₂とす
る。そうすると正確な始端FsはS₁≦Fs≦S₂、正
確な終端Feはe₁≦Fe＜e₂となる。実際にはLW₀
の値の連続性を見て、規則によつてS₁、S₂、e₁、
e₂の位置を修正している。

このようにして始端候補区間、終端候補区間を
求めると、始端候補区間フレームk₁＝S₂−S₁＋
１、終端候補区間k₂＝e₂−e₁＋１フレームとな
り、音声区間の組合わせはＬ＝k₁×k₂とおりとな
る。音声区間設定部５は、Ｌとおりの音声区間の
11つ１つに対して、始端Ｓと終端ｅおよび音声長
Ｉ＝ｅ−Ｓ＋１を決め、遂次、時間軸正規化部６
へと送出する。

時間軸正規化部６では音声長ＩフレームをＪフ
レームの長さに線形に伸縮して時間長の正規化を
行なう。伸縮後の第ｊフレームと入力の第ｉフレ
ームは（式２）の関係を持つ。

ｊ＝〔Ｊ−１／Ｉ−１ｉ＋Ｉ−Ｊ／Ｉ−１＋0.5〕（
式２）ただし〔ａ〕はａを超えない最大の整数を表わ
す。例ではＪ＝16フレームとしている。

次に伸縮後の特徴パラメータを時系列に並べ、
入力の時系列ベクトルｘを作成する。いま第ｊフ
レームの特徴パラメータ（LPCケプストラム係
数）をCj、ｋ（ｋ＝０，１，２…ｐ：ｄ個）とす
るｘは次式となる。

〓＝（C_1,〓、C_1,1、C_1,2…C_1,p、…C_J,〓C_J,1…
C_J,〓、_Cｊ，１…C_J,p）（式３）ここではｐはパラメータの打切り次数であり、例
ではｐ＝５としている。

ｘはＪ・（ｐ＋１）次元すなわちＪ・ｄ次元の
ベクトルとなる。（ｄは１フレームあたりのパラ
メータ数）Ｌとおりの音声区間のうち、第ｌ番目
の音声区間に対応する入力ベクトルｘをx^lと表現
する。

距離計算部７ではx^lと、標準パターン格納部８
に格納されている各単語（単語ナンバーをｎとす
る）の標準パターンとの距離D_oを（式４）で計
算する。

D_o ^l＝B_o−〓^t _o・x^l （式４）ここで〓_o，B_oは単語ｎ（ｎ＝１，２，…Ｎ：
Ｎは単語数）の標準パターンであり、〓はＪ・ｄ
次元のベクトル、Ｂはスカラーである。

〓_o＝（〓_o−〓_x）^t・〓−１（式５） B_o＝２〓^t _o・〓−１・〓_o−〓^t _x〓−１・〓_x
（式６）ただし、〓_oは単語ｎの平均値、〓_xは全単語お
よびその周囲情報を用いて作成した平均値ベクト
ルである。また、単語ｎの共分散行列を〓_o、全
単語およびその周囲情報で作成した共分散行列を
〓_xとすると、〓＝１／Ｎ＋１（〓１＋〓２＋…＋〓_N＋〓_x）（式７）である。これらの標準パターンは、多数の話者の
発声による多くのデータサンプルを用いて作成す
る。

（式４）をすべての音声区間（ｌ＝１，２，…
Ｌ）における全ての音声（ｎ＝１，２，…Ｎ）に
ついて計算し、Ｌ×Ｎ個の類似度D^l _oを求める。

類似度比較部９はＬ×Ｎ個の中から類似度最大
（距離D^l _oが最小）となるものを求め、それをd_o，^l
とする。認識結果は単語ナンバn′に対応する音声
（単語）を出力する。

発明が解決しようとする問題点しかしながらこのような方法の問題点は計算回
数が多いことである。全ての類似度を求めるため
には（式４）の計算をＬ×Ｎ回行なう必要があ
る。いま具体例として、１フレームあたりのパラ
メータ数ｄ＝６，正規化フレーム長Ｊ＝16，始
端・終端候補k₁＝k₂＝10（すなわち音声区間数Ｌ
＝100）、単語数Ｎ＝10とすると、類似度の計算に
はｄ・Ｊ・Ｌ・Ｎ回（96000回）の乗算と加算、
およびＬ・Ｎ回（1000）の減算が必要となる。こ
のうち、特に問題なのは乗算回数が多いことであ
り、これだけの乗算回数を実時間に近い時間で行
なうには高速の回路を必要とし、実用的でない。

本発明は上記問題点を解決するもので、類似点
または距離の計算における乗算の回数を大きく減
少させ、処理の高速化をはかることを目的とする
ものである。

問題点を解決するための手段本発明は上記目的を達成するもので、不特定話
者の単語認識を行なうために、パラメータの多次
元統計分布を仮定した統計的距離尺度を使用し、
かつ異なる入力に対する類似度の相互比較ができ
るようにするために、事後確率化された類似度を
用いる。事後確率については、前記日本音響学会
音声研究会資料S83−50に記載がみられるが、こ
れは距離尺度として統計的距離尺度ではなく、単
純距離尺度を用いており、まず、入力と標準パタ
ーンとのパターンマツチングによつて距離（類似
度）を求め、次に距離の分布が１次元の統計分布
に従うと仮定して事後確率に変換するものであ
る。これは、統計的距離尺度そのものを事後確率
化している本願発明の事後確率とは目的、用法と
もに異なるものである。即ち本願発明は、入力音
声の始端候補区間（k₁フレームとする）、終端候
補区間（k₂フレームとする）を決め、前記候補区
間における始端、終端の全ての組合わせによつて
k₁×k₂とおりの音声区間を設定し、これらの音声
区間の全部または一部を対象として、各々始端と
終端の間をＪフレームに分割し、各フレームごと
にｄ個の特徴パラメータを抽出して時間的順序に
並べてｄ×Ｊ次元の入力ベクトルを作成し、これ
と前述の各々の音声標準パターンとの事後確率化
された類似度または距離を、入力パラメータの分
布が多次元統計分布に従うと仮定して計算し、こ
れを繰り返して全音声区間における全単語の標準
パターンとの類似度または距離を計算し、全ての
類似度または距離を比較して、類似度を最大また
は距離を最小とした標準パターンに対応する単語
を結果として出力する方法であつて、類似度また
は距離を計算するときの乗算を、標準パターンの
各フレームに対応する全ての入力フレームとの間
で先に計算しておき、類似度または距離を求める
段階でこの中から必要なものを選択して加算する
ことによつて、乗算の重複を防ぎ、類似度または
距離の計算に要する計算量を削減するものであ
る。

作用本発明は上述のように類似度または距離の計算
式の乗算を先に計算しておき、類似度または距離
を求める際にこの中から必要なものを選択して加
算するようにしているため、音声区間の始端、終
端候補が正確に求められず、多くの類似度の計算
を要する場合においても、計算量を少なくするこ
とができ、複雑、高速の回路を必要とせずリアル
タイムに近い処理を行なうことができるので、騒
音に強い不特定話者用の小型低価格の音声認識装
置を作成することが可能となる。

実施例以下に本発明の実施例を図面を用いて説明す
る。

第１図は本発明の一実施例における音声認識方
法を具現化する機機能ブロツク図である。図にお
いて第３図と同じ番号のブロツクは同じ機能を有
する。以後、図の構成において方法を説明する。

AD変換部１、音響分析部２、特徴パラメータ
抽出部３および音声区間候補検出部４の機能は従
来例と全く同じであるので説明を省略する。

音声区間候補検出部４によつて、未知入力音声
の始端候補｛S₁〜S₂｝、終端候補｛e₁〜e₂｝が求
められる。標準パターンの時間長をＪとすると、
未知入力と標準パターンのマツチングにおける、
時間的な対応は第２図のようになる。第２図で
は、横軸に未知入力に対する時間軸、たて軸に標
準パターンに対する時間軸を取つてある。原点は
S₁と標準パターンの始端となつている。

未知入力における音声区間は、k₁＝S₂−S₁＋
１、k₂＝e₂−e₁＋１とすると、k₁×k₂とおりある
が、これら全ての音声区間と標準パターンの時間
的対応関係（マツチングルート）は全て、第２図
で斜線をほどこした四辺形内に納まる。したがつ
て、（式４）の類似度計算は、すべてこの四辺形
内で行なわれることになるので、（式４）におけ
る未知入力と標準パターンの対応するフレームの
部分積を、四辺形の内部で予め計算しておき、後
で時間軸の伸縮を行なう際に必要なものだけを選
択して加え合わせる方法を採ることができる。

単語ｎの標準パターン〓ｎの第ｊフレームに相
当する部分ベクトルを〓⁽ⁿ⁾ _jとする。

〓⁽ⁿ⁾ _j＝（aj、₀、aj、₁、aj、₂…aj、ｐ）（式８）（式３）で表わされる未知入力ｘの第ｉフレー
ムに相当する部分ベクトルをxiとする。

xi＝Ci、₀、Ci、₁、Ci、₂…Ci、ｐ）（式９）第２図に示すように、標準パターンの第ｊフレ
ームとの類似度計算の対象になる未知入力のフレ
ームは、i₁≦ｉ≦i₂の範囲にある。傾きの制限よ
り、 i₁＝〔e₁／Ｊ＋0.5〕（式10） i₂〔（e₂−s₂）・ｊ／Ｊ＋s₂＋0.5〕（式11）格子点（ｉ，ｊ）における単語ｎとの類似度の
部分積をq^(n)C _i,jとすると、（式４より） q⁽ⁿ⁾ _i,j＝k^t _i・〓⁽ⁿ⁾ _J （式12）添字ｔは転置ベクトルであることを示す。

第１図は乗算演算部１０は、特徴パラメータ抽
出部３で抽出された未知入力と標準パターン格納
部１３に格納されている標準パターンとの部分積
q⁽ⁿ⁾ _i,jをi₁≦ｉ≦i₂の範囲で、各単語に対して計算
し、一時的に記憶しておく部分である。

音声区間設定部５は、音声区間候補検出部４で
検出された始端、終端を組合わせてＬ＝k₁×k₂と
おりの音声区間を設定する。音声区間の番号をｌ
（ｌ＝１，２，…Ｌ）とする。時間軸伸縮部１１
は第ｌ番目の音声区間の長さIlを、次式によつて
標準パターン長Ｊに伸縮する。（式22）より i_l＝〔I_I１／Ｊ−１・ｊ＋Ｊ−I_l／Ｊ−１＋0.5〕（
式13） i₁≦i_l≦i₂であるから、座標（i_l，ｉ）に対応す
る部分積q⁽ⁿ⁾ _il,jは乗算演算部１０によつて既に求め
られているはずである。距離累積部１２は、各音
声区間ｌに対して、各標準パターンと未知入力と
の部分積を加え合わせて、累積する部分である。
第ｊ−１フレームまでの累積をQ⁽ⁿ⁾ _j,1(l)とすると第
ｊフレームまでの累積Q⁽ⁿ⁾ _j(l)は Q⁽ⁿ⁾ _j(l)＝Q⁽ⁿ⁾ _j,1(l)＋q⁽ⁿ⁾ _il,j （式14）ただし、初期条件としてQ₀ ⁽ⁿ⁾(l)＝０としてお
く、乗算演算部１０、時間軸伸縮部１１、距離累積
部１２によつて、上記の操作をｊ＝１〜Ｊに対し
て行なうと、ｊ＝Ｊの段階でQ⁽ⁿ⁾ _J(l)を求めること
ができる。Q⁽ⁿ⁾ _J(l)は（式４）における〓^t _o・x^lと同
じものである。したがつて、標準パターン格納部
１３に格納してあるB_oを用いて、第ｌ番目の音
声区間における未知入力x^lと、標準パターンｎと
の距離D^l _oを次のようにして求めることができる。

D^l _o＝B_o−Q⁽ⁿ⁾ _J(l) （式15）類似度比較部９は、全ての音声区間ｌ＝１〜
Ｌ、および全ての標準パターンｎ＝１〜Ｎに対し
てD^l _oの比較を行ない、類似度最大（距離D^l _oが最
小）となる標準パターンに対応する音声を認識結
果として出力する。

次に本実施例の効果について述べる。今までの
説明から明らかなように、本発明の目的は処理の
高速化であり、乗算の回数を削減することで目的
を達している。

従来例においては前に述べたように、１フレー
ムあたりのパターン数ｄ、正規化フレーム長Ｊ、
音声区間数Ｌ、単語数Ｎの積であるｄ・Ｊ・Ｌ・
Ｎ回（96000回）の乗算が必要であつた。これに
対し、本実施例における乗算回数はｄ・Ｊ・Ｎ・
（k₁＋k₂）／２回であり、同じ値を代入すると、
9600回である。これは従来例の1/10である。加
算、減算の回数は従来例にほぼ同じである。マイ
クロコンピユータなどを用いて装置を構築する場
合、加減算に比べて、乗算に要する時間が格段に
多いこと、および乗算を高速に実行するには複雑
な回路を要することを考慮すると、本実施例の効
果は明らかである。

なお本発明の特徴パラメータとしてはLPCケ
プストラム係数、自己相関係数、帯域通過フイル
タの出力のいずれであつても良いことはもちろん
である。

発明の効果以上要するに本発明は、入力音声から正確な始
端、終端を含む始端候補区間、終端候補区間を検
出し、これらの区間で規定される区間に対して音
声標準パターンの各フレームの部分ベクトルと未
知入力の部分入力の部分積を始端候補区間と終端
候補区間で規定される区間に対して全て求めてお
き、さらに各音声区間に対して対応する部分積を
選択して標準パターンのフレーム数だけ累積する
ことにより多次元入力ベクトルと音声標準パター
ンとの、事後確率化された類似度または距離を、
入力パラメータの分布が多次元統計分布に従うと
仮定して求めるようにしているので、乗算の回数
を大幅に減少させることができ、処理の高速化が
はかれる利点を有する。

【図面の簡単な説明】

第１図は本発明の一実施例における音声認識方
法を具現化する機能ブロツク図、第２図は本実施
例の未知入力と標準パターンの時間的な対応関係
を示す関係図、第３図は従来例の音声認識装置を
示す機能ブロツク図、第４図は音声区間候補区間
の求め方の例を示す音声区間図である。１……AD変換部、２……音響分析部、３……
特徴パラメータ抽出部、４……音声区間候補検出
部、５……音声区間設定部、９……類似度比較
部、１０……乗算演算部、１１……時間軸伸縮
部、１２……距離累積部、１３……標準パターン
格納部。

Claims

【特許請求の範囲】１予め、認識対象とするＮ種の音声の各々の標
準パターンを、各々の音声に属するデータと認識
対象とする全音声のデータおよび全音声のデータ
の周囲情報を用いて作成しておき、一方、入力音
声から始端候補区間k₁フレーム、終端候補区間k₂
フレームを検出し、始端候補区間と終端候補区間
を組合わせてＫ＝k₁×k₂とおりの音声区間を設定
し、これらの音声区間の全部または１部（K₁と
おり）を対象として、各々始端と終端の間をＪフ
レームに分割し、各フレームごとにｄ個の特徴パ
ラメータを抽出して時間的順序に並べてｄ×Ｊ次
元の入力ベクトルを作成し、これと前記の各々の
音声標準パターンとの事後確率化された類似度ま
たは距離を、入力パラメータの分布が多次元統計
分布に従うと仮定し、まず音声標準パターンの各
フレームのｄ次元部分ベクトルと未知入力のｄ次
元部分ベクトルとの部分積を始端候補区間と終端
候補区間で規定される区間に対して全て求めてお
き、さらに各音声区間に対して対応する部分積を
選択して標準パターンのフレーム数Ｊだけ累積す
ることによつて求め、これを繰り返してK₁とお
りの音声区間に対する各々の音声標準パターンと
の類似度または距離を求め、Ｎ×K₁種の類似度
または距離を比較して、類似度が最大または距離
が最小となる結果に対応する音声標準パターンが
属する音声を認識結果とすることを特徴とする音
声認識方法。２先に求めておいた部分積を選択して累積する
に際し、未知入力の音声区間長を標準パターン長
（Ｊフレーム）に線形に伸縮することによつて決
まる未知入力のフレームに対応する部分積を選択
して累積することを特徴とする特許請求の範囲第
１項記載の音声認識方法。３特徴パラメータがLPCケプストラム係数、
自己相関係数、帯域通過フイルタの出力のいずれ
かであることを特徴とする特許請求の範囲第１項
記載の音声認識方法。４周囲情報を正確な始端付近l₁フレームと正確
な終端付近l₂フレームを組合わせて定まる音声区
間を用い、全対象単語に属する多くのデータサン
プルから統計的に作成することを特徴とする特許
請求の範囲第１項記載の音声認識方法。５ある音声ｎの標準パターンを、ｎに属するデ
ータを用いて統計的に求めた標準パターンから周
囲情報を除去した形で求めることを特徴とする特
許請求の範囲第１項記載の音声認識方法。６類似度を計算する式が１次判別関数であるこ
とを特徴とする特許請求の範囲第１項記載の音声
認識方法。