JP2001228890A

JP2001228890A - 音声認識装置

Info

Publication number: JP2001228890A
Application number: JP2000039447A
Authority: JP
Inventors: Michihiro Yamazaki; 道弘山崎
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2000-02-17
Filing date: 2000-02-17
Publication date: 2001-08-24

Abstract

(57)【要約】【課題】音声を入力する話者の発声速度や発声リズム
が、入力する語句の量やその前後関係などの影響を受け
て変化することが予想される場合であっても、認識精度
の高い音声認識装置を得る。【解決手段】音声入力部１と、標本信号を抽出し音響的
特性を分析する音声分析部２と、標準音素辞書格納部３
と、標本信号と前記標準音素モデルとの類似度を算出す
るフレーム類似度算出部４と、認識語句辞書格納部５
と、認識語句辞書５ａ、５ｂ、５ｃ、５ｄと、認識語句
辞書選択部６と、継続時間辞書格納部７と、認識語句を
構成する音素の継続時間に関する情報を収録した継続時
間辞書７ａ、７ｂと、継続時間辞書選択部８と、フレー
ム類似度を基に、認識語句辞書及び継続時間辞書を参照
し、音声信号と認識語句辞書に含まれる全語句との語句
類似度を算出する語句類似度算出部９と、認識結果出力
部１０と、を備える。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は音声信号の認識を行
う音声認識装置に関するものである。

【０００２】

【従来の技術】自動電話予約システムなどの入力手段と
して音声認識装置が適用されている。システムを利用す
るユーザは、システムからのガイダンスに従い「氏名」
「住所」等の複数の項目を音声で入力する。音声認識装
置は、各項目毎に予め想定されている認識されるべき語
句の中から、入力された音声が最も類似する語句を特定
し認識結果として出力する。システムは認識結果を基に
予約情報を収集する。

【０００３】図４は、例えば特開平４−１２１７９２に
示された従来の音声認識装置の構成図である。図４にお
いて、１は音声認識を行う音声を入力し電気的な音声信
号に変換する音声入力部、２は音声入力部１で得られた
音声信号から所定時間間隔毎に音響分析の単位時間の標
本信号を抽出しこの標本信号の音響的特性を分析して特
徴パラメータを算出する音声分析部、３は音声分析の最
小の基本単位となる標準音素モデルを標準音素辞書とし
て格納する標準音素辞書格納部、４は音声分析部２で算
出された特徴パラメータと前記標準音素モデルとの類似
度を算出するフレーム類似度算出部、５は複数の認識語
句辞書を格納する認識語句辞書格納部、５ａ、５ｂ、５
ｃ、５ｄは単語や連続文章として認識されるべき語句の
発声に関する情報を収録した認識語句辞書、１１は認識
語句辞書格納部５に格納された複数の認識語句辞書のう
ち、音声認識処理に使用する認識語句辞書を選択する認
識語句辞書選択部、９はフレーム類似度算出部４の出力
であるフレーム類似度から、入力された音声信号と認識
語句辞書に含まれる全語句との語句類似度を算出する語
句類似度算出部、１０は認識語句辞書に収録された全語
句のうち最も語句類似度の高い語句を認識結果として出
力する認識結果出力部、１２は認識語句を構成する各音
素の継続時間を音素継続時間情報とし、これを継続時間
辞書として格納する継続時間辞書格納部である。

【０００４】次に、前記の従来例として示す音声認識装
置の動作を説明する。まず、音声入力部１は、音声認識
を行うべき話者の音声を入力してこれを電気的な音声信
号に変換する。次に、音声分析部２は、所定の時間間隔
毎に、所定時間にわたる音声信号の標本信号を抽出す
る。標本抽出を行う時間間隔は、音響分析の最小単位と
なる音素を検出するのに十分に短い時間に設定される。
以下では、標本信号を「フレーム」とする。さらに音声
分析部２は、抽出されたフレームについて、例えば周波
数成分のスペクトラム分布や信号波形、振幅などについ
て分析を行い、そのフレームにおける音声信号の音響的
な特徴を複数の特徴パラメータとして出力する。連続的
に入力される音声信号について離散的にフレームが抽出
されるので、フレームの特徴パラメータは離散時間で時
系列的に得られる。

【０００５】一方、標準音素辞書格納部３には、音声分
析の最小の基本単位となる標準音素モデルが標準音素辞
書として格納されている。各標準音素モデルは、その音
素についての複数の音響的な特徴パラメータによって規
定される。標準音素モデルを規定する特徴パラメータ
は、音声分析部２においてフレームの音響分析により抽
出される特徴パラメータと対応付けられており、例えば
周波数成分のスペクトラム分布や信号波形、振幅などが
選択される。

【０００６】次に、フレーム類似度算出部４は、音声分
析部２で得られたフレームの特徴パラメータを基に、各
フレームと標準音素辞書として収録された全標準音素モ
デルとの類似度を算出する。算出されたフレーム類似度
は、フレーム毎に算出される時系列データとして得られ
る。

【０００７】一方、認識語句辞書格納部５には、単語や
連続文章として認識されるべき語句の発音を、音素の組
み合わせによって記述したデータである認識語句音素情
報が、認識語句辞書として格納されている。この音声認
識語句辞書は、音声認識装置が適用されるシステムのア
プリケーションに応じて複数用意される。たとえば、
「氏名」として認識されるべき語句の発音に関する認識
語句音素情報が収録された認識語句辞書５ａと、「住
所」の認識語句辞書５ｂと、「電話番号」の認識語句辞
書５ｃと、「購入品目」の語句認識辞書５ｄが認識語句
辞書格納部５に格納されている。

【０００８】認識語句辞書選択部１１は、認識語句辞書
格納部５に格納された複数の認識語句辞書の中から、音
声認識処理に使用すべき認識語句辞書を切り替えて選択
する。例えば、音声認識装置が適用されたシステムにお
いて、話者に「氏名」の入力が要求される場面では、認
識語句辞書選択部１１は、認識語句辞書５ａを語句類似
度算出に用いる辞書として選択し、話者に「住所」の入
力が要求される場面では認識語句辞書５ｂが選択され
る。以下では、認識語句辞書として５ａが選択された場
合について説明する。

【０００９】継続時間辞書格納部１２には、認識される
べき語句を構成する各音素の継続時間の組み合わせに関
する情報が、継続時間辞書として格納されている。以下
では、この情報を「音素継続時間情報」と呼ぶ。

【００１０】図５は、認識語句が氏「朝日」である場合
の、認識語句音素情報及び音素継続時間情報の例を示し
た説明図である。氏名の認識語句辞書５ａには、認識語
句「朝日」の認識語句音素情報（／ａ／，／ｓ／，／ａ
／，／ｈ／，／ｉ／）が収録されている。一方、継続時
間辞書には、認識語句「朝日」に対応した、各音素の音
素継続時間情報が収録されている。各音素の継続時間
は、辞書作成時に学習により獲得されるもので、その継
続時間の上限値と下限値が継続フレーム数により表記さ
れる。たとえば、第一番目の音素である／ａ／は、フレ
ーム数９〜１４の範囲で継続して出現することを示して
いる。

【００１１】次に、語句類似度算出部９は、フレーム類
似度算出部４の出力であるフレーム類似度から、認識語
句辞書５ａに収録された全認識語句との語句類似度を算
出する。ここで、認識語句辞書５ａに収録された各認識
語句との語句類似度算出にあたっては、継続時間辞書格
納部１２から認識語句に対応した音素継続時間情報を参
照し、この音素継続時間情報を語句類似度算出の制約条
件として適用する。

【００１２】語句類似度算出部９における語句類似度算
出の方法について説明する。まず、認識語句辞書５ａに
格納された任意の認識語句について、その語句の第一番
目の音素の終端範囲を、当該認識語句の音素継続時間情
報から参照する。図５に示す認識語句「朝日」の例で
は、第一番目の音素／ａ／の音素終端範囲はフレーム数
９〜１４となる。

【００１３】次に、フレーム類似度算出部４の出力であ
るフレーム類似度を累積演算処理して、認識語句の第一
番目の音素の類似度を算出する。ここで、音素継続時間
情報を音素の類似度を算出する際の制約条件として使用
する。したがって、音素の継続時間が音素継続時間情報
に規定された終端範囲より長い場合や短い場合には、当
該音素の類似度は低く算出される。

【００１４】語句類似度算出部９は、上記の演算処理を
繰り返し行って、認識語句を構成する全音素について音
素の類似度を算出する。続けて語句類似度算出部９は、
認識語句を構成する全音素の類似度を累積して、入力さ
れた音声信号と当該認識語句との語句類似度を算出す
る。

【００１５】語句類似度算出部９は、選択されている任
意の認識語句辞書５ａに収録された全認識語句につい
て、語句類似度の算出を繰り返し行う。最後に、認識結
果出力部１０は、認識語句辞書５ａに収録された全認識
語句の中から最も語句類似度が高い認識語句を選択し、
これを認識結果として出力する。

【００１６】

【発明が解決しようとする課題】以上、従来の音声認識
装置では、継続時間辞書格納部に継続時間辞書を一つの
み格納し、一の認識語句に対しては常に同じ音素継続時
間情報を制約条件として使用して語句類似度の算出を行
っている。

【００１７】しかしながら、音声認識を行うべき話者の
発声速度又は発声リズムは、入力されるべき語句の前後
関係、あるいは入力すべき語句の量などによって変化す
る。例えば、入力された語句が単語として発声された場
合には、話者の発声速度が低速になるため各音素の継続
時間は長くなり、入力された語句が連続文章の一部とし
て発声された場合には、話者の発声速度が高速になるた
め各音素の継続時間は短くなる傾向がある。

【００１８】したがって、単語が発声された場合の音声
信号を基に継続時間辞書を作成し語句類似度算出に使用
した場合には、連続文章発声の音声信号が入力されると
語句類似度が不当に低く算出され、逆に連続文章が発声
された場合の音声信号により継続時間辞書を作成した場
合には、単語発声の音声信号が入力されると語句類似度
が不当に低く算出されることとなり、音声認識の精度が
低下するといった問題があった。

【課題を解決するための手段】

【００１９】前記の課題を解決し、目的を達成するため
に、本発明にかかる音声認識装置にあっては、音声を入
力しこれを電気的な音声信号に変換する音声入力手段
と、前記音声信号の音響分析の単位となる所定時間長の
標本信号を抽出し、その音響的特性を分析する音声分析
手段と、標本信号の音響的特性と標準音素辞書に収録さ
れた音素の標準的なモデルとの類似度を算出するフレー
ム類似度算出手段と、音声認識で認識されるべきの語句
の音素の組み合わせに関する情報を収録した認識語句辞
書と、前記認識語句辞書に収録された語句について、発
声速度又は発生リズムの異なる音声信号に基づき作成さ
れた音素の継続時間に関する情報を収録した複数の継続
時間辞書と、前記音声分析手段の出力である音素の標準
的なモデルとの類似度から、前記認識語句辞書と前記継
続時間辞書とを参照し、入力音声を認識する語句認識手
段と、を備えたことを特徴とする。

【００２０】次の発明にかかる音声認識装置にあって
は、複数の継続時間辞書は、話者が単語を発声した場合
の音声信号について作成された継続時間辞書と、話者が
連続文章を発声した場合の音声信号について作成された
継続時間辞書と、を備えたことを特徴とする。

【００２１】

【発明の実施の形態】実施の形態１．図１は、本実施の
形態１にかかる音声認識装置の構成図である。図１にお
いて、１は音声を入力し電気的な音声信号に変換する音
声入力部、２は音声入力部１で得られた音声信号から所
定時間間隔毎に音響分析の単位時間の標本信号を抽出し
この標本信号の音響的特性を分析して特徴パラメータを
算出する音声分析部、３は音声分析の最小の基本単位と
なる標準音素モデルを標準音素辞書として格納する標準
音素辞書格納部、４は音声分析部２で算出された特徴パ
ラメータを基に各フレームと前記標準音素モデルとの類
似度を算出するフレーム類似度算出部、５は複数の認識
語句辞書を格納する認識語句辞書格納部、５ａ、５ｂ、
５ｃ、５ｄは音声信号に含まれる単語や連続文章として
認識されるべき語句の発声に関する情報を収録した認識
語句辞書、６は認識語句辞書格納部５に格納された複数
の認識語句辞書のうち、音声認識処理に使用する認識語
句辞書を選択する認識語句辞書選択部、７は複数の継続
時間辞書を格納する継続時間辞書格納部、７ａ、７ｂは
認識語句を構成する各音素の継続時間を音素継続時間情
報として収録する継続時間辞書、８は継続辞書格納部７
に格納された複数の継続時間辞書のうち語句類似度算出
で使用する継続時間辞書を選択する継続時間辞書選択
部、９はフレーム類似度算出部４の出力であるフレーム
類似度を基に、認識語句辞書及び継続時間辞書を参照
し、入力された音声信号と認識語句辞書に含まれる全語
句との語句類似度を算出する語句類似度算出部、１０は
最も語句類似度の高い認識語句を認識結果として出力す
る認識結果出力部である。

【００２２】本音声認識装置は、自動電話予約システム
などの入力手段として適用される。システムを利用する
ユーザである話者は、システムからのガイダンスに従い
「氏名」「住所」等の複数の項目を音声で入力する。音
声認識装置は、各項目毎に予め想定されている認識され
るべき語句の中から、入力された音声が最も類似する語
句を特定し認識結果として出力する。システムは認識結
果を基に予約情報を収集する。

【００２３】以下、前記のように構成される本実施の形
態１の音声認識装置の動作を図面にしたがって説明す
る。まず、音声入力部１は、音声認識を行うべき話者の
音声を入力してこれを電気的な音声信号に変換する。

【００２４】次に、音声分析部２は所定の時間間隔毎に
標本信号を抽出する。図２は、音声分析部２の標本信号
抽出の様子を示す説明図である。標本抽出を行う時間間
隔は、音響分析の最小単位となる音素を検出するのに十
分に短い時間に設定される。以下では、この標本信号を
「フレーム」とする。続けて音声分析部２は、抽出され
たフレームについて数種の音響的な分析を行い、複数の
音響分析結果を要素とする特徴パラメータとして抽出す
る。抽出される特徴パラメータの要素としては、例えば
メルケプストラム係数及びその動的特徴量やフレーム内
のパワーの動的特徴量などを使用する。

【００２５】特徴パラメータはベクトルy(t)として式１
のように表わされる。

【数１】ここで、Ｎ_dimは特徴パラメータの要素の数を表す。

【００２６】音声信号は連続的に入力されるが、フレー
ムは離散的に抽出されるので、フレームの特徴パラメー
タは離散時間で得られる時系列的データとなる。ここで
ｔ（＝１〜Ｔ）は、フレーム抽出の順序を示すフレーム
番号とする。

【００２７】一方、標準音素辞書格納部３には、音声分
析の最小の基本単位となる標準音素モデルが標準音素辞
書として格納されている。標準音素モデルを規定する特
徴パラメータの要素は、音声分析部２においてフレーム
の音響分析により抽出される特徴パラメータと対応付け
られており、例えばメルケプストラム係数及びその動的
特徴量やフレーム内のパワーの動的特徴量などが選択さ
れている。

【００２８】標準音素辞書格納部３に格納されている標
準音素辞書は、予め準備した多数の学習用の音声信号に
ついて音響分析を行うことにより作成される。複数の学
習用音声信号を音響分析することにより、各音素の特徴
パラメータの各要素の値は、平均値と分散をもった任意
の分布として得られる。

【００２９】任意の学習用信号に含まれる音素／ｐ／の
音響分析結果ｍ(p)は、下記の式２のように表わされ
る。

【数２】ここで、μ_k(p)及びσ_k(p)は、音素／ｐ／の特徴パラメ
ータの第ｋ番目の要素の平均値及び分散とし、ｋ（＝１
〜Ｎ_dim）は特徴パラメータの要素を特定する値とす
る。

【００３０】実際の標準音素辞書に収録される音素モデ
ルは、音声認識の精度向上を目的として、学習用音声信
号の内容を変えて複数の分析結果ｍ_n(p)を得た後に、こ
れらを重み付け合成して特徴パラメータの混合分布の形
で表わすことが一般的に行われている。この場合、標準
音素辞書に収録される音素／ｐ／の標準モデルＭ(p)
は、下記の式３のように表わされる。

【００３１】

【数３】

【００３２】ここで、ｍ_n(p)は重み付け合成される学習
用信号の音響分析結果、λ_n(p)はｍ _n(p)の重み係数、μ
_nk(p)及びσ_nk(p)は合成される学習用信号の音響分析結
果の平均値及び分散を表わし、ｎ（＝１〜Ｎ_mix）は重
み付け合成される学習用信号の音響分析結果を特定する
値とする。

【００３３】次に、フレーム類似度算出部４は、音声分
析部２で得られたフレームの特徴パラメータと、標準音
素辞書として収録された標準音素モデルとの音素歪み距
離を算出する。第ｔ番目のフレームにおける音声信号の
特徴パラメータy(t)の、音素／ｐ／の標準モデルＭ(p)
との音素歪み距離ｄｆ(t,p)は下記の式４により算出さ
れる。

【００３４】

【数４】ここでｂ_n (t,p)は、第ｔ番目のフレームにおける音声
信号の特徴パラメータy(t)と音素／ｐ／の標準モデルＭ
(p)を規定するの第ｎ番目の音響分析結果の分布との音
素歪み距離を表す。

【００３５】フレーム類似度算出部４は、音素歪み距離
を算出する対象となる標準音素モデルを順次替えなが
ら、入力された音声信号の特徴パラメータy(t)と、標準
音素辞書格納部３に収録された全標準音素モデルとの音
素歪み距離を算出し、これらを特徴パラメータy(t)のフ
レーム類似度として出力する。

【００３６】一方、認識語句辞書格納部５には、本音声
認識装置が適用されるシステムのアプリケーションに応
じて複数の認識語句辞書が格納されている。本実施の形
態１では、「氏名」の認識語句辞書５ａと、「住所」の
認識語句辞書５ｂと、「電話番号」の認識語句辞書５ｃ
と、「購入品目」の語句認識辞書５ｄが認識語句辞書格
納部５に格納されている。

【００３７】認識語句辞書選択部６は、認識語句辞書格
納部５に格納された複数の認識語句辞書から、語句類似
度の算出に使用すべき認識語句辞書を切り替えて選択す
る。例えば、音声認識装置が適用されたシステムにおい
て、話者に「住所」の入力が要求される場面では、認識
語句辞書選択部６は、認識語句辞書５ｂを語句類似度算
出に用いる辞書として選択する。

【００３８】各認識語句辞書には、認識語句の認識語句
音素情報cat(WORD)が収録されている。例えば、住所の
認識語句として地名「八戸」がある場合には、住所の認
識語句辞書５ｂには下記の式５に示す認識語句音素情報
が収録される。

【００３９】

【数５】

【００４０】以下では、音素継続時間情報に含まれる各
音素の表記として音素ラベルLabel(WORD,i)を使用す
る。i（＝１〜Ｎ_l(WORD)）は音素ラベルを特定する変数
とし、その最大値Ｎ_l(WORD)は認識語句を構成する音素
の数となる。例えば、認識語句「八戸」の場合には、La
bel(八戸,1)は最初の音素／ｈ／を表わし、Label(八戸,
8)は最後の音素／ｅ／を表わす。この場合Ｎ_l(八戸)＝
８となる。

【００４１】また、継続時間辞書格納部７には、各認識
語句を構成する各音素の継続時間の組み合わせによって
記述されたデータである音素継続時間情報が、継続時間
辞書として格納されている。

【００４２】音素継続時間情報は以下の方法により作成
される。まず、音素継続時間学習用の音声信号を多数用
意し、これらの音声信号について前述の方法によりフレ
ーム抽出、音声分析、フレーム類似度算出を行う。次
に、算出された各フレームのフレーム類似度について、
ビタビアルゴリズムによる標準音素モデルとの対応付け
を行って、各フレームが最も類似する標準音素モデルを
特定する。これにより特定された標準音素モデルの列か
ら、音声信号に含まれる認識語句を構成する各音素の継
続時間を連続するフレームの数で特定する。継続時間学
習用の音声信号は多数あるので、一つの語句を構成する
各音素の継続時間は平均値と分散によって規定される分
布をもった値として得られる。以上の方法により、各音
素の継続時間を繰り返し求め、一つの認識語句を構成す
る全音素の継続時間が特定されたら、これをその認識語
句に関する音素継続時間情報として継続時間辞書に収録
する。

【００４３】例えば、認識語句である地名「八戸」に
対応する音素継続時間情報dicd(八戸)は、下記式６の通
りに表わされる。

【００４４】

【数６】

【００４５】ここで、Ｄ(Label(WORD,i))はLabel(WORD,
i)の継続時間に関する情報であり、ｄｍ(Label(WORD,
i))は認識語句を構成するLabel(WORD,i)の平均継続時
間、ｄｖ(Label(WORD,i))はLabel(WORD,i)の継続時間の
分散を表わす。

【００４６】前記の継続時間辞書の学習には、認識語句
辞書５ａ〜５ｄに収録された認識語句を発声した場合の
音声信号を用いる。しかし、同一の認識語句であって
も、例えば、認識語句を単語として発声した場合には、
話者の発声速度は低速となって各音素の継続時間は長く
なる傾向があり、認識語句を連続する文章の一部として
発声した場合となって話者の発声速度は高速となり、各
音素の継続時間は短くなる傾向がある。したがって、単
語が発声された場合と連続文章が発声された場合とで
は、得られる各音素の継続時間は異なった分布をもつこ
とになる。

【００４７】そこで、本実施の形態１の音声認識装置で
は、認識語句が単語として発声された場合の音声信号を
基に作成された継続時間辞書７ａと、認識語句が連続文
章の一部として発声された場合の音声信号を基に作成さ
れた継続時間辞書７ｂとを継続時間辞書格納部７に格納
する。例えば、認識語句「八戸」に対応する音素継続時
間情報は、単語発声の音声信号によって学習した音素継
続時間情報dicd_a(八戸)と連続文章発声の音声信号によ
って学習した音素継続時間情報dicd_b(八戸)が得られ、
これらはそれぞれ継続時間辞書７ａと、継続時間辞書７
ｂとに収録される。

【００４８】継続時間辞書選択部８は、認識語句辞書選
択部６からの指示により、継続時間辞書格納部７に格納
された複数の継続時間辞書７ａ、７ｂのうち、語句類似
度の算出に使用すべき継続時間辞書を切り替えて選択す
る。以下で、継続時間辞書選択の方法を説明する。

【００４９】認識語句辞書選択部６には、語句類似度算
出に使用する認識語句辞書と継続時間辞書の対応付けに
関する情報が保存されている。図３は、認識語句辞書選
択部６が保有している認識語句辞書と継続時間辞書との
対応付けを示した表である。認識語句辞書選択部６は、
前述の通り語句類似度算出に使用する認識語句辞書を選
択するが、この際、辞書間の関連付けに関する表を参照
し、選択された認識語句辞書に対応する継続時間辞書を
特定する。

【００５０】例えば、話者に「氏名」の入力が要求され
る場面では、認識語句辞書選択部６は認識語句辞書５ａ
を選択するが、この際に図３に示す辞書間の関連付けに
関する表を参照し「氏名」の認識語句辞書５ａに対応し
た単語発声の継続時間辞書７ａを特定する。継続時間辞
書選択部８は、認識語句辞書選択部６の特定結果に基づ
いて、継続時間辞書格納部７に格納された複数の継続時
間辞書の中から、語句類似度算出で使用する継続時間辞
書７ａの選択を行う。なお以下では、認識言語辞書５ａ
及び継続時間辞書７ａが選択された場合の音声認識装置
の動作について説明する。

【００５１】次に、語句類似度算出部９は、入力された
音声信号について認識語句との語句類似度を算出する。
以下で、語句類似度算出の方法を説明する。

【００５２】まず、選択された認識語句辞書５ａに収録
された全認識語句の中から、語句類似度を算出する任意
の認識語句音素情報cat(WORD)を選択する。次に、選択
された継続時間辞書７ａを参照し、認識語句音素情報ca
t(WORD)に対応した音素継続時間情報dicd_a(WORD)を特定
する。

【００５３】次に、例えば、日本音響学会講演論文集、
３−５−４、１９９１／１０、ｐ．９７−９８「混合分
布ＨＭＭを用いた不特定話者連続音声認識のための演算
量削減法」に示される方法により、入力された音声信号
の各フレームと、認識語句辞書５ａに収録された認識語
句音素情報cat(WORD)を構成する音素ラベルLabel(WORD,
i)との対応付けを行う。各フレームと音素ラベルとの対
応付けの様子を、前述の図２を用いて説明する。

【００５４】図２において、Ｓ(i)及びＥ(i)は、第i番
目の音素ラベルLabel(WORD,i)に対応付けられた音声信
号の始端のフレーム番号と終端のフレーム番号を表わ
す。ここで、Ｓ(i)及びＥ(i)は、入力された音声信号と
選択された認識語句との語句類似度Dist(WORD)が最小と
なるように決定される。語句類似度Dist(WORD)は、下記
の式７により算出される。

【００５５】

【数７】ただし、Ｓ(1)＝１、Ｅ(i)＝Ｓ(i-1)、Ｅ(WORD,Ｎ_l(WOR
D))＝Ｔ

【００５６】式７において、ｄｆ(t,Label(WORD,i))
は、第ｔ番目のフレームにおける音声信号の特徴パラメ
ータy(t)と、音素ラベルLabel(WORD,i)の標準音素モデ
ルＭ(Label(WORD,i))との音素歪み距離であり、これは
前述の式４によって得られる。

【００５７】また、ｄｕｒ(E(i)-S(i),Label(WORD,i))
は、音素ラベルLabel(WORD,i)に対応付けられたフレー
ムの継続時間がＥ(i)−Ｓ(i)である場合の継続時間歪み
距離である。継続時間歪み距離ｄｕｒ(ｔ_cont,Label(WO
RD,i))は、認識語句の音素継続時間情報dicd_a(WORD)を
規準として、下記式８により算出される。

【００５８】

【数８】ただし、ｔ_contは音素ラベルLabel(WORD,i)に対応付け
られたフレームの継続時間、αは任意の定数である。

【００５９】語句類似度算出部９は、認識語句を順次替
えながら上記の演算処理を繰り返し行って、認識語句辞
書５ａに収録された全認識語句について語句類似度を算
出する。最後に、認識結果出力部１０は、語句類似度算
出を行った全認識語句のうち、最も語句類似度の高い認
識語句を特定し、これを認識結果として出力する。

【００６０】このような構成とすることで、本実施の形
態１の音声認識装置は、話者の発声速度や発声リズム
が、入力される語句の量やその前後関係などの影響を受
けて変化する場合であっても、算出される語句類似度が
不当な値となることを防ぐことができる。その結果、音
声認識装置の音声認識の精度を高めることができる。

【００６１】なお、本実施の形態１では、単語発声時と
連続文章発声時の発声速度や発生リズムの相違に注目し
て、単語を発声した場合の継続時間辞書７ａと連続文章
を発声した場合の継続時間辞書７ｂとを用いたが、これ
は、認識語句の発声速度や発生リズムの異なるものであ
れば別の継続時間の場合分けであってもよい。例えば、
方言の影響による発声速度や発生リズムの相違に注目
し、西日本出身話者用の継続時間辞書と東日本出身話者
用の継続時間辞書とを入力話者の出身地に応じて切り替
えて使用したり、また、世代の影響による発声速度や発
生リズムの相違に注目し、幼年者用、成年者用、壮年者
用といったような複数の継続時間辞書を切り替えて使用
することも可能である。

【００６２】実施の形態２．本実施の形態２において
は、継続時間辞書は、連続した複数の音素ラベルの継続
時間に関する情報を音素継続時間情報として収録し、こ
れを語句類似度の算出に使用する。

【００６３】本実施の形態２の音声認識装置は、前述の
図１に示した音声認識装置とは継続時間辞書及び語句類
似度算出部が異なるものであり、その他の構成は同様で
あるから、同一の符号を付して説明を省略する。７ａは
単語発声時の場合の連続した複数の音素ラベルの継続時
間に関する情報を音素継続時間情報として収録した継続
時間辞書、７ｂは連続文章発声時の場合の連続した複数
の音素ラベルの継続時間に関する情報を音素継続時間情
報として収録した継続時間辞書、９は連続した複数の音
素ラベルの継続時間に関する音素継続時間情報を基に語
句類似度を算出する語句類似度算出部である。また、本
実施の形態２における音声認識装置の全体の処理フロー
は実施の形態１の処理フローと同じであるため、以下で
は語句類似度算出処理について説明する。

【００６４】本実施の形態２の継続時間辞書には、認識
語句を構成する連続した複数の音素ラベルである音節の
継続時間に関する情報が収録される。この情報を、以下
では「音節継続時間情報」と呼ぶ。また、音節継続時間
情報に含まれる各音節の表記として、音節ラベルLabel
_syl(WORD,j)を使用する。ｊ（＝１〜Ｎ_syl(WORD)）は音
節ラベルを特定する変数とし、Ｎ_syl(WORD)は認識語句
を構成する音節の数となる。

【００６５】例えば、認識語句「八戸」の場合には、La
bel_syl(八戸,1)は最初の音節／ｈ-a／を表わし、Label
_syl(八戸,2)は２番目の音節／ch-i／を表わし、Label
_syl(八戸,3)は３番目の音節／n-o／を表わし、Label_syl
(八戸,4)は最後の音素／h-e／を表わす。この場合Ｎ_syl
(八戸)＝４となる。

【００６６】この場合、音節継続時間情報dicd_syl(八
戸)は下記式９の通りに表わされる。

【００６７】

【数９】

【００６８】ここで、Ｄ_syl(Label_syl(WORD,i))は音節
ラベルLabel_syl(WORD,i)の継続時間に関する情報であ
り、ｄｍ_syl(Label_syl(WORD,i))及びｄｖ(Label_syl(WOR
D,i))は音節ラベルLabel_syl(WORD,i)の継続時間の平均
及び分散を表わす。

【００６９】本実施の形態２における継続時間辞書格納
部７は、単語発声の場合の音節継続時間情報dicd
_{syl_a}(WORD)を収録した継続時間辞書７ａと、連続文章
発声時を発声した場合の音節継続時間情報dicd_{syl_b}(WO
RD)を収録した継続時間辞書７ｂとを格納する。継続時
間辞書選択部８は、音声認識装置が適用されたシステム
において、話者に要求される入力語句の内容に応じて、
語句類似度算出に使用する継続時間辞書を切り替えて選
択する。例えば、話者に「氏名」の入力が要求される場
面では、認識語句辞書選択部６及び継続時間辞書選択部
８は、「氏名」に関する認識語句辞書５ａ及び単語発声
に関する継続時間辞書７ａを語句類似度算出に用いる辞
書として選択する。以下では、認識語句辞書５ａ及び単
語発声の継続時間辞書７ａが選択された場合について説
明する。

【００７０】語句類似度算出部９は、語句類似度を算出
する任意の認識語句音素情報cat(WORD)とこの認識語句
に対応した音節継続時間情報dicd_{syl_a}(WORD)を特定す
る。次に、入力された音声信号の各フレームと、認識語
句辞書５ａに収録された音節継続時間情報dicd_{syl_a}(WO
RD)を構成する音節ラベルLabel(WORD,i)との対応付けを
行う。第ｊ番目の音節ラベルLabel_syl(WORD,ｊ)に対応
付けられた音声信号の始端のフレーム番号Ｓ_syl(i)と終
端のフレーム番号Ｅ_syl(i)は、前述の実施の形態１で示
した方法により、入力された音声信号と選択された認識
語句との語句類似度Dist_syl(WORD)が最小となるように
決定される。語句類似度Dist_syl(WORD)は、下記の式１
０により算出される。

【００７１】

【数１０】

【００７２】式１０において、ｄｆ(t,Label(WORD,i))
は、前述の式４によって算出される音素歪み距離であ
る。また、ｄｕｒ(E_syl(j)-S_syl(j),Label_syl(WORD,j))
は、音節ラベルLabel_syl(WORD,j)に対応付けられたフレ
ームの継続時間がＥ_syl(j)-Ｓ_s _yl(j)である場合の継続
時間歪み距離であり、前述の式８により算出される。本
実施の形態２では、継続時間歪み距離は、音節継続時間
情報dicd_{syl_a}(WORD)を構成する音節ラベルLabel_syl(WO
RD,j)を単位として逐次計算される。

【００７３】語句類似度算出部９は、認識語句を順次替
えながら上記の演算処理を繰り返し行って、認識語句辞
書５ａに収録された全認識語句について語句類似度を算
出する。最後に、認識結果出力部１０は、語句類似度算
出を行った全認識語句のうち、最も語句類似度の高い認
識語句を特定し、これを認識結果として出力する。

【００７４】このような構成とすることで、実施の形態
２の音声認識装置は、話者の発声速度や発声リズムが入
力する語句に応じて変化する場合であっても、算出され
る語句類似度が不当に低い値となることを防止し、音声
認識装置の音声認識率を高めることができる。また、継
続時間歪みの計算を音節を単位として行うため、語句類
似度算出に要する演算処理量が低減され、音声認識に要
する処理時間を短縮する効果が期待できる。

【００７５】なお、実施の形態１ないし２の音声認識装
置は、複数の認識語句辞書を用意し、該音声認識装置が
適用されるシステムにおけるアプリケーション中の場面
に応じて、語句類似度算出に使用する認識語句辞書を切
り替えて選択するものであるが、本発明の効果を得るた
めには、必ずしも複数の認識語句辞書を用意する必要は
なく、認識語句辞書が一つしかない場合であっても本発
明の効果を得ることが可能である。

【００７６】また、実施の形態１ないし２の音声認識装
置は、認識されるべき語句の発声速度や発生リズムの異
なる音声信号について作成された複数の認識語句辞書の
中から一の継続時間辞書を選択して語句類似度算出に使
用するものである。しかしながら、語句類似度算出に先
だって必ずしも一の継続時間辞書を選択する必要はな
く、用意した全ての継続時間辞書について語句類似度算
出を行って、その中から最も語句類似度の高い認識語句
を特定するような構成であっても本発明の効果を得るこ
とが可能である。

【００７７】

【発明の効果】以上のように、本発明によれば、話者の
発声速度又は発声リズムの相違に着目して複数の継続時
間辞書を継続時間辞書格納部に格納し、認識語句辞書の
切り替えにあわせて、その認識語句辞書に対応する継続
時間辞書を切り替えて選択し、語句類似度を算出する構
成としたことにより、音声を入力する話者の発声速度又
は発声リズムが、入力する語句の量やその前後関係など
の影響を受けて変化することが予想される場合であって
も、算出される語句類似度が不当な値とならず、音声認
識の精度を高めることが可能である。

【００７８】また、継続時間辞書として、単語発声時に
ついて作成した継続時間辞書と連続文章発声時について
作成した継続時間辞書とを継続時間辞書格納部に格納
し、話者が語句を単語として入力することが予想される
認識語句辞書が選択された場合には、これに対応して単
語発生時の継続時間辞書を選択し、話者が語句を連続文
章として入力することが予想される認識語句辞書が選択
された場合には、これに対応して連続文章発声時の継続
時間辞書を選択した上で、語句類似度を算出する構成と
したことにより、話者が単語発声で語句を入力する場合
であっても、連続文章発声で語句を入力する場合であっ
ても、音声認識の精度を低下させない音声認識装置を得
ることができる。

【図面の簡単な説明】

【図１】本発明にかかる音声認識装置の実施の形態１
の構成図である。

【図２】本発明の実施の形態１の音声認識装置のフレ
ーム抽出及び音素ラベルとの対応付けの概要を示した説
明図である。

【図３】本発明の実施の形態１の認識語句辞書と継続
時間辞書との対応付けを示した説明図である。

【図４】従来の音声認識装置を示した構成図である。

【図５】従来の音声認識装置における認識語句音素情
報と音素継続時間情報の記述例をしめした説明図であ
る。

【符号の説明】

１音声入力部２音声分析部３標準音素辞書格納部４フレーム類似度算出部５認識語句辞書格納部５ａ、５ｂ、５ｃ、５ｄ認識語句辞書６、１１認識語句辞書選択部７、１２継続時間辞書格納部７ａ、７ｂ継続時間辞書８継続時間辞書選択部９語句類似度算出部１０認識結果出力部

Claims

【特許請求の範囲】

【請求項１】音声を入力しこれを電気的な音声信号に
変換する音声入力手段と、前記音声信号の音響分析の単位となる所定時間長の標本
信号を抽出し、その音響的特性を分析する音声分析手段
と、標本信号の音響的特性と標準音素辞書に収録された音素
の標準的なモデルとの類似度を算出するフレーム類似度
算出手段と、音声認識で認識されるべきの語句の音素の組み合わせに
関する情報を収録した認識語句辞書と、前記認識語句辞書に収録された語句について、発声速度
又は発生リズムの異なる音声信号に基づき作成された音
素の継続時間に関する情報を収録した複数の継続時間辞
書と、前記音声分析手段の出力である音素の標準的なモデルと
の類似度から、前記認識語句辞書と前記継続時間辞書と
を参照し、入力音声を認識する語句認識手段と、を備え
たことを特徴とする音声認識装置。
【請求項２】複数の継続時間辞書は、話者が単語を発声した場合の音声信号について作成され
た継続時間辞書と、話者が連続文章を発声した場合の音声信号について作成
された継続時間辞書と、を備えたことを特徴とする請求
項１に記載の音声認識装置。