JPH11311994A

JPH11311994A - 情報処理装置および方法、並びに提供媒体

Info

Publication number: JPH11311994A
Application number: JP10120542A
Authority: JP
Inventors: Masanori Omote; 雅則表; Naoto Iwahashi; 直人岩橋
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1998-04-30
Filing date: 1998-04-30
Publication date: 1999-11-09

Abstract

(57)【要約】【課題】認識率をより向上させる。【解決手段】特徴抽出部１２は、マイク１１を介して
入力された音声信号から特徴ベクトルを抽出し、照合部
１６に出力する。照合部１６は、音韻モデル記憶部１３
の音韻モデル、辞書記憶部１４の辞書、文法記憶部１５
の文法を参照して、少なくとも１つ以上の認識結果候補
を生成し、ワードグラフとして認識結果記憶部１７に記
憶させる。正規化継続時間計算部１８は、認識結果候補
を構成している個々の単語の継続時間長と、各単語の継
続時間長の合計との比を表す正規化継続時間長を算出
し、ワードグラフの対応するアーク情報に付加する。認
識結果制御部２０は、認識結果候補を構成する数字の正
規化継続時間長と、継続時間閾値記憶部１９に記憶され
てる閾値を比較し、比較結果に対応して、認識結果候補
の受理または棄却を制御する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、情報処理装置およ
び方法、並びに提供媒体に関し、特に、入力された音声
信号の認識結果候補を構成する単語の正規化継続時間長
に基づいて、認識結果候補の受理または棄却を制御する
ことにより、認識率をより向上するようにした、情報処
理装置および方法、並びに提供媒体に関する。

【０００２】

【従来の技術】図１８は、従来の音声認識装置の構成例
を示すブロック図を示している。この例においては、ユ
ーザが発話した音声は、例えばマイク等の入力部１０２
に入力され、特徴抽出部１０３に供給される。特徴抽出
部１０３は、入力部１０２より入力された音声信号をＡ
／Ｄ変換するとともに、Ａ／Ｄ変換された音声信号から
特徴量（特徴ベクトル）を抽出し、照合部１０４に出力
する。照合部１０４は、辞書記憶部１０６に記憶されて
る辞書（文法辞書）に従って、音響モデルを組み合わせ
ながら、特徴抽出部１０３で抽出された特徴量との照合
を行うようになされている。照合の結果（認識結果）
は、結果提示部１０７に供給され、結果提示部１０７
は、例えば、モニタ等の表示装置に結果を表示したり、
または、音声を用いて結果をユーザに提示するようにな
されている。

【０００３】このような従来の音声認識装置において
は、音韻を単位とする隠れマルコフモデル（ＨＭＭ（Hi
dden Markov Model））法に従って、状態遷移確率およ
びシンボル出力確率を用いて照合が行われる。また、そ
の他の照合の方式としては、状態継続時間を考慮するた
めに、状態継続確率を導入して計算する方式が知られて
いる。この方式では、単語の継続時間長を考慮した単位
が音韻モデルの状態とされることになる。この方式の一
例は、例えば、特開平８−２４８９８３号に開示されて
いる。このように、発話の継続時間長を考慮する認識方
式は、継続時間制御と称する。

【０００４】入力音声として数字（数字列）を対称とす
る数字列音声認識は、例えば電話番号の認識などに用い
られている。電話番号の認識では、数字を単位とする音
響モデル（例えば、数字の１の場合、／ｉｃｈｉ／）を
用いたり、数字を単位とする場合より小さい単位の音響
モデル（例えば、数字の１の場合、／ｉ／と／ｃｈｉ
／）を接続することにより数字を構成する認識方式が広
く採用されている。これらの方法において、発話の継続
時間長の制御は一般には用いられていないが、継続時間
長制御を用いる場合、認識時に参照する継続時間長デー
タベースは、絶対時間を示す固定値が用いられる。

【０００５】

【発明が解決しようとする課題】しかしながら、継続時
間長を固定値としている数字列音声認識装置において
は、話者が早く発話したり遅く発話したりすると、認識
の精度が低下してしまう課題があった。

【０００６】そこで、発話速度に対応して、設定されて
いる継続時間長の値を更新することも考えられるが、こ
の分の処理が必要となる課題があった。

【０００７】本発明はこのような状況に鑑みてなされた
ものであり、入力された音声信号の認識結果候補を構成
する単語の正規化継続時間長をそれぞれ算出し、その正
規化継続時間長に基づいて認識結果候補の受理または棄
却を制御することにより、より高精度な認識を行うこと
ができるようにするものである。

【０００８】

【課題を解決するための手段】請求項１に記載の情報処
理装置は、音声信号を入力する入力手段と、入力手段に
より入力された音声信号を認識し、少なくとも１つ以上
の認識結果候補を生成する生成手段と、生成手段により
生成された認識結果候補を構成している個々の単語の継
続時間長と、各単語の継続時間長の合計との比を表す正
規化継続時間長を算出する算出手段と、算出手段により
算出された正規化継続時間長に基づいて、認識結果候補
の受理または棄却を制御する制御手段とを備えることを
特徴とする。

【０００９】請求項４に記載の情報処理方法は、音声信
号を入力する入力ステップと、入力ステップで入力され
た音声信号を認識し、少なくとも１つ以上の認識結果候
補を生成する生成ステップと、生成ステップで生成され
た認識結果候補を構成している個々の単語の継続時間長
と、各単語の継続時間長の合計との比を表す正規化継続
時間長を算出する算出ステップと、算出ステップで算出
された正規化継続時間長に基づいて、認識結果候補の受
理または棄却を制御する制御ステップとを含むことを特
徴とする。

【００１０】請求項５に記載の提供媒体は、音声信号を
入力する入力ステップと、入力ステップで入力された音
声信号を認識し、少なくとも１つ以上の認識結果候補を
生成する生成ステップと、生成ステップで生成された認
識結果候補を構成している個々の単語の継続時間長と、
各単語の継続時間長の合計との比を表す正規化継続時間
長を算出する算出ステップと、算出ステップで算出され
た正規化継続時間長に基づいて、認識結果候補の受理ま
たは棄却を制御する制御ステップとを含む処理を情報処
理装置に実行させるコンピュータが読み取り可能なプロ
グラムを提供することを特徴とする。

【００１１】請求項１に記載の情報処理装置、請求項４
に記載の情報処理方法、および請求項５に記載の提供媒
体においては、入力された音声信号から少なくとも１つ
以上の認識結果候補が生成され、認識結果候補を構成し
ている個々の単語の継続時間長と、各単語の継続時間長
の合計との比を表す正規化継続時間長が算出され、算出
された正規化継続時間長に基づいて、認識結果候補の受
理または棄却が制御される。

【００１２】

【発明の実施の形態】以下に本発明の実施の形態を説明
するが、特許請求の範囲に記載の発明の各手段と以下の
実施の形態との対応関係を明らかにするために、各手段
の後の括弧内に、対応する実施の形態（但し一例）を付
加して本発明の特徴を記述すると、次のようになる。但
し勿論この記載は、各手段を記載したものに限定するこ
とを意味するものではない。

【００１３】請求項１に記載の情報処理装置は、音声信
号を入力する入力手段（例えば、図１のマイク１１）
と、入力手段により入力された音声信号を認識し、少な
くとも１つ以上の認識結果候補を生成する生成手段（例
えば、図１の照合部１６）と、生成手段により生成され
た認識結果候補を構成している個々の単語の継続時間長
と、各単語の継続時間長の合計との比を表す正規化継続
時間長を算出する算出手段（例えば、図１の正規化継続
時間計算部１８）と、算出手段により算出された正規化
継続時間長に基づいて、認識結果候補の受理または棄却
を制御する制御手段（例えば、図１の認識結果制御部２
０）とを備えることを特徴とする。

【００１４】請求項３に記載の情報処理装置は、０乃至
９までの数字のそれぞれの正規化継続時間の閾値を記憶
する記憶手段（例えば、図１の継続時間閾値記憶部１
９）をさらに備え、制御手段は、認識結果候補を構成す
る数字の正規化継続時間と、記憶手段により記憶された
閾値を比較することにより、認識結果候補の受理または
棄却を制御することを特徴とする。

【００１５】図１は、本発明の情報処理装置を適用し
た、音声認識装置の一実施の形態の構成例を示すブロッ
ク図である。この例において、マイク１１は、ユーザが
発話した音声を音声信号として特徴抽出部１２に入力す
る。特徴抽出部１２は、マイク１１より供給された音声
信号をＡ／Ｄ変換するとともに、Ａ／Ｄ変換された音声
信号から特徴ベクトルを抽出し、照合部１６に出力する
ようになされている。本実施の形態において、特徴抽出
部１２は、特徴抽出方法として３８次元のMFCC（Mel Fr
equency Cepstralm Coefficients）分析を行い、特徴ベ
クトルの時系列を10.67msec単位で構成（出力）するよ
うになされている。なお、MFCC分析の代わりに、LPC（L
inear Predictive Coding）分析や、所定のフィルタバ
ンクを用いて、特徴ベクトルを抽出するようにしてもよ
い。

【００１６】音韻モデル記憶部１３は、left to right
型ＨＭＭにより表現された音韻モデル（またはテンプレ
ート）を記憶している。辞書記憶部１４は、音モデル記
憶部１３に記憶されている音韻モデルを接続するための
単語辞書を記憶し、文法記憶部１５は、単語列の制約と
しての文法を記憶している。照合部１６は、特徴抽出部
１２より供給される特徴ベクトルの時系列に対して、音
韻モデル１３に記憶されている音韻モデル、辞書記憶部
１４に記憶されている単語辞書、および文法記憶部１５
に記憶されている文法に従って、音声認識を実行し、複
数の認識結果候補を、認識結果記憶部１７に出力するよ
うになされている。

【００１７】認識結果記憶部１７は、照合部１６より供
給された認識結果候補を一時的に記憶するようになされ
ている。正規化継続時間計算部１８は、認識結果記憶部
１７に記憶されている認識結果候補を構成する個々の単
語（本発明の実施の形態の場合、０乃至９までの数字）
の正規化継続時間（対応する数字の継続時間長と、発話
された数字列の合計の継続時間長（発話時間）の比）を
それぞれ算出するようになされている。

【００１８】継続時間閾値記憶部１９は、各数字の正規
化継続時間長に対応する閾値を記憶している（この点の
詳細については、図１５を参照して後述する）。認識結
果制御部２０は、認識結果記憶部１７に記憶されている
認識結果候補を構成する個々の単語の正規化継続時間長
と、継続時間閾値記憶部１９に記憶されている継続時間
長の閾値を順次比較し、認識結果候補の受理または棄却
を制御するようになされている。結果表示部２１は、認
識結果制御部２０により受理された最終結果を、例えば
モニタ等により構成される結果表示部２１に表示させる
ようになされている。

【００１９】次に、図２と図３のフローチャートを参照
して、その動作を説明する。まず、ステップＳ１におい
て、特徴抽出部１２は、マイク１１より供給された音声
信号から特徴ベクトル時系列を抽出し、照合部１６に出
力する。ステップＳ２において、照合部１６は、辞書記
憶部１４に記憶されている辞書および文法記憶部１５に
記憶されている文法に基づいて音韻モデル記憶部１３に
記憶されている音韻モデルを接続した候補モデル列と、
特徴抽出部１２より供給された特徴ベクトル時系列との
照合を行い、認識結果候補（以下、適宜、単に候補と称
する）を、複数の経路で表したワードグラフとして認識
結果記憶部１７に出力する。

【００２０】ステップＳ３において、認識結果記憶部１
７は、照合部１６より供給された候補（ワードグラフ）
を、各候補に含まれる数字の発話開始時刻および終了時
刻と、照合時のスコアと合わせて記憶する。なお、本実
施の形態においては、「C.H.Lee, F.K.Soong and K.K.
Paliwal "Automatic Speech and Speaker Recognition
Advance Topics", Kluwer Academic Publishers, pp.38
5-411, 1996」に開示されている方法に従って、ワード
グラフが作成される。

【００２１】図４は、ワードグラフの構成例を示してい
る。このワードグラフは、ノード情報と、アーク情報と
により構成されており、認識結果（いまの場合、所定の
数字）、その照合スコア、および、正規化継続時間計算
部１８により算出された正規化継続時間長がアーク情報
に対応付けれられて認識結果記憶部１７に記憶される。
照合スコアとしては、ワードに対応する部分のＨＭＭが
出力した確率値の対数が用いられている。そして、候補
（各経路）を構成する各数字のスコアの合計が、その候
補のスコアとなる。なお、本実施の形態においては、複
数の認識結果候補をワードグラフ形式で用いるようにし
たが、複数の認識結果候補を並列に記述するような構成
にしてもよい。

【００２２】続いて、ステップＳ４において、正規化継
続時間計算部１８は、認識結果記憶部１７に記憶された
認識結果候補の先頭からｉ番目の数字に対応する正規化
継続時間長を、以下の式に従って算出する。

【数１】

【００２３】式（１）において、Ｎは、認識結果候補に
含まれる数字の数、ｄ_iは、ｉ番目の数字の継続時間長
をそれぞれ示している。正規化継続時間計算部１８は、
認識結果候補を構成している個々の数字の正規化継続時
間長をそれぞれ算出し、認識結果記憶部１７に出力す
る。

【００２４】ステップＳ５に進み、認識結果記憶部１７
は、正規化継続時間計算部１８により算出された、個々
の数字の正規化継続時間を、ワードグラフの対応するア
ーク情報に付加して記憶する。なお、ワードグラフのア
ーク情報に、式（１）に従って算出された正規化継続時
間長を付加するようにしたが、継続時間長そのものを付
加するようにしても良い。

【００２５】ステップＳ６において、識別結果制御部２
０は、認識結果記憶部１７に記憶されているワードグラ
フの候補のうち、最もよい（高い）スコアの候補に注目
し、ステップＳ７において、注目している候補を構成し
ている個々の数字の正規化継続時間長と、継続時間閾値
記憶部１９に記憶されている正規化継続時間長の閾値と
をそれぞれ比較する。

【００２６】本発明の実施の形態においては、所定の数
字列データベースに登録されている数字０乃至９の正規
化継続時間長を算出し、算出された各数字の正規化継続
時間長に対応して、それぞれの数字の正規化継続時間長
の閾値が決定されている。

【００２７】図５乃至１４は、それぞれ、数字列データ
ベースの数字０乃至９に対応する正規化継続時間長の出
現頻度の分布を示している。各図において、横軸は正規
化継続時間長を示し、縦軸は出現頻度を示している。例
えば、図５の、数字０の場合の正規化継続時間長の出現
頻度の分布は、約０．７乃至１．５の範囲であることが
わかる。これに対応して、数字０の正規化継続時間長の
閾値（下限）は、０．７とされる。このようにして、図
５乃至１４に示されている各数字の正規化継続時間長の
分布に従って、各数字の正規化継続時間長の閾値をそれ
ぞれ定めると、図１５に示すようになる。そして、これ
らの閾値が、継続時間長閾値記憶部１９に記憶されてい
る。なお、これらの閾値を、話速に対応して動的に変更
するようにしてもよい。

【００２８】続いて、ステップＳ８において、ステップ
Ｓ７における比較の結果、候補を構成する各数字の正規
化継続時間が全て閾値以上であるか否かが判定され、候
補を構成する各数字のうち１つでも正規化継続時間が閾
値以下の数字が存在すると判定された場合、ステップＳ
９に進む。ステップＳ９で、識別結果記憶部１７に記憶
されているワードグラフに他の候補があるか否かが判定
され、他に候補がないと判定された場合、ステップＳ１
０に進み、認識結果が無いものとされ、終了される。

【００２９】ステップＳ９において、ワードグラフに他
の候補があると判定された場合、ステップＳ１１に進
み、次に良い（高い）スコアの候補が注目され、ステッ
プＳ７に戻り、以降の処理が実行される。ステップＳ８
において、候補を構成する各数字の正規化継続時間が全
て閾値以上であると判定された場合、ステップＳ１２に
進み、認識結果制御部２０は、その候補を最終結果とし
て、結果表示部２１に表示させる。

【００３０】このように、条件を満たす（それを構成す
る全ての数字の正規化継続時間長が閾値以上である）候
補が出るか、または、全ての候補が無くなるまで、ステ
ップＳ７乃至Ｓ１２までの処理が繰り返されることにな
る。

【００３１】図１６は、本発明の実施の形態において得
られた認識結果（認識率）例を示している。この例にお
いては、合計８人の話者が１乃至６桁の連続数字を発話
した場合のそれぞれの認識率を示しており、太い実線
は、８人の話者の認識率の平均を表している。同図の横
軸は、各数字に定めれられた正規化継続時間長の閾値を
１としたときの割合であり、この割合が０であるとき、
正規化継続時間長の制限がないことを示す（即ち、従来
の認識率を表す）。このときの認識率の違いを図１７に
示す。同図に示されている認識率の８話者平均を見る
と、従来の場合（８５．９４）と本発明を適用した場合
（９２．６５）を比較すると、本発明を適用した場合の
ほうが、認識率がより高く（＋６．７１）なることがわ
かる。

【００３２】なお、以上の実施の形態においては、数字
列を認識する場合を示したが、勿論、他の単語を認識す
る場合にも適用することができる。

【００３３】また、上記各種の処理を行うコンピュータ
プログラムをユーザに提供する提供媒体としては、磁気
ディスク、CD-ROM、固体メモリなどの記録媒体の他、ネ
ットワーク、衛星などの通信媒体を利用することができ
る。

【００３４】

【発明の効果】以上の如く、請求項１に記載の情報処理
装置、請求項４に記載の情報処理方法、および請求項５
に記載の提供媒体においては、入力された音声信号から
少なくとも１つ以上の認識結果候補を生成し、認識結果
候補を構成している個々の単語の継続時間長と、各単語
の継続時間長の合計との比を表す正規化継続時間長を算
出し、算出された正規化継続時間長に基づいて、認識結
果候補の受理または棄却を制御するようにしたので、例
えば、連続発話された数字列を認識する際に、認識率を
より向上させることができる。

【図面の簡単な説明】

【図１】本発明を適用した音声認識装置の一実施の形態
の構成例を示すブロック図である。

【図２】図１の音声認識装置の処理を説明するフローチ
ャートである。

【図３】図２に続くフローチャートである。

【図４】ワードグラフを説明する図である。

【図５】正規化継続時間長の分布例（０の場合）を示す
図である。

【図６】正規化継続時間長の分布例（１の場合）を示す
図である。

【図７】正規化継続時間長の分布例（２の場合）を示す
図である。

【図８】正規化継続時間長の分布例（３の場合）を示す
図である。

【図９】正規化継続時間長の分布例（４の場合）を示す
図である。

【図１０】正規化継続時間長の分布例（５の場合）を示
す図である。

【図１１】正規化継続時間長の分布例（６の場合）を示
す図である。

【図１２】正規化継続時間長の分布例（７の場合）を示
す図である。

【図１３】正規化継続時間長の分布例（８の場合）を示
す図である。

【図１４】正規化継続時間長の分布例（９の場合）を示
す図である。

【図１５】継続時間閾値記憶部に記憶されている閾値の
例を示す図である。

【図１６】認識率の例を示す図である。

【図１７】従来の場合と本発明を適用した場合の認識率
の比較を示す図である。

【図１８】従来の音声認識装置の構成例を示すブロック
図である。

【符号の説明】

１１マイク，１２特徴抽出部，１３音韻モデ
ル記憶部，１４辞書記憶部，１５文法記憶部，
１６照合部，１７認識結果記憶部，１８正規
化継続時間計算部，１９継続時間閾値記憶部，２
０認識結果制御部，結果表示部２１

Claims

【特許請求の範囲】

【請求項１】音声信号を入力する入力手段と、前記入力手段により入力された前記音声信号を認識し、
少なくとも１つ以上の認識結果候補を生成する生成手段
と、前記生成手段により生成された前記認識結果候補を構成
している個々の単語の継続時間長と前記各単語の継続時
間長の合計との比を表す正規化継続時間長を算出する算
出手段と、前記算出手段により算出された前記正規化継続時間長に
基づいて、前記認識結果候補の受理または棄却を制御す
る制御手段とを備えることを特徴とする情報処理装置。
【請求項２】前記音声信号は、連続発話された所定桁
数の数字列に対応する音声信号であり、前記単語は、０乃至９までのいずれかの数字であること
を特徴とする請求項１に記載の情報処理装置。
【請求項３】数字０乃至９のそれぞれに対応する正規
化継続時間長の閾値を記憶する記憶手段をさらに備え、前記制御手段は、前記認識結果候補を構成する数字の前
記正規化継続時間長と、前記記憶手段に記憶されてい
る、前記数字の正規化継続時間長に対応する閾値とを比
較し、比較結果に対応して前記認識結果候補の受理また
は棄却を制御することを特徴とする請求項２に記載の情
報処理装置。
【請求項４】音声信号を入力する入力ステップと、前記入力ステップで入力された前記音声信号を認識し、
少なくとも１つ以上の認識結果候補を生成する生成ステ
ップと、前記生成ステップで生成された前記認識結果候補を構成
している個々の単語の継続時間長と、前記各単語の継続
時間長の合計との比を表す正規化継続時間長を算出する
算出ステップと、前記算出ステップで算出された前記正規化継続時間長に
基づいて、前記認識結果候補の受理または棄却を制御す
る制御ステップとを含むことを特徴とする情報処理方
法。
【請求項５】音声信号を入力する入力ステップと、前記入力ステップで入力された前記音声信号を認識し、
少なくとも１つ以上の認識結果候補を生成する生成ステ
ップと、前記生成ステップで生成された前記認識結果候補を構成
している個々の単語の継続時間長と前記各単語の継続時
間長の合計の比を表す正規化継続時間長を算出する算出
ステップと、前記算出ステップで算出された前記正規化継続時間長に
基づいて、前記認識結果候補の受理または棄却を制御す
る制御ステップとを含む処理を情報処理装置に実行させ
るコンピュータが読み取り可能なプログラムを提供する
ことを特徴とする提供媒体。