JPH11153999A

JPH11153999A - 音声認識装置及びそれを用いた情報処理装置

Info

Publication number: JPH11153999A
Application number: JP9317919A
Authority: JP
Inventors: Kenji Yamamoto; 健司山本
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1997-11-19
Filing date: 1997-11-19
Publication date: 1999-06-08
Anticipated expiration: 2017-11-19
Also published as: US6122615A; JP3886024B2

Abstract

(57)【要約】【課題】一度誤って認識された音声の意味内容を、容
易に修正して認識することを可能とし、より広い範囲に
適用することが可能な音声認識装置及びそれを用いた情
報処理装置を提供すること。【解決手段】一定期間の音声データを記憶する波形デ
ータ記憶部１０３を設け、音声認識装置による認識結果
を利用する上位システム１０８からの要求に基づいて、
波形データ記憶部１０３に記憶されている音声データを
再評価することにより、一度誤って認識された音声デー
タを溯って評価しなおすことを可能とする。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識装置及び
それを用いた情報処理装置に関する。

【０００２】

【従来の技術】音声認識とは、音声波に含まれる情報の
中で最も基本的な意味内容に関する情報を、電子計算
機、電子回路などによって自動的に抽出し、決定する意
味内容に関する認識や、音声波に含まれる個人性情報を
抽出する話者認識をいう。

【０００３】音声を自動的に認識する装置については古
くから研究が行われているが、最近では、音声によって
機械と対話するための音声入力装置が実現され、今後の
進歩が期待されている。

【０００４】従来の音声認識装置の構成を図２２に示
す。同図に示された従来の音声認識装置は、音声入力部
２２０１、音声区間データ作成部２２０２、音声区間デ
ータ処理部２２０３、音声認識辞書格納部２２０４を備
えている。

【０００５】音声入力部２２０１としては、マイクロホ
ン等の入力装置が用いられる。音声区間データ作成部２
２０２は、音声入力部２２０１から入力された音声デー
タから音声区間の検出を行い音声区間データを作成す
る。音声区間の検出の詳細については後述する。

【０００６】音声区間データ処理部２２０３は、音声区
間データ作成部２２０２によって作成された音声区間デ
ータを分析し、その意味内容を認識する。従来の意味内
容の認識方法については、「ディジタル音声処理」（古
井貞煕著、東海大学出版会）に詳しく記載されてい
るが、一般には、音声認識用の辞書として、音声認識辞
書格納部２２０４に音素辞書と単語辞書とを備える。音
声認識においては、入力音声と標準パターンの短時間ス
ペクトル同士の距離又は類似度を認識の判断の基礎とし
て音声素片を認識し、認識された音声素片列を単語辞書
とマッチングすることによりその意味内容を認識する。

【０００７】

【発明が解決しようとする課題】しかしながら、上記従
来の音声認識装置においては、音声データの誤認識を修
正することが容易でないという問題点を有していた。

【０００８】即ち、人間が行う現実の音声認識では、最
初は正確に認識できなかった音声データを、その後の会
話内容等によって逐次修正して理解し、それに伴い行動
を修正するといったこともあるが、上記従来の音声認識
装置では、一度誤って認識された音声の意味内容を容易
に修正することができない。従って、例えば、音声によ
ってコマンドを入力するような装置において、音声デー
タの誤認識によって誤ったコマンドが入力されてしまっ
た場合等にその動作を修正することは難しく、音声認識
の適用範囲を狭くする原因となっていた。

【０００９】本発明は上記の問題点に鑑み、より広い範
囲に適用することが可能な音声認識装置及びそれを用い
た情報処理装置を提供することを目的とする。

【００１０】

【課題を解決するための手段】前記目的を達成するた
め、本発明の音声認識装置は、音声データを記憶する記
憶手段と、音声認識の結果を利用する上位システムから
の要求を受けて、前記記憶手段に記憶されている音声デ
ータを再評価する再評価手段とを備えることを特徴とす
る。

【００１１】ここで、前記音声認識装置は、音声データ
から音声区間データを切り出す音声区間データ作成手段
を備え、前記記憶手段は、前記音声区間データ作成手段
により作成された音声区間データを記憶することができ
る。

【００１２】また、前記記憶手段は、前記音声区間デー
タ作成手段により作成された音声区間データを複数セッ
ト記憶する複数のデータスロットを備えることが好まし
い。複数のデータスロットに音声データを格納しておく
と、前記再評価手段による再評価の処理効率を向上させ
ることができるからである。

【００１３】さらに、前記音声認識装置は、前記音声区
間データ作成手段を複数有し、前記記憶手段は、それぞ
れの音声区間データ作成手段ごとに、音声区間データを
複数セット記憶するデータスロットを備えることもでき
る。そのような構成としておくと、音声を入力する例え
ばマイクロホンが複数存在する場合でも、それぞれのマ
イクロホンから入力される音声データについて、それぞ
れ再評価を行うことが可能となる。

【００１４】また、前記音声認識装置はさらに、前記記
憶手段に記憶されている音声データから、音声パワーを
算出するパワー算出手段を備え、前記再評価手段は、前
記パワー算出手段により算出された音声パワーが所定の
範囲外である場合に、当該音声データを再評価しないよ
うにすることが好ましい。正常な音声認識ができないよ
うな音声データを、再評価の対象から除外することによ
り、音声認識の認識率をより向上させることが可能とな
るからである。

【００１５】また、前記音声認識装置はさらに、前記音
声データから話者の性別を判定する性別認識手段と、前
記性別認識手段による判定結果に基づき、音素認識に用
いる辞書を切り替える音素認識辞書切替手段とを備える
ことが好ましい。性別により音素認識辞書を切り替える
ことにより、さらに認識率を向上させることができるか
らである。

【００１６】また、前記音声認識装置はさらに、前記音
声データから話者の性別を判定する性別認識手段と、前
記性別認識手段による判定結果に基づき、単語認識に用
いる辞書を切り替える単語認識辞書切替手段とを備える
ことが好ましい。性別により通常用いる単語が異なるこ
とから、性別によって単語認識辞書を切り替えることに
より、さらに認識率を向上させることができるからであ
る。

【００１７】もちろん、前記性別認識手段による判定結
果に基づき、音素認識に用いる辞書を切り替える音素認
識辞書切替手段と、単語認識に用いる辞書を切り替える
単語認識辞書切替手段との双方を備えることも可能であ
る。

【００１８】また、前記音声認識装置はさらに、前記音
声データから話者を判定する話者認識手段を備えること
もできる。また、本発明の情報処理装置は、入力を受け
付ける入力受付手段を備える情報処理装置であって、前
記入力受付手段として請求項１から９のいずれかに記載
の音声認識装置を用いる。音声によりコマンドの入力を
行うことが可能な情報処理装置において、本発明の音声
認識装置を用いると、音声データの再評価を行うことに
より、音声データの誤認識を逐次修正しながら動作させ
ることが可能となり、無駄な処理を軽減することが可能
となる。

【００１９】また、前記音素認識辞書切替手段を有する
音声認識装置を用いる情報処理装置においては、前記音
素認識辞書切替手段により、音素認識辞書が切り替えら
れた際に、前記記憶手段に記憶されている音声データの
再評価を要求するようにすることが好ましい。音素認識
辞書が切り替えられることにより、一般的に認識率は向
上するが、その切替の機会に過去の音声データを再評価
することにより、音声データの誤認識が見つかることも
あるからである。

【００２０】また、前記単語認識辞書切替手段を有する
音声認識装置を用いる情報処理装置において、前記単語
認識辞書切替手段により、単語認識辞書が切り替えられ
た際に、前記記憶手段に記憶されている音声データの再
評価を要求するようにすることも好ましい。

【００２１】さらに、前記音素認識辞書切替手段と、前
記単語認識辞書切替手段との双方を有する音声認識装置
を用いる情報処理装置では、前記音素認識辞書切替手段
により音素認識辞書が切り替えられた際、又は前記単語
認識辞書切替手段により単語認識辞書が切り替えられた
際に、前記記憶手段に記憶されている音声データの再評
価を要求するようにすることも好ましい。

【００２２】また、本発明の記憶媒体は、音声データか
ら、音声区間データを切り出す切り出しステップと、前
記切り出しステップにおいて切り出された音声区間デー
タを、複数のデータスロットに順次格納する格納ステッ
プと、音声認識の結果を利用する上位システムから、前
記音声区間データの再評価の要求を受け付ける要求受付
ステップと、前記要求に従って、音声区間データの再評
価を行う再評価ステップとを実行するプログラムを記憶
したコンピュータで読み取り可能な記憶媒体である。

【００２３】

【発明の実施の形態】以下、本発明の実施の形態につい
て、図面を参照しながら説明する。図１は、本発明の一
実施の形態に係る音声認識装置の構成を示す機能ブロッ
ク図である。

【００２４】同図に示されるように、本実施の形態の音
声認識装置は、音声入力部１０１、波形データ作成部１
０２、波形データ記憶部１０３、音声認識部１０４、音
素認識辞書格納部１０５、単語認識辞書格納部１０６、
話者認識辞書格納部１０７を備えており、本発明の音声
認識装置による音声認識の結果を利用する上位システム
１０８が、音声認識部１０４から音声認識の結果を受け
取る構成となっている。

【００２５】音声入力部１０１としては、マイクロホン
等、音声入力が可能な入力装置を用いることができる。
波形データ作成部１０２は、音声入力部１０１から入力
された音声データについて音声区間の切り出しを行い、
波形データを作成する。

【００２６】尚、本実施の形態では、波形データ記憶部
１０３の記憶領域１０３２に、波形データの形式で格納
することとしているため、音声区間の切り出しのみを行
うが、記憶領域１０３２へのデータの格納方式によって
は、音声区間の切り出しの後、格納方式に対応する形式
に変換する処理を行うようにしてもよい。その場合は、
本実施の形態では後述の波形データ分析部１０４１が行
う処理の一部を波形データ作成部１０２が行うこともあ
る。

【００２７】図２は、本実施の形態の波形データ作成部
１０２の詳細な構成を示す機能ブロック図である。同図
に示されるように、波形データ作成部１０２は、音声デ
ータ入力部２０１、波形データリングバッファ２０２、
フィルタ処理部２０３、パワー計算部２０４、ノイズレ
ベル学習部２０５、単語区間検出部２０６、区間検出閾
値テーブル格納部２０７を備える。

【００２８】音声データ入力部２０１は、音声入力部１
０１より入力された音声データについて、所定の間隔で
サンプリングを行い、その結果を波形データリングバッ
ファ２０２に順次格納する。図３は、波形データリング
バッファ２０２の構成の一例を示す図である。同図に示
されるように、本実施の形態では、全長５１２ワード
（１ワード＝４バイト）分のバッファを確保し、サンプ
リングされたデータを順次格納する。本実施の形態で
は、２５６ポイント（窓幅）のデータが取り込まれた時
点で１フレーム分の処理を行う。同図に示されるフレー
ムシフト（１８０ポイント）とは、窓幅２５６ポイント
のうち、フレームシフト１８０ポイントを除いた部分
は、次のフレームの窓幅に含まれることを意味してお
り、一部を重複させることにより、単語が途中で区切れ
るのを防止している。なお、フレームシフトは必ずしも
１８０ポイントでなくてもよい。

【００２９】フィルタ処理部２０３は、波形データリン
グバッファ２０２に格納された波形データに対して１５
０ＨｚのＨＰＦ（ハイパスフィルタ）で高域強調を行
う。ＨＰＦとしては、４次のＩＩＲチェビシェルフィル
タを用いる。図４に、本実施の形態のＨＰＦの特性を示
す。また、高域強調は、ｚ変換である１−ｚ^-1の一次差
分を用いる。

【００３０】パワー計算部２０４は、音声パワー（PO
W）の計算を行う。音声パワーの計算は窓波形に対する
相対的な値として以下の数１に従って計算する。ここで
いう窓波形は矩形窓である。

【００３１】

【数１】

【００３２】以下、上記数１に示される音声パワーの計
算について、より詳細に説明する。まず、ｉ番目の窓の
波形{Ｓｉ}に対するログパワーlogpow(s)は、下記の数
２で表される。

【００３３】

【数２】

【００３４】従って、上記音声パワー(POW)は、下記の
数３に従って算出することができる。

【００３５】

【数３】

【００３６】上記数３において、ｙは窓処理後の波形を
表し、ｈは窓自体の波形を表す。ここで、窓自体の波形
のログパワーlogpow(h)は、一定であるので、予め計算
しておくことができる。一方、上記の窓処理後のログパ
ワー1000＊log₁₀(Σｙｉ²)については、下記の数４に従
って計算することができる。ｉは窓のｉ番目のポイント
であり、ここでは１〜２５６である。

【００３７】

【数４】

【００３８】上記数４における301＊n及び301＊log₂(c)
については、n及びcの値ごとに予め計算し、テーブルに
格納しておくことが可能である。なお、本実施の形態で
は、cは小数点以下５ビットの精度としている。

【００３９】ノイズレベル学習部２０４は、環境雑音の
変動に対処するため一定間隔ごとにノイズレベル（以
下、「ｎｓｌ」と表記する場合もある。）の学習を行
う。ここで、ノイズレベルとは、無音区間のパワーのこ
とをいう。ノイズレベル学習部２０４は、一定期間でも
っとも出現頻度の高いパワー値をその期間のノイズレベ
ルとする。学習の際には、学習対象の１００フレームの
うちパワーの小さい下位８割のデータからのみノイズレ
ベルを学習する。これは無音区間のみのデータをより正
確に学習するためである。また、学習されたノイズレベ
ルが一定値より小さい場合には、予め定めた最小値を学
習値とする。尚、ここで学習されたノイズレベルは、後
述の区間検出で用いる閾値（ｔｈ１からｔｈ４）の決定
に用いられる。当該閾値は、区間検出閾値テーブル格納
部２０７に格納される。

【００４０】単語区間検出部２０５は、音声パワーが予
め定めた閾値を超えた部分を音声区間として検出する。
その際に区間検出をより正確に行うため、各入力フレー
ムごとに前回の状態を参照し、これに応じて４種の閾値
と音声パワーとの比較を行う。以下、単語区間検出の方
法について詳細に説明する。

【００４１】図５は、単語区間検出の一例を示す図であ
る。同図に示されるｔｈ１からｔｈ４までの４つの閾値
と音声パワーとの比較を行うことにより、音声区間の検
出を行う。ここで、閾値ｔｈ１からｔｈ４は、前述の如
くノイズレベル（ｎｓｌ）から算出される値を用いる。
本実施の形態では、ｔｈ１＝ｎｓｌ＋２００、ｔｈ２＝
ｎｓｌ＋６００、ｔｈ３＝ｎｓｌ＋５００、ｔｈ４＝ｎ
ｓｌ＋６００としている。

【００４２】以下、図６に示す単語区間検出の状態遷移
図も参照しながら、図５に示されるＡからＨまでの各フ
レームについて、その内容を説明する。フレームＡにお
いては、音声パワーが閾値ｔｈ１を上回ることにより状
態１への遷移が発生している。これは、単語区間の語頭
候補が検出されたことを意味するものと考える。しか
し、図５の例では、音声パワーが閾値ｔｈ２を上回るこ
となく、フレームＢにおいて、再び閾値ｔｈ１より下に
落ちてしまっているので、状態１であった区間が単語区
間と判定されることなく、再び状態０に戻っている。

【００４３】これは、図６に示されるように、状態０に
おいて、音声パワーが閾値ｔｈ１を上回った場合には状
態１に遷移すること、及び、状態１において、音声パワ
ーが閾値ｔｈ１以下になった場合、又は状態１である時
間の長さ（ｗｄ）が単語最長値ｗｄｍａｘを上回った場
合には、単語を区切るために、状態０に戻ることが規定
されているからである。ここで、単語最大長ｗｄｍａｘ
とは、一つの単語が発音されるであろう最大の時間の長
さとして、規定しておく値をいう。単語最長値ｗｄｍａ
ｘは予め設定しておく。尚、本実施の形態では、ｗｄｍ
ａｘは１４０フレーム分の時間（＝約２１００ｍｓ）と
している。

【００４４】尚、図６に示されるように、状態０におい
て音声パワーが閾値ｔｈ１以下であった場合には、その
まま状態０で継続する。図５に戻って、フレームＣにお
いて、再度、音声パワーが閾値ｔｈ１を上回ったことが
検出され、状態１に遷移する。図６に示されるように状
態１では、音声パワーが閾値ｔｈ１を上回り、閾値ｔｈ
２以下であった場合には、状態１でありつづけるが、音
声パワーが閾値ｔｈ２を上回った場合には、状態２へと
遷移する。

【００４５】さらに、図５の例では、フレームＤにおい
て音声パワーが閾値ｔｈ２を上回っているため、状態２
に遷移している。状態２とは、音声区間と認識された状
態である。

【００４６】状態２では、音声パワーが閾値ｔｈ３以上
である場合には、状態２でありつづけるが、音声パワー
が閾値ｔｈ３を下回った場合には状態３へと遷移する。
また、状態２での時間の長さ（ｗｄ）が、前述の単語最
長値ｗｄｍａｘを上回った場合には、状態０へと遷移す
る。

【００４７】図５の例では、フレームＥにおいて音声パ
ワーが閾値ｔｈ３を下回ったため、状態３へと遷移して
いる。状態３とは、単語の終了が検出されたかもしれな
いという状態を表す。もっとも、図６に示されるよう
に、状態３において音声パワーが再度閾値ｔｈ４を上回
った場合には、それまでに、後述の条件により状態０へ
と遷移していなければ、単語の終了が検出されたわけで
はないものと判定し、再び状態２へと遷移する。

【００４８】状態３から状態０へと遷移するのは、音声
パワーが閾値ｔｈ３を下回ることによって状態２から状
態３へと遷移した状態であって、音声パワーが閾値ｔｈ
１を下回った無音期間の長さ（ｓｌ）が無音最長値（ｓ
ｌｍａｘ）を上回った場合、状態２での時間の長さ（ｗ
ｄ）が単語最短値（ｗｄｍｉｎ）を下回っていた場合、
及び状態２での時間の長さ（ｗｄ）が単語最長値（ｗｄ
ｍａｘ）を上回った場合である。

【００４９】無音最長値ｓｌｍａｘ及び単語最短値ｗｄ
ｍｉｎについても、予め設定しておく必要がある。無音
最長値ｓｌｍａｘの意味については、後述する。単語最
短値ｗｄｍｉｎとは、一つの単語が発音されるであろう
最小の時間の長さとして、規定しておく時間をいう。即
ち、状態２での時間の長さ（ｗｄ）が、単語最短値（ｗ
ｄｍｉｎ）を下回っていた場合には、状態２の部分は音
声区間とは見なされない。なお、本実施の形態では単語
最短値（ｗｄｍｉｎ）としては、１８フレーム分の時間
（＝約２７０ｍｓ）が、また、無音最長値（ｓｌｍａ
ｘ）としては、２０フレーム分の時間（＝約３００ｍ
ｓ）が規定されている。状態０へと遷移するまでに音声
パワーが閾値ｔｈ４以下である場合には、前述の三つの
いずれかの条件を満足させない限りは、状態３でありつ
づける。

【００５０】図５の例では、状態３から状態０に遷移す
るまでに、再度フレームＦにおいて音声パワーが閾値ｔ
ｈ２を上回っているため、状態３における無音状態が単
語中の無音部であると判定し、再度状態２へと遷移して
いる。ここで、単語中の無音部とは、例えば「北海道」
の如き促音を含む単語において発生する、単語の中にも
かかわらず音声が途切れる部分をいう。上述の如く、無
音最長値（ｓｌｍａｘ）として、２０フレーム分の時間
が規定されているのは、それだけの時間が経過する前に
再び音声パワーが上昇した場合には、単語中の無音部で
あると判定することを意味する。

【００５１】図５の例では、フレームＧにおいて、再度
音声パワーが閾値ｔｈ３を下回ることにより、状態３へ
と遷移しており、その後、状態３での長さが無音最長値
（ｓｌｍａｘ）を上回ったことにより、フレームＨにお
いて状態０へと遷移している。

【００５２】本実施の形態の音声認識装置は、最終的に
フレームＣからフレームＧまでの間を単語区間と判定
し、単語区間の切り出しを行う。以上に詳細に説明した
ように、波形データ作成部１０２において切り出された
波形データは、波形データ記憶部１０３に格納される。

【００５３】波形データ記憶部１０３は、波形データ書
き込み部１０３１、記憶領域１０３２、波形データ読み
出し部１０３３から構成される。波形データ書き込み部
１０３１は、波形データ作成部１０２で切り出された波
形データを記憶領域１０３２に書き込むインターフェー
ス部分である。また、波形データ読み出し部１０３３
は、記憶領域１０３２から波形データを読み出し、音声
認識部１０４に送るインターフェース部分である。

【００５４】図７は、本実施の形態における記憶領域１
０３２の構成の一例を示す図である。同図に示されるよ
うに、本実施の形態では、切り出された波形データを格
納する領域として１０個のデータスロットを備えてい
る。また、一個のデータスロットの大きさは６４キロバ
イトとしている。これは、一単語最大２秒間と仮定し、
１０単語分の情報を保持するとした場合の例であるが、
領域の大きさは特に限定されない。また、データスロッ
トの形式で格納した方が処理効率は良くなるが、データ
スロット以外の形式でも実施することは可能である。な
お、本実施の形態では、１０番目のデータスロットにデ
ータを格納した後は、再度、１番目のデータスロットに
戻って、循環してデータを格納する。

【００５５】音声認識部１０４は、波形データ記憶部１
０３から読み出した波形データを分析し、意味内容の認
識、話者認識等を行う。認識結果は、上位システム１０
８により利用される。

【００５６】ここで、本実施の形態の音声認識装置の音
声認識部１０４は、音声入力部１０１から入力された最
新の音声データを逐次分析して、認識結果を上位システ
ム１０８に送る他、上位システム１０８の指示に従っ
て、波形データ記憶部１０３に格納されている過去の音
声データの再評価を行う。

【００５７】図１に示したように、本実施の形態の音声
認識部１０４は、波形データ分析部１０４１、話者認識
部１０４２、性別認識部１０４３、内容認識部１０４
４、パワー認識部１０４５、音素認識辞書切替部１０４
６、単語認識辞書切替部１０４７を備えている。

【００５８】波形データ分析部１０４１は、波形データ
読み出し部１０３３を介して波形データ記憶部１０３か
ら読み出した波形データを分析し、各々の認識部に送
る。図８は、本実施の形態の波形データ分析部１０４１
の詳細な構成を示す機能ブロック図である。同図に示さ
れるように、波形データ分析部１０４１は、窓処理部８
０１、ＦＦＴ部８０２、ノイズパターン学習部８０３、
サブトラクション部８０４、メルスペクトル計算部８０
５、メルスペクトル格納部８０６、音素認識部８０７を
備えている。

【００５９】波形データ読み出し部１０３３を介して読
み出された波形データは、まず、窓処理部８０１へと送
られる。窓処理部８０１は、読み出された波形データに
窓波形を乗じる。ここでの窓関数（ｈｉ）としては、下
記の数５に示すハミング窓を用いる。なお、同式におい
て使用されている０．５６及び０．４４の数値は、窓の
形状によって異なる。

【００６０】

【数５】

【００６１】窓処理後の波形データは、ＦＦＴ部８０２
がＦＦＴ処理を行う際に利便であるように内部ＲＡＭ等
の記憶手段に格納する。ＦＦＴ部８０２は、ＦＦＴ（高
速フーリエ変換）処理を行う。

【００６２】ＦＦＴ処理の方法については、公知の方法
（例えば、「ディジタル信号処理」（岩田彰著、コ
ロナ社）に開示されている方法）が利用できるので、こ
こでの詳細な説明は省略する。ＦＦＴ処理の結果として
得られたリニアスペクトルパワー（以下、「linear-spc
-pow」と表す場合もある。）が、その後の計算に用いら
れる。

【００６３】ノイズパターン学習部８０３は、無音区間
のスペクトルパターンを一定期間ごとに学習する。本実
施の形態では、当該一定期間を１０フレーム分の時間
（＝約１５０ｍｓ）に設定している。

【００６４】サブトラクション部８０４は、環境雑音に
対処するため、直前のノイズパターンを以下の数６に示
すようにＦＦＴの分析結果から減ずる。

【００６５】

【数６】

【００６６】ここで、上記数６におけるｘは、リニアス
ペクトルパワーの最小値としたい正の数字又はゼロであ
り、固定ではない。最終的に求めるスペクトルは、以下
の数７に示されるようなログパワーである。結果は、後
の処理のためにＲＡＭに格納しておく。

【００６７】

【数７】

【００６８】メルスペクトル計算部８０５は、ＦＦＴ部
８０２で求められたスペクトルパワーを、メル尺度で１
６チャンネルに分割する。分割は、図９に示すテーブル
に従って行う。

【００６９】さらに、各チャンネルについて、下記の数
８に従って、チャンネルパワーの累積値であるmel-spc_j
を計算する。

【００７０】

【数８】

【００７１】ここで、s(j)（ｊ＝１〜１６）は、各チャ
ンネルの最低周波数ポイント番号、e(j)は、各チャンネ
ルの最高周波数ポイント番号、n(j)は、各チャンネルの
周波数ポイント数である。なお、上記のe(j)及びn(j)
は、テーブルとして保持しておく。次に正規化のため、
１６チャンネルの平均スペクトルとの差を求める。この
処理は、下記の数９及び数１０に従って行う。

【００７２】

【数９】

【００７３】

【数１０】

【００７４】最終的な分析結果であるメルスペクトル
（mel-spc_j）は、メルスペクトル格納部８０６に格納さ
れる。メルスペクトル格納部８０６に格納されたメルス
ペクトルが、音素認識部８０７における音素認識の結
果、音声データの集合として認識される。

【００７５】音素認識部８０７は、メルスペクトル格納
部８０６に格納されたメルスペクトルに所定の処理を行
い、音素認識辞書格納部１０５に格納された音素認識辞
書の内容とマッチングすることにより、いかなる音素で
あるかを認識する。ここでの音素認識とは、例えば、発
声された音声が、「あ」であるか、「い」であるか、
「う」であるか等を認識する処理である。かかる処理の
結果、最終的に切り出された波形データが音声の集合、
即ち単語として認識される。音素認識処理の詳細につい
ては、既に公知の技術となっているので（例えば、電子
情報通信学会論文誌Ｄ−II,Vol.J77−Ｄ−II,No.3,pp.4
75-482に開示されている。）、ここでの詳細な説明は省
略する。

【００７６】以上に詳細に説明した波形データ分析部１
０４１の処理によって得られたメルスペクトル及び音素
認識の結果を用いて、各種の音声認識処理が行われる。
以下、各認識部の処理内容について説明する。

【００７７】話者認識部１０４２は、話者認識を行う。
ここで、話者認識とは、その音声が誰の発話であるかを
認識する処理である。話者認識における比較処理に用い
る辞書情報は、話者認識辞書格納部１０７に格納され
る。

【００７８】しかし、話者認識の方法等については、既
に文献等に記載されている（例えば、"A ROBUST, SEGME
NTAL METHOD FOR TEXT INDEPENDENT SPEAKER IDENTIFIC
ATION" by Herbert Gish, Michael Schmidt, and Angel
a Mielke (Proc. ICASSP 94,April 1994, Adelaide, So
uth Australia, pp.145-148)、"IDENTIFICATION OFSPEA
KERS ENGAGED IN DIALOG" by George Yu, and Herbert
Gish (Proc. ICASSP93, April 1993, Minneapolis, Vol
II, pp.383-386)、"Robust Discrimination in Automa
tic Speaker Identification" by Herbert Gish (Proc.
ICASSP 90,April 1990, Albuquerque, pp.289-292)等
に開示されている。）方法が利用できるので、ここでの
詳細な説明は省略する。

【００７９】性別認識部１０４３は、話者の性別の認識
を行う。性別の認識は、一般的に知られているピッチの
判定による、男性と、女性又は子供との識別によって行
う。尚、本実施の形態では、性別により単語辞書を切り
替えるため、性別認識の結果は、単語認識辞書切替部１
０４７へと送られる。

【００８０】内容認識部１０４４は、会話内容の認識を
行う。即ち、音素認識の結果、単語として認識された音
声データが、意味をなす単語であるか否かを、単語認識
辞書を参照して認識する。より具体的には、音素認識の
結果として得られた、連続した音声データを、単語認識
辞書に登録されている単語とマッチングすることによ
り、単語認識辞書から、意味のある単語としてもっとも
適切なものを選択する処理を行う。単語認識の方法につ
いても前述の資料（電子情報通信学会論文誌Ｄ−II,Vo
l.J77−Ｄ−II,No.3,pp.475-482）に開示されている方
法が利用できるので、ここでの詳細な説明は省略する。

【００８１】パワー認識部１０４５は、音声認識に不適
切な音声パワーを有する波形データを識別し、そのよう
な不適切な波形データを認識に用いないように波形デー
タ分析部１０４１に指示する。音声パワーの算出方法に
ついては、既に詳細に説明したので、ここでの詳細な説
明は省略する。尚、ここでいう音声認識に不適切な音声
パワーを有する波形データとは、例えば、音声パワーが
大きすぎるものや、小さすぎるものである。

【００８２】音素認識辞書切替部１０４６は、音素認識
辞書の切り替えを行う。本実施の形態では、図示はされ
ていないが、性別認識部１０４３による性別の判定に基
づいて音素認識辞書を切り替えるようにしている。

【００８３】単語認識辞書切替部１０４７は、単語認識
辞書の切り替えを行う。前述の如く、本実施の形態の音
声認識装置は、性別認識部１０４３による性別の判定に
基づいて、単語認識辞書を切り替えるようにしているた
め、単語認識辞書切替部１０４７が、性別認識部１０４
３の判定結果に基づいて単語認識辞書を切り替える。

【００８４】ここで、単語認識とは、前述の音素認識の
結果、単語として認識された音声データが、意味をなす
単語であるか否かを認識することをいう。具体的には、
音素認識の結果として得られた、連続した音声を、単語
認識辞書に登録されている単語とマッチングすることに
より、意味のある単語としてもっとも適切なものを選択
する。性別によって、音素認識辞書及び単語認識辞書を
切り替えるのは、性別により、通常用いられる単語等が
異なることから、例えば、男性用の辞書と、女性又は子
供用の辞書とを切り替えることで認識率の向上を図った
ものである。

【００８５】音素認識辞書格納部１０５、単語認識辞書
格納部１０６、話者認識辞書格納部１０７には、それぞ
れ、前述の辞書が格納される。本実施の形態の音声認識
装置は、前述の如く、上位システム１０８からの再評価
の指示に従って、波形データ記憶部１０３に記憶されて
いる過去の波形データについて再評価を行う機能を有す
る。以下、上位システム１０８からの指示に従って波形
データの再評価を行う際の音声認識部１０４の処理内容
について説明する。

【００８６】図１０は、波形データの再評価を行う際の
音声認識部１０４の処理内容を示すフローチャートであ
る。同図に示されるように、音声認識部１０４は、まず
初期化処理を行う（Ｓ１００１）。初期化処理とは、具
体的には、メモリ領域のクリア処理等をいう。

【００８７】尚、本実施の形態の音声認識装置は、例え
ば上位システムからの動作終了通知を受けたか否かを判
定しており（Ｓ１００２）、終了通知を受けた場合（Ｓ
１００２：Ｙｅｓ）には、終了処理を行って（Ｓ１００
３）、動作を終了する。

【００８８】終了通知を受けていない場合は（Ｓ１００
２：Ｎｏ）、上位システム１０８からの再評価要求があ
ったか否かを判定し（Ｓ１００４）、再評価の要求があ
った場合（Ｓ１００４：Ｙｅｓ）には、まず、再評価す
べきデータ数の確定処理を行う（Ｓ１００５）。

【００８９】図１１は、再評価データ数確定処理の詳細
な処理内容を示すフローチャートである。同図に示され
るように、再評価データ数確定処理では、まず、再評価
要求データ数と再評価可能データ数とを比較する（Ｓ１
１０１）。ここで、再評価要求データ数とは、例えば上
位システム１０８から再評価を要求されたデータ数をい
い、上位システム１０８の利用目的等によって異なった
値となる。一方、再評価可能データ数とは、本発明に係
る音声認識装置において再評価が可能な波形データ数を
いい、波形データ記憶部１０３の記憶領域１０３２の容
量によって異なった値となる。

【００９０】再評価要求データ数が、再評価可能データ
数を超えている場合（Ｓ１１０１：Ｎｏ）には、再評価
すべきデータ数は、再評価可能データ数となる（Ｓ１１
０２）。一方、再評価要求データ数が、再評価可能デー
タ数以下である場合（Ｓ１１０１：Ｙｅｓ）には、再評
価を要求されたデータの数だけ再評価することが可能で
あるので、再評価要求データ数が、再評価すべきデータ
数となる（Ｓ１１０３）。

【００９１】再評価すべきデータ数が確定すると、図１
０のフローチャートに戻って、音声認識部１０４は、有
効音声データの確定処理を行う（Ｓ１００６）。有効音
声データの確定処理とは、前述の如く、音声パワーが異
常であるため、音声認識に用いない方が良いと思われる
波形データを処理対象から除去する処理である。

【００９２】図１２は、有効音声データ確定処理の詳細
な処理内容を示すフローチャートである。音声認識部１
０４は、再評価すべきデータ数として確定した分だけ波
形データ記憶部１０３から波形データを取り出して再評
価を行うが、まず、取り出された分の波形データのう
ち、未処理のデータがなくなるまで、パワー認識部１０
４５において、波形データの音声パワー時系列を算出す
る（Ｓ１２０１：Ｙｅｓ、Ｓ１２０２）。音声パワーの
時系列の算出方法は、既に詳細に説明したので、ここで
の詳細な説明は省略する。

【００９３】全ての波形データについて音声パワー時系
列を算出すると（Ｓ１２０１：Ｎｏ）、平均音声パワー
が異常な波形データを処理対象のデータから排除する
（Ｓ１２０３）。

【００９４】以下、平均音声パワーが異常な波形データ
を排除する方法について具体的に説明する。本実施の形
態では、平均音声パワーが異常な音声データか否かを以
下の条件で判定する。即ち、１）記憶領域１０３２のデ
ータスロットに格納されている各々のデータの平均パワ
ーについて、平均音声パワーが、格納されている全ての
データの平均パワーから一定値を減じた値を上回ってい
ること、具体的には、下記の数１１の条件を満たすこ
と、

【００９５】

【数１１】

【００９６】及び、２）波形が飽和していないこと、即
ち、波形データの振幅が一定の範囲内におさまっている
こと、を満たす場合に有効データと判定する。条件１）
は、音声パワーが小さすぎないこと、条件２）は、音声
パワーが大きすぎないことを判定するものである。

【００９７】図１３及び図１４は、音声再評価の際の平
均音声パワーの判定の具体例について説明するための図
である。なお、本実施の形態では、上記条件１）におけ
る一定値は２０００と規定されているものとする。

【００９８】図１３に示されるように、記憶領域１０３
２のデータスロットに波形データ１と波形データ２とが
格納されているとする。それぞれの波形データについて
音声パワーを検出した結果、波形データ１の平均パワー
が−３０００、波形データ２の平均パワーが−６０００
であったとすると、全ての波形データの平均パワーは−
４５００となる。ここで、波形データ１と波形データ２
はともに条件１）を満たしているため、それぞれ有効な
音声データと判定されることとなる。

【００９９】一方、図１４に示す如く、記憶領域１０３
２のデータスロットに波形データ１、波形データ２及び
波形データ３が格納されているとする。それぞれの波形
データについて音声パワーを検出した結果、波形データ
１の平均パワーが−３０００、波形データ２の平均パワ
ーが−６０００、波形データ３の平均パワーが−３００
０であったとすると、全ての波形データの平均パワーは
−４０００となる。ここで、波形データ１、波形データ
２及び波形データ３の全てが飽和していないものとして
も、波形データ２は、条件１）を満たさないこととなる
ため、無効な音声データと判定されることとなる。

【０１００】以上のような処理により、記憶領域１０３
２に記憶されている波形データのうち、どの波形データ
を再評価するかが確定するので、音声認識部１０４は、
実際に再評価されるべき波形データに関する情報、例え
ば、何秒前のデータが再評価されるか等の情報を上位シ
ステム１０８に通知する（Ｓ１２０４）。通知された情
報を如何に利用するかは、上位システム１０８の利用目
的等によって異なる。

【０１０１】有効音声データ確定処理により、再評価す
べき波形データが確定すると、図１０のフローチャート
に戻って、音声認識部１０４は、発話内容の再評価を行
う。図１５は、発話内容再評価処理の詳細な処理内容を
示すフローチャートである。同図に示されるように、発
話内容再評価処理においては、音声認識部１０４は、処
理すべき波形データとして確定した波形データ全てにつ
いて処理が終了するまで、発話内容を評価し（Ｓ１５０
２）、結果を上位システム１０８に通知する（Ｓ１５０
３）。

【０１０２】次に、以上のように構成された本発明の音
声認識装置の一適用例としての情報処理装置について説
明する。本適用例は、音声によりコマンドを入力して表
示画面上のアイコンを移動させることが可能な情報処理
装置に、本発明の音声認識装置を適用したものである。
以下、かかる情報処理装置の動作について説明し、本発
明の効果をより具体的に説明する。

【０１０３】図１６は、本発明の音声認識装置を適用し
た情報処理装置の表示画面の一例を示す図である。この
情報処理装置では、音声により、例えば「Ａに行け」、
「Ｂに行け」又は「Ｃに行け」等の命令を入力すること
により、画面上のアイコンＯがそれぞれ図中に示された
Ａ、Ｂ又はＣの位置に移動するものとする。

【０１０４】ここで、例えば、発声内容が、「Ｂに行
け」、「それから」、「Ａに行け」であったにもかかわ
らず、最初の音声認識の結果が「Ｂに行け」、「Ｃに行
け」、「Ａに行け」であった場合について説明する。図
１７は、この際の処理の順序を示した図である。同図に
おいて、「処理Ａ」とは、アイコンＯをＡに位置に移動
させる処理をいい、「処理Ｂ」とは、アイコンＯをＢに
位置に移動させる処理をいう。また、「処理Ｃ」とは、
アイコンＯをＣに位置に移動させる処理である。同図に
示されるように、発声内容が認識された後に、それぞれ
の処理が開始されるとすると、画面上のアイコンＯは、
図１８に示されるように、まずＢの位置に移動し、その
後、Ｃの位置に移動した後、Ａの位置に移動することに
なる。

【０１０５】しかしながら、本発明の音声認識装置を適
用した場合は、音声データの再評価が可能である。即
ち、男女共通の辞書を用いていて、「それから」という
音声データが、「Ｃに行け」と認識された時点で、性別
認識部１０４３により性別の判定が行われ、話者が女性
であることが認識されたとすると、女性及び子供用の辞
書に切り替えられる。

【０１０６】本適用例において音声認識装置を利用する
上位システム１０８は、性別が判定されたことによる音
素認識辞書及び単語認識辞書の切り替えが行われたこと
を受けて、音声データの再評価の指示を行う。

【０１０７】図１９は、その際の処理の様子を示す図で
ある。上位システム１０８からの再評価の指示を受け
て、音声データの再評価が行われた結果、「Ｃに行け」
と認識されていた音声データが、実は「それから」とい
う音声であったということが判明する。その結果、既に
処理Ｃが開始し、アイコンがＢの位置からＣの位置に向
かって移動を開始していたとすると、処理Ｃは中止さ
れ、「Ａに行け」との発声が認識された時点から、Ａの
位置に向かって移動が開始されることとなる。この場合
の動作は、図２０に示すようになる。

【０１０８】以上に説明したように、本発明の音声認識
装置を適用すると、上位システム１０８における誤認識
による無駄な処理を少なくすることが可能となる。尚、
本実施の形態では、情報処理装置の例として、画面上の
アイコンを移動させる場合について説明したが、他のも
っと複雑な処理に適用することも、もちろん容易に行え
る。例えば、情報検索のキーワードを音声にて入力する
ような装置に適用した場合には、誤認識に基づく検索処
理を削減することが可能となり、本発明の効果も、より
大きなものとなる。

【０１０９】また、本実施の形態では、音声入力部１０
１が一つの場合について説明したが、例えば音声入力部
１０１としてのマイクロホンを複数備え、それぞれから
入力された音声データについて音声認識を行うことも可
能である。そのような場合には、記憶領域１０３２を、
それぞれの音声入力部１０１に対応させて分割し、波形
データを記憶するようにすればよい。そのような構成に
すると、例えば、複数の話者による発声の認識も容易に
できるようになる。

【０１１０】また、本発明に係る音声認識装置のよう
に、音声認識の結果に基づいて、過去の音声データを理
解しなおすというのは、ある意味で、現実の人間が音声
を認識する際に無意識に行っているものということがで
きる。従って、本発明の音声認識装置は、例えば、仮想
的な生物の挙動をコンピュータに実行させるような場合
に適用することも可能である。

【０１１１】なお、本発明である音声認識装置を実現す
るプログラムを記憶した記憶媒体は、図２１の記憶媒体
の例で示すように、ＣＤ−ＲＯＭやフロッピーディスク
等の可搬型記憶媒体だけでなく、回線先の他の記憶装置
や、コンピュータのハードディスクやＲＡＭ等の記憶媒
体のいずれでもよく、プログラム実行時には、プログラ
ムはローディングされ、主メモリ上で実行される。

【０１１２】

【発明の効果】以上に説明したように、本発明に係る音
声認識装置及びそれを用いた情報処理装置によれば、音
声データを記憶する記憶手段に記憶された音声データ
を、上位システムからの指示を受けて再評価することに
より、一度、誤認識された音声データについて、正しい
認識に修正することが可能となるので、音声データの誤
認識に基づく必要でない処理を削減することが可能にな
るという効果を奏する。

【図面の簡単な説明】

【図１】本発明の一実施の形態に係る音声認識装置の
構成を示す機能ブロック図である。

【図２】本実施の形態の音声認識装置の波形データ作
成部の詳細な構成を示す機能ブロック図である。

【図３】本実施の形態の波形データリングバッファの
構成を示す図である。

【図４】本実施の形態のフィルタ処理部に用いられる
フィルタの特性を示す図である。

【図５】本実施の形態における音声区間の切り出しの
一例について説明するための図である。

【図６】本実施の形態において音声区間の切り出しを
行う際の状態遷移を示す図である。

【図７】本実施の形態の波形データ記憶部の記憶領域
の構成の一例を示す図である。

【図８】本実施の形態の音声認識装置の波形データ分
析部の詳細な構成を示す機能ブロック図である。

【図９】ＦＦＴ部で求められたスペクトルパワーを、
メル尺度で１６チャンネルに分割する際に用いるテーブ
ルの一例を示す図である。

【図１０】本実施の形態の音声認識装置において、音
声データの再評価を行う際の音声認識部の処理内容を示
すフローチャートである。

【図１１】本実施の形態の再評価データ数確定処理の
詳細な処理内容を示すフローチャートである。

【図１２】本実施の形態の有効音声データ確定処理の
詳細な処理内容を示すフローチャートである。

【図１３】音声再評価の際の平均音声パワーの判定の
具体例について説明するための図である。

【図１４】音声再評価の際の平均音声パワーの判定の
具体例について説明するための図である。

【図１５】本実施の形態の発話内容再評価処理の詳細
な処理内容を示すフローチャートである。

【図１６】本発明の音声認識装置の一適用例としての
情報処理装置の動作について説明するための図である。

【図１７】本発明の音声認識装置の一適用例としての
情報処理装置における音声認識について説明するための
図である。

【図１８】本発明の音声認識装置の一適用例としての
情報処理装置の動作について説明するための図である。

【図１９】本発明の音声認識装置の一適用例としての
情報処理装置における音声認識について説明するための
図である。

【図２０】本発明の音声認識装置の一適用例としての
情報処理装置の動作について説明するための図である。

【図２１】記憶媒体の例を示す図である。

【図２２】従来の音声認識装置の構成の一例を示す図
である。

【符号の説明】

１０１音声入力部１０２波形データ作成部１０３波形データ記憶部１０３１波形データ書き込み部１０３２記憶領域１０３３波形データ読み出し部１０４音声認識部１０４１波形データ分析部１０４２話者認識部１０４３性別認識部１０４４内容認識部１０４５パワー認識部１０４６音素認識辞書切替部１０４７単語認識辞書切替部１０５音素認識辞書格納部１０６単語認識辞書格納部１０７話者認識辞書格納部１０８上位システム２０１音声データ入力部２０２波形データリングバッファ２０３フィルタ処理部２０４パワー計算部２０５ノイズレベル学習部２０６単語区間検出部２０７区間検出閾値テーブル格納部８０１窓処理部８０２ＦＦＴ部８０３ノイズパターン学習部８０４サブトラクション部８０５メルスペクトル計算部８０６メルスペクトル格納部８０７音素認識部９１回線先の記憶装置９２ＣＤ−ＲＯＭやフロッピーディスク等の可
搬型記憶媒体９２−１ＣＤ−ＲＯＭ９２−２フロッピーディスク９３コンピュータ９４コンピュータ上のＲＡＭ／ハードディスク
等の記憶媒体

Claims

【特許請求の範囲】

【請求項１】音声データを記憶する記憶手段と、音声
認識の結果を利用する上位システムからの要求を受け
て、前記記憶手段に記憶されている音声データを再評価
する再評価手段とを備えることを特徴とする音声認識装
置。
【請求項２】前記音声認識装置は、音声データから音
声区間データを切り出す音声区間データ作成手段を備
え、前記記憶手段は、前記音声区間データ作成手段によ
り作成された音声区間データを記憶する請求項１に記載
の音声認識装置。
【請求項３】前記記憶手段は、前記音声区間データ作
成手段により作成された音声区間データを複数セット記
憶する複数のデータスロットを備える請求項２に記載の
音声認識装置。
【請求項４】前記音声認識装置は、前記音声区間デー
タ作成手段を複数有し、前記記憶手段は、それぞれの音
声区間データ作成手段ごとに、音声区間データを複数セ
ット記憶するデータスロットを備える請求項３に記載の
音声認識装置。
【請求項５】前記音声認識装置はさらに、前記記憶手
段に記憶されている音声データから、音声パワーを算出
するパワー算出手段を備え、前記再評価手段は、前記パ
ワー算出手段により算出された音声パワーが所定の範囲
外である場合に、当該音声データを再評価しない請求項
３又は４に記載の音声認識装置。
【請求項６】前記音声認識装置はさらに、前記音声デ
ータから話者の性別を判定する性別認識手段と、前記性
別認識手段による判定結果に基づき、音素認識に用いる
辞書を切り替える音素認識辞書切替手段とを備える請求
項１から５のいずれかに記載の音声認識装置。
【請求項７】前記音声認識装置はさらに、前記音声デ
ータから話者の性別を判定する性別認識手段と、前記性
別認識手段による判定結果に基づき、単語認識に用いる
辞書を切り替える単語認識辞書切替手段とを備える請求
項１から５のいずれかに記載の音声認識装置。
【請求項８】前記音声認識装置はさらに、前記性別認
識手段による判定結果に基づき、単語認識に用いる辞書
を切り替える単語認識辞書切替手段とを備える請求項６
に記載の音声認識装置。
【請求項９】前記音声認識装置はさらに、前記音声デ
ータから話者を判定する話者認識手段を備える請求項１
から８のいずれかに記載の音声認識装置。
【請求項１０】入力を受け付ける入力受付手段を備え
る情報処理装置であって、前記入力受付手段として請求
項１から９のいずれかに記載の音声認識装置を用いる情
報処理装置。
【請求項１１】請求項６に記載の音声認識装置を用い
る情報処理装置であって、前記音素認識辞書切替手段に
より、音素認識辞書が切り替えられた際に、前記記憶手
段に記憶されている音声データの再評価を要求する情報
処理装置。
【請求項１２】請求項７に記載の音声認識装置を用い
る情報処理装置であって、前記単語認識辞書切替手段に
より、単語認識辞書が切り替えられた際に、前記記憶手
段に記憶されている音声データの再評価を要求する情報
処理装置。
【請求項１３】請求項８に記載の音声認識装置を用い
る情報処理装置であって、前記音素認識辞書切替手段に
より、音素認識辞書が切り替えられた際、又は前記単語
認識辞書切替手段により、単語認識辞書が切り替えられ
た際に、前記記憶手段に記憶されている音声データの再
評価を要求する情報処理装置。
【請求項１４】音声データから、音声区間データを切
り出す切り出しステップと、前記切り出しステップにお
いて切り出された音声区間データを、複数のデータスロ
ットに順次格納する格納ステップと、音声認識の結果を
利用する上位システムから、前記音声区間データの再評
価の要求を受け付ける要求受付ステップと、前記要求に
従って、音声区間データの再評価を行う再評価ステップ
とを実行するプログラムを記憶したコンピュータで読み
取り可能な記憶媒体。