JP2005345529A

JP2005345529A - 音声認識装置および方法、記録媒体、プログラム、並びにロボット装置

Info

Publication number: JP2005345529A
Application number: JP2004161847A
Authority: JP
Inventors: Katsuki Minamino; 活樹南野; Koji Asano; 康治浅野
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2004-05-31
Filing date: 2004-05-31
Publication date: 2005-12-15

Abstract

【課題】より確実に音声を認識する。
【解決手段】特徴抽出部４３は、入力信号の音響的な特徴を表す特徴量を生成する。有声区間検出部４４は、有声部分に対応する特徴量の有声区間を検出する。音声認識部４５は、特徴量を基に、音声を認識する。音声／非音声判定部４６は、特徴量を基に、音声であるか否かを判定する。認識結果統合部４７は、音声認識結果、および、音声であるか否かの判定結果を基に、音声認識結果の出力を制御する。本発明は、ユーザの音声を認識するロボットに適用できる。
【選択図】図２

Description

本発明は音声認識装置および方法、記録媒体、プログラム、並びにロボット装置に関し、特に、より確実に音声を認識することができるようにした音声認識装置および方法、記録媒体、プログラム、並びにロボット装置に関する。

昨今、音声認識を応用した製品やサービスの実用化が、盛んに行われるようになってきた。

音声認識とは、音響的な特徴を表す特徴量の出現確率などによって、入力音声に対応する単語の系列を推定し、推定された単語の系列によって音声を認識する技術のことである。音声認識技術およびアプリケーションプログラムを組み合わせることで、様々な製品やサービスの提供が可能になる。

音声認識処理において、時間的に連続した信号である入力信号から、音声部分が抽出され、抽出された音声部分に対して音声認識処理が行われる。この音声部分を抽出する処理は、音声区間検出と呼ばれ、音声認識処理の前処理として行われる。

音声区間の検出方法としては、入力信号から微小時間を単位として特徴量を抽出し、抽出した特徴量と閾値とを比較することにより、入力信号から音声部分を検出する方法が用いられている。

このような音声区間検出を用いた音声認識装置は、図１で示されるように構成される。

図１において、ユーザが発した音声は、マイクロフォン１に入力（取得）され、マイクロフォン１では、入力された入力音声が、電気信号としての音声信号に変換される。変換によって生成された音声信号は、ＡＤ（Analog Digital）変換部２に供給される。ＡＤ変換部２では、マイクロフォン１からのアナログ信号である音声信号が、サンプリングされて、量子化され、デジタル信号である音声データに変換される。この音声データは、特徴抽出部３に供給される。

特徴抽出部３は、ＡＤ変換部２から供給された音声データについて、所定のフレームごとに（微小時間間隔に）音響分析処理を適用し、特徴量を生成することによって、音声データの特徴を抽出する。

特徴抽出部３において生成された特徴量は、音声区間検出部４に供給される。音声区間検出部４は、特徴抽出部３から供給された特徴量を基に、音声部分に対応する特徴量の音声区間を検出する。音声区間検出部４は、検出された音声区間に含まれる特徴量を音声認識部５のマッチング部２１に供給する。

音声認識部５は、マッチング部２１、音響モデルデータベース２２、辞書データベース２３、および文法データベース２４からなる。

音声認識部５は、音声区間検出部４から供給された特徴量を基に、音声を認識する。マッチング部２１は、音声区間検出部４から供給された特徴量を用いて、音響モデルデータベース２２、辞書データベース２３、および文法データベース２４を必要に応じて参照しながら、マイクロフォン１に入力された入力音声を認識する。

すなわち、音響モデルデータベース２２は、音声認識する音声の言語における個々の音素や音節などの所定の単位（PLU（Phoneme Like Units））ごとの音響的な特徴を表す音響モデルを記録している。音響モデルとして、HMM（Hidden Markov Model）が用いられる。辞書データベース２３は、認識対象の各単語（語彙）について、各単語ごとの発音に関する情報（音韻情報）が記述された単語辞書、および各音響モデルから特徴量が観測される確率を記録している。文法データベース２４は、辞書データベース２３の単語辞書に登録されている各単語が、どのように連鎖する（つながる）かを記述した文法規則（言語モデル）を記録している。

マッチング部２１は、辞書データベース２３の単語辞書を参照することにより、音響モデルデータベース２２に記録されている音響モデルを接続して、単語の音響モデル（単語モデル）を構成する。さらに、マッチング部２１は、いくつかの単語モデルを、文法データベース２４に記録された文法規則を参照することにより接続し、そのようにして接続された単語モデルを用いて、特徴量の時系列に基づき、マイクロフォン１に入力された音声を認識する。すなわち、マッチング部２１は、上述したようにして構成された各単語モデルの系列から、特徴量の時系列が観測される尤度を表すスコアを計算する。そして、マッチング部２１は、そのスコアが最も高い単語モデルの系列を検出し、その単語モデルの系列に対応する単語列を、音声の認識結果として出力する。

スコア計算は、一般に、音響モデルデータベース２２に記録された音響モデルによって与えられる音響的なスコア（以下、適宜、音響スコアと称する。）と、文法データベース２４に記録された文法規則によって与えられる言語的なスコア（以下、適宜、言語スコアと称する。）とを総合評価することで行われる。

すなわち、音響スコアは、単語モデルを構成する音響モデルから、特徴抽出部３が出力する特徴量の系列が観測される確率（出現する確率）に基づいて、単語ごとに計算される。また、言語スコアは、例えば、バイグラムによる場合には、注目している単語と、その単語の直前の単語とが連鎖（連接）する確率に基づいて、求められる。そして、各単語についての音響スコアと言語スコアを総合評価して得られる最終的なスコアに基づいて、音声認識結果が確定される。

例えば、ユーザが、「今日はいい天気ですね。」と発声した場合、「今日」、「は」、「いい」、「天気」、「ですね」のような単語の系列が、音声認識結果として得られることになる。このとき、各単語に対して、音響スコアおよび言語スコアが与えられる。

しかしながら、上述した音声区間の検出方法では、音声だけでなく、咳やくしゃみ、ドアの開閉音など周囲で発生する非定常な雑音まで検出してしまうという問題を完全に避けることは出来ない。この場合、非音声信号に対する音声認識処理が行われてしまうため、音声認識処理の後段の処理において、誤作動を引き起こすという問題があった。

したがって、入力信号が音声であるか否かの判定を、より確実に行う技術が必要とされる。

従来、音声であるか否かの判定方法としては、周波数スペクトラムを特徴量として、ノイズの変動に適応するようなノイズの確率モデルを構成し、構成されたノイズの確率モデルを基に、音声であるか否かの判定を行っているものもある（例えば、特許文献１参照）。

また、整数次倍音構造を用いて、入力音声の母音部分を抽出し、さらに、スペクトル包絡の距離を用いて、入力音声の子音部分を抽出する装置もある（例えば、特許文献２参照）。この装置においては、抽出された母音部および子音部を基に、音声であるか否かの判定が行われる。

また、多次元正規分布を用いて、母音ごとの標準モデルを生成し、生成した母音標準モデルを基に、入力音声の母音部分を抽出することによって、音声であるか否かの判定を行うものもある（特許文献３参照）。

特表２００２−５３８５１４号公報

特開２００２−１８２６８９号公報

特開平５−２４９９８７号公報

しかしながら、従来のノイズモデルまたは母音もしくは子音のモデルを用いた、音声であるか否かの判定方法においては、モデルは静的なものであり、固定長のフレームが用いられる。従来の判定方法では、せいぜい数秒間の音声入力に対して、音声であるか否かが判定される。

従来の判定方法におけるフレームは固定長であるが、音声の長さは不定（可変長）である。また、従来の判定方法では、音響的（音韻的）な特定が利用されず、音声信号（のフレーム）が連続する時系列であるとの特性が、利用されていない。

その結果、従来の判定方法では、音声であるか否かを正確に判断できない（精度が低い）。すなわち、従来の判定方法は、音声信号のような時間的に連続した信号について、音声であるか否かを判定するのに適していない。

また、従来の音声であるか否かの判定処理は、専用のノイズモデルまたは母音もしくは子音のモデルを基に、独立して処理が行われ、音声認識処理との親和性が考慮されておらず、システムが煩雑になるという課題があった。

さらに、音声認識の対象となる語彙数などの制約により、正しい単語系列を推定させることが出来ず、音声認識処理の後段の処理として、アプリケーションプログラムを実行させることができない場合があった。

例えば、「立て」および「座れ」という２つの単語だけを認識することができる音声認識装置に対して、ユーザが、「走れ」と発声した場合、音声認識装置は、入力音声を「立て」あるいは「座れ」の何れとしても認識することができず、また、音声認識装置は、「走れ」を認識することは出来ないため、アプリケーションプログラムを実行させることができない。したがって、このとき、ユーザが音声を入力しているにも関わらず、アプリケーションプログラムが実行されないため、ユーザには、音声が正常に入力されなかったように思われることになる。または、この場合、ユーザは、音声認識装置が音声を無視したように見える。

本発明は、このような状況に鑑みてなされたものであり、より確実に音声を認識することができるようにするものである。

本発明の音声認識装置は、入力信号の音響的な特徴を示す特徴量を基に、音声を認識する音声認識手段と、音声認識手段により認識される音声に対応する入力信号の特徴量を基に、音声であるか否かを判定する判定手段とを備え、判定手段は、入力信号に対応するシンボルの系列を決定するマッチング手段を含み、判定手段は、マッチング手段により決定されるシンボルの系列に、音声に対応するシンボルが含まれるか否かを判定することにより、音声であるか否かを判定することを特徴とする。

音声認識装置は、判定手段によって、音声であると判定された場合、音声認識手段によって、音声が認識されたとき、音声認識手段によって認識された認識結果を出力し、判定手段によって、音声でないと判定された場合、音声認識手段によって認識された認識結果の出力を抑制するように、出力を制御する出力制御手段をさらに設けることができる。

出力制御手段は、判定手段によって、音声であると判定された場合、音声認識手段によって、音声が認識されないとき、所定のメッセージを出力するように、出力を制御するようにすることができる。

音声認識手段は、単語系列を構成する単語を決定することにより、音声を認識し、判定手段は、単語が音声であるか否かを判定するようにすることができる。

判定手段は、母音が含まれるか否かを基に、単語が音声であるか否かを判定するようにすることができる。

本発明の音声認識方法は、入力信号の音響的な特徴を示す特徴量を基に、音声を認識する音声認識ステップと、音声認識ステップにおいて認識される音声に対応する入力信号の特徴量を基に、音声であるか否かを判定する判定ステップとを含み、判定ステップは、入力信号に対応するシンボルの系列を決定するマッチングステップを含み、判定ステップにおいて、マッチングステップにおいて決定されるシンボルの系列に、音声に対応するシンボルが含まれるか否かが判定されることにより、音声であるか否かが判定されることを特徴とする。

本発明の記録媒体のプログラムは、入力信号の音響的な特徴を示す特徴量を基に、音声を認識する音声認識ステップと、音声認識ステップにおいて認識される音声に対応する入力信号の特徴量を基に、音声であるか否かを判定する判定ステップとを含み、判定ステップは、入力信号に対応するシンボルの系列を決定するマッチングステップを含み、判定ステップにおいて、マッチングステップにおいて決定されるシンボルの系列に、音声に対応するシンボルが含まれるか否かが判定されることにより、音声であるか否かが判定されることを特徴とする。

本発明のプログラムは、入力信号の音響的な特徴を示す特徴量を基に、音声を認識する音声認識ステップと、音声認識ステップにおいて認識される音声に対応する入力信号の特徴量を基に、音声であるか否かを判定する判定ステップとをコンピュータに実行させ、判定ステップは、入力信号に対応するシンボルの系列を決定するマッチングステップを含み、判定ステップにおいて、マッチングステップにおいて決定されるシンボルの系列に、音声に対応するシンボルが含まれるか否かが判定されることにより、音声であるか否かが判定されることを特徴とする。

本発明のロボット装置は、音声を取得して、音声に対応する信号を出力する音声取得手段と、信号の音響的な特徴を示す特徴量を基に、音声を認識する音声認識手段と、音声認識手段により認識される音声に対応する信号の特徴量を基に、音声であるか否かを判定する判定手段と、判定手段によって、音声であると判定された場合、音声認識手段によって、音声が認識されたとき、音声認識手段によって認識された認識結果を出力し、判定手段によって、音声でないと判定された場合、音声認識手段によって認識された認識結果の出力を抑制するように、出力を制御する出力制御手段と、出力制御手段により、出力された認識結果に対応して処理を実行する処理実行手段とを備えることを特徴とする。

出力制御手段は、判定手段によって、音声であると判定された場合、音声認識手段によって、音声が認識されないとき、処理実行手段に、所定のメッセージを出力させる旨の指示を出力するように、出力を制御し、処理実行手段は、出力制御手段の指示に基づいて、メッセージを出力する処理を実行するようにすることができる。

音声認識装置は、独立した装置であってもよいし、音声認識処理を行うブロックであってもよい。

本発明の音声認識装置および方法、記録媒体、並びにプログラムにおいては、入力信号の音響的な特徴を示す特徴量を基に、音声が認識され、音声認識において、認識される音声に対応する入力信号の特徴量を基に、音声であるか否かが判定される。また、入力信号に対応するシンボルの系列が決定され、音声であるか否かの判定は、マッチング手段により決定されるシンボルの系列に、音声に対応するシンボルが含まれるか否かが判定されることにより、判定される。

本発明のロボット装置においては、音声が取得され、音声に対応する信号が出力され、信号の音響的な特徴を示す特徴量を基に、音声が認識される。そして、音声認識において、認識される音声に対応する信号の特徴量を基に、音声であるか否かが判定され、音声であると判定された場合、音声認識において、音声が認識されたとき、音声認識によって認識された認識結果を出力し、音声であるか否かの判定において、音声でないと判定された場合、認識された認識結果の出力を制御するように、出力が制御される。そして、出力された認識結果に対応して処理が実行される。

本発明によれば、より確実に音声を認識させることが可能となる。

また、音声が入力され、音声の認識の処理が実行されたことを、ユーザが知ることができる。

以下に本発明の実施の形態を説明するが、本明細書に記載の発明と、発明の実施の形態との対応関係を例示すると、次のようになる。この記載は、本明細書に記載されている発明をサポートする実施の形態が本明細書に記載されていることを確認するためのものである。従って、発明の実施の形態中には記載されているが、発明に対応するものとして、ここには記載されていない実施の形態があったとしても、そのことは、その実施の形態が、その発明に対応するものではないことを意味するものではない。逆に、実施の形態が発明に対応するものとしてここに記載されていたとしても、そのことは、その実施の形態が、その発明以外の発明には対応しないものであることを意味するものでもない。

さらに、この記載は、本明細書に記載されている発明の全てを意味するものではない。換言すれば、この記載は、本明細書に記載されている発明であって、この出願では請求されていない発明の存在、すなわち、将来、分割出願されたり、補正により出現、追加される発明の存在を否定するものではない。

本発明によれば、音声認識装置が提供される。この音声認識装置は、入力信号の音響的な特徴を示す特徴量を基に、音声を認識する音声認識手段（例えば、図２の音声認識部４５）と、音声認識手段により認識される音声に対応する入力信号の特徴量を基に、音声であるか否かを判定する判定手段（例えば、図２の音声／非音声判定部４６）とを備え、判定手段は、入力信号に対応するシンボルの系列を決定するマッチング手段（例えば、図２のマッチング部６５）を含み、判定手段は、マッチング手段により決定されるシンボルの系列に、音声に対応するシンボルが含まれるか否かを判定することにより、音声であるか否かを判定する。

この音声認識装置は、判定手段（例えば、図２の音声／非音声判定部４６）によって、音声であると判定された場合、音声認識手段（例えば、図２の音声認識部４５）によって、音声が認識されたとき、音声認識手段によって認識された認識結果を出力し、判定手段によって、音声でないと判定された場合、音声認識手段によって認識された認識結果の出力を抑制するように、出力を制御する出力制御手段（例えば、図２の認識結果統合部４７）をさらに設けることができる。

この音声認識装置は、出力制御手段（例えば、図２の認識結果統合部４７）が、判定手段（例えば、図２の音声／非音声判定部４６）によって、音声であると判定された場合、音声認識手段（例えば、図２の音声認識部４５）によって、音声が認識されないとき、所定のメッセージを出力するように、出力を制御するようにすることができる。

この音声認識装置は、音声認識手段（例えば、図２の音声認識部４５）が、単語系列を構成する単語を決定することにより、音声を認識し、判定手段（例えば、図２の音声／非音声判定部４６）が、単語が音声であるか否かを判定するようにすることができる。

この音声認識装置は、判定手段（例えば、図２の音声／非音声判定部４６）が、母音が含まれるか否かを基に、単語が音声であるか否かを判定するようにすることができる。

また、本発明によれば、音声認識方法が提供される。この音声認識方法は、入力信号の音響的な特徴を示す特徴量を基に、音声を認識する音声認識ステップ（例えば、図３のステップＳ５の処理）と、音声認識ステップにおいて認識される音声に対応する入力信号の特徴量を基に、音声であるか否かを判定する判定ステップ（例えば、図３のステップＳ６の処理）とを含み、判定ステップは、入力信号に対応するシンボルの系列を決定するマッチングステップ（例えば、図７のステップＳ１２の処理）を含み、判定ステップにおいて、マッチングステップにおいて決定されるシンボルの系列に、音声に対応するシンボルが含まれるか否かが判定されることにより、音声であるか否かが判定される。

また、本発明によれば、プログラムが提供される。このプログラムは、入力信号の音響的な特徴を示す特徴量を基に、音声を認識する音声認識ステップ（例えば、図３のステップＳ５の処理）と、音声認識ステップにおいて認識される音声に対応する入力信号の特徴量を基に、音声であるか否かを判定する判定ステップ（例えば、図３のステップＳ６の処理）とをコンピュータに実行させ、判定ステップは、入力信号に対応するシンボルの系列を決定するマッチングステップ（例えば、図７のステップＳ１２の処理）を含み、判定ステップにおいて、マッチングステップにおいて決定されるシンボルの系列に、音声に対応するシンボルが含まれるか否かが判定されることにより、音声であるか否かが判定される。

このプログラムは記録媒体（例えば、図１１の磁気ディスク１２１）に記録することができる。

また、本発明によれば、ロボット装置が提供される。このロボット装置は、音声を取得して、音声に対応する信号を出力する音声取得手段（例えば、図１３のマイクロフォン１４４）と、信号の音響的な特徴を示す特徴量を基に、音声を認識する音声認識手段（例えば、図１３の音声認識部１８４）と、音声認識手段により認識される音声に対応する信号の特徴量を基に、音声であるか否かを判定する判定手段（例えば、図１３の音声／非音声判定部１８５）と、判定手段によって、音声であると判定された場合、音声認識手段によって、音声が認識されたとき、音声認識手段によって認識された認識結果を出力し、判定手段によって、音声でないと判定された場合、音声認識手段によって認識された認識結果の出力を抑制するように、出力を制御する出力制御手段（例えば、図１３の認識結果統合部１８６）と、出力制御手段により、出力された認識結果に対応して処理を実行する処理実行手段（例えば、図１３の制御部１４７）とを備える。

このロボット装置は、出力制御手段（例えば、図１３の認識結果統合部１８６）が、判定手段（例えば、図１３の音声／非音声判定部１８５）によって、音声であると判定された場合、音声認識手段（例えば、図１３の音声認識部１８４）によって、音声が認識されないとき、処理実行手段（例えば、図１３の制御部１４７）に、所定のメッセージを出力させる旨の指示を出力するように、出力を制御し、処理実行手段は、出力制御手段の指示に基づいて、メッセージを出力する処理を実行するようにするとができる。

このロボット装置は、音声認識手段（例えば、図１３の音声認識部１８４）が、単語系列を構成する単語を決定することにより、音声を認識し、判定手段（例えば、図１３の音声／非音声判定部１８５）が、単語が音声であるか否かを判定するようにすることができる。

このロボット装置は、判定手段（例えば、図１３の音声／非音声判定部１８５）が、母音が含まれるか否かを基に、単語が音声であるか否かを判定するようにすることができる。

図２は、本発明に係る音声認識装置の一実施の形態の構成を示すブロック図である。

音声認識装置は、マイクロフォン４１、ＡＤ変換部４２、特徴抽出部４３、有声区間検出部４４、音声認識部４５、音声／非音声判定部４６、および認識結果統合部４７を含む。

マイクロフォン４１はユーザによって発声された、単語または単語列を含む音声を入力音声として取得する。マイクロフォン４１は、取得した入力音声を、電気信号である音声信号に変換する。マイクロフォン４１は、音声信号をＡＤ変換部４２に供給する。マイクロフォン４１からＡＤ変換部４２に供給される音声信号は、いわゆるアナログ信号である。

ＡＤ変換部４２は、マイクロフォン４１から供給された音声信号にＡＤ変換処理を適用して、アナログの音声信号を、デジタルの音声データに変換する。すなわち、ＡＤ変換部４２は、音声信号をサンプリングして、量子化することにより、デジタルの音声データを生成する。ＡＤ変換部４２は、音声データを特徴抽出部４３に供給する。

特徴抽出部４３は、ＡＤ変換部４２から供給された音声データについて、所定のフレームごとに（微小時間毎に）音響分析処理を適用し、特徴量を生成することによって、音声データの特徴を抽出する。特徴抽出部４３は、生成した特徴量を有声区間検出部４４に供給する。

有声区間検出部４４は、特徴抽出部４３から供給された特徴量を基に、有声部分に対応する特徴量の有声区間を検出し、検出された有声区間における特徴量を音声認識部４５および音声／非音声判定部４６に供給する。有声区間検出部４４は、有声区間以外の特徴量を音声認識部４５および音声／非音声判定部４６に供給しない。

音声認識部４５は、有声区間検出部４４から供給された特徴量を基に、音声を認識する。マッチング部６１は、有声区間検出部４４から供給された特徴量を用いて、音響モデルデータベース６２、辞書データベース６３、および文法データベース６４を必要に応じて参照しながら、マイクロフォン４１に入力された入力音声を認識する。

すなわち、音響モデルデータベース６２は、音声認識する音声の言語における個々の音素や音節などの所定の単位（PLU）ごとの音響的な特徴を表す音響モデルを保持している（記録している）。辞書データベース６３は、認識対象の各単語（語彙）について、各単語の発音に関する情報（発音情報）が記述された単語辞書、および各音響モデルから特徴量の系列が観測される確率を保持している。文法データベース６４は、辞書データベース６３の単語辞書に登録されている各単語が、どのように連鎖する（つながる）かを記述した文法規則（言語モデル）を保持している。

以下、マッチング部６１による音声認識の処理をマッチング処理とも称する。

また、マッチング部６１は、マッチング処理により得られた音声認識結果を、認識結果統合部４７に供給する。マッチング処理の詳細は、後述する。

音声／非音声判定部４６は、有声区間における入力信号が、ユーザの音声から生成されたものであるか否か、すなわち、有声区間の入力信号が、音声であるか否かを判定する。音声／非音声判定部４６は、マッチング部６５、音響モデルデータベース６６、辞書データベース６７、および文法データベース６８を備えている。

マッチング処理部６５は、音響モデルデータベース６６、辞書データベース６７、および文法データベース６８を必要に応じて参照しながら、有声区間検出部４４から供給された特徴量を基に、マッチング部６１が行うマッチング処理と同様の処理を行うことにより、音声であるか否かの判定を行う。マッチング処理部６５は、音声であるか否かの判定結果を認識結果統合部４７に供給する。音声／非音声判定の処理の詳細は、後述する。

音響モデルデータベース６６は、音声認識する音声の言語における個々の音素や音節などの所定の単位（PLU）ごとの音響的な特徴を表す音響モデルを保持している（記録している）。辞書データベース６７は、認識対象の各単語（語彙）について、各単語の発音に関する情報（発音情報）を保持している。文法データベース６８は、辞書データベース６７の単語辞書に登録されている各単語が、どのように連鎖する（つながる）かを記述した文法規則（言語モデル（単語系列モデルとも称する））を保持している。

認識結果統合部４７は、音声認識部４５から供給された音声認識結果、および音声／非音声判定部４６から供給された音声であるか否かの判定結果に基づいて、認識結果を統合して、最終的な音声認識を結果の出力を制御する。認識結果統合の処理の詳細は、後述する。

図３のフローチャートを参照して、音声認識プログラムを実行する音声認識装置による音声認識処理を説明する。

ステップＳ１において、マイクロフォン４１は、入力された入力音声を、電気信号としての音声信号に変換し、変換によって生成された音声信号をＡＤ変換部４２に供給する。例えば、ステップＳ１において、マイクロフォン４１は、ユーザによって発声された、単語または単語列を含む音声を入力音声として取得し、取得した入力音声を、アナログ信号である音声信号に変換し、音声信号をＡＤ変換部４２に供給する。ステップＳ１において、マイクロフォン４１は、ユーザによって発声された、単語または単語列を含まない音も取得して、取得した音を、アナログ信号である音声信号に変換し、音声信号をＡＤ変換部４２に供給する。

以下、ユーザによって発声された、単語または単語列を含まない音も、単に、音声と称する。

ステップＳ２において、ＡＤ変換部４２は、マイクロフォン４１から供給された音声信号を、サンプリングして、量子化し、デジタル信号である音声データに変換する。ＡＤ変換部４２は、ＡＤ変換した音声データを特徴抽出部４３に供給する。

ステップＳ３において、特徴抽出部４３は、ＡＤ変換部４２から供給された音声データについて、所定のフレームごとに（微小時間毎に）音響分析を適用し、特徴量としての、特徴量からなる時間的な系列（特徴量の系列）を生成することによって、音声データの特徴を抽出する。特徴抽出部４３は、生成された特徴量の系列を有声区間検出部４４に供給する。

例えば、ステップＳ３において、特徴抽出部４３は、１フレームである所定の期間の音声データに、音響分析として、DFT（Discrete Fourier Transform）などの周波数分析の処理を適用し、周波数分析に基づく周波数帯域ごとのエネルギー、いわゆるパワースペクトル（以下、単にスペクトルと称する）などの特徴を示す特徴量の系列を生成する。

なお、特徴抽出部４３は、その他、例えば、零交差数、または信号のエネルギーなどの特徴を示す特徴量の系列を生成するようにしてもよい。また、特徴抽出部４３は、音声データに、ベクトル量子化の処理を適用することにより特徴量を求めるようにしてもよい。特徴量の方式は、本発明を限定するものではない。

ステップＳ４において、有声区間検出部４４は、特徴抽出部４３から供給された特徴量を基に、有声部分に対応する特徴量の有声区間を検出し、検出された有声区間に含まれる特徴量を、マッチング部６１およびマッチング部６５に供給する。例えば、ステップＳ４において、有声区間検出部４４は、予め定めた閾値と特徴検出部４３から供給された特徴量とを比較し、所定の周波数帯域のエネルギーが閾値以上であるとき、ユーザによって発声された音声から生成された音声信号の特徴を示す特徴量であると判定することにより、有声部分に対応する有声区間を検出する。

ここで、有声部分に対応する有声区間は、有声区間検出部４４によって検出された、音声データのうちの、ユーザによって発声された音声から生成された音声データが配置されている区間である。

また、有声区間検出部４４は、特徴量、および検出された有声区間を表す有声区間情報を、マッチング部６１およびマッチング部６５に供給するようにしてもよい。

ステップＳ５において、マッチング部６１は、有声区間検出部４４から供給された特徴量を基に、音響モデルデータベース６２、辞書データベース６３、および文法データベース６４を必要に応じて参照しながら、マッチング処理を行うことにより、音声を認識する。マッチング部６１は、マッチング処理を行うことにより得られる音声認識結果を、認識結果統合部４７に供給する。

例えば、ステップＳ５において、マッチング部６１が、バウム・ウェルチのアルゴリズムに基づいて、「立て」および「座れ」の２つの単語を音声認識することができる場合について、説明する。

このとき、音響モデルデータベース６２に記録されている音響モデルは、例えば、図４で示される、日本語の音素に対応する隠れマルコフモデル（HMM）である。図４において、「sil」は、音声以外の信号を表し、例えば、室内環境音や車内環境音などの無音声部分の音響的な特徴をモデル化した音響モデルであり、音声の前後の無音声部分、または音声と音声との間の無音声部分に対応するように設けられた音響モデルである。

なお、音響モデルとしては、その他、例えば、トライフォンHMMや、PHMM（Partly Hidden Markov Model）などの音響モデルを用いることが可能である。

また、例えば、図５で示されるように、辞書データベース６３には、音響モデルデータベース６２に記録されている各音響モデルから、特徴量の系列が観測される確率（出現確率）、発音（情報）、および単語（情報）が記録されている。より具体的には、例えば、発音情報としては、音声認識の対象である単語「立て」に対応する発音情報「ｔａｔｅ」、および、単語「座れ」に対応する発音情報「ｓｕｗａｒｅ」が、それぞれ登録されている。また、「start」および「end」のそれぞれは、言語モデルの始点および終点のそれぞれを示し、発音情報「sil」に対応する。

ここで、発音情報は、各単語に対応する音響モデルの接続情報である。

マッチング部６１は、辞書データベース６３の単語辞書を参照することにより、音響モデルデータベース６２に記録されている音響モデルを接続することで、単語の音響モデル（単語モデル）を構成する。すなわち、マッチング部６１は、発音情報「ｔａｔｅ」を参照することによって、「ｔ」の音響モデル、「ａ」の音響モデル、「ｔ」の音響モデル、および「ｅ」の音響モデルを順に接続して、単語「立て」の単語モデルを生成する。また、同様に、マッチング部６１は、発音情報「ｓｕｗａｒｅ」を参照し、「ｓ」の音響モデル、「ｕ」の音響モデル、「ｗ」の音響モデル、「ａ」の音響モデル、「ｒ」の音響モデル、および「ｅ」の音響モデルを順に接続して、単語「座れ」の単語モデルを生成する。

そして、マッチング部６１は、生成された単語モデル「立て」および「座れ」のそれぞれの音響スコア（特徴量が観測される尤度）を、特徴量の出現確率を基に計算する。

さらに、マッチング部６１は、いくつかの単語モデルを、文法データベース６４に記録されている文法規則を参照することにより接続し、言語モデルを構成する。そして、マッチング部６１は、構成された言語モデルの言語スコアを計算する。

ここで、文法データベース６４には、例えば、図６で示される文法規則が、記録されている。図６において、接続される単語モデルの系列（言語モデル）は、「start」＋「立て」＋「end」および「start」＋「座れ」＋「end」の２通りである。したがって、言語モデルは、「立て」あるいは「座れ」の何れかの単語モデルだけから構成される。この場合、各単語モデルと連鎖する単語モデルがないため、言語スコアは、計算されない。

マッチング部６１は、計算された音響スコアおよび言語スコアを基に、最終的なスコアを計算する。例えば、文法データベース６４に、図６で示される文法規則が、記録されている場合、言語スコアは計算されないので、音響スコアが、最終的なスコアとされる。すなわち、マッチング部６１は、各単語モデルに対する特徴量が観測される尤度を求めて、最も尤度の高い単語モデルを選択する。

マッチング部６１は、計算されたそれぞれの最終的なスコアと閾値とを比較し、閾値よりもスコアが高い言語モデルがある場合、閾値よりもスコアが高い言語モデルのうち、スコアが最も高い言語モデルを検出し、その言語モデルに対応する単語系列を、音声認識結果として出力する。また、マッチング部６１は、閾値よりもスコアが高い言語モデルがない場合、入力音声が、認識されなかった旨を音声認識結果として出力する。

より具体的には、マッチング部６１は、音声が認識された場合、マッチング処理によって認識された単語系列が、音声認識結果であることを示す信号を、認識結果統合部４７に供給し、音声が認識されなかった場合、音声が認識されなかったことを示す信号を、音声認識結果として、認識統合部４７に供給する。

例えば、「立て」のスコアが最も高かった場合、マッチング部６１は、音声認識結果として「立て」を示す信号を、認識結果統合部４７に供給する。

また、各単語モデルの系列のスコアと比較して、閾値が最も高い場合には、すなわち、全てのスコアが閾値以下である場合には、マッチング部６１は、音声が認識できなかったことを示す信号を、認識結果統合部４７に供給する。

なお、連続分布HMM法などにより、マッチング処理を行うようにしてもよい。また、文法データベース２４に記録される文法規則として、文脈自由文法（CFG（Context Free Grammar））や、統計的な単語連鎖率（N−Gram）などに基づく文法規則を用いることもできる。

さらに、音響モデルを接続して、単語モデルを構成する方法として、尤度の最も高い音響モデルを順次接続していくこともできる。この場合、結果として最も高い音響スコアを持つ単語モデルが、ただ１つ得られることになる。

図３のフローチャートの説明に戻り、ステップＳ６において、音声／非音声判定部４６のマッチング部６５は、マッチング処理を行い、入力音声の有声部分が、音声であるか否かの判定を行う。すなわち、音声／非音声判定部４６のマッチング部６５は、有声区間検出部４４によって、音声データのうちの、ユーザによって発声された音声から生成された音声データが配置されている区間であるとして検出された、有声部分に対応する有声区間に含まれる音が音声であるか否かを判定する。ステップＳ５の処理で、音声が認識される有声部分に対応する有声区間について、ステップＳ６において、音声／非音声判定部４６のマッチング部６５によって、音声であるか否かが判定される。マッチング部６５は、音声であるか否かの判定結果、すなわち音声／非音声判定結果を認識結果統合部４７に供給する。

より具体的には、マッチング部６５は、音声であることを示す信号および音声でないことを示す信号のうちの何れか一方を認識結果統合部４７に供給する。音声／非音声の判定処理の詳細は、後述する。

ステップＳ７において、認識結果統合部４７は、マッチング部６１から供給された音声認識結果、および、マッチング部６５から供給された音声／非音声判定結果に基づいて、認識結果統合の処理を行い、音声認識結果の出力を制御して、音声認識の処理は、終了する。なお、認識結果統合処理の詳細は後述する。

このようにして、音声認識装置は、入力された音声信号の音声認識処理を行う。

次に、図７のフローチャートを参照して、図３のステップＳ６の処理に対応する音声／非音声の判定処理について説明する。

ステップＳ１１において、マッチング部６５は、有声区間検出部４４から特徴量が供給されたか否かを判定し、特徴量が供給されていないと判定された場合、ステップＳ１１に戻り、特徴量が供給されるまで、判定の処理を繰り返す。

ステップＳ１１において、特徴量が供給されたと判定された場合、ステップＳ１２に進み、マッチング部６５は、音響モデルデータベース６６、辞書データベース６７、および、文法データベース６８を必要に応じて参照し、単語系列モデル（言語モデル）を構成して、供給された特徴量を基に、マッチング処理を行う。

ここで、図８および図９を参照して、ステップＳ１２における、マッチングの処理の詳細を説明する。

例えば、ステップＳ１２において、マッチング処理部６５は、音響モデルに対応させて、単語系列モデルを構成する。

音響モデルデータベース６６は、日本語の母音に対応する隠れマルコフモデル（HMM）である音響モデルを記録する。辞書データベース６７は、音響モデルに対応する単語モデルを記録する。

例えば、音響モデルデータベース６６には、日本語の母音「ａ」、「ｉ」、「ｕ」、「ｅ」、「ｏ」、および音声以外の信号に対応する「sil」を含む隠れマルコフモデル（HMM）が記録されている。また、辞書データベース６７には、例えば、図８で示される８つの単語に対応する発音情報が記録されている。すなわち、図８で示される例において、言語モデルの始点を示す「start」である単語に対して、発音情報「sil」が記録され、言語モデルの終点を示す「end」である単語に対して発音情報「sil」が記録され、「あ」である単語に対して発音情報「ａ」が記録され、「い」である単語に対して発音情報「ｉ」が記録されている。同様に、「う」である単語に対して発音情報「ｕ」が記録され、「え」である単語に対して発音情報「ｅ」が記録され、「お」である単語に対して発音情報「ｏ」が記録され、母音以外の音を示す非対象語である単語に対して発音情報「sil」が記録されている。

図８において、非対象語は、音声であるか否かの判定の際に、判定の基準とはならない単語であり、無音声部分の音韻情報以外にも、非対象語として、例えば、子音または音楽に対応する発音（音韻）情報を記録するようにしてもよい。非対象語は、１つだけ記録してもよく、あるいは、複数個記録するようにしてもよい。

マッチング部６５は、辞書データベース６７に記録されている単語を参照して、単語に対応して、音響モデルデータベース６６に記録されている音響モデルを選択することで、単語の音響モデル（単語モデル）を構成する。

マッチング部６５は、文法データベース６８に記録されている、単語の遷移に関する制約を基に、単語モデルを接続して、単語系列モデルを生成する。例えば、文法データベース６８は、図９の状態遷移図で示される、単語の遷移に関する制約を記録している。

すなわち、マッチング部６５は、例えば、図９で示される状態遷移に基づいて、単語モデルを接続する。図９で示されるように、「start」の次には、「非対象語」が接続される。「start」の次の「非対象語」の次には、さらに「非対象語」、「end」、または母音「あ」、「い」、「う」、「え」、および「お」のうちの何れか１つである単語が接続される。さらに例えば、「非対象語」の次に再び「非対象語」が接続された場合、さらに加えて「非対象語」、「end」、または母音「あ」、「い」、「う」、「え」、および「お」のうち何れか１つである単語が接続される。

また、「非対象語」の次に母音「あ」、「い」、「う」、「え」、および「お」のうちの何れか１つである単語が接続された場合には、接続された母音である単語の次には、「非対象語」が接続される。そして、母音である単語の次の「非対象語」には、さらに「非対象語」が接続されるか、あるいは「end」が接続される。

さらに「非対象語」が接続されたときは、同様にして、「end」が接続されるまで「非対象語」が接続される。

このようにして、マッチング部６５は、接続された単語モデルが、所定の長さになるまで、状態遷移にしたがって単語モデルを接続して、単語系列モデルを生成する。

すなわち、マッチング部６５によって、「start」、所定の数の「非対象語」、および「end」からなり、母音の単語モデルを含まない単語系列モデルが生成される。また、マッチング部６５によって、「start」および「end」を含み、母音「あ」、「い」、「う」、「え」、および「お」のいずれかを含む単語系列モデルが生成される。

換言すれば、マッチング部６５は、母音の単語モデルを含まない単語系列モデル、および１つの母音の単語モデルを含む単語系列モデルをそれぞれ生成する。

より詳細な例を説明すれば、この場合、接続により得られる単語系列モデルは、「start」＋「非対象語」＋「非対象語」＋「非対象語」＋「非対象語」＋「end」などの非対象語のみが接続された単語系列モデルであるか、または、「start」＋「非対象語」＋「非対象語」＋「あ」＋「非対象語」＋「end」などの非対象語の中に母音が１つ含まれる単語系列モデルとなる。

ここで、「start」の次には、「非対象語」を接続し、「end」の前に「非対象語」を接続するようにしたが、状態遷移に関して、このような制約を設けるようにしてもよく、あるいは、特に設けなくてもよい。また、接続される音響モデルの数は、有声区間の長さに応じて、変化させることが、可能である。

このように、マッチング処理部６５は、マッチングの処理として、音響モデルを接続することによって得られた、各単語系列モデル（言語モデル）について、特徴量の出現確率を基に、音響スコア（特徴量が観測される尤度）を計算する。そして、マッチング部６５は、それぞれに計算された、単語モデルの音響スコアを比較して、音響スコアの最も高い単語モデルを選択する。

以上のように、例えば、ステップＳ１２において、マッチング部６５は、音響モデルデータベース６６、辞書データベース６７、および文法データベース６８を参照して、音響モデルを接続することによって言語モデルを構成し、構成された言語モデルの言語スコアを計算する。そして、マッチング部６５は、言語スコアを基に、スコアの最も高い言語モデルを選択する。

ステップＳ１３において、マッチング部６５は、選択された単語系列モデルの中に、母音が含まれているか否かを判定する。

ステップＳ１３において、選択された単語系列モデルの中に、母音が含まれていると判定された場合、特徴量に対応する音声データに音声が含まれているので、ステップＳ１４に進み、マッチング処理部６５は、選択された単語系列モデルに対応する単語系列が、音声であることを示す信号を、認識結果統合部４７に供給し、音声／非音声の判定処理は、終了する。

一方、ステップＳ１３において、選択された単語モデルの中に、母音が含まれていないと判定された場合、特徴量に対応する音声データに音声が含まれていないので、ステップＳ１５に進み、マッチング部６５は、選択された単語系列モデルに対応する単語系列が、音声でないことを示す信号を認識結果統合部４７に供給し、処理は、終了する。

一般に、日本語のほとんどの音節は、「ん」などの例外を除き、母音を接続するか、または、母音および子音を接続することで構成される。このため、ユーザによって発声された音声から生成された音声信号には、少なくとも１つ以上の母音が含まれていると仮定することができる。すなわち、図８で示される状態遷移に基づいて、マッチング処理を行った場合、音声信号が入力されたときには、母音「あ」、「い」、「う」、「え」、および「お」のいずれかを含む単語系列モデルが高い音響スコアを持つことになる。したがって、ユーザによって発声された音声から生成された音声信号を対象とした場合、非対象語に対応する音響モデルの連鎖の中に、母音に対応する音響モデルのいずれかが含まれる単語系列モデルが、マッチング処理の結果として得られる可能性が高い。

一方、非音声の信号が入力されたときには、母音に対応する音響モデルのいずれかが高い尤度を持つことは、ほとんどないため、母音に対応する音響モデルを含む単語系列モデルが、マッチング処理の結果として得られる可能性は低い。

このように、母音に対応する音響モデルが含まれる単語系列モデルが、マッチング処理の結果として得られた場合、単語系列モデルとマッチングされた特徴量に対応する音声データに音声が含まれている、すなわち、単語系列モデルに対応する単語系列が、音声であると判定し、母音に対応する音響モデルが含まれる単語モデルが、マッチング処理の結果として得られなかった場合、単語系列モデルとマッチングされた特徴量に対応する音声データに音声が含まれていない、すなわち、非音声であると判定することで、入力信号の有声部分が、音声であるか否かの判定を行うことができる。

なお、音声であるか否かの判定の際に、判定の基準とはならない音である非対象音と母音とからなる単語を定義して、単語に母音が含まれているか否かを基に、音声であるか否かを判定するようにしてもよい。

次に、図１０のフローチャートを参照して、図３のステップＳ７の処理に対応する認識結果統合処理について説明する。

ステップＳ２１において、認識結果統合部４７は、マッチング処理部６１から供給された音声認識結果を基に、音声認識処理において、音声が認識されたか否かを判定する。

ステップＳ２１において、音声が認識されたと判定された場合、ステップＳ２２に進み、認識結果統合部４７は、音声／非音声判定部４６のマッチング部６５から供給された音声／非音声判定結果を基に、音声であるか否かを判定する。

ステップＳ２２において、音声であると判定された場合、ステップＳ２３に進み、認識結果統合部４７は、マッチング部６１から供給された音声認識結果をそのまま音声認識結果として出力して、認識結果統合の処理は、終了する。

例えば、ステップＳ２３において、音声認識結果が、「立て」であった場合、認識結果統合部４７は、「立て」を、音声認識結果として出力し、音声認識結果が、「座れ」であった場合、認識結果統合部４７は、「座れ」を、音声認識結果として出力する。

一方、ステップＳ２２において、音声でないと判定された場合、音声認識部４５の誤った音声認識により生じる誤作動を避けるため、音声認識結果は、出力されないで、処理は終了する。すなわち、音声認識結果の出力は、抑制される。

ステップＳ２１において、音声が認識されなかったと判定された場合、処理は、ステップＳ２４に進み、認識結果統合部４７は、音声／非音声判定部４６のマッチング部６５から供給された音声／非音声判定結果を基に、音声であるか否かを判定する。

ステップＳ２４において、音声であると判定された場合、音声ではあるが、認識できない音声が入力されたので、ステップＳ２５に進み、認識結果統合部４７は、音声認識部４５から供給された音声認識結果を出力しないで、ユーザに再入力を促すことを示す信号を出力し、処理は終了する。例えば、ステップＳ２５において、認識結果統合部４７は、「理解できませんでした。立て、あるいは座れという言葉で指示をお願いします。」などの音声を出力させる信号、またはメッセージを表示させる信号を出力する。

このようにすることで、認識できる音声が入力された場合の動作はそのままで、認識できない音声が入力された場合に、誤った認識結果を出力することによる、音声に対する、後段の誤った動作を抑制することができる。

また、ユーザは、音声が入力され、音声の認識の処理が実行されたが、認識できない音声であったことを知ることができる。従って、ユーザが無視されたと感じたり、音声が正常に入力されなかったと誤った判断をしてしまうことを防止することができる。

一方、ステップＳ２４において、音声でないと判定された場合、ステップＳ２５の処理は、スキップされ、音声認識結果を出力しないで、処理は終了する。

ステップＳ２２の処理またはステップＳ２４の処理において、音声でないと判定された場合、何れも、音声認識結果は出力されない。このようにすることで、有声区間検出部４４が、音声を含まない区間を誤って有声区間として検出し、音声認識部４５が、誤って有声区間とされた区間に対して音声認識の処理を適用して、誤った音声認識結果を出力したとしても、音声認識結果を出力しないようにすることができる。

このようにして、認識結果統合部４７は、認識結果統合の処理を行い、音声認識結果の出力を制御する。

なお、音声／非音声判定部４６が、音響モデル６６、辞書データベース６７、および文法データベース６８のそれぞれの代わりに、音響モデル６２、辞書データベース６３、および文法データベース６４のそれぞれを音声認識部４５と共有するようにし、音響スコアの計算の一部を共有化することも可能である。

以上のように、本発明によれば、より確実に音声を認識することができるようになる。

次に、本発明に係る音声認識装置を用いて行った、音声／非音声の判定、すなわち音声であるか否かの判定の評価の実験の結果について説明する。

室内環境において、音声発話を含む信号を記録した後、記録された信号から音声を含む１２０６個の区間と、音声を含まない３００個の区間を切り出し、それぞれの区間の信号に対して、音声認識装置に音声であるか否かを判定させ、その判定が正解であったか否かを調べた。なお、実験には、本明細書の実施の形態で説明した構成を有する音声認識装置を用いた。

その結果、音声信号を含む信号を、音声であると判定する正解率は、９５．６１％であった。一方、音声を含まない信号を非音声であると判定する正解率は、９４．２２％であった。

この結果から、本発明によれば、音声であるか否かの判定を極めて正確に行うことができることがわかる。

上述した一連の処理は、ハードウェアにより実行させることもできるが、ソフトウェアにより実行させることもできる。この場合、例えば、音声認識装置は、所定のプログラムを実行するパーソナルコンピュータで実現することができる。

図１１はパーソナルコンピュータの構成の例を示すブロック図である。CPU（Central Processing Unit）８１は、ROM（Read Only Memory）８２、または記録部８８に記録されているプログラムに従って各種の処理を実行する。RAM（Random Access Memory）８３には、CPU８１が実行するプログラムやデータなどが適宜記憶される。これらのCPU８１、ROM８２、およびRAM８３は、バス８４により相互に接続されている。

CPU８１にはまた、バス８４を介して入出力インタフェース８５が接続されている。入出力インタフェース８５には、マイクロフォン４１、キーボード、マウス、スイッチなどよりなる入力部８６、ディスプレイ、スピーカ、ランプなどによる出力部８７が接続されている。CPU８１は、入力部８６から入力される指令に対応して各種の処理を実行する。

入出力インタフェース８５に接続されている記録部８８は、例えばハードディスクなどで構成され、CPU８１が実行するプログラムや各種のデータを記録する。通信部８９は、図示せぬインターネット、その他のネットワークなどの通信網を介して、外部装置と通信する。

また、通信部８９を介してプログラムを取得し、記録部８８に記録してもよい。

入出力インタフェース８５に接続されているドライブ９０は、磁気ディスク１２１、光ディスク１２２、光磁気ディスク１２３、或いは半導体メモリ１２４などが装着されたとき、それらを駆動し、そこに記録されているプログラムやデータなどを取得する。取得されたプログラムやデータは、必要に応じて記録部８８に転送され、記録される。

一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、記録媒体からインストールされる。

この記録媒体は、図１１に示すように、コンピュータとは別に、ユーザにプログラムを提供するために配布される、プログラムが記録されている磁気ディスク１２１（フレキシブルディスクを含む）、光ディスク１２２（CD-ROM(Compact Disc-Read Only Memory)、DVD(Digital Versatile Disc)を含む）、光磁気ディスク１２３（ＭＤ(Mini-Disc)（商標）を含む）、若しくは半導体メモリ１２４などよりなるパッケージメディアにより構成されるだけでなく、コンピュータに予め組み込まれた状態でユーザに提供される、プログラムが記録されているROM８２や、記録部８８に含まれるハードディスクなどで構成される。

なお、上述した一連の処理を実行させるプログラムは、必要に応じてルータ、モデムなどのインタフェースを介して、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の通信媒体を介してコンピュータにインストールされるようにしてもよい。

また、本明細書において、記録媒体に格納されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。

なお、本明細書において、システムとは、複数の装置により構成される装置全体を表すものである。

次に、本発明に係る音声認識処理を行うロボット装置について、説明する。ロボット装置は、例えば、ペット型ロボット装置とすることができる。

図１２は、本発明に係るロボット装置の一実施の形態の内部構成を示すブロック図である。

ロボット装置は、背中センサ１４１、頭センサ１４２、顎センサ１４３、マイクロフォン１４４、CCD（Charge−Coupled Devices）カメラ１４５、センサ入力処理部１４６、制御部１４７、アクチュエータ１４８、およびスピーカ１４９を備えている。

背中センサ１４１は、ロボットの背中に対応する部位に設けられており、そこに与えられるユーザからの圧力を検出し、その圧力に対応する圧力検出信号をＡＤ変換し、ＡＤ変換された信号をセンサ入力処理部１４６に出力する。

頭センサ１４２および顎センサ１４３は、ロボットの頭部に対応する部位に設けられており、例えば、ユーザからの「撫でる」や「叩く」といった物理的な働きかけにより受けた圧力を検出し、その検出結果を圧力検出信号として、ＡＤ変換し、ＡＤ変換された信号をセンサ入力部１４６に出力する。

また、頭部には、耳の役割として機能するマイクロフォン１４４、および、目の役割として機能するCCDカメラ１４５が設けられている。

マイクロフォン１４４は、ユーザからの発話を含む周囲の音声を集音し、得られた音声信号を、ＡＤ変換部し、ＡＤ変換した音声信号をセンサ入力処理部１４６に出力する。CCDカメラ１４５は、周囲の状況を撮像し、得られた画像信号を、ＡＤ変換し、ＡＤ変換された画像信号をセンサ入力部１４６に出力する。

センサ入力処理部１４６は、背中センサ１４１、頭センサ１４２、顎センサ１４３、マイクロフォン１４４、CCDカメラ１４５からそれぞれ供給される圧力検出信号、音声信号、画像信号等に基づいて、特定の外部状態や、ユーザからの特定の働きかけ、ユーザからの指示等を認識し、その認識結果を表す状態認識情報を、制御部１４７のモデル記憶部１６１および行動決定機構部１６２に通知する。例えば、状態認識情報には、センサ入力処理部１４６が、マイクロフォン１４４から供給された音声信号を基に、音声認識を行った結果として、制御部１４７に供給する音声認識結果などが、含まれる。

制御部１４７は、モデル記憶部１６１、行動決定機構部１６２、姿勢遷移機構部１６３、制御機構部１６４、および音声合成部１６５を含む。

モデル記憶部１６１は、ロボットの感情、本能、および成長の状態を表現する感情モデル、および本能モデル、成長モデルをそれぞれ記憶し、管理している。

ここで、感情モデルは、例えば、「うれしさ」、「悲しさ」、「怒り」、および「楽しさ」等の感情の状態（度合い）を、所定の範囲（例えば、−１．０乃至１．０等）の値によってそれぞれ表し、センサ入力処理部１４６からの状態認識情報や時間経過等に基づいて、その感情の状態を表す値を変化させる。

本能モデルは、例えば、「食欲」、「睡眠欲」、および「運動欲」等の本能による欲求の状態（度合い）を、所定の範囲の値によってそれぞれ表し、センサ入力処理部１４６からの状態認識情報や時間経過等に基づいて、その欲求の状態を表す値を変化させる。

成長モデルは、例えば、「幼年期」、「青年期」、「熟年期」、および「老年期」等の成長の状態（度合い）を、所定の範囲の値によってそれぞれ表し、センサ入力処理部１４６からの状態認識情報や時間経過等に基づいて、その成長の状態を表す値を変化させる。

モデル記憶部１６１は、上述のようにして感情モデル、本能モデル、および成長モデルの値で表される感情、本能、および成長の状態を、状態情報として、行動決定機構部１６２に送出する。

なお、モデル記憶部１６１には、センサ入力処理部１４６から状態認識情報が供給される他に、行動決定機構部１６２から、ペット型ロボットの現在または過去の行動、具体的には、例えば、「長時間歩いた」などの行動の内容を示す行動情報が供給されるようになっており、モデル記憶部１６１は、同一の状態認識情報が与えられても、行動情報が示すペット型ロボットの行動に応じて、異なる状態情報を生成するようになっている。

例えば、ペット型ロボットが、ユーザに挨拶をし、ユーザに頭を撫でられた場合には、ユーザに挨拶をしたという行動情報と、頭を撫でられたという状態認識情報とが、モデル記憶部１６１に与えられ、この場合、モデル記憶部１６１では、「うれしさ」を表す感情モデルの値が増加される。

行動決定機構部１６２は、センサ入力処理部１４６からの状態認識情報や、モデル記憶部１６１からの状態情報、時間経過等に基づいて、次の行動を決定し、決定された行動の内容を、行動指令情報として、姿勢遷移機構部１６３に出力する。

即ち、行動決定機構部１６２は、ペット型ロボットがとり得る行動をステート（状態）(state)に対応させた有限オートマトンを、ペット型ロボットの行動を規定する行動モデルとして管理している。そして、行動決定機構部１６２は、この行動モデルとしての有限オートマトンにおけるステートを、センサ入力処理部１４６からの状態認識情報や、モデル記憶部１６１における感情モデル、本能モデル、または成長モデルの値、時間経過等に基づいて遷移させ、遷移後のステートに対応する行動を、次にとるべき行動として決定する。

ここで、行動決定機構部１６２は、所定のトリガ（trigger）があったことを検出すると、ステートを遷移させる。即ち、行動決定機構部１６２は、例えば、現在のステートに対応する行動を実行している時間が所定時間に達したときや、特定の状態認識情報を受信したとき、モデル記憶部１６１から供給される状態情報が示す感情や、本能、成長の状態の値が所定の閾値以下または以上になったとき等に、ステートを遷移させる。

なお、行動決定機構部１６２は、上述したように、センサ入力処理部１４６からの状態認識情報だけでなく、モデル記憶部１６１における感情モデルや、本能モデル、成長モデルの値等にも基づいて、行動モデルにおけるステートを遷移させることから、同一の状態認識情報が入力されても、感情モデルや、本能モデル、成長モデルの値（状態情報）によっては、ステートの遷移先は異なるものとなる。

その結果、行動決定機構部１６２は、例えば、状態情報が、「怒っていない」こと、および「お腹がすいていない」ことを表している場合において、状態認識情報が、「目の前に手のひらが差し出された」ことを表しているときには、目の前に手のひらが差し出されたことに応じて、「お手」という行動をとらせる行動指令情報を生成し、生成された行動指令情報を、姿勢遷移機構部１６３に送出する。

また、行動決定機構部１６２は、例えば、状態情報が、「怒っていない」こと、および「お腹がすいている」ことを表している場合において、状態認識情報が、「目の前に手のひらが差し出された」ことを表しているときには、目の前に手のひらが差し出されたことに応じて、「手のひらをぺろぺろなめる」ような行動を行わせるための行動指令情報を生成し、生成された行動指令情報を、姿勢遷移機構部１６３に送出する。

なお、行動決定機構部１６２には、モデル記憶部１６１から供給される状態情報が示す感情や、本能、成長の状態に基づいて、遷移先のステートに対応する行動のパラメータとしての、例えば、歩行の速度や、手足を動かす際の動きの大きさおよび速度などを決定させることができ、この場合、それらの遷移先のステートに対応する行動パラメータを含む行動指令情報が、姿勢遷移機構部１６３に送出される。

また、行動決定機構部１６２では、上述したように、ペット型ロボットの頭部や手足等を動作させる行動指令情報の他、ペット型ロボットに発話を行わせる行動指令情報も生成される。そして、ペット型ロボットに発話させる行動指令情報は、音声合成部１６５に供給されるようになっている。音声合成部１６５は、行動指令情報を受信すると、受信された行動指令情報にしたがって音声合成を行い、得られた合成音を、スピーカ１４９から出力させる。

姿勢遷移機構部１６３は、行動決定機構部１６２から供給される行動指令情報に基づいて、ペット型ロボットの姿勢を、現在の姿勢から次の姿勢に遷移させるための姿勢遷移情報を生成し、これを制御機構部１６４に送出する。

ここで、現在の姿勢から次に遷移可能な姿勢は、例えば、胴体や手や足の形状、重さ、各部の結合状態のようなペット型ロボットの物理的形状と、関節が曲がる方向や角度のようなアクチュエータ１４８の機構とによって決定される。

また、次の姿勢としては、現在の姿勢から直接遷移可能な姿勢と、直接には遷移できない姿勢とがある。例えば、４本足のペット型ロボットは、手足を大きく投げ出して寝転んでいる状態から、伏せた状態へ直接遷移することはできるが、立った状態へ直接遷移することはできず、一旦、手足を胴体近くに引き寄せて伏せた姿勢になり、それから立ち上がるという２段階の動作が必要である。また、安全に実行できない姿勢も存在する。例えば、４本足のペット型ロボットは、その４本足で立っている姿勢から、両前足を挙げてバンザイをしようとすると、簡単に転倒してしまう。

このため、姿勢遷移機構部１６３は、直接遷移可能な姿勢をあらかじめ登録しておき、行動決定機構部１６２から供給される行動指令情報が、直接遷移可能な姿勢を示す場合には、行動決定機構部１６２から供給される行動指令情報を制御機構部１６４に送出する。

一方、行動指令情報が、直接遷移不可能な姿勢を示す場合には、姿勢遷移機構部１６３は、遷移可能な他の姿勢に一旦遷移した後に、目的の姿勢まで遷移させるような姿勢遷移情報を生成し、制御機構部１６４に送出する。これによりロボットが、遷移不可能な姿勢を無理に実行しようとする事態や、転倒するような事態を回避することができるようになっている。

制御機構部１６４は、姿勢遷移機構部１６３からの姿勢遷移情報にしたがって、アクチュエータ１４８を駆動するための制御信号を生成し、生成された制御信号を、各部のアクチュエータ１４８に送出する。

図１３は、センサ入力処理部１４６の機能のうち、マイクロフォン１４４から供給される音声信号を処理する機能の詳細な構成の例を示すブロック図である。なお、図中、図１２における場合と対応する部分については、同一の符号を付してあり、繰り返しになるので、以下では、その説明は、適宜省略する。

センサ入力処理部１４６は、ＡＤ変換部１８１、特徴抽出部１８２、有声区間検出部１８３、音声認識部１８４、音声／非音声判定部１８５、および認識結果統合部１８６を含む。ＡＤ変換部１８１、特徴抽出部１８２、有声区間検出部１８３、音声認識部１８４、音声／非音声判定部１８５、および認識結果統合部１８６のそれぞれは、図２におけるＡＤ変換部４２、特徴抽出部４３、有声区間検出部４４、音声認識部４５、音声／非音声判定部４６、および認識結果統合部４７のそれぞれと同様なので、その説明は、省略する。

音声認識部１８４は、マッチング部２０１、音響モデルデータベース２０２、辞書データベース２０３、および文法データベース２０４を備える。マッチング部２０１、音響モデルデータベース２０２、辞書データベース２０３、および文法データベース２０４のそれぞれは、図２のマッチング部６１、音響モデルデータベース６２、辞書データベース６３、および文法データベース６４のそれぞれと同様なので、その説明は省略する。

音声／非音声判定部１８５は、マッチング部２０５、音響モデルデータベース２０６、辞書データベース２０７、および文法データベース２０８を備える。マッチング部２０５、音響モデルデータベース２０６、辞書データベース２０７、および文法データベース２０８のそれぞれは、図２のマッチング部６５、音響モデルデータベース６６、辞書データベース６７、および文法データベース６８のそれぞれと同様なので、その説明は省略する。

認識結果統合部１８６は、マッチング部２０１から供給された音声認識結果、および、マッチング部２０５から供給された音声／非音声判定結果を基に、認識結果統合の処理を行い、最終的な音声認識結果の出力を制御する。

例えば、制御部１４７は、認識結果統合部１８６から供給された最終的な音声認識結果に対応する処理を実行する。制御部１４７は、処理を実行するための制御信号を生成し、生成した制御信号を各部のアクチュエータ１４８に供給する。

また、制御部１４７は、認識結果統合部１８６から供給された最終的な音声認識結果に対応する処理として、スピーカ１４９に音声を出力させる場合、音声合成を行い、合成された合成音の駆動信号をスピーカ１４９に供給する。

アクチュエータ１４８は、制御部１４９から供給された制御信号に基づいて、ロボット装置の各部を駆動する。

スピーカ１４９は、制御部１４７から供給された合成音の駆動信号を基に、合成音を出力する。

図１４のフローチャートを参照して、音声認識プログラムを実行するロボット装置による音声認識処理について説明する。

ステップＳ４１乃至ステップＳ４７の処理のそれぞれは、図３におけるステップＳ１乃至ステップＳ７の処理のそれぞれと同様なので、その説明は省略する。

ステップＳ４８において、制御部１４７は、認識結果統合部１８６から供給された最終的な音声認識結果に対応する処理の実行を制御して、処理は終了する。

例えば、ステップＳ４８において、制御部１４７は、最終的な音声認識結果に基づいて、アクチュエータ１４８を駆動させる場合、最終的な音声認識結果に対応して、各部のアクチュエータの行動を制御するための制御信号を生成し、生成した制御信号を各部のアクチュエータ１４８に供給する。アクチュエータ１４８は、制御部１４９から供給された制御信号に基づいて、ロボット装置の各部を駆動する。

また、制御部１４７は、認識結果統合部１８６から供給された最終的な音声認識結果に対応する処理として、スピーカ１４９に音声を出力させる場合、音声合成を行い、合成された合成音の駆動信号をスピーカ１４９に供給し、スピーカ１４９は、制御部１４７から供給された駆動信号を基に、合成音を出力する。

例えば、ステップＳ４７の認識結果統合の処理において、音声が認識されていないと判定されて、音声であると判定された場合、再入力を促す音声をスピーカ１４９から出力させるとき、ロボット装置は、ユーザに対して、「理解できませんでした。立て、あるいは座れという言葉で指示をお願いします。」のような合成音を出力することにより、ユーザに再入力を促すことが可能である。

認識結果統合部１８６は、ステップＳ４７の認識結果統合の処理において、音声が認識されていないと判定されて、音声であると判定された場合、音声認識結果を出力しないので、認識できる音声が入力された場合の動作はそのままで、認識できない音声が入力された場合に、誤った認識結果を出力することによる、音声に対する、制御部１４７の誤った動作の制御を抑制することができる。

また、この場合、ユーザは、音声が入力され、音声の認識の処理が実行されたが、認識できない音声であったことを知ることができる。従って、ユーザが無視されたと感じたり、音声が正常に入力されなかったと誤った判断をしてしまうことを防止することができる。

また、音声認識処理と音声／非音声判定処理とを、同じ特徴量を基に、処理を行うことで、システムを簡素化することが可能となる。さらに、また、音声／非音声判定部８５が、音響モデル２０６、辞書データベース２０７、および文法データベース２０８のそれぞれの代わりに、音響モデル２０２、辞書データベース２０３、および文法データベース２０４のそれぞれを音声認識部１８４と共有するようにし、音響スコアの計算の一部を共有化することも可能である。

このようにして、ロボット装置は、入力信号の音声認識処理を行う。

本発明は、音声による地名の問い合わせに対して、対応する地図情報を表示するデータベース検索装置、音声による命令に対して荷物の仕分けを行う産業用ロボット、音声の指令によって所定の処理を実行するコンピュータのアプリケーションプログラム、キーボードに代えて音声を入力してテキストデータを生成するディクテーションシステム、またはユーザと会話するロボット対話システムなどに適用することができる。

音声認識処理において、音声であるか否かを判定し、音声であるか否かの判定結果を利用して、音声が入力された場合のみ、音声を認識して、音声が入力されていない場合、音声を認識しないようにすることで、音声以外の信号が入力された場合の誤動作を防止することができる。

音声であるか否かの判定は、携帯電話機、テレビ会議システム、または、レコーダなど、音声信号のみを録音するか、または音声信号のみを送信する機器においても利用することができる。

なお、ロボット装置は、ペット型ロボット装置に限らず、産業用ロボットまたは非産業用ロボットなど、自動制御によるマニピュレーション機能または移動機能を有し、各種の作業をプログラムによって実行できる機械であればよい。

従来の音声認識装置の構成を示すブロック図である。本発明に係る音声認識装置の一実施の形態の構成を示すブロック図である。音声認識の処理を説明するフローチャートである。音声認識部の音響モデルを説明する図である。音声認識部の発音情報を説明する図である。音声認識部の文法規則を説明する図である。音声／非音声の判定処理を説明するフローチャートである。音声／非音声判定部の発音情報を説明する図である。単語モデルの接続を説明する状態遷移図である。認識結果統合の処理を説明するフローチャートである。パーソナルコンピュータの構成の例を示すブロック図である。本発明に係るロボット装置の一実施の形態の内部構成を示すブロック図である。センサ入力処理部の詳細な構成の例を示すブロック図である。ロボット装置による音声認識の処理を説明するフローチャートである。

符号の説明

４３特徴抽出部，４４有声区間検出部，４５音声認識部，４６音声／非音声判定部，４７認識結果統合部，６１マッチング部，６５マッチング部，６６音響モデルデータベース，６７辞書データベース，６８文法データベース，８１ＣＰＵ，８２ＲＯＭ，８３ＲＡＭ，８８記録部，１２１磁気ディスク，１２２光ディスク，１２３光磁気ディスク，１２４半導体メモリ１４６センサ入力処理部，１４７制御部，１８２特徴抽出部，１８３有声区間検出部，１８４音声認識部，１８５音声／非音声判定部，１８６認識結果統合部，２０１マッチング部，２０５マッチング部，２０６音響モデルデータベース，２０７辞書データベース，２０８文法データベース

Claims

入力信号の音響的な特徴を示す特徴量を基に、音声を認識する音声認識手段と、
前記音声認識手段により認識される前記音声に対応する前記入力信号の前記特徴量を基に、音声であるか否かを判定する判定手段と
を備え、
前記判定手段は、前記入力信号に対応するシンボルの系列を決定するマッチング手段を含み、
前記判定手段は、前記マッチング手段により決定される前記シンボルの系列に、音声に対応する前記シンボルが含まれるか否かを判定することにより、音声であるか否かを判定する
ことを特徴とする音声認識装置。
前記判定手段によって、音声であると判定された場合、前記音声認識手段によって、音声が認識されたとき、音声認識手段によって認識された認識結果を出力し、前記判定手段によって、音声でないと判定された場合、前記音声認識手段によって認識された前記認識結果の出力を抑制するように、出力を制御する出力制御手段をさらに備える
ことを特徴とする請求項１に記載の音声認識装置。
前記出力制御手段は、前記判定手段によって、音声であると判定された場合、前記音声認識手段によって、音声が認識されないとき、所定のメッセージを出力するように、出力を制御する
ことを特徴とする請求項２に記載の音声認識装置。
前記音声認識手段は、単語系列を構成する単語を決定することにより、音声を認識し、前記判定手段は、前記単語が音声であるか否かを判定する
ことを特徴とする請求項１に記載の音声認識装置。
前記判定手段は、母音が含まれるか否かを基に、前記単語が音声であるか否かを判定する
ことを特徴とする請求項４に記載の音声認識装置。
入力信号の音響的な特徴を示す特徴量を基に、音声を認識する音声認識ステップと、
前記音声認識ステップにおいて認識される前記音声に対応する前記入力信号の前記特徴量を基に、音声であるか否かを判定する判定ステップと
を含み、
前記判定ステップは、前記入力信号に対応するシンボルの系列を決定するマッチングステップを含み、
前記判定ステップにおいて、前記マッチングステップにおいて決定される前記シンボルの系列に、音声に対応する前記シンボルが含まれるか否かが判定されることにより、音声であるか否かが判定される
ことを特徴とする音声認識方法。
入力信号から音声を認識する音声認識処理用のプログラムであって、
前記入力信号の音響的な特徴を示す特徴量を基に、音声を認識する音声認識ステップと、
前記音声認識ステップにおいて認識される前記音声に対応する前記入力信号の前記特徴量を基に、音声であるか否かを判定する判定ステップと
を含み、
前記判定ステップは、前記入力信号に対応するシンボルの系列を決定するマッチングステップを含み、
前記判定ステップにおいて、前記マッチングステップにおいて決定される前記シンボルの系列に、音声に対応する前記シンボルが含まれるか否かが判定されることにより、音声であるか否かが判定される
ことを特徴とするコンピュータが読み取り可能なプログラムが記録されている記録媒体。
入力信号から音声を認識する音声認識処理を、コンピュータに行わせるプログラムにおいて、
前記入力信号の音響的な特徴を示す特徴量を基に、音声を認識する音声認識ステップと、
前記音声認識ステップにおいて認識される前記音声に対応する前記入力信号の前記特徴量を基に、音声であるか否かを判定する判定ステップと
を含み、
前記判定ステップは、前記入力信号に対応するシンボルの系列を決定するマッチングステップを含み、
前記判定ステップにおいて、前記マッチングステップにおいて決定される前記シンボルの系列に、音声に対応する前記シンボルが含まれるか否かが判定されることにより、音声であるか否かが判定される
ことを特徴とするプログラム。
音声を取得して、音声に対応する信号を出力する音声取得手段と、
前記信号の音響的な特徴を示す特徴量を基に、音声を認識する音声認識手段と、
前記音声認識手段により認識される前記音声に対応する前記信号の前記特徴量を基に、音声であるか否かを判定する判定手段と、
前記判定手段によって、音声であると判定された場合、前記音声認識手段によって、音声が認識されたとき、音声認識手段によって認識された認識結果を出力し、前記判定手段によって、音声でないと判定された場合、前記音声認識手段によって認識された前記認識結果の出力を抑制するように、出力を制御する出力制御手段と、
前記出力制御手段により、出力された前記認識結果に対応して処理を実行する処理実行手段と
を備えることを特徴とするロボット装置。
前記出力制御手段は、前記判定手段によって、音声であると判定された場合、前記音声認識手段によって、音声が認識されないとき、前記処理実行手段に、所定のメッセージを出力させる旨の指示を出力するように、出力を制御し、
前記処理実行手段は、前記出力制御手段の指示に基づいて、前記メッセージを出力する処理を実行する
ことを特徴とする請求項９に記載のロボット装置。
前記音声認識手段は、単語系列を構成する単語を決定することにより、音声を認識し、前記判定手段は、前記単語が音声であるか否かを判定する
ことを特徴とする請求項９に記載のロボット装置。
前記判定手段は、母音が含まれるか否かを基に、前記単語が音声であるか否かを判定する
ことを特徴とする請求項１１に記載のロボット装置。