JP4581549B2

JP4581549B2 - 音声処理装置および方法、記録媒体、並びにプログラム

Info

Publication number: JP4581549B2
Application number: JP2004233007A
Authority: JP
Inventors: 活樹南野; 敬一山田; 一美青山; 厚夫廣江; 康広小玉; 康治浅野
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2004-08-10
Filing date: 2004-08-10
Publication date: 2010-11-17
Anticipated expiration: 2024-08-10
Also published as: JP2006053203A

Description

本発明は音声処理装置および方法、記録媒体、並びにプログラムに関し、特に、入力音声から、ユーザの発話の意思を抽出する場合に用いて好適な音声処理装置および方法、記録媒体、並びにプログラムに関する。

昨今、音声認識を応用した製品やサービスの実用化が、盛んに行われるようになってきた。

音声認識とは、音響的な特徴を表す特徴量の出現確率などによって、入力音声に対応する単語の系列を推定し、推定された単語の系列によって音声を認識する技術のことである。音声認識技術およびアプリケーションプログラムを組み合わせることで、様々な製品やサービスの提供が可能になる。

従来の音声認識装置は、図１で示されるように構成される。

図１において、ユーザが発した音声は、マイクロフォン１１に入力（取得）され、マイクロフォン１１では、入力された入力音声が、電気信号としての音声信号に変換される。変換によって生成された音声信号は、ＡＤ（Analog Digital）変換部１２に供給される。ＡＤ変換部１２では、マイクロフォン１１からのアナログ信号である音声信号が、サンプリングされて、量子化され、デジタル信号である音声データに変換される。この音声データは、特徴抽出部１３に供給される。

特徴抽出部１３は、ＡＤ変換部１２から供給された音声データについて、所定のフレームごとに（微小時間毎に）音響分析処理を適用し、特徴量を生成することによって、音声データの特徴を抽出する。

特徴抽出部１３において生成された特徴量はマッチング部１４に供給される。マッチング部１４は、特徴抽出部１３から供給された特徴量を基に、音響モデルデータベース１５、辞書データベース１６、および文法データベース１７を必要に応じて参照しながら、マイクロフォン１１に入力された入力音声を認識する。

すなわち、音響モデルデータベース１５は、音声認識する音声の言語における個々の音素や音節などの所定の単位（PLU（Phoneme Like Units））ごとの音響的な特徴を表す音響モデルを記録している。音響モデルとして、HMM（Hidden Markov Model）が用いられる。辞書データベース１６は、認識対象の各単語（語彙）について、各単語ごとの発音に関する情報（音韻情報）が記述された単語辞書、および各音響モデルから特徴量が観測される確率を記録している。文法データベース１７は、辞書データベース１６の単語辞書に登録されている各単語が、どのように連鎖する（つながる）かを記述した文法規則を記録している。

マッチング部１４は、辞書データベース１６の単語辞書を参照することにより、音響モデルデータベース１５に記録されている音響モデルを接続して、単語の音響モデル（単語モデル）を構成する。さらに、マッチング部１４は、いくつかの単語モデルを、文法データベース１７に記録された文法規則を参照することにより接続し、そのようにして接続された単語モデルを用いて、特徴量の時系列に基づき、マイクロフォン１１に入力された音声を認識する。すなわち、マッチング部１４は、上述したようにして構成された各単語モデルの系列（以下、単語モデル系列と称する）から、特徴量の時系列が観測される尤度を表すスコアを計算する。そして、マッチング部１４は、そのスコアが最も高い単語モデル系列を検出し、その単語モデル系列に対応する単語系列を、音声の認識結果として出力する。以下、マッチング部１４による音声認識の処理をマッチング処理とも称する。

スコア計算は、一般に、音響モデルデータベース１５に記録された音響モデルによって与えられる音響的なスコア（以下、適宜、音響スコアと称する。）と、文法データベース１７に記録された文法規則によって与えられる言語的なスコア（以下、適宜、言語スコアと称する。）とを総合評価することで行われる。

すなわち、音響スコアは、単語モデルを構成する音響モデルから、特徴抽出部１３が出力する特徴量の系列が観測される確率（出現確率）に基づいて、単語ごとに計算される。また、言語スコアは、例えば、バイグラムによる場合には、注目している単語と、その単語の直前の単語とが連鎖（連接）する確率に基づいて、求められる。そして、各単語についての音響スコアと言語スコアとを総合評価して得られる最終的なスコア（以下、総合スコアと称する）に基づいて、音声認識結果が確定される。

例えば、ユーザが、「今日はいい天気ですね。」と発声した場合、「今日」、「は」、「いい」、「天気」、「ですね」のような単語の系列が、音声認識結果として得られることになる。このとき、各単語に対して、音響スコアおよび言語スコアが与えられる。

また、従来、音声認識装置として、計算効率を高めるために、マッチング処理を並列して行うものもある（例えば、特許文献１参照）。この音声認識装置においては、複数の言語モデルが用いられ、言語モデルごとにマッチング処理が行われる。そして、入力音声に最も適合する単語系列が決定される。なお、ここで、言語モデルとは、マッチング処理に用いられる単語辞書および文法規則をいう。

さらに、アプリケーションプログラムごとに、異なる言語モデルを用いてマッチング処理を行い、音声認識の結果としての単語系列を決定する音声認識装置もある。

上述した音声認識の技術は、製品やサービスに応用することができる。例えば、予めロボットに単語「立って」を登録しておくことによって、ユーザがロボットに対して「立って」と発話した場合、ロボットが、ユーザによって発声された音声を認識し、認識された単語「立って」に対応して、ロボットが立ち上がるように制御することができる。このとき、ロボットは、音声として認識した単語「立って」に対して、対応する動作を直接関係付けることになる。

また、音声として認識された単語を基に、予め登録されている複数の意思から、ユーザの発話に含まれる意思を選択（抽出）し、選択された意思に対して、対応する動作を関係付けるようにすることができる。

ここで、意思とは、ユーザの発話に含まれる発話目的であり、例えば、ユーザが、音声を認識することができるロボットに対して「立って」と発話した場合、発話には、ユーザが、ロボットを立たせようとする意思（目的）が含まれている。したがって、例えば、単語「立って」、「起きて」、または「立ち上がって」が音声として認識された場合、ロボットが、ユーザの発話に含まれる意思として、意思「立って下さい」を選択するように予め登録しておくことによって、認識された単語を基に、意思「立って下さい」が選択されたとき、ロボットが立ち上がるように制御することができる。

また、例えば、ユーザが、音声を認識するロボットに対して、「今日は暑いですね」と発話した場合、発話には、ユーザが今日は暑いと感じている旨をロボットに対して伝えようとする意思が含まれている。したがって、例えば、単語系列「今日は暑いですね」が音声として認識された場合、ロボットが、ユーザの発話に含まれる意思として、意思「今日は暑いですね」を選択するように予め登録しておくことによって、認識された単語系列を基に、意思「今日は暑いですね」が選択されたとき、例えば、ロボットが音声「そうですね」を出力するように制御することができる。

一般に、同一の意思の発話は、数多く存在するため、認識された音声に対応して、動作を関係付ける方法としては、音声として認識された１つの単語系列に対して、１つの動作を対応させるよりも、音声として認識された単語系列に対応するユーザの意思に対して、１つの動作を対応させる方が、１つの意思に対して、複数の単語系列を対応させることができるため、単語系列に対応する動作（処理）の割り当ては、容易である。

音声として認識された単語系列に対応する意思を選択する方法としては、ユーザが発声した音声に対して、音声認識処理を行い、１または複数の単語モデル系列を構成し、構成された単語モデル系列に対応する単語系列に対して、形態素解析、構文解析、句構造解析、または意味解析などの言語処理を行うことによって、ユーザの発話に含まれる意思を抽出する方法が提案されている。このように、音声認識の結果として得られた単語系列に言語処理を適用することによって、ユーザの発話に含まれる意思を抽出する技術は、一般に音声理解と称され、ユーザの発話に含まれる意思を抽出する装置は、音声理解装置と称されている。

従来の音声理解装置は、音声認識結果として得られた単語系列に対して、構文解析および意味解析を適用することによって、特定のまとまった意味を持つ語句である概念要素を抽出し、抽出された概念要素を基に、発話の意思を選択する（例えば、特許文献２参照）。

また、音声認識結果として得られた単語系列に対して構文解析を適用し、構文解析を適用することによって得られた構文情報を基に、ユーザの意思を選択するものもある（例えば、特許文献３参照）。

さらに、キーワードに対応するユーザの意思をあらかじめ登録しておき、音声認識結果として得られた単語系列に含まれるキーワードを抽出する装置もある（例えば、特許文献４参照）。この装置においては、抽出されたキーワードを基に、意思が選択される。

しかしながら、上述したユーザの意思を選択する方法においては、音声認識処理および言語処理は、それぞれ独立して処理が行われるため、それぞれの処理において異なる文法データベースおよび辞書データベースが必要であった。また、辞書データベースに記録している語彙（単語）に変更があった場合、音声認識処理に用いられる文法データベースと、言語処理に用いられる文法データベースとを調和（整合）をとりながら変更しなければならなかった。

この問題を解決する方法として、ユニファイされた文法コンパイラを用いることにより、音声認識処理に用いられる文法と、言語処理に用いられる文法とを統一的に扱う音声理解装置もある（例えば、特許文献５参照）。この装置においては、ユニファイされた文法コンパイラによってコンパイルされた音声認識処理用の文法が、言語処理用の文法として用いられる。

また、従来、音声認識の結果として得られた単語を他の単語に置き換えて出力する音声認識置もある。この装置においては、音声認識の結果として「立って」、「起きて」、または「立ち上がって」が得られた場合、単語「立ってください」を出力することができる。この場合、音声認識に用いる辞書データベースの出力を調整することで、ユーザの発話の意思を抽出することができ、後段において、抽出した意思に対応する動作を割り当てることができる。

しかしながら、ユーザが、「明日の東京の天気を教えてください」、「東京の明日の天気は」、「明日の天気東京の教えてくれる」などと発話し、音声認識装置が、ユーザが発話した音声を複数の単語を組み合わせた単語系列として認識する場合、音声認識の結果として得られた単語を他の単語に置き換えて出力するだけでは、ユーザの発話の意思を抽出することは困難である。

そこで、「明日の東京の天気を教えてください」、「東京の明日の天気は」、および「明日の天気東京の教えてくれる」のそれぞれを１つの単語とし、それぞれの出力を全て同一の意思として「明日の東京の天気を教えてください」と置き換え、置き換えた意思「明日の東京の天気を教えてください」を出力することにより、ユーザの発話の意思を抽出することができる。

特表２００３−５１５７７８号公報

国際公開第９９／６３４２５号パンフレット

特開平７−２１９９６１号公報

特開２００１−１３９９２号公報

特開平８−６３１８１号公報

しかしながら、上述した、音声認識の結果として得られた単語を他の単語に置き換えて出力する方法においては、単語系列を１つの単語として認識することで、ユーザの発話の意思を抽出することができるが、単語の組み合わせが異なるだけの単語系列、単語の配置が異なるだけの単語系列など、同一の意思の単語系列は数多く存在するため、単語系列の数が多くなると、厖大な処理が必要となってしまうという問題があった。

また、上述した技術においては、入力音声からユーザの発話の意思を抽出する場合、音声認識処理の結果を基に、さらに言語処理を行う必要があった。さらに、この場合、音声認識処理において、正確な結果が得られないときには、後段の言語処理において、入力音声からユーザの発話の意思を正確に抽出することができなかった。また、言語処理に用いる文法データベースおよび辞書データベースとして、音声認識処理に用いる文法データベースおよび辞書データベースとは異なるものが必要であった。

したがって、音声処理装置を構成するシステムが煩雑になってしい、その結果、音声処理装置の開発および設計における負担が大きくなってしまうという課題があった。

本発明は、このような状況に鑑みてなされたものであり、より簡単な構成で、ユーザの発話の意思を抽出することができるようにするものである。

本発明の音声処理装置は、音声信号の音響的な特徴を示す特徴量を抽出する特徴量抽出手段と、音響モデルを記憶する音響モデル記憶手段と、１つの意思を示す意思情報ごとに、意思情報に対応する複数の例文から生成されたN‐gramに基づく文法規則と、単語辞書とから構成される言語モデルを記憶する言語モデル記憶手段と、意思情報に対応する文法規則および単語辞書に基づいて構成された単語系列と、入力された音声信号との音響的な類似度を示す音響スコアを、特徴量を基に算出する音響スコア算出手段と、意思情報に対応する単語系列と、音声信号との言語的な類似度を示す言語スコアを、単語系列に対応する意思情報の言語モデルを用いて算出する言語スコア算出手段と、意思情報ごとに、特徴量、音響モデル、および意思情報の言語モデルを用いて、１または複数の単語系列を構成するとともに、音響スコアおよび言語スコアを基に、単語系列の音声認識結果としての尤度を示す総合スコアを算出し、意思情報に対応する１または複数の単語系列のうち、総合スコアが最も高い単語系列の総合スコアを、対応する意思情報の総合スコアとするマッチング手段と、複数の意思情報のうち、総合スコアが最も高い意思情報をユーザの意思を示す意思情報として選択する選択手段とを備えることを特徴とする。

選択手段は、複数の意思情報のうち、総合スコアの高い順に、所定の順位までの意思情報をユーザの発話の意思の候補として選択するようにすることができる。

言語モデル記憶手段は、所定の単語が、他の単語と置き換え可能なクラスを用いて表された文法規則と、単語辞書とから構成された、意思情報ごとの言語モデルを記憶し、マッチング手段は、構成した単語系列に含まれるクラスに属する単語のうち、音響スコアの最も高い単語を、クラスに最も適合する単語としてさらに選択するようにすることができる。

本発明の音声処理方法、記録媒体のプログラム、またはプログラムは、音声信号の音響的な特徴を示す特徴量を抽出する特徴量抽出ステップと、１つの意思を示す意思情報に対応する複数の例文から生成されたN‐gramに基づく文法規則と、単語辞書とに基づいて構成された単語系列と、入力された音声信号との音響的な類似度を示す音響スコアを、特徴量を基に算出する音響スコア算出ステップと、意思情報に対応する単語系列と、音声信号との言語的な類似度を示す言語スコアを、単語系列に対応する意思情報の文法規則および単語辞書から構成される言語モデルを用いて算出する言語スコア算出ステップと、意思情報ごとに、特徴量、音響モデル、および意思情報の言語モデルを用いて、１または複数の単語系列を構成するとともに、音響スコアおよび言語スコアを基に、単語系列の音声認識結果としての尤度を示す総合スコアを算出し、意思情報に対応する１または複数の単語系列のうち、総合スコアが最も高い単語系列の総合スコアを、対応する意思情報の総合スコアとするマッチングステップと、複数の意思情報のうち、総合スコアが最も高い意思情報をユーザの意思を示す意思情報として選択する選択ステップとを含むことを特徴とする。

本発明の音声処理装置および方法、記録媒体、並びにプログラムにおいては、音声信号の音響的な特徴を示す特徴量が抽出され、音響モデルが記憶され、１つの意思を示す意思情報ごとに、意思情報に対応する複数の例文から生成されたN‐gramに基づく文法規則と、単語辞書とから構成される言語モデルが記憶され、意思情報に対応する文法規則および単語辞書に基づいて構成された単語系列と、入力された音声信号との音響的な類似度を示す音響スコアが、特徴量を基に算出され、意思情報に対応する単語系列と、音声信号との言語的な類似度を示す言語スコアが、単語系列に対応する意思情報の言語モデルが用いられて算出され、意思情報ごとに、特徴量、音響モデル、および意思情報の言語モデルが用いられて、１または複数の単語系列が構成されるとともに、音響スコアおよび言語スコアを基に、単語系列の音声認識結果としての尤度を示す総合スコアが算出され、意思情報に対応する１または複数の単語系列のうち、総合スコアが最も高い単語系列の総合スコアが、対応する意思情報の総合スコアとされ、複数の意思情報のうち、総合スコアが最も高い意思情報がユーザの意思を示す意思情報として選択される。

本発明によれば、より簡単な構成で、入力音声からユーザの発話の意思を抽出することができる。

まず、本発明を適用した第１の実施の形態について説明する。

図２は、本発明に係る音声処理装置の一実施の形態の構成を示すブロック図である。

音声理処理置は、マイクロフォン３１、ＡＤ変換部３２、特徴抽出部３３、マルチマッチング部３４、音響モデルデータベース３５、意思情報保持部３６−１乃至意思情報保持部３６−Ｎ、および意思選択部３７を含むように構成される。

マイクロフォン３１はユーザによって発声された、単語または単語系列を含む音声を入力音声として取得する。マイクロフォン３１は、取得した入力音声を、電気信号である音声信号に変換する。マイクロフォン３１は、音声信号をＡＤ変換部３２に供給する。マイクロフォン３１からＡＤ変換部３２に供給される音声信号は、いわゆるアナログ信号である。

ＡＤ変換部３２は、マイクロフォン３１から供給された音声信号にＡＤ変換処理を適用して、アナログの音声信号を、デジタルの音声データに変換する。すなわち、ＡＤ変換部３２は、音声信号をサンプリングして、量子化することにより、デジタルの音声データを生成する。ＡＤ変換部３２は、音声データを特徴抽出部３３に供給する。

特徴抽出部３３は、ＡＤ変換部３２から供給された音声データについて、所定のフレームごとに（微小時間毎に）音響分析処理を適用し、特徴量を生成することによって、音声データの特徴を抽出する。特徴抽出部３３は、生成した特徴量をマルチマッチング部３４に供給する。

マルチマッチング部３４は、特徴抽出部３３から供給された特徴量を基に、意思情報保持部３６−１乃至意思情報保持部３６−Ｎのそれぞれが保持している、発話の意思を示す意思情報のそれぞれの総合スコアを求める（算出する）。マルチマッチング部３４は、算出した意思情報の総合スコアおよび意思情報を意思選択部３７に供給する。なお、意思情報の総合スコアの詳細は後述するが、意思情報の総合スコアは、マルチマッチング部３４によって構成された単語モデル系列に対応する単語系列の音響スコアおよび言語スコアを基に算出される。

マルチマッチング部３４は、辞書データベース５３−１に記録されている単語辞書を参照することにより、音響モデルデータベース３５に記録されている音響モデルを接続することで、単語の音響モデル（単語モデル）を構成（決定）する。さらに、マルチマッチング部３４は、構成したいくつかの単語モデルを、文法データベース５４−１に記録されている文法規則を参照することにより接続し、単語モデル系列を構成（決定）する。

マルチマッチング部３４は、構成した単語モデル系列に対応する単語系列の総合スコアを算出する。マルチマッチング部３４は、音響スコア算出部５１および言語スコア算出部５２を備えている。

マルチマッチング部３４の音響スコア算出部５１は、マルチマッチング部３４が構成した、単語モデル系列に含まれる単語モデルのそれぞれに対応する単語のそれぞれの音響スコアを算出する。

例えば、マルチマッチング部３４の音響スコア算出部５１は、マルチマッチング部３４が構成した単語モデル系列に含まれる各単語モデルから、特徴量の系列が観測される確率（出現確率）に基づいて、単語系列を構成する単語ごとに音響スコアを算出する。

マルチマッチング部３４の言語スコア算出部５２は、マルチマッチング部３４が構成した単語モデル系列に含まれる単語モデルのそれぞれに対応する単語のそれぞれが連鎖（連接）する確率に基づいて、単語系列を構成する単語ごとに言語スコアを算出する。

マルチマッチング部３４は、マルチマッチング部３４の音響スコア算出部５１が算出した音響スコアと、マルチマッチング部３４の言語スコア算出部５２が算出した言語スコアとを基に、構成した単語モデル系列に対応する単語系列の総合スコアを算出する。

マルチマッチング部３４は、音響モデルデータベース３５、辞書データベース５３−１、および文法データベース５４−１を参照して構成した単語モデル系列に対応する単語系列のうち、最も総合スコアの高い単語系列の総合スコアを、意思情報保持部３６−１が保持している意思情報の総合スコアとして、意思情報および意思情報の総合スコアを意思選択部３７に供給する。以下、マルチマッチング部３４による、単語系列を構成する処理をマッチング処理とも称する。

マルチマッチング部３４は、同様にして、意思情報保持部３６−２乃至意思情報保持部３６−Ｎのそれぞれが保持している意思情報の総合スコアを求め、求めた意思情報の総合スコアおよび意思情報を意思選択部３７に供給する。

音響モデルデータベース３５は、意思を抽出する音声の言語における個々の音素や音節などの所定の単位（PLU）ごとの音響的な特徴を表す音響モデルを記録している。

意思情報保持部３６−１は、発話の意思を示す意思情報を保持している。意思情報保持部３６−１は、辞書データベース５３−１および文法データベース５４−１を備えている。意思情報保持部３６−１の辞書データベース５３−１は、予め登録されている各単語（語彙）について、各単語の発音に関する情報（発音情報）が記述された単語辞書、および各単語モデルから特徴量の系列が観測される確率を保持している。意思情報保持部３６−１の文法データベース５４−１は、意思情報保持部３６−１の辞書データベース５３−１の単語辞書に登録されている各単語が、どのように連鎖するかを記述した文法規則を記録している。

意思情報保持部３６−２は、意思情報保持部３６−１が保持している意思情報とは異なる発話の意思を示す意思情報を保持している。意思情報保持部３６−２は、辞書データベース５３−２および文法データベース５４−２を備えている。意思情報保持部３６−２の辞書データベース５３−２は、予め登録されている各単語について、各単語の発音に関する情報が記述された単語辞書、および各単語モデルから特徴量の系列が観測される確率を保持している。意思情報保持部３６−２の文法データベース５４−２は、意思情報保持部３６−２の辞書データベース５３−２の単語辞書に登録されている各単語が、どのように連鎖するかを記述した文法規則を記録している。

意思情報保持部３６−３乃至意思情報保持部３６−Ｎ（意思情報保持部３６−３乃至意思情報保持部３６−（Ｎ−１）は図示せず）のそれぞれは、それぞれ異なる発話の意思を示す意思情報を保持している。意思情報保持部３６−３乃至意思情報保持部３６−Ｎのそれぞれは、辞書データベース５３−３乃至辞書データベース５３−Ｎのそれぞれおよび文法データベース５４−３乃至文法データベース５４−Ｎのそれぞれを備えている。辞書データベース５３−３乃至辞書データベース５３−Ｎのそれぞれは、予め登録されている各単語について、各単語の発音に関する情報が記述された単語辞書、および各単語モデルから特徴量の系列が観測される確率を保持している。文法データベース５４−３乃至文法データベース５４−Ｎのそれぞれは、辞書データベース５３−３乃至辞書データベース５３−Ｎのそれぞれの単語辞書に登録されている各単語が、どのように連鎖するかを記述した文法規則を記録している。

すなわち、意思情報保持部３６−１乃至意思情報保持部３６−Ｎのそれぞれは、それぞれ異なる意思情報、単語辞書、および文法規則を保持（記録）している。

以下、意思情報保持部３６−１乃至意思情報保持部３６−Ｎのそれぞれを個々に区別する必要のない場合、単に意思情報保持部３６と称する。また、以下、辞書データベース５３−１乃至辞書データベース５３−Ｎのそれぞれを、個々に区別する必要のない場合、単に、辞書データベース５３と称する。さらに、以下、文法データベース５４−１乃至文法データベース５４−Ｎのそれぞれを、個々に区別する必要のない場合、単に、文法データベース５４と称する。

さらに、以下、辞書データベース５３が記録している単語辞書と、文法データベース５４が記録している文法規則とから構成されるデータを、必要に応じて言語モデルと称する。

意思選択部３７は、マルチマッチング部３４から供給された意思情報および意思情報の総合スコアを基に、入力音声に最も適合した言語モデル（すなわち、辞書データベース５３および文法データベース５４）を選択する。すなわち、意思選択部３７は、マルチマッチング部３４から供給された意思情報および意思情報の総合スコアを基に、マルチマッチング部３４から供給された意思情報のうち、最も総合スコアの高い意思情報を選択する。意思選択部３７は、選択した意思情報を、ユーザの発話の意思を示す情報（音声理解結果）として、後段に出力する。

図３のフローチャートを参照して、音声理解の処理を説明する。

ステップＳ１１において、マイクロフォン３１は、入力された入力音声を、電気信号としての音声信号に変換し、変換によって生成された音声信号をＡＤ変換部３２に供給する。例えば、ステップＳ１１において、マイクロフォン３１は、ユーザによって発声された、単語または単語列を含む音声を入力音声として取得し、取得した入力音声を、アナログ信号である音声信号に変換し、音声信号をＡＤ変換部３２に供給する。

ステップＳ１２において、ＡＤ変換部３２は、マイクロフォン３１から供給された音声信号のＡＤ変換処理を行う。すなわち、ステップＳ１２において、ＡＤ変換部３２は、マイクロフォン３１から供給された音声信号を、サンプリングして、量子化し、デジタル信号である音声データに変換する。ＡＤ変換部３２は、ＡＤ変換した音声データを特徴抽出部３３に供給する。

ステップＳ１３において、特徴抽出部３３は、ＡＤ変換部３２から供給された音声データについて、所定のフレームごとに（微小時間毎に）音響分析を適用し、特徴量としての、特徴量からなる時間的な系列（特徴量の系列）を生成することによって、音声データの特徴を抽出する。特徴抽出部３３は、生成された特徴量の系列をマルチマッチング部３４に供給する。

例えば、ステップＳ１３において、特徴抽出部３３は、１フレームである所定の期間の音声データに、音響分析として、DFT（Discrete Fourier Transform）などの周波数分析の処理を適用し、周波数分析に基づく周波数帯域ごとのエネルギー、いわゆるパワースペクトル（以下、単にスペクトルと称する）などの特徴を示す特徴量の系列を生成する。

なお、特徴抽出部３３は、その他、例えば、零交差数、または信号のエネルギーなどの特徴を示す特徴量の系列を生成するようにしてもよい。また、特徴抽出部３３は、音声データに、ベクトル量子化の処理を適用することにより特徴量を求めるようにしてもよい。特徴量の方式は、本発明を限定するものではない。

ステップＳ１４において、マルチマッチング部３４は、マッチング処理を行う。なお、マッチング処理の詳細は後述するが、マッチング処理において、マルチマッチング部３４は、特徴抽出部３３から供給された特徴量の系列を基に、意思情報保持部３６が記録している言語モデルごとにマッチング処理を行い、意思情報保持部３６が保持している意思情報の総合スコアを算出する。マルチマッチング部３４は、意思情報および算出した意思情報の総合スコアを意思選択部３７に供給する。

ステップＳ１５において、意思選択部３７は、マルチマッチング部３４から供給された意思情報および意思情報の総合スコアを基に、入力音声に最も適合した言語モデルを選択する。すなわち、ステップＳ１５において、意思選択部３７は、マルチマッチング部３４から供給された意思情報のうち、最も総合スコアの高い意思情報を、ユーザの発話の意思を示す意思情報として選択する。意思選択部３７は、選択した意思情報を、入力音声から抽出された、ユーザの発話の意思を示す情報（音声理解結果）として後段に出力し、音声理解の処理は終了する。

例えば、ステップＳ１５において、意思選択部３７は、マルチマッチング部３４から意思「明日の天気を教えてください」を示す意思情報および意思情報の総合スコアと、意思「今の時間を教えてください」を示す意思情報および意思情報の総合スコアとが供給された場合、意思「明日の天気を教えてください」を示す意思情報の総合スコアおよび意思「今の時間を教えてください」を示す意思情報の総合スコアのうち、総合スコアの高い意思情報を、音声理解結果として、後段に出力する。

例えば、意思「今の時間を教えてください」を示す意思情報の総合スコアよりも意思「明日の天気を教えてください」を示す意思情報の総合スコアが高い場合、意思選択部３７は、意思「明日の天気を教えてください」を示す意思情報を音声理解結果として、後段に出力する。

これにより、後段において、意思「明日の天気を教えてください」を示す意思情報を基に、天気予報のデータベースを検索し、天気の情報を出力する処理を行うことが容易にできる。したがって、ユーザの音声「明日の天気教えて」に対して、天気の情報を出力するシステムを容易に構築することができる。

このようにして、音声処理装置は、予め保持している意思情報に対応する言語モデルごとにマッチング処理を行い、意思情報の総合スコアを算出する。そして、音声処理装置は、複数の意思情報のうち、最も総合スコアの高い意思情報を選択し、選択した意思情報を音声理解結果として出力する。

以上のように、言語モデルごとにマッチング処理を行い、音声認識結果としての総合スコアを基に、ユーザの発話の意思を示す意思情報を選択するようにしたので、意味解析処理などの言語処理を行うことなく、より簡単な構成で、ユーザの発話の意思を抽出することができる。

次に、図４のフローチャートを参照して、図３のステップＳ１４の処理に対応するマッチング処理について説明する。

ステップＳ３１において、マルチマッチング部３４は、音響モデルデータベース３５、辞書データベース５３、および文法データベース５４を参照しながら、単語モデル系列を構成する。

この場合、音響モデルデータベース３５に記録されている音響モデルは、例えば、図５で示される、日本語の音素に対する隠れマルコフモデル（HMM）である。図５において「：」は、長音の音響モデルである。なお、音響モデルとしては、その他、例えば、トライフォンHMMや、PHMM（Partly Hidden Markov Model）などの音響モデルを用いることが可能である。

また、辞書データベース５３および文法データベース５４には、意思情報保持部３６に保持されている意思情報が示す意思に対応する例文を基に生成された、単語辞書および文法規則が記録されている。

例えば、図６に示すように、意思情報保持部３６−１が意思「明日の天気を教えてください」を示す意思情報を保持している場合、辞書データベース５３−１および文法データベース５４−１には、意思「明日の天気を教えてください」に対応する例文「明日の天気を教えてください」、「明日の天気は」、「明日の天気を教えてくれる」、および「えーと明日の天気が聞きたい」を基に生成された単語辞書および文法規則が記録されている。

したがって、例えば、辞書データベース５３−１には、図７に示すように、発音（情報）および単語（情報）が単語辞書として記録されている。より具体的には、例えば、発音情報としては、単語「えーと」に対応する発音情報「e:to」、単語「の」に対応する発音情報「no」、単語「は」に対応する発音情報「wa」、単語「を」に対応する発音情報「o」、単語「が」に対応する発音情報「ga」、および単語「明日」に対応する発音情報「asita」が、それぞれ登録されている。

また、発音情報として、単語「天気」に対応する発音情報「tenki」、単語「教えて」に対応する発音情報「osiete」、単語「ください」に対応する発音情報「kudasai」、単語「くれる」に対応する発音情報「kureru」、および単語「聞きたい」に対応する発音情報「kikitai」が、それぞれ登録されている。ここで、発音情報とは、各単語に対応する音響モデルの接続情報である。

また、例えば、文法データベース５４−１には、図７に示す各単語が、どのように連鎖（つながる）かを記述した、単語連鎖率（N‐gram）などに基づく文法規則が記録されている。

同様に、例えば、図８に示すように、意思情報保持部３６−２が意思「今の時間を教えてください」を示す意思情報を保持している場合、辞書データベース５３−２および文法データベース５４−２には、意思「今の時間を教えてください」に対応する例文「今何時ですか」、「今何時」、「今何時かな」、「今の時間が聞きたい」、および「時間を教えて」を基に生成された単語辞書および文法規則が記録されている。

したがって、例えば、辞書データベース５３−２には、図９に示すように、発音（情報）および単語（情報）が単語辞書として記録されている。より具体的には、例えば、発音情報としては、単語「今」に対応する発音情報「ima」、単語「です」に対応する発音情報「desu」、単語「か」に対応する発音情報「ka」、単語「かな」に対応する発音情報「kana」、単語「の」に対応する発音情報「no」、および単語「が」に対応する発音情報「ga」が、それぞれ登録されている。

また、発音情報として、単語「を」に対応する発音情報「o」、単語「何時」に対応する発音情報「nanji」、単語「聞きたい」に対応する発音情報「kikitai」、および単語「教えて」に対応する発音情報「osiete」が、それぞれ登録されている。

また、例えば、文法データベース５４−２には、図９に示す各単語が、どのように連鎖（つながる）かを記述した、単語連鎖率（N‐gram）などに基づく文法規則が記録されている。

マルチマッチング部３４は、音響モデルデータベース３５、並びに意思情報保持部３６が保持している意思情報に対応する辞書データベース５３および文法データベース５４を必要に応じて参照しながら、意思情報ごとに単語モデル系列を構成する。

したがって、例えば、意思情報保持部３６−１が意思「明日の天気を教えてください」を示す意思情報を保持しており、意思情報保持部３６−２が意思「今の時間を教えてください」を示す意思情報を保持している場合、マルチマッチング部３４は、音響モデルデータベース３５、辞書データベース５３−１、および文法データベース５４−１を参照しながら、意思「明日の天気を教えてください」を示す意思情報に対応する単語モデル系列を構成し、音響モデルデータベース３５、辞書データベース５３−２、および文法データベース５４−２を参照しながら、意思「今の時間を教えてください」を示す意思情報に対応する単語モデル系列を構成する。

図４のフローチャートの説明に戻り、例えば、ステップＳ３１において、マルチマッチング部３４は、辞書データベース５３に記録されている単語辞書を参照することにより、音響モデルデータベース３５に記録されている音響モデルを接続することで、単語の音響モデルを構成する。そして、マルチマッチング部３４は、構成した単語モデルを、文法データベース５４に記録されている文法規則を参照することにより接続し、単語モデル系列を構成する。

したがって、この場合、意思情報保持部３６−１乃至意思情報保持部３６−Ｎのそれぞれが保持している意思情報のそれぞれに対応する、１または複数の単語モデル系列が構成される。

ステップＳ３２において、マルチマッチング部３４の音響スコア算出部５１は、マルチマッチング部３４が構成した単語モデル系列に含まれる各単語モデルから、特徴量の系列が観測される確率（出現確率）に基づいて、単語系列を構成する単語ごとに音響スコアを算出する。

例えば、ステップＳ３２において、マルチマッチング部３４の音響スコア算出部５１は、ビタビサーチと称される処理を施すことにより、音響スコアを算出する。

ステップＳ３３において、マルチマッチング部３４の言語スコア算出部５２は、マルチマッチング部３４が構成した単語モデル系列に含まれる単語モデルのそれぞれに対応する単語のそれぞれが連鎖（連接）する確率に基づいて、単語系列を構成する単語ごとに言語スコアを算出する。

例えば、ステップＳ３３において、バックオフスムージング法と称される方法により、３つの単語の連鎖確率であるトライグラム確率の確率値の補正を行いながら言語スコアを算出する場合について説明する。

この場合、文法データベース５４−１には、文法規則として、例えば、図１０乃至図１２に示すトライグラム表、バイグラム表、およびユニグラム表が記録されている。

ここで、図１０は、トライグラム表を説明する図である。

トライグラム表には、連鎖する３つの単語およびトライグラム確率が含まれている。より、具体的には、例えば、トライグラム確率として、連鎖する単語「えーと」、「明日」、および「の」に対するトライグラム確率「0.003」が含まれている。この場合、トライグラム確率「0.003」は、単語「えーと」、「明日」、および「の」が、「えーと」、「明日」、および「の」の順番で連鎖する確率を示している。

同様に、トライグラム表には、連鎖する単語「の」、「天気」、および「を」に対するトライグラム確率「0.01」が含まれており、連鎖する単語「の」、「天気」、および「が」に対するトライグラム確率「0.008」が含まれており、連鎖する単語「を」、「教えて」、および「ください」に対するトライグラム確率「0.007」が含まれている。また、トライグラム表には、連鎖する単語「天気」、「を」、および「教えて」に対するトライグラム確率「0.009」が含まれており、連鎖する単語「天気」、「が」、および「聞きたい」に対するトライグラム確率「0.007」が含まれており、連鎖する単語「明日」、「の」、および「天気」に対するトライグラム確率「0.009」が含まれている。

図１１は、バイグラム表を説明する図である。

バイグラム表には、連鎖する２つの単語、２つの単語が連鎖する確率（以下、バイグラム確率と称する）、およびバイグラムバックオフ係数が含まれている。ここで、バイグラムバックオフ係数とは、バイグラム確率を基に、トライグラム確率を算出する場合に用いる係数であり、確率の総和が１を超過しないようにするための係数である。

バイグラム表には、例えば、バイグラム確率として、連鎖する単語「えーと」および「明日」に対するバイグラム確率「0.02」が含まれている。この場合、バイグラム確率「0.02」は、単語「えーと」および「明日」が、「えーと」および「明日」の順番で連鎖する確率を示している。

同様に、バイグラム表には、連鎖する単語「の」および「天気」に対するバイグラム確率「0.1」が含まれており、連鎖する単語「を」および「教えて」に対するバイグラム確率「0.08」が含まれており、連鎖する単語「が」および「聞きたい」に対するバイグラム確率「0.07」が含まれている。また、バイグラム表には、連鎖する単語「天気」および「を」に対するバイグラム確率「0.09」が含まれており、連鎖する単語「天気」および「が」に対するバイグラム確率「0.07」が含まれており、連鎖する単語「教えて」および「ください」に対するバイグラム確率「0.09」が含まれている。

さらに、バイグラム表には、例えば、バイグラムバックオフ係数として、連鎖する単語「えーと」および「明日」に対するバイグラムバックオフ係数「0.01」が含まれており、連鎖する単語「の」および「天気」に対するバイグラムバックオフ係数「0.02」が含まれており、連鎖する単語「を」および「教えて」に対するバイグラムバックオフ係数「0.02」が含まれている。

同様に、バイグラム表には、バイグラムバックオフ係数として、連鎖する単語「が」および「聞きたい」に対するバイグラムバックオフ係数「0.01」が含まれており、連鎖する単語「天気」および「を」に対するバイグラムバックオフ係数「0.02」が含まれており、連鎖する単語「天気」および「が」に対するバイグラムバックオフ係数「0.01」が含まれており、連鎖する単語「教えて」および「ください」に対するバイグラムバックオフ係数「0.01」が含まれている。

図１２は、ユニグラム表を説明する図である。

ユニグラム表には、単語、単語の生起確率（以下、ユニグラム確率と称する）、およびユニグラムバックオフ係数が含まれている。ここで、ユニグラムバックオフ係数とは、ユニグラム確率を基に、バイグラム確率を算出する場合に用いる係数であり、確率の総和が１を超過しないようにするための係数である。

より具体的には、ユニグラム表には、例えば、単語「えーと」に対するユニグラム確率「0.04」およびユニグラムバックオフ係数「0.02」が含まれており、単語「の」に対するユニグラム確率「0.1」およびユニグラムバックオフ係数「0.06」が含まれており、単語「は」に対するユニグラム確率「0.08」およびユニグラムバックオフ係数「0.04」が含まれている。

また、ユニグラム表には、単語「を」に対するユニグラム確率「0.09」およびユニグラムバックオフ係数「0.04」が含まれており、単語「が」に対するユニグラム確率「0.06」およびユニグラムバックオフ係数「0.03」が含まれており、単語「天気」に対するユニグラム確率「0.2」およびユニグラムバックオフ係数「0.08」が含まれており、単語「聞きたい」に対するユニグラム確率「0.1」およびユニグラムバックオフ係数「0.06」が含まれている。

なお、ユニグラム確率、バイグラム確率、およびトライグラム確率の計算方法、並びにスムージングの方法については、例えば、北研二、中村哲、「音声言語処理‐コーパスに基づくアプローチ」、森北出版株式会社などにその詳細が記載されている。

マルチマッチング部３４の言語スコア算出部５２は、文法データベース５３−１が記録している、トライグラム表、バイグラム表、およびユニグラム表を参照して、言語スコアを算出する（求める）。

例えば、３つの単語の連鎖「明日」、「の」、および「天気」に対する言語スコア、すなわち、３つの単語「明日」、「の」、および「天気」が、「明日」、「の」、および「天気」の順番で連鎖する場合における単語「天気」の言語スコアを算出する場合、図１０に示すトライグラム表から、単語「天気」の言語スコアは、「0.009」と求まる。

また、例えば、３つの単語の連鎖「天気」、「を」、および「聞きたい」に対する言語スコア、すなわち、３つの単語「天気」、「を」、および「聞きたい」が、「天気」、「を」、および「聞きたい」の順番で連鎖する場合における単語「聞きたい」の言語スコアを算出する場合、図１０に示すトライグラム表には、３つの単語の連鎖「天気」、「を」、および「聞きたい」に対するトライグラム確率が含まれていないので、図１１に示すバイグラム表に含まれるバイグラム確率を基に、トライグラム確率を算出する。

この場合、トライグラム確率は、例えば、式（１）により算出される。

（トライグラム確率）＝（最初の２つの単語のバイグラムバックオフ係数）
×（最後の２つの単語のバイグラム確率）・・・（１）

すなわち、３つの単語の連鎖「天気」、「を」、および「聞きたい」を２つの単語の連鎖「天気」および「を」と、「を」および「聞きたい」とに分ける。したがって、この場合、最初の２つの単語のバイグラムバックオフ係数は、２つの単語の連鎖「天気」および「を」に対するバイグラムバックオフ係数であり、最後の２つの単語のバイグラム確率は、２つの単語の連鎖「を」および「聞きたい」に対するバイグラム確率である。

ここで、２つの単語の連鎖「天気」および「を」に対するバイグラムバックオフ係数は、図１１に示すバイグラム表より、「0.02」と求まる。

一方、２つの単語の連鎖「を」および「聞きたい」に対するバイグラム確率は、図１１に示すバイグラム表には、含まれていないので、さらに、図１２に示すユニグラム表に含まれるユニグラム確率を基に、バイグラム確率を算出する。

この場合、バイグラム確率は、例えば、式（２）により算出される。

（バイグラム確率）＝（最初の単語のユニグラムバックオフ係数）
×（最後の単語のユニグラム確率）・・・（２）

すなわち、２つの単語の連鎖「を」および「聞きたい」を、２つの単語「を」と、「聞きたい」とに分ける。したがって、この場合、最初（先頭）の単語のユニグラムバックオフ係数は、単語「を」に対するユニグラムバックオフ係数であり、最後（終端）の単語のユニグラム確率は、単語「聞きたい」に対するユニグラム確率である。

ここで、単語「を」に対するユニグラムバックオフ係数は、図１２に示すユニグラム表より、「0.04」と求まる。

一方、単語「聞きたい」に対するユニグラム確率は、図１２に示すユニグラム表より、「0.1」と求まる。したがって、式（２）より、２つの単語の連鎖「を」および「聞きたい」に対するバイグラム確率は、0.004（0.04×0.1）と算出される。

２つの単語の連鎖「を」および「聞きたい」に対するバイグラム確率が「0.004」と算出され、２つの単語の連鎖「天気」および「を」に対するバイグラムバックオフ係数が、「0.02」と求められたので、３つの単語の連鎖「天気」、「を」、および「聞きたい」に対する言語スコアは、式（１）より、0.0008（0.2×0.004）と算出される。

このようにして、マルチマッチング部３４の言語スコア算出部５２は、単語系列を構成する単語ごとに言語スコアを算出する。なお、バックオフスムージング法により、トライグラム確率の確率値の補正を行いながら言語スコアを算出する場合について説明したが、スムージングの方法は、線形補間法、ワンカウント法などとすることもできる。また、言語スコアの算出は、トライグラム確率に限らず、ユニグラム確率やバイグラム確率などにより算出するようにしてもよい。

図４のフローチャートの説明に戻り、ステップＳ３４において、マルチマッチング部３４は、マルチマッチング部３４の音響スコア算出部５１が算出した音響スコアと、マルチマッチング部３４の言語スコア算出部５２が算出した言語スコアとを基に、構成した単語モデル系列に対応する単語系列の総合スコアを算出する。

したがって、この場合、意思情報に対応する、１または複数の単語系列のそれぞれの総合スコアが、意思情報保持部３６が保持している意思情報ごとに算出される。

例えば、ステップＳ３４において、マルチマッチング部３４は、式（３）を計算することによって、単語系列の総合スコアを算出する。

（単語系列の総合スコア）＝Σ（Ａ_K＋Ｃ_K×Ｌ_K）・・・（３）

ここで、Ａ_Kは、単語系列を構成する単語のうち、先頭からＫ番目の単語の音響スコアであり、Ｃ_Kは、先頭からＫ番目の単語の言語スコアにかける重みであり、Ｌ_Kは、先頭からＫ番目の単語の言語スコアである。また、Σは、単語系列がＮ個の単語からなるとすると、Ｋを１からＮに変えてのサメーションをとることを表す。なお、言語スコアにかける重みは、単語辞書に登録されている単語ごとに予め定められている。また、単語系列に対して所定の単語が挿入された場合に、ペナルティースコア（挿入ペナルティー）を付与するようにしてもよい。

ステップＳ３５において、マルチマッチング部３４は、算出した、意思情報に対応する単語系列の総合スコアのうち、最も高い単語系列の総合スコアを意思情報の総合スコアとする。そして、マルチマッチング部３４は、意思情報および意思情報の総合スコアを意思選択部３７に供給し、処理は終了する。

したがって、この場合、意思情報保持部３６−１乃至意思情報保持部３６−Ｎのそれぞれが保持している意思情報のそれぞれと、各意思情報の総合スコアとが意思選択部３７に供給される。すなわち、意思選択部３７には、Ｎ個の意思情報および意思情報の総合スコアが供給される。

このようにして、マルチマッチング部３４は、マッチング処理を行い、意思情報保持部３６が保持している意思情報の総合スコアを算出し、意思情報および算出した意思情報の総合スコアを意思選択部３７に供給する。なお、音響スコアまたは言語スコアを算出する場合、その過程において得られる音響スコアまたは言語スコアが所定の閾値以下となったときに、そのスコア計算を打ち切る、枝刈りなどの処理を行うようにしてもよい。

このように、１つの意思情報に対して、１または複数の単語モデル系列を構成し、各単語モデル系列に対応する単語系列の総合スコアのうち、最も高い総合スコアを意思情報の総合スコアとすることで、意味解析処理などの言語処理を行うことなく、より簡単な構成で、ユーザの発話の意思を抽出することができる。

以上のように、音声処理装置は、言語モデルごとにマッチング処理を行い、音声認識結果としての総合スコアを基に、ユーザの発話の意思を示す意思情報を選択するようにしたので、意味解析処理などの言語処理を行うことなく、より簡単な構成で、ユーザの発話の意思を抽出することができる。

なお、マルチマッチング部３４が、言語モデルごとにマッチング処理を行うと説明したが、言語モデルごとにマッチング部を設け、並列してマッチング処理を行うようにしてもよい。また、複数の意思情報のうち、最も総合スコアが高い意思情報を、ユーザの発話の意思を示す情報として出力すると説明したが、総合スコアの高い順に、所定の順位までの意思情報を、ユーザの発話の意思を示す情報の候補として出力するようにしてもよい。

ここで、本発明に係る音声処理装置を用いて行った、ユーザの発話から意思を抽出させる実験の結果について説明する。

実験には、本明細書の実施の形態において説明した構成を有する音声処理装置を用いた。２６種類の意思および意思に対応する例文を準備し、その例文を基に、トライグラムに基づく言語モデル（単語辞書および文法規則）を生成した。そして、それぞれの意思に対応する入力音声として、合計３６７回の発話を行い、発話から抽出させた意思が正解であるか否かを調べた。

その結果、正解率は、91.3%であった。この結果から、本発明によれば、ユーザの発話から意思の抽出を極めて正確に行うことができることが分かる。

次に、本発明を適用した第２の実施の形態について説明する。

図１３は、本発明に係る音声処理装置の一実施の形態の構成を示すブロック図である。

音声処理装置は、マイクロフォン７１、ＡＤ変換部７２、特徴抽出部７３、マルチマッチング部７４、音響モデルデータベース７５、意思情報保持部７６−１乃至意思情報保持部７６−Ｎ、および意思選択部７７を含むように構成される。

なお、マイクロフォン７１、ＡＤ変換部７２、特徴抽出部７３、および音響モデルデータベース７５のそれぞれは、図２におけるマイクロフォン３１、ＡＤ変換部３２、特徴抽出部３３、および音響モデルデータベース３５のそれぞれと同様なので、その説明は、省略する。

マルチマッチング部７４は、特徴抽出部７３から供給された特徴量の系列を基に、意思情報保持部７６−１乃至意思情報保持部７６−Ｎのそれぞれが保持している、発話の意思を示す意思情報のそれぞれの総合スコアを求める（算出する）。ここで、意思情報保持部７６−１乃至意思情報保持部７６−Ｎのそれぞれが保持している意思情報のそれぞれは、置き換え可能な単語の集合を表すクラスを基に記述された、クラスベースの意思情報である。なお、クラスについての詳細は後述するが、クラスベースの意思情報は、クラスを表す記号であるシンボルを用いて記述される。

マルチマッチング部７４は、意思情報、意思情報の総合スコアを含むスコア情報、および意思情報に含まれるシンボルに最も適合する単語を示す単語情報を意思選択部７７に供給する。なお、意思情報の総合スコアの詳細は後述するが、意思情報の総合スコアは、マルチマッチング部７４によって構成された単語モデル系列に対応する単語系列の音響スコアおよび言語スコアを基に算出される。

マルチマッチング部７４は、辞書データベース９３−１に記録されている単語辞書を参照することにより、音響モデルデータベース７５に記録されている音響モデルを接続することで、単語の音響モデル（単語モデル）を構成する。さらに、マルチマッチング部７４は、構成したいくつかの単語モデルを、文法データベース９４−１に記録されている文法規則を参照することにより接続し、単語モデル系列を構成する。

ここで、辞書データベース９３−１に記録されている単語辞書は、クラスを表すシンボルが含まれる、クラスベースの単語辞書であり、また、文法データベース９４−１に記録されている文法規則は、文法規則の記述にクラスを表すシンボルを含むクラスベースの文法規則である。なお、クラスベースの単語辞書およびクラスベースの文法規則の詳細は、後述する。

マルチマッチング部７４は、構成した単語モデル系列に対応する単語系列の総合スコアを算出する。マルチマッチング部７４は、音響スコア算出部９１および言語スコア算出部９２を備えている。

マルチマッチング部７４の音響スコア算出部９１は、マルチマッチング部７４が構成した、単語モデル系列に含まれる単語モデルのそれぞれに対応する単語のそれぞれの音響スコアを算出する。

例えば、マルチマッチング部７４の音響スコア算出部９１は、マルチマッチング部７４が構成した単語モデル系列に含まれる各単語モデルから、特徴量の系列が観測される確率（出現確率）に基づいて、単語系列を構成する単語ごとに音響スコアを算出する。

マルチマッチング部７４の言語スコア算出部９２は、マルチマッチング部７４が構成した単語モデル系列に含まれる、単語モデルのそれぞれに対応する単語が連鎖（連接）する確率に基づいて、単語系列を構成する単語ごとに言語スコアを算出する。なお、言語スコアの算出の詳細は後述するが、単語系列を構成する単語が何れかのクラスに属する場合、クラスに属する単語においては、単語が属するクラスのシンボルが、他のシンボルまたは単語と連鎖する確率に基づいて、言語スコアが算出される。

マルチマッチング部７４は、マルチマッチング部７４の音響スコア算出部９１が算出した音響スコアと、マルチマッチング部７４の言語スコア算出部９２が算出した言語スコアとを基に、構成した単語モデル系列に対応する単語系列の総合スコアを算出する。

マルチマッチング部７４は、音響モデルデータベース７５、辞書データベース９３−１、および文法データベース９４−１を参照して構成した単語モデル系列に対応する単語系列のうち、最も総合スコアの高い単語系列の総合スコアを、意思情報保持部７６−１が保持しているクラスベースの意思情報の総合スコアとして、意思情報、スコア情報、および単語情報を意思選択部７７に供給する。

マルチマッチング部７４は、同様にして、意思情報保持部７６−２乃至意思情報保持部７６−Ｎのそれぞれが保持している意思情報の総合スコアを求め、意思情報、スコア情報、および単語情報を意思選択部７７に供給する。

意思情報保持部７６−１は、意思情報として、クラスベースの意思情報を保持している。意思情報保持部７６−１は、辞書データベース９３−１および文法データベース９４−１を備えている。意思情報保持部７６−１の辞書データベース９３−１は、予め登録されている各単語（語彙）について、各単語の発音に関する情報（発音情報）および各単語の属するクラスを表すシンボルを含むクラスベースの単語辞書、並びに各単語モデルから特徴量の系列が観測される確率を保持している。意思情報保持部７６−１の文法データベース９４−１は、意思情報保持部７６−１の辞書データベース９３−１が記録している単語辞書に登録されている各単語または各単語が属するクラスのシンボルが、どのように連鎖するかを記述したクラスベースの文法規則を記録している。

意思情報保持部７６−２は、意思情報として、意思情報保持部７６−１が保持している意思情報とは異なるクラスベースの意思情報を保持している。意思情報保持部７６−２は、辞書データベース９３−２および文法データベース９４−２を備えている。意思情報保持部７６−２の辞書データベース９３−２は、予め登録されている各単語（語彙）について、各単語の発音に関する情報（発音情報）および各単語の属するクラスを表すシンボルを含むクラスベースの単語辞書、並びに各単語モデルから特徴量の系列が観測される確率を保持している。意思情報保持部７６−２の文法データベース９４−２は、意思情報保持部７６−２の辞書データベース９３−２が記録している単語辞書に登録されている各単語または各単語が属するクラスのシンボルが、どのように連鎖するかを記述したクラスベースの文法規則を記録している。

意思情報保持部７６−３乃至意思情報保持部７６−Ｎ（意思情報保持部７６−３乃至意思情報保持部７６−（Ｎ−１）は図示せず）のそれぞれは、意思情報として、それぞれ異なるクラスベースの意思情報を保持している。意思情報保持部７６−３乃至意思情報保持部７６−Ｎは、辞書データベース９３−３乃至辞書データベース９３−Ｎのそれぞれおよび文法データベース９４−３乃至文法データベース９４−Ｎのそれぞれを備えている。

辞書データベース９３−３乃至辞書データベース９３−Ｎのそれぞれは、予め登録されている各単語（語彙）について、各単語の発音に関する情報（発音情報）および各単語の属するクラスを表すシンボルを含むクラスベースの単語辞書、並びに各単語モデルから特徴量の系列が観測される確率を保持している。文法データベース９４−３乃至文法データベース９４−Ｎのそれぞれは、辞書データベース９３−３乃至辞書データベース９３−Ｎのそれぞれが記録している単語辞書に登録されている各単語または各単語が属するクラスのシンボルが、どのように連鎖するかを記述したクラスベースの文法規則を記録している。

すなわち、意思情報保持部７６−１乃至意思情報保持部７６−Ｎのそれぞれは、それぞれ異なる意思情報、単語辞書、および文法規則を保持（記録）している。

以下、意思情報保持部７６−１乃至意思情報保持部７６−Ｎのそれぞれを個々に区別する必要のない場合、単に意思情報保持部７６と称する。また、以下、辞書データベース９３−１乃至辞書データベース９３−Ｎのそれぞれを、個々に区別する必要のない場合、単に、辞書データベース９３と称する。さらに、以下、文法データベース９４−１乃至文法データベース９４−Ｎのそれぞれを、個々に区別する必要のない場合、単に、文法データベース９４と称する。

さらに、以下、辞書データベース９３が記録しているクラスベースの単語辞書と、文法データベース９４が記録しているクラスベースの文法規則とから構成されるデータを、必要に応じて言語モデルとも称する。

意思選択部７７は、マルチマッチング部７４から供給された意思情報、スコア情報、および単語情報を基に、入力音声に最も適合した言語モデル（すなわち、辞書データベース９３および文法データベース９４）を選択する。すなわち、意思選択部７７は、マルチマッチング部７４から供給された意思情報、スコア情報、および単語情報を基に、マルチマッチング部７４から供給された意思情報のうち、最も総合スコアの高い意思情報を選択する。意思選択部７７は、選択した意思情報、スコア情報、および単語情報を、ユーザの発話の意思を示す情報（音声理解結果）として、後段に出力する。

ところで、意思「明日の東京の天気を教えてください」、「今日の大阪の天気を教えてください」、および「明後日の京都の天気を教えてください」のそれぞれにおいては、意思に含まれる日時を表す単語「今日」、「明日」、および「明後日」、並びに意思に含まれる場所を表す単語「東京」、「大阪」、および「京都」の組み合わせだけが異なる。

このような場合、意思に含まれる日時または場所を表す単語の組み合わせが異なるだけで、類似した複数の意思に対して、それぞれの意思に対応する複数の言語モデルを用いて、マッチング処理を行う方法は、あまり効率的ではない。

そこで、音声処理装置の構成を図１３に示す構成とし、クラスベースの単語辞書およびクラスベースの文法規則からなる言語モデルを用いることによって、より効率的にユーザの発話の意思を抽出することができる。以下、図を参照して、具体的な処理を説明する。

図１４のフローチャートを参照して、音声理解の処理を説明する。なお、ステップＳ５１の処理乃至ステップＳ５３の処理のそれぞれは、図３におけるステップＳ１１の処理乃至ステップＳ１３の処理のそれぞれと同様なので、その説明は省略する。

ステップＳ５４において、マルチマッチング部７４は、マッチング処理を行う。なお、マッチング処理の詳細は、後述するが、マッチング処理において、マルチマッチング部７４は、特徴抽出部７３から供給された特徴量の系列を基に、意思情報保持部７６が記録している言語モデルごとにマッチング処理を行い、意思情報保持部７６が保持している意思情報の総合スコアを算出する。マルチマッチング部７４は、意思情報、算出した意思情報の総合スコアを含むスコア情報、および単語情報を意思選択部７７に供給する。

ステップＳ５５において、意思選択部７７は、マルチマッチング部７４から供給された意思情報、スコア情報、および単語情報を基に、入力音声に最も適合した言語モデルを選択する。すなわち、ステップＳ５５において、意思選択部７７は、マルチマッチング部７４から供給された意思情報のうち、最も総合スコアの高い意思情報を、ユーザの発話の意思を示す意思情報として選択する。意思選択部７７は、選択した意思情報、スコア情報、および単語情報を、入力音声から抽出された、ユーザの発話の意思を示す情報（音声理解結果）として後段に出力し、音声理解の処理は終了する。

例えば、ステップＳ５５において、意思選択部７７は、図１５に示す音声理解結果を出力する。

この場合、音声理解結果には、意思情報として、意思「＜日時＞の＜場所＞の天気を教えてください」を示す意思情報が含まれている。ここで、「＜日時＞」は、日時を表すクラス「日時」を表すシンボルであり、同様に、「＜場所＞」は、場所を表すクラス「場所」を表すシンボルである。

また、音声理解結果には、単語情報として、シンボル「＜日時＞」に最も適合する単語が単語「明日」であり、シンボル「＜場所＞」に最も適合する単語が単語「東京」であることを示す情報が含まれている。

さらに、音声理解結果には、スコア情報として、意思情報の総合スコアと、意思「＜日時＞の＜場所＞の天気を教えてください」に対応する単語系列のうち、最も総合スコアが高い単語系列を構成する各単語の音響スコアおよび言語スコアとを示す情報が含まれている。

すなわち、スコア情報として、意思情報の総合スコアがＭ１であり、意思「＜日時＞の＜場所＞の天気を教えてください」に対応する単語系列のうち、最も総合スコアが高い単語系列が「明日の東京の天気教えて」であることを示す情報が含まれている。

また、スコア情報として、単語系列「明日の東京の天気教えて」を構成する単語「明日」の音響スコアがＡ１であり、単語「の」の音響スコアがＡ２であり、単語「東京」の音響スコアがＡ３であり、単語「の」の音響スコアがＡ４であり、単語「天気」の音響スコアがＡ５であり、単語「教えて」の音響スコアがＡ６であることを示す情報が含まれている。

さらに、スコア情報として、単語系列「明日の東京の天気教えて」を構成する単語「明日」の言語スコアがＬ１であり、単語「の」の言語スコアがＬ２であり、単語「東京」の言語スコアがＬ３であり、単語「の」の言語スコアがＬ４であり、単語「天気」の言語スコアがＬ５であり、単語「教えて」の言語スコアがＬ６であることを示す情報が含まれている。

また、例えば、ユーザが「大阪の天気教えて」と発話し、音声理解結果として、意思「＜日時＞の＜場所＞の天気を教えてください」を示す意思情報と、シンボル「＜日時＞」に適合する単語がなく、シンボル「＜場所＞」に適合する単語が「大阪」であることを示す単語情報とが出力された場合、後段において、「いつの天気ですか」または「明日の天気でよろしいですか」などの音声を、ユーザに対して出力するシステムを容易に構築することができる。

このようにして、音声処理装置は、予め保持しているクラスベースの意思情報に対応するクラスベースの言語モデルごとにマッチング処理を行い、意思情報の総合スコアを算出する。そして、音声処理装置は、複数の意思情報のうち、最も総合スコアの高い意思情報を選択し、選択した意思情報、スコア情報、および単語情報を音声理解結果として出力する。

以上のように、クラスベースの言語モデルごとにマッチング処理を行い、音声認識結果としての総合スコアを基に、ユーザの発話の意思を示す意思情報を選択するようにしたので、意味解析処理などの言語処理を行うことなく、より簡単な構成で、ユーザの発話の意思を抽出することができる。また、クラスベースの言語モデルを用いることで、マッチング処理に用いる言語モデルの数を削減することができ、より効率よくユーザの意思を抽出することができる。

なお、音声理解結果として、スコア情報を含む情報を出力すると説明したが、スコア情報を含まない、意思情報および単語情報のみを含む情報を音声理解結果として出力するようにしてもよい。

次に、図１６のフローチャートを参照して、図１４のステップＳ５４の処理に対応するマッチング処理について説明する。なお、ステップＳ７１の処理、ステップＳ７２の処理、およびステップＳ７４の処理のそれぞれは、図４におけるステップＳ３１の処理、ステップＳ３２の処理、およびステップＳ３４の処理のそれぞれと同様なので、その説明は省略する。

ステップＳ７３において、マルチマッチング部７４の言語スコア算出部９２は、マルチマッチング部７４が構成した単語モデル系列に含まれる単語モデルのそれぞれに対応する単語のそれぞれが連鎖（連接）する確率に基づいて、単語系列を構成する単語ごとに言語スコアを算出する。

より詳細には、マルチマッチング部７４は、単語系列を構成する単語のうち、何れかのクラスに属する単語においては、単語が属するクラスのシンボルが連鎖する確率に基づいて、言語スコアを算出する。換言すれば、マルチマッチング部７４は、単語系列を構成する単語のうち、何れかのクラスに属する単語を、単語が属するクラスのシンボルに置き換えた、クラスベースの単語系列を構成する単語またはシンボルごとに言語スコアを算出する。

例えば、ステップＳ７３において、バックオフスムージング法と称される方法により、３つの単語またはシンボルの連鎖確率であるトライグラム確率の確率値の補正を行いながら言語スコアを算出する場合について説明する。

この場合、辞書データベース９３および文法データベース９４には、意思情報保持部７６に保持されているクラスベースの意思情報が示す意思に対応する例文を基に生成された、単語辞書および文法規則が記録されている。

例えば、図１７に示すように、意思情報保持部７６−１が意思「＜日時＞の＜場所＞の天気を教えてください」を示す意思情報を保持している場合、辞書データベース９３−１および文法データベース９４−１には、意思「＜日時＞の＜場所＞の天気を教えてください」に対応する例文「＜日時＞の＜場所＞の天気を教えてください」、「＜場所＞の＜日時＞の天気を教えてください」、「＜日時＞の＜場所＞の天気は」、「＜日時＞の＜場所＞の天気を教えてくれる」、および「えーと＜日時＞の＜場所＞の天気が聞きたい」を基に生成されたクラスベースの単語辞書および文法規則が記録されている。

ここで、「＜日時＞」は、日時を表すクラス「日時」を表すシンボルであり、クラス「日時」に属する単語として、単語「今日」、「明日」、および「明後日」が与えられている。同様に、「＜場所＞」は、場所を表すクラス「場所」を表すシンボルであり、「場所」に属する単語として、単語「東京」、「大阪」、および「京都」が与えられている。

したがって、例えば、辞書データベース９３−１には、図１８に示すように、発音（情報）、単語（情報）、および単語の属するクラスを表すシンボルが単語辞書として記録されている。より具体的には、例えば、発音情報としては、単語「えーと」に対応する発音情報「e:to」、単語「の」に対応する発音情報「no」、単語「は」に対応する発音情報「wa」、単語「を」に対応する発音情報「o」、単語「が」に対応する発音情報「ga」、および単語「天気」に対応する発音情報「tenki」が、それぞれ登録されている。

また、発音情報として、単語「教えて」に対応する発音情報「osiete」、単語「ください」に対応する発音情報「kudasai」、単語「くれる」に対応する発音情報「kureru」、および単語「聞きたい」に対応する発音情報「kikitai」が、それぞれ登録されている。

さらに、発音情報として、単語「今日」に対応する発音情報「kyou」、単語「明日」に対応する発音情報「asita」、単語「明後日」に対応する発音情報「asatte」、単語「東京」に対応する発音情報「toukyou」、単語「大阪」に対応する発音情報「oosaka」、および単語「京都」に対応する発音情報「kyouto」が、それぞれ登録されている。ここで、発音情報とは、各単語に対応する音響モデルの接続情報である。

さらにまた、単語の属するクラスを表すシンボルとして、単語「えーと」の属するクラスを表すシンボル「えーと」、単語「の」の属するクラスを表すシンボル「の」、単語「は」の属するクラスを表すシンボル「は」、および単語「が」の属するクラスを表すシンボル「が」が、それぞれ登録されている。

さらにまた、単語の属するクラスを表すシンボルとして、単語「天気」の属するクラスを表すシンボル「天気」、単語「教えて」の属するクラスを表すシンボル「教えて」、単語「ください」の属するクラスを表すシンボル「ください」、単語「くれる」の属するクラスを表すシンボル「くれる」、および単語「聞きたい」の属するクラスを表すシンボル「聞きたい」が、それぞれ登録されている。

さらにまた、単語の属するクラスを表すシンボルとして、単語「今日」の属するクラスを表すシンボル「＜日時＞」、単語「明日」の属するクラスを表すシンボル「＜日時＞」、単語「明後日」の属するクラスを表すシンボル「＜日時＞」、単語「東京」の属するクラスを表すシンボル「＜場所＞」、単語「大阪」の属するクラスを表すシンボル「＜場所＞」、および単語「京都」の属するクラスを表すシンボル「＜場所＞」が、それぞれ登録されている。なお、ここで、何れのクラスにも属していない単語においては、単語そのものが、単語の属するクラスを表すシンボルとして登録されている。

また、例えば、文法データベース９４−１には、文法規則として、例えば、図１９乃至図２１に示すトライグラム表、バイグラム表、およびユニグラム表が記録されている。

ここで、図１９は、トライグラム表を説明する図である。

トライグラム表には、連鎖する３つの単語またはシンボルと、トライグラム確率とが含まれている。より、具体的には、例えば、トライグラム確率として、連鎖する単語「えーと」、シンボル「＜日時＞」、および単語「の」に対するトライグラム確率「0.003」が含まれている。この場合、トライグラム確率「0.003」は、単語「えーと」、シンボル「＜日時＞」、および単語「の」が、「えーと」、「＜日時＞」、および「の」の順番で連鎖する確率を示している。

同様に、トライグラム表には、連鎖する単語「の」、「天気」、および「を」に対するトライグラム確率「0.01」が含まれており、連鎖する単語「の」、「天気」、および「が」に対するトライグラム確率「0.008」が含まれており、連鎖する単語「の」、シンボル「＜日時＞」、および単語「の」に対するトライグラム確率「0.009」が含まれている。また、トライグラム表には、連鎖する単語「の」、シンボル「＜場所＞」、および単語「の」に対するトライグラム確率「0.001」が含まれており、連鎖する単語「天気」、「を」、および「教えて」に対するトライグラム確率「0.009」が含まれており、連鎖するシンボル「＜日時＞」、単語「の」、およびシンボル「＜場所＞」に対するトライグラム確率「0.01」、並びに連鎖するシンボル「＜日時＞」、単語「の」、および単語「天気」に対するトライグラム確率「0.008」が含まれている。

図２０は、バイグラム表を説明する図である。

バイグラム表には、連鎖する２つの単語またはシンボル、２つの単語またはシンボルが連鎖する確率（以下、バイグラム確率と称する）、およびバイグラムバックオフ係数が含まれている。

バイグラム表には、例えば、バイグラム確率として、連鎖する単語「えーと」およびシンボル「＜日時＞」に対するバイグラム確率「0.02」が含まれている。この場合、バイグラム確率「0.02」は、単語「えーと」およびシンボル「＜日時＞」が、「えーと」および「＜日時＞」の順番で連鎖する確率を示している。

同様に、バイグラム表には、連鎖する単語「の」および「天気」に対するバイグラム確率「0.1」が含まれており、連鎖する単語「の」およびシンボル「＜場所＞」に対するバイグラム確率「0.1」が含まれており、連鎖する単語「を」および「教えて」に対するバイグラム確率「0.08」が含まれており、連鎖する単語「が」および「聞きたい」に対するバイグラム確率「0.07」が含まれている。また、バイグラム表には、連鎖する単語「天気」および「を」に対するバイグラム確率「0.09」が含まれており、連鎖する単語「教えて」および「ください」に対するバイグラム確率「0.09」が含まれており、連鎖するシンボル「＜日時＞」および単語「の」に対するバイグラム確率「0.16」が含まれており、連鎖するシンボル「＜場所＞」および単語「の」に対するバイグラム確率「0.17」が含まれている。

さらに、バイグラム表には、例えば、バイグラムバックオフ係数として、連鎖する単語「えーと」およびシンボル「＜日時＞」に対するバイグラムバックオフ係数「0.01」が含まれており、連鎖する単語「の」および「天気」に対するバイグラムバックオフ係数「0.02」が含まれており、連鎖する単語「の」およびシンボル「＜場所＞」に対するバイグラムバックオフ係数「0.02」が含まれており、連鎖する単語「を」および「教えて」に対するバイグラムバックオフ係数「0.02」が含まれている。

同様に、バイグラム表には、バイグラムバックオフ係数として、連鎖する単語「が」および「聞きたい」に対するバイグラムバックオフ係数「0.01」が含まれており、連鎖する単語「天気」および「を」に対するバイグラムバックオフ係数「0.02」が含まれており、連鎖する単語「教えて」および「ください」に対するバイグラムバックオフ係数「0.01」が含まれており、連鎖するシンボル「＜日時＞」および単語「の」に対するバイグラムバックオフ係数「0.03」が含まれており、連鎖するシンボル「＜場所＞」および単語「の」に対するバイグラムバックオフ係数「0.03」が含まれている。

図２１は、ユニグラム表を説明する図である。

ユニグラム表には、単語またはシンボル、単語またはシンボルの生起確率（以下、ユニグラム確率と称する）、およびユニグラムバックオフ係数が含まれている。

より具体的には、ユニグラム表には、例えば、単語「えーと」に対するユニグラム確率「0.04」およびユニグラムバックオフ係数「0.02」が含まれており、単語「の」に対するユニグラム確率「0.1」およびユニグラムバックオフ係数「0.06」が含まれており、単語「は」に対するユニグラム確率「0.08」およびユニグラムバックオフ係数「0.04」が含まれており、単語「を」に対するユニグラム確率「0.09」およびユニグラムバックオフ係数「0.04」が含まれている。

また、ユニグラム表には、単語「が」に対するユニグラム確率「0.06」およびユニグラムバックオフ係数「0.03」が含まれており、単語「天気」に対するユニグラム確率「0.2」およびユニグラムバックオフ係数「0.08」が含まれており、単語「聞きたい」に対するユニグラム確率「0.1」およびユニグラムバックオフ係数「0.06」が含まれており、シンボル「＜日時＞」に対するユニグラム確率「0.18」およびユニグラムバックオフ係数「0.09」が含まれており、シンボル「＜場所＞」に対するユニグラム確率「0.23」およびユニグラムバックオフ係数「0.13」が含まれている。

マルチマッチング部７４の言語スコア算出部９２は、辞書データベース９３−１が記録している単語辞書、並びに文法データベース９４−１が記録している、トライグラム表、バイグラム表、およびユニグラム表を参照して、言語スコアを算出する（求める）。

例えば、３つの単語の連鎖「明日」、「の」、および「天気」に対する言語スコア、すなわち、３つの単語「明日」、「の」、および「天気」が、「明日」、「の」、および「天気」の順番で連鎖する場合における単語「天気」の言語スコアを算出する場合、マルチマッチング部７４の言語スコア算出部９２は、単語辞書を参照することによって、単語「明日」は、クラス「日時」に属していることが分かるので、シンボル「＜日時＞」、単語「の」、および単語「天気」が連鎖する確率（トライグラム確率）を求める。

この場合、図１９に示すトライグラム表から、シンボル「＜日時＞」、単語「の」、および単語「天気」に対するトライグラム確率は「0.008」なので、単語「天気」の言語スコアは、「0.008」と求まる。

また、例えば、３つの単語の連鎖「東京」、「を」、および「聞きたい」に対する言語スコア、すなわち、３つの単語「東京」、「を」、および「聞きたい」が、「東京」、「を」、および「聞きたい」の順番で連鎖する場合における単語「聞きたい」の言語スコアを算出する場合、マルチマッチング部７４の言語スコア算出部９２は、単語辞書を参照することによって、単語「東京」は、クラス「場所」に属していることが分かるので、シンボル「＜場所＞」、単語「を」、および単語「聞きたい」が連鎖する確率（トライグラム確率）を求める。

この場合、図１９に示すトライグラム表には、３つの単語またはシンボルの連鎖「＜場所＞」、「を」、および「聞きたい」に対するトライグラム確率が含まれていないので、図２０に示すバイグラム表に含まれるバイグラム確率を基に、トライグラム確率を算出する。

この場合、トライグラム確率は、式（４）により算出される。

（トライグラム確率）＝
（最初の２つの単語またはシンボルのバイグラムバックオフ係数）
×（最後の２つの単語またはシンボルのバイグラム確率）・・・（４）

すなわち、３つの単語またはシンボルの連鎖「＜場所＞」、「を」、および「聞きたい」を２つの単語またはシンボルの連鎖「＜場所＞」および「を」と、「を」および「聞きたい」とに分ける。したがって、この場合、最初の２つの単語またはシンボルのバイグラムバックオフ係数は、２つの単語またはシンボルの連鎖「＜場所＞」および「を」に対するバイグラムバックオフ係数であり、最後の２つの単語またはシンボルのバイグラム確率は、２つの単語またはシンボルの連鎖「を」および「聞きたい」に対するバイグラム確率である。

ここで、２つの単語またはシンボルの連鎖「＜場所＞」および「を」に対するバイグラムバックオフ係数は、図２０に示すバイグラム表にはないので、例えば、「0.1」と近似される。

一方、２つの単語またはシンボルの連鎖「を」および「聞きたい」に対するバイグラム確率は、図２０に示すバイグラム表には、含まれていないので、さらに、図２１に示すユニグラム表に含まれるユニグラム確率を基に、バイグラム確率を算出する。

この場合、バイグラム確率は、式（５）により算出される。

（バイグラム確率）＝
（最初の単語またはシンボルのユニグラムバックオフ係数）
×（最後の単語またはシンボルのユニグラム確率）・・・（５）

すなわち、２つの単語またはシンボルの連鎖「を」および「聞きたい」を、２つの単語「を」と、「聞きたい」とに分ける。したがって、この場合、最初（先頭）の単語またはシンボルのユニグラムバックオフ係数は、単語「を」に対するユニグラムバックオフ係数であり、最後（終端）の単語またはシンボルのユニグラム確率は、単語「聞きたい」に対するユニグラム確率である。

ここで、単語「を」に対するユニグラムバックオフ係数は、図２１に示すユニグラム表より、「0.04」と求まる。

一方、単語「聞きたい」に対するユニグラム確率は、図２１に示すユニグラム表より、「0.1」と求まる。したがって、式（５）より、２つの単語の連鎖「を」および「聞きたい」に対するバイグラム確率は、0.004（0.04×0.1）と算出される。

２つの単語の連鎖「を」および「聞きたい」に対するバイグラム確率が「0.004」と算出され、２つの単語またはシンボルの連鎖「＜場所＞」および「を」に対するバイグラムバックオフ係数が、「0.1」と求められたので、３つの単語またはシンボルの連鎖「＜場所＞」、「を」、および「聞きたい」に対する言語スコアは、式（４）より、0.0004（0.1×0.004）と算出される。

図１６のフローチャートの説明に戻り、ステップＳ７４において、マルチマッチング部７４は、マルチマッチング部７４の音響スコア算出部９１が算出した音響スコアと、マルチマッチング部７４の言語スコア算出部９２が算出した言語スコアとを基に、構成した単語モデル系列に対応する単語系列の総合スコアを算出する。なお、ステップＳ７４の処理は、図４のステップＳ３４の処理と同様なので、その説明は省略する。

ステップＳ７５において、マルチマッチング部７４は、算出した、意思情報に対応する単語系列の総合スコアのうち、最も高い単語系列の総合スコアを意思情報の総合スコアとする。そして、マルチマッチング部７４は、意思情報、スコア情報、および単語情報を意思選択部７７に供給し、処理は終了する。

したがって、この場合、意思情報保持部７６−１乃至意思情報保持部７６−Ｎのそれぞれが保持している意思情報のそれぞれ、並びに各意思情報に対応するスコア情報および単語情報が意思選択部７７に供給される。すなわち、意思選択部７７には、Ｎ個の意思情報、スコア情報、および単語情報が供給される。

このようにして、マルチマッチング部７４は、マッチング処理を行い、意思情報保持部７６が保持している意思情報の総合スコアを算出し、意思情報、スコア情報、および単語情報を意思選択部７７に供給する。

また、クラスベースの単語辞書およびクラスベースの文法規則からなる言語モデルを用いることによって、言語モデルの数を削減することができ、その結果、より効率的にユーザの発話の意思を抽出することができる。

本発明によれば、マッチング処理を行うようにしたので、音声データに対応する単語モデル系列を構成することができる。また、本発明によれば、音声認識結果としての総合スコアを基に、意思情報を選択するようにしたので、より簡単な構成で、ユーザの発話の意思を抽出することができる。

本発明は、音声による地名の問い合わせに対して、対応する地図情報を表示するデータベース検索装置、音声による命令に対して荷物の仕分けを行う産業用ロボット、音声の指令によって所定の処理を実行するコンピュータのアプリケーションプログラム、キーボードに代えて音声を入力してテキストデータを生成するディクテーションシステム、またはユーザと会話するロボット対話システムなどに適用することができる。

上述した一連の処理は、ハードウェアにより実行させることもできるが、ソフトウェアにより実行させることもできる。この場合、例えば、音声処理装置は、所定のプログラムを実行するパーソナルコンピュータで実現することができる。

図２２はパーソナルコンピュータの構成の例を示すブロック図である。CPU（Central Processing Unit）１２１は、ROM（Read Only Memory）１２２、または記録部１２８に記録されているプログラムに従って各種の処理を実行する。RAM（Random Access Memory）１２３には、CPU１２１が実行するプログラムやデータなどが適宜記憶される。これらのCPU１２１、ROM１２２、およびRAM１２３は、バス１２４により相互に接続されている。

CPU１２１にはまた、バス１２４を介して入出力インタフェース１２５が接続されている。入出力インタフェース１２５には、マイクロフォン、キーボード、マウス、スイッチなどよりなる入力部１２６、ディスプレイ、スピーカ、ランプなどによる出力部１２７が接続されている。CPU１２１は、入力部１２６から入力される指令に対応して各種の処理を実行する。

入出力インタフェース１２５に接続されている記録部１２８は、例えばハードディスクなどで構成され、CPU１２１が実行するプログラムや各種のデータを記録する。通信部１２９は、図示せぬインターネット、その他のネットワークなどの通信網を介して、外部装置と通信する。

また、通信部１２９を介してプログラムを取得し、記録部１２８に記録してもよい。

入出力インタフェース１２５に接続されているドライブ１３０は、磁気ディスク１５１、光ディスク１５２、光磁気ディスク１５３、或いは半導体メモリ１５４などが装着されたとき、それらを駆動し、そこに記録されているプログラムやデータなどを取得する。取得されたプログラムやデータは、必要に応じて記録部１２８に転送され、記録される。

一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、記録媒体からインストールされる。

この記録媒体は、図２２に示すように、コンピュータとは別に、ユーザにプログラムを提供するために配布される、プログラムが記録されている磁気ディスク１５１（フレキシブルディスクを含む）、光ディスク１５２（CD-ROM(Compact Disc-Read Only Memory)、DVD(Digital Versatile Disc)を含む）、光磁気ディスク１５３（ＭＤ(Mini-Disc)（商標）を含む）、若しくは半導体メモリ１５４などよりなるパッケージメディアにより構成されるだけでなく、コンピュータに予め組み込まれた状態でユーザに提供される、プログラムが記録されているROM１２２や、記録部１２８に含まれるハードディスクなどで構成される。

なお、上述した一連の処理を実行させるプログラムは、必要に応じてルータ、モデムなどのインタフェースを介して、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の通信媒体を介してコンピュータにインストールされるようにしてもよい。

また、本明細書において、記録媒体に格納されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。

なお、本明細書において、システムとは、複数の装置により構成される装置全体を表すものである。

従来の音声認識装置の構成を示すブロック図である。本発明に係る音声処理装置の一実施の形態の構成を示すブロック図である。音声理解の処理を説明するフローチャートである。マッチング処理を説明するフローチャートである。音響モデルを説明する図である。意思および意思に対応する例文を説明する図である。単語辞書を説明する図である。意思および意思に対応する例文を説明する図である。単語辞書を説明する図である。トライグラム表を説明する図である。バイグラム表を説明する図である。ユニグラム表を説明する図である。本発明に係る音声処理装置の一実施の形態の構成を示すブロック図である。音声理解の処理を説明するフローチャートである。音声理解結果を説明する図である。マッチング処理を説明するフローチャートである。意思および意思に対応する例文を説明する図である。単語辞書を説明する図である。クラストライグラム表を説明する図である。クラスバイグラム表を説明する図である。クラスユニグラム表を説明する図である。パーソナルコンピュータの構成の例を示すブロック図である。

符号の説明

３３特徴抽出部，３４マルチマッチング部，３５音響モデルデータベース，３６−１乃至３６−Ｎ，３６意思情報保持部，３７意思選択部，５１音響スコア算出部，５２言語スコア算出部，５３−１乃至５３−Ｎ，５３辞書データベース，５４−１乃至５４−Ｎ，５４文法データベース，７３特徴抽出部，７４マルチマッチング部，７５音響モデルデータベース，７６−１乃至７６−Ｎ，７６意思情報保持部，７７意思選択部，９１音響スコア算出部，９２言語スコア算出部，９３−１乃至９３−Ｎ，９３辞書データベース，９４−１乃至９４−Ｎ，９４文法データベース，１２１ＣＰＵ，１２２ＲＯＭ，１２３ＲＡＭ，１２８記録部，１５１磁気ディスク，１５２光ディスク，１５３光磁気ディスク，１５４半導体メモリ

Claims

入力された音声信号から、ユーザの発話の意思を抽出する音声処理装置において、
前記音声信号の音響的な特徴を示す特徴量を抽出する特徴量抽出手段と、
音響モデルを記憶する音響モデル記憶手段と、
１つの意思を示す意思情報ごとに、前記意思情報に対応する複数の例文から生成されたN‐gramに基づく文法規則と、単語辞書とから構成される言語モデルを記憶する言語モデル記憶手段と、
前記意思情報に対応する前記文法規則および前記単語辞書に基づいて構成された単語系列と、入力された前記音声信号との音響的な類似度を示す音響スコアを、前記特徴量を基に算出する音響スコア算出手段と、
前記意思情報に対応する前記単語系列と、前記音声信号との言語的な類似度を示す言語スコアを、前記単語系列に対応する前記意思情報の前記言語モデルを用いて算出する言語スコア算出手段と、
前記意思情報ごとに、前記特徴量、前記音響モデル、および前記意思情報の前記言語モデルを用いて、１または複数の前記単語系列を構成するとともに、前記音響スコアおよび前記言語スコアを基に、前記単語系列の音声認識結果としての尤度を示す総合スコアを算出し、前記意思情報に対応する１または複数の前記単語系列のうち、前記総合スコアが最も高い前記単語系列の前記総合スコアを、対応する前記意思情報の前記総合スコアとするマッチング手段と、
複数の前記意思情報のうち、前記総合スコアが最も高い前記意思情報を前記ユーザの意思を示す意思情報として選択する選択手段と
を備えることを特徴とする音声処理装置。
前記選択手段は、複数の前記意思情報のうち、前記総合スコアの高い順に、所定の順位までの前記意思情報を前記ユーザの発話の意思の候補として選択する
ことを特徴とする請求項１に記載の音声処理装置。
前記言語モデル記憶手段は、所定の単語が、他の単語と置き換え可能なクラスを用いて表された前記文法規則と、前記単語辞書とから構成された、前記意思情報ごとの前記言語モデルを記憶し、
前記マッチング手段は、構成した前記単語系列に含まれる前記クラスに属する単語のうち、音響スコアの最も高い単語を、前記クラスに最も適合する単語としてさらに選択する
ことを特徴とする請求項１に記載の音声処理装置。
入力された音声信号から、ユーザの発話の意思を抽出する音声処理方法において、
前記音声信号の音響的な特徴を示す特徴量を抽出する特徴量抽出ステップと、
１つの意思を示す意思情報に対応する複数の例文から生成されたN‐gramに基づく文法規則と、単語辞書とに基づいて構成された単語系列と、入力された前記音声信号との音響的な類似度を示す音響スコアを、前記特徴量を基に算出する音響スコア算出ステップと、
前記意思情報に対応する前記単語系列と、前記音声信号との言語的な類似度を示す言語スコアを、前記単語系列に対応する前記意思情報の前記文法規則および前記単語辞書から構成される言語モデルを用いて算出する言語スコア算出ステップと、
前記意思情報ごとに、前記特徴量、音響モデル、および前記意思情報の前記言語モデルを用いて、１または複数の前記単語系列を構成するとともに、前記音響スコアおよび前記言語スコアを基に、前記単語系列の音声認識結果としての尤度を示す総合スコアを算出し、前記意思情報に対応する１または複数の前記単語系列のうち、前記総合スコアが最も高い前記単語系列の前記総合スコアを、対応する前記意思情報の前記総合スコアとするマッチングステップと、
複数の前記意思情報のうち、前記総合スコアが最も高い前記意思情報を前記ユーザの意思を示す意思情報として選択する選択ステップと
を含むことを特徴とする音声処理方法。
入力された音声信号から、ユーザの発話の意思を抽出する音声処理用のプログラムであって、
前記音声信号の音響的な特徴を示す特徴量を抽出する特徴量抽出ステップと、
１つの意思を示す意思情報に対応する複数の例文から生成されたN‐gramに基づく文法規則と、単語辞書とに基づいて構成された単語系列と、入力された前記音声信号との音響的な類似度を示す音響スコアを、前記特徴量を基に算出する音響スコア算出ステップと、
前記意思情報に対応する前記単語系列と、前記音声信号との言語的な類似度を示す言語スコアを、前記単語系列に対応する前記意思情報の前記文法規則および前記単語辞書から構成される言語モデルを用いて算出する言語スコア算出ステップと、
前記意思情報ごとに、前記特徴量、音響モデル、および前記意思情報の前記言語モデルを用いて、１または複数の前記単語系列を構成するとともに、前記音響スコアおよび前記言語スコアを基に、前記単語系列の音声認識結果としての尤度を示す総合スコアを算出し、前記意思情報に対応する１または複数の前記単語系列のうち、前記総合スコアが最も高い前記単語系列の前記総合スコアを、対応する前記意思情報の前記総合スコアとするマッチングステップと、
複数の前記意思情報のうち、前記総合スコアが最も高い前記意思情報を前記ユーザの意思を示す意思情報として選択する選択ステップと
を含むことを特徴とするコンピュータが読みとり可能なプログラムが記録されている記録媒体。
入力された音声信号から、ユーザの発話の意思を抽出する音声処理を、コンピュータに行わせるプログラムにおいて、
前記音声信号の音響的な特徴を示す特徴量を抽出する特徴量抽出ステップと、
１つの意思を示す意思情報に対応する複数の例文から生成されたN‐gramに基づく文法規則と、単語辞書とに基づいて構成された単語系列と、入力された前記音声信号との音響的な類似度を示す音響スコアを、前記特徴量を基に算出する音響スコア算出ステップと、
前記意思情報に対応する前記単語系列と、前記音声信号との言語的な類似度を示す言語スコアを、前記単語系列に対応する前記意思情報の前記文法規則および前記単語辞書から構成される言語モデルを用いて算出する言語スコア算出ステップと、
前記意思情報ごとに、前記特徴量、音響モデル、および前記意思情報の前記言語モデルを用いて、１または複数の前記単語系列を構成するとともに、前記音響スコアおよび前記言語スコアを基に、前記単語系列の音声認識結果としての尤度を示す総合スコアを算出し、前記意思情報に対応する１または複数の前記単語系列のうち、前記総合スコアが最も高い前記単語系列の前記総合スコアを、対応する前記意思情報の前記総合スコアとするマッチングステップと、
複数の前記意思情報のうち、前記総合スコアが最も高い前記意思情報を前記ユーザの意思を示す意思情報として選択する選択ステップと
を含むことを特徴とするプログラム。