JP2006171185A - 音声認識装置および音声認識方法 - Google Patents

音声認識装置および音声認識方法 Download PDF

Info

Publication number
JP2006171185A
JP2006171185A JP2004361276A JP2004361276A JP2006171185A JP 2006171185 A JP2006171185 A JP 2006171185A JP 2004361276 A JP2004361276 A JP 2004361276A JP 2004361276 A JP2004361276 A JP 2004361276A JP 2006171185 A JP2006171185 A JP 2006171185A
Authority
JP
Japan
Prior art keywords
hidden markov
probability
recognition
markov models
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004361276A
Other languages
English (en)
Inventor
Hironori Yoshida
浩範 吉田
Toshiyuki Miyazaki
敏幸 宮崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Asahi Kasei Corp
Original Assignee
Asahi Kasei Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Asahi Kasei Corp filed Critical Asahi Kasei Corp
Priority to JP2004361276A priority Critical patent/JP2006171185A/ja
Publication of JP2006171185A publication Critical patent/JP2006171185A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】特定話者の音声認識率の向上を確保しつつ、音声認識の際の演算量をできるだけ抑えてコストダウンを図ること。
【解決手段】この発明は、共通の1つの音響モデルの各状態の確率を、特徴パラメータを入力として、予め格納される出力確率関数と遷移確率のうち、予め組み合わせが設定されている複数組の出力確率関数値と遷移確率値を乗算し、この乗算値のうち最大のものを選択して求める(S3)。ステップS3の処理過程で得られる各音響モデルの各状態の確率に基づき、4種類の音響モデルのうちから最適なものを推定する(S5〜S7)。この推定後は、その推定した音響モデルを使用する。
【選択図】 図2

Description

本発明は、隠れマルコフモデル(Hidden Markov Model、HMM)を用いて不特定話者の音声認識を行う音声認識装置および音声認識方法に関するものである。
一般に、不特定の話者に共通の固定語を認識する技術を不特定話者音声認識と呼んでいる。この不特定話者音声認識においては、不特定の話者に共通の固定語の特徴パラメータに関する情報があからじめROMのような記憶装置に蓄積されている。
また、音声サンプルをある特徴パラメータの系列に変換する方法としては、ケプストラム分析や線形予測分析などが知られている。さらに、不特定の話者に共通の固定語の特徴パラメータに関する情報(データ)の作成、およびその情報と入力された音声から変換された特徴パラメータの系列との比較には、隠れマルコフモデルによる方法が一般に使用されている。
隠れマルコフモデルによる不特定話者音声認識については、「音声・音情報のディジタル信号処理」(鹿野清宏、中村哲、伊勢史郎共著、(株)昭晃堂)に詳しく述べられている。
例えば、日本語の場合には、音声単位を上記の「音声・音情報のディジタル信号処理」の第2章に記載されている音韻のセットとし、各音韻が隠れマルコフモデルによりモデル化されているとする。図11に音韻のセットのラベルの一覧を示す。この時、例えば「ほっかいどう」という単語は、図12に示すように、話者に共通の音韻ラベルのネットワーク(固定語ラベル系列)でモデル化することができる。
そして、図12に示す固定語ラベル系列と、これに対応する隠れマルコフモデルによる音韻モデルのデータとを用意すれば、上記の「音声・音情報のディジタル信号処理」の第4章に記載されているビタビアルゴリズムにより、当業者は不特定話者音声認識装置を容易に構成することができる。
そして、同じ音韻でも、一般に、成人の男性と女性では、声道長の違いなどによって、音響状態が異なることから、男性の音声データと女性の音声データとを用いて男性用音響用モデルと女性用音響用モデルを別々に作成し、それぞれの音響モデルによる確率を計算することで認識率を向上させる方法が知られている。
また、カーナビゲーションのような車内環境での音声認識では、アイドリング時と高速走行時の両方で高い認識率を達成するために、各雑音環境に対応する音響モデルを用意することも考えられる。
このような複数種類の音響モデルを用いた音声認識において、使用メモリ量、演算量を削減するための方法が、特許文献1に記載されている。
しかし、この特許文献1に記載の方法は、話者プロファイル(性別、年齢、音質等)や様々な雑音環境に対応した音響モデルを用意すると、音響モデルの種類数が積算的に多くなり、確率計算に要する演算量が増加するという不具合がある。
以上のように、不特定話者における音声認識において、様々な話者プロファイルや雑音環境に対応することが要求されるが、この要求に伴って音響モデルの種類が多くなってくると、確率計算に要する演算量が増加する。特に、カーナビゲーションなどに組み込まれる音声認識装置では、その演算量の増加が製作費用(コスト)を引き上げることになるという不具合がある。
このような背景の下では、複数の音響モデルを用いることにより不特定話者の認識率を向上させることが望まれる一方、音声認識の際の演算量をできるだけ抑えることが望まれる。
国際公開WO02/007146号公報
そこで、本発明の目的は、上記の点に鑑み、複数の音響モデルを用意しておくが、その使用時には使用環境に応じて最適のものだけを探して使用するようにし、不特定話者の音声認識率の向上を確保しつつ、音声認識の際の演算量をできるだけ抑えてコストダウンを図ることができる音声認識装置および音声認識方法を提供することにある。
上記の課題を解決し本発明の目的を達成するために、請求項1〜請求項6に係る発明は、以下のように構成した。
すなわち、請求項1に係る発明は、隠れマルコフモデルを用いて不特定話者の音声認識を行う音声認識装置であって、入力音声の特徴パラメータを検出する検出手段と、認識対象の複数の各単語について所定の複数種類の隠れマルコフモデルに共通の1つの音韻系列で表現した認識用辞書、および前記各隠れマルコフモデルの出力確率関数と遷移確率を予め格納する認識用データ格納手段と、前記検出手段で検出された特徴パラメータと前記各隠れマルコフモデルとを参照して、前記特徴パラメータの系列が生起する生起確率を求める認識手段とを備え、前記認識手段は、前記生起確率を求める過程で、前記各単語について前記複数種類の隠れマルコフモデルに共通の1つの音韻系列を持つようにし、かつ、前記認識手段は、前記共通の1つの音韻系列の各状態の確率を、前記検出された特徴パラメータを入力として、前記認識用データ格納手段に格納される出力確率関数と遷移確率のうち、予め組み合わせが設定されている複数組の出力確率関数値と遷移確率値を乗算し、この乗算値のうち最大のものを選択して求める第1処理と、前記第1処理の過程で得られる前記各隠れマルコフモデルの各状態の確率に基づき、前記複数種類の隠れマルコフモデルのうちから予め決められた少なくとも1つの最適な隠れマルコフモデルを推定する第2処理と、前記第2処理の終了後は、前記共通の1つの音韻系列の各状態の確率を、前記特徴パラメータを入力として、前記認識用データ格納手段に格納される出力確率関数と遷移確率のうち、推定された最適な隠れマルコフモデルの組のみの出力確率関数値と遷移確率値を乗算し、この乗算値のうち最大のものを選択して求める第3処理と、を行うようになっている。
請求項2に係る発明は、請求項1に記載の音声認識装置において、前記認識手段が行う前記第2処理は、所定の処理単位内において、前記第1処理の過程で前記複数種類の隠れマルコフモデルの複数の状態に関して得られた確率のうち、最大の確率を出力する隠れマルコフモデルを選択し、この選択された隠れマルコフモデルの選択回数を記憶する第1ステップと、前記第1ステップの処理を複数回繰り返す第2ステップと、前記第2ステップの処理が終了したときに、前記記憶されている各隠れマルコフモデルの選択回数に基づき、前記複数種類の隠れマルコフモデルのうちから最適な隠れマルコフモデルを推定する第3ステップと、からなる。
請求項3に係る発明は、請求項1または請求項2に記載の音声認識装置において、前記認識手段が行う第2処理を、必要に応じてユーザがリセットまたは自動的にリセットするリセット手段を、さらに備えている。
請求項4に係る発明は、隠れマルコフモデルを用いて不特定話者の音声認識を行う音声認識方法であって、認識対象である複数の各単語について所定の複数種類の隠れマルコフモデルに共通の1つの音韻系列で表現した認識用辞書、および前記各隠れマルコフモデルの出力確率関数と遷移確率を予め認識用データ格納手段に格納しておき、音声認識のときに、入力音声の特徴パメータを検出し、この検出された特徴パラメータと前記各隠れマルコフモデルとを参照して、前記特徴パラメータの系列が生起する生起確率を求め、前記生起確率を求める過程で、前記各単語について前記複数種類の隠れマルコフモデルに共通の1つの音韻系列を持つようにし、かつ、前記共通の1つの音韻系列の各状態の確率を、前記検出された特徴パラメータを入力として、前記認識用データ格納手段に格納される出力確率関数と遷移確率のうち、予め組み合わせが設定されている複数組の出力確率関数値と遷移確率値を乗算し、この乗算値のうち最大のものを選択して求める第1処理と、前記第1処理の過程で得られる前記各隠れマルコフモデルの各状態の確率に基づき、前記複数種類の隠れマルコフモデルのうちから予め決められた少なくとも1つの最適な隠れマルコフモデルを推定する第2処理と、前記第2処理の終了後は、前記共通の1つの隠れマルコフモデルの各状態の確率を、前記特徴パラメータを入力として、前記認識用データ格納手段に格納される出力確率関数と遷移確率のうち、推定された最適な隠れマルコフモデルの組のみの出力確率関数値と遷移確率値を乗算し、この乗算値のうち最大のものを選択して求める第3処理と、を含んでいる。
請求項5に係る発明は、請求項4に記載の音声認識方法において、前記第2処理は、所定の処理単位内において、前記第1処理の過程で前記複数種類の隠れマルコフモデルの複数の状態に関して得られた確率のうち、最大の確率を出力する隠れマルコフモデルを選択し、この選択された隠れマルコフモデルの選択回数を記憶する第1ステップと、前記第1ステップの処理を複数回繰り返す第2ステップと、前記第2ステップの処理が終了したときに、前記記憶されている各隠れマルコフモデルの選択回数に基づき、前記複数種類の隠れマルコフモデルのうちから最適な隠れマルコフモデルを推定する第3ステップと、からなる。
請求項6に係る発明は、請求項4または請求項5に記載の音声認識方法において、前記第2処理は、必要に応じてユーザがリセットまたは自動的にリセットできるようにしている。
本発明では、複数の音響モデルを予め用意しておくが、その使用時には使用環境に応じて最適なものだけを探して使用するようにした。このため、本発明によれば、不特定話者の音声認識率の向上を確保しつつ、音声認識の際の演算量をできるだけ抑えてコストダウンを図ることができる。
以下、図面を参照して本発明の実施形態について説明する。
(第1実施形態)
図1は、本発明の音声認識装置の第1実施形態の構成例を示すブロック図である。
この第1実施形態は、図1に示すように、マイクロフォン1と、A/D変換器2と、特徴量検出部3と、指示部4と、認識用データ格納部5と、音声認識部6と、出力部7と、を少なくとも備えている。
マイクロフォン1は、発声音声をその音声に対応するアナログの電気信号に変換するものである。A/D変換器2は、そのアナログ信号をデジタル信号に変換するものである。特徴量検出部3は、そのデジタル信号に基づいて特徴パラメタータを求め、この求めた特徴パラメータを時系列に変換するものである。
指示部4は、音声認識部6に対してユーザ(使用者)が各種の入力指示を行うものであり、後述のような特定の処理について、ユーザがその特定の処理をリセットするためのリセットボタン41を備えている。
認識用データ格納部5は、認識対象の複数の各単語について所定の複数種類の隠れマルコフモデルに共通の1つの音韻系列で表現した認識用辞書を予め格納しておくとともに、その各隠れマルコフモデルの出力確率関数と遷移確率を予め格納しておくものである。この認識用データ格納部5は、ROM(リード・オンリ・メモリ)などのメモリからなる。
音声認識部6は、後述のような手順により、マイクロフォン1より発声された不特定話者の音声によりその音声の認識を行うものであり、その認識手順の詳細は後述する。この音声認識部6は、ROMおよびRAM(ランダム・アクセス・メモリ)を含んでいる。
ROMには、後述の音声認識の手順が予め記憶されている。また、RAMは、後述のように音声認識を行うときに作業用メモリとして使用し、例えば、音声認識の過程で必要なデータとその結果のデータを一時的に格納しておく。
出力部7は、音声認識部6の認識結果などを出力するものであり、例えば表示装置などからなる。
次に、このような構成からなる第1実施形態に係る音声認識装置の音声認識動作について、図面を参照して説明する。
この実施形態では、音声認識動作に先立って、不特定話者の音声認識の対象となる「ほっかいどう」、「あおもり」、「あきた」…などの各単語(固定語)に対応する隠れマルコフモデルを、4種類あからじめ作成しておき、また、各単語について4種類の隠れマルコフモデルに共通の1つの音韻系列で認識用辞書を作成して認識用データ格納部5内に予め格納しておく。さらに、その各隠れマルコフモデルの各状態の複数組の遷移確率と出力確率関数を予め設定しておき、これらの確率データを認識用データとして認識用データ格納部5に予め格納しておく。
ここで、上記の4種類の隠れマルコフモデルは、例えば、車両のアイドリング時の男性の隠れマルコフモデル(以下、第1音響モデルという)、車両のアイドリング時の女性の隠れマルコフモデル(以下、第2音響モデルという)、車両の高速走行時の男性の隠れマルコフモデル(以下、第3音響モデルという)、および車両の高速走行時の女性の隠れマルコフモデル(以下、第4音響モデルという)からなる。
次に、音声認識動作の手順の概要について、図2(A)(B)に示すフローチャートなどを参照して説明する。
いま、ある話者によりマイクロフォン1により音声「ほっかいどう」が入力されたものとする(ステップS1)。すると、その音声はマイクロフォン1により、アナログの電気信号に変換されたのち、A/D変換器2でデジタル信号に変換される。特徴量検出部3では、そのデジタル信号に基づいて特徴パラメタータが求められ、これが時系列の特徴パラメータに変換される(ステップS2)。
音声認識部6は、上記のように変換された時系列の特徴パラメータ(音響パラメータ)と上記の4種類の隠れマルコフモデルとを参照して、その特徴パラメータの系列が生起する生起確率を求めるが、その生起確率を求める過程で、各単語について4種類の隠れマルコフモデルに共通の1つの音韻系列を持つようにしている(図3(A)参照)。
また、音声認識部6は、その変換された特徴パラメータ、および認識用データ格納部5に格納される4種類の隠れマルコフモデルの遷移確率と出力確率関数を参照し、その特徴パラメータの系列が生起する確率を後述するビタビアルゴリズムにより求めていく。
図3(A)は、4種類の隠れマルコフモデルに共用の音韻系列を示し、図3(B)はそれに対応する各音韻の隠れマルコフモデルの状態系列を示す。
図3(B)において、A0(I、J)は第1音響モデルの状態Iから状態Jへの遷移確率を示し、A1(I、J)は第2音響モデルの状態Iから状態Jへの遷移確率を示し、A2(I、J)は第3音響モデルの状態Iから状態Jへの遷移確率を示し、A3(I、J)は第4音響モデルの状態Iから状態Jへの遷移確率を示す。
また、B0(I、x)は第1音響モデルの音響パラメータxが得られたときの状態Iにおける出力確率を示し、B1(I、x)は第2音響モデルの音響パラメータxが得られたときの状態Iにおける出力確率を示し、B2(I、x)は第3音響モデルの音響パラメータxが得られたときの状態Iにおける出力確率を示し、B3(I、x)は第4音響モデルの音響パラメータxが得られたときの状態Iにおける出力確率を示す。
さらに、図中のpIは4種類の隠れマルコフモデルに共用の音韻系列内の各音韻の状態Iにおける確率を示し、ビタビアルゴリズムによる次の(1)式に基づき更新される。
pI=max(p(I−1)×PenterI、pI×PselfI)…(1)
ここで、確率PselfI、確率PenterIは、次の(2)式と(3)式とで表される。
PselfI=max(A0(I、I)×B0(I、X)、A1(I、I)×B1(I、X)、A2(I、I)×B2(I、X)、A3(I、I)×B3(I、X))・・・(2)
PenterI=max(A0(I−1、I)×B0(I、X)、A1(I−1、I)×B1(I、X)、A2(I−1、I)×B2(I、X)、A3(I−1、I)×B3(I、X))・・・(3)
(2)式、(3)式の意味は、以下の通りである。
事前に現在の発話環境がわかっている場合には、その発話環境に対応する音響モデルだけを使って生起確率を計算すれば十分である。しかし、いつも事前に現在の発話環境がわかるわけではない。その場合、とりあえず、考えられる全パターンの音響モデルで生起確率を計算しておき、そのうちの最大値を(1)式を用いることで、現在の発話環境に動的に適応できるものと考えられる。
なぜならば、一般に、隠れマルコフモデルでは、学習条件に近い環境ほど、より大きな確率値を出力し、逆に、学習条件から離れた環境ほど、より小さい確率値を出力する傾向があるためである。
音声認識部6では、4種類の隠れマルコフモデルに共通な1つの固定語(単語)、例えば「ほっかいどう」、「あおもり」・・・に対して共通の1つの音韻系列を持つようにする。
そして、各単語について共通の1つの音韻系列の各状態の確率を求めるが、その各状態の確率を求める際には、(2)式および(3)式を用いて、与えられた特徴パラメータを引数(入力)として、第1〜第4の各音響モデルに予め設定されている出力確率関数値と遷移確率値とを乗算し、その求めた4つの確率(乗算値)のうち最大の確率を選択する(ステップS3)。次に、その選択された最大の確率により(1)式を用いてpIを更新する(ステップS4)。
一方、ステップS2で発話音声に対応する特徴パラメータが入力されると、その特徴パラメータは予め設定されているフレーム単位(処理単位)で以下の処理が行われる。
すなわち、フレーム内には、ステップS3の処理において第1〜第4の各音響モデルについて、複数(例えば3つ)の状態Iに関して確率PselfI、PenterIがそれぞれ得られ、その得られた確率のうち、最大となる確率をPmaxとする。そして、第1〜第4の音響モデルのうち、最大確率Pmaxを出力した音響モデルを選択し、この選択された音響モデルの選択回数(最大確率出力フレーム数)をカウント(記憶)する(ステップS5)。
そして、このような最大確率Pmaxを出力する音響モデルを選択する処理を、予め設定されているNフレームについて繰り返す(ステップS6)。ここで、フレーム数が例えば10であれば、図4に示すように、各フレームごとに第1〜第4の音響モデルのうち、最大確率Pmaxを出力した音響モデルが選択され、この選択された音響モデルを黒丸で示す。
次に、上記の処理がNフレームについて終了すると、その得られた音響モデル毎の最大確率出力フレーム数に基づき、その第1〜第4の音響モデルのうちから少なくとも1つの最適な音響モデルを推定する(ステップS7)。
このように最適な音響モデルが推定されると、以後は図2(B)に示す処理に移行する。すなわち、上記のように入力された特徴パラメータと、その推定された音響モデルのみを参照して生起確率を求め、さらにステップS3,S4に相当する処理により確率PselfI、PenterIを計算する。
例えば、第1音響モデルと第2音響モデルが最適な音響モデルとして推定された場合には、確率PselfI、PenterIは次の(4)(5)式により計算する(ステップS8)。
PselfI=max(A0(I、I)×B0(I、X)、A1(I、I)×B1(I、X))・・・(4)
PenterI=max(A0(I−1、I)×B0(I、X)、A1(I−1、I)×B1(I、X))・・・(5)
次に、この求めたPselfI、PenterIにより、(1)式を用いてpIを更新する(ステップS9)。さらに、ステップS10では、各フレームの認識処理が終了したか否かが判定される。そして、その認識処理が終了すると、その後、上記のように求めた生起確率に基づいて、入力音声の認識結果を求めて出力する(ステップS11)。
ここで、図4によれば、第1〜第4の音響モデルの最大確率出力フレーム数は、図示の通りとなる。
このように得られる最大確率出力フレーム数は、現在の音声認識環境に対するその音響モデルの重要度を示す指標と考えられる。その理由は以下の通りである。
一般に、隠れマルコフモデルは学習条件に近い環境において大きな確率値を出力し、逆に、学習条件から離れた環境では、小さい確率値を出力する傾向にある。そのため、現在の音声認識環境に近い学習条件で作成された音響モデルは、各フレームにおける最大確率を出力する可能性が高くなり、上記の最大確率出力フレーム数が大きくなりやすい。
つまり、上記のフレーム数が大きな音響モデルは、それが作成されたときの学習条件と現在の音声認識環境が近い可能性が高く、その重要度が大きいと考えられる。逆に、上記のフレーム数が小さい音響モデルは、それが作成されたときの学習条件と現在の音声認識環境が離れている可能性が高く、その重要度が低いと考えられる。
そこで、ステップS7において、第1〜第4の音響モデルのうちから最適な音響モデルを推定する際の基本的な考え方としては、最大確率出力フレーム数が大きな音響モデルは必要とみなし、逆に、最大確率出力フレーム数が小さい音響モデルは不必要と見なすことにする。
図4は、車両のアイドリング時に、女性が発話した場合の例である。通常、アイドリング時に女性が発話した場合には、その音声認識条件に近い学習条件で作成された第2音響モデルの確率値が、他の音響モデルの確率値と比べて大きくなりやすい。そのため、第2音響モデル、すなわち、車両のアイドリング時の女性の隠れマルコフモデルが、ほとんどのフレームにおいて最大確率を出力することになる。第1〜第4の音響モデルの最大確率出力フレーム数は、「3」、「6」、「0」、「1」のようになる。
ここで、例えば、最大確率出力フレーム数のうち、上位の2位までを最適な音響モデルと推定した場合には、第1音響モデルと第2音響モデルとが選ばれ、以後の確率計算では、その2つの音響モデルだけを用いて確率計算を行う。
なお、上記の推定は、現在の認識環境に応じたものであることに注意する必要がある。すなわち、車両のアイドリング時に女性が発話した場合には、図4に示すように第1音響モデルの最大確率出力フレーム数が大きくなると考えられる。しかし、例えば、車両のアイドリング時に男性が発話した場合には、第2音響モデルの最大確率出力フレーム数が大きくなると考えられる。
以上説明したように、この第1実施形態によれば、4種類の音響モデルを予め用意しておき、発話入力の開始から所定期間は、その4種類の音響モデルを使用して音声認識処理を進めると同時に、使用環境に応じて最適な音響モデルを推定するための処理を進め、その推定の終了後は、推定された最適な音響モデルを使用して音声認識処理を行うようにした。
このため、第1実施形態によれば、不特定話者の音声認識率の向上を確保しつつ、音声認識の際の演算量をできるだけ抑えてコストダウンを図ることができる。
ここで、第1実施形態において、使用環境が同じであれば、次回の音声認識では図2(A)に示すステップS1〜S7の処理を省略し、前回の音声認識で使用された最適な音響モデルを使用して音声認識を行うのが好ましい。
しかし、その後に、使用環境が変わった場合には、次回の音声認識ではそれまでの最適な音響モデルがリセットされて、新たな使用環境に応じた最適な音響モデルが推定されるのが望ましい。そのために、指示部4にリセットボタン41を設けておけば、そのリセットを必要に応じて行うことができる。
なお、上記のリセットは、一定の音声認識が終了するたびに自動的に行われるようにしても良い。
(第2実施形態)
この第2実施形態は、第1実施形態の処理を基本にした具体的な適用例であり、図5を参照して説明する。
この第2実施形態に係る適用例は、1回の発話内に適用した場合であり、例えば、カーナビゲーションなどで住所を音声により簡単に入力する目的で使用される音声認識に適用した場合である。
いま、例えば、1回の発話で、「神奈川県、厚木市」と発話されると、その発話に応じたマイクロフォンの出力は、図5に示すような波形となる。そこで、その発話が開始されて、最大確率出力フレーム数の検出が可能な時刻t1〜時刻t2の期間(50フレームに相当)に、第1〜第4の音響モデルの各最大確率出力フレーム数をそれぞれカウントして記録していった。
そして、50フレームを経過した時刻t2の時点で、その各音響モデル毎に得られた最大確率出力フレーム数の各カウント値に基づき、最適な音響モデルの推定を行った。その後、時刻t2〜t3の期間では、その推定された最適な音響モデルを使用して認識処理をを行うようにした。
なお、最適な音響モデルの推定方法としては、最大確率出力フレーム数が上位2位までの音響モデルを必要とみなした。
このような方法により、実際に認識率と演算時間とを測定した結果を、図6および図7に示す。図6は車両のアイドリング時に、女性の1回の発話内で適用した場合であり、図7は車両の高速走行時に、女性の1回の発話内で適用した場合である。この測定においては、ある女性が約280種類の住所を発声した音声データを用いた。
また、演算時間は、パーソナルコンピュータ上で、上記の音声データをファイル形式で保存しておき、そのファイルに対して認識処理を行ったときの開始から終了まで要した時間である。
図6および図7では、第1〜第4の音響モデルを全て使用する場合(従来方法)と比較するために、全ての音響モデルを使用した測定も同じ条件の下で行い、その測定結果も合わせて示している。
この測定結果によれば、本例のように最適な音響モデルを使用すると、アイドリング時、高速走行時ともに、全ての音響モデルを使用した場合に比べて、音声認識率は殆ど変わらず、演算時間が減少することがわかる。
(第3実施形態)
この第3実施形態は、第1実施形態の処理を基本にした他の具体的な適用例である。この適用例は、複数の発話にまたがってその処理を適用する場合であり、図8を参照して説明する。
音声認識装置が、カーナビゲーション装置などに組み込まれて使用される組み込み装置として使用される場合には、操作コマンドを認識語彙の対象とする音声認識を行い、その後に、認識された操作コマンドに応じた詳細情報を音声で入力するということが多い。
このように認識対象語彙を、各場面ごとに分割すると、1回の発話に対する語彙数を減らすことが可能となり、その結果、認識率や認識のためのデータの演算量の面で有利となる。
図8は、以上の内容を関して、カーナビゲーション装置に適用した具体例を説明したものであり、以下のような処理の流れとなっている。
まず、カーナビゲーション装置からユーザに対して、「コマンドをお話ください」という指示が表示画面に表示され、ここで、ユーザが「駅名で探す」と発話したものとする。この結果、「駅名で探す」が認識されると、駅名を認識対象語彙とする認識モードに遷移する。その後、ユーザが「本厚木駅」と発話して「本厚木駅」が認識されと、本厚木駅周辺の地図が表示画面に表示される。
このように複数回の発話を連続的に行うことで、目的の操作を達成するアプリケーションにおいて、この実施形態を適用すると効果的である。なぜなら、上記の一連の動作において、全ての発話は同一人物による可能性が高く、また雑音環境が急に変化することは殆どないと考えられるからである。
さらに、上記の例において、通常、操作コマンド系の認識対象語彙数は、数百単語程度と比較的語彙数が少ない。そのため、操作コマンドの認識時に全ての音響モデルを使用して認識処理を行っても、それほど演算量が問題となることはない。
そこで、この例では、以下のような処理を行うようにした(図8を参照)。
すなわち、操作コマンドの認識時には、全ての音響モデルを使用して認識処理を行い、各音響モデル毎の最大確率出力フレーム数をそれぞれ記録しておく(図4を参照)。一方、その後の駅名の認識では、全国の駅名を合わせると数千単語以上となり、認識対象語彙数が増大するため、全ての音響モデルを使用することによる演算量が問題になると考えられる。
そこで、駅名の認識時には、操作コマンドの認識時に得られた最大確率出力フレーム数に基づき、最適な音響モデルの推定を行い、その推定で得られた最適な音響モデルのみを用いて音声認識処理を行うようにした。
これにより、語彙数が多い駅名の認識を全ての音響モデルを使用して行う場合と比較して少ない演算量で達成することが可能となる。
実際に、最初に操作コマンドの認識を行い、そこで推定された最適な音響モデルを用いて、駅名の認識(語彙数:約4600語)を行った結果を、図9および図10に示す。
この場合にも、上記の例と同様に、第1〜第4の音響モデルを用意した。また、最適コンポーネントの推定方法としては、最大確率出力フレーム数が上位2位までの音響モデルを必要なものとみなすようにした。この測定においては、ある男性が約50種類の駅名を発声した音声データを用いた。また、演算時間は、パーソナルコンピュータ上で上記の音声データをファイル形式で保存しておき、そのファイルに対して認識処理を行ったときの開始から終了までに要した時間である。
図9および図10では、第1〜第4の音響モデルを全て使用する場合(従来方法)と比較するために、全ての音響モデルを使用した測定も同じ条件の下で行い、その測定結果も合わせて示している。
この測定結果によれば、本例のように最適な音響モデルを使用すると、アイドリング時、高速走行時ともに、全ての音響モデルを使用した場合に比べて、音声認識率は殆ど変わらず、演算時間が減少することがわかる。
本発明は、カーナビゲーション装置などに組み込み用の音声認識装置として適用した場合に有用である。
本発明の第1実施形態の構成例を示すブロック図である。 第1実施形態の音声認識処理の手順の一例を示すフローチャートである。 第1実施形態によるビタビアルゴリズムを説明する説明図である。 音響モデル毎の最大確率出力フレーム数の一例を示す図である。 本発明の第2実施形態の認識処理例を説明する説明図である。 第2実施形態の効果を説明するための測定結果例である。 第2実施形態の効果を説明するための他の測定結果例である。 本発明の第3実施形態の認識処理例を説明する説明図である。 第3実施形態の効果を説明するための測定結果例である。 第3実施形態の効果を説明するための他の測定結果例である。 音韻のセットのラベルの一覧を示す図である。 話者に共通の音韻ラベルのネットワーク(音韻ラベル系列)の一例を示す図である。
符号の説明
1 マイクロフォン
2 A/D変換器
3 特徴量検出部
4 指示部
5 認識用データ格納部
6 音声認識部
7 出力部

Claims (6)

  1. 隠れマルコフモデルを用いて不特定話者の音声認識を行う音声認識装置であって、
    入力音声の特徴パラメータを検出する検出手段と、
    認識対象の複数の各単語について所定の複数種類の隠れマルコフモデルに共通の1つの音韻系列で表現した認識用辞書、および前記各隠れマルコフモデルの出力確率関数と遷移確率を予め格納する認識用データ格納手段と、
    前記検出手段で検出された特徴パラメータと前記各隠れマルコフモデルとを参照して、前記特徴パラメータの系列が生起する生起確率を求める認識手段とを備え、
    前記認識手段は、前記生起確率を求める過程で、前記各単語について前記複数種類の隠れマルコフモデルに共通の1つの音韻系列を持つようにし、
    かつ、前記認識手段は、前記共通の1つの音韻系列の各状態の確率を、前記検出された特徴パラメータを入力として、前記認識用データ格納手段に格納される出力確率関数と遷移確率のうち、予め組み合わせが設定されている複数組の出力確率関数値と遷移確率値を乗算し、この乗算値のうち最大のものを選択して求める第1処理と、
    前記第1処理の過程で得られる前記各隠れマルコフモデルの各状態の確率に基づき、前記複数種類の隠れマルコフモデルのうちから予め決められた少なくとも1つの最適な隠れマルコフモデルを推定する第2処理と、
    前記第2処理の終了後は、前記共通の1つの音韻系列の各状態の確率を、前記特徴パラメータを入力として、前記認識用データ格納手段に格納される出力確率関数と遷移確率のうち、推定された最適な隠れマルコフモデルの組のみの出力確率関数値と遷移確率値を乗算し、この乗算値のうち最大のものを選択して求める第3処理と、
    を行うようになっていることを特徴とする音声認識装置。
  2. 前記認識手段が行う前記第2処理は、
    所定の処理単位内において、前記第1処理の過程で前記複数種類の隠れマルコフモデルの複数の状態に関して得られた確率のうち、最大の確率を出力する隠れマルコフモデルを選択し、この選択された隠れマルコフモデルの選択回数を記憶する第1ステップと、
    前記第1ステップの処理を複数回繰り返す第2ステップと、
    前記第2ステップの処理が終了したときに、前記記憶されている各隠れマルコフモデルの選択回数に基づき、前記複数種類の隠れマルコフモデルのうちから最適な隠れマルコフモデルを推定する第3ステップと、
    からなることを特徴とする請求項1に記載の音声認識装置。
  3. 前記認識手段が行う第2処理を、必要に応じてユーザがリセットまたは自動的にリセットするリセット手段を、さらに備えていることを特徴とする請求項1または請求項2に記載の音声認識装置。
  4. 隠れマルコフモデルを用いて不特定話者の音声認識を行う音声認識方法であって、
    認識対象である複数の各単語について所定の複数種類の隠れマルコフモデルに共通の1つの音韻系列で表現した認識用辞書、および前記各隠れマルコフモデルの出力確率関数と遷移確率を予め認識用データ格納手段に格納しておき、
    音声認識のときに、入力音声の特徴パメータを検出し、この検出された特徴パラメータと前記各隠れマルコフモデルとを参照して、前記特徴パラメータの系列が生起する生起確率を求め、
    前記生起確率を求める過程で、前記各単語について前記複数種類の隠れマルコフモデルに共通の1つの音韻系列を持つようにし、
    かつ、前記共通の1つの音韻系列の各状態の確率を、前記検出された特徴パラメータを入力として、前記認識用データ格納手段に格納される出力確率関数と遷移確率のうち、予め組み合わせが設定されている複数組の出力確率関数値と遷移確率値を乗算し、この乗算値のうち最大のものを選択して求める第1処理と、
    前記第1処理の過程で得られる前記各隠れマルコフモデルの各状態の確率に基づき、前記複数種類の隠れマルコフモデルのうちから予め決められた少なくとも1つの最適な隠れマルコフモデルを推定する第2処理と、
    前記第2処理の終了後は、前記共通の1つの隠れマルコフモデルの各状態の確率を、前記特徴パラメータを入力として、前記認識用データ格納手段に格納される出力確率関数と遷移確率のうち、推定された最適な隠れマルコフモデルの組のみの出力確率関数値と遷移確率値を乗算し、この乗算値のうち最大のものを選択して求める第3処理と、
    を含むことを特徴とする音声認識方法。
  5. 前記第2処理は、
    所定の処理単位内において、前記第1処理の過程で前記複数種類の隠れマルコフモデルの複数の状態に関して得られた確率のうち、最大の確率を出力する隠れマルコフモデルを選択し、この選択された隠れマルコフモデルの選択回数を記憶する第1ステップと、
    前記第1ステップの処理を複数回繰り返す第2ステップと、
    前記第2ステップの処理が終了したときに、前記記憶されている各隠れマルコフモデルの選択回数に基づき、前記複数種類の隠れマルコフモデルのうちから最適な隠れマルコフモデルを推定する第3ステップと、
    からなることを特徴とする請求項4に記載の音声認識方法。
  6. 前記第2処理は、必要に応じてユーザがリセットまたは自動的にリセットできるようにしたことを特徴とする請求項4または請求項5に記載の音声認識方法。
JP2004361276A 2004-12-14 2004-12-14 音声認識装置および音声認識方法 Pending JP2006171185A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004361276A JP2006171185A (ja) 2004-12-14 2004-12-14 音声認識装置および音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004361276A JP2006171185A (ja) 2004-12-14 2004-12-14 音声認識装置および音声認識方法

Publications (1)

Publication Number Publication Date
JP2006171185A true JP2006171185A (ja) 2006-06-29

Family

ID=36672043

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004361276A Pending JP2006171185A (ja) 2004-12-14 2004-12-14 音声認識装置および音声認識方法

Country Status (1)

Country Link
JP (1) JP2006171185A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009086202A (ja) * 2007-09-28 2009-04-23 Kddi Corp 音声認識における音響尤度並列計算装置及びそのプログラム
CN113518153A (zh) * 2021-04-25 2021-10-19 上海淇玥信息技术有限公司 一种识别用户通话响应状态的方法、装置和电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07261785A (ja) * 1994-03-22 1995-10-13 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 音声認識方法及び音声認識装置
JP2000194392A (ja) * 1998-12-25 2000-07-14 Sharp Corp 騒音適応型音声認識装置及び騒音適応型音声認識プログラムを記録した記録媒体
WO2002007146A1 (fr) * 2000-07-13 2002-01-24 Asahi Kasei Kabushiki Kaisha Dispositif de reconnaissance vocale et procede de reconnaissance vocale
JP2003022088A (ja) * 2001-07-10 2003-01-24 Sharp Corp 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、並びに、プログラム記録媒体
JP2003022093A (ja) * 2001-07-09 2003-01-24 Nippon Hoso Kyokai <Nhk> 音声認識方法および音声認識装置ならびに音声認識プログラム
JP2003099083A (ja) * 2001-09-25 2003-04-04 Nippon Hoso Kyokai <Nhk> 音声認識装置
JP2003122395A (ja) * 2001-10-19 2003-04-25 Asahi Kasei Corp 音声認識システム、端末およびプログラム、並びに音声認識方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07261785A (ja) * 1994-03-22 1995-10-13 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 音声認識方法及び音声認識装置
JP2000194392A (ja) * 1998-12-25 2000-07-14 Sharp Corp 騒音適応型音声認識装置及び騒音適応型音声認識プログラムを記録した記録媒体
WO2002007146A1 (fr) * 2000-07-13 2002-01-24 Asahi Kasei Kabushiki Kaisha Dispositif de reconnaissance vocale et procede de reconnaissance vocale
JP2003022093A (ja) * 2001-07-09 2003-01-24 Nippon Hoso Kyokai <Nhk> 音声認識方法および音声認識装置ならびに音声認識プログラム
JP2003022088A (ja) * 2001-07-10 2003-01-24 Sharp Corp 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、並びに、プログラム記録媒体
JP2003099083A (ja) * 2001-09-25 2003-04-04 Nippon Hoso Kyokai <Nhk> 音声認識装置
JP2003122395A (ja) * 2001-10-19 2003-04-25 Asahi Kasei Corp 音声認識システム、端末およびプログラム、並びに音声認識方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009086202A (ja) * 2007-09-28 2009-04-23 Kddi Corp 音声認識における音響尤度並列計算装置及びそのプログラム
CN113518153A (zh) * 2021-04-25 2021-10-19 上海淇玥信息技术有限公司 一种识别用户通话响应状态的方法、装置和电子设备
CN113518153B (zh) * 2021-04-25 2023-07-04 上海淇玥信息技术有限公司 一种识别用户通话响应状态的方法、装置和电子设备

Similar Documents

Publication Publication Date Title
JP3888543B2 (ja) 音声認識装置及び音声認識方法
EP1936606B1 (en) Multi-stage speech recognition
JP5621783B2 (ja) 音声認識システム、音声認識方法および音声認識プログラム
JP4260788B2 (ja) 音声認識機器制御装置
CN111524534B (zh) 一种语音分析方法、系统、设备及存储介质
JP3836815B2 (ja) 音声認識装置、音声認識方法、該音声認識方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体
JP6812843B2 (ja) 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法
JPH11126090A (ja) 音声認識方法及び音声認識装置並びに音声認識装置を動作させるためのプログラムが記録された記録媒体
JPH07334184A (ja) 音響カテゴリ平均値計算装置及び適応化装置
WO2010128560A1 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP2007047412A (ja) 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置
JP4353202B2 (ja) 韻律識別装置及び方法、並びに音声認識装置及び方法
JP7479711B2 (ja) 音声サンプルのアライメントに基づく診断手法
JP4440502B2 (ja) 話者認証システム及び方法
JP2004251998A (ja) 対話理解装置
JP2006171185A (ja) 音声認識装置および音声認識方法
JP5375612B2 (ja) 周波数軸伸縮係数推定装置とシステム方法並びにプログラム
JP2016157097A (ja) 音読評価装置、音読評価方法、及びプログラム
JP2009116075A (ja) 音声認識装置
JP2007206603A (ja) 音響モデルの作成方法
KR101066472B1 (ko) 초성 기반 음성인식장치 및 음성인식방법
JP2006084664A (ja) 音声認識装置および音声認識プログラム
US11574624B1 (en) Synthetic speech processing
JP2003280682A (ja) 音声認識装置及び方法
JP2017126004A (ja) 音声評価装置、方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071205

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100622

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100706

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110208