JP2004252046A

JP2004252046A - 音声認識装置及びプログラム

Info

Publication number: JP2004252046A
Application number: JP2003040913A
Authority: JP
Inventors: Takakatsu Yoshimura; 貴克吉村; Ryuta Terajima; 立太寺嶌; Toshihiro Wakita; 敏裕脇田
Original assignee: Toyota Central R&D Labs Inc
Current assignee: Toyota Central R&D Labs Inc
Priority date: 2003-02-19
Filing date: 2003-02-19
Publication date: 2004-09-09

Abstract

【課題】音声認識の結果に基づいて、入力された音声のどの部分が不明瞭な発声であったかをユーザに報知させる。
【解決手段】音声分析部１１は、音声分析を行って韻律的特徴パラメータ及び音韻的特徴パラメータを抽出する。音声認識部１２は、音韻的特徴パラメータを用いて音声認識を行う。音声合成部１３は、音声認識部１２による音声認識の結果と韻律的特徴パラメータとに基づいて音声合成を行う。
【選択図】図２

Description

【０００１】
【発明の属する技術分野】
本発明は、音声認識装置及びプログラムに係り、特に音声の誤認識をユーザに報知させる音声認識装置及びプログラムに関する。
【０００２】
【従来の技術】
従来、入力された音声を認識し、発話内容をテキスト文書で表示する音声認識プログラムが市販されている（例えば、非特許文献１参照。）。非特許文献１に記載された音声認識プログラムがインストールされたコンピュータ（以下「非特許文献１の音声認識装置」という。）は、入力された音声を認識して、文書作成ソフトや表計算ソフトに音声認識結果のテキストを表示したり、所定の設定を行うことができる。
【０００３】
また、音声認識の尤度が低い場合又は音声認識できなかった場合に、合成音声の代わりにユーザの入力音声をそのまま出力したり、あるいは合成音質の声質を変えて出力する技術が既に提案されている（例えば、特許文献１参照。）。
【０００４】
【特許文献１】
特開平２−１０９１００号公報
【非特許文献１】
日本アイ・ビー・エム社ビアボイス（Ｒ）ｆｏｒＷｉｎｄｏｗｓ（Ｒ）Ｐｒｅｍｉｕｍ／ＰｒｏＵＳＢ／ＳｔａｎｄａｒｄＶ６日本語版のパンフレット
【０００５】
【発明が解決しようとする課題】
非特許文献１の音声認識装置は、音声認識結果をテキスト文書で表示するだけであるので、入力された音声を誤認識した場合でも、入力された音声のどの部分が不明瞭な発声であったかをユーザに気付かせることができなかった。
【０００６】
例えば、ユーザが「なごや」と発声したのに対して、非特許文献１の音声認識装置が誤認識して「だんのうら」を表示したとする。ユーザは、音声認識の結果を文字列でしか確認することができないので、なぜ「なごや」が「だんのうら」と誤認識されたかを知ることができない。換言すると、ユーザは、「なごや」の各文字が「だんのうら」のどの文字に対応しているのかが分からず、どのように発声を修正すればいいかを確認することができなかった。そのため、ユーザが不明瞭な発声を続けてしまい、音声の誤認識を繰り返してしまう問題があった。
【０００７】
また、特許文献１に記載された技術は、ユーザの入力音声をそのまま出力したり、声質を変えて出力するだけなので、音声認識の結果を反映させた音声を出力させるものではない。このため、上記と同様に、入力された音声のどの部分が不明瞭な発声であったかをユーザに気付かせることができなかった。
【０００８】
本発明は、上述した課題を解決するために提案されたものであり、音声認識の結果に基づいて、入力された音声のどの部分が不明瞭な発声であったかをユーザに報知させることができる音声認識装置及びプログラムを提供することを目的とする。
【０００９】
【課題を解決するための手段】
請求項１に記載の発明である音声認識装置は、音声を分析して音韻情報と韻律情報とを抽出する音声分析手段と、前記音声分析手段により抽出された音韻情報を用いて音声認識を行う音声認識手段と、前記音声分析手段により抽出された韻律情報と、前記音声認識手段による音声認識の結果とに基づいて、音声合成を行う音声合成手段と、を備えている。
【００１０】
請求項４に記載の発明である音声認識プログラムは、コンピュータを、音声を分析して音韻情報と韻律情報とを抽出する音声分析手段と、前記音声分析手段により抽出された音韻情報を用いて音声認識を行う音声認識手段と、前記音声分析手段により抽出された韻律情報と、前記音声認識手段による音声認識の結果とに基づいて、音声合成を行う音声合成手段と、して機能させる。
【００１１】
音声分析手段は、入力された音声を分析して音声区間を切り出し、韻律情報を音韻情報とを抽出する。ここで、韻律情報とは、例えばイントネーションやアクセントを含む情報をいう。音韻情報とは、音素等の発声内容を含む情報をいう。
【００１２】
音声認識手段は、音声分析手段により抽出された音韻情報を少なくとも用いて音声認識を行う。音声合成手段は、音声分析手段により抽出された韻律情報と、音声認識手段による音声認識の結果とに基づいて、所定の声質の音声合成を行う。
【００１３】
したがって、上記音声認識装置及びプログラムによれば、音声分析手段により抽出された韻律情報と、音声認識手段による音声認識の結果とに基づいて音声合成を行うことにより、入力された音声と音声認識の結果とを音声により対応させることができる。
【００１４】
請求項２に記載の発明である音声認識装置は、請求項１に記載の発明であって、前記音声合成手段は、前記音声分析手段により抽出された韻律情報に従って、前記音声認識手段により認識された単語を発する音声合成を行うことを特徴とする。
【００１５】
請求項５に記載の発明である音声認識プログラムは、請求項４に記載の発明であって、前記音声合成手段は、前記音声分析手段により抽出された韻律情報に従って、前記音声認識手段により認識された単語を発する音声合成を行うことを特徴とする。
【００１６】
したがって、上記音声認識装置及びプログラムによれば、入力された音声と音声認識の結果である各々の単語とを対応させることができ、ユーザに対してどの箇所の発声が悪かったのかを報知させることができる。
【００１７】
請求項３に記載の発明である音声認識装置は、請求項１または２に記載の発明であって、音響モデルを記憶する音響モデル記憶手段と、言語モデルを記憶する言語モデル記憶手段と、を更に備え、前記音声認識手段は、前記音声分析手段により抽出された音韻情報と、前記音響モデル記憶手段に記憶された音響モデルと、言語モデル記憶手段に記憶された言語モデルとに基づいて、前記音声認識の結果を表す代表パラメータを生成することを特徴とする。
【００１８】
請求項６に記載の発明である音声認識プログラムは、請求項４または５に記載の発明であって、前記コンピュータを、音響モデルを記憶する音響モデル記憶手段と、言語モデルを記憶する言語モデル記憶手段と、して更に機能させ、前記音声認識手段は、前記音声分析手段により抽出された音韻情報と、前記音響モデル記憶手段に記憶された音響モデルと、言語モデル記憶手段に記憶された言語モデルと、に基づいて、前記音声認識の結果を表す代表パラメータを生成することを特徴とする。
【００１９】
したがって、上記音声認識装置及びプログラムによれば、音響モデルと言語モデルと音韻情報とに基づいて、前記音声認識の結果として、所定の声質を有する代表パラメータを生成することができる。
【００２０】
【発明の実施の形態】
以下、本発明の好ましい実施の形態について図面を参照しながら詳細に説明する。
【００２１】
図１は、本発明の実施の形態に係る音声認識装置の構成を示すブロック図である。
【００２２】
音声認識装置は、例えば、音声認識プログラムがインストールされたコンピュータで構成されている。音声認識装置は、ユーザの音声を入力するマイク１、音声情報の入出力を行う音声入出力ポート２、音声認識処理を実行するＣＰＵ３、ＣＰＵ３の制御プログラムを記憶したＲＯＭ４、データのワークエリアであるＲＡＭ５、音響モデルや言語モデルなどを記憶したハードディスクドライブ６、合成音声を出力するスピーカ７を備えている。
【００２３】
ＲＯＭ４には、後述するような処理を実行する音声認識プログラムが記憶されている。音声認識プログラムは、光ディスク、磁気ディスク、半導体メモリ等の記録媒体に記録されたものに限らず、ネットワークを介して伝送されたものであってもよい。
【００２４】
図２は、音声認識装置に備えられたＣＰＵ３の機能的な処理を示すブロック図である。ＣＰＵ３は、音声分析を行って韻律的特徴パラメータ及び音韻的特徴パラメータを抽出する音声分析部１１と、音韻的特徴パラメータを用いて音声認識を行う音声認識部１２と、音声認識結果及び韻律的特徴パラメータに基づいて音声合成を行う音声合成部１３とを備えている。
【００２５】
ここで、音響モデルデータベース２１は、上述したハードディスクドライブ６によって構成されたものである。音響モデルデータベース２１は、「あ」、「い」などの音素単位毎に音響モデルを記憶している。音響モデルは、音韻的特徴パラメータを統計的に表現したモデルである。用途の違いにより音節、単語という単位で存在することもある。
【００２６】
図３は、発声「あ」の音響モデルを説明する図である。発声「あ」の音響モデルは、「あ」の立上り区間、定常区間、立下り区間の３つの状態からなっている。これら３つの各状態には、ガウス分布などの確率分布が存在する。音韻的特徴パラメータは、この確率分布に従って多次元空間上に分布している。時間が進むにつれ、状態が遷移し、遷移すると状態の確率分布に従って音韻的特徴パラメータの列が出力される。
【００２７】
なお、音響モデルは、より多くの人の声を認識できるようにするために、大量の学習データ（多数の話者によって長時間収録された音声データ）により学習されたものである。
【００２８】
言語モデルデータベース２２は、上述したハードディスクドライブ６によって構成されたものである。言語モデルデータベース２２は、言語モデルを記憶している。言語モデルは、単語群と各単語の音素の並びを定義した音素配列情報との対応関係を記述した情報である。例えば、単語の発音辞書、単語同士の連結の強さ（例えば「山田」（名字）と「さん」は連結しやすい）などの情報を有する。
【００２９】
図４は、ＣＰＵ３の各部位の動作手順を示すフローチャートである。図５は、上記フローチャートの各ステップの処理内容を示す図である。ＣＰＵ３の各部位は、マイク１を介して音声が入力されると、ステップＳＴ１以下の処理を実行する。ここでは、「とよた」という音声が入力された場合を例に挙げて説明する。
【００３０】
ステップＳＴ１では、音声分析部１１は、マイク１に入力された音声を分析して、無音で区切られた音声区間を切り出し、そして韻律的特徴パラメータ及び音韻的特徴パラメータを抽出して、ステップＳＴ２に移行する。ここでは、音声分析部１１は、入力された音声を例えばフーリエ変換などによってスペクトルを聴覚特性に合わせて周波数変換し、対数をとり逆フーリエ変換した後に高次の項を遮断することで音韻的特徴パラメータを抽出する。また、音声分析部１１は、上記周波数変換して対数をとった後の高次の項を韻律的特徴パラメータとして抽出する。
【００３１】
なお、音韻的特徴パラメータは、音声のスペクトル情報から余分な情報（ノイズ、声の抑揚、イントネーションなど）を省いた多次元ベクトルであり、発声内容の情報（何をしゃべっているかという情報）を含むパラメータである。音韻的特徴パラメータは、一発声に対して時系列で得られる。韻律的特徴パラメータは、話者の音色を表すピッチ成分である。
【００３２】
ステップＳＴ２では、音声認識部１２は、音声分析部１１で抽出された韻律的特徴パラメータ、音響モデルデータベース２１の音響モデル、言語モデルデータベース２２の言語モデルに基づいて、確率的状態遷移モデル（以下「遷移モデル」という。）を生成して、ステップＳＴ３に移行する。ここで、遷移モデルとは、音響モデルを言語モデルに従って連結してネットワーク化したものをいう。例えば図５では、音声認識部１２は、「せと（ｓｅｔｏ）」、「とよた（ｔｏｙｏｔａ）」、「あさひ（ａｓａｈｉ）」の３つの遷移モデルを生成している。
【００３３】
ステップＳＴ３では、音声認識部１２は、音声分析部１１で抽出された音韻的特徴パラメータに対して複数の遷移モデルを照合すると共に、尤度を計算して、ステップＳＴ４に移行する。
【００３４】
図６は、音韻的特徴パラメータと遷移モデルとの照合処理（尤度計算）の一例を示す図である。尤度は、遷移モデルの各状態にある確率分布上において音韻的特徴パラメータがどこに位置しているか（図６の空間表現を参照）を数値化して加算していくことで得られる値である。尤度は分布の山に近ければ近いほど大きな値となり、逆に離れていると小さい値となる。なお、尤度を計算すると同時に、各音韻的特徴パラメータ列がそれぞれどの状態に割り当てられたかも知ることができる。
【００３５】
図５の場合、音声認識部１２は、「せと（ｓｅｔｏ）」に対して尤度−３０、「とよた（ｔｏｙｏｔａ）」に対して尤度−２０、「あさひ（ａｓａｈｉ）」に対して尤度−５０を計算している。
【００３６】
ステップＳＴ４では、音声認識部１２は、ステップＳＴ３で照合された複数の遷移モデルの中から最も尤度が高い遷移モデルを選択して、ステップＳＴ５に移行する。これにより、ＣＰＵ３は、入力された音声が何と発声されたのかを認識することができる。図５の場合、音声認識部１２は、最も尤度が高い「とよた」の遷移モデルを選択する。
【００３７】
この時、音声認識部１２は、音韻的特徴パラメータが遷移モデルのどの状態に割り当てられたかという情報を保持し、図６に示すように、その割り当てられた状態にある確率分布から、代表となる音韻的特徴パラメータ（例えば、分布の平均値）を出力する。以下では、代表となる音韻的特徴パラメータを「代表パラメータ」という。
【００３８】
なお、代表パラメータの生成については、刊行物「ＫｅｉｉｃｈｉＴｏｋｕｄａ，ＴａｋａｙｏｓｈｉＹｏｓｈｉｍｕｒａ，ＴａｋａｓｈｉＭａｓｕｋｏ，ＴａｋａｏＫｏｂａｙａｓｈｉ，ＴａｄａｓｈｉＫｉｔａｍｕｒａ， ”ＳｐｅｅｃｈｐａｒａｍｅｔｅｒｇｅｎｅｒａｔｉｏｎａｌｇｏｒｉｔｈｍｓｆｏｒＨＭＭ−ｂａｓｅｄｓｐｅｅｃｈｓｙｎｔｈｅｓｉｓ， ”ＰｒｏｃｅｅｄｉｎｇｓｏｆＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，Ｓｐｅｅｃｈ，ａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，Ｉｓｔａｎｂｕｌ，Ｔｕｒｋｅｙ，ｖｏｌ．３，ｐｐ．１３１５−１３１８，Ｊｕｎｅ２０００．」に記載された技術を用いることができる。
【００３９】
ステップＳＴ５では、音声合成部１３は、音声分析部１１で抽出された韻律的特徴パラメータと、音声認識部１２で得られた遷移モデル（代表パラメータ）とに基づいて、音声合成を行う。そして、ＣＰＵ３は、音声入出力ポート２、スピーカ７を介して合成音声を出力させる。
【００４０】
ここで、よく似た単語があった場合、音響モデルが発声者の声に対応していない場合、言い間違いをした場合、ノイズが入った場合などの様々な原因により、しばしば認識誤りを起こすことがある。
【００４１】
認識誤りがあった場合、スピーカ７から出力される合成音声は、タイミング（発声時間長）やアクセントは入力音声と同じで、声質は音響モデルの学習に使った音声の平均的な声（分布の平均値を使った場合）であり、話している内容は誤認識された単語になる。
【００４２】
図７は、音声の誤認識を説明する図である。この例では、ユーザは「とよたし」と発声したが、最後の「し」を弱く発声したとする。この「とよたし」の音声を、「とよたし」の遷移モデル、「とうきょうと」の遷移モデルにそれぞれ照合（尤度計算）した結果、「とよたし」の尤度より「とうきょうと」の尤度のほうが大きな値になった。このため、ユーザは「とよたし」と発声したが、「とうきょうと」と誤認識されている。このように、人間が聞けば理解できる音声でも、音声認識システムはしばしば他の単語に間違えてしまう。
【００４３】
例えば図７の場合、ユーザは「とよたし」と発声したものの、以下のように誤認識された合成音声を聞くことができる。
「と」→「とう」
「よ」→「きょう」
「たし」→「と」
ユーザは、この合成音声を聞くことで、例えば「と」「よ」はもっと短く、「し」はもっと強く発声しなければならないと確認することができる。すなわち、ユーザは、音声認識装置が認識誤りをした場合、どのように間違ったのかを音声で知ることができ、次に言い直しする場合の手助けになる。
【００４４】
以上のように、本実施の形態に係る音声認識装置は、入力された音声から韻律的特徴パラメータと音韻的特徴パラメータを抽出し、音韻的特徴パラメータを用いて音声認識の結果である代表パラメータを生成し、韻律的特徴パラメータと代表パラメータとで音声合成をする。つまり、音声認識装置は、音声認識した各々の単語を、その単語の正規の韻律でなく、入力された音声の韻律情報に従って音声合成する。
【００４５】
したがって、音声認識装置は、音声認識の誤りがあった場合では、その音声認識の結果に得られた単語を入力された音声の韻律情報に従って出力するので、入力された音声と音声認識の誤りとを対応させることができ、ユーザに対してどの箇所の発声が悪かったのかを報知させることができる。一方、ユーザは、例えばディスプレイを見ることなく、どの箇所が間違ったのかを早く確認することができ、さらにどのように発声を修正すればいいかを容易に理解することができる。
【００４６】
なお、本発明は、上述した実施の形態に限定されるものではなく、特許請求の範囲に記載された範囲内の設計変更であれば適用される。例えば、上述の実施形態では、音声認識装置は、音声認識プログラムがインストールされたコンピュータであるとしたが、例えば、カーナビゲーションシステムや家庭用電化製品に搭載されたものでもよい。
【００４７】
【発明の効果】
本発明に係る音声認識装置及びプログラムは、音声分析手段により抽出された韻律情報と、音声認識手段による音声認識の結果とに基づいて音声合成を行うことにより、入力された音声と音声認識の結果とを音声により対応させることができる。
【図面の簡単な説明】
【図１】本発明の実施の形態に係る音声認識装置の構成を示すブロック図である。
【図２】音声認識装置に備えられたＣＰＵの機能的な処理を示すブロック図である。
【図３】発声「あ」の音響モデルを説明する図である。
【図４】ＣＰＵの各部位の動作手順を示すフローチャートである。
【図５】フローチャートの各ステップの処理内容を示す図である。
【図６】音韻的特徴パラメータと遷移モデルとの照合処理（尤度計算）の一例を示す図である。
【図７】音声の誤認識を説明する図である。
【符号の説明】
１マイク
２音声入出力ポート
３ＣＰＵ
４ＲＯＭ
５ＲＡＭ
６ハードディスクドライブ
７スピーカ
１１音声分析部
１２音声認識部
１３音声合成部
２１音響モデルデータベース
２２言語モデルデータベース

Claims

音声を分析して音韻情報と韻律情報とを抽出する音声分析手段と、
前記音声分析手段により抽出された音韻情報を用いて音声認識を行う音声認識手段と、
前記音声分析手段により抽出された韻律情報と、前記音声認識手段による音声認識の結果とに基づいて、音声合成を行う音声合成手段と、
を備えた音声認識装置。
前記音声合成手段は、前記音声分析手段により抽出された韻律情報に従って、前記音声認識手段により認識された単語を発する音声合成を行うこと
を特徴とする請求項１に記載の音声認識装置。
音響モデルを記憶する音響モデル記憶手段と、
言語モデルを記憶する言語モデル記憶手段と、を更に備え、
前記音声認識手段は、前記音声分析手段により抽出された音韻情報と、前記音響モデル記憶手段に記憶された音響モデルと、言語モデル記憶手段に記憶された言語モデルとに基づいて、前記音声認識の結果を表す代表パラメータを生成すること
を特徴とする請求項１または２に記載の音声認識装置。
コンピュータを、
音声を分析して音韻情報と韻律情報とを抽出する音声分析手段と、
前記音声分析手段により抽出された音韻情報を用いて音声認識を行う音声認識手段と、
前記音声分析手段により抽出された韻律情報と、前記音声認識手段による音声認識の結果とに基づいて、音声合成を行う音声合成手段と、
して機能させる音声認識プログラム。
前記音声合成手段は、前記音声分析手段により抽出された韻律情報に従って、前記音声認識手段により認識された単語を発する音声合成を行うこと
を特徴とする請求項４に記載の音声認識プログラム。
前記コンピュータを、
音響モデルを記憶する音響モデル記憶手段と、
言語モデルを記憶する言語モデル記憶手段と、
して更に機能させ、
前記音声認識手段は、前記音声分析手段により抽出された音韻情報と、前記音響モデル記憶手段に記憶された音響モデルと、言語モデル記憶手段に記憶された言語モデルと、に基づいて、前記音声認識の結果を表す代表パラメータを生成すること
を特徴とする請求項４または５に記載の音声認識プログラム。