JP2004252046A - 音声認識装置及びプログラム - Google Patents

音声認識装置及びプログラム Download PDF

Info

Publication number
JP2004252046A
JP2004252046A JP2003040913A JP2003040913A JP2004252046A JP 2004252046 A JP2004252046 A JP 2004252046A JP 2003040913 A JP2003040913 A JP 2003040913A JP 2003040913 A JP2003040913 A JP 2003040913A JP 2004252046 A JP2004252046 A JP 2004252046A
Authority
JP
Japan
Prior art keywords
voice
speech
speech recognition
recognition
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003040913A
Other languages
English (en)
Inventor
Takakatsu Yoshimura
貴克 吉村
Ryuta Terajima
立太 寺嶌
Toshihiro Wakita
敏裕 脇田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Central R&D Labs Inc
Original Assignee
Toyota Central R&D Labs Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Central R&D Labs Inc filed Critical Toyota Central R&D Labs Inc
Priority to JP2003040913A priority Critical patent/JP2004252046A/ja
Publication of JP2004252046A publication Critical patent/JP2004252046A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】音声認識の結果に基づいて、入力された音声のどの部分が不明瞭な発声であったかをユーザに報知させる。
【解決手段】音声分析部11は、音声分析を行って韻律的特徴パラメータ及び音韻的特徴パラメータを抽出する。音声認識部12は、音韻的特徴パラメータを用いて音声認識を行う。音声合成部13は、音声認識部12による音声認識の結果と韻律的特徴パラメータとに基づいて音声合成を行う。
【選択図】 図2

Description

【0001】
【発明の属する技術分野】
本発明は、音声認識装置及びプログラムに係り、特に音声の誤認識をユーザに報知させる音声認識装置及びプログラムに関する。
【0002】
【従来の技術】
従来、入力された音声を認識し、発話内容をテキスト文書で表示する音声認識プログラムが市販されている(例えば、非特許文献1参照。)。非特許文献1に記載された音声認識プログラムがインストールされたコンピュータ(以下「非特許文献1の音声認識装置」という。)は、入力された音声を認識して、文書作成ソフトや表計算ソフトに音声認識結果のテキストを表示したり、所定の設定を行うことができる。
【0003】
また、音声認識の尤度が低い場合又は音声認識できなかった場合に、合成音声の代わりにユーザの入力音声をそのまま出力したり、あるいは合成音質の声質を変えて出力する技術が既に提案されている(例えば、特許文献1参照。)。
【0004】
【特許文献1】
特開平2−109100号公報
【非特許文献1】
日本アイ・ビー・エム社 ビアボイス(R)for Windows(R)Premium/ProUSB/StandardV6日本語版のパンフレット
【0005】
【発明が解決しようとする課題】
非特許文献1の音声認識装置は、音声認識結果をテキスト文書で表示するだけであるので、入力された音声を誤認識した場合でも、入力された音声のどの部分が不明瞭な発声であったかをユーザに気付かせることができなかった。
【0006】
例えば、ユーザが「なごや」と発声したのに対して、非特許文献1の音声認識装置が誤認識して「だんのうら」を表示したとする。ユーザは、音声認識の結果を文字列でしか確認することができないので、なぜ「なごや」が「だんのうら」と誤認識されたかを知ることができない。換言すると、ユーザは、「なごや」の各文字が「だんのうら」のどの文字に対応しているのかが分からず、どのように発声を修正すればいいかを確認することができなかった。そのため、ユーザが不明瞭な発声を続けてしまい、音声の誤認識を繰り返してしまう問題があった。
【0007】
また、特許文献1に記載された技術は、ユーザの入力音声をそのまま出力したり、声質を変えて出力するだけなので、音声認識の結果を反映させた音声を出力させるものではない。このため、上記と同様に、入力された音声のどの部分が不明瞭な発声であったかをユーザに気付かせることができなかった。
【0008】
本発明は、上述した課題を解決するために提案されたものであり、音声認識の結果に基づいて、入力された音声のどの部分が不明瞭な発声であったかをユーザに報知させることができる音声認識装置及びプログラムを提供することを目的とする。
【0009】
【課題を解決するための手段】
請求項1に記載の発明である音声認識装置は、音声を分析して音韻情報と韻律情報とを抽出する音声分析手段と、前記音声分析手段により抽出された音韻情報を用いて音声認識を行う音声認識手段と、前記音声分析手段により抽出された韻律情報と、前記音声認識手段による音声認識の結果とに基づいて、音声合成を行う音声合成手段と、を備えている。
【0010】
請求項4に記載の発明である音声認識プログラムは、コンピュータを、音声を分析して音韻情報と韻律情報とを抽出する音声分析手段と、前記音声分析手段により抽出された音韻情報を用いて音声認識を行う音声認識手段と、前記音声分析手段により抽出された韻律情報と、前記音声認識手段による音声認識の結果とに基づいて、音声合成を行う音声合成手段と、して機能させる。
【0011】
音声分析手段は、入力された音声を分析して音声区間を切り出し、韻律情報を音韻情報とを抽出する。ここで、韻律情報とは、例えばイントネーションやアクセントを含む情報をいう。音韻情報とは、音素等の発声内容を含む情報をいう。
【0012】
音声認識手段は、音声分析手段により抽出された音韻情報を少なくとも用いて音声認識を行う。音声合成手段は、音声分析手段により抽出された韻律情報と、音声認識手段による音声認識の結果とに基づいて、所定の声質の音声合成を行う。
【0013】
したがって、上記音声認識装置及びプログラムによれば、音声分析手段により抽出された韻律情報と、音声認識手段による音声認識の結果とに基づいて音声合成を行うことにより、入力された音声と音声認識の結果とを音声により対応させることができる。
【0014】
請求項2に記載の発明である音声認識装置は、請求項1に記載の発明であって、前記音声合成手段は、前記音声分析手段により抽出された韻律情報に従って、前記音声認識手段により認識された単語を発する音声合成を行うことを特徴とする。
【0015】
請求項5に記載の発明である音声認識プログラムは、請求項4に記載の発明であって、前記音声合成手段は、前記音声分析手段により抽出された韻律情報に従って、前記音声認識手段により認識された単語を発する音声合成を行うことを特徴とする。
【0016】
したがって、上記音声認識装置及びプログラムによれば、入力された音声と音声認識の結果である各々の単語とを対応させることができ、ユーザに対してどの箇所の発声が悪かったのかを報知させることができる。
【0017】
請求項3に記載の発明である音声認識装置は、請求項1または2に記載の発明であって、音響モデルを記憶する音響モデル記憶手段と、言語モデルを記憶する言語モデル記憶手段と、を更に備え、前記音声認識手段は、前記音声分析手段により抽出された音韻情報と、前記音響モデル記憶手段に記憶された音響モデルと、言語モデル記憶手段に記憶された言語モデルとに基づいて、前記音声認識の結果を表す代表パラメータを生成することを特徴とする。
【0018】
請求項6に記載の発明である音声認識プログラムは、請求項4または5に記載の発明であって、前記コンピュータを、音響モデルを記憶する音響モデル記憶手段と、言語モデルを記憶する言語モデル記憶手段と、して更に機能させ、前記音声認識手段は、前記音声分析手段により抽出された音韻情報と、前記音響モデル記憶手段に記憶された音響モデルと、言語モデル記憶手段に記憶された言語モデルと、に基づいて、前記音声認識の結果を表す代表パラメータを生成することを特徴とする。
【0019】
したがって、上記音声認識装置及びプログラムによれば、音響モデルと言語モデルと音韻情報とに基づいて、前記音声認識の結果として、所定の声質を有する代表パラメータを生成することができる。
【0020】
【発明の実施の形態】
以下、本発明の好ましい実施の形態について図面を参照しながら詳細に説明する。
【0021】
図1は、本発明の実施の形態に係る音声認識装置の構成を示すブロック図である。
【0022】
音声認識装置は、例えば、音声認識プログラムがインストールされたコンピュータで構成されている。音声認識装置は、ユーザの音声を入力するマイク1、音声情報の入出力を行う音声入出力ポート2、音声認識処理を実行するCPU3、CPU3の制御プログラムを記憶したROM4、データのワークエリアであるRAM5、音響モデルや言語モデルなどを記憶したハードディスクドライブ6、合成音声を出力するスピーカ7を備えている。
【0023】
ROM4には、後述するような処理を実行する音声認識プログラムが記憶されている。音声認識プログラムは、光ディスク、磁気ディスク、半導体メモリ等の記録媒体に記録されたものに限らず、ネットワークを介して伝送されたものであってもよい。
【0024】
図2は、音声認識装置に備えられたCPU3の機能的な処理を示すブロック図である。CPU3は、音声分析を行って韻律的特徴パラメータ及び音韻的特徴パラメータを抽出する音声分析部11と、音韻的特徴パラメータを用いて音声認識を行う音声認識部12と、音声認識結果及び韻律的特徴パラメータに基づいて音声合成を行う音声合成部13とを備えている。
【0025】
ここで、音響モデルデータベース21は、上述したハードディスクドライブ6によって構成されたものである。音響モデルデータベース21は、「あ」、「い」などの音素単位毎に音響モデルを記憶している。音響モデルは、音韻的特徴パラメータを統計的に表現したモデルである。用途の違いにより音節、単語という単位で存在することもある。
【0026】
図3は、発声「あ」の音響モデルを説明する図である。発声「あ」の音響モデルは、「あ」の立上り区間、定常区間、立下り区間の3つの状態からなっている。これら3つの各状態には、ガウス分布などの確率分布が存在する。音韻的特徴パラメータは、この確率分布に従って多次元空間上に分布している。時間が進むにつれ、状態が遷移し、遷移すると状態の確率分布に従って音韻的特徴パラメータの列が出力される。
【0027】
なお、音響モデルは、より多くの人の声を認識できるようにするために、大量の学習データ(多数の話者によって長時間収録された音声データ)により学習されたものである。
【0028】
言語モデルデータベース22は、上述したハードディスクドライブ6によって構成されたものである。言語モデルデータベース22は、言語モデルを記憶している。言語モデルは、単語群と各単語の音素の並びを定義した音素配列情報との対応関係を記述した情報である。例えば、単語の発音辞書、単語同士の連結の強さ(例えば「山田」(名字)と「さん」は連結しやすい)などの情報を有する。
【0029】
図4は、CPU3の各部位の動作手順を示すフローチャートである。図5は、上記フローチャートの各ステップの処理内容を示す図である。CPU3の各部位は、マイク1を介して音声が入力されると、ステップST1以下の処理を実行する。ここでは、「とよた」という音声が入力された場合を例に挙げて説明する。
【0030】
ステップST1では、音声分析部11は、マイク1に入力された音声を分析して、無音で区切られた音声区間を切り出し、そして韻律的特徴パラメータ及び音韻的特徴パラメータを抽出して、ステップST2に移行する。ここでは、音声分析部11は、入力された音声を例えばフーリエ変換などによってスペクトルを聴覚特性に合わせて周波数変換し、対数をとり逆フーリエ変換した後に高次の項を遮断することで音韻的特徴パラメータを抽出する。また、音声分析部11は、上記周波数変換して対数をとった後の高次の項を韻律的特徴パラメータとして抽出する。
【0031】
なお、音韻的特徴パラメータは、音声のスペクトル情報から余分な情報(ノイズ、声の抑揚、イントネーションなど)を省いた多次元ベクトルであり、発声内容の情報(何をしゃべっているかという情報)を含むパラメータである。音韻的特徴パラメータは、一発声に対して時系列で得られる。韻律的特徴パラメータは、話者の音色を表すピッチ成分である。
【0032】
ステップST2では、音声認識部12は、音声分析部11で抽出された韻律的特徴パラメータ、音響モデルデータベース21の音響モデル、言語モデルデータベース22の言語モデルに基づいて、確率的状態遷移モデル(以下「遷移モデル」という。)を生成して、ステップST3に移行する。ここで、遷移モデルとは、音響モデルを言語モデルに従って連結してネットワーク化したものをいう。例えば図5では、音声認識部12は、「せと(seto)」、「とよた(toyota)」、「あさひ(asahi)」の3つの遷移モデルを生成している。
【0033】
ステップST3では、音声認識部12は、音声分析部11で抽出された音韻的特徴パラメータに対して複数の遷移モデルを照合すると共に、尤度を計算して、ステップST4に移行する。
【0034】
図6は、音韻的特徴パラメータと遷移モデルとの照合処理(尤度計算)の一例を示す図である。尤度は、遷移モデルの各状態にある確率分布上において音韻的特徴パラメータがどこに位置しているか(図6の空間表現を参照)を数値化して加算していくことで得られる値である。尤度は分布の山に近ければ近いほど大きな値となり、逆に離れていると小さい値となる。なお、尤度を計算すると同時に、各音韻的特徴パラメータ列がそれぞれどの状態に割り当てられたかも知ることができる。
【0035】
図5の場合、音声認識部12は、「せと(seto)」に対して尤度−30、「とよた(toyota)」に対して尤度−20、「あさひ(asahi)」に対して尤度−50を計算している。
【0036】
ステップST4では、音声認識部12は、ステップST3で照合された複数の遷移モデルの中から最も尤度が高い遷移モデルを選択して、ステップST5に移行する。これにより、CPU3は、入力された音声が何と発声されたのかを認識することができる。図5の場合、音声認識部12は、最も尤度が高い「とよた」の遷移モデルを選択する。
【0037】
この時、音声認識部12は、音韻的特徴パラメータが遷移モデルのどの状態に割り当てられたかという情報を保持し、図6に示すように、その割り当てられた状態にある確率分布から、代表となる音韻的特徴パラメータ(例えば、分布の平均値)を出力する。以下では、代表となる音韻的特徴パラメータを「代表パラメータ」という。
【0038】
なお、代表パラメータの生成については、刊行物「Keiichi Tokuda, Takayoshi Yoshimura, Takashi Masuko, Takao Kobayashi, Tadashi Kitamura, ”Speech parameter generation algorithms for HMM−based speech synthesis, ”Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing, Istanbul, Turkey, vol.3, pp.1315−1318, June 2000.」に記載された技術を用いることができる。
【0039】
ステップST5では、音声合成部13は、音声分析部11で抽出された韻律的特徴パラメータと、音声認識部12で得られた遷移モデル(代表パラメータ)とに基づいて、音声合成を行う。そして、CPU3は、音声入出力ポート2、スピーカ7を介して合成音声を出力させる。
【0040】
ここで、よく似た単語があった場合、音響モデルが発声者の声に対応していない場合、言い間違いをした場合、ノイズが入った場合などの様々な原因により、しばしば認識誤りを起こすことがある。
【0041】
認識誤りがあった場合、スピーカ7から出力される合成音声は、タイミング(発声時間長)やアクセントは入力音声と同じで、声質は音響モデルの学習に使った音声の平均的な声(分布の平均値を使った場合)であり、話している内容は誤認識された単語になる。
【0042】
図7は、音声の誤認識を説明する図である。この例では、ユーザは「とよたし」と発声したが、最後の「し」を弱く発声したとする。この「とよたし」の音声を、「とよたし」の遷移モデル、「とうきょうと」の遷移モデルにそれぞれ照合(尤度計算)した結果、「とよたし」の尤度より「とうきょうと」の尤度のほうが大きな値になった。このため、ユーザは「とよたし」と発声したが、「とうきょうと」と誤認識されている。このように、人間が聞けば理解できる音声でも、音声認識システムはしばしば他の単語に間違えてしまう。
【0043】
例えば図7の場合、ユーザは「とよたし」と発声したものの、以下のように誤認識された合成音声を聞くことができる。
「と」→「とう」
「よ」→「きょう」
「たし」→「と」
ユーザは、この合成音声を聞くことで、例えば「と」「よ」はもっと短く、「し」はもっと強く発声しなければならないと確認することができる。すなわち、ユーザは、音声認識装置が認識誤りをした場合、どのように間違ったのかを音声で知ることができ、次に言い直しする場合の手助けになる。
【0044】
以上のように、本実施の形態に係る音声認識装置は、入力された音声から韻律的特徴パラメータと音韻的特徴パラメータを抽出し、音韻的特徴パラメータを用いて音声認識の結果である代表パラメータを生成し、韻律的特徴パラメータと代表パラメータとで音声合成をする。つまり、音声認識装置は、音声認識した各々の単語を、その単語の正規の韻律でなく、入力された音声の韻律情報に従って音声合成する。
【0045】
したがって、音声認識装置は、音声認識の誤りがあった場合では、その音声認識の結果に得られた単語を入力された音声の韻律情報に従って出力するので、入力された音声と音声認識の誤りとを対応させることができ、ユーザに対してどの箇所の発声が悪かったのかを報知させることができる。一方、ユーザは、例えばディスプレイを見ることなく、どの箇所が間違ったのかを早く確認することができ、さらにどのように発声を修正すればいいかを容易に理解することができる。
【0046】
なお、本発明は、上述した実施の形態に限定されるものではなく、特許請求の範囲に記載された範囲内の設計変更であれば適用される。例えば、上述の実施形態では、音声認識装置は、音声認識プログラムがインストールされたコンピュータであるとしたが、例えば、カーナビゲーションシステムや家庭用電化製品に搭載されたものでもよい。
【0047】
【発明の効果】
本発明に係る音声認識装置及びプログラムは、音声分析手段により抽出された韻律情報と、音声認識手段による音声認識の結果とに基づいて音声合成を行うことにより、入力された音声と音声認識の結果とを音声により対応させることができる。
【図面の簡単な説明】
【図1】本発明の実施の形態に係る音声認識装置の構成を示すブロック図である。
【図2】音声認識装置に備えられたCPUの機能的な処理を示すブロック図である。
【図3】発声「あ」の音響モデルを説明する図である。
【図4】CPUの各部位の動作手順を示すフローチャートである。
【図5】フローチャートの各ステップの処理内容を示す図である。
【図6】音韻的特徴パラメータと遷移モデルとの照合処理(尤度計算)の一例を示す図である。
【図7】音声の誤認識を説明する図である。
【符号の説明】
1 マイク
2 音声入出力ポート
3 CPU
4 ROM
5 RAM
6 ハードディスクドライブ
7 スピーカ
11 音声分析部
12 音声認識部
13 音声合成部
21 音響モデルデータベース
22 言語モデルデータベース

Claims (6)

  1. 音声を分析して音韻情報と韻律情報とを抽出する音声分析手段と、
    前記音声分析手段により抽出された音韻情報を用いて音声認識を行う音声認識手段と、
    前記音声分析手段により抽出された韻律情報と、前記音声認識手段による音声認識の結果とに基づいて、音声合成を行う音声合成手段と、
    を備えた音声認識装置。
  2. 前記音声合成手段は、前記音声分析手段により抽出された韻律情報に従って、前記音声認識手段により認識された単語を発する音声合成を行うこと
    を特徴とする請求項1に記載の音声認識装置。
  3. 音響モデルを記憶する音響モデル記憶手段と、
    言語モデルを記憶する言語モデル記憶手段と、を更に備え、
    前記音声認識手段は、前記音声分析手段により抽出された音韻情報と、前記音響モデル記憶手段に記憶された音響モデルと、言語モデル記憶手段に記憶された言語モデルとに基づいて、前記音声認識の結果を表す代表パラメータを生成すること
    を特徴とする請求項1または2に記載の音声認識装置。
  4. コンピュータを、
    音声を分析して音韻情報と韻律情報とを抽出する音声分析手段と、
    前記音声分析手段により抽出された音韻情報を用いて音声認識を行う音声認識手段と、
    前記音声分析手段により抽出された韻律情報と、前記音声認識手段による音声認識の結果とに基づいて、音声合成を行う音声合成手段と、
    して機能させる音声認識プログラム。
  5. 前記音声合成手段は、前記音声分析手段により抽出された韻律情報に従って、前記音声認識手段により認識された単語を発する音声合成を行うこと
    を特徴とする請求項4に記載の音声認識プログラム。
  6. 前記コンピュータを、
    音響モデルを記憶する音響モデル記憶手段と、
    言語モデルを記憶する言語モデル記憶手段と、
    して更に機能させ、
    前記音声認識手段は、前記音声分析手段により抽出された音韻情報と、前記音響モデル記憶手段に記憶された音響モデルと、言語モデル記憶手段に記憶された言語モデルと、に基づいて、前記音声認識の結果を表す代表パラメータを生成すること
    を特徴とする請求項4または5に記載の音声認識プログラム。
JP2003040913A 2003-02-19 2003-02-19 音声認識装置及びプログラム Pending JP2004252046A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003040913A JP2004252046A (ja) 2003-02-19 2003-02-19 音声認識装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003040913A JP2004252046A (ja) 2003-02-19 2003-02-19 音声認識装置及びプログラム

Publications (1)

Publication Number Publication Date
JP2004252046A true JP2004252046A (ja) 2004-09-09

Family

ID=33024633

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003040913A Pending JP2004252046A (ja) 2003-02-19 2003-02-19 音声認識装置及びプログラム

Country Status (1)

Country Link
JP (1) JP2004252046A (ja)

Similar Documents

Publication Publication Date Title
US11496582B2 (en) Generation of automated message responses
US10140973B1 (en) Text-to-speech processing using previously speech processed data
US11990118B2 (en) Text-to-speech (TTS) processing
US20200410981A1 (en) Text-to-speech (tts) processing
US7502739B2 (en) Intonation generation method, speech synthesis apparatus using the method and voice server
JP2826215B2 (ja) 合成音声生成方法及びテキスト音声合成装置
US10176809B1 (en) Customized compression and decompression of audio data
JP6266372B2 (ja) 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム
US11763797B2 (en) Text-to-speech (TTS) processing
US9978359B1 (en) Iterative text-to-speech with user feedback
EP2192575A1 (en) Speech recognition based on a multilingual acoustic model
US10699695B1 (en) Text-to-speech (TTS) processing
KR20230056741A (ko) 목소리 변환 및 스피치 인식 모델을 사용한 합성 데이터 증강
US9240178B1 (en) Text-to-speech processing using pre-stored results
JP2019008120A (ja) 声質変換システム、声質変換方法、及び声質変換プログラム
US6502073B1 (en) Low data transmission rate and intelligible speech communication
WO2015025788A1 (ja) 定量的f0パターン生成装置及び方法、並びにf0パターン生成のためのモデル学習装置及び方法
JP6330069B2 (ja) 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現
KR20220134347A (ko) 다화자 훈련 데이터셋에 기초한 음성합성 방법 및 장치
Mullah A comparative study of different text-to-speech synthesis techniques
US11393451B1 (en) Linked content in voice user interface
JP2004252046A (ja) 音声認識装置及びプログラム
EP1422691B1 (en) Method for adapting a speech recognition system
JP2003108180A (ja) 音声合成方法および音声合成装置
JP2003108170A (ja) 音声合成学習方法および音声合成学習装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050316

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070619

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070626

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070823

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070918