JP2006235298A - 音声認識ネットワーク生成方法、音声認識装置及びそのプログラム - Google Patents

音声認識ネットワーク生成方法、音声認識装置及びそのプログラム Download PDF

Info

Publication number
JP2006235298A
JP2006235298A JP2005050524A JP2005050524A JP2006235298A JP 2006235298 A JP2006235298 A JP 2006235298A JP 2005050524 A JP2005050524 A JP 2005050524A JP 2005050524 A JP2005050524 A JP 2005050524A JP 2006235298 A JP2006235298 A JP 2006235298A
Authority
JP
Japan
Prior art keywords
recognition network
speech
phoneme
speech recognition
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005050524A
Other languages
English (en)
Inventor
Tomohiro Narita
知宏 成田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2005050524A priority Critical patent/JP2006235298A/ja
Publication of JP2006235298A publication Critical patent/JP2006235298A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】 背景騒音や話者による違いを吸収しうる音声認識ネットワークを用いて音声認識を行う。
【解決手段】 認識対象となる語彙に含まれる音素間の接続関係を表現する第1の認識ネットワークを取得する認識ネットワーク取得ステップと、
前記第1の認識ネットワークが表現する語彙に含まれる音素であって背景騒音の重畳によって変形を受ける音素、の前後の接続関係を変更して第2の認識ネットワークを生成する認識ネットワーク生成ステップと、を有する。
【選択図】 図4

Description

この発明は、音声認識装置及びそのプログラムに係るものであり、騒音の影響度合いに対応して高精度な音声認識を行う技術に関する。
一般に音声認識は、入力音声から音声特徴量の時系列を抽出し、認識対象語彙の音素系列を表現する音声認識ネットワークと音声特徴量の時系列とを照合することによって、候補語を算出することによって行われる。
しかし現実の使用環境では、話者が正しい単語表記通りにはっきり発声をするとは限らないため、正しい表記の音素系列から生成した認識ネットワークを用いると音声認識の精度が劣化する場合がある。また、背景騒音が重畳する場合には、パワーの小さい音素が騒音に埋もれるため、正しい単語表記の音素系列から生成した認識ネットワークを用いると音声認識の精度が劣化する場合がある。このような場合には、正しい音素系列とは異なる音素系列を表現する認識ネットワークと照合させる方法が採用される。
このような課題を解決する技術として、言語的な発音系列と実際に発生される音響的な発音系列のミスマッチを緩和する方法が知られている(例えば、非特許文献1)。
また、周囲の騒音レベルの影響を考慮して、発話音声特徴量と標準パターンとの照合時に類似度を補正する方法も知られている(例えば、特許文献1)。
特開2003−308091「音声認識装置、音声認識方法および音声認識プログラム」公報 第16頁−第17頁 「音素タイプライタ出力結果を用いた発音ネットワークの構築」日本音響学会 平成8年度秋季研究発表会 講演論文集pp.73-74
背景騒音の種類や話者によって、背景騒音が入力音声に与える影響の度合いは異なる。このような場合、一律に音響的な発音系列のミスマッチを緩和したり、類似度を補正する程度では背景雑音の影響を十分に吸収することができず、その結果として認識性能が低下する、という問題があった。
このような問題を解決するため、この発明に係る音声認識ネットワーク生成方法では、
認識対象語彙を構成する音素間の接続関係を表現する第1の音声認識ネットワークを取得する認識ネットワーク取得ステップと、
前記接続関係を変更することによって第2の音声認識ネットワークを生成する認識ネットワーク生成ステップと、
を有する音声認識ネットワーク生成方法であって、
前記認識ネットワーク生成ステップで、所定の背景雑音を重畳させた入力音声に含まれる前記認識対象語彙の音響特徴量列と前記接続関係を辿って得られる音素列とを順次照合すると照合が失敗する音素を迂回するように前記接続関係を変更することとした。
ここで音声認識ネットワークとは、認識対象語彙を構成する音素列を先頭から順次辿ることを目的として相互の音素間の接続関係を表現した情報(データ)であって、電子計算機等の情報処理機器による処理の用に供する情報の一種である。よって、音声認識ネットワークは、一般的なデータやファイルとして情報処理機器から読み取り可能な記憶媒体や記憶装置によって電子的に記憶される性質を有しており、情報処理機器によって複製されたり、インターネットなどの通信回線を通じて他の情報処理機器に転送されることもある。
また音声認識ネットワークにおいて、音素間の接続関係を表現するためには、認識対象語彙を構成する音素の順序(出現順位)を何らかの方法で特定できれば十分である。したがってそのためには、各音素に対応する情報をリスト構造のように表現しておき、リストの各ノードに次のノードが記憶されている場所の番地を明示的に保持させる方法だけでなく、例えば、各音素に対応する情報だけを1次元の配列として保持しておき(次の音素に対応する情報の格納位置は保持しない)、配列の要素順位(配列のインデックス)から各音素の出現順位を特定するなど、情報列を格納する公知の各種データ構造を用いることができる。
また、この発明に係る音声認識装置は、
認識対象となる語彙に含まれる音素間の接続関係を表現する音声認識ネットワークを辿って前記認識対象を構成する音素列を取得し、取得した音素列と入力音声から得た音響特徴量列とを照合して照合結果を出力する音声認識装置において、
前記入力音声に重畳する背景雑音のレベルを数値化する背景雑音数値化手段と、
所定の背景雑音を重畳させた入力音声に含まれる前記認識対象語彙の音響特徴量列と前記接続関係を辿って得られる音素列とを順次照合すると照合が失敗する音素を迂回するように前記接続関係を変更して生成され、さらに前記所定の背景雑音を数値化してインデックスとして付与された音声認識ネットワークを複数記憶する音声認識ネットワーク記憶手段と、
前記背景雑音数値化手段によって数値化された背景雑音のレベルと前記音声認識ネットワークに付与されたインデックスとに基づいて前記音声認識ネットワークを選択する音声認識ネットワーク選択手段と、
前記音声認識ネットワーク選択手段により選択された音声認識ネットワークを辿って音素列を取得し、この音素列と前記音響特徴量列とを照合する照合手段と、
を備えた。
ここで、音声認識ネットワークに付与されたインデックス(索引)とは、各音声認識ネットワークを一意に識別する情報であり、ここでは音声認識ネットワークを生成する際に想定した背景雑音を何らかの方法で数値化したものがインデックスとして使用される。ただし数値化したものとはいえ、数値に限定されるものではなく、情報処理機器によって比較、演算、記憶することが可能な情報であれば十分であって、その表現形式を問うものではない。したがって明示的に表現された情報の他、例えば音声認識ネットワークを記憶する番地を用いて音声認識ネットワークを特定するようにしてもよく、そのような場合には、音声認識ネットワークを記憶する番地がインデックスに該当することとなる。
この発明に係る音声認識ネットワーク生成方法によれば、背景雑音や話者による影響を十分に吸収して適切に音素の系列を表現する認識ネットワークを生成することができるので、この認識ネットワークを用いることでさまざまな背景雑音や話者に適応可能で精度の高い音声認識処理を実現することができる。
また、この発明に係る音声認識装置によれば、複数の使用環境や話者を想定してそれぞれ最適な認識ネットワークを準備しておき、使用時に環境や話者に対して適応的に認識ネットワークを選択することとしたので、使用環境及び使用話者に適した音素系列と入力音声とを照合することが可能となり、結果として音声認識精度を向上させることができる。
以下、この発明の実施の形態を図を用いて説明する。
実施の形態1.
図1は、この発明の実施の形態1による音声認識装置の構成を示すブロック図である。図において、マイクロホン1は音声を収集して音声電気信号(以下、音声信号という)に変換するマイクロホンである。音声認識装置2は、オーディオ端子やマイクロホン接続端子である入力端3を介してマイクロホン1が収集した音声を照合して、認識結果4を出力する装置であって、SN比算出部100、音響分析部101、標準認識ネットワーク記憶部102、変形認識ネットワーク記憶部103、認識ネットワーク選択部104、照合部105を備えている。
SN比算出部100は、背景雑音数値化手段の一例であって、入力端3から入力された音声信号21のパワーと背景騒音とのパワー比24を算出する部位である。
音響分析部101は、入力端3から入力された音声信号21を音響分析して音声特徴量23を算出する部位である。
標準認識ネットワーク記憶部102は、標準的な音声認識ネットワークを記憶する記憶素子又は回路、記憶媒体などから構成される。以下の説明においては、標準的な音声認識ネットワークのことを標準認識ネットワークと呼ぶ。標準認識ネットワークは、例えば認識対象語彙の正しい表記の音素系列から生成される。
図2は標準認識ネットワークの構成例で、ここでは「北海道」「青森県」「秋田県」という語句の音声を認識するための音声認識ネットワークを示している。ここでは、円で囲んだ節の一つ一つが1つの音素を表現している。なお、この音声認識ネットワークでは前環境依存の音素体系を採用したものであり、図において、節41のh−0は先行する音素がhであるoの音素を表している。また、節42のLQは、単語の先頭の無音を表しており、節43のQLは、単語の最後の無音を表している。
変形認識ネットワーク記憶部103は、標準認識ネットワークとは別の音声認識ネットワークを記憶する記憶素子又は回路、記憶媒体などから構成される。変形認識ネットワーク記憶部103が記憶している音声認識ネットワークは、騒音環境下における音声認識精度を向上するために改良を施した認識ネットワークである。このような音声認識ネットワークのことを、以下の説明では便宜的に変形認識ネットワークと呼ぶこととする。
一般に、音声のパワーは音素毎に異なっている。図3は、音素の種類と話者毎に正規化した音素毎の平均パワーμMと標準偏差σMとの関係をグラフとして表した図である。この図が示すように、音素によってそのパワーに大きな差があるために、騒音環境下においては、パワーが小さい音素が騒音に埋もれてしまい、音響的な特徴が失われる。そのため標準パターンと入力音声とを照合する際に、パワーの小さい音素において標準パターンと入力音声との距離値が大きくなり、認識誤りの原因となる。
そこで、このような音響的なミスマッチを低減するために、標準認識ネットワークを用いると距離値が大きくなってしまう音素に対する距離値の演算を回避するパスを追加することで、変形認識ネットワークを生成する。さらに音声パワーの相対的な大きさを表す音声のSN比を、生成した変形認識ネットワークのインデックスとして付与しておき、照合時に使用環境における入力音声のSN比から、適切な音声認識ネットワークを選択できるようにすることで、音声認識の精度が向上する。
以下に、変形認識ネットワーク記憶部103によって記憶される変形認識ネットワークの生成方法について、具体的に説明する。まず、複数話者が音素Mを発話して得た入力音声を正規化し、正規化した複数話者による音素Mの入力音声のパワーの平均をμMとして求める。さらに各音素についてのμMの平均値をPaveを求める。そして、想定されるSN比R'に対する変形認識ネットワークを、以下の式(1)を満たす音素Mを迂回(スキップ)するパスを標準認識ネットワークに追加することで生成する。
Figure 2006235298
図4は、図2に示した標準認識ネットワークから、上述のような手順によって生成された変形認識ネットワークの一例である。図2の標準認識ネットワークでは、語句「北海道」の節「LQ−h」及び節「o−QL」の音素が式(1)を満たすので、スキップするパスが追加されている。
また、式(1)を満たす音素に対して並列にノイズモデルを経由するようなパスを標準認識ネットワークに追加する方法によっても、変形認識ネットワークを生成することができる。ノイズモデルの挿入部分は認識ネットワーク中の音素系列の先頭、末尾または途中において該当音素が使用環境下の騒音に埋もれる可能性があることを示している。
図5は、図2の標準認識ネットワークにこのような変形を加えて生成した変形認識ネットワークを表す図である。図では、標準認識ネットワークの語句「北海道」の節、「LQ−h」及び節「o−QL」の音素が式(1)を満たすものとして、並列にノイズモデルが追加されている。
この他、音素をスキップするパスの追加と並列にノイズモデルを経由するパスの追加は排他的なものではなく、両者を組み合わせた変形認識ネットワークを生成するようにしてもよい。
また、標準認識ネットワークは、認識対象語彙の正しい表記の音素系列で構成されることに限定されるわけではなく、変形認識ネットワークを生成する上で元となる音声認識ネットワークであればよい。すなわちある音声認識ネットワーク(これを第1の音声認識ネットワークとする)を所定の背景雑音を重畳させた入力音声の照合を行うために、音素間の接続関係を改良して生成した音声認識ネットワーク(これを第2の音声認識ネットワークとする)がある場合、標準認識ネットワークは第1の音声認識ネットワークに該当し、また変形認識ネットワークは第2の音声認識ネットワークに該当する。
このようにして、変形認識ネットワークを標準認識ネットワークから生成し、生成した変形認識ネットワークに想定SN比R'をインデックス(索引)として付与して変形認識ネットワーク記憶部103に記憶させる。
なお、標準認識ネットワーク記憶部102及び変形認識ネットワーク記憶部103はそれぞれ音声認識ネットワークを記憶する音声認識ネットワーク記憶手段の一例をなすものである。
引き続き、この発明の実施の形態1による音声認識装置を説明する。認識ネットワーク選択部104は、認識ネットワーク選択手段の一例であって、SN比算出部100が算出したSN比に対応する認識ネットワークを、標準ネットワーク記憶部102及び変形認識ネットワーク記憶部103から選択して、標準認識ネットワーク記憶部102に記憶される音素データ25と変形認識ネットワーク記憶部103に記憶される音素データ26の何れかを音素データ27として出力する部位である。
照合部105は、照合手段の一例であり、認識ネットワーク選択部104が選択した認識ネットワークから得た音素データ27と、音響分析部101が出力した音響特徴量23との照合を行い、最も距離値の小さい認識対象語彙を認識結果4として出力する部位である。
なおここでは、音声認識装置2の構成要素のうち、SN比算出部100、音響分析部101、認識ネットワーク選択部104、照合部105はそれぞれ専用の回路により構成するものとして説明する。しかしながらこの発明の特徴はこれらの回路によってなされる情報処理の方法にある。また、当業者であればこれらの説明から他の回路構成、例えば汎用的なCPUなどで構成した制御回路とコンピュータプログラムとの組み合わせにより実現することは極めて容易であって、周知・慣用技術の転用の範囲に過ぎない。
次に、音声認識装置2の動作について、図を参照しながら説明する。図6は、この発明の実施の形態1による音声認識装置の処理のフローチャートである。まずマイクロホン1から音声信号が入力されると(ステップS101)、SN比算出部100は、音声のSN比Rを算出する(ステップS102)。そのためにSN比算出部101は、マイクロホン1からアナログ信号である入力音声信号を所定の周期毎にサンプリングしてディジタルデータに変換する。そしてディジタル化された音声信号データから、式(2)を用いて入力音声のSN比Rを算出するのである。
ここで、Snはnサンプリング周期目(nは自然数)にサンプリングされたサンプルデータの値、Spは入力音声区間の先頭のサンプル番号、Lspは音声区間に含まれるサンプルデータの数、Lnsは音声区間前後の無音区間のサンプル数であって、入力音声の信号とLsp、Lnsとの関係は、例えば図7に示される。
Figure 2006235298
なお、式(2)によるSN比Rの算出は入力音声区間全体のパワーを用いるため、SN比Rの算出は音声入力完了まで待たなければならないため、リアルタイム性が要求される音声認識装置の場合は都合が悪い。このような場合には、現時点よりも前の発話において、式(2)の分子部分の平均をS'として記憶しておき、式(3)によりSN比Rを算出するようにしてもよい。こうすることで、図7に示したSPの時点でSN比Rを算出できるようになり、リアルタイム性を損なうことがないという利点が得られる。
Figure 2006235298
次に認識ネットワーク選択部104は、SN比算出部100が算出したSN比Rが閾値TH1よりも大きいかどうかを判定する(ステップS103)。その結果、SN比Rが閾値TH1よりも大きい場合はステップS104に進む(ステップS103:Yes)。SN比Rが閾値TH1以下である場合(ステップS103:No)については後述する。
認識ネットワーク選択部104は、使用環境のSNRが十分高いため、認識ネットワークの変形の必要がないと判断し、標準認識ネットワークから標準認識ネットワークを選択する(ステップS104)。
一方、ステップS103においてNoの判定がなされた場合には、使用環境のSN比Rが低いため認識ネットワークの変形が必要であると判断し、SN比算出部100が算出したSN比Rの値に最も近い想定SN比に対応する変形認識ネットワークを変形認識ネットワーク記憶部104から選択する(ステップS105)。
図8は、変形認識ネットワーク記憶部103の記憶内容を表すテーブルの一例である。この例では想定SN比を0〜30dBの値としており、3dB刻みで合計11種類の変形認識ネットワークを用意することとしている。この例では、SN比が30より大きい場合の変形認識ネットワークが用意されていないため、ステップS103におけるTH1の値は30となる。この場合、SN比Rの値が5dBであるとすると、最も想定SN比の近い3番の変形認識ネットワークを選択する。
なお、演算量やメモリリソースに余裕がある場合は、この例よりも細かく想定SN比を刻んで各想定SN比に対応する変形認識ネットワークを準備しておき、それらの中から想定SN比が最も近い変形認識ネットワークを選択するようにしてもよい。
一方、音響分析部101は、SN比算出部100の処理と並行して、マイクロホン1から入力された音声の音響分析処理を行う(ステップS106)。具体的には、音響分析処理として、音響分析部101は、アナログ信号である入力音声をディジタルデータに変換し、一定時間毎に音声特徴量ベクトルαtを算出する。
ここで用いる音声特徴量の例としては、LPCケプストラム(Linear Predictive Coding Cepstrum)などがある。また音声特徴量ベクトルが算出される一定時間のことをフレームと呼び、音声特徴量ベクトルαtのtは入力音声の先頭から経過したフレーム数を表す自然数である。
なお、ディジタルデータへの変換処理はSN比算出部101でも行われるので、両者を共通化するような構成を採用してもよい。また、図6のフローチャートにおいて、ステップS106はステップS103〜ステップS105の後に実行されるように記載しているが、両者の間には何ら依存関係のない独立した処理であるから、この順序を入れ替えても構わないし、並列に実行してもよい。
続いて、照合部105は、ステップS104あるいはステップS105で選択された認識ネットワークに含まれる音素系列と音響分析部101が出力した音声特徴量ベクトルαtとの照合処理を行う(ステップS107)。ここでは、音声特徴量の時系列に対し、認識ネットワークに含まれる音素系列の中で最も距離値が小さくなる音素系列に対応する候補を認識結果とする。例えばDP(Dynamic Programming)マッチングによるパターンマッチングを行い、距離値が最小のものを認識結果4とする。また、DPの代わりにHMM(Hidden Markov Model)を用いても構わない。
以下、照合部105で継続時間制御型HMMを用いた場合の照合処理の詳細について説明する。図9は、入力音声に対する継続時間制御型HMMを用いた照合処理の説明図である。横軸は時間を表し、縦軸は認識対象語彙の音素系列に対応する各状態を示している。ここでは、認識処理は各認識語彙に状態−時刻の2次元平面上で、音声入力の最終時刻Tにおける最終状態Sでの累積距離値D(T,S)が最も小さくなるパスを算出するように行われる。図9に示すように初期状態(1,1)から最終状態(T,S)に至るパスは図の点線や実線のように無数があるが、この無数のパスの中で最も距離値が小さくなるパスを求めるのである。
累積距離値の計算は逐次的に行われる。ここで、D(t,s)を時刻t、状態sでの累積距離値、dis(t,s)を時刻tにおける音声特徴量ベクトルαtと状態sに対応する音響モデル(音響特徴量の統計量)との音響距離値、dur(t,s)を状態sにおける継続時間ペナルティ、と定義する。
まず、図2に示す標準認識ネットワークのように、状態間にスキップするパスやノイズモデルの挿入がない場合のD(t,s)の算出方法について説明する。図2に示した標準認識ネットワークから、節LQ、節LQ−h、節h−oの音素の接続関係を抜き出すと、図10のようになる。図10において、状態S1はLQの音素に対応する状態、状態S2はLQ−hの音素に対応する状態、状態S3はh−oの音素に対応する状態である。
この場合、状態S3での累積距離値D(t,S3)は、状態S3での自己遷移(パス1)と前の状態S2からのヌル遷移(出力確率を伴わない遷移:パス2)の2つのパスを考慮して、式(4)から算出される。なお、変形認識ネットワークの場合でも、状態間にスキップするパスやノイズモデルの挿入が無い部分においては式(4)からD(t,s)を算出する。
Figure 2006235298
次に、図4に示す変形認識ネットワークのように、状態間にスキップするパスが存在する場合のD(t,s)の算出方法について説明する。図4に示す変形認識認識ネットワークのから、LQ、LQ−h、h−oの音素の接続関係を抜き出すと図11のようになる。
図11において、状態S1はLQの音素に対応する状態、状態S2はLQ−hの音素に対応する状態、状態S3はh−oの音素に対応する状態である。この場合、状態S3での累積距離値D(t,S3)は、状態S3での自己遷移(パス1)、前の状態S2からのヌル遷移(パス2)、2つ前の状態S1からのヌル遷移(パス3)の合計3つのパスを考慮して、式(5)から算出される。
Figure 2006235298
最後に、図5に示す変形認識ネットワークのようにノイズモデルが挿入されている場合のD(t,s)の算出方法について説明する。図5に示す変形認識ネットワークのから、LQ、LQ−h、h−oの音素の接続関係を抜き出すと図12のようになる。図12において、状態S1はLQの音素に対応する状態、状態S2はLQ−hの音素に対応する状態、状態S3はh−oの音素に対応する状態、状態S4は挿入されたノイズモデルに対応する状態である。
この場合、状態S3での累積距離値D(t,S3)は、状態S3での自己遷移(パス1)、前の状態S2からのヌル遷移(パス2)、ノイズモデルS4からのヌル遷移(パス3)の合計3つのパスを考慮して、式(6)から算出される。式(6)においては、状態S2がノイズに埋もれた状態を状態S4と考え、式(7)からdur(t,S4)を算出してもよいし、状態S4独自に継続時間長ペナルティdur(t,S4)を用意してもよい。
Figure 2006235298
こうして、選択した認識ネットワークの形状に応じて、各認識対象語彙に対する累積距離値の計算が行われた結果、最終的な累積距離値が小さい認識語彙を認識結果4として出力し(ステップS108)、入力音声に対する認識処理が終了する。
以上から明らかなように、この発明の実施の形態1の音声認識装置によれば、音声認識ネットワークを騒音に埋もれ易い音素に対する音響的ミスマッチを回避するように改良しておき、さらに改良した複数の音声認識ネットワークの中から使用環境のSN比に応じて適応的に音声認識ネットワークを選択することとしたので、背景騒音の大きさが頻繁に変化するような環境における音声認識の精度が向上する。
またこれによって、例えば自動車の車内のように車の速度によって騒音の大きさが絶えず変化する環境下でも安定した音声認識処理を行うことができる。
実施の形態2.
実施の形態1の音声認識装置は入力音声のSN比に応じた変形認識ネットワークを予め用意し、使用環境においてSN比が近い変形認識ネットワークを選択しているが、同じSN比であっても騒音の種類によって各音素が受ける影響の大きさは異なる場合がある。
例えば、自動車走行騒音は低域にパワーが集中しているため、SN比が低くなっても高域にパワーが集中している音素に対する影響は小さい。逆に低域にパワーが集中している音素はSN比がある程度高い場合でも受ける影響が大きくなる。
このような現象を図を用いて具体的に説明する。図14は、音素「s」、自動車走行騒音、そしてホワイトノイズそれぞれの平均スペクトルを順に示した図である。このように、音素「s」のスペクトルは3500Hz付近にパワーが集中しているのに対し、自動車走行騒音は500Hz以下にパワーが集中している。一方、ホワイトノイズは全帯域に均一にパワーが分散している。このことから、音素「s」を含む入力音声に同じ比率で騒音を重畳することを想定すると、重畳した騒音が自動車走行騒音である場合には音素「s」のパワーが強い帯域に殆ど影響を与えない一方、重畳した騒音がホワイトノイズの場合には音素「s」のパワーが強い帯域に大きな影響を与えるため、結果として音素が変形されたようになることが判る。
この発明の実施の形態2の音声認識装置は、背景騒音が入力音声のスペクトルに与える影響を考慮して高精度な音声認識を実現することを目的とするものである。すなわち、背景騒音スペクトルに応じた変形認識ネットワークを予め用意し、使用環境下の背景騒音スペクトルが最も近い騒音スペクトルに対応する変形認識ネットワークを選択することで、使用環境に適した音素系列と入力音声とを照合する。
図13は、この発明の実施の形態2による音声認識装置の構成を示すブロック図である。図において、図1と比して新規な要素は騒音スペクトル算出部200を設けた点にある。
騒音スペクトル算出部200は、背景雑音数値化手段の別の例であって、音声信号21から背景騒音スペクトル28を算出する部位である。またこれに伴い、認識ネットワーク選択部104は背景雑音のレベルを数値化した値として背景騒音スペクトル28を用い、この背景騒音スペクトル28に基づいて標準認識ネットワークと変形認識ネットワークから照合処理に用いる認識ネットワークを選択するようになっている。
さらに、この発明の実施の形態2の変形認識ネットワーク記憶部103は、想定される背景騒音スペクトルの種類に対応した変形認識ネットワークを記憶するように構成されている。図15は実施の形態2における変形認識ネットワーク記憶部103の記憶内容を表すテーブルの一例である。
この例では想定される背景騒音に応じた変形認識ネットワークが全部でN種類記憶されている。また、S0は騒音がない場合の索引スペクトルであって、この索引スペクトルに対応する認識ネットワークは標準認識ネットワークとなる。したがってS0に対応する認識ネットワークを変形認識ネットワーク記憶部103に記憶しておく必要はない。
以下に、これらの背景騒音スペクトルの種類に対応した変形認識ネットワークの生成方法について具体的に説明する。なお以下の説明において、使用帯域をQ(Qは自然数)個の帯域に分割するものとし、分割したQ個の帯域のうちq(qはQ以下の自然数)番目の帯域の最小周波数をfsq、最大周波数をfeqと表す。
まず、想定される背景騒音Nの帯域fsq〜feq(Hz)における平均パワーPN(fsq,feq)と各音素Mの帯域fsq〜feq(Hz)におけるパワーの平均値μM(fsq,feq)とを算出する。μM(fsq,feq)は実施の形態1で説明したμMをfsq〜feq(Hz)で帯域制限して算出した値に相当する。
次に、想定される背景騒音Nに対する変形認識ネットワークを、式(8)を満たす音素Mをスキップするパスを標準認識ネットワークに追加することで生成する。式(8)においてRTHは閾値であり、式(8)は各音素で最もパワーの持つ帯域のSN比がRTHより小さいかどうかを判定している。
Figure 2006235298
なお、実施の形態1と同様に式(8)を満たす音素に対して並列に、ノイズモデルを経由するパスを追加することで、変形認識ネットワークを生成するようにしてもよい。
このようにして、想定される背景騒音毎に変形認識ネットワークを生成しておき、生成した変形認識ネットワークに背景騒音のスペクトルをインデックス(索引)として付与して変形認識ネットワーク記憶部103に記憶させる。
次に、音声認識装置2の動作について、図を参照しながら説明する。図16はこの発明の実施の形態2の音声認識装置2による処理のフローチャートである。実施の形態1の音声認識装置と同一の処理については図6のフローチャートと同一の符号を付して説明を省略する。
図において、騒音スペクトル算出部200は、ステップS101において入力された音声信号において、音声区間直前の騒音区間に対して高速フーリエ変換を行い、背景騒音のスペクトルSinを算出する(ステップS201)。
認識ネットワーク選択部104は騒音スペクトルSinと変形認識ネットワーク記憶部が記憶している変形認識ネットワークの索引スペクトルSnとの距離値Dnを算出する(ステップS202)。距離値Dnは式(9)に従って算出される。ここで、Kはスペクトルの次元数であり、騒音スペクトル算出部200で高速フーリエ変換を実行した際のポイント数の1/2と一致する。また、Sin(k)は騒音スペクトルSinのk次元目の値、Sn(k)は騒音スペクトルSnのk次元目の値、w(k)はk次元目に対する重み係数である。w(k)を調整することで、使用帯域の中で重視する周波数を制御することができる。
Figure 2006235298
次にステップS203において、n=0〜Nの中でDnが最小となるnの値nselを式(10)から算出する。
Figure 2006235298
ここでnselの値が0である場合(ステップS203:YES)、ステップS104に進み、実施の形態1と同様に標準認識ネットワーク記憶部102から標準認識ネットワークを選択する。またnselの値が0でない場合は、ステップS204に進む(ステップS203:No)。
変形認識ネットワーク記憶部103から変形認識ネットワークnselを選択する(ステップS204)。なお、演算量やメモリリソースに余裕がある場合は、選択する変形認識ネットワークをDnの値が小さいものから複数選択しても良い。
照合部105以降の動作は実施の形態1と同一であるので説明を省略する。
なお、図16のフローチャートにおいて、ステップS106はステップS201〜ステップS204及びステップS104の後に実行されるように記載しているが、両者の間には何ら依存関係のない独立した処理であるから、この順序を入れ替えても構わないし、並列に実行してもよい。
このように構成することで、使用環境の騒音に最も類似した騒音スペクトルに対して、影響を受け易い音素の音響的ミスマッチを回避する目的のために生成された変形認識ネットワークを選択することとしたので、背景騒音の種類が頻繁に変化するような環境における音声認識の精度が向上する。
これによって、例えば自動車の車内においてエアコンやオーディオのON・OFFによって騒音の種類が全く別な種類に変わるような環境下でも安定した音声認識処理を行うことができるのである。
実施の形態3.
この他、話者によっても騒音の影響度合いが異なる場合が考えられる。そこでこの発明の実施の形態3では、使用話者の声の差異を考慮した構成例について示す。
例えば、明瞭に発話する話者Aと不明瞭に発話する話者Bがいる場合、話者Aは語頭の音素であってもパワーが強く騒音の影響を受け難く、話者Bは語頭の音素のパワーが弱く騒音の影響を受け易い。つまり、同じ使用環境であっても使用話者によって音素の騒音への埋もれ易さに差異があるため、結果として話者によっては音素が変形されたようになる。したがってすべての話者に対して同一の変形認識ネットワークを用いるという構成では、満足な認識性能が得られない。
そこで。実施の形態3の音声認識装置では、想定される話者クラスタに応じた変形認識ネットワークを予め用意し、使用話者に最も近い話者クラスタに対応する変形認識ネットワークを選択することで、使用話者に適した音素系列と入力音声とを照合する。
図17は、この発明の実施の形態3による音声認識装置の構成を示すブロック図である。図において、図1あるいは図13と比して新規な要素は、話者パラメータ算出部300を設けた点にある。
話者パラメータ算出部300は、入力音素変形度分析手段の別の例であって、音響分析部101が算出した音響特徴量23を元に使用話者の特徴を表す話者パラメータ29を算出する部位である。
音響分析部101、標準認識ネットワーク記憶部102、変形認識ネットワーク記憶部103、認識ネットワーク選択部104、照合部105は実施の形態1及び実施の形態2と同じ構成要素であるため、以下、実施の形態1及び実施の形態2と異なる動作のみを説明する。
さらに、この発明の実施の形態3の変形認識ネットワーク記憶部103は、想定される話者クラスタ毎に変形認識ネットワークを記憶する。そこで次に、このような変形認識ネットワークの生成方法について具体的に述べる。
図18は、複数話者による「北海道小樽市入船」という発声のスペクトログラムを、タイムスケールを合わせて示したものである。図18から分かるように、話者によって音素のパワーや継続時間が大きく異なっている。実施の形態3では話者による音素のパワーや継続時間を考慮した上で以下の手順で変形認識ネットワークを生成する。
まず、多数の話者の発声を含む学習用の音声データに対し、話者S及び音素M毎にセグメンテーションを行い、話者S、音素Mの平均音響特徴量ベクトルβS,M、平均パワーμS,M、平均継続時間長lS,Mを算出する。
次に話者Sの音素Mの特徴を現すベクトルVS,Mを式(11)に基づいて算出する。式(11)において、βS,M(k)は音響特徴量ベクトルβS,Mのk次元目の要素、Kは音響特徴量ベクトルβS,Mの次元数、wdim(k)はVS,Mのk次元目の要素に対する重み係数である。よってVS,MはK+2次元のベクトルとなる。
Figure 2006235298
次に話者Sの特徴を現す話者パラメータVSを式(12)に基づいて算出する。式(12)において、Mmaxは音素の種類の数、wphn(m)はm番目の音素に対する重み係数である。よってVSは合計(K+2)×Mmax次元のベクトルとなる。
Figure 2006235298
以上のように全ての話者に対しVSを算出した後、VSに対するクラスタリングを行いC個の話者クラスタに分割する。クラスタリングを行う上でのベクトル間距離としてはの例としてはユークリッド距離が好適であり、またクラスタリング手法の例としてはLBGアルゴリズムが好適である。ここで、VSが話者クラスタc1にクラスタリングされる、とは、話者Sが話者クラスタc1に属することを意味している。
ところで、KまたはMmaxの値が大きい場合は、ベクトルVSの次元は大きくなるため、演算時間が膨大となったり、クラスタリングの精度が劣化する(同じ特徴を持った話者が同一クラスタ内に含まれない)、等の問題が生じる。そこでこのような問題に対応するために、以下のように次元を圧縮する方法を説明する。
まず、VS,MのK+2次元のベクトルに対して、統計的手法として知られる主成分分析を行い、式(10)において圧縮された次元に対するwdim(k)の値を0にする。
次に学習データの中で出現頻度の低い音素mに対して、式(12)においてwphn(m)の値を0にする。
このようにして演算する次元を選択することで、演算時間の削減及び、クラスタリングの精度の改善を行うことができる。
また、必ずしも音響特徴量ベクトル、平均パワー、平均継続時間長の全てをパラメータとしてクラスタリングを行う必要はなく、式(10)において使用しないパラメータに対するwdim(k)の値を0にすることで、クラスタリングに使用するパラメータを自由に選択できることは言うまでもない。
上記のようにクラスタリングされた話者クラスタc毎に、音素Mに対する平均音響特徴量ベクトルβc,M、平均パワーμc,M、平均継続時間長lc,Mを算出する。ここで話者クラスタcに対する変形認識ネットワークを、式(13)を満たす音素Mをスキップするパスを標準認識ネットワークに追加することで生成する。なおLTHは閾値である。
Figure 2006235298
また話者クラスタcに対する変形認識ネットワークを、式(14)を満たす音素Mをスキップするパスを標準認識ネットワークに追加することで生成するようにしてもよい。ここでPTHは閾値である。
Figure 2006235298
また、実施の形態1及び実施の形態2と同様に、式(14)を満たす音素に対して並列にノイズモデルを経由するパスを追加することで、変形認識ネットワークを生成するようにしてもよい。
このようにして話者クラスタ毎に生成された変形認識ネットワークを、同一話者クラスタ内のVSの平均ベクトルを索引ベクトルとして、変形認識ネットワーク記憶部103に記憶させる。
次に、音声認識装置2の動作について、図を参照しながら説明する。図19はこの発明の実施の形態3の音声認識装置2による音声認識装置2の処理のフローチャートである。なお、実施の形態1及び実施の形態2の音声認識装置と同一の処理については図6及び図16と同一の符号を付して説明を省略する。図において、話者パラメータ算出部300は、入力音声の音声特徴量ベクトルに対して音素タイプライタによるセグメンテーション処理を行う(ステップS301)。この処理は具体的には図18のスペクトログラムの下に記述された音素記号が示すように、音声の短い区間毎に音素を割り当てる処理である。
話者パラメータ算出部300は、次に、上記セグメンテーション結果から使用話者SPの特徴を表す話者パラメータ29としてベクトルVSPを算出する(ステップS302)。そのために、話者パラメータ算出部300は、使用話者SPの音素Mの平均音響特徴量ベクトルβSP,M、平均パワーμSP,M、平均継続時間長lSP,Mを算出する。ここで、式(10)及び式(11)においてSをSPと置き換えた上で、βSP,M、μSP,M、lSP,Mを代入することで、使用話者SPの特徴を表す話者ベクトルVSPを算出する。ここで入力音声のセグメンテーション結果中に出現しない音素mに対しては式(11)においてwphn(m)の値を0にしておく。
認識ネットワーク選択部104は話者パラメータ29(ベクトルVSP)と変形認識ネットワーク記憶部が記憶している変形認識ネットワークの索引ベクトルVnとの距離値Enを算出する(ステップS303)。図20は実施の形態3における変形認識ネットワーク記憶部103の記憶内容を表すテーブルの一例である。この例では想定される話者クラスタに応じた変形認識ネットワークが全部でN種類記憶されている。また、V0は認識ネットワークの変形が必要ない話者クラスタ0に対する索引ベクトルであり、対応する標準認識ネットワークは変形認識ネットワーク記憶部103に記憶しておく必要はない。
実施の形態3では式(15)に従いEnを算出する。式(15)においてJは話者パラメータの次元数であり、前述したように(K+2)×MMaxの値に一致する。Vsp(j)は使用話者の話者パラメータVspのj次元目の値、Vn(j)は索引ベクトルVnのk次元目の値また、Φ()はVSP算出時と同様に入力音声のセグメンテーション結果中に出現しない音素mに対するwphn(m)の値を0にする処理を表す符号である。また、話者パラメータのクラスタリング手順の際に述べたように、式(11)において使用しないパラメータに対するwdim(k)の値を0にすることで、距離値Enの算出に使用するパラメータを自由に選択できることは言うまでもない。
Figure 2006235298
次にn=0〜Nの中でEnが最小となるnの値nselを式(16)から算出する。
Figure 2006235298
ここでnselの値が0である場合(ステップS304:YES)、ステップS104に進み、実施の形態1及び実施の形態2と同様に標準認識ネットワーク記憶部から標準認識ネットワークを選択する。nselの値が0でない場合ステップS305に進む(ステップS304:No)。
変形認識ネットワーク記憶部103から変形認識ネットワークnselを選択する(ステップS305)。なお、演算量やメモリリソースに余裕がある場合は、選択する変形認識ネットワークをEnの値が小さいものから複数選択しても良い。
照合部105以降の動作は実施の形態1及び実施の形態2と同一であるので説明を省略する。
このように構成することで、使用話者に最も類似した話者クラスタに対して、影響を受け易い音素の音響的ミスマッチを回避する目的のために生成された変形認識ネットワークを選択することとしたので、使用話者が頻繁に変化するような環境における音声認識の精度が向上する。
これによって、使用話者が不特定多数である使用様態、例えばキオスク端末や駅の券売機のような応用下においても安定した音声認識処理を行うことができる。
この発明は、特定の用途に限定されるものではないが、例えばカーナビゲーションシステムや携帯電話、情報端末に搭載する音声認識インターフェースを実現する上で特に有用である。
この発明の実施の形態1の音声認識装置の構成を示すブロック図である。 この発明の実施の形態1の標準認識ネットワークの説明図である。 音素の種類と話者毎に正規化した音素毎の平均パワーと標準偏差との関係をグラフとして表した図である。 この発明の実施の形態1の変形認識ネットワークの説明図である。 この発明の実施の形態1の変形認識ネットワークの別の説明図である。 この発明の実施の形態1の音声認識装置の処理のフローチャートである。 この発明の実施の形態1の音声波形を示す図である。 この発明の実施の形態1の変形認識ネットワークの記憶テーブルの構成を示す図である。 この発明の実施の形態1の継続時間制御型HMMを用いた照合処理の説明図である。 この発明の実施の形態1の累積距離値の計算方法の説明図である。 この発明の実施の形態1の累積距離値の計算方法の別の説明図である。 この発明の実施の形態1の累積距離値の計算方法の別の説明図である。 この発明の実施の形態2の音声認識装置の構成を示すブロック図である。 各種の平均スペクトルの様子を示した図である。 この発明の実施の形態2の変形認識ネットワークの記憶テーブルの構成を示す図である。 この発明の実施の形態2の音声認識装置の処理のフローチャートである。 この発明の実施の形態3の音声認識装置の構成を示すブロック図である。 複数の話者によるスペクトログラムの様子を示した図である。 この発明の実施の形態3の音声認識装置の処理のフローチャートである。 この発明の実施の形態3の変形認識ネットワークの記憶テーブルの構成を示す図である。
符号の説明
100 SN比算出部、
101 音響分析部、
102 標準認識ネットワーク記憶部、
103 変形認識ネットワーク記憶部、
104 認識ネットワーク選択部、
105 照合部、
200 騒音スペクトル算出部、
300 話者パラメータ算出部。

Claims (17)

  1. 認識対象語彙を構成する音素間の接続関係を表現する第1の音声認識ネットワークを取得する認識ネットワーク取得ステップと、
    前記接続関係を変更することによって第2の音声認識ネットワークを生成する認識ネットワーク生成ステップと、
    を有する音声認識ネットワーク生成方法であって、
    前記認識ネットワーク生成ステップで、所定の背景雑音を重畳させた入力音声に含まれる前記認識対象語彙の音響特徴量列と前記接続関係を辿って得られる音素列とを順次照合すると照合が失敗する音素を迂回するように前記接続関係を変更すること、
    を特徴とする音声認識ネットワーク生成方法。
  2. 認識ネットワーク生成ステップで、所定の背景雑音を重畳させた入力音声に含まれる前記認識対象語彙の音響特徴量列と前記接続関係を辿って得られる音素列とを順次照合すると照合が失敗する音素を迂回するように前記接続関係を変更するとともに、前記背景雑音のレベルを数値化して変更後の前記接続関係にインデックスとして付与することで第2の音声認識ネットワークを生成することを特徴とする請求項1に記載の音声認識ネットワーク生成方法。
  3. 認識ネットワーク生成ステップで、所定の背景雑音を重畳させた入力音声を所定のSN比の入力音声としたことを特徴とする請求項1に記載の音声認識ネットワーク生成方法。
  4. 認識ネットワーク生成ステップで、所定のSN比となる背景雑音を重畳させた入力音声に含まれる前記認識対象語彙の音響特徴量列と前記接続関係を辿って得られる音素列とを順次照合すると照合が失敗する音素を迂回するように前記接続関係を変更するとともに、前記SN比を変更後の前記接続関係にインデックスとして付与することで第2の音声認識ネットワークを生成することを特徴とする請求項1に記載の音声認識ネットワーク生成方法。
  5. 認識ネットワーク生成ステップで、入力音声のSN比と第1の音声認識ネットワークによって表現される接続関係を辿って得られる音素の音声パワーとに基づいて、入力音声に含まれる前記認識対象語彙の音響特徴量列と前記接続関係を辿って得られる音素列との照合が失敗するかどうかを決定し、照合が失敗すると決定した音素を迂回するように前記接続関係を変更すること、を特徴とする請求項3に記載の音声認識ネットワーク生成方法。
  6. 認識ネットワーク生成ステップで、入力音声中の区間であって、第1の音声認識ネットワークによって表現される接続関係を辿って得られる音素に対応した区間の所定の帯域における音声パワー成分と、前記所定の帯域における前記入力音声のSN比とに基づいて、入力音声に含まれる前記認識対象語彙の音響特徴量列と前記接続関係を辿って得られる音素列との照合が失敗するかどうかを決定することを特徴とする請求項5に記載の音声認識ネットワーク生成方法。
  7. 認識ネットワーク生成ステップで、入力音声中の区間であって第1の音声認識ネットワークによって表現される接続関係を辿って得られる音素に対応した区間、の所定の帯域における音声パワー成分と、前記所定の帯域における前記入力音声のSN比とに基づいて、入力音声に含まれる前記認識対象語彙の音響特徴量列と前記接続関係を辿って得られる音素列との照合が失敗するかどうかを決定し、照合が失敗すると決定した音素を迂回するように前記接続関係を変更するとともに、前記区間の所定の帯域の音声パワー成分を変更後の前記接続関係にインデックスとして付与することで第2の音声認識ネットワークを生成することを特徴とする請求項1に記載の音声認識ネットワーク生成方法。
  8. 認識対象語彙を構成する音素を含む学習用音声を取得する学習用音声取得ステップと、
    前記対象語彙を構成する音素に対応する区間を前記学習用音声から切り出して、切り出した区間の音響分析を行う音響分析ステップと、をさらに有し、
    認識ネットワーク生成ステップで、前記音響分析ステップで行った音響分析の結果に基づいて、入力音声に含まれる前記認識対象語彙の音響特徴量列と第1の音声認識ネットワークによって表現される接続関係を辿って得られる音素列との照合が失敗するかどうかを決定し、照合が失敗すると決定した音素を迂回するように前記接続関係を変更すること、を特徴とする請求項1に記載の音声認識ネットワーク生成方法。
  9. 学習用音声取得ステップで取得した学習用音声の話者パラメータを算出する話者パラメータ算出ステップ、をさらに有し、
    認識ネットワーク生成ステップで、前記音響分析ステップで行った音響分析の結果に基づいて、入力音声に含まれる前記認識対象語彙の音響特徴量列と第1の音声認識ネットワークによって表現される接続関係を辿って得られる音素列との照合が失敗するかどうかを決定し、照合が失敗すると決定した音素を迂回するように前記接続関係を変更するとともに、
    前記話者パラメータを変更後の前記接続関係にインデックスとして付与することで第2の音声認識ネットワークを生成することを特徴とする請求項8に記載の音声認識ネットワーク生成方法。
  10. 認識対象となる語彙に含まれる音素間の接続関係を表現する音声認識ネットワークを辿って前記認識対象を構成する音素列を取得し、取得した音素列と入力音声から得た音響特徴量列とを照合して照合結果を出力する音声認識装置において、
    前記入力音声に重畳する背景雑音のレベルを数値化する背景雑音数値化手段と、
    請求項2に記載の音声認識ネットワーク生成方法を用いて生成された複数の音声認識ネットワークを記憶する音声認識ネットワーク記憶手段と、
    前記背景雑音数値化手段によって数値化された背景雑音のレベルと前記音声認識ネットワークに付与されたインデックスとに基づいて前記音声認識ネットワークを選択する音声認識ネットワーク選択手段と、
    前記音声認識ネットワーク選択手段により選択された音声認識ネットワークを辿って音素列を取得し、この音素列と前記音響特徴量列とを照合する照合手段と、
    を備えたことを特徴とする音声認識装置。
  11. 背景雑音数値化手段は、入力音声のSN比を算出し、
    音声認識ネットワーク記憶手段は、請求項4に記載の音声認識ネットワーク生成方法を用いて生成された複数の音声認識ネットワークを記憶し、
    音声認識ネットワーク選択手段は、前記背景雑音数値化手段によって算出された入力音声のSN比と前記音声認識ネットワークに付与されたインデックスとに基づいて前記音声認識ネットワークを選択する、
    ことを特徴とする請求項10に記載の音声認識装置。
  12. 背景雑音数値化手段は、入力音声の騒音区間から背景騒音のスペクトルを算出し、
    音声認識ネットワーク記憶手段は、請求項7に記載の音声認識ネットワーク生成方法を用いて生成された複数の音声認識ネットワークを記憶し、
    音声認識ネットワーク選択手段は、前記背景雑音数値化手段によって算出された背景騒音のスペクトルと前記音声認識ネットワークに付与されたインデックスとに基づいて前記音声認識ネットワークを選択する、
    ことを特徴とする請求項10に記載の音声認識装置。
  13. 認識対象となる語彙に含まれる音素間の接続関係を表現する音声認識ネットワークを辿って前記認識対象を構成する音素列を取得し、取得した音素列と入力音声から得た音響特徴量列とを照合して照合結果を出力する音声認識装置において、
    前記入力音声から話者パラメータを算出する話者パラメータ算出手段と、
    請求項10に記載の音声認識ネットワーク生成方法を用いて生成された複数の音声認識ネットワークを記憶する音声認識ネットワーク記憶手段と、
    前記話者パラメータと前記音声認識ネットワークに付与されたインデックスとに基づいて前記音声認識ネットワークを選択する音声認識ネットワーク選択手段と、
    前記音声認識ネットワーク選択手段により選択された音声認識ネットワークを辿って音素列を取得し、この音素列と前記音響特徴量列とを照合する照合手段と、
    を備えたことを特徴とする音声認識装置。
  14. 認識対象となる語彙に含まれる音素間の接続関係を表現する音声認識ネットワークを辿って前記認識対象を構成する音素列を取得し、取得した音素列と入力音声から得た音響特徴量列とを照合して照合結果を出力する処理を逐次コンピュータに実行させる音声認識プログラムにおいて、
    前記入力音声に重畳する背景雑音のレベルを数値化する背景雑音数値化手順と、
    請求項2に記載の音声認識ネットワーク生成方法を用いて生成された複数の音声認識ネットワークを記憶する音声認識ネットワーク記憶手段から音声認識ネットワークに付与されたインデックスを取得して、このインデックスと前記背景雑音数値化手順にて数値化された背景雑音のレベルとに基づいて前記音声認識ネットワークを選択する音声認識ネットワーク選択手順と、
    前記音声認識ネットワーク選択手段により選択された音声認識ネットワークを辿って音素列を取得し、この音素列と前記音響特徴量列とを照合する照合手順と、
    を有することを特徴とする音声認識プログラム。
  15. 背景雑音数値化手順で、入力音声のSN比を算出し、
    音声認識ネットワーク選択手順で、請求項4に記載の音声認識ネットワーク生成方法を用いて生成された複数の音声認識ネットワークを記憶する音声認識ネットワーク記憶手段から音声認識ネットワークに付与されたインデックスを取得して、このインデックスと前記背景雑音数値化手順にて算出された入力音声のSN比とに基づいて前記音声認識ネットワークを選択する、
    ことを特徴とする請求項14に記載の音声認識プログラム。
  16. 背景雑音数値化手順で、入力音声の騒音区間から背景騒音のスペクトルを算出し、
    音声認識ネットワーク選択手順で、請求項7に記載の音声認識ネットワーク生成方法を用いて生成された複数の音声認識ネットワークを記憶する音声認識ネットワーク記憶手段から音声認識ネットワークに付与されたインデックスを取得して、このインデックスと前記背景雑音数値化手順にて算出された背景騒音のスペクトルとに基づいて前記音声認識ネットワークを選択する、
    ことを特徴とする請求項14に記載の音声認識プログラム。
  17. 認識対象となる語彙に含まれる音素間の接続関係を表現する音声認識ネットワークを辿って前記認識対象を構成する音素列を取得し、取得した音素列と入力音声から得た音響特徴量列とを照合して照合結果を出力する処理を逐次コンピュータに実行させる音声認識プログラムにおいて、
    前記入力音声から話者パラメータを算出する話者パラメータ算出手順と、
    請求項10に記載の音声認識ネットワーク生成方法を用いて生成された複数の音声認識ネットワークを記憶する音声認識ネットワーク記憶手段から音声認識ネットワークに付与されたインデックスを取得して、このインデックスと前記話者パラメータ算出手順にて算出された話者パラメータとに基づいて前記音声認識ネットワークを選択する音声認識ネットワーク選択手順と、
    前記音声認識ネットワーク選択手段により選択された音声認識ネットワークを辿って音素列を取得し、この音素列と前記音響特徴量列とを照合する照合手段と、
    を備えたことを特徴とする音声認識プログラム。
JP2005050524A 2005-02-25 2005-02-25 音声認識ネットワーク生成方法、音声認識装置及びそのプログラム Pending JP2006235298A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005050524A JP2006235298A (ja) 2005-02-25 2005-02-25 音声認識ネットワーク生成方法、音声認識装置及びそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005050524A JP2006235298A (ja) 2005-02-25 2005-02-25 音声認識ネットワーク生成方法、音声認識装置及びそのプログラム

Publications (1)

Publication Number Publication Date
JP2006235298A true JP2006235298A (ja) 2006-09-07

Family

ID=37043005

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005050524A Pending JP2006235298A (ja) 2005-02-25 2005-02-25 音声認識ネットワーク生成方法、音声認識装置及びそのプログラム

Country Status (1)

Country Link
JP (1) JP2006235298A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012093661A1 (ja) * 2011-01-07 2012-07-12 日本電気株式会社 音声認識装置、音声認識方法および音声認識プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012093661A1 (ja) * 2011-01-07 2012-07-12 日本電気株式会社 音声認識装置、音声認識方法および音声認識プログラム

Similar Documents

Publication Publication Date Title
US9536525B2 (en) Speaker indexing device and speaker indexing method
CN106683677B (zh) 语音识别方法及装置
US8301445B2 (en) Speech recognition based on a multilingual acoustic model
JP5218052B2 (ja) 言語モデル生成システム、言語モデル生成方法および言語モデル生成用プログラム
JP4195428B2 (ja) 多数の音声特徴を利用する音声認識
EP1936606A1 (en) Multi-stage speech recognition
WO2002101719A1 (en) Voice recognition apparatus and voice recognition method
EP1949365A1 (en) A method and a device for speech recognition
WO2007117814A2 (en) Voice signal perturbation for speech recognition
JPH07334184A (ja) 音響カテゴリ平均値計算装置及び適応化装置
Akbacak et al. Environmental sniffing: noise knowledge estimation for robust speech systems
US11145296B1 (en) Language and grammar model adaptation
CN112750445A (zh) 语音转换方法、装置和系统及存储介质
JP2009003008A (ja) 雑音抑圧装置、音声認識装置、雑音抑圧方法、及びプログラム
JP2002268698A (ja) 音声認識装置と標準パターン作成装置及び方法並びにプログラム
Vlaj et al. A computationally efficient mel-filter bank VAD algorithm for distributed speech recognition systems
US11282495B2 (en) Speech processing using embedding data
GB2465383A (en) A speech recognition system using a plurality of acoustic models which share probability distributions
JP2013182261A (ja) 適応化装置、音声認識装置、およびそのプログラム
Yapanel et al. Robust digit recognition in noise: an evaluation using the AURORA corpus.
JP2006235298A (ja) 音声認識ネットワーク生成方法、音声認識装置及びそのプログラム
KR101890303B1 (ko) 가창 음성 생성 방법 및 그에 따른 장치
JPH10254473A (ja) 音声変換方法及び音声変換装置
JP5315976B2 (ja) 音声認識装置、音声認識方法、および、プログラム
EP2107554B1 (en) Generation of multilingual codebooks for speech recognition