JP2009025388A

JP2009025388A - 音声認識装置

Info

Publication number: JP2009025388A
Application number: JP2007185964A
Authority: JP
Inventors: Kazuhide Okada; 一秀岡田; Ryo Murakami; 涼村上; Seisho Watabe; 生聖渡部
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2007-07-17
Filing date: 2007-07-17
Publication date: 2009-02-05

Abstract

【課題】不特定多数の発話者に対しても音声認識率を向上させることが可能な音声認識装置を提供する。
【解決手段】マイク１２が発話時の音声を入力され、ＤＰマッチング部２０ｅがマイク１２に入力された音声に対してＤＰマッチング法によって音声認識を行ない、発話速度推定部２０ｃがマイク１２に入力された音声の発話速度を推定して、整合窓幅設定部２０ｄが、発話速度推定部２０ｃが推定した発話速度に応じて、ＤＰマッチング部２０ｅのＤＰマッチング法による音声認識における整合窓の幅を設定する。これにより、不特定多数の発話者に対しても音声認識率を向上させることが可能となる。
【選択図】図１

Description

本発明は音声認識装置に関し、特に、発話時の音声をＤＰマッチング法によって音声認識を行う音声認識装置に関するものである。

従来、発話時の音声から単語等の音声認識を行う手法として、ＤＰ（Dynammic Programming：動的計画法）マッチングがある。例えば、特許文献１では、マッチングの範囲を限定するための特定範囲の整合窓を設定し、当該整合窓内において、発話時の音声の時間軸上での各要素と標準パターンの各要素との各要素間の最小距離を求めることにより、最も距離が少ない標準パターンを検出して音声認識を行う音声認識装置が開示されている。
特公平７−９２６７４号公報

しかしながら、上記の技術では、不特定多数の発話者に対して一様に整合窓を設定するため、発話者の音声の時間軸上での各要素が標準パターンよりも大きくずれているときは整合窓の範囲外となり易く、音声を認識できない場合がある。

本発明は、かかる事情に鑑みてなされたものであり、その目的は、不特定多数の発話者に対しても音声認識率を向上させることが可能な音声認識装置を提供することにある。

本発明は、発話時の音声を入力される音声入力手段と、音声入力手段に入力された音声に対してＤＰマッチング法によって音声認識を行う音声認識手段と、音声入力手段に入力された音声の発話速度を推定する発話速度推定手段と、発話速度推定手段が推定した発話速度に応じて、音声認識手段のＤＰマッチング法による音声認識における整合窓の幅を設定する整合窓幅設定手段と、を備えた音声認識装置である。

この構成によれば、音声入力手段が発話時の音声を入力され、音声認識手段が音声入力手段に入力された音声に対してＤＰマッチング法によって音声認識を行ない、発話速度推定手段が音声入力手段に入力された音声の発話速度を推定して、整合窓幅設定手段が発話速度推定手段が推定した発話速度に応じて、音声認識手段のＤＰマッチング法による音声認識における整合窓の幅を設定するため、発話速度が異なる不特定多数の発話者に対しても整合窓の範囲内でＤＰマッチング法による音声認識を行うことができ、音声認識率を向上させることが可能となる。

この場合、整合窓幅設定手段は、発話速度推定手段が推定した発話速度が遅いほど、整合窓の幅を大きく設定することが好適である。

一般に、老人は発話速度が遅くＤＰマッチングによる音声認識が困難であるが、この構成によれば、整合窓幅設定手段は、発話速度推定手段が推定した発話速度が遅いほど、整合窓の幅を大きく設定するため、老人のように発話速度が遅い場合においても、音声認識率を向上させることが可能となる。

一方、音声入力手段に入力された音声のスペクトルを取得するスペクトル取得手段をさらに備え、発話速度推定手段は、スペクトル取得手段が取得した任意の周波数のスペクトルにおける変動幅に応じて発話速度が遅いと推定することが好適である。

老人は発話に抑揚が少なく音声のスペクトルにおける変動幅が小さい場合が多く、発話速度も遅い場合が多いが、この構成によれば、発話速度推定手段は、スペクトル取得手段が取得した任意の周波数のスペクトルにおける変動幅に応じて発話速度が遅いと推定するため、容易に発話速度を推定して、音声認識率を向上させることができる。

本発明の音声認識装置によれば、不特定多数の発話者に対しても音声認識率を向上させることが可能となる。

以下、本発明の実施の形態に係る音声認識装置について添付図面を参照して説明する。

図１は、実施形態に係る音声認識装置の構成を示すブロック図である。本実施形態の音声認識装置は、例えば車載用のナビゲーション装置において、運転者の発話の音声認識を行うことによって音声入力を行う等の用途に用いられるものである。図１に示すように、本実施形態の音声認識装置１０は、マイク１２、アンプ１４、Ａ／Ｄ変換器１６、一時メモリ１８、ＣＰＵ２０、データベース２２及びディスプレイ２４を備えている。

マイク１２は、発話者の音声を取得して音声信号として出力するためのものである。マイク１２は、特許請求の範囲に記載の音声入力手段として機能する。アンプ１４は、マイク１２からの１０mV程度の音声信号を増幅するためのものである。Ａ／Ｄ変換器１６は、アンプ１４からのアナログ信号をＣＰＵ２０で処理することができるデジタル信号に変換するためのものである。一時メモリ１８は、取得した音声信号を一旦記憶するためのものである。ＣＰＵ２０は、データベース２２に格納されているデータを参照しつつ一時メモリ１８から取り出した音声信号についてＤＰマッチング法により音声認識を行うためのものである。データベースは、ＣＰＵ２０が音声の発話速度を決定するために参照するデータや、ＤＰマッチング法による音声認識のために参照するデータを記憶するためのものである。ディスプレイ２４は、ＣＰＵ２０が行った音声認識の結果をユーザに対して表示するためのものである。

以下、本実施形態の音声認識装置について詳述する。図２は、実施形態に係る音声認識装置のＣＰＵ周辺の構成を示すブロック図である。図２に示すように、本実施形態の音声認識装置のＣＰＵ２０は、波形ＦＦＴ部２０ａ、極大値・極小値比較部２０ｂ、発話速度推定部２０ｃ、整合窓幅設定部２０ｄ及びＤＰマッチング部２０ｅを有する。

波形ＦＥＴ部２０ａは、一時メモリ１８から取り出した音声信号波形に対して、高速フーリエ変換（Fast Fourier Transform：ＦＦＴ）を行うことにより、音声のスペクトルを取得するためのものである。波形ＦＥＴ部２０ａは、特許請求の範囲に記載のスペクトル取得手段として機能する。

極大値・極小値比較部２０ｂは、波形ＦＥＴ部２０ａが取得した音声スペクトルの極大値と極小値とを比較し、その差を算出するためのものである。

発話速度推定部２０ｃは、データベース２２に記憶されている発話速度テーブル２２ａを参照しつつ、極大値・極小値比較部２０ｂが算出した音声スペクトルの極大値と極小値との差から、当該音声の発話速度を決定するためのものである。発話速度推定部２０ｃは、特許請求の範囲に記載の発話速度推定手段として機能する。データベース２２の発話速度テーブル２２ａは、音声スペクトルの極大値と極小値との差に対応した発話速度を記憶したものである。

整合窓幅設定部２０ｄは、発話速度推定部２０ｃが推定した音声の発話速度に応じて、ＤＰマッチングにおける整合窓の幅を設定するためのものである。整合窓幅設定部２０ｄは、特許請求の範囲に記載の整合窓幅設定手段として機能する。

ＤＰマッチング部２０ｅは、波形ＦＥＴ部２０ａにより取得された音声スペクトルから、整合窓幅設定部２０ｄにより設定された幅の整合窓を用いて、データベース２２の語彙データベース２２ｂを参照しつつＤＰマッチング法による音声認識を行うためのものである。ＤＰマッチング部２０ｅは、特許請求の範囲に記載の音声認識手段として機能する。語彙データベース２２ｂには、種々の語彙を収録した辞書となっており、語彙それぞれのケプストラム（短時間スペクトルの対数の逆フーリエ変換をしたもの）等の音声の特徴量における標準パターンが記憶されているものである。

次に、本実施形態の音声認識装置の動作について説明する。発話者の発話した音声はマイク１２によって収集されて音声信号となる。マイク１２により収集された音声信号はアンプ１４によって増幅される。アンプ１２により増幅されたアナログ信号である音声信号は、Ａ／Ｄ変換器１６によりデジタル信号に変換される。デジタル信号に変換された音声信号は、一時メモリ１８に一旦記憶される。

ＣＰＵ２０の波形ＦＥＴ部２０ａは、一時メモリ１８から取り出した音声信号に対して高速フーリエ変換を行い、音声信号のスペクトルを取得する。極大値・極小値比較部２０ｂは、波形ＦＥＴ部２０ａが取得した音声スペクトルの極大値と極小値とを比較し、その差を算出する。

発話速度推定部２０ｃは、データベース２２の発話速度テーブル２２ａを参照しつつ極大値・極小値比較部２０ｂが算出したスペクトルの極大値と極小値との差から、当該音声の発話速度を推定する。

ここで、図３（ａ）〜（ｃ）は老人（７０歳代）の音声の波形、ソナグラム及びスペクトルを示し、図３（ｄ）〜（ｆ）は青年（３０歳代）の音声の波形、ソナグラム及びスペクトルを示す。

図３（ａ）（ｂ）と（ｄ）（ｅ）に示すように、特有の声枯れがある老人の音声波形及びソナグラムは、青年のものに比べて抑揚が少ない。特に、図３（ｃ）と（ｆ）に示すように、老人の音声は青年の音声に比べて２ｋＨｚ〜８ｋＨｚにおけるスペクトルの極大値と極小値との差が小さい。老人の音声は青年の音声に比べて、スペクトルのピークがパワー包絡線上で、周波数２ｋＨｚ以上でも概して平坦であり、ピークとなる山がうかがえない。さらに、老人の音声は、０．３ｋＨｚ帯を除けば、元来、周期関数と呼ばれる母音でありながらも、あらゆる帯域に雑音成分が発生しており、信号としては雑音の乗った子音に近いものとなっている。したがって、老人の音声は聴覚的にめりはりのない声に聞こえ、２〜８ｋＨｚ帯でのパワーの高低差が青年の音声に比べて小さい。また、老人の音声は青年の音声と比べ、同じ語彙であっても概して発話速度が遅い。

そこで、本実施形態では、データベース２２の発話速度テーブル２２ａは、２ｋＨｚ〜８ｋＨｚにおけるスペクトルの極大値と極小値との差が小さくなるほど、対応する発話速度が遅くなるように設定している。そのため、発話速度推定部２０ｃは、発話速度テーブル２２ａを参照して、極大値・極小値比較部２０ｂが算出したスペクトルの極大値と極小値との差が小さいほど、当該音声の発話速度が遅いと判断する。

整合窓幅設定部２０ｄは、発話速度推定部２０ｃが推定した発話速度が遅いほど発話者が高齢であると推定して整合窓の幅を大きく設定する。

ＤＰマッチング部２０ｅは、波形ＦＥＴ部２０ａにより取得された音声スペクトルから、整合窓幅設定部２０ｄにより設定された幅の整合窓を用いて、データベース２２の語彙データベース２２ｂを参照しつつＤＰマッチング法による音声認識を行う。

ＤＰマッチング法は、図４に示すように、語彙データベース２２ｂの標準パターンをｉ、実際に認識された音声である実認識サンプルのパターンをｊとする座標を設定する。ここでｉ，ｊは、デジタル信号化された音声信号のフレーム番号である。図４に示す座標上において、ケプストラム等の音声の特徴量について、標準パターンと実認識サンプルとの相互間のユークリッド距離を重み付け加算していき、フレーム番号ごとに図中３種のルートの中で、実値が最小のものを時間伸縮関数ｇ（ｉ，ｊ）とみなし、発話区間終了まで、以下の漸化式（１）を用いて計算する。

上式（１）において、ｄ（ｉ，ｊ）は２つの特徴ベクトルであるαｉとβｊとのスペクトル距離である（α，βは任意の自然数）。ＤＰマッチング法における演算は、最終的には、標準パターン及び実認識サンプルを発話区間の全体で正規化し、種々の標準パターンからなる語彙のモデルについて、Ｇ（ｉ，ｊ）＝ｇ（ｉ，ｊ）／（Ｉ＋Ｊ）を演算して、各モデルの中でＧ（ｉ，ｊ）が最短のモデルに係る語彙を推定語彙とする。

しかしながら、この時間伸縮関数ｇ（ｉ，ｊ）を導出する過程において、図５に示すように、時間伸縮関数ｇ（ｉ，ｊ）のトレースが座標上で一度でも幅２ｄで示される整合窓、すなわち、ｊ＝ｉ＋ａ及びｊ＝ｊ−ａに挟まれる区間（ａは正の整数値）から逸脱した場合、標準パターンとのマッチングにおいて当該モデルは推定語彙の候補から外れることになる。

ところが実際には、老人の場合は、発話は概して遅く、標準パターンと比較しても話速が遅いために、整合窓の範囲から外れ易い傾向がある。そのため、発話者が老人である場合の音声認識では、実際には適合する可能性が高い推定語彙候補でありながら、一度整合窓の範囲を外れただけで推定語彙候補から外されることになり、音声認識において誤認識を生じ易くなる。

そこで、本実施形態では、図６に示すように、発話速度推定部２０ｃが音声スペクトルの極大値と極小値との差から発話速度が遅いと推定した場合は、老人の発話とみなし、整合窓の幅を２ｄ’で示される範囲まで拡大することとした。すなわち、この場合、整合窓は、ｊ＝ｉ＋ａ’及びｊ＝ｊ−ａ’に挟まれる区間（ａ’は正の整数値）まで拡大され、この整合窓において上記ＤＰマッチングが行われる。ＤＰマッチングの結果はディスプレイ２４によってユーザに表示される。

本実施形態によれば、マイク１２が発話時の音声を入力され、ＤＰマッチング部２０ｅがマイク１２に入力された音声に対してＤＰマッチング法によって音声認識を行ない、発話速度推定部２０ｃがマイク１２に入力された音声の発話速度を推定して、整合窓幅設定部２０ｄが、発話速度推定部２０ｃが推定した発話速度に応じて、ＤＰマッチング部２０ｅのＤＰマッチング法による音声認識における整合窓の幅を設定するため、発話速度が異なる不特定多数の発話者に対しても整合窓の範囲内でＤＰマッチング法による音声認識を行うことができ、不特定多数の発話者に対しても音声認識率を向上させることが可能となる。

特に、本実施形態によれば、発話速度が遅くＤＰマッチングによる音声認識が困難である老人が発話者である場合でも、整合窓幅設定部２０ｄは、発話速度推定部２０ｃが推定した発話速度が遅いほど、整合窓の幅を大きく設定するため、老人のように発話速度が遅い場合においても、音声認識率を向上させることが可能となる。

老人は発話に抑揚が少なく音声のスペクトルにおける変動幅が小さい場合が多く、発話速度も遅い場合が多いが、本実施形態によれば、発話速度推定部２０ｃは、波形ＦＦＴ部２０ａが取得した任意の周波数のスペクトルにおける変動幅に応じて発話速度が遅いと推定するため、容易に発話速度を推定して、音声認識率を向上させることができる。

すなわち、従来のＤＰマッチング法においては、老人も青年も一様の値を制限値（切片）とする整合窓を設けて、正規化された時間伸縮関数の最も短いモデルを音声認識時における推定語彙としていたため、老人が発話者の場合には、適合する可能性の高い推定語彙候補がしばしば整合窓の範囲を外れることが多く、誤認識をする場合が多い。

一方、本実施形態では、老人の発話には特有の声枯れがあることに着目し、２〜８ｋＨｚ帯域のスペクトルにおいて、パワーの極大値と極小値との差が壮年者・若年者に比して極めて小さいという特徴を見出したことによるものである。本実施形態では、２〜８ｋＨｚ帯域のスペクトルにおいて、パワーの極大値と極小値との差により、発話者が老人か壮年以下かを推定し、老人の場合には従来一定値であった整合窓の幅をより大きなものとし、従来の手法における推定語彙候補の脱落を防ぐことにより、老人特有の発話速度が遅いことによる障害を低減して音声認識率を向上させることができる。そのため、本実施形態では、結果として全ての年齢間での平均音声認識率を向上させることができる。

以上、本発明の実施の形態について説明したが、本発明は、上記実施形態に限定されるものではなく種々の変形が可能である。

実施形態に係る音声認識装置の構成を示すブロック図である。実施形態に係る音声認識装置のＣＰＵ周辺の構成を示すブロック図である。（ａ）〜（ｆ）は老人及び青年それぞれの音声の波形、ソナグラム及びスペクトルを示す図である。通常のＤＰマッチングの例を示す図である。従来の手法で老人の音声にＤＰマッチングを行った例を示す図である。実施形態の手法で老人の音声にＤＰマッチングを行った例を示す図である。

符号の説明

１０…音声認識装置、１２…マイク、１４…アンプ、１６…Ａ／Ｄ変換器、１８…一時メモリ、２０…ＣＰＵ、２０ａ…波形ＦＦＴ部、２０ｂ…極大値・極小値比較部、２０ｃ…発話速度推定部、２０ｄ…整合窓幅設定部、２０ｅ…ＤＰマッチング部、２２…データベース、２２ａ…発話速度テーブル、２２ｂ…語彙データベース、２４…ディスプレイ。

Claims

発話時の音声を入力される音声入力手段と、
前記音声入力手段に入力された音声に対してＤＰマッチング法によって音声認識を行う音声認識手段と、
前記音声入力手段に入力された音声の発話速度を推定する発話速度推定手段と、
前記発話速度推定手段が推定した発話速度に応じて、前記音声認識手段のＤＰマッチング法による音声認識における整合窓の幅を設定する整合窓幅設定手段と、
を備えた音声認識装置。
前記整合窓幅設定手段は、前記発話速度推定手段が推定した発話速度が遅いほど、前記整合窓の幅を大きく設定する、請求項１に記載の音声認識装置。
前記音声入力手段に入力された音声のスペクトルを取得するスペクトル取得手段をさらに備え、
前記発話速度推定手段は、前記スペクトル取得手段が取得した任意の周波数のスペクトルにおける変動幅に応じて発話速度が遅いと推定する、請求項１又は２に記載の音声認識装置。