JP4240878B2 - 音声認識方法及び音声認識装置 - Google Patents
音声認識方法及び音声認識装置 Download PDFInfo
- Publication number
- JP4240878B2 JP4240878B2 JP2001379860A JP2001379860A JP4240878B2 JP 4240878 B2 JP4240878 B2 JP 4240878B2 JP 2001379860 A JP2001379860 A JP 2001379860A JP 2001379860 A JP2001379860 A JP 2001379860A JP 4240878 B2 JP4240878 B2 JP 4240878B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- peak
- autocorrelation function
- delay time
- function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/027—Syllables being the recognition units
Description
【発明の属する技術分野】
本発明は、音声認識分野において利用される技術に関し、特に、実音場において音声特徴を抽出するのに適した音声認識方法及び音声認識装置に関する。
【0002】
【従来の技術】
音声認識技術においては、入力された音声信号を一定の時間間隔で重なり合う短時間の分析区間(フレーム)ごとに解析して音声信号の特徴ベクトルを求め、その特徴ベクトルの時系列信号に基づいて音声のマッチングを行う方式が主流である。
【0003】
この特徴ベクトルを分析する手法としては、これまでに様々なものが提案されており、代表的なものとして、ケプストラム分析、スペクトル分析などが挙げられる。
【0004】
【発明が解決しようとする課題】
ところで、ケプストラム分析やスペクトル分析などの各種分析手法は、細部の違いはあるものの、結局は音声信号のスペクトルをどう推定するかという問題に収束する。音声信号の特徴はスペクトルの構造にあらわれるため、これらの手法は有効な手段となり得るものの、以下のような問題がある。
【0005】
(1)音声信号は広範囲にわたる周波数情報を含むため、そのスペクトルを再現するためには複雑なパラメータが必要になる。また、それらパラメータの中には、聴感上それほど重要でないものが多く含まれており、予測誤差の原因ともなりうる。
【0006】
(2)従来の分析手法は雑音に弱いという問題があり、暗騒音や残響などによって大きく形状が左右されるスペクトルを解析することには限界がある。
【0007】
(3)実環境における音声認識を実現するためには、いわゆる“カクテルパーティー効果”を初めとする、話者の移動や複数の音源に対応することが必要となるが、従来の分析手法では、そのような音場の空間情報はあまり考慮されておらず、従って、実音場において人間の感覚を反映した音声特徴抽出を行うことは困難である。
【0008】
本発明はそのような問題点を解決するためになされたもので、スペクトル解析を行うことなく、人間の聴感特性に対応した最小限のパラメータを利用して、実音場における音声特徴を抽出することが可能な音声認識方法及び音声認識装置を提供することを目的とする。
【0009】
【課題を解決するための手段】
まず、本出願人・発明者らは研究によって、音声信号の自己相関関数に音声特徴に関する重要な情報が含まれていることを発見した。具体的には、自己相関関数の遅れ時間は0の値Φ(0)は音の大きさを表わすファクタ、自己相関関数の第1ピークの遅れ時間τ1と振幅φ1は音声のピッチ(音の高さ)に相当する周波数とその強度を表わすファクタ、自己相関関数の有効継続時間τe は信号自身に含まれる繰り返し成分及び残響成分を表わすファクタであることを見出した。さらに、自己相関関数の第1ピークまでに現れる局所ピークは音色に関する情報を含むファクタであることも見出した(詳細は後述)。
【0010】
また、バイノーラルで計測した音声信号の両耳間相互相関関数には、空間的特徴である方向定位と拡がり感と音源の幅に関連する重要な情報が含まれていることを発見した。具体的には、両耳間相互相関関数の最大値IACCは主観的拡散に関連するファクタ、両耳間相互相関関数のピーク遅れ時間τIACCは音源の水平方向の知覚に関する重要なファクタ、さらに両耳間相互相関関数の最大値IACC及び両耳間相互相関関数の最大振幅の幅WIACCは見かけの音源の幅(ASW)の知覚に関するファクタであることを見出した(詳細は後述)。
【0011】
本発明は、そのような点に着目し、自己相関関数及び両耳間相互相関関数に含まれる各ファクタ、つまり人間の聴感特性に対応した最小限のパラメータを利用して、スペクトル解析を行うことなく、実音場における音声特徴を抽出することが可能な音声特徴抽出方法及び音声特徴抽出装置と、音声認識方法及び音声認識装置を実現している。その具体的な構成を以下に示す。
【0012】
本発明において用いられる音声特徴抽出方法は、音声認識に必要な音声特徴を抽出する方法であって、音声信号の自己相関関数を求め、その自己相関関数から、自己相関関数の遅れ時間が0の値Φ(0)、自己相関関数の第1ピークの遅れ時間τ1と振幅φ1、及び自己相関関数の有効継続時間τeを抽出するといったものである。
【0014】
本発明において用いられる音声特徴抽出装置は、音声認識に必要な音声特徴を抽出する装置であって、マイクロフォンと、マイクロフォンにて採取された音声信号の自己相関関数を求める演算手段と、その自己相関関数から、自己相関関数の遅れ時間が0の値Φ(0)、自己相関関数の第1ピークの遅れ時間τ1と振幅φ1、及び自己相関関数の有効継続時間τeを抽出する抽出手段を備えたものである。
【0016】
本発明の音声認識方法は、前記した音声特徴抽出方法にて抽出した、自己相関関数の遅れ時間が0の値Φ(0)、自己相関関数の第1ピークの遅れ時間τ1と振幅φ1、及び自己相関関数の有効継続時間τe の各データを、音声認識用のテンプレートと比較して音声を認識することによって特徴づけられる。
【0017】
この発明の音声認識方法において、前記した音声の特徴量に加えて、自己相関関数の第1ピークまでの局所ピークを抽出し、その局所ピークを含めたデータをテンプレートと比較して音声を認識するようにしてもよい。
【0018】
本発明の音声認識装置は、前記した音声特徴抽出装置と、この音声抽出装置にて抽出された、自己相関関数の遅れ時間が0の値Φ(0)、自己相関関数の第1ピークの遅れ時間τ1と振幅φ1、及び自己相関関数の有効継続時間τe の各データを、音声認識用のテンプレートと比較して音声を認識する認識手段を備えていることによって特徴づけられる。
【0019】
この発明の音声認識装置において、前記した音声の特徴量に加えて、自己相関関数の第1ピークまでの局所ピークを抽出し、その局所ピークを含めたデータをテンプレートと比較して音声を認識するように構成してもよい。
【0020】
本発明において用いられる音声特徴抽出方法は、音声認識に必要な音声特徴を抽出する方法であって、バイノーラルで計測した音声信号の自己相関関数及び両耳間相互相関関数をそれぞれ求め、その自己相関関数及び両耳間相互相関関数から、自己相関関数の第1ピークの遅れ時間τ1と振幅φ1、自己相関関数の有効継続時間τe、両耳間相互相関関数の最大値IACC、両耳間相互相関関数のピーク遅れ時間τIACC、両耳間相互相関関数の最大振幅の幅WIACC、及び、自己相関関数または両耳間相互相関関数の遅れ時間が0の値Φ(0)を抽出するといったものである。
【0022】
本発明において用いられる音声特徴抽出装置は、音声認識に必要な音声特徴を抽出する装置であって、バイノーラルのマイクロフォンと、マイクロフォンにて採取された音声信号の自己相関関数及び両耳間相互相関関数をそれぞれ求める演算手段と、その自己相関関数及び両耳間相互相関関数から、自己相関関数の第1ピークの遅れ時間τ1と振幅φ1、自己相関関数の有効継続時間τe、両耳間相互相関関数の最大値IACC、両耳間相互相関関数のピーク遅れ時間τIACC、両耳間相互相関関数の最大振幅の幅WIACC、及び、自己相関関数または両耳間相互相関関数の遅れ時間が0の値Φ(0)を抽出する抽出手段を備えたものである。
【0024】
本発明の音声認識方法は、前記した音声特徴抽出方法にて抽出した、自己相関関数の第1ピークの遅れ時間τ1と振幅φ1、自己相関関数の有効継続時間τe 、両耳間相互相関関数の最大値IACC、両耳間相互相関関数のピーク遅れ時間τIACC、両耳間相互相関関数の最大振幅の幅WIACC、及び、自己相関関数または両耳間相互相関関数の遅れ時間が0の値Φ(0)の各データを、音声認識用のテンプレートと比較して音声を認識することを特徴とする。
【0025】
この発明の音声認識方法において、前記した音声の特徴量に加えて、自己相関関数の第1ピークまでの局所ピークを抽出し、その局所ピークを含めたデータをテンプレートと比較して音声を認識するようにしてもよい。
【0026】
本発明の音声認識装置は、前記した音声特徴抽出装置と、この音声抽出装置にて抽出された、自己相関関数の第1ピークの遅れ時間τ1と振幅φ1、自己相関関数の有効継続時間τe 、両耳間相互相関関数の最大値IACC、両耳間相互相関関数のピーク遅れ時間τIACC、両耳間相互相関関数の最大振幅の幅WIACC、及び、自己相関関数または両耳間相互相関関数の遅れ時間が0の値Φ(0)の各データを、音声認識用のテンプレートと比較して音声を認識する認識手段を備えていることによって特徴づけられる。
【0027】
この発明の音声認識装置において、前記した音声の特徴量に加えて、自己相関関数の第1ピークまでの局所ピークを抽出し、その局所ピークを含めたデータをテンプレートと比較して音声を認識するように構成してもよい。
【0028】
ここで、本発明に用いる音声認識用のテンプレートは、例えば、あらかじめ計算された全音節に関する自己相関関数の特徴量(ACFファクタ)のセットである。また、テンプレートには、あらかじめ計算された両耳間相互相関関数の特徴量(IACFファクタ)のセットを含めておいてもよい。
【0029】
以下、本発明を詳細に説明する。
【0030】
まず、本発明に用いる音声信号の解析手法を説明する。
【0031】
本発明において音声信号の解析手法は、図1に示す人間の聴覚機能モデルに基づいている。このモデルは、左右それぞれの経路におけるACFと両耳間のIACFを計算する神経メカニズムから構成され、左右大脳半球の処理特性も考慮するものである。
【0032】
図1において、r0は音源p(t)の3次元空間における位置、rは受聴者の頭の中心の位置として定義される。hr,l(r/r0,t)はr0と左右の外耳道入り口間のインパルス応答である。外耳道と耳小骨のインパルス応答はそれぞれel,r(t)とcl,r(t)で表される。基底膜の速度は、Vl,r(x,ω)で表される。
【0033】
このようなACF及びIACFモデルの有効性は、音源の基本属性の知覚や、プリファレンス(好ましさ)をはじめとする音場の主観的評価に関する研究によって実証されてきた(Y. Ando (1998), Architectural acoustics, blending sound sources, sound fields, and listeners. AIP Press/Springer-Verlag, New-York参照)。
【0034】
さらに最近の生理学分野の研究によって、聴覚神経の発火パターンが入力信号のACFに近いふるまいを示すことがわかってきており、神経メカニズムにおけるACFモデルの存在が明らかにされつつある(P. A. Cariani (1996), Neural correlates of the pitch of complex tones. I. Pitch and Pitch Salience, Journal of Neurophysiology, 76, 3, 1698-1716参照)。
【0035】
ACFから抽出されるファクタによって、音の基本属性であるラウドネス(音の大きさ)、ピッチ(音の高さ)、音色の評価が可能であり、またIACFから抽出されるファクタによって、音場の空間的特性である拡がり感、方向定位、音源の幅の評価が可能となる。
【0036】
音場において、人間の耳に到達する音源信号のACFは次の式から得られる。
【0037】
【数1】
【0038】
ここでp'(t)=p(t)*s(t)で、s(t)は耳の感度である。通常s(t)にはA特性のインパルスレスポンスが用いられる。音源信号のパワースペクトルも次式のようにACFから得ることができる。
【0039】
【数2】
【0040】
このように、ACFとパワースペクトルは数学的に同じ情報を含んでいる。
【0041】
ACFの重要な性質のひとつは、式(1)において遅れ時間τ=0とした時に最大値をもつことである。この値をΦ□(0)と定義することとする。Φ(0)は信号のエネルギを表すため、通常はこの値で除した正規化ACF(φ(τ))を信号の解析に使用する。さらに、左右のΦ□(0)の幾何平均を求め、10倍の対数変換することによって頭部位置における相対的聴取音圧レベルLLが得られる。
【0042】
ACFの解析において、これまで見逃されてきた最も重要なファクタ(特徴量)として、正規化ACFのエンベロープによって定義される有効継続時間τe がある。
【0043】
有効継続時間τe は、図5に示すように10パーセント遅れ時間として定義され、信号自身に含まれる繰り返し成分及び残響成分を表す。さらに、ピークやディップを含むACFの微細構造は、信号の周期性に関する多くの情報を含んでいる。音声信号の解析に際して最も有効なものはピッチに関する情報であり、ACFの第1ピークの遅れ時間τ1と振幅φ1(図6)は音声のピッチに相当する周波数とその強度を表すファクタである。
【0044】
ここで、第1ピークとは、多くの場合ACFの最大ピークであり、その周期で後続の定期的なピークが現れる。また、第1ピークまでの時間に現れる局所的なピークは、信号の高周波数域の時間構造を表すもので、音色に関する情報を含んでいる。特に音声の場合、フォルマントと呼ばれる声道の共振周波数の特徴を表す。以上のACFファクタは、認識に必要な音声特徴をすべて含んでいる。
【0045】
すなわち、ピッチとピッチ強度に対応するACFの第1ピークの遅れ時間と振幅、フォルマントに対応するACFの局所ピークによって音声を特定でき、有効継続時間τe によって実音場における騒音や残響の影響を考慮できる。
【0046】
次に、IACFについて説明する。
【0047】
長時間IACFは次式で求めることができる。
【0048】
【数3】
【0049】
ここでp’l, r(t)=plr(t)*s(t)であり、左右外耳道入り口での音圧である。音源の水平面方向の知覚を含む空間情報は次式で表される。
【0050】
【数4】
【0051】
で定義される。
【0052】
τWIACC及びWIACCは図7中に定義を示すとおり、IACFのピークの遅れ時間と幅である。これらのIACCファクタの中で、−1ms〜+1msの範囲内のτIACCは、音源の水平方向の知覚に関する重要なファクタである。
【0053】
IACFの最大値であるIACCが大きな値を持ち、正規化IACFが1つの鋭いピークを持つとき、明確な方向感が得られる。その方向は、τIACCが負の値を持つときは聴者の左、正の値を持つときは右となる。逆に、IACCが小さい値を持つときは、主観的拡がり感が大きくなり、方向感はあいまいになる。知覚される見かけの音源の幅は、IACCとWIACCによって求めることができる。
【0054】
以上説明したように、音声信号について、ACFの遅れ時間が0の値Φ(0)、ACFの第1ピークの遅れ時間τ1と振幅φ1、及びACFの有効継続時間τe を抽出すれば、その抽出したACFのΦ(0)から音の大きさを求めることができ、ACFの第1ピークの遅れ時間τ1と振幅φ1から音声のピッチ(音の高さ)とその強度を求めることができる。また、ACFの有効継続時間τe によって実音場における雑音や残響の影響を考慮することができる。
【0055】
さらに、音声信号についてACFの第1ピークまでに現れる局所ピークを抽出すれば、その局所ピークから音声の音色を特定することも可能になる。
【0056】
また、音声信号について、IACFの最大値IACC、IACFのピーク遅れ時間τIACC、及びIACFの最大振幅の幅WIACCを抽出すれば、そのIACFの最大値IACCから主観的広がり感を求めることができ、IACFのピーク遅れ時間τIACCから音源の水平方向の知覚を求めることができる。さらにIACFの最大値IACC及びIACFの最大振幅の幅WIACCから、知覚される見かけの音源の幅(ASW)を求めることができる。
【0057】
従って、これらIACFファクタつまり音場の空間情報を音声認識に加えることにより、実音場での人間の感覚を反映した高い精度の認識が可能になる。
【0058】
ここで、本発明において、以上説明したACFファクタ及びIACFファクタの全てを抽出する必要はなく、それらファクタのうち、少なくともACFの遅れ時間が0の値Φ(0)、ACFの第1ピークの遅れ時間τ1と振幅φ1、及びACFの有効継続時間τe の4つのファクタがあれば、音声特徴を抽出することができ、音声の認識を確実に行うことができる。
【0059】
【発明の実施の形態】
以下、本発明の実施形態を図面に基づいて説明する。
【0060】
図2は本発明の実施形態の構成を示すブロック図である。
【0061】
図2に示す音声認識装置は、聴者の頭部模型1に装着されたバイノーラルのマイクロフォン2、マイクロフォン2にて採取された音声信号にA特性フィルタをかけるローパスフィルタ(LPF)3、A/Dコンバータ4、及びコンピュータ5を主体として構成されている。なお、A特性フィルタとは、耳の感度s(t)に相当するフィルタのことである。
【0062】
コンピュータ5は、記憶装置6、ACF演算部7、IACF演算部8、ACFファクタ抽出部9、IACFファクタ抽出部10、音声認識部11及びデータベース12を備えている。
【0063】
記憶装置6は、バイノーラルのマイクロフォン2にて採取された音声信号を格納する。
【0064】
ACF演算部7は、記憶装置6に格納された音声信号(左右2チャンネル)を読み出してACF(自己相関関数)を計算する。計算処理の詳細は後述する。
【0065】
IACF演算部8は、記憶装置6に格納された音声信号を読み出してIACF(両耳間相互相関関数)を計算する。計算処理の詳細は後述する。
【0066】
ACFファクタ抽出部9は、ACF演算部7にて計算されたACFから、ACFの遅れ時間が0の値Φ(0)、ACFの第1ピークの遅れ時間τ1と振幅φ1、及びACFの有効継続時間τe の各ACFファクタを導出する。さらに、ACFの第1ピークまでの局所ピーク(図6に示す(τ'1,φ'1),(τ'2,φ'2),…)を導出する。計算処理の詳細は後述する。
【0067】
IACFファクタ抽出部10は、IACF演算部8にて計算されたIACFから、IACFの最大値IACC、IACFのピーク遅れ時間τIACC、及びIACFの最大振幅の幅WIACCを各IACFファクタを導出する。計算処理の詳細は後述する。
【0068】
音声認識部11は、以上の処理によって求めれらた音声信号のACFファクタ及びIACFファクタを、データベース12に格納された音声認識用のテンプレートと比較して、音節を認識(同定)する。音節認識処理の詳細は後述する。
【0069】
データベース12に格納されるテンプレートは、あらかじめ計算された全音節に関するACFファクタのセットである。また、テンプレートには、あらかじめ計算されたIACFファクタのセットも含まれる。
【0070】
次に、本実施形態において実行する音節特定処理の動作を図3に示すフローチャートを参照しながら説明する。
【0071】
まず、バイノーラルのマイクロフォン2にて音声信号が採取される(ステップS1)。採取された音声信号は、ローパスフィルタ3を介してA/Dコンバータに導かれてデジタル信号に変換され、そのデジタル変換後の音声信号がコンピュータ5内の記憶装置6に格納される(ステップS2)。
【0072】
記憶装置6に格納された音声信号(デジタル信号)をACF演算部7及びIACF演算部8が読み出し(ステップS3)、その音声信号のACF及びIACFをそれぞれ計算する(ステップS4)。
【0073】
計算されたACF及びIACFはそれぞれACFファクタ抽出部9及びIACFファクタ抽出部9に供給されてACFファクタ及びIACFファクタが計算される(ステップS5)。
【0074】
そして、以上の処理によって求められた音声信号のACFファクタ及びIACFファクタを、データベース12に格納されたテンプレートと比較して、後述する処理により音節を認識(同定)する(ステップS6,S7)。
【0075】
ここで、図2に示す装置構成において、頭部模型1、バイノーラルのマイクロフォン2、ローパスフィルタ3、A/Dコンバータ4、及びコンピュータ5の記憶装置6、ACF演算部7、IACF演算部8、ACFファクタ抽出部9、IACFファクタ抽出部10を組み合わせることにより、ACFファクタ及びIACFファクタ抽出用の音声特徴抽出装置を実現することができる。
【0076】
また、頭部模型1、バイノーラルのマイクロフォン2、ローパスフィルタ3、A/Dコンバータ4、及びコンピュータ5の記憶装置6、ACF演算部7、ACFファクタ抽出部9を組み合わせることにより、ACFファクタ抽出用の音声特徴抽出装置を実現することができる。
【0077】
次に、ACF及びIACFの具体的な計算方法について述べる。
【0078】
図4に示すように、対象となる音声信号の継続時間内において、短時間のセグメント(以降フレームと呼ぶ)Fk(t)に対して、ランニングACF及びランニングIACFを計算する。音声信号の特性は時間とともに変化するためこのような方法をとるものである。ACFの積分区間2TはACFから抽出されるτe [ms]の最小値の20〜40倍を選定する。
【0079】
音声を分析する場合、フレームの長さは数msから数10msを採用し、隣接するフレームは互いに重なり合うように設定する。本実施形態においては、フレームの長さを30msとし、各フレームが5msずつ重なるように設定する。
【0080】
遅れ時間τの関数である短時間ランニングACFは次のように計算される。
【0081】
【数5】
【0082】
である。
【0083】
式(8)におけるp'(t)は、採取された音声信号p(t)にA特性フィルタをかけた信号であることを示す。
【0084】
式(7)の分母にあるΦ(0)は、遅れ時間τ=0の時のACFの値であり、採取された音声信号のフレーム内における平均エネルギを表す。ACFは遅れ時間τ=0で最大値を取るため、このように正規化されたACFは、τ=0で最大値1を持つことになる。
【0085】
Φ(0)左右の耳の位置で採取された信号に対するACFをそれぞれΦll(τ)、Φrr(τ)で表すと、頭部の位置におけるバイノーラルの音圧レベル(SPL:Sound pressure level)は次式で得られる。
【0086】
【数6】
【0087】
φref(0)は、基準音圧値20μPにおけるΦ(0)である。
【0088】
計算されたACFから、音節の認識に必要なファクタを導出する。以下に、それらのファクタの定義と導出方法を述べる。
【0089】
正規化したACFの振幅が0.1に減衰するときの遅れ時間τによって、有効継続時間τe を定義する。
【0090】
図5は、縦軸にACFの絶対値を対数で表示したグラフである。このように初期のACFが線形に減衰するのが一般的に観察されるため、線形回帰によりτe を容易に求めることができる。具体的には、ある一定時間Δτにおいて得られるACFのピークに対して、最小平均自乗法(LMS)を用いてτe を決定する。
【0091】
図6に正規化ACFの計算例を示す。ここで、正規化ACFの最大ピークを求め、その遅れ時間と振幅をそれぞれτ1,φ1と定義する。さらに、最大ピークまでの局所ピークを求め、その遅れ時間と振幅をτ'k,φ'k,k=1,2,…,Iと定義する。
【0092】
ピークを求める区間は、遅れ時間τ=0からACFの最大ピークが出現するまでの区間であり、ACFの1周期分に相当する。前述したように、ACFの最大ピークは音源のピッチに対応し、最大ピークまでの局所ピークはフォルマントに対応する。
【0093】
次に、IACFの計算方法とそこから導出されるファクタについて述べる。
【0094】
IACFは、次式で定義される。
【0095】
【数7】
【0096】
ここで、添え字のlとrは左右の耳に到達する信号であることを表す。
【0097】
図7に正規化されたIACFの例を示す。両耳の間の最大遅れ時間としては、−1msから+1msを考慮すれば十分である。IACFの最大振幅IACCは主観的拡散に関連するファクタである。
【0098】
次に、τIACCの値は、音源の到達方向を示すファクタである。例えばτIACCが正の値をとる場合、音源は聴者の右側に位置するか、あるいは音源は聴者の右側にあるかのように知覚される。τIACC=0の場合、音源が聴者の正面に知覚されることを意味する。
【0099】
また、最大振幅の幅WIACCは、最大値から0.1下がったところの幅として定義する。この係数0.1は、実験により求められた値であり、概算的に用いられる。
【0100】
次に、入力信号とテンプレートの音節間距離に基づいて音節を認識する方法について述べる。
【0101】
音節間距離は、採取された音声信号について求められたACFファクタ及びIACFファクタと、データベースに格納されたテンプレートとの距離を計算するものである。テンプレートはあらかじめ計算された、全音節に関するACFファクタのセットである。ACFファクタは知覚される音の特徴を表すものであるので、音声が聴感的に類似しておれば、求められるファクタも当然類似したものとなることを利用した方法である。
【0102】
対象となる入力データ(記号aで表す)とテンプレート(記号bで表す)と間の距離D(x)(x:Φ(0),τe,τk,φk,τ'k,φ'k,k=1,2,…,I)を次式のように計算する。
【0103】
【数8】
【0104】
式(11)は、Φ(0)に関する距離を求めるものであり、Nは分析フレームの数を示す。計算の際に対数をとっているのは、人間の感覚が物理量に対して対数的な感度を持つためである。他の独立なファクタについても同様の式で距離が求められる。
【0105】
距離の総和Dは、各ファクタの距離D(x)を加算した次式で表される。
【0106】
【数9】
【0107】
式(12)におけるMはファクタの数であり、Wは重み係数である。算出された距離Dが最も小さいテンプレートを、入力信号の音節であると判断する。後述するように、実音場においては、Dを求める際にIACFファクタを追加することにより高い精度での認識が可能になる。この場合、D(x)をIACFファクタであるIACC,τIACC,WIACCについても式(11)に従い計算し、式(12)に追加することとなる。
【0108】
以上説明したように、本実施形態によれば、音声信号について、ACFの遅時間が0の値Φ(0)、ACFの第1ピークの遅れ時間τ1と振幅φ1、及びACFの有効継続時間τe を抽出しているので、その抽出したACFのΦ(0)から音の大きさを求めることができ、ACFの第1ピークの遅れ時間τ1と振幅φ1から、音声のピッチ(音の高さ)とその強度を求めることができる。また、ACFの有効継続時間τe によって実音場における雑音や残響の影響を考慮することができる。
【0109】
このように、本実施形態によれば、人間の聴感特性に対応する4つのパラメータを利用して、音声の特徴を抽出することができるので、スペクトル解析を行う必要がなく、従来のものと比べてきわめて簡単な構成のもとに音声認識装置を実現することができる。
【0110】
しかも、本実施形態では、音声信号についてACFの第1ピークまでに現れる局所ピークも抽出しているので、その局所ピークから音声の音色を特定することも可能になる。
【0111】
また、本実施形態では、音声信号についてIACFの最大値IACC、IACFのピーク遅れ時間τIACC、及びIACFの最大振幅の幅WIACCを抽出しているので、そのIACFの最大値IACCから主観的広がり感を求めることができ、IACFのピーク遅れ時間τIACCから音源の水平方向の知覚を求めることができる。さらにIACFの最大値IACC及びIACFの最大振幅の幅WIACCから、知覚される見かけの音源の幅(ASW)を求めることができる。
【0112】
従って、これらIACFファクタつまり音場の空間情報を音声認識に加えることにより、実音場での人間の感覚を反映した高い精度の認識が可能になる。
【0113】
なお、以上の実施形態においては、音の大きさに関する情報として、ACFの遅れ時間が0の値Φ(0)を抽出しているが、これに替えて、IACFの遅れ時間0の値Φ(0)を抽出して認識に用いてもよい。
【0114】
以上の実施形態では、ACFファクタ及びIACFファクタの双方を抽出しているが、本発明はこれに限られることなく、ACFファクタのみを抽出するようにしてもよい。ACFファクタのみを抽出する場合、音声信号の採取にバイノーラルのマイクロフォンを用いてもよいし、モノラルのマイクロフォンを用いてもよい。
【0115】
ここで、図2に示す実施形態では、本発明の音声認識装置を機能ブロックによるハード構成で示しているが、本発明はこれに限れられることなく、例えば、図3に示す音声認識処理を行うための音声認識プログラムを、パーソナルコンピュータ等のコンピュータで読み取りが可能な記録媒体に記録しておき、その記憶したプログラムをコンピュータに実行させることにより、本発明の音声認識方法を実現するようにしてもよい。
【0116】
また、図3のステップS1〜ステップS5までの音声特徴抽出処理を行うための音声特徴抽出プログラムを、パーソナルコンピュータ等のコンピュータで読み取りが可能な記録媒体に記録しておき、その記憶したプログラムをコンピュータに実行させることにより、本発明において用いられる音声特徴抽出方法を実現するようにしてもよい。
【0117】
コンピュータが読み取り可能な記録媒体としては、ROM等のコンピュータに内蔵されているメモリであってもよいし、また、コンピュータに設けられる読取装置(外部記憶装置)によって読み取り可能な記録媒体、例えば、磁気テープやカセットテープ等のテープ系、フロッピーディスクやハードディスク等の磁気ディスク系、CD−ROM/MO/MD/DVD等の光ディスク系、ICカード(メモリカードを含む)/光カード等のカード系、あるいはマスクROM、EPROM、EEPROM、フラッシュROM等による半導体メモリなどの記録媒体であってもよい。
【0118】
【実施例】
図2に示す装置の具体的な動作を示す実施例として、実音場における音声明瞭度の予測結果を示す。
【0119】
この実施例では、被験者の正面から単音節の対象音、側方から妨害音となるホワイトノイズもしくは別の単音節を同時に提示して、対象音を答えるという実験を行った。明瞭度は被験者の正答率として表される。なお、妨害音の提示角度は、30°,60°,120°,180°とした。
【0120】
明瞭度を予測するため、対象音のみ提示した場合のACFファクタ及びIACFファクタをテンプレート(データベース)とし、上記実験条件での各ファクタとの距離を図2に示す装置で求めた。その結果(実測値)及び予測値を図8に示す。なお、予測値は、式(12)で距離Dを求める際に、正規化ACFの局所ピークの遅れ時間と振幅である、τ'k,φ'kをファクタとして含めない場合の値とした。
【0121】
図8の結果から、本実施例の実験結果は計算による予測値と非常に近いものとなっており(予測率r=0.86)、音場の空間情報を加えることで、実音場での人間の感覚を反映した認識が可能であることが判る。また、図2の装置を用いることにより、音場に強い妨害音が多く存在するような悪条件あっても、予測が可能であることが判る。
【0122】
【発明の効果】
以上説明したように、本発明によれば、音声信号のACF(自己相関関数)を求め、そのACFからACFの遅れ時間が0の値Φ(0)、ACFの第1ピークの遅れ時間τ1と振幅φ1、及びACFの有効継続時間τe を導出しているので、処理が複雑なスペクトル解析を行うことなく、聴感特性に対応する最小限のパラメータを使用して、音声の特徴を抽出することができる。しかも、それらACFファクタは音声認識に重要な情報を含んでいるので、音声認識を高い精度で行うことができる。
【0123】
さらに、本発明においては、音声信号のIACF(両耳間相互相関関数)を求め、そのIACFから、IACFの最大値IACC、IACFのピーク遅れ時間τIACC、及びIACFの最大振幅の幅WIACCを抽出しているので、これらIACFファクタつまり音場の空間情報を音声認識に加えることにより、実音場での人間の感覚を反映した高い精度の認識が可能になる。しかも、IACFの各ファクタを導入することにより、雑音に強い音声認識を実現できる。
【図面の簡単な説明】
【図1】聴覚機能モデルを示すブロック図である。
【図2】本発明の実施形態の構成を示すブロック図である。
【図3】本発明による音声特徴抽出音声認識を行う方法のフローチャートである。
【図4】ランニングACF及びIACFを計算する方法を説明する概念図である。
【図5】縦軸に正規化ACFの絶対値の対数、横軸に遅れ時間をとったグラフである。
【図6】縦軸に正規化ACF、横軸に遅れ時間をとったグラフである。
【図7】縦軸に正規化IACF、横軸に左右の信号の遅れ時間をとったグラフである。
【図8】実環境における音声明瞭度の予測結果である。
【符号の説明】
1 頭部模型
2 バイノーラルのマイクロフォン
3 ローパスフィルタ
4 A/Dコンバータ
5 コンピュータ
6 記憶装置
7 ACF演算部
8 IACF演算部
9 ACFファクタ抽出部
10 IACFファクタ抽出部
11 音声認識部
12 データベース
Claims (8)
- 音声信号の自己相関関数を求め、その自己相関関数から、自己相関関数の遅れ時間が0の値Φ(0)、自己相関関数の第1ピークの遅れ時間τ1と振幅φ1、及び自己相関関数の有効継続時間τeを抽出して音声認識に必要な音声特徴を抽出する音声特徴抽出方法にて抽出した、自己相関関数の遅れ時間が0の値Φ (0) 、自己相関関数の第1ピークの遅れ時間τ 1 と振幅φ 1 、及び自己相関関数の有効継続時間τ e の各データを、音声認識用のテンプレートと比較して音声を認識することを特徴とする音声認識方法。
- 前記自己相関関数の第1ピークまでの局所ピークを抽出し、その局所ピークを含めたデータを、テンプレートと比較して音声を認識する請求項1記載の音声認識方法。
- マイクロフォンと、マイクロフォンにて採取された音声信号の自己相関関数を求める演算手段と、その自己相関関数から、自己相関関数の遅れ時間が0の値Φ (0) 、自己相関関数の第1ピークの遅れ時間τ 1 と振幅φ 1 、及び自己相関関数の有効継続時間τ e を抽出する抽出手段とを備えた、音声認識に必要な音声特徴を抽出する音声特徴抽出装置と、
この音声特徴抽出装置にて抽出された、自己相関関数の遅れ時間が0の値Φ (0) 、自己相関関数の第1ピークの遅れ時間τ 1 と振幅φ 1 、及び自己相関関数の有効継続時間τ e の各データを、音声認識用のテンプレートと比較して音声を認識する認識手段とを備えている音声認識装置。 - 前記自己相関関数の第1ピークまでの局所ピークを抽出し、その局所ピークを含めたデータを、テンプレートと比較して音声を認識する請求項3記載の音声認識装置。
- バイノーラルで計測した音声信号の自己相関関数及び両耳間相互相関関数をそれぞれ求め、その自己相関関数及び両耳間相互相関関数から、自己相関関数の第1ピークの遅れ時間τ 1 と振幅φ 1 、自己相関関数の有効継続時間τ e 、両耳間相互相関関数の最大値IACC、両耳間相互相関関数のピーク遅れ時間τ IACC 、両耳間相互相関関数の最大振幅の幅W IACC 、及び、自己相関関数または両耳間相互相関関数の遅れ時間が0の値Φ (0) を抽出して、音声認識に必要な音声特徴を抽出する音声特徴抽出方法にて抽出した、自己相関関数の第1ピークの遅れ時間τ 1 と振幅φ 1 、自己相関関数の有効継続時間τ e 、両耳間相互相関関数の最大値IACC、両耳間相互相関関数のピーク遅れ時間τ IACC 、両耳間相互相関関数の最大振幅の幅W IACC 、及び、自己相関関数または両耳間相互相関関数の遅れ時間が0の値Φ (0) の各データを、音声認識用のテンプレートと比較して音声を認識することを特徴とする音声認識方法。
- 前記自己相関関数の第1ピークまでの局所ピークを抽出し、その局所ピークを含めたデータを、テンプレートと比較して音声を認識する請求項5記載の音声認識方法。
- バイノーラルのマイクロフォンと、マイクロフォンにて採取された音声信号の自己相関関数及び両耳間相互相関関数をそれぞれ求める演算手段と、その自己相関関数及び両耳間相互相関関数から、自己相関関数の第1ピークの遅れ時間τ 1 と振幅φ 1 、自己相関関数の有効継続時間τ e 、両耳間相互相関関数の最大値IACC、両耳間相互相関関数のピーク遅れ時間τ IACC 、両耳間相互相関関数の最大振幅の幅W IACC 、及び、自己相関関数または両耳間相互相関関数の遅れ時間が0の値Φ (0) を抽出する抽出手段とを備えた、音声認識に必要な音声特徴を抽出する音声特徴抽出装置と、
この音声特徴抽出装置にて抽出された、自己相関関数の第1ピークの遅れ時間τ 1 と振幅φ 1 、自己相関関数の有効継続時間τ e 、両耳間相互相関関数の最大値IACC、両耳間相互相関関数のピーク遅れ時間τ IACC 、両耳間相互相関関数の最大振幅の幅W IACC 、及び、自己相関関数または両耳間相互相関関数の遅れ時間が0の値Φ (0) の各データを、音声認識用のテンプレートと比較して音声を認識する認識手段とを備えている音声認識装置。 - 前記自己相関関数の第1ピークまでの局所ピークを抽出し、その局所ピークを含めたデータを、テンプレートと比較して音声を認識する請求項7記載の音 声認識装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001379860A JP4240878B2 (ja) | 2001-12-13 | 2001-12-13 | 音声認識方法及び音声認識装置 |
US10/496,673 US20050004792A1 (en) | 2001-12-13 | 2002-12-12 | Speech characteristic extraction method speech charateristic extraction device speech recognition method and speech recognition device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001379860A JP4240878B2 (ja) | 2001-12-13 | 2001-12-13 | 音声認識方法及び音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003177777A JP2003177777A (ja) | 2003-06-27 |
JP4240878B2 true JP4240878B2 (ja) | 2009-03-18 |
Family
ID=19187006
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001379860A Expired - Fee Related JP4240878B2 (ja) | 2001-12-13 | 2001-12-13 | 音声認識方法及び音声認識装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20050004792A1 (ja) |
JP (1) | JP4240878B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010031109A1 (en) * | 2008-09-19 | 2010-03-25 | Newsouth Innovations Pty Limited | Method of analysing an audio signal |
WO2013097239A1 (en) * | 2011-12-31 | 2013-07-04 | Thomson Licensing | Method and device for presenting content |
US9514738B2 (en) | 2012-11-13 | 2016-12-06 | Yoichi Ando | Method and device for recognizing speech |
US9679555B2 (en) | 2013-06-26 | 2017-06-13 | Qualcomm Incorporated | Systems and methods for measuring speech signal quality |
US9558757B1 (en) * | 2015-02-20 | 2017-01-31 | Amazon Technologies, Inc. | Selective de-reverberation using blind estimation of reverberation level |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5884261A (en) * | 1994-07-07 | 1999-03-16 | Apple Computer, Inc. | Method and apparatus for tone-sensitive acoustic modeling |
US6026357A (en) * | 1996-05-15 | 2000-02-15 | Advanced Micro Devices, Inc. | First formant location determination and removal from speech correlation information for pitch detection |
US6381569B1 (en) * | 1998-02-04 | 2002-04-30 | Qualcomm Incorporated | Noise-compensated speech recognition templates |
WO2004084176A1 (ja) * | 2000-08-15 | 2004-09-30 | Yoichi Ando | 音響評価方法およびそのシステム |
-
2001
- 2001-12-13 JP JP2001379860A patent/JP4240878B2/ja not_active Expired - Fee Related
-
2002
- 2002-12-12 US US10/496,673 patent/US20050004792A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
US20050004792A1 (en) | 2005-01-06 |
JP2003177777A (ja) | 2003-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Goehring et al. | Using recurrent neural networks to improve the perception of speech in non-stationary noise by people with cochlear implants | |
US20220159403A1 (en) | System and method for assisting selective hearing | |
JP6889698B2 (ja) | 音声を増幅する方法及び装置 | |
US11786171B2 (en) | Method and system for articulation evaluation by fusing acoustic features and articulatory movement features | |
Spille et al. | Comparing human and automatic speech recognition in simple and complex acoustic scenes | |
JP2003255993A (ja) | 音声認識システム、音声認識方法、音声認識プログラム、音声合成システム、音声合成方法、音声合成プログラム | |
US11668600B2 (en) | Device and method for adaptation of virtual 3D audio to a real room | |
CN107293286A (zh) | 一种基于网络配音游戏的语音样本收集方法 | |
Maruri et al. | V-speech: Noise-robust speech capturing glasses using vibration sensors | |
Hummersone | A psychoacoustic engineering approach to machine sound source separation in reverberant environments | |
EP2030195B1 (en) | Speech differentiation | |
US20230164509A1 (en) | System and method for headphone equalization and room adjustment for binaural playback in augmented reality | |
JP4240878B2 (ja) | 音声認識方法及び音声認識装置 | |
Zhang et al. | BASEN: Time-domain brain-assisted speech enhancement network with convolutional cross attention in multi-talker conditions | |
Patil et al. | Marathi speech intelligibility enhancement using i-ams based neuro-fuzzy classifier approach for hearing aid users | |
JP2004325127A (ja) | 音源検出方法、音源分離方法、およびこれらを実施する装置 | |
JP4098647B2 (ja) | 音響信号の残響除去方法、装置、及び音響信号の残響除去プログラム、そのプログラムを記録した記録媒体 | |
Mawalim et al. | Non-intrusive speech intelligibility prediction using an auditory periphery model with hearing loss | |
JP4381404B2 (ja) | 音声合成システム、音声合成方法、音声合成プログラム | |
Lopatka et al. | Improving listeners' experience for movie playback through enhancing dialogue clarity in soundtracks | |
JP3916834B2 (ja) | 雑音が付加された周期波形の基本周期あるいは基本周波数の抽出方法 | |
Giri et al. | Improving the intelligibility of dysarthric speech using a time domain pitch synchronous-based approach. | |
Li et al. | Towards Pitch-Insensitive Speaker Verification via Soundfield | |
CN115314824B (zh) | 用于助听器的信号处理方法、装置、电子设备及存储介质 | |
Gaballah et al. | Objective and subjective assessment of amplified parkinsonian speech quality |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070410 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081014 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081027 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20081125 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081222 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120109 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130109 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130109 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |