JPH10133688A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH10133688A
JPH10133688A JP8285532A JP28553296A JPH10133688A JP H10133688 A JPH10133688 A JP H10133688A JP 8285532 A JP8285532 A JP 8285532A JP 28553296 A JP28553296 A JP 28553296A JP H10133688 A JPH10133688 A JP H10133688A
Authority
JP
Japan
Prior art keywords
multiplexed
feature vector
standard pattern
time
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP8285532A
Other languages
English (en)
Other versions
JP3039623B2 (ja
Inventor
啓三郎 ▲高▼木
Keizaburo Takagi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP8285532A priority Critical patent/JP3039623B2/ja
Priority to DE69715343T priority patent/DE69715343T2/de
Priority to EP97118635A priority patent/EP0838803B1/en
Priority to US08/959,465 priority patent/US5953699A/en
Publication of JPH10133688A publication Critical patent/JPH10133688A/ja
Application granted granted Critical
Publication of JP3039623B2 publication Critical patent/JP3039623B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】 【課題】 自己の送出したガイダンス音声だけでなく相
手話者の周囲の雑音をも除去し、高性能な音声および雑
音の除去装置と、音声認識装置を提供することにある。 【解決手段】 入力音声の各時刻の特徴を特徴ベクトル
の時系列として出力する分析部11と、標準話者音声の
各時刻の特徴を予め複数の異なった特徴ベクトルに変換
し、多重化特徴ベクトルの時系列として蓄積した多重化
標準パタン12と、入力音声の特徴ベクトルの時系列と
多重化標準パタン12の複数の特徴ベクトルの時系列と
のマッチングにおける各時刻の類似度または距離値が、
多重化標準パタン12の多重化特徴ベクトルのうちの2
点を結ぶ線分と入力音声の特徴ベクトルとの間で計算さ
れるマッチング部13とで構成される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識装置に関
し、特に各時刻の特徴ベクトルの可動範囲を線分で近似
し、この範囲のあらゆる組み合わせの中で最適な組合せ
を距離値とするような距離計算方法を実施できる音声認
識装置に関するものである。
【0002】
【従来の技術】従来、音声認識におけるマッチング方法
は、入力音声を1種類の特徴ベクトルの時系列に変換
し、これと予め同様の方法で標準音声を分析し1種類の
特徴ベクトルに変換して蓄積した標準パタンとの間で、
DPマッチングなどの時間軸方向の非線形伸縮を許容し
たマッチング方法を用いて距離計算し、最も距離が最小
となる標準パタンのカテゴリを認識結果として出力する
ような方法が用いられてきた。すなわち、マッチングの
各時刻においては入力音声の特徴ベクトルと標準パタン
の特徴ベクトルとの間の1対1の距離または類似度を用
いて計算されていた。
【0003】しかしこの方式においては、同一発声内容
であっても異なる話者の場合には音声の特徴は大きく異
なる場合が多く、標準話者とは異なる話者の音声に対し
ては高い性能が得られなかった。さらに同一話者の音声
であっても体調や心理的要因などにより音声の特徴が変
化し、安定な性能を得ることが出来なかった。この問題
点に対処するため、従来よりいわゆるマルチテンプレー
トと呼ばれる方法が採用されてきた。マルチテンプレー
トは、標準パタンを作成するために複数の標準話者音声
を用いて複数の特徴ベクトルに変換し、これを用いて標
準パタンの各時刻の特徴を複数の特徴ベクトルで表現す
るように構成する。距離計算時は、各時刻において1つ
の入力の特徴ベクトルと複数の標準パタンの特徴ベクト
ルとの間の全ての組み合わせについて距離または類似度
を求め、そのなかから最適なものを一つ採用する、いわ
ゆるビタビアルゴリズムや、あるいは全ての距離または
類似度間の重み付け和で表す、いわゆるBaum−We
lchアルゴリズムやsemi−continuous
(半連続)方式などで行なっていた。
【0004】
【発明が解決しようとする課題】しかしながら、従来の
音声認識における距離計算方法は、例えマルチテンプレ
ートであっても、音声の異なりを空間上の離散的な点で
のみ表現し、距離または類似度はその点に対する有限個
の組合せのなかからのみ計算しており、連続的に変化す
るような事象に対しては、その全ての事象を表現するに
は充分でない場合が多く、高い認識性能が得られなかっ
た。このような事象の例として、例えば、十分大きな周
囲雑音が存在するなかで行なう音声認識が挙げられる。
周囲雑音が存在すると入力音声のスペクトルにおいては
雑音のスペクトルが加法的に加わり、しかもそのレベル
は音声の各時刻において異なっており、事前に予測する
ことが出来ない。例えば、従来、この問題点に対して標
準パタン音声を有限個の数種類のSNR(音声対雑音
比)で作成し、SNR条件が異なるマルチテンプレート
で音声認識を行なう方式が公知となっている。
【0005】しかし、入力音声のSNRはそもそも無限
の組み合わせが存在し、また事前に予測することが困難
であるため、有限個のテンプレートで対処することは原
理的に不可能である。また、連続的な変化を十分多くの
離散点で表現し、近似的に無視できるほど精度を高める
ことは一見可能であるように思われるが、例えばSNR
条件において、あらゆる雑音環境下で、全てのSNRを
覆い尽くす程多量の音声を多数話者で収集することはデ
ータ収集のコストの観点から実用上不可能である。ま
た、可能であったとしても、連続的な事象を多くの点で
表現するのに要するメモリ量、距離計算量は膨大であ
り、引いては廉価な装置を提供することが出来ない。
【0006】この他音声の特徴が連続的に変化する事象
の例としては、雑音下で発声された音声自体、話者が雑
音を聞くことによって変形するいわゆるLombard
効果や、極めて多数の話者の音声に対する特徴の変化な
どが挙げられる。
【0007】本発明の目的は、音声の特徴が各時刻にお
いて連続的に変化する事象に対して、その変化の範囲を
2つの両端のベクトルの組で記述し、2つのベクトルで
規定される線分に対して、この線分内を自由に動けるベ
クトルを用いて距離計算を行なうことができ、従来にな
い高性能な音声認識装置を実現することができる音声認
識装置を提供することにある。
【0008】また本発明の第2の目的は上記した高性能
な装置を廉価に提供することにある。
【0009】ところで、この線分内を自由に動けるベク
トルを用いて距離計算を行なう方式に関しては特願昭5
6−210200号公報に開示されており、特公平1−
28960号公報には上記距離計算を行なう方式の具体
的な利用方法が示されている。上記した2つの公知例の
目的は、時間方向に離散的な表現された特徴ベクトルに
関する距離計算を高精度に行なうことにあり、本発明の
目的と同じである。ただ、同一時刻において連続的に変
化する事象に対処するという点で本発明と上記した2つ
の公知例とは本質的に異なっており、また構成も異なる
ものとなっている。
【0010】
【課題を解決するための手段】本発明による第1の音声
認識装置は、入力音声の各時刻の特徴を特徴ベクトルの
時系列として出力する分析部(図1の11)と、標準話
者音声の各時刻の特徴を予め複数の異なった特徴ベクト
ルに変換し、多重化特徴ベクトルの時系列として蓄積し
た多重化標準パタン(図1の12)と、入力音声の特徴
ベクトルの時系列と多重化標準パタンの複数の特徴ベク
トルの時系列とのマッチングにおける各時刻の類似度ま
たは距離値が、多重化標準パタンの多重化特徴ベクトル
のうちの2点を結ぶ線分と入力音声の特徴ベクトルとの
間で計算されるマッチング部(図1の13)とで構成さ
れる。
【0011】本発明による第2の音声認識装置は、入力
音声の各時刻の特徴を複数の異なった特徴ベクトルに変
換し、多重化特徴ベクトルの時系列として出力する多重
化分析部(図2の21)と、標準話者音声を予め特徴ベ
クトルの時系列に変換して蓄積した標準パタン(図2の
22)と、入力音声の多重化特徴ベクトルの時系列と標
準パタンの特徴ベクトルの時系列とのマッチングにおけ
る各時刻の類似度または距離値が、入力音声の多重化特
徴ベクトルのうちの2点を結ぶ線分と標準パタンの特徴
ベクトルとの間で計算されるマッチング部(図2の2
3)とで構成される。
【0012】本発明による第3の音声認識装置は、本発
明による第1または第2の音声認識装置の入力音声の多
重化特徴ベクトルまたは多重化標準パタンの多重化特徴
ベクトルが、異なったレベルの雑音を付加することによ
り生成されるような構成となる。
【0013】本発明による第4の音声認識装置は、本発
明による第2の音声認識装置に加えて入力音声をスペク
トルに変換した後にスペクトルサブトラクションを行な
うスペクトルサブトラクション部(図3の30)を有
し、多重化分析部(図3の31)はスペクトルサブトラ
クション部が出力するスペクトルに異なったレベルの白
色雑音を付加することにより、入力音声の多重化特徴ベ
クトルを生成するような構成となる。
【0014】本発明による第5の音声認識装置は、本発
明による第2の音声認識装置に加えて入力音声をスペク
トルに変換した後にスペクトルサブトラクションを行な
うスペクトルサブトラクション部を有し、多重化分析部
はスペクトルサブトラクション部が出力するスペクトル
に対して異なったレベルの底上値(flooringv
alue)を用いることにより、入力音声の多重化特徴
ベクトルを生成するような構成となる。
【0015】本発明による第6の音声認識装置は、入力
音声の各時刻の特徴を特徴ベクトルの時系列として出力
する分析部(図4の41)と、入力音声から周囲雑音を
抽出する雑音抽出部(図4の42)と、標準話者音声を
予め特徴ベクトルの時系列に変換して蓄積した標準パタ
ン(図4の43)と、雑音抽出部が抽出した雑音のレベ
ルを変化させて、標準パタンに加えることにより複数の
異なった特徴ベクトルを生成し、多重化標準パタン(図
4の45)として蓄積する標準パタン変換部(図4の4
4)と、入力音声の特徴ベクトルの時系列と多重化標準
パタンの複数の特徴ベクトルの時系列とのマッチングに
おける各時刻の類似度または距離値が、多重化標準パタ
ンの多重化特徴ベクトルのうちの2点を結ぶ線分と入力
音声の特徴ベクトルとの間で計算されるマッチング部
(図4の46)とで構成される。
【0016】本発明による第7の音声認識装置は、本発
明による第1〜6の音声認識装置のマッチング部におけ
る各時刻の類似度または距離値が、1つのベクトル(図
5のX)と2つの両端点ベクトル(図5のY1 、Y2 )
で表される線分との間で求められ、1つのベクトルから
当該線分に対して垂線が下ろせる場合はその垂線の長さ
を用いて類似度または距離値を計算し、垂線が下ろせな
い場合は1つのベクトルから線分の両端点への長さのう
ち短い方を用いて類似度または距離値を計算するような
構成となる。
【0017】
【作用】本発明は、従来の方式が有していた問題点、す
なわち標準パタンまたは入力音声の各時刻の特徴がパタ
ン空間上の離散的な点の集合でしか表すことができず、
連続的に変化する事象を表現することが出来ないため、
高い性能を得られない場合があるという問題点を解決す
るものである。すなわち、本発明は、入力音声または標
準パタンの各時刻の特徴をパタン空間上の両端を持った
線分として表現し、マッチング時には、点と線分との間
で距離計算を行なうようにしたもので、その効果として
各時刻において連続的に変化する事象を充分高い精度で
取り扱うことが出来、高い音声認識性能を得るものであ
る。以下、本発明の作用を本発明の第1の音声認識装置
を例にとり説明する。
【0018】本発明の第1の音声認識装置は、従来のマ
ルチテンプレート方式が標準パタンの各時刻の特徴を離
散的な点の集合で表現していたものを、パタン空間上の
両端点で規定される線分または線分の集合で表現するも
のである。すなわち、図1において、分析部11は、入
力音声の各時刻の特徴を特徴ベクトルの時系列として出
力する。この分析方法はこれまで種々の方法が公知とな
っており、その全てを説明することは行なわないが、音
声の特徴ベクトルを出力するものであればどのような方
式も用いることができる。一方、標準話者音声は、分析
部11と同様の分析方法で分析されるが、各時刻の特徴
が変化し得る範囲の両端点またはその集合となるような
分析を行なう。例えば周囲雑音を例に説明すると、入力
音声に起こり得るSNRを例えば、0dB〜40dBの
範囲で定め、両端としてSNRが0dBの場合とSNR
が40dBの場合の2種類の音声を特徴ベクトルに変換
し、これを多重化標準パタン12として蓄積する。この
例では1組の両端点で表現したが、例えば、0dB〜4
0dBの範囲を4分割し、4つの両端点の組で表現する
ことももちろん可能である。1組の場合、多重化標準パ
タン12の両端点の多重化特徴ベクトルの時系列をY1
(j) 、Y2 (j) (j=0,1,…,J)とし、入力音声
の特徴ベクトルの時系列をX(i)(i=0,1,…,I)
とする。マッチング部13は、長さの異なる2種類のパ
タンの間で時間方向の非線形伸縮を行なうようなマッチ
ングを行なう。このマッチングを行なうアルゴリズムと
しては、例えばDPマッチングやHMMなどが挙げられ
る。このアルゴリズムのいずれの方法においても入力と
標準パタンのそれぞれの時間方向で規定される2次元格
子上の格子点距離を求めることが必要となる。今、ある
格子点(i,j)における距離計算を考える。ここでベ
クトルX(i) と空間上の両端点Y1 (j) 、Y2 (j) で表
される線分との距離を求めるが、上記従来技術に用いら
れた方式と同様に、まず以下の数1に示す3式から3点
間の距離を求める。
【0019】
【数1】 ここでd(V,W)は、2点V、W間の2乗距離を求め
る操作を表すものとする。次に、以下の数2に示すよう
にこの距離を基に、X(i) から線分(Y1 (j) 、Y
2 (j) )に垂線が下ろせる場合の2乗距離Zを計算す
る。
【0020】
【数2】 最終的な2乗距離Dは、以下の表1に示すように垂線が
下ろせる場合と下ろせない場合の大小関係により決定さ
れる。
【0021】
【表1】 このような距離計算方法を用いることで、例えば0dB
〜40dBの間の中間的なSNRの入力音声に対しても
常に最適な標準パタンが連続的な意味で選択されるた
め、精度の高い距離計算が可能であり、引いては高性能
な音声認識装置の提供が可能となる。
【0022】
【発明の実施の形態】以下、図1から図5を参照しなが
ら本発明の実施の形態について説明する。最初に本発明
の第1の実施の形態について図1を参照して説明する。
図1は本発明の第1の実施の形態における音声認識装置
の構成を示すブロック図である。この音声認識装置は、
入力音声の各時刻の特徴を特徴ベクトルの時系列として
出力する分析部11と、標準話者音声の各時刻の特徴を
予め複数の異なった特徴ベクトルに変換し、多重化特徴
ベクトルの時系列として蓄積した多重化標準パタン12
と、入力音声の特徴ベクトルの時系列と多重化標準パタ
ン12の複数の特徴ベクトルの時系列とのマッチングに
おける各時刻の類似度または距離値が、多重化標準パタ
ン12の多重化特徴ベクトルのうちの2点を結ぶ線分と
入力音声の特徴ベクトルとの間で計算されるマッチング
部13とで構成される。
【0023】この音声認識装置は、従来のマルチテンプ
レート方式が標準パタンの各時刻の特徴を離散的な点の
集合で表現していたものを、パタン空間上の両端点で規
定される線分または線分の集合で表現するものである。
分析部11は、入力音声の各時刻の特徴を特徴ベクトル
の時系列として出力する。この分析方法はこれまで種々
の方法が公知となっており、その全てを説明することは
行なわないが、音声の特徴ベクトルを出力するものであ
ればどのような方式も用いることができる。一方、標準
話者音声は、分析部11と同様の分析方法で分析される
が、各時刻の特徴が変化し得る範囲の両端点またはその
集合となるような分析を行なう。例えば周囲雑音レベル
の場合を一例として説明すると、入力音声に起こり得る
SNRを例えば、0dB〜40dBの範囲で定め、両端
としてSNRが0dBの場合とSNRが40dBの場合
の2種類の音声を特徴ベクトルに変換し、これを多重化
標準パタン12として蓄積する。この他、各時刻の特徴
が連続的に変化する事象として種々のものが考えられ
る。その例として、高騒音下において話者自身の発声が
変化する現象(いわゆるLombard効果)、多数話
者で構成された音響空間上の変化などが挙げられる。こ
の例では1組の両端点で表現した場合を示したが、例え
ば、0dB〜40dBの範囲を4分割し、4つの両端点
の組またはそれらを接続して折れ線近似で表現すること
ももちろん可能である。またここでは標準パタンとして
特徴ベクトルそのものを用いる場合を示すが、HMMな
どのように平均ベクトルとその分散などで表現しても良
い。多重化標準パタン12の両端点の多重化特徴ベクト
ルの時系列を例えば1組で表現する場合、その両端点ベ
クトルの時系列をY1 (j) 、Y2 (j) (j=0,1,
…,J)として記憶する。マッチング部13は、長さの
異なる2種類のパタンの間で時間方向の非線形伸縮を行
なうようなマッチングを行なう。このマッチングを行な
うアルゴリズムとしては、例えばDPマッチングやHM
Mなどが挙げられる。このアルゴリズムのいずれの方法
においても入力と標準パタンのそれぞれの時間方向で規
定される2次元格子上の格子点距離を求めることが必要
となる。各格子点(i,j)において、類似度または距
離値が、多重化標準パタンの多重化特徴ベクトルのうち
の2点を結ぶ線分と入力音声の特徴ベクトルとの間で計
算される。特徴ベクトルの多重化はベクトル全体に対し
て行なっても良いし、または一部のみについて行なうこ
とももちろん可能である。マッチング部13は最終的に
累積の類似度が最大または距離が最小となる標準パタン
のカテゴリあるいはカテゴリ列を認識結果と出力する。
【0024】次に、本発明の第2の実施の形態における
音声認識装置ついて図2を参照して説明する。図2は本
発明の第2の実施の形態における音声認識装置の構成を
示すブロック図である。この音声認識装置は、入力音声
の各時刻の特徴を複数の異なった特徴ベクトルに変換
し、多重化特徴ベクトルの時系列として出力する多重化
分析部21と、標準話者音声を予め特徴ベクトルの時系
列に変換して蓄積した標準パタン22と、入力音声の多
重化特徴ベクトルの時系列と標準パタン22の特徴ベク
トルの時系列とのマッチングにおける各時刻の類似度ま
たは距離値が、入力音声の多重化特徴ベクトルのうちの
2点を結ぶ線分と標準パタン22の特徴ベクトルとの間
で計算されるマッチング部23とで構成される。
【0025】この音声認識装置は、従来入力音声が1種
類の時系列特徴ベクトルとして各時刻において空間上の
1点で表現していたものを各時刻で起こり得る変化の両
端点で規定される線分またはその集合で表現し、音声認
識を行なうものである。多重化分析部21は、入力音声
の各時刻の特徴を両端点あるいはその集合で表現し多重
化特徴ベクトルの時系列として出力する。分析方法につ
いては、音声の特徴ベクトルを出力するものであればど
のような方式も用いることができる。一方、標準話者音
声は、分析部21と同様の分析方法で分析されるが、多
重化は行なわれておらず、従来用いられてきたDPマッ
チングのための標準パタンやHMMのための標準パタン
等で構成される。
【0026】次に、本発明の第3の実施の形態における
音声認識装置について説明する。この音声認識装置は、
上記した第1又は第2の実施の形態における音声認識装
置の入力音声の多重化特徴ベクトルまたは多重化標準パ
タンの多重化特徴ベクトルが、異なったレベルの雑音を
付加することにより生成されるような構成となってい
る。
【0027】入力音声の多重化の例としては、本実施の
形態における音声認識装置で実現されているように連続
的に変化する付加雑音レベルが挙げられる。これは入力
音声は真の(雑音に汚辱されていない)音声にレベル未
知のホワイトノイズが加わっているという仮定を利用
し、多重化分析部21では逆に入力音声から上限と下限
を定めたホワイトノイズを引き、空間上の両端点で表現
することができる。いま、入力音声のスペクトルの時系
列をy(j) とするとき、差し引くホワイトノイズレベル
の両端で生成される特徴ベクトルの時系列をY1 (j) 、
2 (j) は、例えば以下の数3に示すように生成する。
【0028】
【数3】 ここで、C{.}はスペクトルを最終的な特徴ベクトル
に変換するための関数であり、w1 ,w2 はホワイトノ
イズレベルの上限と下限である。このようになすこと
で、入力音声のホワイトノイズレベルが未知であって
も、規定された範囲内であれば、正しく除去されてる1
点が含まれていることになる。ここでは、ホワイトノイ
ズを例に説明したが、この他入力の音声のない位置で求
めた雑音を用いても良い。また、多重化特徴ベクトルと
して1対の場合を説明したが、複数対で表現しても良
い。マッチング部23は、長さの異なる2種類のパタン
の間で時間方向の非線形伸縮を行なうようなマッチング
を行なう。このマッチングを行なうアルゴリズムとして
は、例えばDPマッチングやHMMなどが挙げられる。
このアルゴリズムのいずれの方法においても入力と標準
パタンのそれぞれの時間方向で規定される2次元格子上
の格子点距離を求めることが必要となる。各格子点
(i,j)において、類似度または距離値が、入力音声
の多重化特徴ベクトルのうちの2点を結ぶ線分と標準パ
タン22の特徴ベクトルとの間で計算される。マッチン
グ部23は最終的に累積の類似度が最大または距離が最
小となる標準パタンのカテゴリあるいはカテゴリ列を認
識結果と出力する。
【0029】次に、本発明の第4及び第5の実施の形態
について図3を参照して説明する。図3は本発明の第4
及び第5の音声認識装置の実施の形態を示すブロック図
である。この音声認識装置は、上記した第2の実施の形
態(図2参照)における音声認識装置の構成に加えて入
力音声をスペクトルに変換した後にスペクトルサブトラ
クションを行なうスペクトルサブトラクション部30を
有する。多重化分析部31は、第4の実施の形態におけ
る音声認識装置を構成する場合にはスペクトルサブトラ
クション部30が出力するスペクトルに異なったレベル
の白色雑音を付加することにより、入力音声の多重化特
徴ベクトルを生成するような構成となっている。
【0030】第5の実施の形態における音声認識装置を
構成する場合にはスペクトルサブトラクション部30が
出力するスペクトルに対して異なったレベルの底上値
(flooring valuc)を用いることによ
り、入力音声の多重化特徴ベクトルを生成するような構
成となっている。
【0031】スペクトルサブトラクション部30は、以
下の数4に示すように入力音声のスペクトル時系列y
(j) から推定した周囲雑音のスペクトルnを差し引い
て、雑音除去後のスペクトルy′(j) を生成する。
【0032】
【数4】 周囲雑音nの推定はこれまで種々の方法が提案されてお
り、ここで全てを説明することは行なわないが、例え
ば、音声検出と連動して、発声の直前の部分の平均スペ
クトルを用いる方法や音声検出には関係なく時定数が充
分大きな回帰平均を用いる方法なとがある。この他、ス
ペクトルサブトラクションに用いることの可能な方法で
あればどのような方法でも用いることができる。多重化
分析部31は、上記した第4の実施の形態における音声
認識装置を構成する場合にはスペクトルサブトラクショ
ン部30が出力するスペクトルに異なったレベルの白色
雑音を付加することにより、入力音声の多重化特徴ベク
トルを生成する。すなわち、スペクトルサブトラクショ
ン後のスペクトルy′(t) は、負になるコンポーネント
を含んでおり、特徴ベクトルにケプストラムや対数スペ
クトルを用いる場合には、対数の入力値の制限として正
の実数に変換する操作が必要となる。この操作の一例と
して、以下の数5に示すような操作を行う。
【0033】
【数5】 Clip [.]は、予め定められた0または正の値以下の
コンポーネントをその値に置換する操作を表し、θは付
加ホワイトノイズである。θを加える目的は、特徴ベク
トルへの変換のために行なわれる対数の動作点を調整す
るためのものである。例えば、θが大きな値をとると動
作点が大きくなり、対数化後のパタンの凹凸が小さくな
るが、逆に小さいと凹凸が大きくなるという効果を有す
る。この効果を用いれば、雑音のように音声認識に必要
ない部位は動作点を大きくとり、すなわち対数化後のパ
タンの凹凸を小さくすることで雑音を抑圧し、音声の場
合はなるべく特徴が現れやすいように対数化後のパタン
の凹凸を大きく(動作点を小さく)することが有効であ
る。しかし、この処理を行なう時点では入力音声が雑音
であるか音声であるかは決定できず、例え出来たとして
も完全には行なえないため、本発明ではこのような不確
定な決定を用いず、抑圧を最も大きくした場合と最も小
さくした場合の両端点を多重化特徴ベクトルで表現し、
マッチング時に最適な抑圧量を決定する。すなわち、抑
圧が最大となるθ1 と最小となるθ2を用い、多重化の
ための2種類のスペクトルを以下の数6、数7に示すよ
うに求める。このスペクトルを用いて最終的な多重化特
徴ベクトルに変換する。
【0034】
【数6】
【0035】
【数7】 一方、多重化分析部31が、上記した第5の実施の形態
における音声認識装置を構成する場合にはスペクトルサ
ブトラクション部30が出力するスペクトルに対して異
なったレベルの底上値(flooring valu
e)を用いることにより、入力音声の多重化特徴ベクト
ルを生成する。すなわち、スペクトルサブトラクション
後のスペクトルy′(t) は、負になるコンポーネントを
含んでおり、特徴ベクトルにケプストラムや対数スペク
トルを用いる場合には、対数の入力値の制限として正の
実数に変換する操作が必要となる。この操作の一例とし
て、例えばM.Berouti,R.Schwart
z,and J Makhoul:“Enhancem
ent of Speech Corrupted b
y Acoustic Noise”,ICASSP,
pp.208−211 (1979).(以下引用文献
[2]とする)に述べられている方法では、以下の数8
に示すように各コンポーネントk毎に最低値βnk を定
め、この値以下のコンポーネントは全て最低値に置換す
る、いわゆる底上げを行なっている。
【0036】
【数8】 ただし、kはスペクトルのコンポーネントを示す添字、
nは推定した雑音のスペクトル、βは1より充分小さい
定数とする。このような処理を行なうことで対数の入力
値として正のものが与えられ、計算不能となることを防
ぐことができるが、同時にβの大小によることにより対
数化後のスペクトルの凹凸が変化し、その決定が困難と
なる。この問題は本発明の第4の音声認識装置が解決し
た問題と本質的に同一の問題であり、βの最適値は雑音
部分であるか音声部分であるかによって変化し、また音
声全体のSNRによっても変化するため、この処理の際
に一意には決定できない。そこで、抑圧が最大となるβ
1 と最小となるβ2 を用い、多重化のための2種類のス
ペクトルを以下の数9、数10に示すように求める。
【0037】
【数9】
【0038】
【数10】 このスペクトルを用いて最終的な多重化特徴ベクトルに
変換する。ここでは底上げ方法として引用文献[2]に
述べられている方法を示したが、以下の数11に示すよ
うな方法も可能であり、この他スペクトルサブトラクシ
ョン処理に用いられる方法であればどのような方法も用
いることができる。
【0039】
【数11】 次に、本発明の第6の実施の形態における音声認識装置
について図4を参照して説明する。図4は本発明の第6
の実施の形態における音声認識装置の構成を示すブロッ
ク図である。この音声認識装置は、入力音声の各時刻の
特徴を特徴ベクトルの時系列として出力する分析部41
と、入力音声から周囲雑音を抽出する雑音抽出部42
と、標準話者音声を予め特徴ベクトルの時系列に変換し
て蓄積した標準パタン43と、雑音抽出部42が抽出し
た雑音のレベルを変化させて、標準パタンに加えること
により複数の異なった特徴ベクトルを生成し、多重化標
準パタン45として蓄積する標準パタン変換部44と、
入力音声の特徴ベクトルの時系列と多重化標準パタン4
5の複数の特徴ベクトルの時系列とのマッチングにおけ
る各時刻の類似度または距離値が、多重化標準パタン4
5の多重化特徴ベクトルのうちの2点を結ぶ線分と入力
音声の特徴ベクトルとの間で計算されるマッチング部4
6とで構成される。
【0040】この音声認識装置は、入力音声から例えば
発声の直前のスペクトル形状から雑音を推定し、その雑
音を用いて標準パタンを入力と同一の雑音環境なるよう
に変換し、認識を行なう方法である。雑音推定時は音声
と雑音との大きさの相対関係(すなわちSNR)が不明
であるため標準パタンのSNRを一意に決定することが
出来ない。そのため、標準パタン43をSNRにおいて
最大値と最小値の両端点で規定される多重化特徴ベクト
ルで記述する。いま、入力音声の例えば発声直前で求め
た雑音のスペクトルをnとすると、標準パタン変換部4
4は、標準パタン42のスペクトルの時系列y(j) を両
端点のSNRに相当する係数α1 とα2を用いて、以下
の数12、数13に示すように多重化標準パタンのスペ
クトルy′1 (j) 、y′2 (j) に変換する。
【0041】
【数12】
【0042】
【数13】 この多重化スペクトル時系列を最終的な特徴ベクトルの
時系列に変換して多重化標準パタン45として蓄積し、
マッチングを行なう。
【0043】次に、本発明の第7の実施の形態における
音声認識装置について図5を参照して説明する。図5は
本発明の音声認識装置におけるマッチング部の原理を示
す図である。本実施の形態における音声認識装置は、本
発明による上記した第1〜第6の実施の形態における音
声認識装置のマッチング部における各時刻の類似度また
は距離値が、1つのベクトル(図5のX)と2つの両端
点ベクトル(図5のY1 、Y2 )で表される線分との間
で求められ、1つのベクトルから当該線分に対して垂線
が下ろせる場合はその垂線の長さを用いて類似度または
距離値を計算し、垂線が下ろせない場合は1つのベクト
ルから線分の両端点への長さのうち短い方を用いて類似
度または距離値を計算するような構成となる。
【0044】具体的には、ベクトルX(i) と空間上の両
端点Y1 (j) 、Y2 (j) で表される線分との距離を求め
るが、まず上記した従来技術に用いられた方式と同様
に、以下の数14に示す式から3点間の距離を求める。
【0045】
【数14】 ここで、d(V,W)は、2点V、W間の2乗距離を求
める操作を表すものとする。次に、以下の数15に示す
ようにこの距離を基に、X(i) から線分(Y1(j) ,Y
2 (j) )に垂線が下ろせる場合(図5の左)の2乗距離
Zを計算する。
【0046】
【数15】 最終的な2乗距離Dは、以下の表2に示すように垂線が
下ろせる場合と下ろせない場合(図5の右)に相当する
以下のような大小関係により決定される。
【0047】
【表2】
【0048】
【発明の効果】以上から明らかなように、本発明によれ
ば、各時刻において連続的に変化するような事象をパタ
ン空間上の両端点で規定される線分または線分の集合で
表現し、距離計算時にはベクトルと線分との間で最適と
なる距離または尤度を計算することにより、高性能な音
声認識装置を提供することが可能となった。
【0049】また、従来の方法におけるマルチテンプレ
ート方式では変化の範囲を充分広く表現するためには多
くのサンプル点が必要となり、これに要するメモリ量、
距離計算量が膨大となり、廉価な装置を提供出きなかっ
た(例えば各時刻において10個のサンプル点で表現し
た場合には10回の距離計算と10点分のメモリが必要
となる)ものが、本発明によれば、1つの線分とベクト
ルとの距離計算に掛かる計算量は3回の距離計算で、メ
モリ量は2点分であり、より低価格な装置の提供が可能
となる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態における音声認識装
置の構成を示すブロック図である。
【図2】本発明の第2の実施の形態における音声認識装
置の構成を示すブロック図である。
【図3】本発明の第4及び第5の実施の形態における音
声認識装置の構成を示すブロック図である。
【図4】本発明の第6の実施の形態における音声認識装
置の構成を示すブロック図である。
【図5】本発明に係る音声認識装置の距離計算の原理を
示す図である。
【符号の説明】
11,41 分析部 12,45 多重化標準パタン 13,23,33,46 マッチング部 21,31 多重化分析部 22,32,43 標準パタン 30 スペクトルサブトラクション部 42 雑音抽出部 44 標準パタン変換部 Y1 ,Y2 両端点特徴ベクトル X 特徴ベクトル

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 入力音声の各時刻の特徴を特徴ベクトル
    の時系列として出力する分析部と、標準話者音声の各時
    刻の特徴を予め複数の異なった特徴ベクトルに変換し、
    多重化特徴ベクトルの時系列として蓄積した多重化標準
    パタンと、前記入力音声の特徴ベクトルの時系列と前記
    多重化標準パタンの複数の特徴ベクトルの時系列とのマ
    ッチングにおける各時刻の類似度または距離値が、前記
    多重化標準パタンの多重化特徴ベクトルのうちの2点を
    結ぶ線分と入力音声の特徴ベクトルとの間で計算される
    マッチング部を具備して構成されたことを特徴とする音
    声認識装置。
  2. 【請求項2】 入力音声の各時刻の特徴を複数の異なっ
    た特徴ベクトルに変換し、多重化特徴ベクトルの時系列
    として出力する多重化分析部と、標準話者音声を予め特
    徴ベクトルの時系列に変換して蓄積した標準パタンと、
    前記入力音声の多重化特徴ベクトルの時系列と前記標準
    パタンの特徴ベクトルの時系列とのマッチングにおける
    各時刻の類似度または距離値が、入力音声の多重化特徴
    ベクトルのうちの2点を結ぶ線分と標準パタンの特徴ベ
    クトルとの間で計算されるマッチング部を具備して構成
    されたことを特徴とする音声認識装置。
  3. 【請求項3】 前記入力音声の多重化特徴ベクトルまた
    は前記多重化標準パタンの多重化特徴ベクトルが、異な
    ったレベルの雑音を付加することにより生成されること
    を特徴とする請求項1または2記載の音声認識装置。
  4. 【請求項4】 前記入力音声をスペクトルに変換した後
    にスペクトルサブトラクションを行なうスペクトルサブ
    トラクション部を有し、前記多重化分析部は前記スペク
    トルサブトラクション部が出力するスペクトルに異なっ
    たレベルの白色雑音を付加することにより、前記入力音
    声の多重化特徴ベクトルを生成することを特徴とする請
    求項2記載の音声認識装置。
  5. 【請求項5】 前記入力音声をスペクトルに変換した後
    にスペクトルサブトラクションを行なうスペクトルサブ
    トラクション部を有し、前記多重化分析部は前記スペク
    トルサブトラクション部が出力するスペクトルに対して
    異なったレベルの底上値(flooring valu
    e)を用いることにより、前記入力音声の多重化特徴ベ
    クトルを生成することを特徴とする請求項2記載の音声
    認識装置。
  6. 【請求項6】 入力音声の各時刻の特徴を特徴ベクトル
    の時系列として出力する分析部と、前記入力音声から周
    囲雑音を抽出する雑音抽出部と、標準話者音声を予め特
    徴ベクトルの時系列に変換して蓄積した標準パタンと、
    前記雑音抽出部が抽出した雑音のレベルを変化させて、
    前記標準パタンに加えることにより複数の異なった特徴
    ベクトルを生成し、多重化標準パタンとして蓄積する標
    準パタン変換部と、前記入力音声の特徴ベクトルの時系
    列と前記多重化標準パタンの複数の特徴ベクトルの時系
    列とのマッチングにおける各時刻の類似度または距離値
    が、前記多重化標準パタンの多重化特徴ベクトルのうち
    の2点を結ぶ線分と入力音声の特徴ベクトルとの間で計
    算されるマッチング部を具備して構成されたことを特徴
    とする音声認識装置。
  7. 【請求項7】 前記マッチング部における各時刻の類似
    度または距離値が、1つのベクトルと2つの両端点ベク
    トルで表される線分との間で求められ、当該1つのベク
    トルから当該線分に対して垂線が下ろせる場合はその垂
    線の長さを用いて類似度または距離値を計算し、垂線が
    下ろせない場合は当該1つのベクトルから当該線分の両
    端点への長さのうち短い方を用いて類似度または距離値
    を計算することを特徴とする請求項1乃至6のいずれか
    一つに記載の音声認識装置。
JP8285532A 1996-10-28 1996-10-28 音声認識装置 Expired - Lifetime JP3039623B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP8285532A JP3039623B2 (ja) 1996-10-28 1996-10-28 音声認識装置
DE69715343T DE69715343T2 (de) 1996-10-28 1997-10-27 Abstandsberechung zur Verwendung in einem Spracherkenner
EP97118635A EP0838803B1 (en) 1996-10-28 1997-10-27 Distance calculation for use in a speech recognition apparatus
US08/959,465 US5953699A (en) 1996-10-28 1997-10-28 Speech recognition using distance between feature vector of one sequence and line segment connecting feature-variation-end-point vectors in another sequence

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8285532A JP3039623B2 (ja) 1996-10-28 1996-10-28 音声認識装置

Publications (2)

Publication Number Publication Date
JPH10133688A true JPH10133688A (ja) 1998-05-22
JP3039623B2 JP3039623B2 (ja) 2000-05-08

Family

ID=17692757

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8285532A Expired - Lifetime JP3039623B2 (ja) 1996-10-28 1996-10-28 音声認識装置

Country Status (4)

Country Link
US (1) US5953699A (ja)
EP (1) EP0838803B1 (ja)
JP (1) JP3039623B2 (ja)
DE (1) DE69715343T2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7216075B2 (en) 2001-06-08 2007-05-08 Nec Corporation Speech recognition method and apparatus with noise adaptive standard pattern
WO2007080886A1 (ja) * 2006-01-11 2007-07-19 Nec Corporation 音声認識装置、音声認識方法、および音声認識プログラム、ならびに妨害軽減装置、妨害軽減方法、および妨害軽減プログラム
WO2008044582A1 (en) * 2006-09-27 2008-04-17 Sharp Kabushiki Kaisha Method and apparatus for locating speech keyword and speech recognition system

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6754623B2 (en) * 2001-01-31 2004-06-22 International Business Machines Corporation Methods and apparatus for ambient noise removal in speech recognition
US20080147394A1 (en) * 2006-12-18 2008-06-19 International Business Machines Corporation System and method for improving an interactive experience with a speech-enabled system through the use of artificially generated white noise
US9324323B1 (en) 2012-01-13 2016-04-26 Google Inc. Speech recognition using topic-specific language models
US8775177B1 (en) 2012-03-08 2014-07-08 Google Inc. Speech recognition process
CN105893389A (zh) * 2015-01-26 2016-08-24 阿里巴巴集团控股有限公司 一种语音信息搜索方法、装置及服务器

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4181821A (en) * 1978-10-31 1980-01-01 Bell Telephone Laboratories, Incorporated Multiple template speech recognition system
US4608708A (en) * 1981-12-24 1986-08-26 Nippon Electric Co., Ltd. Pattern matching system
JPS58111099A (ja) * 1981-12-24 1983-07-01 日本電気株式会社 パタンマツチング装置
JPS58115490A (ja) * 1981-12-29 1983-07-09 日本電気株式会社 パタン間距離計算装置
JPH0792673B2 (ja) * 1984-10-02 1995-10-09 株式会社東芝 認識用辞書学習方法
US4737976A (en) * 1985-09-03 1988-04-12 Motorola, Inc. Hands-free control system for a radiotelephone
US4933973A (en) * 1988-02-29 1990-06-12 Itt Corporation Apparatus and methods for the selective addition of noise to templates employed in automatic speech recognition systems
JPH04264596A (ja) * 1991-02-20 1992-09-21 N T T Data Tsushin Kk 雑音下音声認識方法
JPH0535293A (ja) * 1991-08-01 1993-02-12 Fujitsu Ltd 音声認識装置における認識候補数設定方式

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7216075B2 (en) 2001-06-08 2007-05-08 Nec Corporation Speech recognition method and apparatus with noise adaptive standard pattern
WO2007080886A1 (ja) * 2006-01-11 2007-07-19 Nec Corporation 音声認識装置、音声認識方法、および音声認識プログラム、ならびに妨害軽減装置、妨害軽減方法、および妨害軽減プログラム
US8150688B2 (en) 2006-01-11 2012-04-03 Nec Corporation Voice recognizing apparatus, voice recognizing method, voice recognizing program, interference reducing apparatus, interference reducing method, and interference reducing program
WO2008044582A1 (en) * 2006-09-27 2008-04-17 Sharp Kabushiki Kaisha Method and apparatus for locating speech keyword and speech recognition system
JP2010504553A (ja) * 2006-09-27 2010-02-12 シャープ株式会社 音声キーワードの特定方法、装置及び音声識別システム
US8255215B2 (en) 2006-09-27 2012-08-28 Sharp Kabushiki Kaisha Method and apparatus for locating speech keyword and speech recognition system

Also Published As

Publication number Publication date
US5953699A (en) 1999-09-14
DE69715343D1 (de) 2002-10-17
EP0838803A2 (en) 1998-04-29
EP0838803A3 (en) 1998-12-23
EP0838803B1 (en) 2002-09-11
DE69715343T2 (de) 2003-06-05
JP3039623B2 (ja) 2000-05-08

Similar Documents

Publication Publication Date Title
JP5411936B2 (ja) 音声信号区間推定装置と音声信号区間推定方法及びそのプログラムと記録媒体
US20030093265A1 (en) Method and system of chinese speech pitch extraction
EP0838805B1 (en) Speech recognition apparatus using pitch intensity information
JP6195548B2 (ja) 信号解析装置、方法、及びプログラム
JP2006215564A (ja) 自動音声認識システムにおける単語精度予測方法、及び装置
JP3298858B2 (ja) 低複雑性スピーチ認識器の区分ベースの類似性方法
JP4705414B2 (ja) 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体
JP3907194B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP3039623B2 (ja) 音声認識装置
JP2001125588A (ja) 音声認識装置及び方法ならびに記録媒体
JP4858663B2 (ja) 音声認識方法及び音声認識装置
JP2009145895A (ja) ケプストラムノイズ減算を用いた音声認識システム及び方法
JP4571871B2 (ja) 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体
JP2019132948A (ja) 音声変換モデル学習装置、音声変換装置、方法、及びプログラム
JP3250604B2 (ja) 音声認識方法および装置
KR100614932B1 (ko) 강인한 음성인식을 위한 채널 정규화 장치 및 그 방법
JP4550674B2 (ja) 音声特徴量抽出装置、音声特徴量抽出方法および音声特徴量抽出プログラム
JP2000259198A (ja) パターン認識装置および方法、並びに提供媒体
JPH11212588A (ja) 音声処理装置、音声処理方法、及び音声処理プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2001083978A (ja) 音声認識装置
JP2001067094A (ja) 音声認識装置及び方法
CN113689886B (zh) 语音数据情感检测方法、装置、电子设备和存储介质
JP4362072B2 (ja) 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体
JP2003076393A (ja) 騒音環境下における音声推定方法および音声認識方法
JP2991148B2 (ja) 話者認識における抑制標準パターンすなわちコホートの作成方法及びシステムと該システムを含む話者照合装置

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20000202