JP2000172291A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP2000172291A
JP2000172291A JP10343148A JP34314898A JP2000172291A JP 2000172291 A JP2000172291 A JP 2000172291A JP 10343148 A JP10343148 A JP 10343148A JP 34314898 A JP34314898 A JP 34314898A JP 2000172291 A JP2000172291 A JP 2000172291A
Authority
JP
Japan
Prior art keywords
acoustic model
acoustic
speech
noise
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10343148A
Other languages
English (en)
Inventor
Hiroaki Ogawa
浩明 小川
Hitoshi Honda
等 本田
Hironaga Tsutsumi
洪長 包
Yoshikazu Takahashi
良和 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP10343148A priority Critical patent/JP2000172291A/ja
Publication of JP2000172291A publication Critical patent/JP2000172291A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Traffic Control Systems (AREA)
  • Navigation (AREA)

Abstract

(57)【要約】 【課題】 ノイズ環境下でもより高精度の音声認識が可
能な音声認識装置を提供すること。 【解決手段】 マイクロフォン101で収集された音声
データのパワースペクトルをパワースペクトル104で
算出し、音声区間判定部110で、パワースペクトルに
音声の非認識時に、音声区間判定部110でスイッチS
1を固定端子C側に切り替え、平均スペクトル算出部1
05で平均スペクトルを算出して、音響モデル決定部1
06で音響モデルバッファ107に収録されている2以
上の不特定話者用サブワード音響モデルを決定する。音
声区間判定部110でパワースペクトルに音声の認識時
に、スイッチS1を固定端子B側に切り替え、マッチン
グ部109でパワースペクトルの音声に対して認識語彙
辞書108の認識語彙と音響モデルバッファ107の音
響モデルにしたがって音声の各単語を認識する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、ノイズ環境下で
利用される音声認識装置に関し、特に、ノイズ環境によ
る音響モデルの切替機構を備えることにより、ノイズを
少ない環境からノイズの多い環境まで高い認識率を達成
することができるようにした音声認識装置に関する。
【0002】
【従来の技術】近年、音声認識技術の発達により、様々
な電気製品などで音声認識が用いられるようになってき
た。たとえば、カーナビゲーションシステムでは、安全
性と利便性とから音声認識がユーザインタフェースとし
て使用されている。このようなカーナビゲーションシス
テムの例として、たとえば、「音声認識オプションユニ
ットNVA−VR1(ソニー株式会社製)」、「音声認
識内蔵型カーナビゲーションシステムNVX−W900
(ソニー株式会社製)」などが実用化されている。ま
た、近年、携帯電話などにも音声認識が使用されてい
る。
【0003】このように、音声認識システムは、様々な
場所で使用されてきている。このため、様々なノイズ環
境で動作することが求められている。たとえば、カーナ
ビゲーション用音声認識システムでは、停車時などの比
較的ノイズの少ない環境から高速道路を走行するような
ノイズの多い環境まで様々に環境ノイズは変化する。さ
らに、たとえば、携帯電話では、利用者の行く先々まで
ノイズ環境はさらに変化する。
【0004】このようなノイズ環境下での音声認識性能
の向上手法として、特徴量を正規化する方法がある。特
徴量の正規化は、ノイズを含む音声から得られた特徴量
をできるだけノイズのない状態で得られるべき特徴量に
近づける方法である。たとえば、スペクトルサブトラク
ション法(Spectral Subtraction)が広く知られてい
る。
【0005】このスペクトルサブトラクション法では、
音声の発話中のノイズの平均スペクトルを指定して、音
声の入力があると、その音声からノイズの平均スペクト
ルが差し引かれ(Subtract)、その残りを真の音声成分
として、特徴スペクトルが算出される。ノイズの簡単な
推定方法としては、たとえば、音声の発話がされる前の
入力(音声区間の前の入力)を、ノイズとして、そのノ
イズの平均スペクトルを算出すればよい。
【0006】なお、スペクトルサブトラクションについ
ては、たとえば、S.F.boll、「Suppression of Aco
ustic Noise in Spectral Subtraction」、IEE
ETransactions on Acoustics、Speech、and Signa
l Processing、Vol.ASSP−27、No.21979や、
P.Lockwood and J.Boudy、「Experiments with
a Nonlinear Spectral Subtracter 、Hidden Ma
rkov Models andthe projection、for robust spe
ech recognition in cars」、Speech Communicatio
n、 Vol.11、1992などに、その詳細が記載され
ている。
【0007】特徴量の正規化を行うことにより、音声認
識率を向上するが、特徴量の完全な正規化は困難である
ため、実際のところ、ノイズ環境下により特徴量が変化
してしまう。このため、ノイズの無い音声から作成され
た音響モデルを用いてノイズのある音声を正規化して得
られた特徴量から音声認識を行うと、認識率は低下して
しまう。そこで、音響モデルをノイズのある音声から作
成すると、ノイズのある音声に対する認識率は向上する
が、今度はノイズのない音声に対する認識率は低下して
しまう。
【0008】たとえば、音響もモデルとしてHMM(Hidde
n Markov Model)を用いた場合の実験結果を以下の
[表1]示す。
【0009】
【表1】
【0010】上記「表1」の表すように、ノイズのない
音声を学習した音響モデル(Mc)は、アイドリングノ
イズ、つまり、ノイズの少ない環境において、高い認識
率を示し、ノイズのある音声を学習した音響モデル(M
h)は、市街地、高速道路などのノイズの多い環境でよ
い認識率を示す。
【0011】一方、話者が語彙を登録するテンプレート
マッチングタイプの認識装置においては、利用者が様々
なノイズ環境で実際に音声を発話し、その発話をノイズ
の識別結果とともに保存する音声認識方法が、特開平0
5−66790号公報により開示されている。この公報
の場合には、利用者は想定される利用環境で音声を登録
する必要があるので、たとえば、車両に搭載される音声
認識装置では、低速走行の比較的ノイズが小さい環境で
の登録や、高速走行でノイズの大きい環境での音声の登
録を行う。さらに、この方法で音声認識を行う場合に
は、背景ノイズを認識装置に与えて音声認識装置は、背
景ノイズを識別して認識を行う。
【0012】
【発明が解決しようとする課題】しかしながら、通常、
音響モデルを1種類しか用いないので、前述のように音
響モデルに合った環境では、よい認識率が択られるが、
音響モデルに合わない環境では、認識率が低下するとい
う課題があった。さらに、できるだけ多くのノイズ環境
を音響モデルに学習させた場合に、大きく認識率の落ち
るノイズ環境は減少するものの、全体的に認識率が若干
低下してしまうという課題も合った。また、上記公報の
場合には、複数のノイズ環境下で利用者は発話登録を行
う必要があるが、より大語彙の音声認識を行うために
は、すべての語彙を各ノイズ環境で発話する必要があ
る。これは、利用者にとっては、非常に大きな負担とな
る。
【0013】加えて、背景ノイズをマイクからの入力を
用いて判断する場合に、利用者の声が背景ノイズに重な
ってしまうと、背景ノイズの判断を誤ってしまうという
課題があった。また、背景ノイズをマイクからの入力を
用いて判断する以外に、より簡単な方法で背景ノイズを
推定する方法がさらなる計算量削減のために求められて
いる。
【0014】なお、車載用音声認識装置に関して、あら
かじめ路面状況に応じた複数のノイズ用スペクトルパタ
ーンの中から、現在走行中の路面状況に応じた1つのノ
イズスペクトルパターンを選択し、その選択したノイズ
スペクトルパターンに基づきマイク入力のスペクトルパ
ターンから演算によりノイズのスペクトルパターンを除
去して音声のみのスペクトルパターンを得ることが、特
開平06−67690号公報に開示されているが、この
公報の場合には、音声波形自体の補償処理に関する技術
内容であり、上記課題に対する解決策の指針にならな
い。
【0015】また、特開平07−295585号公報に
よる車載用音声認識装置では、雑音を含んだ登録パター
ンに対して雑音を除去して登録パターンを出力するよう
にあらかじめ学習されているニューラルネットワークを
登録パターンごとに設け、各ニューラルネットワークか
らは、そのニューラルネットワークに対応する登録パタ
ーンであれば、雑音を的確に除去して登録パターンを出
力できる一方、そのニューラルネットワークに対応しな
いパターンであれば、登録パターンでないと認識して登
録パターンとは異なるパターンを出力することが開示さ
れている。しかし、この公報の場合は、ニューラルネッ
トワークを用いた特殊な音声波形自体の補償処理であ
り、この情報の場合も上記特開平06−67690号公
報の場合と同様に、上記課題に対する解決策の指針にな
らない。
【0016】この発明は、上記従来の課題を解決するた
めになされたもので、利用者は複雑な登録を全く必要と
することなく、背景雑音を測定して、自動的、かつ簡便
に複数の音響モデルを選択することによりノイズ環境環
境下でもさらに高精度の音声認識が可能となる音声認識
装置を提供することを目的とする。
【0017】
【課題を解決するための手段】上記目的を達成するため
に、この発明の音声認識装置は、2セット以上の不特定
話者用サブワード音響モデルを収録した音響モデルバッ
ファと、マイクロフォンから集音した音声データから音
響特徴量を算出する音響特徴量算出手段と、音声認識時
に上記音響特徴量算出手段により算出された音響特徴量
に対して上記音響モデルバッファに収録された音響モデ
ルと認識語彙にしたがって音声認識を行って、上記算出
された音響特徴量に対するノイズ補償機能を呈するノイ
ズ補償手段と、上記音声の非認識時に環境ノイズを判定
して上記音響モデルバッファに収録された音響モデルを
選択する音響モデル選択手段とを備えることを特徴とす
る。
【0018】
【発明の実施の形態】以下、この発明による音声認識装
置の実施の形態について図面に基づき説明する。図1は
この発明による第1実施の形態の構成を示すブロック図
である。この図1において、マイクロフォン101から
入力された音声はアナログの電気信号(音声信号)に変
換され、この音声信号は、A/D(アナログ/ディジタ
ル)変換器102に入力されて、ディジタル信号に変換
される。このA/D変換に際して、たとえば、12KHz
でサンプリングされてディジタル化され、フレーム生成
部103に入力される。
【0019】フレーム生成部103において、10ms
ecごとに長さ25msecの音声フレームに変換され
る。つまり、隣り合う音声フレーム間は15msecで
オーバラップするようになっている。フレーム生成部1
03で生成された音声フレームは次段のパワースペクト
ル算出部104でパワースペクトルに変換される。この
第1実施の形態では、パワースペクトル算出部104に
よる音響特徴量の算出にパワースペクトルを算出する場
合を例示している。これらのA/D変換器102と、フ
レーム生成部103と、パワースペクトル算出部104
とにより、音響特徴量算出手段を構成している。
【0020】このパワースペクトル算出部104の出力
端は、音響モデルの切替スイッチとしてのスイッチS1
の可動端子Aに接続されている。スイッチS1は上記固
定端子Aの他に二つの固定端子B、Cを有しており、固定
端子Cは平均スペクトル算出部105の入力端に接続さ
れている。固定端子Bは、マッチング部109の入力端
に接続されている。スイッチS1の可動端子Aは音声区
間判定部110の出力により、固定端子Bから固定端子
Cに切り替え、かつ固定端子Cから固定端子Bに切り替
るようになっている。
【0021】すなわち、この音声区間判定部110は、
パワースペクトル算出部104で音声フレームから算出
されたパワースペクトルから音声が発話されているか、
否かの判断を行い、音声を認識していない間は、音声ス
ペクトルから背景ノイズを測定するために音声区間判定
部110から指示がスイッチS1に出力され、スイッチ
S1の可動端子Aを固定端子C側に切り替え、パワースペ
クトルが平均スペクトル算出部105に送出されるよう
にしている。音声区間判定部110がパワースペクトル
から発話による音声データ含まれていると判定すると、
音声区間判定部110はスイッチS1の可動端子Aを固
定端子Cから固定端子B側に切り替え、パワースペクトル
算出部104からスイッチS1の可動端子Aと固定端子C
を通して、パワースペクトルがマッチング部109に送
出されることになる。平均スペクトル算出部105で
は、パワースペクトルから次の式(1)のように音声ス
ペクトルの平均スペクトルを求める。
【0022】
【数1】 M(t)=s*M(t-1)+(1-s)X(t)………(1) ここで、M(t)は時刻tにおける平均スペクトルであ
る。X(t)は時刻tにおける観測スペクトルである。
sは1以下の正の実数で、0.9に設定される。
【0023】平均スペクトル算出部105で算出された
平均スペクトルM(t)は、音響モデル決定部106に
送出される。この音響モデル決定部106は、あらかじ
め求められたN(正の整数)種類の音響モデルに対応す
るN個のノイズの平均スペクトルM’(1)…M’
(N)と比較して、次の式(2)のような音響モデルk
(t)を選択する。
【0024】
【数2】 k(t)=argmax{M(t)-M’(k)}*{M(t)-M’(k)} ……(2) ここで、1≦k≦Nである。
【0025】この音響モデル決定部106で選択された
音響モデルkにより時刻tにおける適切な音響モデルが
音響モデルバッファ107に収納されている音響モデル
を決定する。2セット以上の不特定話者用サブワード音
響モデルを収録した音響モデルバッファと、音声に対す
る単語を認識するための認識語彙を収録した認識語彙辞
書と、マイクロフォンから収音した音声データから音響
特徴量を算出する音響特徴量算出手段と、音声認識時に
上記音響特徴量算出手段により算出された音響特徴量に
対して上記音響モデルバッファに収録された音響モデル
と上記認識語彙辞書に収録された認識語彙にしたがって
音声認識を行って、入力音声に対するノイズ補償機能を
呈するノイズ補償手段と、上記音声区間判定部110
と、平均スペクトル算出部105と、スイッチS1と、
音響モデル決定手段106とにより、音響モデル選択手
段手段を構成している。この音響モデルの選択の際に、
ユークリッド距離を利用して音響モデルを選択するよう
にしている。
【0026】この音響モデルバッファ107から音響モ
デルを選択するために、音響モデルバッファ107に収
納される音響モデルに不特定話者用サブワード音響モデ
ルを利用する。この不特定話者用サブワード音響モデル
は、多数の話者から収集した大量の音声データから学習
され、想定されるノイズ環境における音声データをあら
かじめ大量に音響モデルバッファ107に収録してお
き、この音声データにノイズ処理を施して得られた大量
の音声データを用いて音響モデルを学習し、このように
して得られた不特定話者用サブワード音声モデルを認識
に用いることにより、利用者はノイズ環境での音声の登
録を行う必要がなくなる。
【0027】また、この音響モデルの認識時における背
景ノイズの測定を行うためにマイクロフォン101から
集音する場合に、音声区間判定手段110を用いてスイ
ッチS1の可動端子Aを固定端子C側に接続するように
切り替えているから、利用者の音声を含む音声区間をノ
イズの種類の判定に含めないことになる。したがって、
背景ノイズの判定精度をより一層高精度にすることがで
きる。
【0028】次に、マイクロフォン101で集音され
て、A/D変換器102で音声信号をディジタル変換
後、フレーム生成部103で音声フレームを生成し、そ
の音声フレームをパワースペクトル算出部104で変換
されたパワースペクトルに音声区間判定部110で音声
認識が判定されることにより、音声認識が始まると、音
声区間判定部110からスイッチS1に指示が出され
る。この指示により、スイッチS1の可動端子Aは固定
端子Cから固定端子B側に切り替えられる。したがっ
て、パワースペクトル算出部104の出力端はスイッチ
S1の可動端子Aと固定端子Bを通してマッチング部1
09の入力端に接続され、上記音響モデルバッファ10
7からの音響モデルの選択プロセスは停止する。
【0029】パワースペクトル算出部104の出力端が
スイッチS1を通してマッチング部109の入力端に接
続されることにより、パワースペクトル算出部104か
ら出力されるパワースペクトルがマッチング部109に
入力される。このマッチング部109には、音声に対す
る単語を認識するために、認識語彙を収録した認識語彙
辞書108と上記音響モデルバッファ107も接続され
ている。これらのマッチング部109と、認識語彙辞書
108とにより、入力音声に対する認識を行って、入力
音声に対するノイズの補償を可能にするノイズ補償手段
としての機能を呈するようにしている。
【0030】したがって、マッチング部109におい
て、パワースペクトル算出部104から出力されるパワ
ースペクトル、換言すれば、音響スペクトル列は認識語
彙辞書108の認識語彙と音響モデルバッファ107に
収録されているパワースペクトル算出部104から出力
される音響モデルにしたがって、各単語の認識スコアが
計算される。このスコアの計算の結果、最もスコアの良
い値が音響スペクトルの認識結果として、マッチング部
109から出力される。このように、第1実施の形態で
は、音声判定区間110を用いているから背景ノイズの
判定がさらに正確になり、その結果、より高精度な音声
認識が可能となる。
【0031】なお、上述した第1実施の形態では、音声
の発話のない区間の平均パワースぺクトル量を求め、そ
の平均パワースぺクトル量に基いて音響モデルを選択し
た。しかしながら、次に説明する第2実施の形態のよう
に、音声の発話のない区間の平均パワースぺクトル量と
音声の発話のある区間の平均パワースぺクトル量の双方
を求め、これら双方の平均パワースぺクトル量からSN
比を算出し、その算出されたSN比に基いて音響モデル
を選択することも可能である。図2は、この発明による
第2実施の形態の構成を示すブロック図であり、図1に
対応する部材には300番台の符号を付して、再度の詳
述を避け、図1とは異なる部分を主体に述べることにす
る。
【0032】図2に示すように、パワースぺクトル算出
部304の出力端は平均スぺクトル算出部305の入力
端に接続され常時パワースぺクトルが平均スぺクトル算
出部305に供給されるように構成されている。スイッ
チS2は、パワースぺクトル算出部304の出力端に接
続された可動端子A1とマッチング部309の入力端に
接続された固定端子B1を有しており、可動端子A1と
固定端子B1の接続、非接続は、音声区間判定部310
による音声の発話の有無の判定結果によって制御される
ように構成されている。すなわち、音声区間判定部31
0が音声の発話のある旨の判定時に、音声区間判定部3
10からの指示によって可動端子A1と固定端子B1を
接続状態に切り替えてパワースぺクトル算出部304か
ら出力されるパワースぺクトルがマッチング309に導
かれ、音声区間判定部310が音声の発話のない旨の判
定時には、音声区間判定部310からの指示によって可
動端子A1と固定端子B1を非接続状態に切り替えてマ
ッチング309に対するパワースぺクトルの入力を停止
するようにしている。
【0033】平均スぺクトル算出部305は、上記音声
区間判定手段110により上記音声の発話のない状態で
ある旨の判定時には、上記パワースぺクトル算出部30
4から出力されるパワースぺクトルから音声のない区間
の平均スペクトル量N(Nはノイズの平均スぺクトル量
に相当)を算出するように構成されている。また、平均
スぺクトル算出部305は、上記音声区間判定手段11
0による音声の発話の判定時には、パワースぺクトル算
出部304から出力されるパワースぺクトルから音声の
ある区間の平均スペクトル量(S+N1)を算出するよ
うに構成されている(ただし、Sは音声の平均スペクト
ル量、N1はノイズの平均スぺクトル量に相当)。そし
て、平均スぺクトル算出部305は、上記平均スペクト
ル量Nと、平均スペクトル量(S+N1)とに基いて次
の式(3)のようにSN比を近似的に求めるように構成
されている。
【0034】
【数3】 20*log10((S+N1)−N)/N) [dB]……(3)
【0035】音響モデル決定部306は、上記平均スペ
クトル算出部305の算出結果、すなわち上記SN比に
基いて上記音響モデルバッファ307に収録されている
音響モデルを選択するように構成されている。例えば、
高速道路用の音響モデルはSN比が5dBよりも小さい
場合、市街地走行用の音響モデルはSN比が5dB以上
10dB以下の場合、アイドリング時のノイズで学習し
た音響モデルはSN比が10dBよりも大きい場合など
と関連づけて選択するようになっている。
【0036】上述した第2実施の形態によれば、例えば
次のような問題を解決することができる。すなわち、比
較的静かな環境であっても話者の声が小さいと、ノイズ
が支配的になり、ノイズが大きな場合と同等の結果を招
き認識率が低下してしまうという問題が生じる。この場
合、第2実施の形態のようにSN比に基いて音響モデル
を選択するようにすれば、話者の声が小さくても最適な
音響モデルを選択して決定することができ、上記問題を
解決することができる。
【0037】なお、第1、第2実施の形態では、音響特
徴量にパワースペクトルを用いた場合の説明であるが、
メル周波数ケプストラムなどの他の音響特徴量を用いて
も、パワースペクトルを用いた場合と同様の効果が得ら
れる。また、上記第1、第2実施の形態では、マッチン
グ部109で単語認識を行っている場合の説明である
が、連続音声認識やキーワードスポッティングにおいて
も、この発明を容易に実施することができる。さらに、
音響モデルの選択の際に、上記第1実施の形態では、ユ
ークリッド距離を利用しているものとして説明を進めた
が、この発明では、バタチャリア距離や、マハラノビス
距離などを利用することもできる。
【0038】また、この発明においては、音響モデルに
対する背景ノイズの種類は、音響モデル学習時にすべて
明らかであるから、背景ノイズの各種類に対して「晴れ
の高速道路」などと名前を付けて、音響モデル決定部1
06の代わりに、手動型のロータリスイッチを設置する
ことによって、音響モデルとしてHMMとすることもで
きる。
【0039】次に、この発明による第3実施の形態につ
いて説明する。図3はこの発明による第3実施の形態の
構成を示すブロック図である。この図3に示す第3実施
の形態では、車中で使用されることを前提とした実施の
形態であって、図1に対応する部材には、200番台の
符号を付して、再度の詳述を避け、図1とは異なる部分
を主体に述べることにする。
【0040】この図3に示す第3実施の形態では、マイ
クロフォン201から収集したデータのうち、背景ノイ
ズを判断しない場合に、音響認識装置が移動体の速度を
測定して、その速度に合わせて音響モデルを選択するこ
とにより、背景ノイズの判定を大きく簡略化する場合に
適した実施の形態である。この図3を図1と比較しても
明らかなように、図3では図1で示した音響モデル選択
手段における音声区間判定部110とスイッチS1が省
略されている。
【0041】これに伴い、図3では、パワースペクトル
算出部204から出力されるパワースペクトルは直接マ
ッチング部209に入力する構成としている。また、図
1では、音響モデル選択手段において、平均スペクトル
算出部105によりノイズの平均スペクトルに基づいて
音響モデルを決定していたのに対して、この図3では、
車速パルス測定部205により、移動体としての車量の
車速パルスを測定して、測定した車速パルスを背景ノイ
ズ判定部206に出力する。背景ノイズ判定部206は
車速パルスからノイズレベルを測定して、音響モデルバ
ッファ207に収録されている音響モデルを選択する。
すなわち、この第3実施の形態では、音響モデル選択手
段として、移動体速度検出手段としての車速パルス測定
部205と、背景ノイズ判定部206とにより構成して
いる。
【0042】この車速パルス測定部205で得られた車
速パルスは、車両において測定できる信号であり、車両
では、タイアの回転数を周知の技術により測定できるた
め、車両のある程度の走行速度を計算することができ
る。車速パルス測定部205では、測定した車速パルス
から車両の速度を計算し、計算結果を背景ノイズ判定部
206に出力することにより、音響モデルバッファ20
7にあらかじめ収録されている音響モデルを決定する。
【0043】この際、音響モデルバッファアイドル20
7は、あらかじめアイドリング状態のノイズを含む音声
を学習した音響モデル、市街地を走行した際のノイズを
含む音声を学習した音響モデルの3種類の音響モデルを
保存している。したがって、車速パルス測定部205で
測定した車速パルスにより推定された車両の速度から音
響ノイズ判定部206は音響モデルバッファ207から
適切な音響モデルを決定する。このように、第3実施の
形態では、マイクロフォン201から集音される音声信
号に対する背景ノイズを判定しない場合に、移動体の速
度を測定して、その速度に合わせて音響モデルを選択す
ることにより、背景ノイズの判定を簡略化することがで
きる。
【0044】なお、この第3実施の形態では、音響モデ
ルバッファ207に収録されている音響モデルは3種類
の場合について説明しているが、音響モデルの種類の増
減は可能である。また、この第3実施の形態では、車両
の走行状態は、車速パルス想定部205により、車速パ
ルスを測定するようにしているが、GPS(Global Po
sitioning System)による測位情報や、車両自体から
の情報の入力なども利用可能である。さらに、この第3
実施の形態では、マイクロフォン201から収集したデ
ータのうち、背景ノイズを判断しない場合に、車両の速
度を測定して、その速度に合わせて音響モデルを選択す
ることにより、背景ノイズの判定を大きく簡略化する場
合に適した実施の形態として説明してきたが、マイクロ
フォン201から集音された音声信号の各単語をマッチ
ング部209で上記第1実施の形態と同様に認識するこ
とができるのは、いうまでもない。
【0045】
【発明の効果】以上のように、この発明によれば、2セ
ット以上の不特定話者用サブワード音響モデルを音響モ
デルバッファに収録しておき、環境ノイズ測定手段によ
り測定した環境ノイズに応じて自動的に複数の音響モデ
ルを選択するようにしたので、ノイズ環境からでも高精
度に音声認識が可能となるとともに、利用者は複雑な登
録を全く必要としないために、簡便に音声認識装置を使
用することができる。
【図面の簡単な説明】
【図1】この発明による音声認識装置の第1実施の形態
の構成を示すブロック図である。
【図2】この発明による音声認識装置の第2実施の形態
の構成を示すブロック図である。
【図3】この発明による音声認識装置の第3実施の形態
の構成を示すブロック図である。
【符号の説明】
101、201、301……マイクロフォン、102、
202、302……A/D変換器、103、203、3
03……フレーム生成部、104、204、304……
パワースペクトル算出部、105、305……平均スペ
クトル算出部、106、306……音響モデル決定部、
107、207、307……音響モデルバッファ、10
8、208、308……認識語彙辞書、109、20
9、309……マッチング部、110、310……音声
区間判定部、205……車速パルス、206……背景ノ
イズ判定部。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 高橋 良和 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 Fターム(参考) 2F029 AA02 AB01 AB07 AB09 AC18 5D015 CC11 GG00 HH11 HH21 HH23 5H180 AA01 CC12 FF04 9A001 HH15 HH17 JJ78

Claims (15)

    【特許請求の範囲】
  1. 【請求項1】 2セット以上の不特定話者用サブワード
    音響モデルを収録した音響モデルバッファと、 マイクロフォンから集音した音声データから音響特徴量
    を算出する音響特徴量算出手段と、 音声認識時に上記音響特徴量算出手段により算出された
    音響特徴量に対して上記音響モデルバッファに収録され
    た音響モデルと認識語彙にしたがって音声認識を行っ
    て、上記算出された音響特徴量に対するノイズ補償機能
    を呈するノイズ補償手段と、 上記音声の非認識時に環境ノイズを判定して上記音響モ
    デルバッファに収録された音響モデルを選択する音響モ
    デル選択手段と、 を備えることを特徴とする音声認識装置。
  2. 【請求項2】 上記音響モデル選択手段は、上記音声認
    識をしていない状態時に移動体の速度を測定する移動体
    速度測定手段と、上記移動体速度測定手段により測定さ
    れた移動体の速度に応じて環境ノイズを判定して、その
    判定した環境ノイズに応じて上記音響モデルバッファか
    ら音響モデルを選択する背景ノイズ判定部とを備えるこ
    とを特徴とする請求項1記載の音声認識装置。
  3. 【請求項3】 移動体速度測定手段は、車両の走行速度
    を測定して車速に応じたパルスを発生する車速パルス測
    定部であることを特徴とする請求項2記載の音声認識装
    置。
  4. 【請求項4】 移動体速度測定手段は、GPSによる測
    位情報を利用することを特徴とする請求項2記載の音声
    認識装置。
  5. 【請求項5】 上記音響モデル選択手段は、上記マイク
    ロフォンにより集音した音声データから音声の発話の有
    無を判定する音声区間判定部と、上記音声区間判定部に
    より上記音声の発話のない状態である旨の判定時に上記
    音響特徴量算出手段から出力される上記音響特徴量から
    上記音声のない区間の平均スペクトル量を算出する平均
    スペクトル算出部と、上記平均スペクトル算出部の算出
    結果により上記音響モデルバッファに収録されている音
    響モデルを選択する音響モデル決定部と、上記音声区間
    判定部により上記音声の発話のない状態である旨の判定
    時に上記音声区間判定部により上記上記音響特徴量算出
    手段から出力される上記音響特徴量を上記平均スペクト
    ル算出部に導き、かつ上記音声区間判定部により上記音
    声の発話の判定時に上記音声区間判定部により上記上記
    音響特徴量算出手段から出力される上記音響特徴量を上
    記ノイズ補償手段に導くように切り替るスイッチとを備
    えることを特徴とする請求項1記載の音声認識装置。
  6. 【請求項6】 上記音響モデル決定部は、上記平均スペ
    クトル算出部の算出結果により上記音響モデルバッファ
    にあらかじめ収録されているアイドリング状態のノイズ
    を含む音声を学習した第1の音響モデルと、市街地を走
    行した際のノイズを含む音声を学習した第2の音響モデ
    ルと、高速道路を走行した際のノイズを含む音声を学習
    した第3の音響モデルとのうちの所定の音響モデルを決
    定することを特徴とする請求項5記載の音声認識装置。
  7. 【請求項7】 上記音響モデル決定部は、手動によるロ
    ータリスイッチを用いることを特徴とする請求項5記載
    の音声認識装置。
  8. 【請求項8】 上記音響モデル選択手段は、上記マイク
    ロフォンにより集音した音声データから音声の発話の有
    無を判定する音声区間判定部と、上記音声区間判定部に
    より上記音声の発話のない状態である旨の判定時に上記
    音響特徴量算出手段から出力される上記音響特徴量から
    上記音声のない区間の平均スペクトル量を算出し、上記
    音声区間判定部による音声の発話の判定時に上記音響特
    徴量算出手段から出力される上記音響特徴量から上記音
    声のある区間の平均スペクトル量を算出し、かつ上記音
    声のない区間の平均スぺクトル量、すなわちノイズの平
    均スぺクトル量と、上記音声のある区間の平均スぺクト
    ル量、すなわちノイズおよび音声の和の平均スぺクトル
    量とに基いてSN比を算出する平均スペクトル算出部
    と、上記平均スペクトル算出部の算出結果により上記音
    響モデルバッファに収録されている音響モデルを選択す
    る音響モデル決定部と、上記音声区間判定部により上記
    音声の発話の判定時にのみ上記音声区間判定部により上
    記音響特徴量算出手段から出力される上記音響特徴量を
    上記ノイズ補償手段に導くように切り替るスイッチとを
    備えることを特徴とする請求項1記載の音声認識装置。
  9. 【請求項9】 上記音響モデル決定部は、上記平均スペ
    クトル算出部の算出結果により上記音響モデルバッファ
    にあらかじめ収録されているアイドリング状態のノイズ
    を含む音声を学習した第1の音響モデルと、市街地を走
    行した際のノイズを含む音声を学習した第2の音響モデ
    ルと、高速道路を走行した際のノイズを含む音声を学習
    した第3の音響モデルとのうちの所定の音響モデルを決
    定することを特徴とする請求項8記載の音声認識装置。
  10. 【請求項10】 上記音響モデル決定部は、手動による
    ロータリスイッチを用いることを特徴とする請求項8記
    載の音声認識装置。
  11. 【請求項11】 上記ノイズ補償手段は、音声に対する
    単語を認識するための認識語彙を収録した認識語彙辞書
    と、上記音声認識時に上記音響特徴量算出手段により算
    出された音響特徴量に対して上記音響モデルバッファに
    収録された音響モデルと上記認識語彙辞書に収録された
    認識語彙にしたがって上記算出された音響特徴量に対す
    るノイズ補償機能を呈するマッチング部とを備えること
    を特徴とする請求項1記載の音声認識装置。
  12. 【請求項12】 上記音響特徴量は、メル周波数ケプス
    トラムであることを特徴とする請求項1記載の音声認識
    装置。
  13. 【請求項13】 上記音響特徴量算出手段は、上記マイ
    クロフォンから収集された音声データをディジタル信号
    に変換するアナログ/ディジタル変換器と、上記アナロ
    グ/ディジタル変換器の出力信号を所定の時間間隔で所
    定の長さの時間でフレーム化するフレーム生成部と、上
    記フレーム生成部で生成されたフレームごとのパワース
    ペクトルを算出するパワースペクトル算出部とを備える
    ことを特徴とする請求項1記載の音声認識装置。
  14. 【請求項14】 上記音響モデルは、利用者により切り
    替えることを特徴とする請求項1記載の音声認識装置。
  15. 【請求項15】 上記音響モデルは、HMMであること
    を特徴とする請求項1記載の音声認識装置。
JP10343148A 1998-12-02 1998-12-02 音声認識装置 Pending JP2000172291A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10343148A JP2000172291A (ja) 1998-12-02 1998-12-02 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10343148A JP2000172291A (ja) 1998-12-02 1998-12-02 音声認識装置

Publications (1)

Publication Number Publication Date
JP2000172291A true JP2000172291A (ja) 2000-06-23

Family

ID=18359298

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10343148A Pending JP2000172291A (ja) 1998-12-02 1998-12-02 音声認識装置

Country Status (1)

Country Link
JP (1) JP2000172291A (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002041073A (ja) * 2000-07-31 2002-02-08 Alpine Electronics Inc 音声認識装置
JP2002062198A (ja) * 2000-08-22 2002-02-28 Babcock Hitachi Kk 音響式ガス温度計測方法および音響式ガス温度計
JP2003255984A (ja) * 2002-03-06 2003-09-10 Asahi Kasei Corp 野鳥の鳴き声認識装置及びその認識方法
JP2004004182A (ja) * 2002-05-30 2004-01-08 Toshiba Corp 音声認識装置、音声認識方法及び音声認識プログラム
JP2004317845A (ja) * 2003-04-17 2004-11-11 Nagoya Industrial Science Research Inst モデルデータ生成装置、モデルデータ生成方法、およびこれらの方法
JP2006106300A (ja) * 2004-10-05 2006-04-20 Mitsubishi Electric Corp 音声認識装置及びそのプログラム
JP2007264327A (ja) * 2006-03-28 2007-10-11 Matsushita Electric Works Ltd 浴室装置及びそれに用いる音声操作装置
JP2011002494A (ja) * 2009-06-16 2011-01-06 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置とその方法と、プログラムと記録媒体
JP2017067879A (ja) * 2015-09-29 2017-04-06 本田技研工業株式会社 音声処理装置及び音声処理方法
JP2018060165A (ja) * 2016-09-28 2018-04-12 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声認識方法、携帯端末、および、プログラム

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002041073A (ja) * 2000-07-31 2002-02-08 Alpine Electronics Inc 音声認識装置
JP2002062198A (ja) * 2000-08-22 2002-02-28 Babcock Hitachi Kk 音響式ガス温度計測方法および音響式ガス温度計
JP2003255984A (ja) * 2002-03-06 2003-09-10 Asahi Kasei Corp 野鳥の鳴き声認識装置及びその認識方法
JP2004004182A (ja) * 2002-05-30 2004-01-08 Toshiba Corp 音声認識装置、音声認識方法及び音声認識プログラム
JP2004317845A (ja) * 2003-04-17 2004-11-11 Nagoya Industrial Science Research Inst モデルデータ生成装置、モデルデータ生成方法、およびこれらの方法
JP2006106300A (ja) * 2004-10-05 2006-04-20 Mitsubishi Electric Corp 音声認識装置及びそのプログラム
JP2007264327A (ja) * 2006-03-28 2007-10-11 Matsushita Electric Works Ltd 浴室装置及びそれに用いる音声操作装置
JP2011002494A (ja) * 2009-06-16 2011-01-06 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置とその方法と、プログラムと記録媒体
JP2017067879A (ja) * 2015-09-29 2017-04-06 本田技研工業株式会社 音声処理装置及び音声処理方法
US9786295B2 (en) 2015-09-29 2017-10-10 Honda Motor Co., Ltd. Voice processing apparatus and voice processing method
JP2018060165A (ja) * 2016-09-28 2018-04-12 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声認識方法、携帯端末、および、プログラム

Similar Documents

Publication Publication Date Title
EP0911805B1 (en) Speech recognition method and speech recognition apparatus
US7630878B2 (en) Speech recognition with language-dependent model vectors
US7676363B2 (en) Automated speech recognition using normalized in-vehicle speech
US8744849B2 (en) Microphone-array-based speech recognition system and method
JP5738020B2 (ja) 音声認識装置及び音声認識方法
JP4943335B2 (ja) 話者に依存しない堅牢な音声認識システム
Yamamoto et al. Enhanced robot speech recognition based on microphone array source separation and missing feature theory
US8438030B2 (en) Automated distortion classification
JP2002502993A (ja) ノイズ補償されたスピーチ認識システムおよび方法
JP6545419B2 (ja) 音響信号処理装置、音響信号処理方法、及びハンズフリー通話装置
JPH075892A (ja) 音声認識方法
US11308946B2 (en) Methods and apparatus for ASR with embedded noise reduction
JP2000172291A (ja) 音声認識装置
WO2023029615A1 (zh) 语音唤醒的方法、装置、设备、存储介质及程序产品
Hansen et al. CU-MOVE: Advanced in-vehicle speech systems for route navigation
Deligne et al. A robust high accuracy speech recognition system for mobile applications
JPH07168594A (ja) スピーチ認識方法および装置
JPH1063289A (ja) 音声認識装置および方法、情報記憶媒体
Mporas et al. Robust speech interaction in motorcycle environment
Mporas et al. Speech enhancement for robust speech recognition in motorcycle environment
JPH11327593A (ja) 音声認識システム
Kleinschmidt Robust speech recognition using speech enhancement
JP2002099296A (ja) 音声認識装置および音声認識方法、並びに、プログラム記録媒体
KR20200038292A (ko) 음성 스피치 및 피치 추정의 낮은 복잡성 검출
Matassoni et al. Some results on the development of a hands-free speech recognizer for carenvironment

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20050404

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050816

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20071116

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071127

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080128

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090127