JP2001209394A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP2001209394A
JP2001209394A JP2000016352A JP2000016352A JP2001209394A JP 2001209394 A JP2001209394 A JP 2001209394A JP 2000016352 A JP2000016352 A JP 2000016352A JP 2000016352 A JP2000016352 A JP 2000016352A JP 2001209394 A JP2001209394 A JP 2001209394A
Authority
JP
Japan
Prior art keywords
voice
input
noise
recognition
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000016352A
Other languages
English (en)
Inventor
Nobunaka Nakanishi
陳中 中西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alpine Electronics Inc
Original Assignee
Alpine Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alpine Electronics Inc filed Critical Alpine Electronics Inc
Priority to JP2000016352A priority Critical patent/JP2001209394A/ja
Publication of JP2001209394A publication Critical patent/JP2001209394A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 音声認識装置を騒音の大きいところで使用す
る場合には、処理速度を犠牲にして認識精度が高くなる
ように設定しているが、騒音が小さくなったときも同じ
設定であるので過剰な精度となり、このときは処理速度
を上げたい。 【解決手段】 非音声入力時には切換SW11を騒音信
号処理部12側に切り換え、マイク6からの周囲の騒音
を、騒音信号処理部12を介して騒音平均レベル演算・
記憶部14に入力し、所定時間の騒音平均レベルを演算
して更新しつつ記憶する。音声が入力されるときは、切
換SW11を音声認識用信号処理・記憶部13に切り換
え、音声レベル演算部20を介して前記のように記憶し
た騒音平均レベルと共に調整値演算部15に入力し、こ
こで両者の比としての調整値を演算する。この調整値に
応じて音声認識エンジン16の精度パラメータ部17を
調整し、騒音の少ないときは精度をあまり高くすること
なく、処理速度を向上する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、利用者が発生した
音声を認識する音声認識装置に関し、特に、周囲の騒音
の状態に応じて音声認識処理を行う音声認識エンジンの
処理態様を調整することにより、認識精度と認識速度を
適切に制御することができるようにした音声認識装置に
関する。
【0002】
【従来の技術】近年パソコンを初め各種のインターフェ
ースとして、利用者が発声した音声を認識することによ
り、各種操作指示、或いはデータ入力を行う音声認識技
術が急速に発達している。この技術は、特に利用者の手
を煩わせることがないので、車両等の運転者がハンドル
から手を離すことなく、また、運転のための視線をそら
せることなく、各種機器を操作することができるためそ
の利用が注目されている。特に車両用ナビゲーション装
置の発達により、例えば目的地の入力や周辺施設の検索
等、ナビゲーション装置の各種機能を利用するための操
作指示の入力手段として、今後は、無くてはならないも
のとなることが予想される。また、このような音声認識
技術が発達すると、上記のようなナビゲーション装置に
限らず、車内のオーディオ機器、エアコン、更には車内
に存在するほとんどの機器を音声によって操作すること
が可能となり、その利用範囲は極めて広くなる。
【0003】このような音声認識技術の発達により、そ
の認識手法としては各社から種々のものが提案されてお
り、代表的なものとしては、DPマッチングと呼ばれる
パターンマッチング方式や、HMM(Hidden Marlov Mo
del)方式と呼ばれる確率的な手法が存在する。このよ
うな音声認識処理を行う制御装置は、一般に音声認識エ
ンジンと呼ばれている。
【0004】上記DPマッチング方式は、認識対象とな
る候補ワードに対応した標準パターンを予め作成してお
き、入力音声信号を分析して得られる特徴量パターンと
全標準パターンとの時間軸の対応をとりながらマッチン
グさせ、距離計算を行うことで、最も類似したものを選
び出すという方式である。
【0005】また、HMM方式は、いくつかの状態とそ
の状態遷移時におけるシンボル出力確率を有するマルコ
フ・モデルを用いて、認識対象となる候補ワードに対応
した確率モデルを予め作成しておき、入力音声信号を分
析して得られる特徴量系列が生起する確率を各モデルか
ら求めることで、最も生起確率の高いものを選び出す方
式である。なお、連続音声認識においては、前記DPマ
ッチングやHMM方式に加え、文法や語の意味的なつな
がりなどを用い、入力信号に対応するワードの並びが決
定される。
【0006】上記のような音声認識に際して、マイクか
ら利用者が音声を入力するとき、実際に入力されるのは
利用者の音声ばかりではなく、周囲の音も入力される。
この音は音声認識装置にとっては、実際の音声の信号を
変形させるノイズとなり、標準パターンや確率モデルか
ら離れたものとなるため、音声認識率を低下させる大き
な原因となる。特に、上記のような車両用の音声認識装
置においては、車両が走行しているときに発生するエン
ジン音、車の風切り音、タイヤの摩擦音、オーディオを
つけているときはそのオーディオ音、更には車内に複数
の人がいるときにはその人たちの話し声等、極めて種々
の音が、しかも狭い車内において響く大きな騒音が存在
し、このような中で利用者が音声認識を行わせるためマ
イクに向かって発声する音声には、前記のような高いレ
ベルの騒音が共に入力することとなる。
【0007】このように、音声認識装置が車両用に用い
られる際は、入力される音声信号には大きな騒音が含ま
れている可能性が高いので、例えば一般のパソコンに用
いられるような音声認識処理では認識精度が悪くなる。
その対策として、この音声認識装置が車両用であると予
めわかっているときには、上記音声認識エンジンにおい
て、入力された音声に対応する音声認識用辞書内の言葉
を選択する際に、例えば、選択処理の最初に、入力され
た音声に近似した言葉を候補として適当な数だけ選別
し、その後この中から最適なものを選択するための厳密
な検索を行って音声認識を行う方式の場合は、最初に選
択する候補の言葉の数を広範囲に多く選択する等によ
り、騒音対策として対処する場合がある。
【0008】このような騒音対策に際しての実際の対処
方式は、前記のように各社から提供されている音声認識
方式によってそれぞれ異なる部分もあるが、音声認識の
精度を向上させるための種々のパラメータのうちいずれ
かを、認識精度を高める側に設定しておき、処理速度よ
りも認識精度の向上の方を選択する、という点では共通
している。
【0009】なお、上記のように音声認識装置の制御部
である音声認識エンジンにおいて、制御精度に影響を与
える種々のパラメータのうち少なくともいずれかを、処
理速度高めるよりも音声認識精度を高める側に調整する
ことを、説明の便宜のため、以下、音声認識エンジンの
「精度パラメータを大きく設定する」という。
【0010】
【発明が解決しようとする課題】上記のように、車両用
音声認識装置においては騒音が大きい環境で使用される
ことが多いため、この音声認識装置が車両用であるとわ
かっているときには、音声認識装置のメーカーが予め音
声認識エンジンの精度パラメータを大きく設定してお
き、これを出荷する、ということが行われている。
【0011】しかしながら、車内で用いる音声認識装置
においては、例えば車が低速で走行しているときと高速
で走行しているときとでは、エンジン音、風切り音、及
びタイヤの摩擦音等が大きく異なり、そのため騒音レベ
ルが大きく異なることとなる。また、オーディオをつけ
ている場合とつけていない場合とでも騒音レベルが大き
く異なる等、車内の騒音レベルは車内外の種々の状況に
より大きく変化するのが通常である。
【0012】したがって、前記のように、車両用音声認
識装置用であるということで、出荷前から音声認識パラ
メータを大きく設定しておく場合は、車内騒音が大きい
ときはその設定は適切であるものの、例えば低速運転時
等、騒音レベルが低いときには認識精度の面では過剰の
設定となっており、前記のような音声認識処理方式のも
のにおいては、この入力された音声信号に対応する言葉
の候補の選別数は少なくとも充分であり、したがって簡
単な計算処理でも良いにも関わらず、そのときも多くの
選別候補に対して厳密な検索を行うという演算処理を行
うため、認識処理に余計な時間を費やすという問題があ
った。
【0013】上記のように、音声認識装置のメーカー
が、予め音声認識エンジンの精度パラメータを用途に応
じて、或いは一律に所定の値に設定して出荷しているた
め、このような精度パラメータの過剰な選定等は前記車
両用音声認識装置に限らず、種々の分野においても生じ
うる。例えば、比較的静かなところで使用されることと
なっているパソコン用音声認識装置においては、前記精
度パラメータを比較的小さく設定している場合、利用者
が音楽を聴きながら音声認識を作動させる等、周囲に大
きな騒音が発生しているときには、認識率が大きく低下
するという問題も生じる。同様に、携帯用パソコン等の
携帯機器に音声認識装置を搭載する場合は、使用環境が
大きく変化するため、上記精度パラメータの適切な設定
は困難である。
【0014】したがって、本発明は、音声認識装置が使
用される環境の騒音レベルに応じて、音声認識エンジン
の精度パラメータを自動的に適切な値に設定することが
でき、それにより、騒音が少ないときには精度パラメー
タを小さくして認識処理を高速にし、逆に騒音が多いと
きには精度パラメータを大きくして認識精度を高めるよ
うにした音声認識装置を提供することを主たる目的とし
ている。
【0015】
【課題を解決するための手段】本発明は、上記課題を解
決するため、請求項1に係る発明は、マイクからの周囲
の騒音信号及び使用者の音声信号を入力する音声入力部
と、音声入力部の騒音信号を処理する騒音信号処理部
と、音声入力部の認識用音声を入力する認識音声信号処
理部と、音声入力部に入力された信号を使用者の音声信
号の入力時には認識音声信号処理部に出力し、また使用
者の音声の非入力時には騒音信号処理部に出力するよう
に切り換える入力信号切換部と、騒音信号処理部に入力
された騒音信号に基づき所定時間の騒音平均レベルを演
算する騒音平均レベル演算部と、前記音声認識用信号の
認識音声レベルと前記騒音平均レベル演算部の騒音平均
レベルの比を演算して調整値を出力する調整値演算部
と、音声認識エンジンの認識精度を任意に調整可能とし
た精度パラメータを前記調整値により調整する調整部を
備えたことを特徴とする音声認識装置としたものであ
る。
【0016】また、請求項2に係る発明は、前記騒音平
均レベル(N)と前記認識音声レベル(S)の比として
の調整値(K)を、K=(N+S)/Nの式により求め
る請求項1記載の音声認識装置としたものである。
【0017】また、請求項3に係る発明は、前記入力信
号切換部は、使用者の操作する音声入力操作スイッチに
より切換を行う請求項1記載の音声認識装置としたもの
である。
【0018】また、請求項4に係る発明は、前記精度パ
ラメータは、認識辞書部に存在する言葉と入力した音声
との精緻な比較処理の前に行われる、該比較処理を行う
言葉の候補の選択数であり、前記調整値により前記候補
の選択数を任意に調整する請求項1記載の音声認識装置
としたものである。
【0019】
【発明の実施の形態】本発明の実施の形態を図面に沿っ
て説明する。図1は本発明の音声認識装置をナビゲーシ
ョン装置に適用した例を示し、同図においては、ナビゲ
ーション制御装置1の各種機能部における音声認識処理
部2の機能ブロック図の概要を主として示している。同
図において、ナビゲーション制御装置1には、従来のも
のと同様に、地図や各種情報を記録したDVD−ROM
やCD−ROM等の記録媒体3、GPS等の自車の現在
位置を計測する自車位置検出装置4、前記記録媒体3に
記録されたデータのうち、自車位置を中心とする所定範
囲の地図データや利用者に指示された各種情報を表示す
るモニター5、音声認識処理部2に接続され主として利
用者の音声を入力するマイク6、また、音声認識処理部
2で認識された情報、或いはナビゲーション制御装置か
らの種々の情報を出力するスピーカ7を備えている。ま
た、図示実施例においては、利用者が操作する音声入力
操作スイッチ8を備え、マイク6から入力された音声の
区切りを音声認識処理部2に入力することができるよう
にしている。
【0020】なお、ナビゲーション制御装置1には、図
示されていないが従来のものと同様に、リモコンやタッ
チパネル等の外部入力手段を備え、その外部入力手段や
マイク6からの音声指示により入力された目的地、経由
地への最適誘導経路を探索する誘導経路探索部や、この
誘導経路に沿って車両が確実に走行できるように、ま
た、特に右左折交差点で確実に右左折できるように誘導
する交差点案内部、モニター5に表示する地図を3D表
示、2画面表示等種々の態様で表示し、各種情報を所定
の位置に表示する画像合成表示手段を備えている。ま
た、現在位置や指示された位置を中心とした地図や、各
種施設情報、更には各種辞書データを記録媒体3から読
み出すデータ読出手段を備えている。
【0021】ナビゲーション装置1内の音声認識処理部
2には、マイク6からアナログ/ディジタル変換器(A
/D)22を介して入力される音声、及び、後述するよ
うに音声が入力されていないとき周囲の雑音を入力する
ための音声入力部10を備えている。この音声入力部1
0に入力された音声等は、図中切換スイッチとして示さ
れている入力信号切換部11を介して、騒音信号を入力
するための騒音信号処理部12と、前記周囲の騒音と共
に主として利用者の音声を入力する音声認識用信号処理
・記憶部13とに切り換えられて入力する。
【0022】上記入力信号切替部11の切り換えに際し
ては、図示実施例においては利用者が音声を入力すると
きに、入力する各単語或いは文節の開始時に音声入力操
作スイッチ8を操作することによって、音声入力部10
からの信号を音声認識用信号処理・記憶部13に切り換
え、各単語或いは分節の終了時に利用者が再度音声入力
スイッチ8を押すことにより、騒音信号処理部12側に
切り換えることができるようになっている。
【0023】なお、この入力信号切換部11における入
力信号の出力先を、騒音信号処理部12と音声認識用信
号処理・記憶部13とに切り換えるに際しては、上記の
ように音声入力操作スイッチ8の操作に連動して切り換
える以外に、例えば利用者が一旦音声入力装置を立ち上
げたときには、以降はマイクから入力される信号におけ
る音声の無音部分を検出し、自動的に各単語或いは文節
の開始及び終了部分を識別することによって、前記切り
換え操作を行うことができるように構成することもでき
る。
【0024】上記のように、音声入力部10から入力さ
れる信号が、利用者の音声ではないときには、その信号
は周囲の騒音として騒音信号処理部12に入力され、こ
こで各種フィルター処理等の信号処理を行い、その後騒
音平均レベル演算・記憶部14に出力する。騒音平均レ
ベル演算・記憶部14においては、入力した騒音信号に
ついて、その大きさを表すレベル信号に変換し、これを
例えば2秒間等、所定時間内における平均レベルをとる
平均レベル演算を行い、これを記憶する。この平均レベ
ルの演算に際しては、例えば0.5秒毎の平均値を演算
することができ、また、例えば2秒間の平均値を演算
し、これを0.5秒毎に出力し、常に最新のデータに更
新するようにしても良い。この騒音平均レベル演算・記
憶部14の騒音平均レベル信号(N)は、調整値演算部
15に出力する。また、必要に応じて、音声認識用信号
処理・記憶部13、或いは音声認識エンジン16にも出
力し、騒音と共に入力された音声信号から騒音部分をで
きる限り取り除く処理のために使用することもできる。
する。
【0025】一方、入力信号切換部11によって、音声
入力部10の信号を音声認識用信号処理・記憶部13に
入力するように切り換えたときには、音声認識用信号処
理・記憶部13では、音声認識エンジン16の認識処理
に対応した状態に前処理を行い、これを一時記憶すると
共に、音声認識エンジン16が音声認識を開始するとき
これが取り込まれるようにする。
【0026】また、音声認識用信号処理・記憶部13で
は、前記騒音平均レベル演算・記憶部14から出力され
る騒音レベル信号(N)と対応した認識音声レベル信号
(S)を得るため、音声レベル演算部20に出力する。
音声認識用信号処理・記憶部13から音声レベル演算部
20に出力する信号としては、入力した信号をそのまま
出力するほか、必要に応じて騒音レベル分を減じたほぼ
音声信号の大きさを表す信号を出力しても良い。音声レ
ベル演算部20で得られた認識音声レベル信号(S)
は、前記騒音平均レベル信号(N)とともに調整値演算
部15に入力される。
【0027】上記のような音声認識処理部2における音
声入力部10に入力された音声等のディジタル信号が、
騒音信号処理部12及び音声認識用信号処理・記憶部1
3等に入力されて処理される状態を図4に示している。
即ち、音声入力部10には同図(a)に示すような音声
入力部信号が連続的に入力される。それに対して入力信
号切換部11により、騒音信号処理部12側に切り換え
られている状態では、騒音信号処理部12及び騒音平均
レベル演算・記憶部14において、同図(b)に示すよ
うに騒音信号の一定時間T内での積分と、その積分値に
基づく平均値としての平均レベル(N)の演算を行う。
図示実施例においては、入力信号切換部11において音
声認識用信号処理・記憶部13側に切り換えられるt3
迄のt0〜t1及びt1〜t2の間の各一定時間Tにお
いて平均レベルN1、N2が求められ、更新されつつ記
憶される。なお、t2とt3の間は前記時間Tが存在し
ないので、平均レベルの演算は行われず、その間は最新
のイズ平均レベル(N)が記憶されている。
【0028】図中t3において、入力信号切換部11が
音声認識用信号処理・記憶部13側に切り換えると、同
図(c)に示すように、t4において再び入力信号切換
部11が騒音信号処理部12側に切り換えるt4までの
間、入力された信号の各種信号処理を行う。ここにおい
て図示するような包絡線をとる信号処理を行ってもよい
が、後述する音声認識エンジン16内において行っても
よい。また、音声レベル演算部20では、前記t4以降
において、入力されたt3〜t4間の信号の平均レベル
(S)を演算する。t4以降は再び騒音の平均レベルの
演算を開始し、新しい騒音平均レベルN3,N4を記憶
部に更新しつつ記憶する。なお、図4に示す信号処理は
一実施例であり、そのほか種々の信号処理形態をとりう
ることは当然である。
【0029】調整値演算部15においては、前記のよう
にして入力した騒音平均レベル演算・記憶部14からの
騒音の大きさの平均を表す騒音平均レベル信号(N)
と、音声認識用信号処理・記憶部13からの主として音
声の大きさを表す認識音声レベル信号(S)に基づい
て、(N+S)/Nの演算を行う。この演算により、音
声入力が行われる直前における演算された所定期間内の
騒音平均レベル信号(N)と音声入力されたときの認識
音声レベル信号(S)とを加えたものが、前記騒音平均
レベル信号(N)に対する比としての調整値(K)が得
られる。
【0030】この調整値(K)は、騒音レベルに対して
認識音声レベルが小さいほど小さな値となり、逆に認識
音声レベルが大きいほど大きな値となる。なお、この時
演算に用いられる認識音声レベル信号(S)としては、
前記のように、騒音の入力レベル分を引く処理を行い、
ほぼ音声の入力レベルに対応した値と、その処理を行う
前の騒音の入力レベルも含んだ入力したままの値等が用
いられる。また、騒音平均レベル信号(N)に対する認
識音声レベル信号(S)の比を求めるに際しては、上記
のような式に基づく演算の他、例えばより単純に(S)
/(N)の式により演算を行ってもよく、また、より精
緻な周知の各種比率演算方法を用いることもできる。
【0031】このようにして得られた調整値(K)は、
音声認識エンジン16内において任意に調整可能に設定
されている精度パラメータ部17の調整を行うために設
けられた調整部19に出力する。音声認識エンジン16
は、前記のように、音声認識処理を行う制御装置であ
り、その精度パラメータについても前記のように、音声
認識エンジンにおいて制御精度に影響を与える種々のパ
ラメータのうち、処理速度高めるか音声認識精度を高め
か、いずれかを選択するように調整を行うことができる
ものを意味している。ここで、例えば処理速度を高める
よりもむしろ音声認識精度を高めるように調整すること
を、音声認識エンジンの「精度パラメータを大きく設定
する」と表現する。
【0032】したがって、この精度パラメータは、現在
各社から提供されている種々の音声認識方式において異
なり、また、各認識方式においてもその認識処理の過程
で設定する種々のパラメータのうち、前記のような特性
を有するパラメータを精度パラメータとし、これらのい
ずれかを、或いは全てを前記調整値(K)により調整可
能な精度パラメータとすることができる。
【0033】種々の音声認識方式のうち、例えば、入力
された音声信号を前記図2に示す音声認識信号処理のよ
うに、包絡線をとることによって音声パターンを得る方
式においては、例えば図3に示すような音声認識エンジ
ンを用いて、精度パラメータの調整等の各種処理を行う
ことができる。即ち、音声認識エンジン16の音声認識
信号入力部30に入った音声のディジタル信号は、この
実施例においては簡易音声パターン形成部31に入り、
音声信号の包絡線をとる音声2次元パターンの形成処理
を行う。この音声2次元パターンと認識辞書部18内に
記録されている各言葉の音声2次元パターンとを、簡易
音声パターン類似度演算部32において比較し、各言葉
の類似度を演算して類似度の大きい順に並べる。その結
果は詳細演算用候補リスト部33に入力されて、リスト
化される。
【0034】一方、前記のように調整値演算部15で演
算された調整値Kは音声認識エンジン16の精度パラメ
ータ調整部34に入力する。この精度パラメータ調整部
34においては、調整値Kに応じた精度パラメータの設
定、即ち騒音が大きいほど所定の割合で精度パラメータ
を大きくする調整を行い、精度パラメータ部としての詳
細演算候補数設定部35に出力し、前記詳細演算用候補
リストにおいて、類似度の高い言葉から上位何個の言葉
について、後述する詳細音声パターン類似度で演算を行
うかを決定する。この時、前記のように騒音が大きい状
態では利用者の音声パターンにノイズが多く入っている
ので、精度パラメータを大きく設定して、詳細演算候補
リストからは認識処理時における演算漏れが発生しない
ように、多くの候補を選別する。また、逆に騒音が少な
い状態では利用者の音声に混入しているノイズが小さ
く、認識精度が上がる状態となっているので、精度パラ
メータを小さく設定して、詳細演算候補リストからは少
ない候補だけを選別する。
【0035】また、音声認識信号入力部30からの音声
認識用信号は、詳細音声パターン形成部36に入り、帯
域の異なるm段のバタワースフィルタバンクで処理し、
適宜二乗平均計算等を行い、音声3次元パターンを形成
する。一方、認識辞書部18の各言葉にも前記音声2次
元パターンのほか、上記と同様の処理が行われて得られ
た音声3次元パターンも記憶しており、前記のように選
別された詳細演算用候補に基づいて、認識辞書部18か
ら詳細音声パターン類似度演算部37に出力し、前記詳
細音声パターン形成部36で形成された入力音声の3次
元パターンと比較する演算を行う。ここで前記のように
選別された候補について全て類似度の演算を行い、最も
パターン間の距離が近いもの、即ち類似しているものを
音声認識結果として音声認識結果出力部38から出力す
る。
【0036】なお、上記のような音声認識エンジン16
における音声認識処理、詳細演算用候補リストからの選
別、及び精度パラメータの調整等は一例に過ぎず、他の
種々の手段を採用できることは当然である。
【0037】音声認識エンジン16の精度パラメータ1
7は、上記のように調整値(K)によって調整を行う調
整部19により任意に変更され、その調整値(K)が大
きいほど、即ち騒音に対する音声のレベルが高いほど、
精度パラメータが小さくなるように設定し、騒音が比較
的少ない環境において入力されている音声に対して、認
識精度を過剰に高めることを防止し、それにより処理速
度を向上させるようにしている。このような精度パラメ
ータ17の調整は、調整値(K)に応じて任意の複数段
の調整を行うことができる。
【0038】上記のように調整された精度パラメータに
より、音声認識エンジン16は所定の認識処理を行い、
選択された言葉が音声出力部21に出力され、デジタル
/アナログ変換器(D/A)23を介してスピーカ7か
らその言葉を出力し、使用者に対して選択した言葉が適
切であるか否かの確認を行う。その確認が行われると、
使用者は必要に応じて更に次の単語、或いは文節の音声
入力、或いは音声認識後確認のために出力された言葉が
不適切な言葉であるときには、再度同じものを入力す
る。前記のように一つの単語或いは文節の入力が終わっ
て音声入力操作スイッチ8を使用者が押したときには、
入力信号切換部11によって音声入力部10からの信号
は騒音信号処理部12に出力するように切り換えられて
いるので、騒音平均レベル演算・記憶部14において
は、次の音声入力が行われる迄の間、最新の騒音信号に
基づき騒音平均レベル(N)の演算を行い、その演算値
が更新されて記憶されている。以降の音声入力に際して
は前記と同様の処理が行われ、入力直前の騒音の状態に
応じて、精度を高める側か、処理速度を高める側かの任
意の調整が自動的に行われる。
【0039】本発明においては、前記図1に示すような
機能ブロック構成とし、各機能ブロックが上記のような
機能を行い、図4に示すような作動フローによって処理
がなされる。以下、図4に示す作動フローを図1に示す
機能ブロックを参照しつつ説明する。この音声認識処理
に際して、このシステムを起動すると直ちにマイク6か
ら入力される騒音信号を含む全ての音声信号の入力を行
う(ステップS1)。通常、音声認識装置の起動時直後
には、使用者が音声入力操作スイッチ8を操作すること
がないので、その操作を行う間はマイク6から音声入力
部10に入った信号は、切換スイッチ11を介して騒音
信号処理部12に入力される。この信号は騒音平均レベ
ル演算・記憶部14において、例えば0.5秒間の騒音
の平均を演算する(ステップS2)。また、この演算値
を騒音平均レベル演算・記憶部14に更新して記憶する
(ステップS3)。この平均レベルの演算方法は、例え
ば常に2秒間の平均を演算し、これを0.5秒毎に出力
して以前の記憶値と更新する等、種々の方式で行うこと
ができる。
【0040】次いで、音声入力が開始されたか否かを判
別する(ステップS4)。その判別に際して、図1に示
す実施例においては、音声入力操作スイッチ8が押され
たか否かを検出して判別することができる。また、音声
認識処理開始後において、マイクか入力される信号を常
時検出し、所定レベル以上の信号が引き続き入力された
ときには、音声入力が開始されたと判別する等、種々の
自動検出手段を用いることもできる。
【0041】その判別の結果、未だ音声が入力されてい
ないと判別されたときには再びステップ1に戻り、引き
続き騒音の収集を行い、騒音平均レベルを演算し、新た
な値を更新して記憶する。ここで音声入力が開始された
と判別されたときには、入力信尾久切換部11を音声認
識用信号処理・記憶部13側に切換え、マイクから音声
入力部10を介して入力される音声信号をここに収集す
る(ステップS6)。この収集中に使用者が認識用音声
の一区切りを指示し、音声認識処理の開始を指示したか
否かを判別し(ステップS7)、音声認識処理の開始指
示がなされたと判別したときには、入力信号切換部11
を騒音信号処理部12側に切換える(ステップS8)と
ともに、入力した音声認識用信号をメモリに記憶し(ス
テップS9)、また、音声レベル演算部20に出力する
(ステップS10)。前記ステップS7において音声認
識処理の開始指示が未だ行われていないと判別されたと
きには、再びステップ6に戻り、音声認識用信号の収集
を継続する。
【0042】この音声認識処理の開始指示の検出手段と
しては、図1に示す実施例においては、使用者が音声入
力の一区切りを付けるために押圧する音声入力操作信号
スイッチ8の押圧を検出することにより行われ、また、
入力された信号を監視して所定以上のレベルの信号が連
続して存在するときに音声が入力されていると自動判別
を行うものにおいては、所定以上のレベルの信号が所定
時間以上存在しなくなったときに、使用者が音声の区切
りであることを指示していると判別することができる。
その後、音声レベル演算部20においては、両者の比が
適正に演算できるように、入力した音声信号が前記騒音
平均レベル演算・記憶部14の信号と適合するレベルに
音声人号を演算する。
【0043】次いで、調整値演算部15において、音声
レベルと騒音平均レベルの比としての調整値(K)の演
算を行う(ステップS11)。図1に示す実施例におい
ては、この調整値(K)はK=(N+S)/Nの演算に
よって得られる。但し、このような比の演算は、前記の
ように種々の方式を用いることができる。
【0044】その後、このようにして得られた調整値に
基づいて、音声認識エンジン16の精度パラメータ部1
8を調整部19によって調整する(ステップS12)。
この調整は、前記のように騒音平均レベルに対する音声
レベルが低いときには精度パラメータを大きくして、音
声認識処理速度を速くするよりも精度を向上するように
調整を行う。また、その逆のときは、音声認識精度を高
めるよりも音声認識処理速度を速くするように調整を行
う。この精度パラメータの調整は、現在提案されている
種々の音声認識方式に応じて任意に選択することができ
るものであるが、これについても前記のように、例え
ば、認識辞書部18に存在する言葉の音声パターンと、
入力した音声信号のパターンとを音声3次元類似度演算
処理等の精緻な比較処理を行う前に、予め簡易な処理に
より適宜の言葉の候補を選択する音声認識方式を採用す
る場合は、前記候補の数を設定する部分を精度パラメー
タ部とし、調整値が小さい場合は精度パラメータを大き
くし、より多くの候補を選択するようにする、等の手段
を採用することができる。
【0045】次いで、音声認識エンジン16では、音声
認識用信号処理・記憶部13に記憶されている音声信号
を取り込み、前記のように設定された精度パラメータに
応じて音声認識処理を行う(ステップS13)。その後
再びステップS1に戻り、音声データを収集して騒音平
均レベルの演算を行い、新しい騒音平均レベルを記憶す
るという、前記と同様の作動を繰り返す。
【0046】本発明は上記のような実施例の他、種々の
態様で用いることができ、特に音声認識エンジンの認識
方式に応じて種々の精度パラメータの設定を行うことが
でき、各音声認識エンジンにおいてもその中で処理され
る種々の設定により精度の調整を行うことができる部分
においては、これを精度パラメータとして前記のような
調整を行うようにすることもできる。更に、調整値の演
算も周知の種々の比の演算方式を採用することができ、
また、騒音平均レベルの演算も同様に、周知の種々の平
均値の演算方式を採用することができる。
【0047】また、上記実施例においては、本発明の音
声認識装置をナビゲーション装置に適用した例を示した
が、このようなものに限らず、一般用パソコンや携帯用
パソコンを初め、種々の携帯用端末等に使用することが
でき、また、特に騒音の大きな場所で使用する機会が大
きい、各種機器における音声インターフェースとして音
声認識装置を使用する場合には、本発明の使用は効果的
である。
【0048】
【発明の効果】本願の請求項1に係る発明は、音声認識
装置が使用される環境の騒音平均レベルと認識音声レベ
ルとの比である調整値に応じて、音声認識エンジンの精
度パラメータを自動的に適切な値に調整することがで
き、それにより、騒音が少ないときには、精度パラメー
タを小さくして認識処理を高速にし、逆に騒音が多いと
きには、精度パラメータを大きくして認識精度を高める
ことを自動的に行うことができる。
【0049】また、請求項2に係る発明は、騒音平均レ
ベル(N)と認識音声レベル(S)の比としての調整値
(K)を、K=(N+S)/Nの式により求めるので、
精度パラメータの調整を適正に行うことができる。
【0050】また、請求項3に係る発明は、前記入力信
号切換部は、使用者の操作する音声入力操作スイッチに
より切換を行うので、入力音声の区切りが明確となり、
正確な音声入力を行うことができる。
【0051】また、請求項4に係る発明は、精度パラメ
ータを、認識辞書部に存在する言葉と入力した音声との
精緻な比較処理の前に行われる、比較処理を行う言葉の
候補の選択数とし、調整値によって前記候補の選択数を
任意に調整するようにしたので、騒音レベルに応じて適
切な精度と処理速度のバランスを、簡単な手段により容
易に行うことができる。
【図面の簡単な説明】
【図1】本発明の音声認識装置をナビゲーション装置に
適用した実施例における、音声認識処理部の機能ブロッ
ク図である。
【図2】本発明の音声認識装置に入力される信号と、信
号処理状態をを示す波形図である。
【図3】本発明の音声認識装置における音声認識エンジ
ンの一実施例を示す機能ブロック図である。
【図4】本発明の実施例の作動フロー図である。
【符号の説明】
2 音声認識処理部 6 マイク 8 音声入力操作スイッチ 10 音声入力部 11 切換スイッチ 12 騒音信号処理部 13 音声認識用信号処理・記憶部 14 騒音平均レベル演算・記憶部 15 調整値演算部 16 音声認識エンジン 17 精度パラメータ部 19 調整部

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 マイクからの周囲の騒音信号及び使用者
    の音声信号を入力する音声入力部と、音声入力部の騒音
    信号を処理する騒音信号処理部と、音声入力部の認識用
    音声を入力する認識音声信号処理部と、音声入力部に入
    力された信号を使用者の音声信号の入力時には認識音声
    信号処理部に出力し、また使用者の音声の非入力時には
    騒音信号処理部に出力するように切り換える入力信号切
    換部と、騒音信号処理部に入力された騒音信号に基づき
    所定時間の騒音平均レベルを演算する騒音平均レベル演
    算部と、前記音声認識用信号の認識音声レベルと前記騒
    音平均レベル演算部の騒音平均レベルの比を演算して調
    整値を出力する調整値演算部と、音声認識エンジンの認
    識精度を任意に調整可能とした精度パラメータを前記調
    整値により調整する調整部を備えたことを特徴とする音
    声認識装置。
  2. 【請求項2】 前記騒音平均レベル(N)と前記認識音
    声レベル(S)の比としての調整値(K)を、K=(N
    +S)/Nの式により求める請求項1記載の音声認識装
    置。
  3. 【請求項3】 前記入力信号切換部は、使用者の操作す
    る音声入力操作スイッチにより切換を行う請求項1記載
    の音声認識装置。
  4. 【請求項4】 前記精度パラメータは、認識辞書部の言
    葉と入力した音声との精緻な比較処理の前に行われる、
    該比較処理を行う言葉の候補の選択数であり、前記調整
    値により前記候補の選択数を任意に調整する請求項1記
    載の音声認識装置。
JP2000016352A 2000-01-25 2000-01-25 音声認識装置 Pending JP2001209394A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000016352A JP2001209394A (ja) 2000-01-25 2000-01-25 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000016352A JP2001209394A (ja) 2000-01-25 2000-01-25 音声認識装置

Publications (1)

Publication Number Publication Date
JP2001209394A true JP2001209394A (ja) 2001-08-03

Family

ID=18543500

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000016352A Pending JP2001209394A (ja) 2000-01-25 2000-01-25 音声認識装置

Country Status (1)

Country Link
JP (1) JP2001209394A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012134936A (ja) * 2010-11-29 2012-07-12 Ricoh Co Ltd Tv会議装置
CN110232926A (zh) * 2013-06-26 2019-09-13 思睿逻辑国际半导体有限公司 语音识别

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012134936A (ja) * 2010-11-29 2012-07-12 Ricoh Co Ltd Tv会議装置
CN110232926A (zh) * 2013-06-26 2019-09-13 思睿逻辑国际半导体有限公司 语音识别

Similar Documents

Publication Publication Date Title
JP4260788B2 (ja) 音声認識機器制御装置
JP4131978B2 (ja) 音声認識機器制御装置
JP3943492B2 (ja) ディクテーションとコマンドの区別を向上させる方法
US7822613B2 (en) Vehicle-mounted control apparatus and program that causes computer to execute method of providing guidance on the operation of the vehicle-mounted control apparatus
US7272561B2 (en) Speech recognition device and speech recognition method
CN101136198A (zh) 语音识别方法及语音识别装置
JP3322140B2 (ja) 車両用音声案内装置
WO2010128560A1 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP2004325936A (ja) 音声認識装置、音声認識方法、並びに、音声認識プログラムおよびそれを記録した記録媒体
US6879953B1 (en) Speech recognition with request level determination
US11996099B2 (en) Dialogue system, vehicle, and method of controlling dialogue system
JP4770374B2 (ja) 音声認識装置
JP2000029486A (ja) 音声認識システムおよび方法
JP2001209394A (ja) 音声認識装置
JP2016157097A (ja) 音読評価装置、音読評価方法、及びプログラム
JPH07319383A (ja) 地図表示装置
JP3296783B2 (ja) 車載用ナビゲーション装置および音声認識方法
JP2002149191A (ja) 音声入力装置
JP4093394B2 (ja) 音声認識装置
KR20050078195A (ko) 음성 인식 장치, 프로그램, 기억 매체 및 네비게이션 장치
WO2019058453A1 (ja) 音声対話制御装置および音声対話制御方法
JP3846500B2 (ja) 音声認識対話装置および音声認識対話処理方法
JP2005053331A (ja) 車載機器用情報提示装置
JP2001075589A (ja) 音声認識方法及び音声認識装置
JPH0854894A (ja) 音声処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040729

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061106

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061222

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070123