JPH11109987A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH11109987A
JPH11109987A JP9271744A JP27174497A JPH11109987A JP H11109987 A JPH11109987 A JP H11109987A JP 9271744 A JP9271744 A JP 9271744A JP 27174497 A JP27174497 A JP 27174497A JP H11109987 A JPH11109987 A JP H11109987A
Authority
JP
Japan
Prior art keywords
voice
data
keyword
input
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9271744A
Other languages
English (en)
Inventor
Takeshi Sugihara
岳 杉原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Home Electronics Ltd
NEC Corp
Original Assignee
NEC Home Electronics Ltd
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Home Electronics Ltd, Nippon Electric Co Ltd filed Critical NEC Home Electronics Ltd
Priority to JP9271744A priority Critical patent/JPH11109987A/ja
Publication of JPH11109987A publication Critical patent/JPH11109987A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 車室内等のノイズが多く、不特定の話者を対
象にしても精度良く特定のユーザーを認識することがで
きる音声認識装置を提供する。 【解決手段】 話者がキーワードを発声すると、キーワ
ードとなる固有名詞と起動命令を入力順に関係なく連続
して例えば音声入力マイク11が集音した音声入力が音
声認識回路106において音声認識され、キーワードで
あることが確認される。次にキーワードに続いてなされ
た音声入力は、音声認識回路106で音声認識される
と、この認識結果を学習部111においてユーザーに確
認した結果かもしくは音声入力マイク11からの音声入
力と一致していたかを判定し、認識結果が正解と判断し
たときはこの波形データを音素データ部107に加えて
平均化を行い、誤りと判断した場合には次候補もしくは
再入力によって得られた認識結果を同様に音素データ部
107に加えて平均化を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識装置に関
し、特に車室内等のノイズが多く複数の話者を対象にし
ても特定のユーザーを認識することができる音声認識装
置に関する。
【0002】
【従来の技術】自動車電話装置では、通話中の運転操作
ミスに基づく交通事故の可能性が指摘されており、受話
器から手を離したまま相手先と通話できるハンズフリー
電話機が注目されている。この種のハンズフリー電話機
には、話者が電話をかけようとする相手先の電話番号を
喋ると、機械がこの電話番号を自動的に音声認識して自
動入力して電話をかけるような音声認識装置が組み込ま
れている。この種の音声認識装置としては、運転席や助
手席或いは後部座席に乗っている乗員の誰もが通話でき
るようにするため、音声の特徴データを事前に登録した
特定話者だけを音声認識する特定話者方式ではなく、不
特定の話者を事前登録の有無に関係なく音声認識する不
特定話者方式が用いられる。一般に、不特定話者認識の
場合、話者音声以外の周囲の会話音や車載音響機器から
流れる音声或いはナビゲーション装置から流れる案内音
声といったいわゆる暗ノイズを適切に除去して、話者音
声を認識している。
【0003】
【発明が解決しようとする課題】しかしながら、このよ
うな不特定話者対応の音声認識装置では、不特定の話者
に対応するため、狭い車室内で使用した場合にターゲッ
トとなるユーザーが特定できず、誰の声にも反応してし
まうという課題があった。また走行ノイズや音声の反射
波が大きいため、ターゲットとなる音声が取り出しづら
い等の課題があった。
【0004】そこで、このような課題を解決するため
に、例えば特開昭59−180600号公報には、音声
信号によるキーワードの検出時のみ一定時間にわたって
入力される音声信号の認識動作を実行するように構成す
ることにより、雑音の多い車内使用に対し、誤動作を防
止する認識装置が、特開昭58−125099号公報に
は、キーワードとなる所定単語の音声の1回目の入力レ
ベルに応じて音声信号の増幅率を制御して所定単語の音
声の2回目以降の入力からキーワードの照合を行なうこ
とにより、照合の精度および認識率低下を防止する認識
装置が、また、実開平7−36199号公報には、第1
および第2の2つのキーワードを発声するにあたって第
1のキーワードが認識されている場合には、初めから2
つのキーワードを発声し直す必要のない認識装置が考え
られている。
【0005】しかしながら、これらの音声認識装置で
は、特定話者方式のようにユーザーの特徴に合わせて学
習機能がないため、認識率が悪いという課題があった。
【0006】それ故、本発明の目的は、車室内等のノイ
ズが多く、不特定の話者を対象にしても精度良く特定の
ユーザーを認識することができる音声認識装置を提供す
ることにある。
【0007】
【課題を解決するための手段】したがって、本発明は、
上記の目的を達成するために、複数の音声入力マイク
と、この音声入力マイクのうちの1つより入力されたキ
ーワードを発した話者の音声信号をデジタルの音声デー
タに変換するAD変換器と、各種音声の波形データが格
納されている音素データ部と、音声の波形データに一致
する文字が辞書データとして格納されている音声認識辞
書部と、AD変換器からの音声データと音素データ部に
格納された波形データとを比較して文字列を生成し、こ
の文字列と音声認識辞書部に格納された辞書データと比
較して、最も類似した辞書データを認識結果とし、その
辞書データをキーワードを発した話者の音声を入力する
音声入力マイクより音声入力された文字列とすると共に
波形データを一時保存する音声認識回路と、この音声認
識回路で得られた認識結果の正誤に応じて波形データま
たは次候補若しくは再入力によって得られた認識結果を
前記音素データ部に加えて平均化を行う学習部とを具備
したことを特徴とする。
【0008】
【発明の実施の形態】次に、本発明にかかる音声認識装
置の一実施の形態について図面を参照して説明する。
【0009】図1は、本発明にかかる音声認識装置の一
実施の形態を示すブロック図である。
【0010】本発明の音声認識装置は、図1に示すよう
に、複数の話者を想定して複数(n個)ここでは4本が
車室内の各乗員席に近い場所に設置された音声入力マイ
ク11〜14と、この音声入力マイク11〜14で集音
された音声入力を増幅するアンプ回路102と、アンプ
回路102で増幅された音声入力をを音声データとノイ
ズデータとに分けて、その音声データからノイズデータ
を取り除き音声信号を抽出するミキサ部103と、使用
する周波数帯域以外を抑圧して、ミキサ部103で抽出
された音声信号を見やすくする帯域遮波回路104と、
音声入力マイク11〜14のうちの1つより入力された
キーワードを発した話者の音声信号(アナログ信号)を
デジタルの音声データに変換するAD変換器105と、
各種音声の波形データが格納されている音素データ部1
07と、音声の波形データに一致する文字が辞書データ
として格納されている音声認識辞書部108と、AD変
換器105から出力された音声データと音素データ部1
07に格納された波形データとを比較して文字列を生成
し、この文字列と音声認識辞書部108に格納された辞
書データと比較して、最も類似した辞書データを一定の
しきい値以上で認識された結果とし、その辞書データを
キーワードを発した話者の音声を入力する音声入力マイ
クより音声入力された文字列として音声認識を行なうと
共に前記波形データを一時保存する音声認識回路106
と、マイク入力アンプ回路102の出力を監視する入力
ゲイン監視部109と、話者を特定するためのキーワー
ドの入力時に入力ゲイン監視部109から得られた情報
を基に音声入力マイクと音声ノイズマイクを切り替えた
り、遷移によって音声認識辞書106の入れ替えを行う
メイン制御部110と、音声入力によって音声認識回路
106で得られた認識結果とマイクからの音声入力が一
致していたかを判定し、認識結果が正解と判断したとき
は波形データを音素データ部107に加えて平均化を行
い、誤認識を行ったと判断したときは次候補もしくは再
入力によって得られた認識結果を音素データ部107に
加えて平均化を行う学習部111とから構成される。
【0011】次に、上記構成における本発明の音声認識
装置の動作について図面を参照して説明する。
【0012】本発明の音声認識装置の動作は、話者がキ
ーワードを発声するまで待機状態を保つ。この待機状態
にあっては、複数の音声入力マイク11〜14のうち、
予め指定した特定の音声入力マイクここでは11だけを
音声入力マイクおよび音声入力レベル測定用に割り当
て、残りの音声入力マイク12〜14を音声入力レベル
測定専用に指定する。そこで、話者がキーワードを発声
すると、キーワードとなる固有名詞と起動命令を入力順
に関係なく連続して上記指定済みの音声入力マイク11
が集音した音声入力が音声認識回路106において音声
認識され、キーワードであることが確認される。このキ
ーワードは、例えばユーザー固有の固有名詞と起動命令
の2個に限定すれば、ユーザーがキーワードを記憶しや
すいだけでなく、2個のキーワードを連続して認識する
までアプリケーション処理を開始しない状態を維持させ
誤動作を減少させることができる。
【0013】音声認識回路106がキーワードの発声を
認識すると、音声認識回路106はメイン制御部110
に対して音声認識処理に必要なアプリケーションプログ
ラムの起動を命ずると共に音素データ部107内のデー
タをデフォルトからそのキーワードを過去に使用した時
のデータへ入れ替える。
【0014】そして、キーワードを受け付けたときの入
力ゲインより入力ゲイン監視部109において最も適合
すると判断したマイクを音声入力マイク1j、他方をノ
イズマイク1k(k≠j)として決定し、その結果にし
たがってメイン制御部110において音声入力マイク1
jとノイズマイク1kを切換える。このようにして、キ
ーワードを発した話者が発する音声の入力に最適な音声
入力マイク1jが指定される。
【0015】そこで、指定された音声入力マイク1jで
話者音声が集音されると、メイン制御部110は、入力
ゲイン監視部109で得た情報を基に最適なノイズマイ
ク1kから入力されるノイズデータのゲイン配分を行
い、このノイズデータをミキサ部103にて音声データ
から引くことによりS/Nを改善し、話者の音声だけを
音声認識する。
【0016】このミキサ部103でノイズデータを取り
除いた音声信号は、帯域遮波回路104,AD変換器1
05を通して音声認識回路106へ音声データとして入
力される。
【0017】音声認識回路106は、上記AD変換器1
05からの音声データと音素データ部107に格納され
た波形データとを比較して文字列を生成し、この文字列
と音声認識辞書部108に格納された辞書データと比較
して、最も類似した辞書データを一定のしきい値以上で
認識された結果とし、その辞書データを音声入力マイク
1jより音声入力された文字列とする。この結果に基づ
く波形データは、音声認識回路106内のメモリ(図示
せず)に一時保存される。
【0018】この認識結果をユーザーに確認した結果か
もしくは音声入力マイク1jからの音声入力と一致して
いたかを判定し、認識結果が正解と判断したときは学習
部111においてこの波形データを音素データ部107
に加えて平均化を行う。
【0019】他方誤りと判断した場合には学習部111
において次候補もしくは再入力によって得られた認識結
果を同様に音素データ部107に加えて平均化を行う。
【0020】この様にすることで、キーワード毎にユー
ザーに合致した音素データを順次生成することが可能と
なる。
【0021】なお、上記実施の形態では、音声認識装置
を自動車電話用の音声入力装置に適用した場合を例にと
ったが、本発明の音声入力装置は、他の例えば車載ナビ
ゲーション装置用の音声入力装置に適用することもで
き、要は音声認識を必要とする音声入力装置一般に適用
できるものである。また、音声認識装置に使用する音声
入力マイクは4本に限定されず、2本以上の他の複数本
であってもよい。
【0022】
【発明の効果】以上説明した通り、本発明の音声認識装
置によれば、キーワード毎にユーザーに合致した音素デ
ータを順次生成することが可能となるため、特定話者方
式では必須な事前の音声登録無しに不特定話者対応の音
声認識装置として使用でき、且つ順次ユーザーの声や特
徴を学習していくため特定話者方式に近い認識率を得る
ことを可能とする効果がある。
【図面の簡単な説明】
【図1】本発明にかかる音声認識装置の一実施の形態を
示すブロック図である。
【符号の説明】
11〜14 音声入力マイク 102 マイク入力アンプ回路 103 ミキサ部 104 帯域遮波回路 105 AD変換器 106 音声認識回路 107 音素データ部 108 音声認識辞書部 109 入力ゲイン監視部 110 メイン制御部 111 学習部

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 複数の音声入力マイクと、 この音声入力マイクのうちの1つより入力されたキーワ
    ードを発した話者の音声信号をデジタルの音声データに
    変換するAD変換器と、 各種音声の波形データが格納されている音素データ部
    と、 音声の波形データに一致する文字が辞書データとして格
    納されている音声認識辞書部と、 前記AD変換器からの音声データと前記音素データ部に
    格納された波形データとを比較して文字列を生成し、こ
    の文字列と前記音声認識辞書部に格納された辞書データ
    と比較して、最も類似した辞書データを認識結果とし、
    その辞書データをキーワードを発した話者の音声を入力
    する音声入力マイクより音声入力された文字列とすると
    共に前記波形データを一時保存する音声認識回路と、 この音声認識回路で得られた認識結果の正誤に応じて波
    形データまたは次候補若しくは再入力によって得られた
    認識結果を前記音素データ部に加えて平均化を行う学習
    部とを具備したことを特徴とする音声認識装置。
JP9271744A 1997-10-03 1997-10-03 音声認識装置 Pending JPH11109987A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9271744A JPH11109987A (ja) 1997-10-03 1997-10-03 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9271744A JPH11109987A (ja) 1997-10-03 1997-10-03 音声認識装置

Publications (1)

Publication Number Publication Date
JPH11109987A true JPH11109987A (ja) 1999-04-23

Family

ID=17504234

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9271744A Pending JPH11109987A (ja) 1997-10-03 1997-10-03 音声認識装置

Country Status (1)

Country Link
JP (1) JPH11109987A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001166795A (ja) * 1999-12-08 2001-06-22 Clarion Co Ltd 車載用電子装置
JP2005250397A (ja) * 2004-03-08 2005-09-15 Nec Corp ロボット
WO2012165657A1 (ja) * 2011-06-03 2012-12-06 日本電気株式会社 音声処理システム、音声処理装置、音声処理方法およびそのプログラム
JP2013145333A (ja) * 2012-01-16 2013-07-25 Mitsubishi Electric Corp 空調機器制御アダプタ及び空調機器

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001166795A (ja) * 1999-12-08 2001-06-22 Clarion Co Ltd 車載用電子装置
JP2005250397A (ja) * 2004-03-08 2005-09-15 Nec Corp ロボット
WO2012165657A1 (ja) * 2011-06-03 2012-12-06 日本電気株式会社 音声処理システム、音声処理装置、音声処理方法およびそのプログラム
JP2013145333A (ja) * 2012-01-16 2013-07-25 Mitsubishi Electric Corp 空調機器制御アダプタ及び空調機器

Similar Documents

Publication Publication Date Title
US20050216271A1 (en) Speech dialogue system for controlling an electronic device
EP1901282B1 (en) Speech communications system for a vehicle
US8639508B2 (en) User-specific confidence thresholds for speech recognition
US6839670B1 (en) Process for automatic control of one or more devices by voice commands or by real-time voice dialog and apparatus for carrying out this process
US8688451B2 (en) Distinguishing out-of-vocabulary speech from in-vocabulary speech
US7050550B2 (en) Method for the training or adaptation of a speech recognition device
US8738368B2 (en) Speech processing responsive to a determined active communication zone in a vehicle
JP3674990B2 (ja) 音声認識対話装置および音声認識対話処理方法
US20070005206A1 (en) Automobile interface
US20080103781A1 (en) Automatically adapting user guidance in automated speech recognition
US9245526B2 (en) Dynamic clustering of nametags in an automated speech recognition system
US20070198268A1 (en) Method for controlling a speech dialog system and speech dialog system
US20070118380A1 (en) Method and device for controlling a speech dialog system
JPH1152976A (ja) 音声認識装置
JPH11126092A (ja) 音声認識装置および車両用音声認識装置
JP3524370B2 (ja) 音声起動システム
JP6459330B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP2018116130A (ja) 車内音声処理装置および車内音声処理方法
JP2000322078A (ja) 車載型音声認識装置
AU5894499A (en) A method and a system for voice dialling
JPH11109987A (ja) 音声認識装置
JP2018116206A (ja) 音声認識装置、音声認識方法及び音声認識システム
JP2003029776A (ja) 音声認識装置
JP3285704B2 (ja) 音声対話のための音声認識方法及び装置
JP4765394B2 (ja) 音声対話装置

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20020305