JPH11305793A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH11305793A
JPH11305793A JP10106641A JP10664198A JPH11305793A JP H11305793 A JPH11305793 A JP H11305793A JP 10106641 A JP10106641 A JP 10106641A JP 10664198 A JP10664198 A JP 10664198A JP H11305793 A JPH11305793 A JP H11305793A
Authority
JP
Japan
Prior art keywords
digits
circuit
recognition
continuous
candidates
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10106641A
Other languages
English (en)
Other versions
JP4300596B2 (ja
Inventor
Eiji Yamamoto
英二 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP10664198A priority Critical patent/JP4300596B2/ja
Publication of JPH11305793A publication Critical patent/JPH11305793A/ja
Application granted granted Critical
Publication of JP4300596B2 publication Critical patent/JP4300596B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 発話された数字の誤認識を少なくして操作性
を向上させることができる音声認識装置を提供する。 【解決手段】 連続数字認識処理回路41は、認識結果
が最も正しいものから順番に複数の連続数字の候補を出
力して認識候補選択回路42に供給する。認識候補選択
回路42は、桁数指定回路43で連続数字の桁数の指定
がないときは、連続数字認識処理回路41から供給され
る複数の連続数字の候補の中から最も認識結果が正しい
可能性のもの選択して出力し、また、桁数指定回路43
で連続数字の桁数が指定されているときは、複数の連続
数字の候補の中から桁数指定回路43で指定された桁数
であって最も認識結果が正しい可能性のもの選択して出
力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ナビゲーションシ
ステム等に用いて好適な音声認識装置に関する。
【0002】
【従来の技術】従来より、自動車等に搭載させるナビゲ
ーションシステムが各種開発されている。ナビゲーショ
ンシステムは、例えば道路地図データが記憶されたCD
−ROM等の大容量データ記憶手段と、現在位置の検出
手段と、検出した現在位置の近傍の道路地図をデータ記
憶手段から読み出したデータに基づいて表示する表示手
段とから構成され、目的地までの道案内や現在地等を表
示手段に表示させるものである。
【0003】ユーザはこのようなナビゲーションシステ
ムに対して予め目的地の地名を入力する必要があるが、
現在では、目的地の電話番号を入力すればその目的地が
自動的に設定されるものが既に開発されている。
【0004】また、ナビゲーションシステムは自動車の
運転を妨げることなく操作できるようにする必要がある
ため、手操作によって電話番号を入力するだけでなく、
発話された電話番号を認識して入力することができるも
のが提案されている。
【0005】
【発明が解決しようとする課題】発話した電話番号を入
力することができるナビゲーションシステムは、一般
に、認識可能な数字の桁数の制限がなく、かつ、連続し
て発話された数字を認識することができる音声認識装置
が設けられている。
【0006】上記音声認識装置は、発話された数字の認
識を実行する際、発話区間前後の外来ノイズによって誤
認識することがあり、発話した数字の桁数以上の数字を
認識することがある。このとき、何らかの手段によって
訂正する必要があり、ユーザにとっては、この訂正を行
うための操作が非常に煩わしく、自動車の運転を妨げる
ことになりかねない。
【0007】また、上述のような音声認識装置は、携帯
電話を手にすることなく自動車を運転しながらの電話を
可能にするためのいわゆるハンズ・フリー・キットにも
設けられており、上述したナビゲーションシステムと同
様の問題が生じている。
【0008】本発明は、このような実情に鑑みて提案さ
れたものであり、発話される連続した数字の誤認識を少
なくして、訂正の操作を省いて操作性を向上させること
ができる音声認識装置を提供することを目的とする。
【0009】
【課題を解決するための手段】上述の課題を解決するた
めに、本発明に係る音声認識装置は、入力される音声信
号に基づいて連続する数字を認識し、複数の連続数字の
候補を出力する連続数字認識手段と、数字の桁数を指定
する桁数指定手段と、上記連続数字認識手段から出力さ
れた複数の連続数字の候補の中で、上記桁数指定手段で
指定された桁数の連続数字であって、かつ、認識確率が
高いものを選択する選択手段とを備える。
【0010】
【発明の実施の形態】以下、本発明の実施の形態につい
て、図面を参照しながら説明する。本発明は、例えば図
1に示す構成のナビゲーションシステム1に適用するこ
とができる。
【0011】ナビゲーションシステム1は、自動車に搭
載され、その自動車現在位置を表示して目的地までの道
順を示すものである。ナビゲーションシステム1は、運
転手等の音声によって所定の操作を行うことができ、そ
の音声を認識する音声認識装置10と、音声の認識結果
に基づいて現在地等を表示するナビゲーション装置20
により構成される。
【0012】音声認識装置10は、自動車の運転席に設
けられるハンズフリーマイク11と、音声信号をディジ
タル化するアナログ/ディジタル(A/D)コンバータ
12と、音声信号の分析を行う音響分析回路13と、音
声信号の内容を認識する音声認識回路14とを備える。
【0013】ハンズフリーマイク11は、単一指向性を
有するものであって、運転手の声を音声信号に変換して
A/Dコンバータ12に供給する。また、ハンズフリー
マイク11に、スイッチ11aが設けられている。な
お、利用者は、数字等の音声を発話する間はスイッチ1
1aをオンにする必要がある。これにより、スイッチ1
1aがオンになっている間、音声認識回路14は、ハン
ズフリーマイク11に発話された連続数字を認識するよ
うになっている。そして、A/Dコンバータ12は、ハ
ンズフリーマイク11からの音声信号をディジタル化し
て、この音声信号を音響分析回路13に供給する。
【0014】音響分析回路13は、図2に示すように、
周波数分析部31と、アダプテーション部32と、ノイ
ズサブトラクション部33と、特徴抽出部34とを備え
る。
【0015】周波数分析部31は、周波数分析方法とし
て一般的なFFTを用いて上記音声信号の周波数分析を
行い、音声信号のパワースペクトルを得る。
【0016】アダプテーション部32は、ハンズフリー
マイク11に固有のマイクアダプテーションデータをメ
モリに格納しており、マイク固有の特性を正規化するた
めのマイクアダプテーション処理を実行する。なお、ア
ダプテーションデータは、ハンズフリーマイク11の周
波数特性が平坦な標準マイクの特性になるように求めた
ものである。すなわち、マイクアダプテーションデータ
は、マイクの種類によって異なり、複数のマイクを用い
る場合はそれぞれ用意する必要がある。
【0017】ノイズサブトラクション部33は、音声区
間ではない信号区間をノイズ区間としてこのノイズ区間
のスペクトルを求めておいて、音声区間でこのノイズス
ペクトルを引く処理を行う。
【0018】特徴抽出部34は、周波数分析結果のパワ
ースペクトルをそのまま持っていたのではパラメータの
次元が多く、音声認識回路14の計算量が増えるため、
適当な次元に圧縮処理を行う。特徴抽出部34は、例え
ばケプストラムを用い、特に、音声認識では周波数軸に
聴覚的な特性の重み付けをしたメルケプストラムを用い
て圧縮処理を実行し、コード化されたケプストラム係数
とメルケプストラム係数を出力して、音声認識回路14
に供給する。
【0019】音声認識回路14は、上記ケプストラム係
数とメルケプストラム係数から、ハンズフリーマイク1
1に入力された音声をHMM(Hidden Markov Model )
法に基づいて認識する。すなわち、音声認識回路14
は、メモリ14aに予め記憶されたモデル(HMM)を
用いて、ハンズフリーマイク11に入力された音声を認
識して、この認識結果をシステムコントローラ28に供
給する。
【0020】上記音声認識回路14は、具体的には図3
に示すように、音響分析回路13からのケプストラム係
数等に基づいて連続する数字の認識を行う連続数字認識
処理回路41と、認識された複数の候補の中から所定の
ものを選択する認識候補選択回路42と、数字の桁数を
指定するための桁数指定回路43とを備える。
【0021】連続数字認識処理回路41は、例えば図4
に示すように、認識結果が最も確からしいものから順番
に複数の連続数字の候補を出力する。図4において、候
補番号1である連続数字3桁の認識結果が最も正しい可
能性が高く、候補番号2,3・・・となるにつれて正し
い可能性が低くなる。連続数字認識処理回路41は、こ
のような複数の連続数字の候補を認識候補選択回路42
に供給する。
【0022】認識候補選択回路42は、桁数指定回路4
3で連続数字の桁数の指定がないときは、連続数字認識
処理回路41から供給される複数の連続数字の候補の中
から最も認識結果が正しい可能性のもの選択して、この
連続数字をナビゲーション装置20に供給する。また、
連続数字認識処理回路41は、桁数指定回路43で連続
数字の桁数が指定されているときは、複数の連続数字の
候補の中から桁数指定回路43で指定された桁数であっ
て最も認識結果が正しい可能性のもの選択して、この連
続数字をナビゲーション装置20に供給する。
【0023】桁数指定回路43は、認識候補選択回路4
2で選択されて出力された連続数字に基づいて、認識候
補選択回路42に次に供給される連続数字の桁数を指定
する。
【0024】具体的に、東京23区の電話番号を認識す
る場合を例に挙げて説明する。東京23区の電話番号
は、市外局番が「03」の2桁であり、その後は4桁+
4桁の8桁で構成される。
【0025】ユーザがハンズフリーマイク11に「0
3」を発話すると、連続数字認識処理回路41は、供給
されるケプストラム係数等に基づいて複数の連続数字の
候補を認識候補選択回路42に供給する。このとき、桁
数指定回路43は最初は連続数字の桁数を指定していな
いので、認識候補選択回路42は、複数の連続数字候補
の中から最も認識結果が正しい可能性のあるもの例えば
「03」を選択して出力する。桁数指定回路43は、認
識候補選択回路42が出力した「03」に基づき次に入
力される連続数字は4桁であると判断して、連続数字の
桁数を4桁に指定する。なお、桁数指定回路43は、最
初の入力が例えば「06」だったときは次に3桁の指定
を行い、最初の入力が「0492」だったときは次に2
桁の指定を行う。すなわち、最初の市外局番に応じて次
の桁数を指定するようになっている。
【0026】つぎに、ユーザがハンズフリーマイク11
に「1234」を発話すると、認識候補選択回路42
は、同様に複数の連続数字の候補を認識候補選択回路4
2に供給する。認識候補選択回路42は、複数の連続数
字の候補の中から桁数指定回路43で指定された桁数で
あって最も認識結果が正しい可能性のもの「3456」
選択して出力する。ここで、認識候補選択回路42は、
ある連続数字がたとえ候補番号1であったとしても、4
桁以外の数字は誤ったものとして判断する。例えば上述
した図4に示すように、候補番号1の連続数字が「12
3」であったとしても誤ったものとして判断し、4桁で
あって最も正しい可能性のある候補番号4の「345
6」を選択して出力する。
【0027】そして、桁数指定回路43は、認識候補選
択回路42が出力した「3456」に基づいて次に入力
される連続数字も4桁であると判断して、連続数字の桁
数を4桁に指定する。同様にして、最後に発話される4
桁の連続数字も認識する。
【0028】以上のように、音声認識回路14は、連続
数字の桁数に関する情報を加味して音声認識処理を行う
ことによって、音声認識結果の選択の条件を付加して音
声認識率の向上を図ることができる。すなわち、認識さ
れる連続数字とその数字の桁数の両方の条件から最適な
連続数字を探し出すことができる。
【0029】また、上記ナビゲーション装置20は、G
PSアンテナ21と、GPS受信回路22と、CD−R
OM(Compact Disc-Read Only Memory )から地図デー
タ等を読み出すCD−ROMドライブ23と、自律セン
サ24と、音声を出力する応答部25と、地図と共に現
在位置等を表示する表示部26と、図示しない携帯電話
と接続するための携帯電話接続ユニット27と、全体を
制御するシステムコントローラ28とを備える。
【0030】GPS受信回路22は、GPS用衛星から
測定用信号をGPSアンテナ21を介して受信し、この
信号を解析して現在位置を検出する。なお、この現在位
置を示すデータは、その場所における緯度と経度のデー
タである。そして、GPS受信回路22は、これらの緯
度と経度のデータをシステムコントローラ28に供給す
る。
【0031】システムコントローラ28は、GPS受信
回路22から上記位置データが供給されると、CD−R
OMドライブ23からその位置データの示す位置の近傍
の道路地図のデータを読み出すように制御する。システ
ムコントローラ28は、CD−ROMドライブ23から
読み出した道路地図のデータに基づいて、表示部26に
道路を表示させたり、応答部25に「現在、××で
す。」等の現在地の音声を出力させる。
【0032】また、システムコントローラ28は、音声
認識回路14の認識結果に基づいて、発話された電話番
号による目的地の設定をしたり、さらに、発話された地
名の入力や表示部26の表示モードの切換等を行うこと
ができる。例えば、運転手がスイッチ11aをオンにし
てハンズフリーマイク11にある地名を発生すると、シ
ステムコントローラ28は、ハンズフリーマイク11,
音響分析回路13,音声認識回路14等を介してその地
名を認識し、その地名のデータをCD−ROMドライブ
23から読み出して、表示部26にその地名の位置をマ
ークする。
【0033】一方、自律センサ24は、自動車の図示し
ないエンジン制御用コンピュータから供給される車速に
対応するパルス信号が供給され、このパルス信号に基づ
いて当該自動車の正確な走行速度を算出すると共に、そ
の内部の図示しないジャイロセンサの出力によって進行
方向を検出する。さらに、速度と進行方向によって決め
られた位置からの自律航行による現在位置の測定を行
う。
【0034】携帯電話接続ユニット27は、携帯電話と
ナビゲーションシステム1とを接続するものである。こ
れにより、利用者は、例えばハンズフリーマイク11で
話をしながら電話することができる。
【0035】以上のように、上記ナビゲーションシステ
ム1は、例えば目的地の設定のために発話された電話番
号を認識するときは、連続数字の桁数に関する情報を加
味して音声認識処理を行うことによって、音声認識結果
の選択の条件を付加して音声認識率の向上を図り、誤認
識時の訂正のための操作の手間がなくなり、より操作性
を向上させることができる。
【0036】なお、本発明は、上述した実施の形態に限
定されるものではなく、発話された数字を認識する必要
がある種々の装置に適用することができるのは言うまで
もない。
【0037】
【発明の効果】以上詳細に説明したように、本発明に係
る音声認識装置によれば、入力される音声信号に基づい
て連続する数字を認識し、複数の連続数字の候補を出力
し、出力された複数の連続数字の候補の中で、桁数指定
手段で指定された桁数の連続数字であって、かつ、認識
確率が高いものを選択して出力することによって、複数
の連続数字から最も最適なものを選択することができ、
この結果、発話される連続した数字の誤認識を少なくし
て、訂正の操作を省いて操作性を向上させることができ
る。
【図面の簡単な説明】
【図1】本発明を適用したナビゲーションシステムの具
体的な構成を示すブロック図である。
【図2】上記ナビゲーションシステムを構成する音声認
識装置に備えられた音響分析回路の具体的な構成を示す
ブロック図である。
【図3】上記音声認識装置に備えられた音声認識回路の
構成を示すブロック図である。
【図4】上記音声認識装置が備える連続数字認識処理回
路の処理結果の一例を示す図である。
【符号の説明】
1 ナビゲーションシステム、41 連続数字認識処理
回路、42 認識候補選択回路、43 桁数指定回路

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 入力される音声信号に基づいて連続する
    数字を認識し、複数の連続数字の候補を出力する連続数
    字認識手段と、 数字の桁数を指定する桁数指定手段と、 上記連続数字認識手段から出力された複数の連続数字の
    候補の中で、上記桁数指定手段で指定された桁数の連続
    数字であって、かつ、認識確率が高いものを選択する選
    択手段とを備える音声認識装置。
  2. 【請求項2】 上記桁数指定手段は、上記選択手段で選
    択された連続数字の桁数に基づいて、上記連続数字認識
    手段から次に出力される連続数字の桁数を指定すること
    を特徴とする請求項1記載の音声認識装置。
JP10664198A 1998-04-16 1998-04-16 車載用ナビゲーションシステム Expired - Fee Related JP4300596B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10664198A JP4300596B2 (ja) 1998-04-16 1998-04-16 車載用ナビゲーションシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10664198A JP4300596B2 (ja) 1998-04-16 1998-04-16 車載用ナビゲーションシステム

Publications (2)

Publication Number Publication Date
JPH11305793A true JPH11305793A (ja) 1999-11-05
JP4300596B2 JP4300596B2 (ja) 2009-07-22

Family

ID=14438756

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10664198A Expired - Fee Related JP4300596B2 (ja) 1998-04-16 1998-04-16 車載用ナビゲーションシステム

Country Status (1)

Country Link
JP (1) JP4300596B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002073074A (ja) * 2000-08-31 2002-03-12 Pioneer Electronic Corp 音声による数字列認識方法ならびに装置
JP2003029775A (ja) * 2001-07-10 2003-01-31 E-Lead Electronic Co Ltd 音声応答する自動車音響操作装置
WO2003052737A1 (fr) * 2001-12-17 2003-06-26 Asahi Kasei Kabushiki Kaisha Procede de reconnaissance vocale, controleur a distance, terminal d'information, terminal de communication telephonique et systeme de reconnaissance vocale
JP2010211122A (ja) * 2009-03-12 2010-09-24 Nissan Motor Co Ltd 音声認識装置及び方法
US8145487B2 (en) 2007-02-16 2012-03-27 Denso Corporation Voice recognition apparatus and navigation apparatus

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002073074A (ja) * 2000-08-31 2002-03-12 Pioneer Electronic Corp 音声による数字列認識方法ならびに装置
JP2003029775A (ja) * 2001-07-10 2003-01-31 E-Lead Electronic Co Ltd 音声応答する自動車音響操作装置
WO2003052737A1 (fr) * 2001-12-17 2003-06-26 Asahi Kasei Kabushiki Kaisha Procede de reconnaissance vocale, controleur a distance, terminal d'information, terminal de communication telephonique et systeme de reconnaissance vocale
JP2009104156A (ja) * 2001-12-17 2009-05-14 Asahi Kasei Homes Kk 電話通信端末
US8145487B2 (en) 2007-02-16 2012-03-27 Denso Corporation Voice recognition apparatus and navigation apparatus
JP2010211122A (ja) * 2009-03-12 2010-09-24 Nissan Motor Co Ltd 音声認識装置及び方法

Also Published As

Publication number Publication date
JP4300596B2 (ja) 2009-07-22

Similar Documents

Publication Publication Date Title
US7822613B2 (en) Vehicle-mounted control apparatus and program that causes computer to execute method of providing guidance on the operation of the vehicle-mounted control apparatus
US6937982B2 (en) Speech recognition apparatus and method using two opposite words
US9123327B2 (en) Voice recognition apparatus for recognizing a command portion and a data portion of a voice input
JP2907079B2 (ja) ナビゲーション装置,ナビゲート方法及び自動車
US20040215458A1 (en) Voice recognition apparatus, voice recognition method and program for voice recognition
EP0875729B1 (en) Map display controlling method and apparatus
JPH09292255A (ja) ナビゲーション方法及び装置
JP5181533B2 (ja) 音声対話装置
WO2000010160A1 (fr) Dispositif et procede de reconnaissance vocale, dispositif de navigation, telephone portable et processeur d'informations
JP4300596B2 (ja) 車載用ナビゲーションシステム
JP2003032388A (ja) 通信端末装置及び処理システム
JP2001296891A (ja) 音声認識方法および装置
JP3726783B2 (ja) 音声認識装置
JP2947143B2 (ja) 音声認識装置及びナビゲーション装置
JP2002091488A (ja) 車載ナビゲーション装置
JPH08328584A (ja) 音声認識装置、音声認識方法及びナビゲーション装置
JP4093394B2 (ja) 音声認識装置
JPH0944183A (ja) レベル表示装置、音声認識装置およびナビゲーション装置
JPH0844387A (ja) 音声認識装置
JP2877045B2 (ja) 音声認識装置,音声認識方法,ナビゲーション装置,ナビゲート方法及び自動車
JPH10133683A (ja) 音声認識・合成方法及び音声認識・合成装置
JPH11126088A (ja) 音声認識装置、音声認識方法、ナビゲーション装置及びナビゲート方法
JP2001075589A (ja) 音声認識方法及び音声認識装置
JP3484818B2 (ja) 音声認識装置及びナビゲーション装置
JPH11125533A (ja) ナビゲーション装置及びナビゲート方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050318

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050318

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050318

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070621

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070703

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070903

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080930

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081030

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20081208

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090331

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120501

Year of fee payment: 3

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090413

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120501

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120501

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130501

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees