JP2013134302A - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
JP2013134302A
JP2013134302A JP2011283333A JP2011283333A JP2013134302A JP 2013134302 A JP2013134302 A JP 2013134302A JP 2011283333 A JP2011283333 A JP 2011283333A JP 2011283333 A JP2011283333 A JP 2011283333A JP 2013134302 A JP2013134302 A JP 2013134302A
Authority
JP
Japan
Prior art keywords
voice recognition
command
data
recognition result
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011283333A
Other languages
English (en)
Other versions
JP5637131B2 (ja
Inventor
Ryuichi Suzuki
竜一 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Corp
Original Assignee
Denso Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Corp filed Critical Denso Corp
Priority to JP2011283333A priority Critical patent/JP5637131B2/ja
Priority to US13/713,103 priority patent/US9123327B2/en
Publication of JP2013134302A publication Critical patent/JP2013134302A/ja
Application granted granted Critical
Publication of JP5637131B2 publication Critical patent/JP5637131B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Navigation (AREA)

Abstract

【課題】コマンドを別途入力する煩わしさを低減すると共に、一括入力による音声認識の音声認識率を向上させる。
【解決手段】音声のうちのコマンドに対応する部分の音声認識結果を出力するコマンド対応音声認識手段と、音声のうちのデータに対応する部分の音声認識結果を出力するデータ対応音声認識手段とを備え、データ対応音声認識手段は、複数のデータ分野対応辞書をそれぞれ使用して音声を音声認識する複数のデータ分野対応音声認識手段を有し、さらに、コマンド対応音声認識手段によるコマンド対応の音声認識結果に基づいて複数のデータ分野対応音声認識手段による複数の音声認識結果の中から1つを選択するように構成した。
【選択図】図2

Description

本発明は、例えばナビゲーション装置においてコマンドや目的地等を音声で入力する際に使用される音声認識装置に関する。
従来より、入力された音声を予め記憶されている複数の比較対象パターン候補と比較し、一致度合の高いものを認識結果とする音声認識装置が既に実用化されており、例えばナビゲーション装置において設定すべき目的地をユーザが地名を音声で入力する際に用いられている。特に、車両用のナビゲーション装置を運転者自身が利用する場合、音声入力であればボタン操作や画面注視を伴わないため、車両の走行中に行っても安全性が高いため有効である。
このような機能を満たすためには、十分詳細な地点の指定が容易にできることが望まれる。具体的には、県や市のレベルではなく、市の下の町名のレベルや、町村における大字あるいは小字といったレベルまで入力できるようにすることが好ましい。さらに、利用者が例えば「愛知県刈谷市昭和町」と設定したい場合に、「愛知県」「刈谷市」「昭和町」というように県市町というレベル毎に区切って発音しなくてはならないとすると煩わしいので、ひと続きで入力(一括入力)できるようにすることが好ましい。
そこで、一括入力による音声認識を可能とするために、特許文献1では認識対象となる複数の語を階層的につなぎ合わせる形のいわゆる木構造の認識辞書を用いて、階層ごとに認識語彙を絞ることで一括入力の音声認識を可能としている。また、特許文献2では、特許文献1のような木構造認識辞書に対応できないような米国の住所入力などに対して、通常の上位階層から下位階層の順に複数の語を階層的につなぎ合わせるのではなく、下位階層から上位階層の順に複数の語を階層的につなぎ合わせる形の認識方法で一括入力の音声認識を可能としている。
特開2001−306088号公報 特開2003−114696号公報
しかし、一括入力による音声認識では、通常の階層的な入力による音声認識よりも膨大な認識語彙を認識する必要がある。ただし、一般に、音声認識は認識語彙が増えれば増えるほど、認識率は低下していく方向に進んでしまう。そのため、従来構成では、一括入力による音声認識は、住所などの1つの分野のデータを入力する場合だけ一括入力音声認識を行うようにして、音声認識率を向上させている。このような構成の場合、一括入力による音声認識を実行する前に、上記1つの分野のデータを入力するモードに移行するためのコマンドを別途入力する必要がある。しかし、音声認識を使い慣れているユーザは、1回でも入力する操作が多くなることについて、煩わしいと感じてしまうおそれがあった。
そこで、本発明の目的は、コマンドを別途入力する煩わしさを低減すると共に、一括入力による音声認識の音声認識率を向上させることができる音声認識装置を提供することにある。
請求項1の発明によれば、音声のうちのコマンドに対応する部分の音声認識結果を出力するコマンド対応音声認識手段と、音声のうちのデータに対応する部分の音声認識結果を出力するデータ対応音声認識手段とを備え、データ対応音声認識手段は、複数のデータ分野対応辞書をそれぞれ使用して音声を音声認識する複数のデータ分野対応音声認識手段を有し、さらに、コマンド対応音声認識手段によるコマンド対応の音声認識結果に基づいて複数のデータ分野対応音声認識手段による複数の音声認識結果の中から1つを選択する構成としたので、コマンドを別途入力する煩わしさを低減できると共に、一括入力による音声認識の音声認識率を向上できる。
請求項2の発明によれば、音声認識結果選択手段は、複数のデータ分野対応音声認識手段による音声認識結果の中に選択するものがないときには、前記コマンド対応音声認識手段によるコマンド対応の音声認識結果を選択する構成としたので、音声認識率を向上できる。
請求項3の発明によれば、コマンド対応音声認識手段と、データ対応音声認識手段の複数のデータ分野対応音声認識手段とは、同時に音声認識処理を実行する構成としたので、音声認識処理に要する時間を短縮することができる。
また、請求項4の発明のように、複数のデータ分野対応辞書は、住所対応辞書、楽曲対応辞書及び電話帳対応辞書であり、複数のデータ分野対応音声認識手段は、住所対応音声認識手段、楽曲対応音声認識手段及び電話帳対応音声認識手段であることが好ましい。
また、請求項5の発明のように、音声認識結果選択手段は、コマンド対応音声認識手段によるコマンド対応の音声認識結果が住所に関連するコマンドであったときには、住所対応音声認識手段による住所対応の音声認識結果を選択し、コマンド対応の音声認識結果が楽曲に関連するコマンドであったときには、楽曲対応音声認識手段による楽曲対応の音声認識結果を選択し、コマンド対応の音声認識結果が電話に関連するコマンドであったときには、電話帳対応音声認識手段による電話帳対応の音声認識結果を選択するように構成することが好ましい。
本発明の一実施形態を示すナビゲーション装置のブロック図 音声認識部及び制御部のブロック図 音声認識処理のフローチャート 音声認識処理の具体例1を説明する図 音声認識処理の具体例2を説明する図 音声認識処理の具体例3を説明する図 音声認識処理の具体例4を説明する図
以下、本発明を車両に搭載されるナビゲーション装置に適用した一実施形態について、図1ないし図7を参照して説明する。図1は、音声認識機能を備えたナビゲーション装置1の全体概略構成を示す機能ブロック図である。この図1に示すように、ナビゲーション装置1は、位置検出器2、データ入力器3、操作スイッチ群4、通信装置5、外部メモリ6、表示装置7、リモコンセンサ8、車内LAN9、音声認識ユニット10、及び、これらに接続された制御回路11を備えている。なお、制御回路11は、通常のコンピュータとして構成されており、内部には、周知のCPU、ROM、RAM、I/O及びこれらの構成を接続するバスラインを備えている。
位置検出器2は、周知のジャイロスコープ12、距離センサ13及び衛星からの電波に基づいて車両の位置を検出するためのGPS受信機14を有している。これらのセンサ等は各々が性質の異なる誤差を持っているため、複数のセンサにより、各々補間しながら使用するように構成されている。なお、精度によっては上述した内の一部で構成してもよく、更に、ステアリングの回転センサ、各転動輪の車輪センサ等を用いてもよい。
データ入力器3は、位置検出の精度向上のためのいわゆるマップマッチング用データ、地図データ及び目印データを含むナビゲーション用の各種データに加えて、音声認識ユニット10において認識処理を行う際に用いる辞書データを入力するための装置である。記憶媒体としては、そのデータ量からハードディスクやDVDを用いるのが一般的であると考えられるが、CD−ROM等の他の媒体を用いても良い。データ記憶媒体としてDVDを用いた場合には、このデータ入力器3はDVDプレーヤとなる。
表示装置7は、カラー表示装置であり、この表示装置7の画面には、位置検出器2から入力された車両現在位置マークと、地図データ入力器3より入力された地図データと、更に地図上に表示する誘導経路や設定地点の目印等の付加データとを重ねて表示することができる。また、複数の選択肢を表示するメニュー画面やその中の選択肢を選んだ場合に、さらに複数の選択肢を表示するコマンド入力画面なども表示することができる。
操作スイッチ群4は、例えば、表示装置7と一体になったタッチスイッチもしくはメカニカルなスイッチ等で構成されており、各種コマンドの入力に利用される。通信装置5は、設定された連絡先通信情報によって特定される連絡先との通信を行うためのものであり、例えば携帯電話機等の移動体通信機によって構成される。通信装置5は、制御回路11から発信先の電話番号および発信指示を受けると、その電話番号に発信し、音声認識ユニット10の後述するスピーカ20とマイク21を使用して相手先と通話することが可能な構成となっている。
また、ナビゲーション装置1は、リモートコントロール端末(以下、リモコンと称する)15を介してリモコンセンサ8から、あるいは操作スイッチ群4により目的地の位置を入力すると、現在位置からその目的地までの最適な経路を自動的に選択して誘導経路を形成し表示する、いわゆる経路案内機能も備えている。このような自動的に最適な経路を設定する手法は、ダイクストラ法等の手法が知られている。
車内LAN9には、車両に搭載された各種の車載装置、例えばオーディオ装置16が接続されている。制御回路11は、曲の名称と曲の再生指示を車内LAN9を介してオーディオ装置16へ指示することにより、オーディオ装置16は指示された曲を再生出力することが可能な構成となっている。尚、ナビゲーション装置1にオーディオ装置を直接組み込むように構成しても良い。
そして、音声認識ユニット10は、上記操作スイッチ群4あるいはリモコン15が手動操作により各種コマンド等入力のために用いられるのに対して、ユーザが音声で入力することによっても同様に各種コマンド等を入力できるようにするための装置(音声認識装置)である。
この音声認識ユニット10は、音声合成部17と、音声認識部18と、制御部19と、スピーカ20と、マイク21(音声入力手段)と、PTTスイッチ22とを備えている。
音声合成部17は、波形データベース内に格納されている音声波形を用いて、制御部19からの応答音声の出力指示に基づく音声を合成し、この合成音声をスピーカ20から出力させるように構成されている。
音声認識部18は、マイク21から入力された音声データについて、制御部19からの指示により音声認識処理を行い、その音声認識結果を制御部19に返す。即ち、マイク21から取得した音声データに対し、記憶している辞書データを用いて照合を行い、複数の比較対象パターン候補と比較して一致度の高い上位比較対象パターンを制御部19へ出力する。
入力音声中の単語系列の認識は、入力された音声データを音響モデルと順次音響分析して音響的特徴量(例えばケプストラム)を抽出する。この音響分析によって得られた音響的特徴量時系列データを得る。そして、周知のHMM(隠れマルコフモデル)、DPマッチング法あるいはニューラルネットなどによって、この時系列データをいくつかの区間に分け、各区間が辞書データとして格納されたどの単語に対応しているかを求める。尚、音声認識部18の具体的構成については、後述する。
制御部19は、音声認識部18における音声認識結果に基づき、音声合成部17への応答音声の出力指示、あるいは、ナビゲーション装置1自体の処理を実行する制御回路11に対して例えばナビゲート処理のために必要な目的地やコマンドなどを通知して目的地の設定やコマンドを実行させるよう指示する処理などを行う。このような処理の結果として、この音声認識ユニット10を利用すれば、上記操作スイッチ群4あるいはリモコン15を手動操作しなくても、音声入力によりナビゲーション装置1に対する目的地の指示などが実行可能となる。制御部19の具体的構成については、後述する。
また、本実施形態においては、利用者がPTTスイッチ22を押しながらマイク21を介して音声を入力するという利用方法である。具体的には、制御部19がPTTスイッチ22が押されたタイミングや戻されたタイミング及び押された状態が継続した時間を監視しており、PTTスイッチ22が押された場合には音声認識部18に対して処理の実行を指示する。一方、PTTスイッチ22が押されていない場合には、その処理を実行させないようにしている。したがって、PTTスイッチ22が押されている間にマイク21を介して入力された音声データが音声認識部18へ出力されることとなる。
このような構成を有することによって、本実施形態のナビゲーション装置1では、ユーザがコマンドや目的地等を入力することによって、経路設定や経路案内あるいは施設検索や施設表示など各種の処理を実行することができる。
ここで、音声認識部18と制御部19について、図2を参照して詳しく説明する。図2に示すように、音声認識部18は、コマンド対応音声認識部23(コマンド対応音声認識手段)とデータ対応音声認識部24(データ対応音声認識手段)とを備えている。コマンド対応音声認識部23は、音声認識処理で使用するコマンド対応辞書25と、コマンドの音声認識結果を出力するコマンド対応認識結果出力部26とを備えている。
データ対応音声認識部24は、住所対応音声認識部27(住所対応音声認識手段)と、楽曲対応音声認識部28(楽曲対応音声認識手段)と、電話帳対応音声認識部29(電話帳対応音声認識手段)とを備える。更に、データ対応音声認識部24は、各音声認識部27、28、29での認識処理で使用する住所対応辞書30と、楽曲対応辞書31と、電話帳対応辞書32と、各音声認識部27、28、29による音声認識結果を出力する住所対応認識結果出力部33と、楽曲対応認識結果出力部34と、電話帳対応認識結果出力部35とを備える。住所対応辞書30、楽曲対応辞書31、電話帳対応辞書32は、住所、楽曲、電話という3つのデータ分野(種類)にそれぞれ対応する辞書であり、複数のデータ分野対応辞書を構成する。
加えて、データ対応音声認識部24は、各認識結果出力部33、34、35から出力された音声認識結果の中から、最適な1つの音声認識結果を選択するデータ対応認識結果出力選択部36を備えている。
制御部19は、コマンド認識結果格納部37と、データ認識結果格納部38と、データ対応認識結果出力選択判定部39とを備えている。コマンド認識結果格納部37は、音声認識部18のコマンド対応認識結果出力部26から出力されたコマンド音声認識結果を格納する。データ認識結果格納部38は、音声認識部18のデータ対応認識結果出力選択部36から出力されたデータ音声認識結果を格納する。データ認識結果出力選択判定部39は、コマンド認識結果格納部37に格納されたコマンド音声認識結果に基づいて、3つの認識結果出力部33、34、35から出力された3つの音声認識結果の中から最適な1つの音声認識結果を選択(判定)する。データ対応認識結果出力選択判定部39及びデータ対応認識結果出力選択部36が音声認識結果選択手段としての機能を有する。
そして、音声認識部18では、マイク21より入力された音声について、コマンド対応音声認識部23でコマンド対応辞書25を使用して音声認識を行うと共に、データ対応音声認識部24でデータ対応辞書(即ち、住所対応辞書30、楽曲対応辞書31、電話帳対応辞書32)を使用して音声認識を行う。更に、コマンド対応音声認識部23から出力されたコマンド対応の音声認識結果に基づいてデータ認識結果出力選択判定部39は、データ対応音声認識部24の3つの認識結果出力部33、34、35から出力された3つの音声認識結果の中から最適な1つの音声認識結果の選択判定を行い、ここで選択判定された音声認識結果がデータ対応認識結果出力選択部36により選択されてデータ認識結果格納部38に格納され、その格納(選択)された音声認識結果が制御回路11および音声合成部17に渡される。また、データ認識結果出力選択判定部39において、3つの認識結果出力部33、34、35から出力された3つの音声認識結果の中から選択する音声認識結果が1つもないと判定された場合には、コマンド対応音声認識部23によるコマンド認識結果が制御回路11および音声合成部17に渡される。
次に、上記構成の音声認識部18及び制御部19の作用、即ち、音声認識処理の制御について、図3のフローチャートを参照して説明する。まず、図3のステップS10において、マイク21を介して音声が入力されると、ステップS20及びステップS30へ同時に進む、即ち、ステップS20の音声認識処理とステップS30の音声認識処理とが同時に実行される(即ち、2つの音声認識処理が平行処理される)。
ステップS20では、コマンド対応音声認識部23によりコマンド対応辞書25を使用してコマンドを音声認識する処理が実行される。ステップS30では、データ対応音声認識部24の3つの音声認識部27、28、29により3つの辞書30、31、32を使用して3つのデータ分野(住所、楽曲、電話)のデータを音声認識する3つの処理が同時に実行される(即ち、3つの音声認識処理が平行処理される)。この場合、ステップS20の1つの音声認識処理と、ステップS30の3つの音声認識処理とが同時に実行(平行処理)される。尚、これら4つの音声認識処理の平行処理は、マルチプロセッサ(4つのプロセッサ)で実行することが好ましい。
上記ステップS20の音声認識処理が完了すると、ステップS40へ進み、ここでは、ステップS20で音声認識処理されたコマンド対応の音声認識結果がコマンド対応認識結果出力部26により出力され、コマンド認識結果格納部37に格納される。
また、ステップS30の音声認識処理が完了すると、ステップS50へ進み、ここでは、ステップS30で音声認識処理された、即ち、3つの音声認識部27、28、29でそれぞれ音声認識処理された3つのデータ対応の音声認識結果が3つの認識結果出力部33、34、35により出力される。
続いて、上記ステップS40の処理が完了し、ステップS60へ進むと、ここでは、コマンド認識結果格納部37に格納されたコマンド対応の音声認識結果に基づいて、データ認識結果出力選択判定部39によりデータ認識結果出力選択判定結果(即ち、データ対応音声認識部24の3つの認識結果出力部33、34、35から出力された3つの音声認識結果の中から最適な1つの音声認識結果がどれであるかを判定した判定結果の情報)が出力され、データ対応認識結果出力選択部36へ与えられる。
次いで、ステップS70へ進むと、ここでは、ステップS60で出力されたデータ認識結果出力選択判定結果に基づいて、上記3つの認識結果出力部33、34、35から出力された3つの音声認識結果の中に、最適な1つの音声認識結果があるか否かを判断する。このステップS70において、最適な1つの音声認識結果があると判断された場合は、ステップS80へ進み、ここでは、上記データ認識結果出力選択判定結果に基づいてデータ対応認識結果出力選択部36によりデータ対応の3つの音声認識結果の中から最適な1つの音声認識結果を選択して出力し、データ認識結果格納部38に格納する処理を実行する。続いて、ステップS100へ進み、ここでは、データ認識結果格納部38に格納されたデータ対応の音声認識結果を最終的な音声認識結果として出力し、制御回路11および音声合成部17に渡す。
一方、上記ステップS70において、最適な1つの音声認識結果がないと判断された場合は、ステップS90へ進み、ここでは、コマンド認識結果格納部37に格納されたコマンド対応の音声認識結果を最終的な音声認識結果として出力し、制御回路11および音声合成部17に渡す。このようにして、一連の音声認識処理を終了する。
次に、図4ないし図7を参照して、本実施形態の音声認識部18及び制御部19による音声認識処理の具体例1〜4を説明する。まず、図4に示す具体例1は、ユーザが「住所で探す 愛知県刈谷市昭和町1−1」という音声を発話した場合の音声認識処理である。この場合、コマンド対応音声認識部23によるコマンド対応の音声認識結果は「住所で探す ***」となり、上記コマンド対応の音声認識結果が住所に関連するコマンドであるから、データ認識結果出力選択判定部39によるデータ認識結果出力選択判定結果は、「データ分野が住所データに対応する音声認識結果」となる。即ち、データ対応音声認識部24の3つの住所対応音声認識部27、楽曲対応音声認識部28及び電話帳対応音声認識部29の中から、住所対応音声認識部27による住所対応の音声認識結果(「*** 愛知県刈谷市昭和町1−1」)が選択されて出力される。この結果、図4に示すように、音声合成部17により「愛知県刈谷市昭和町1−1で探します」という音声が合成されてスピーカ20から音声出力される。
また、図5に示す具体例2は、ユーザが「曲名で再生する 上を向いて歩こう」という音声を発話した場合の音声認識処理である。この場合、コマンド対応音声認識部23によるコマンド対応の音声認識結果は「曲名で再生する ***」となり、上記コマンド対応の音声認識結果が楽曲に関連するコマンドであるから、データ認識結果出力選択判定部39によるデータ認識結果出力選択判定結果は、「データ分野が楽曲のデータに対応する音声認識結果」となる。即ち、データ対応音声認識部24の3つの住所対応音声認識部27、楽曲対応音声認識部28及び電話帳対応音声認識部29の中から、楽曲対応音声認識部28による楽曲対応の音声認識結果(「*** 上を向いて歩こう」)が選択されて出力される。この結果、図5に示すように、音声合成部17により「上を向いて歩こう を再生します」という音声が合成されてスピーカ20から音声出力される。
また、図6に示す具体例3は、ユーザが「電話をかける 鈴木太郎」という音声を発話した場合の音声認識処理である。この場合、コマンド対応音声認識部23によるコマンド対応の音声認識結果は「電話をかける ***」となり、上記コマンド対応の音声認識結果が電話に関連するコマンドであるから、データ認識結果出力選択判定部39によるデータ認識結果出力選択判定結果は、「データ分野が電話のデータに対応する音声認識結果」となる。即ち、データ対応音声認識部24の3つの住所対応音声認識部27、楽曲対応音声認識部28及び電話帳対応音声認識部29の中から、電話帳対応音声認識部29による電話帳対応の音声認識結果(「*** 鈴木太郎」)が選択されて出力される。この結果、図6に示すように、音声合成部17により「鈴木太郎 に電話をかけます」という音声が合成されてスピーカ20から音声出力される。
また、図7に示す具体例4は、ユーザが「自宅へ帰る」という音声を発話した場合の音声認識処理である。この場合、コマンド対応音声認識部23によるコマンド対応の音声認識結果は「自宅へ帰る」となり、「その他」となり、上記コマンド対応の音声認識結果が住所、楽曲及び電話に関連するコマンドでない。このため、データ認識結果出力選択判定部39によるデータ認識結果出力選択判定結果は、「データ対応の音声認識結果なし」となり、「データ対応の音声認識結果は使用せず、コマンド対応の音声認識結果を使用する」となる。即ち、データ対応音声認識部24の3つの住所対応音声認識部27、楽曲対応音声認識部28及び電話帳対応音声認識部29による各音声認識結果を使用せずに、コマンド対応音声認識部23によるコマンド対応の音声認識結果(「自宅へ帰る」)が出力される。この結果、図7に示すように、音声合成部17により「自宅を目的地に設定します」という音声が合成されてスピーカ20から音声出力される。
このような構成の本実施形態によれば、ユーザがひと続きで発声した音声を入力(一括入力)して音声認識する場合に、コマンド対応音声認識部23で音声のうちのコマンド対応部分を音声認識し、データ対応音声認識部24で音声のうちのデータ対応部分を音声認識するように構成したので、一括入力の音声認識、即ち、大語彙の音声認識であっても、コマンド対応部分とデータ対応部分に分けることで、認識語彙を絞ることが可能となり、コマンド対応部分及びデータ対応部分の各音声認識率を高くすることができる。そして、本実施形態では、データ対応音声認識部24に、データ分野別に3つの住所対応音声認識部27、楽曲対応音声認識部28及び電話帳対応音声認識部29を設け、これら3つの音声認識部27、28、29で音声のうちのデータ対応部分を音声認識し、更に、データ認識結果出力選択判定部39によって、コマンド対応音声認識部23によるコマンド対応部分の音声認識結果に基づいて上記3つの音声認識部27、28、29による音声認識結果の中から最適な1つを選択するように構成した。この構成によれば、データの分野(種類)によって音声認識部を3つに分けることで、認識語彙を大幅に絞ることが可能となり、しかも、3つの音声認識結果の中から最適な1つを選択することから、音声認識率をより一層向上させることができ、また、コマンドを入力する操作を少なくし得る(即ち、コマンドを別途入力する煩わしさを低減できる)。
加えて、本実施形態では、コマンド対応音声認識部23の音声認識処理と、データ対応音声認識部24の3つの住所対応音声認識部27、楽曲対応音声認識部28及び電話帳対応音声認識部29の各音声認識処理とを、同時に実行(平行処理)するように構成したので、音声認識処理に要する時間を大幅に短縮することができ、音声認識処理の応答性を非常に良好なものとすることができる。
尚、上記実施形態では、データ対応音声認識部24に、3つの住所対応音声認識部27、楽曲対応音声認識部28及び電話帳対応音声認識部29を設けたが、これに限られるものではなく、4つ以上の音声認識部(及び4つ以上のデータ対応辞書)を設けるように構成しても良い。反対に、2つまたは1つの音声認識部(及び2つまたは1つのデータ対応辞書)を設けるように構成しても良い。
また、上記実施形態では、コマンド対応音声認識部23の音声認識処理と、データ対応音声認識部24の3つの住所対応音声認識部27、楽曲対応音声認識部28及び電話帳対応音声認識部29の各音声認識処理とを、同時に実行するように構成したが、これに代えて、各音声認識処理を逐次処理しても良いし、4つの音声認識処理のうちの2つまたは3つを適宜平行処理するように構成しても良い。
図面中、1はナビゲーション装置、2は位置検出器、3はデータ入力器、4は操作スイッチ群、5は通信装置、6は外部メモリ、7は表示装置、8はリモコンセンサ、9は車内LAN、10は音声認識ユニット、11は制御回路、12はジャイロスコープ、13は距離センサ、14はGPS受信機、15はリモコン、16はオーディオ装置、17は音声合成部、18は音声認識部、19は制御部、20はスピーカ、21はマイク、22はPTTスイッチ、23はコマンド対応音声認識部、24はデータ対応音声認識部、25はコマンド対応辞書、26はコマンド対応認識結果出力部、27は住所対応音声認識部、28は楽曲対応音声認識部、29は電話帳対応音声認識部、30は住所対応辞書、31は楽曲対応辞書、32は電話帳対応辞書、33は住所対応認識結果出力部、34は楽曲対応認識結果出力部、35は電話帳対応認識結果出力部、36はデータ対応認識結果出力選択部、37はコマンド認識結果格納部、38はデータ認識結果格納部、39はデータ認識結果出力選択判定部である。

Claims (5)

  1. コマンドとデータとを含む音声を一括入力する音声入力手段と、
    コマンド対応辞書を使用して前記音声入力手段により入力された音声を音声認識して、前記音声のうちのコマンドに対応する部分の音声認識結果を出力するコマンド対応音声認識手段と、
    データ対応辞書を使用して前記音声を音声認識して、前記音声のうちのデータに対応する部分の音声認識結果を出力するデータ対応音声認識手段とを備えた音声認識装置であって、
    前記データ対応辞書は、複数のデータ分野に対応する複数のデータ分野対応辞書を有し、
    前記データ対応音声認識手段は、前記複数のデータ分野対応辞書をそれぞれ使用して前記音声を音声認識する複数のデータ分野対応音声認識手段を有し、
    前記コマンド対応音声認識手段によるコマンド対応の音声認識結果に基づいて前記複数のデータ分野対応音声認識手段による複数の音声認識結果の中から1つを選択する音声認識結果選択手段を備えたことを特徴とする音声認識装置。
  2. 前記音声認識結果選択手段は、前記複数のデータ分野対応音声認識手段による音声認識結果の中に選択するものがないときには、前記コマンド対応音声認識手段によるコマンド対応の音声認識結果を選択することを特徴とする請求項1記載の音声認識装置。
  3. 前記コマンド対応音声認識手段と、前記データ対応音声認識手段の前記複数のデータ分野対応音声認識手段とは、同時に音声認識処理を実行することを特徴とする請求項1または2記載の音声認識装置。
  4. 前記複数のデータ分野対応辞書は、住所対応辞書、楽曲対応辞書及び電話帳対応辞書であり、
    前記複数のデータ分野対応音声認識手段は、住所対応音声認識手段、楽曲対応音声認識手段及び電話帳対応音声認識手段であることを特徴とする請求項1ないし3のいずれかに記載の音声認識装置。
  5. 前記音声認識結果選択手段は、前記コマンド対応音声認識手段によるコマンド対応の音声認識結果が住所に関連するコマンドであったときには、前記住所対応音声認識手段による住所対応の音声認識結果を選択し、前記コマンド対応の音声認識結果が楽曲に関連するコマンドであったときには、前記楽曲対応音声認識手段による楽曲対応の音声認識結果を選択し、前記コマンド対応の音声認識結果が電話に関連するコマンドであったときには、前記電話帳対応音声認識手段による電話帳対応の音声認識結果を選択することを特徴とする請求項4記載の音声認識装置。
JP2011283333A 2011-12-26 2011-12-26 音声認識装置 Expired - Fee Related JP5637131B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2011283333A JP5637131B2 (ja) 2011-12-26 2011-12-26 音声認識装置
US13/713,103 US9123327B2 (en) 2011-12-26 2012-12-13 Voice recognition apparatus for recognizing a command portion and a data portion of a voice input

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011283333A JP5637131B2 (ja) 2011-12-26 2011-12-26 音声認識装置

Publications (2)

Publication Number Publication Date
JP2013134302A true JP2013134302A (ja) 2013-07-08
JP5637131B2 JP5637131B2 (ja) 2014-12-10

Family

ID=48655416

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011283333A Expired - Fee Related JP5637131B2 (ja) 2011-12-26 2011-12-26 音声認識装置

Country Status (2)

Country Link
US (1) US9123327B2 (ja)
JP (1) JP5637131B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015028566A (ja) * 2013-07-30 2015-02-12 株式会社デンソー 応答制御システム、車載器、およびセンター
WO2015075903A1 (ja) * 2013-11-21 2015-05-28 日産自動車株式会社 音声認識装置
JP2015141226A (ja) * 2014-01-27 2015-08-03 パイオニア株式会社 情報処理装置
JP2019053143A (ja) * 2017-09-13 2019-04-04 アルパイン株式会社 音声認識システム及びコンピュータプログラム

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9401146B2 (en) * 2014-04-01 2016-07-26 Google Inc. Identification of communication-related voice commands
DE102014210716A1 (de) * 2014-06-05 2015-12-17 Continental Automotive Gmbh Assistenzsystem, das mittels Spracheingaben steuerbar ist, mit einer Funktionseinrichtung und mehreren Spracherkennungsmodulen
JP6418820B2 (ja) * 2014-07-07 2018-11-07 キヤノン株式会社 情報処理装置、表示制御方法、及びコンピュータプログラム
DE112014007287B4 (de) * 2014-12-24 2019-10-31 Mitsubishi Electric Corporation Spracherkennungsvorrichtung und Spracherkennungsverfahren
JP6492709B2 (ja) * 2015-02-04 2019-04-03 富士通株式会社 通信端末、着信支援プログラム、及び方法
CN107871500B (zh) * 2017-11-16 2021-07-20 百度在线网络技术(北京)有限公司 一种播放多媒体的方法和装置
US11706482B2 (en) * 2018-02-20 2023-07-18 Lg Electronics Inc. Display device
CN112581958B (zh) * 2020-12-07 2024-04-09 中国南方电网有限责任公司 一种应用于电力领域的简短语音智能导航方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001022373A (ja) * 1999-07-02 2001-01-26 Alpine Electronics Inc 音声認識方法
JP2001042895A (ja) * 1999-05-21 2001-02-16 Inf Storage Devices Inc 音声制御デバイスを識別する方法および装置
JP2001154692A (ja) * 1999-11-30 2001-06-08 Sony Corp ロボット制御装置およびロボット制御方法、並びに記録媒体
JP2004333641A (ja) * 2003-05-01 2004-11-25 Nippon Telegr & Teleph Corp <Ntt> 音声入力処理方法、音声対話用表示制御方法、音声入力処理装置、音声対話用表示制御装置、音声入力処理プログラム、音声対話用表示制御プログラム
JP2005003997A (ja) * 2003-06-12 2005-01-06 Toyota Motor Corp 音声認識装置および音声認識方法ならびに車両
JP2005195834A (ja) * 2004-01-07 2005-07-21 Sony Corp 音声認識装置および方法、並びに、プログラムおよび記録媒体
JP2010054896A (ja) * 2008-08-29 2010-03-11 Brother Ind Ltd 音声認識装置および音声認識プログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5799279A (en) * 1995-11-13 1998-08-25 Dragon Systems, Inc. Continuous speech recognition of text and commands
DE19910236A1 (de) * 1999-03-09 2000-09-21 Philips Corp Intellectual Pty Verfahren zur Spracherkennung
JP3550654B2 (ja) 1999-06-29 2004-08-04 オムロン株式会社 音声認識装置および方法、並びに記録媒体
US6871179B1 (en) * 1999-07-07 2005-03-22 International Business Machines Corporation Method and apparatus for executing voice commands having dictation as a parameter
JP3700533B2 (ja) 2000-04-19 2005-09-28 株式会社デンソー 音声認識装置及び処理システム
JP4104313B2 (ja) 2001-10-03 2008-06-18 株式会社デンソー 音声認識装置、プログラム及びナビゲーションシステム
DE602006010505D1 (de) * 2005-12-12 2009-12-31 Gregory John Gadbois Mehrstimmige Spracherkennung
JP2008003266A (ja) 2006-06-22 2008-01-10 Alpine Electronics Inc 行き先設定装置及び行き先設定方法
US8165886B1 (en) * 2007-10-04 2012-04-24 Great Northern Research LLC Speech interface system and method for control and interaction with applications on a computing system
JP4972660B2 (ja) 2009-02-27 2012-07-11 日本放送協会 音声学習装置及びプログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001042895A (ja) * 1999-05-21 2001-02-16 Inf Storage Devices Inc 音声制御デバイスを識別する方法および装置
JP2001022373A (ja) * 1999-07-02 2001-01-26 Alpine Electronics Inc 音声認識方法
JP2001154692A (ja) * 1999-11-30 2001-06-08 Sony Corp ロボット制御装置およびロボット制御方法、並びに記録媒体
JP2004333641A (ja) * 2003-05-01 2004-11-25 Nippon Telegr & Teleph Corp <Ntt> 音声入力処理方法、音声対話用表示制御方法、音声入力処理装置、音声対話用表示制御装置、音声入力処理プログラム、音声対話用表示制御プログラム
JP2005003997A (ja) * 2003-06-12 2005-01-06 Toyota Motor Corp 音声認識装置および音声認識方法ならびに車両
JP2005195834A (ja) * 2004-01-07 2005-07-21 Sony Corp 音声認識装置および方法、並びに、プログラムおよび記録媒体
JP2010054896A (ja) * 2008-08-29 2010-03-11 Brother Ind Ltd 音声認識装置および音声認識プログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015028566A (ja) * 2013-07-30 2015-02-12 株式会社デンソー 応答制御システム、車載器、およびセンター
WO2015075903A1 (ja) * 2013-11-21 2015-05-28 日産自動車株式会社 音声認識装置
JP2015141226A (ja) * 2014-01-27 2015-08-03 パイオニア株式会社 情報処理装置
JP2019053143A (ja) * 2017-09-13 2019-04-04 アルパイン株式会社 音声認識システム及びコンピュータプログラム

Also Published As

Publication number Publication date
JP5637131B2 (ja) 2014-12-10
US20130166290A1 (en) 2013-06-27
US9123327B2 (en) 2015-09-01

Similar Documents

Publication Publication Date Title
JP5637131B2 (ja) 音声認識装置
US10706853B2 (en) Speech dialogue device and speech dialogue method
JP5821639B2 (ja) 音声認識装置
WO2013005248A1 (ja) 音声認識装置およびナビゲーション装置
EP1450349A1 (en) In-vehicle controller and program for instructing computer to execute operation instruction method
JP2011059659A (ja) 第1の機能及び第2の機能を含む複数の機能を有効にするためのシステムおよび方法
JPWO2016051519A1 (ja) 音声認識システム
JP2007011380A (ja) 自動車インターフェース
JP2005331882A (ja) 音声認識装置、音声認識方法、および音声認識プログラム
JP4466379B2 (ja) 車載音声認識装置
JP2002073075A (ja) 音声認識装置ならびにその方法
JP2008014818A (ja) 作動制御装置、プログラム
JP2011059676A (ja) 発話入力に基づいて複数の機能を有効にするためのシステム及び方法
WO2016174955A1 (ja) 情報処理装置、及び、情報処理方法
JP2009230068A (ja) 音声認識装置及びナビゲーションシステム
JP6522009B2 (ja) 音声認識システム
JP2020144274A (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
JP5986468B2 (ja) 表示制御装置、表示システム及び表示制御方法
JP2003032388A (ja) 通信端末装置及び処理システム
JP2002281145A (ja) 電話番号入力装置
JP2007101892A (ja) 音声認識装置
JP3296783B2 (ja) 車載用ナビゲーション装置および音声認識方法
US20110218809A1 (en) Voice synthesis device, navigation device having the same, and method for synthesizing voice message
KR100677711B1 (ko) 음성 인식 장치, 기억 매체 및 네비게이션 장치
JP4093394B2 (ja) 音声認識装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130424

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131121

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140107

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140307

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140924

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141007

R151 Written notification of patent or utility model registration

Ref document number: 5637131

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees