JP2007017839A - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
JP2007017839A
JP2007017839A JP2005201334A JP2005201334A JP2007017839A JP 2007017839 A JP2007017839 A JP 2007017839A JP 2005201334 A JP2005201334 A JP 2005201334A JP 2005201334 A JP2005201334 A JP 2005201334A JP 2007017839 A JP2007017839 A JP 2007017839A
Authority
JP
Japan
Prior art keywords
language dictionary
voice
speech
speech recognition
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005201334A
Other languages
English (en)
Inventor
Mitsunobu Kaminuma
充伸 神沼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nissan Motor Co Ltd
Original Assignee
Nissan Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nissan Motor Co Ltd filed Critical Nissan Motor Co Ltd
Priority to JP2005201334A priority Critical patent/JP2007017839A/ja
Publication of JP2007017839A publication Critical patent/JP2007017839A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】 音声操作にともなうスイッチ操作の手間を省きながら音声認識精度を向上させる。
【解決手段】 機器の操作部材をグループ分けし、操作部材が操作されたときにその操作部材が属するグループに関連のある語彙が認識されやすくなるように言語辞書の内容を変更し、操作部材のいずれかが操作されると音声認識処理を開始するとともに、集音手段により集音した音声と操作部材に応じて変更された言語辞書とを照合して発話者の発話した言葉を認識する。また、認識された言葉に関連のある語彙が認識されやすくなるように言語辞書の内容を変更するとともに、集音手段により集音した音声と認識言葉に応じて変更された言語辞書とを照合して発話者の発話した言葉を認識する。
【選択図】 図3

Description

本発明は音声認識装置に関する。
カメラにより使用者を撮像してその画像を処理し、使用者の所定の部位(例えば左手の人差し指の先端)が基準位置(例えば唇の位置)に移動したことを検出して音声入力の待機状態に入り、音声入力に際していちいちPTT(Push To Talk)スイッチを操作する手間を省くようにした音声認識装置が知られている(例えば、特許文献1参照)。
この出願の発明に関連する先行技術文献としては次のものがある。
特開2000−338995号公報
しかしながら、上述した従来の音声認識装置では、カメラによる撮像画像を処理して使用者の所定部位の基準位置への移動を検出し、音声入力待機状態をとるようにしているので、使用者に音声入力意図がなくても所定部位を基準位置へ移動するだけで動作することがあり、誤動作が避けられないという問題がある。
また、車両へ搭載する場合のように、常にカメラで使用者を撮像し画像を処理しなければならず、効率的な方法ではないという問題がある。
(1) 請求項1の発明は、機器の操作部材をグループ分けし、操作部材が操作されたときにその操作部材が属するグループに関連のある語彙が認識されやすくなるように言語辞書の内容を変更し、操作部材のいずれかが操作されると音声認識処理を開始するとともに、集音手段により集音した音声と操作部材に応じて変更された言語辞書とを照合して発話者の発話した言葉を認識する。
(2) 請求項2の発明は、認識された言葉に関連のある語彙が認識されやすくなるように言語辞書の内容を変更するとともに、集音手段により集音した音声と認識言葉に応じて変更された言語辞書とを照合して発話者の発話した言葉を認識する。
請求項1の発明によれば、音声操作専用のPTTスイッチを設けなくても、操作された操作部材に関連のある語彙の中から発話言葉を正確に認識することができる。
また、請求項2の発明によれば、機器の操作部材を操作して音声操作を行った後に引き続き音声操作を行う場合には、スイッチ操作をしなくても認識言葉に関連のある語彙の中から発話言葉を正確に認識することができる。
本発明の音声認識装置を車両に搭載し、各種車載機器の音声操作に適用した一実施の形態を説明する。なお、本発明は車両用に限定されるものではない。
図1は一実施の形態の構成を示す図である。マイクロフォン(以下、単にマイクという)1は車両の乗員が発話した音声を集音し、電気信号に変換して出力する。マイク1にはコンデンサーマイクなど、一般的な形式のものを使用することができる。なお、マイク1には乗員の音声以外に車室内の環境雑音が混入する。増幅器2はマイク1の音声信号を増幅し、A/Dコンバーター3はアナログ音声信号をデジタル信号に変換する。
処理装置4はマイクロコンピューター4aやタイマー4bなどを備え、後述する音声認識プログラムを実行して乗員が発話した音声を認識し、音声操作対象機器へ操作信号を出力する。言語辞書記憶装置5には乗員の発話言葉を認識するために比較照合する車載機器の音声操作用言語が記憶されている。
スイッチ類10は各種車載機器の操作スイッチである。この一実施の形態では図2に示すインストルメントパネルに設置された操作スイッチ11〜27を例に上げて説明するが、この一実施の形態の操作スイッチに限定されるものではない。
図2において、インストルメントパネルに設置されたディスプレイ28の左側には「現在位置」スイッチ11、「戻る」スイッチ12、「ナビ」スイッチ13が配置され、右側には「エアコン」スイッチ14、「風量」スイッチ15、「温度」スイッチ16が配置される。また、ディスプレイ28の下側には「音量小」スイッチ17、「音量大」スイッチ18、ジョイスティックスイッチ27、「拡大」スイッチ19、「縮小」スイッチ20が配置される。さらに、それらの下には車載オーディオ操作用の「停止」スイッチ21、「再生」スイッチ22、「ポーズ」スイッチ23、「前の曲」スイッチ24、「プログラム」スイッチ25、「次の曲」スイッチ26が配置される。
図3は一実施の形態の音声認識プログラムを示すフローチャートである。このフローチャートにより、一実施の形態の動作を説明する。ステップ1において上述したスイッチ11〜27の内のいずれかのスイッチが操作されたか否かを確認し、いずれかのスイッチが操作されるとこの音声認識処理を開始してステップ2へ進む。ステップ2では操作されたスイッチに応じて乗員が発話する言葉を予め予測し、予測した言葉が認識されやすいように記憶装置5の言語辞書の内容を変更する。
ここで、操作スイッチに応じた言語辞書の変更方法を説明する。乗員が車両の運転操作中にスイッチ類10を操作するときには、スイッチ類10を視認せずに勘を頼りに指先の触覚だけで操作希望のスイッチを選択するか、あるいは、スイッチ類10を一瞥して操作希望のスイッチを選択する。このような場合には、操作希望のスイッチを正しく操作できず、間違ったスイッチを操作してしまうことがある。特に、形状がよく似たスイッチや、同じ並びに配置されたスイッチ、あるいは操作希望のスイッチの周辺に配置されたスイッチに対しては、このような誤操作を起こしやすい。
そこで、この一実施の形態では、形状がよく似たスイッチ、または同じ並びに配置されたスイッチ、あるいは操作されたスイッチの周辺に配置されたスイッチをまとめて一つのグループを形成し、そのグループ内のどのスイッチが操作されても、そのグループに属するすべてのスイッチに対して発話予測された語彙、換言すれば操作スイッチが属するグループに関連のある語彙が認識されやすいように言語辞書を変更する。例えば、図2に示すように、ディスプレイ28の左右に配置された6個のスイッチ11〜16は形状が類似しており、同じ並びに配置され、しかも互いに近接して配置されているので、これらのスイッチ11〜16を一つのグループとして取り扱う。
記憶装置5に記憶されている言語辞書には、これらのスイッチ11〜16にそれぞれ関連のある音声操作用言語「現在位置」、「戻る」、「ナビ」、「エアコン」、「風量」、「温度」が記憶されている。そこで、これらのスイッチ11〜16のいずれかが操作された場合には、言語辞書の音声操作用言語「現在位置」、「戻る」、「ナビ」、「エアコン」、「風量」、「温度」をスイッチ11〜16が属するスイッチグループに対応する語彙とし、これらの語彙が他の言葉よりも認識されやすいように言語辞書の内容を変更する。
図4は操作スイッチに応じた言語辞書の変更例を示す図であり、(a)が変更前の言語辞書を、(b)が変更後の言語辞書をそれぞれ表す。この例では乗員が「温度」スイッチ16を操作した場合の言語辞書の変更例を示す。乗員の操作希望のスイッチが「温度」スイッチ16であったか否かに拘わらず、「温度」スイッチ16が操作された場合には、「温度」スイッチ16が属するスイッチグループに対応する音声操作用言語「現在位置」、「戻る」、「ナビ」、「エアコン」、「風量」、「温度」に加え、直接“温度”を入力する「25℃」が、他の言葉よりも認識されやすいように言語辞書の内容を変更する。
具体的には、図4(a)に示すように、言語辞書が階層化されて記憶装置5に記憶されている場合に、「温度」スイッチ16の属するグループに対応する言語「現在位置」、「戻る」、「ナビ」、「エアコン」、「風量」、「温度」に、「○○℃」を加えた語彙が発話されると予測し、“待ち受け語”として第1階層に追加して認識され易くするとともに、それ以外の言葉が認識され難くなるようにする。
なお、スイッチ類10のグループ化と、各スイッチグループに対して設定する音声操作用言語はこの一実施の形態に限定されない。また、音声認識において特定の語彙が認識されやすくなるようにする手法としては、周知の“出現確率”を高くする手法などがある。
操作スイッチに応じて言語辞書の内容を変更した後の図3のステップ3において、マイク1による音声入力の待機状態に入り、音声認識動作を開始する。すなわち、マイク1により集音した乗員の発話言葉を記憶装置5の上記“待ち受け語”と照合し、一致または不一致を判定して乗員の発話言葉を認識する。続くステップ4で音声認識待ち受け状態が無制限に継続されるのを防止するためにタイマー4bをスタートさせ、“音声認識の待ち受け時間”の計時を開始する。
ステップ5において乗員の発話言葉が言語辞書の“待ち受け語”のいずれかと一致したか否かを確認する。乗員の発話言葉が“待ち受け語”のいずれとも一致しない場合、つまり乗員の発話言葉を認識できない場合はステップ6へ進み、タイマー4bで計時している“音声認識待ち受け時間”が予め設定した所定時間になったか否かを確認し、所定時間が経過したらこの音声認識処理を終了する。所定時間が経過していないときはステップ5へ戻り、上述した音声認識動作を継続する。
乗員の発話言葉が言語辞書の“待ち受け語”のいずれかと一致した場合はステップ7へ進み、一致した言葉すなわち最初の認識言葉に応じてふたたび記憶装置5の言語辞書の内容を変更する。
図5は最初の認識言葉に応じた言語辞書の変更例を示す図であり、(a)が変更前の言語辞書を、(b)が変更後の言語辞書をそれぞれ表す。この例では乗員が最初に発話した言葉「温度」が認識された場合の言語辞書の変更例を示す。乗員がスイッチ11〜16のいずれかのスイッチを操作して「温度」と発話した場合に、“待ち受け語”の中にある「温度」との一致判定がなされて発話言葉「温度」が認識されると、車載空調装置(エアコン)の車室内空調に関連のある語彙が認識されやすいように言語辞書の内容を変更する。
具体的には、図5(a)に示すように、言語辞書が階層化されて記憶装置5に記憶されている場合に、車室内空調に関連のある「温度」、「○○℃」、「風量」などの語彙が次に発話されると予測し、“待ち受け語”として認識されやすくするとともに、それ以外の言葉が認識されにくくなるようにする。このとき、上述したように出現確率を高くする手法を用いて“待ち受け語”が認識されやすくなるようにしてもよい。
最初の認識言葉に応じて言語辞書の内容を変更した後の図3のステップ8において、マイク1により乗員の発話言葉を集音し、記憶装置5の言語辞書の“待ち受け語”と照合して一致または不一致を判定する。続くステップ9で音声認識待ち受け状態が無制限に継続されるのを防止するためにタイマー4bをスタートさせ、“音声認識の待ち受け時間”の計時を開始する。
ステップ10において乗員の発話言葉が言語辞書の“待ち受け語”のいずれかと一致したか否かを確認する。乗員の発話言葉が“待ち受け語”のいずれとも一致しない場合、つまり乗員の発話言葉を認識できない場合はステップ11へ進み、タイマー4bで計時している“音声認識待ち受け時間”が予め設定した所定時間になったか否かを確認し、所定時間が経過したらこの音声認識処理を終了する。所定時間が経過していないときはステップ10へ戻り、上述した音声認識動作を継続する。
乗員の発話言葉が言語辞書の“待ち受け語”のいずれかと一致した場合はステップ12へ進み、一致した言葉に対応する操作信号を音声操作対象の車載機器へ出力して処理を終了する。
このように、一実施の形態によれば、音声操作対象機器のスイッチをグループ分けし、いずれかのスイッチが操作されたときにその操作スイッチが属するグループに関連のある語彙が認識されやすくなるように言語辞書の内容を変更し、スイッチのいずれかが操作されると音声認識処理を開始するとともに、集音した音声と操作スイッチに応じて変更された言語辞書とを照合して発話者の発話した言葉を認識するようにしたので、音声操作専用のPTTスイッチを設けなくても、操作されたスイッチに関連のある語彙の中から発話言葉を正確に認識することができる。
また、一実施の形態によれば、認識された言葉に関連のある語彙が認識されやすくなるように言語辞書の内容を変更するとともに、集音した音声と認識言葉に応じて変更された言語辞書とを照合して発話者の発話した言葉を認識するようにしたので、音声操作対象機器のスイッチを操作して音声操作を行った後に引き続き音声操作を行う場合には、スイッチ操作をしなくても認識言葉に関連のある語彙の中から発話言葉を正確に認識することができる。
特許請求の範囲の構成要素と一実施の形態の構成要素との対応関係は次の通りである。すなわち、マイク1が集音手段を、言語辞書記憶装置5が記憶手段を、処理装置4が音声認識手段および辞書変更手段をそれぞれ構成する。なお、以上の説明はあくまで一例であり、発明を解釈する際、上記の実施の形態の記載事項と特許請求の範囲の記載事項との対応関係になんら限定も拘束もされない。
なお、上述した一実施の形態では、単一の音声認識用言語辞書を用いて、操作されたスイッチに応じて言語辞書の内容を変更するとともに、最初に認識された言葉に応じてふたたび言語辞書の内容を変更する例を示したが、操作されたスイッチに応じて内容を変更し音声認識に用いる言語辞書と、その音声認識処理により最初に認識された言葉に応じて内容を変更し音声認識に用いる辞書とを別個の言語辞書としてもよい。
一実施の形態の構成を示す図である。 操作スイッチ類の配置を示す図である。 一実施の形態の音声認識動作を示すフローチャートである。 操作スイッチに応じて言語辞書の内容を変更する方法を説明する図である。 認識言葉に応じて言語辞書の内容を変更する方法を説明する図である。
符号の説明
1 マイクロフォン
2 増幅器
3 A/Dコンバーター
4 処理装置
5 言語辞書記憶装置
10 スイッチ類

Claims (5)

  1. 発話者の発話音声を集音する集音手段と、
    音声認識用言語辞書を記憶する記憶手段と、
    前記集音手段により集音した音声と前記記憶手段の言語辞書とを照合して発話者が発話した言葉を認識する音声認識手段とを備えた音声認識装置において、
    機器の操作部材をグループ分けし、操作部材が操作されたときにその操作部材が属するグループに関連のある語彙が認識されやすくなるように前記言語辞書の内容を変更する辞書変更手段を備え、
    前記音声認識手段は、前記操作部材のいずれかが操作されると音声認識処理を開始し、前記集音手段により集音した音声と前記辞書変更手段により操作部材に応じて変更された言語辞書とを照合して発話者の発話した言葉を認識することを特徴とする音声認識装置。
  2. 請求項1に記載の音声認識装置において、
    前記辞書変更手段は、前記音声認識手段により認識された言葉に関連のある語彙が認識されやすくなるように前記言語辞書の内容を変更し、
    前記音声認識手段は、前記集音手段により集音した音声と前記辞書変更手段により認識言葉に応じて変更された言語辞書とを照合して発話者の発話した言葉を認識することを特徴とする音声認識装置。
  3. 請求項1または請求項2に記載の音声認識装置において、
    前記操作部材のグループ分けは、類似した形状の操作部材をまとめて一つのグループを形成することを特徴とする音声認識装置。
  4. 請求項1または請求項2に記載の音声認識装置において、
    前記操作部材のグループ分けは、同じ並びに配置された操作部材をまとめて一つのグループを形成することを特徴とする音声認識装置。
  5. 請求項1または請求項2に記載の音声認識装置において、
    前記操作部材のグループ分けは、操作された操作部材の周辺に配置された操作部材をまとめて一つのグループを形成することを特徴とする音声認識装置。
JP2005201334A 2005-07-11 2005-07-11 音声認識装置 Pending JP2007017839A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005201334A JP2007017839A (ja) 2005-07-11 2005-07-11 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005201334A JP2007017839A (ja) 2005-07-11 2005-07-11 音声認識装置

Publications (1)

Publication Number Publication Date
JP2007017839A true JP2007017839A (ja) 2007-01-25

Family

ID=37755045

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005201334A Pending JP2007017839A (ja) 2005-07-11 2005-07-11 音声認識装置

Country Status (1)

Country Link
JP (1) JP2007017839A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009025411A (ja) * 2007-07-17 2009-02-05 Yamaha Corp 音声認識装置およびプログラム
WO2024053182A1 (ja) * 2022-09-05 2024-03-14 日産自動車株式会社 音声認識方法及び音声認識装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002351493A (ja) * 2001-05-25 2002-12-06 Mitsubishi Electric Corp 音声認識制御装置、及び車載用情報処理装置
JP2004245938A (ja) * 2003-02-12 2004-09-02 Fujitsu Ten Ltd 音声認識装置及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002351493A (ja) * 2001-05-25 2002-12-06 Mitsubishi Electric Corp 音声認識制御装置、及び車載用情報処理装置
JP2004245938A (ja) * 2003-02-12 2004-09-02 Fujitsu Ten Ltd 音声認識装置及びプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009025411A (ja) * 2007-07-17 2009-02-05 Yamaha Corp 音声認識装置およびプログラム
WO2024053182A1 (ja) * 2022-09-05 2024-03-14 日産自動車株式会社 音声認識方法及び音声認識装置

Similar Documents

Publication Publication Date Title
EP3172729B1 (en) Text rule based multi-accent speech recognition with single acoustic model and automatic accent detection
US8005681B2 (en) Speech dialog control module
US8005673B2 (en) Voice recognition device, voice recognition method, and voice recognition program
JP4260788B2 (ja) 音声認識機器制御装置
JP4859982B2 (ja) 音声認識装置
JP4942860B2 (ja) 認識辞書作成装置、音声認識装置及び音声合成装置
EP2045140A1 (en) Adjustment of vehicular elements by speech control
JP2004126413A (ja) 車載制御装置、並びにその操作説明方法をコンピュータに実行させるプログラム
JP3702867B2 (ja) 音声制御装置
US10762898B2 (en) Method and device for operating a speech-controlled information system for a vehicle
JP2006195576A (ja) 車載音声認識装置
JP5277704B2 (ja) 音声認識装置及びこれを用いる車両システム
JP3654045B2 (ja) 音声認識装置
CN109976515B (zh) 一种信息处理方法、装置、车辆及计算机可读存储介质
JP4770374B2 (ja) 音声認識装置
JP2007017839A (ja) 音声認識装置
CN110556104B (zh) 语音识别装置、语音识别方法以及存储程序的存储介质
JP2011203434A (ja) 音声認識装置及び音声認識方法
JP2007057805A (ja) 車両用情報処理装置
JP4212947B2 (ja) 音声認識システムおよび音声認識の訂正・学習方法
JP4608670B2 (ja) 音声認識装置および音声認識方法
JP2004184803A (ja) 車両用音声認識装置
JP2008145676A (ja) 音声認識装置及び車両ナビゲーション装置
JP4581789B2 (ja) 音声認識装置および方法
JP2008233009A (ja) カーナビゲーション装置及びカーナビゲーション装置用プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080527

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100929

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101005

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101130

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20101221