JP4635683B2 - 音声認識装置および方法 - Google Patents

音声認識装置および方法 Download PDF

Info

Publication number
JP4635683B2
JP4635683B2 JP2005097315A JP2005097315A JP4635683B2 JP 4635683 B2 JP4635683 B2 JP 4635683B2 JP 2005097315 A JP2005097315 A JP 2005097315A JP 2005097315 A JP2005097315 A JP 2005097315A JP 4635683 B2 JP4635683 B2 JP 4635683B2
Authority
JP
Japan
Prior art keywords
microphone
contact
speech recognition
speech
contact type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005097315A
Other languages
English (en)
Other versions
JP2006276604A (ja
Inventor
聡 八木
堅悟 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nissan Motor Co Ltd
Original Assignee
Nissan Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nissan Motor Co Ltd filed Critical Nissan Motor Co Ltd
Priority to JP2005097315A priority Critical patent/JP4635683B2/ja
Publication of JP2006276604A publication Critical patent/JP2006276604A/ja
Application granted granted Critical
Publication of JP4635683B2 publication Critical patent/JP4635683B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、雑音環境下において人の発話音声を正しく認識する装置および方法に関する。
複数の異なる背景雑音の下で雑音適応させた複数の音響モデルを備え、音声認識に先立って雑音の性質を検出し、検出した雑音の性質に対応する音響モデルを選択し、入力した発話者の音声を音響モデルと照合して音声認識を行うようにした音声認識装置が知られている(例えば、特許文献1参照)。
この出願の発明に関連する先行技術文献としては次のものがある。
特開2003−241788号公報
しかしながら、従来の音声認識装置では、予め設定した背景雑音以外の雑音環境で使用すると、その雑音環境に対応する音響モデルを記憶していないので認識不能や誤認識が多くなり、認識性能が低下するという問題がある。
人体から離して用いられ、人の発話音声の空気伝導音を集音して電気信号に変換する非接触型マイクロフォンと、人体に接触させて用いられ、人の発話音声の体内伝導音を集音して電気信号に変換する接触型マイクロフォンとで集音した人の発話音声をそれぞれ認識処理して、音声認識処理結果の確からしさを求め、前記接触型マイクロフォンの出力信号レベルに基づいて前記接触型マイクロフォンを使用して発話したか否かを判定し、前記非接触型マイクロフォンの音声認識結果の確からしさに基づいて、前記接触型マイクロフォンを使用して音声認識をやり直す必要の有無を判定し、前記接触型マイクロフォンを使用して発話していないと判定され、かつ前記接触型マイクロフォンを使用して音声認識をやり直す必要があると判定された場合に、前記接触型マイクロフォンを用いた発話を促し、前記非接触型マイクロフォンと前記接触型マイクロフォンの認識処理結果に基づいて、前記非接触型マイクロフォンの音声認識結果と前記接触型マイクロフォンの音声認識結果の内、確からしさの大きい方を最終的な音声認識結果とし、前記最終的な音声認識結果を出力する。
本発明によれば、あらゆる雑音環境下において人の発話音声の認識率と認識精度を向上させることができる。
本願発明の音声認識装置を車両に搭載して、乗員、特に運転者の発話音声を認識する一実施の形態を説明する。なお、本願発明の音声認識装置は車両用に限定されず、あらゆる用途に適したものである。
図1は一実施の形態の構成を示す図である。非接触型マイクロフォン(以下、単に非接触型マイクと呼ぶ)1は、乗員の発話音声の空気伝導音を集音して電気信号に変換するマイクであり、乗員の人体に接触させることなく発話音声を集音する。非接触型マイク1には、エレクトレットコンデンサマイク(ECM)などの一般的な形式のマイクを用いることができる。
この一実施の形態では、図2に示すように、非接触型マイク1を車室天井に設置されたマップランプ12の近傍に設置する。なお、非接触型マイク1の設置場所はこの一実施の形態の設置場所に限定されず、例えばステアリングホイールやインストルメントパネルなど、乗員の発話音声を集音可能な場所であればどこでもよい。
接触型マイクロフォン(以下、単に接触型マイクと呼ぶ)2は、乗員の皮膚に直接、あるいは衣服を介して接触させ、乗員の発話による体内伝導音を集音して電気信号に変換するマイクである。接触型マイク2には骨伝導型マイクやNAM(Non-Audible Murmur)マイクを用いることができるが、この一実施の形態ではNAMマイクを用いた例を示す。
なお、骨伝導型マイクは、発話による頭蓋骨の振動を集音するとともに、頭蓋骨に振動を与えて聴覚神経に直接、音声を伝えるマイクである。近年、携帯型電話機などに送受話用として実用化されている。
NAMマイクは、人体の皮膚に直接、接触させるか、または比較的薄い衣服を介して皮膚に接触させ、乗員の発話音声の体内伝導音を集音するマイクであり、日本音響学会講演論文集、2004年3月、pp452〜453などに紹介されている。NAMマイクは、人間の皮膚と音響インピーダンスがよく似たシリコーンなどの材料でエレクトレット膜をコーティングして形成され、特に1000Hz以下の周波数領域におけるS/N特性が一般的な非接触型マイクよりも優れ、人間の非可聴な“つぶやき”や“独り言”を集音することができるという特徴を有している。
この一実施の形態では、図3に示すように、接触型マイク2をステアリングホイール13のスポーク部に設置する。この位置は、乗員が運転中に左手をステアリングホイール13から離すことなく、左手親指を接触可能な位置である。
接触型マイク2の設置場所はこの一実施の形態に限定されず、乗員が運転中に容易に接触可能な位置であればどこでもよい。また、この一実施の形態では乗員の手の指を接触させる接触型マイクを例に上げて説明するが、乗員の体内伝導音を集音しやすい部位、例えば、肩、背中上部、胸部に接触させるために、シートバック上部、ヘッドレスト、シートベルトなどに接触型マイクを設置してもよい。
PTT(Push to talk)スイッチ3は音声認識を開始するときに乗員が操作するスイッチである。このPTTスイッチ3がオンすると、音声認識装置は発話音声を集音して音声認識処理を行う。なお、音声入力時のみ接触する形式の接触型マイクを用いる場合には、接触型マイクにPTTスイッチの機能を持たせてもよい。具体的には、接触型マイク自体に接触を検出するセンサーを設け、接触型マイクへの接触を検出したら発話音声を集音して音声認識処理を開始するようにしてもよい。
入力取消スイッチ4は、音声認識のために入力した音声を取り消すために乗員が操作するスイッチである。音声認識装置による音声認識結果はスピーカー11により放送されるが、放送された認識結果が乗員の発話した内容と異なる場合はこの入力取消スイッチ4を操作して入力音声を取り消すことができる。
この一実施の形態では、図3に示すように、PTTスイッチ3と入力取消スイッチ4をステアリングホイール13のスポーク部に設置する例を示すが、これらのスイッチの設置場所はこの一実施の形態に限定されず、乗員が運転中に容易に操作可能な位置であればどこでもよい。
非接触型マイク専用音響モデル記憶装置7は、乗員と非接触型マイク1との間の音声の空間伝達特性を反映した音響モデル、すなわち車両走行時の車室内雑音の下で発話した音素パターンをモデル化し、非接触型マイク専用音響モデルとして記憶している。この非接触型マイク専用音響モデルと後述する言語辞書は、非接触型マイク1により集音した音声を認識するために用いられる。
接触型マイク専用音響モデル記憶装置8は、乗員と接触型マイク2との間の音声の体内伝達特性を反映した音響モデル、すなわち車室内雑音の影響の少ない音素パターンをモデル化し、接触型マイク専用音響モデルとして記憶している。この接触型マイク専用音響モデルと後述する言語辞書は、接触型マイク2により集音した音声を認識するために用いられる。
言語辞書記憶装置9は、音声による車両操作用、あるいは音声による車両制御用の言葉と、その言葉に対応する操作機能や制御機能を記憶している。乗員の発話音声を、まず音響モデルの音素パターンと照合して例えば“ら”、“い”、“と”などの音素単位で認識し、次に複数の音素のつながりを言語辞書の例えば“ライト”などの言葉と照合して発話音声を言葉として認識する。
この一実施の形態では、音響モデルと言語辞書を用いて公知の最尤推定法による音声認識を行い、認識結果とすべき候補の言葉に対してそれぞれ認識の確からしさを表す“尤度”を求める。そして、尤度が最も高い言葉を認識結果として出力する。
処理装置10はCPU10a、ROM10b、RAM10c、増幅器10d、A/Dコンバーター10eなどから構成され、後述する音声認識プログラムを実行して非接触型マイク1と接触型マイク2により集音された乗員の発話音声を認識する。なお、増幅器10dは非接触型マイク1および接触型マイク2から出力される音声信号を増幅し、A/Dコンバーター10eは音声信号をデジタル信号に変換する。スピーカー11は音声認識のための案内放送を行うためのもので、乗員の発話音声を認識した結果を放送して乗員に確認するためにも用いる。
図4は一実施の形態の音声認識処理プログラムを示すフローチャートである。処理装置10はPTTスイッチ3がオンされるとこの処理プログラムの実行を開始する。ステップ1において非接触型と接触型の2つのマイク1,2で発話音声を集音する。
続くステップ2で接触型マイク2からの信号レベルを予め設定された接触型マイク使用判定しきい値と比較し、出力信号レベルが判定しきい値以上の場合は乗員が接触型マイク2に指を接触させて発話した、つまり乗員が接触型マイク2を使用して発話したと判断し、出力信号レベルが判定しきい値より低い場合は乗員が接触型マイク2に指を接触させていない、つまり乗員が接触型マイク2を使用していないと判定する。この判定しきい値には、乗員が接触型マイク2に指を接触させて発話したか否かを判定するための信号レベルを設定する。
乗員が接触型マイク2を使用して発話した場合はステップ3へ進み、非接触型と接触型の2つのマイク1,2で集音した音声を認識処理する。非接触型マイク1で集音した音声に対しては非接触型マイク専用音響モデルと言語辞書とを用いて上述した認識処理を行い、上述した最尤推定法により尤度を求める。また、接触型マイク2で集音した音声に対しては接触型マイク専用音響モデルと言語辞書とを用いて上述した認識処理を行い、最尤推定法により尤度を求める。
ステップ4において、非接触型マイク1で集音した音声の認識結果と、接触型マイク2で集音した音声の認識結果の内、尤度が高い認識結果を最終的な音声認識結果として選択する。そして、ステップ5で最終的な音声認識結果を放送して乗員に確認する。ステップ6で入力取消スイッチ4がオンしているか否か、つまり乗員が音声入力を取り消す操作をしたかか否かを確認し、音声入力の取消操作があればステップ1へ戻って上述した処理を繰り返す。音声入力の取消操作がなければ音声認識処理を終了する。
乗員が接触型マイク2を使用して発話しなかった場合はステップ7へ進み、非接触型マイク1で集音した音声に対して非接触型マイク専用音響モデルと言語辞書とを用いて上述した認識処理を行い、最尤推定法により尤度を求める。
ステップ8では非接触型マイク1による音声認識結果の尤度が所定値以上か否かを確認する。この所定値は、接触型マイク2を用いて音声認識をやり直す必要がない程度に非接触型マイク1による音声認識結果が確からしいか否かを判定するためのしきい値である。尤度が所定値以上の場合は非接触型マイク1による音声認識結果が十分に確かであり、もう一度接触型マイク2による音声認識を行う必要はないと判断し、ステップ9へ進む。
ステップ9では非接触型マイク1による音声認識結果を放送して乗員に確認する。続くステップ10で入力取消スイッチ4がオンしているか否か、つまり乗員が音声入力を取り消す操作があったか否かを確認し、音声入力の取消操作があればステップ11へ進み、音声入力の取消操作がなければ音声認識処理を終了する。
非接触型マイク1による音声認識結果の尤度が所定値より低い場合は、音声認識結果は十分に確からしくないから接触型マイク2を用いてもう一度音声認識をやり直す必要があると判断し、ステップ11へ進む。なお、非接触型マイク1による音声認識結果は十分に確かであったが、乗員がその認識結果の取消操作を行った場合にも、ステップ11へ進む。
ステップ11では「接触型マイクに指を触れてもう一度発話してください」という案内放送を行い、騒音などの影響により非接触型マイク1による音声認識結果が不確かであるから接触型マイク2を用いる発話を促す。そして、ステップ1へ戻って上述した処理を繰り返す。
このように、一実施の形態によれば、人体から離して用いられ、人の発話音声の空気伝導音を集音して電気信号に変換する非接触型マイクと、人体に接触させて用いられ、人の発話音声の体内伝導音を集音して電気信号に変換する接触型マイクとで集音した人の発話音声をそれぞれ認識処理し、非接触型マイクと接触型マイクの認識処理結果に基づいて最終的な音声認識結果を出力するようにしたので、あらゆる雑音環境下において人の発話音声の認識率と認識精度を向上させることができる。
また、一実施の形態によれば、音声認識処理結果の尤度(確からしさ)を求め、非接触型マイクの音声認識結果と接触型マイクの音声認識結果の内、尤度の大きい方を最終的な音声認識結果とするようにしたので、音声認識精度をより向上させることができる。
一実施の形態によれば、非接触型マイクに適した音響モデルと、接触型マイクに適した音響モデルとを用いて音声認識処理を行うようにしたので、非接触型マイクと接触型マイクのそれぞれの音声認識精度を向上させることができ、それらを用いてより精度の高い最終的な音声認識結果を得ることができる。
一実施の形態によれば、接触型マイクの出力信号レベルに基づいて接触型マイクを使用して発話したか否かを判定するとともに、非接触型マイクの音声認識結果の尤度(確からしさ)に基づいて接触型マイクを使用して音声認識をやり直す必要の有無を判定し、接触型マイクを使用して発話していないと判定され、かつ接触型マイクを使用して音声認識をやり直す必要があると判定された場合は、接触型マイクを用いた発話を促すようにしたので、常に接触型マイクを使用しなくてもよく、必要な時だけ使用すればよいから、あらゆる雑音環境下で使用者の無用な負担を軽減しながら音声認識性能を向上させることができる。
一実施の形態によれば、音声認識装置を車両に搭載し、非接触型マイクを車室内の乗員の発話音声を集音可能な場所に設置するとともに、接触型マイクを車室内の乗員が接触可能な場所に設置するようにしたので、あらゆる走行環境下で乗員の運転操作の妨げにならずに乗員の発話音声の認識性能を向上させることができる。
一実施の形態によれば、接触型マイクにNAMマイクを用いるようにしたので、車両走行時の雑音レベルが高い1000Hz以下の周波数帯域におけるS/N特性を改善することができ、車両に最適な音声認識装置とすることができる。
また、骨伝導型マイクは頭部の頭蓋骨に当接する部位に押し当てる必要があるが、NAMマイクは頭蓋骨に当接する部位に限定されず、顔、首、胸部、背中上部などに接触させて人の発話音声を集音できるため、骨伝導マイクと比べて接触部位の制約が少ない。したがって、車両運転者の音声操作に用いても、運転者を拘束して運転操作に影響を与えることがない。
特許請求の範囲の構成要素と一実施の形態の構成要素との対応関係は次の通りである。すなわち、処理装置10が認識処理手段、使用判定手段および確からしさ判定手段を、スピーカー11が案内手段をそれぞれ構成する。なお、以上の説明はあくまで一例であり、発明を解釈する際、上記の実施の形態の記載事項と特許請求の範囲の記載事項との対応関係になんら限定も拘束もされない。
一実施の形態の構成を示す図である。 非接触型マイクの設置場所を示す図である。 接触型マイクの設置場所を示す図である。 一実施の形態の音声認識処理を示すフローチャートである。
符号の説明
1 非接触型マイク
2 接触型マイク
3 PTTスイッチ
4 入力取消スイッチ
7 非接触型マイク専用音響モデル記憶装置
8 接触型マイク専用音響モデル記憶装置
9 言語辞書記憶装置
10 処理装置
11 スピーカー

Claims (5)

  1. 人体から離して用いられ、人の発話音声の空気伝導音を集音して電気信号に変換する非接触型マイクロフォンと、
    人体に接触させて用いられ、人の発話音声の体内伝導音を集音して電気信号に変換する接触型マイクロフォンと、
    前記非接触型マイクロフォンと前記接触型マイクロフォンとで集音した人の発話音声をそれぞれ認識処理して、音声認識処理結果の確からしさを求める認識処理手段と
    前記接触型マイクロフォンの出力信号レベルに基づいて前記接触型マイクロフォンを使用して発話したか否かを判定する使用判定手段と、
    前記非接触型マイクロフォンの音声認識結果の確からしさに基づいて、前記接触型マイクロフォンを使用して音声認識をやり直す必要の有無を判定する確からしさ判定手段と、
    前記使用判定手段により前記接触型マイクロフォンを使用して発話していないと判定され、かつ前記確からしさ判定手段により前記接触型マイクロフォンを使用して音声認識をやり直す必要があると判定された場合に、前記接触型マイクロフォンを用いた発話を促す案内手段とを備え、
    前記認識処理手段による前記非接触型マイクロフォンと前記接触型マイクロフォンの認識処理結果に基づいて、前記非接触型マイクロフォンの音声認識結果と前記接触型マイクロフォンの音声認識結果の内、確からしさの大きい方を最終的な音声認識結果とし、前記最終的な音声認識結果を出力することを特徴とする音声認識装置。
  2. 請求項1に記載の音声認識装置において、
    前記認識処理手段は、前記非接触型マイクロフォンに適した音響モデルと、前記接触型マイクロフォンに適した音響モデルとを有することを特徴とする音声認識装置。
  3. 請求項1または2に記載の音声認識装置を車両に搭載し、
    前記非接触型マイクロフォンを車室内の乗員の発話音声を集音可能な場所に設置するとともに、前記接触型マイクロフォンを車室内の乗員が接触可能な場所に設置することを特徴とする音声認識装置。
  4. 請求項1〜3のいずれかの項に記載の音声認識装置において、
    前記接触型マイクロフォンにNAM(Non-Audible Murmur)マイクを用いることを特徴とする音声認識装置。
  5. 人体から離して用いられ、人の発話音声の空気伝導音を集音して電気信号に変換する非接触型マイクロフォンと、人体に接触させて用いられ、人の発話音声の体内伝導音を集音して電気信号に変換する接触型マイクロフォンとで集音した人の発話音声をそれぞれ認識処理して、音声認識処理結果の確からしさを求め、前記接触型マイクロフォンの出力信号レベルに基づいて前記接触型マイクロフォンを使用して発話したか否かを判定し、前記非接触型マイクロフォンの音声認識結果の確からしさに基づいて、前記接触型マイクロフォンを使用して音声認識をやり直す必要の有無を判定し、前記接触型マイクロフォンを使用して発話していないと判定され、かつ前記接触型マイクロフォンを使用して音声認識をやり直す必要があると判定された場合に、前記接触型マイクロフォンを用いた発話を促し、前記非接触型マイクロフォンと前記接触型マイクロフォンの認識処理結果に基づいて、前記非接触型マイクロフォンの音声認識結果と前記接触型マイクロフォンの音声認識結果の内、確からしさの大きい方を最終的な音声認識結果とし、前記最終的な音声認識結果を出力することを特徴とする音声認識方法。
JP2005097315A 2005-03-30 2005-03-30 音声認識装置および方法 Expired - Fee Related JP4635683B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005097315A JP4635683B2 (ja) 2005-03-30 2005-03-30 音声認識装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005097315A JP4635683B2 (ja) 2005-03-30 2005-03-30 音声認識装置および方法

Publications (2)

Publication Number Publication Date
JP2006276604A JP2006276604A (ja) 2006-10-12
JP4635683B2 true JP4635683B2 (ja) 2011-02-23

Family

ID=37211415

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005097315A Expired - Fee Related JP4635683B2 (ja) 2005-03-30 2005-03-30 音声認識装置および方法

Country Status (1)

Country Link
JP (1) JP4635683B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6604091B2 (ja) * 2015-08-27 2019-11-13 沖電気工業株式会社 音声信号採取装置及びプログラム
US11600273B2 (en) 2018-02-14 2023-03-07 Nec Corporation Speech processing apparatus, method, and program

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10232691A (ja) * 1997-02-20 1998-09-02 Nec Robotics Eng Ltd 複数マイク使用による認識結果選択機能付き音声認識装 置
JP2000349865A (ja) * 1999-06-01 2000-12-15 Matsushita Electric Works Ltd 音声通信装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10232691A (ja) * 1997-02-20 1998-09-02 Nec Robotics Eng Ltd 複数マイク使用による認識結果選択機能付き音声認識装 置
JP2000349865A (ja) * 1999-06-01 2000-12-15 Matsushita Electric Works Ltd 音声通信装置

Also Published As

Publication number Publication date
JP2006276604A (ja) 2006-10-12

Similar Documents

Publication Publication Date Title
JP5622744B2 (ja) 音声認識装置
JP6198432B2 (ja) 音声認識制御装置
EP1933303B1 (en) Speech dialog control based on signal pre-processing
US8666750B2 (en) Voice control system
US9230538B2 (en) Voice recognition device and navigation device
EP3754653A1 (en) Techniques for wake-up word recognition and related systems and methods
US20130332165A1 (en) Method and systems having improved speech recognition
JP2008299221A (ja) 発話検知装置
JP2016126022A (ja) 音声処理装置
JP2020122835A (ja) 音声処理装置および音声処理方法
JP6459330B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP4635683B2 (ja) 音声認識装置および方法
JP2006276605A (ja) 車両用音声認識装置および音声認識方法
JP2006285103A (ja) 音声認識装置および方法
JP4581789B2 (ja) 音声認識装置および方法
JP5173895B2 (ja) 音声認識装置
JP3764302B2 (ja) 音声認識装置
JP2007206603A (ja) 音響モデルの作成方法
JP2004318026A (ja) セキュリティペットロボット及びその装置に関する信号処理方法
JP2007267331A (ja) 発話音声収集用コンビネーション・マイクロフォンシステム
JP2004184803A (ja) 車両用音声認識装置
JP2007017840A (ja) 音声認証装置
JP4281369B2 (ja) 音声認識装置
JP4765394B2 (ja) 音声対話装置
JP2006337659A (ja) 音声入力装置および音声認識装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080227

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100714

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100803

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101001

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101026

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101108

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131203

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees