JP2009020423A - 音声認識装置および音声認識方法 - Google Patents

音声認識装置および音声認識方法 Download PDF

Info

Publication number
JP2009020423A
JP2009020423A JP2007184435A JP2007184435A JP2009020423A JP 2009020423 A JP2009020423 A JP 2009020423A JP 2007184435 A JP2007184435 A JP 2007184435A JP 2007184435 A JP2007184435 A JP 2007184435A JP 2009020423 A JP2009020423 A JP 2009020423A
Authority
JP
Japan
Prior art keywords
sound source
source direction
speech
voice
operation command
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007184435A
Other languages
English (en)
Inventor
Osamu Iwata
收 岩田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Ten Ltd
Original Assignee
Denso Ten Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Ten Ltd filed Critical Denso Ten Ltd
Priority to JP2007184435A priority Critical patent/JP2009020423A/ja
Publication of JP2009020423A publication Critical patent/JP2009020423A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】車載装置の発話制御において、重畳された音声に基づく認識結果である複数の制御コマンドを効率的に実行するために、より高い精度で音声認識する。
【解決手段】本発明の音声認識装置10は、音源分離・音源方向推定処理部11aが、重畳されて集音された音声から音源ごとに音声を分離し、各音声の音源方向を推定する。音源方向推定の信頼度が所定閾値以下であった場合に、運転席用音声認識・操作コマンド変換処理部11b、助手席用音声認識・操作コマンド変換処理部11c、後部座席用音声認識・操作コマンド変換処理部11dが、すべての音源方向に対応する音声認識用辞書を使用して音声認識をおこない、音声認識の信頼度をそれぞれ算出する。操作コマンド変換結果補正処理部11eは、音源方向の信頼度および音声認識の信頼度の積に基づいて、推定された音源方向を補正する。
【選択図】 図1

Description

本発明は、車載装置を制御するための制御コマンドを取得するために、車両の搭乗者によって発話された発話音声を音声認識する音声認識装置および音声認識方法に関し、特に、重畳された音声に基づく認識結果である複数の制御コマンドを効率的に実行するために、より高い精度で音声認識することが可能になる音声認識装置および音声認識方法に関する。
従来から、車両における音声認識装置において、1つ、もしくは1組のマイクによって集音された音声が、1つの音声認識エンジンによって音声認識されることが一般的である。すなわち、従来の音声認識装置は、1つの音声認識エンジンを備えることが一般的である。音声認識装置は、車両の搭乗者によって発せられた音声を音声認識して、カーナビゲーション装置などの車載装置を制御する制御コマンドへと変換する変換精度を向上させることが重要な課題となっている。
ここで、1つ、もしくは1組のマイクによって同時に集音された音声が、複数の音源からの音声が重畳されたものである(すなわち、車両の複数の搭乗者によって発せられた音声と、音楽再生装置や音響装置によって発せられた音声とが重畳されたものである)場合に、各音源からの音声を分離する音声分離技術が周知である。音声分離技術によって、重畳された音声を分離して、音声認識の精度を向上させることが可能になる。例えば、特許文献1に示すように、マイクによって集音された音声を、人間によって発せられた音声と、音楽再生装置や音響装置によって発せられた音声とに分離する従来技術がある。
また、特許文献2に示すように、マイクによって集音された、複数の搭乗者によって同時に発せられた音声を、1つ、もしくは複数の音声認識エンジンで各音声を並行処理で音声認識して、車載装置などを制御する車載音声認識システムが開示されている。この従来技術によって、重畳された音声の音声認識の精度を向上させることが可能になる。
また、特許文献3に示すように、音声を発した発話者を識別して、発話者ごとに音声認識辞書を切り替えて音声認識することによって、音声認識の精度を向上させることが可能になる車載用音声認識装置が開示されている。さらにこの車載用音声認識装置は、同乗者の有無を検知して、同乗者がある場合に、運転者用の音声認識辞書とともに同乗者用の音声認識辞書を選択して音声認識することによって、高精度で音声認識することが可能になる。
また、特許文献4に示すように、マイクによって集音された音声からノイズやオーディオ音を除去した音声に基づいて音声認識をおこなう音声認識装置が開示されている。この音声認識装置によれば、ノイズやオーディオ音の影響を受けない高精度の音声認識が可能になる。
特表2003−518891号公報 特開2003−114699号公報 特許第3207524号公報 特開2001−94370号公報
しかしながら、上記特許文献1〜4に代表される従来技術では、重畳された音声を、ある程度の高い精度で音声認識することが可能になるものの、これら音声の認識結果である複数の制御コマンドを車載装置で効率的に実行することができなかった。
具体的には、制御コマンドに基づいて車載装置を制御する場合には、その実行を妥当な順序でおこなわなければ、音声を発話した搭乗者のストレスを誘発するのみならず、車載装置の制御が正確におこなわれないこととなり、車両運行の安全を十分に確保できない場合がある。すなわち、制御コマンドの実行を妥当な順序でおこなうためには、より高い精度で音声認識する必要があった。
本発明は、上記問題点(課題)を解消するためになされたものであって、車載装置の発話制御において、重畳された音声に基づく認識結果である複数の制御コマンドを効率的に実行するために、より高い精度で音声認識することが可能になる音声認識装置および音声認識方法を提供することを目的とする。
上述した問題を解決し、目的を達成するため、本発明は、車載装置を制御するための制御コマンドを取得するために、車両の搭乗者によって発話された発話音声を音声認識する音声認識装置であって、前記発話音声の音源方向を推定する音源方向推定手段と、前記音源方向推定手段によって推定された前記音源方向ごとに前記発話音声の音声認識をおこなう複数の音声認識手段と、前記複数の音声認識手段それぞれによる前記発話音声の音声認識結果に基づいて、前記音源方向推定手段によって推定された前記音源方向を補正する推定音源方向補正手段とを有することを特徴とする。
また、本発明は、上記発明において、前記複数の音声認識手段は、前記音源方向ごとの音声認識用辞書を使用して前記発話音声の音声認識をおこなうことを特徴とする。
また、本発明は、上記発明において、前記音源方向推定手段は、前記発話音声の音源方向の推定をおこなう際に、該音源方向の推定の信頼度を算出し、前記複数の音声認識手段は、前記音源方向ごとの音声認識用辞書を使用して音声認識をおこなうとともに、該音源方向ごとの音声認識の信頼度を算出し、前記推定音源方向補正手段は、前記音源方向の推定の信頼度と、前記音源方向ごとの音声認識の信頼度とに基づいて、前記音源方向推定手段によって推定された前記音源方向を補正することを特徴とする。
また、本発明は、上記発明において、前記車両の搭乗者によって発話された複数の発話音声を音声分離する音声分離手段をさらに有し、前記音源方向推定手段は、前記音声分離手段によって音声分離された前記複数の発話音声それぞれの音源方向を推定することを特徴とする。
また、本発明は、上記発明において、前記複数の発話音声にそれぞれ対応する操作コマンドによる前記車載装置の操作内容と、該複数の発話音声のそれぞれの音源方向とに基づいて複数の該操作コマンドの実行順序を決定する実行順序決定手段と、前記実行順序決定手段によって決定された前記操作コマンドの実行順序に従って複数の該操作コマンドを前記車載装置へと送信する操作コマンド送信手段とをさらに有することを特徴とする。
また、本発明は、上記発明において、前記操作コマンドを前記車載装置へと送信する送信タイミングを規定する送信条件を複数の該操作コマンドそれぞれに対して付与する送信条件付与手段をさらに有し、前記操作コマンド送信手段は、前記送信条件付与手段によって前記操作コマンドそれぞれに付与された前記送信条件に従って複数の該操作コマンドを前記車載装置へと送信することを特徴とする。
また、本発明は、上記発明において、前記音声分離手段は、前記複数の発話音声それぞれの発話時間および発話音声レベルを取得し、前記実行順序決定手段は、前記発話時間および前記発話音声レベルにさらに基づいて複数の前記操作コマンドの実行順序を決定することを特徴とする。
また、本発明は、車載装置を制御するための制御コマンドを取得するために、車両の搭乗者によって発話された複数の発話音声を音声認識する音声認識方法であって、前記複数の発話音声を音声分離する音声分離ステップと、前記音声分離ステップによって音声分離された前記複数の発話音声のそれぞれの音源方向を推定するとともに、該音源方向の推定の信頼度を算出する音源方向推定ステップと、前記音声分離ステップによって音声分離された前記発話音声ごと、および、前記音源方向推定ステップによって推定された前記音源方向ごとに、該音源方向ごとの音声認識用辞書を使用して前記複数の発話音声の音声認識をおこなうとともに、該音声認識の信頼度を算出する音声認識ステップと、前記音源方向の推定の信頼度と、前記音源方向ごとの音声認識の信頼度とに基づいて、前記音源方向推定ステップによって推定された前記音源方向を補正する推定音源方向補正ステップとを含んだことを特徴とする。
また、本発明は、上記発明において、前記複数の発話音声にそれぞれ対応する操作コマンドによる前記車載装置の操作内容と、該複数の発話音声のそれぞれの音源方向とに基づいて複数の該操作コマンドの実行順序を決定する実行順序決定ステップと、前記操作コマンドを前記車載装置へと送信する送信タイミングを規定する送信条件を複数の該操作コマンドそれぞれに対して付与する送信条件付与ステップと、前記実行順序決定ステップによって決定された前記操作コマンドの実行順序、および、前記送信条件付与手段によって前記操作コマンドそれぞれに付与された前記送信条件、に従って複数の該操作コマンドを前記車載装置へと送信する操作コマンド送信ステップとをさらに含んだことを特徴とする。
本発明によれば、複数の音声認識手段それぞれによる発話音声の音声認識結果に基づいて、音源方向推定手段によって推定された音源方向を補正するので、より信頼できる音源方向を推定結果として採用することが可能になるという効果を奏する。
また、本発明によれば、音源方向ごとの音声認識用辞書を使用するので、より効率的に迅速に音声認識することが可能になるという効果を奏する。
また、本発明によれば、音源方向の推定の信頼度と、音源方向ごとの音声認識の信頼度とに基づいて、音源方向推定手段によって推定された音源方向を補正するので、音源方向の推定結果の信頼性を向上させることが可能になるという効果を奏する。
また、本発明によれば、音源方向推定手段は、音声分離手段によって音声分離された複数の発話音声それぞれの音源方向を推定するので、複数の発話音声に対しても同時にそれぞれの音源方向を推定し、それぞれの音声認識を可能とすることが可能になるという効果を奏する。
また、本発明によれば、実行順序決定手段によって決定された操作コマンドの実行順序に従って複数の該操作コマンドを車載装置へと送信するので、車載装置は、操作コマンドの優先順序に従って操作コマンドを実行することが可能になるという効果を奏する。
また、本発明によれば、送信条件付与手段によって操作コマンドそれぞれに付与された送信条件に従って複数の該操作コマンドを車載装置へと送信するので、車載装置は、操作コマンドの送信条件に応じて操作コマンドを実行することが可能になるという効果を奏する。
また、本発明によれば、実行順序決定手段は、発話時間および発話音声レベルにさらに基づいて複数の操作コマンドの実行順序を決定するので、発話開始の先後、発話音声の強弱を考慮して操作コマンドの実行順序を決定することが可能になるという効果を奏する。
以下に添付図面を参照し、本発明の音声認識装置および音声認識方法に係る実施例を詳細に説明する。
先ず、実施例にかかる音声認識装置の構成について説明する。図1は、実施例にかかる音声認識装置の構成を示す機能ブロック図である。同図に示すように、実施例にかかる音声認識装置10は、車両1において、CAN(Controller Area Network)100などのネットワークを介して、カーナビゲーション装置20と、各種音響装置であるオーディオ装置30と、例えばカーエアコンなどの車両補機装置40と、例えば車載電話機などのハンズフリー装置50と、車両の電装機器(例えば、ワイパー装置、ヘッドライトなど車両の駆動制御に直接関係しない電装機器)を制御する車両制御装置60とに接続されている。カーナビゲーション装置20、オーディオ装置30、車両補機装置40、ハンズフリー装置50、車両制御装置60を、車載装置と総称する。
音声認識装置10は、制御部11と、記憶部12と、ディスプレイ装置などの表示手段である表示部13aと、スピーカ装置などの音声発声手段である音声発生部13bとを有し、車両1の車室内で発せられる音声を集音するマイク14が接続されている。なお、マイク14は、音源分離および音源方向推定をおこなうために、2つのステレオマイクからなる2チャンネル方式であることが好適であるが、1つのステレオマイクからなる1チャンネル方式であってもよい。
制御部11は、音声認識装置全体の制御処理をつかさどる制御手段であり、音源分離・音源方向推定処理部11aと、運転席用音声認識・操作コマンド変換処理部11bと、助手席用音声認識・操作コマンド変換処理部11cと、後部座席用音声認識・操作コマンド変換処理部11dと、操作コマンド変換結果補正処理部11eと、コマンド優先制御・振り分け処理部11fとをさらに有する。
音源分離・音源方向推定処理部11aは、車両1の車室内で発せられた搭乗者の発声または車両1の車室内の音響装置からの音響が複数重畳されてマイク14によって集音された音声から音源ごとに音声を分離し、さらに分離された各音声の音源方向を推定する。音声の分離は、周知の音源分離技術を利用する。音源方向の推定は、各方向の音声モデルとの比較・照合によって、最も音声モデルの一致性が高い方向を音源方向と推定する。
音源方向は、例えば図2に示すように、車両1の車室内において、センターコンソール付近に配置されるマイク14によって集音される車室内の音声の音源方向は、車両1の車室内において、マイク14を原点とした、車両1の進行方向と垂直に交差する第1の軸と該原点において垂直に交わる第2の軸と、該原点と音源とを結ぶ軸とが成す角度で表現される。音源が、車両1の進行方向向かって右側に存在するとき、前述の角度の符号はマイナスとなり、車両1の進行方向向かって左側に存在するとき、前述の角度の符号はプラスとなる。ここで実施例では、例えば、“-90°”から“-30°”までの音源方向は、運転席であるとし、“-30°”から“+30°”までの音源方向は、後部座席であるとし、“+30°”から“+90°”までの音源方向は、助手席であるとする。
そして、音源分離・音源方向推定処理部11aは、図3の音源方向特定用テーブルに示すように、例えば5°単位で音源方向を特定する。音源方向特定用テーブルには、“-90°”、“-85°”、“-80°”・・・、“-35°”、“-30°”、“-25°”、・・・、“25°”、“30°”、“35°”、・・・、“80°”、“85°”、“90°”の各音源に対して“-90°方向音声モデル”、“-85°方向音声モデル”、“-80°方向音声モデル”・・・、“-35°方向音声モデル”、“-30°方向音声モデル”、“-25°方向音声モデル”、・・・、“25°方向音声モデル”、“30°方向音声モデル”、“35°方向音声モデル”、・・・、“80°方向音声モデル”、“85°方向音声モデル”、“90°方向音声モデル”の各音声モデルがそれぞれ対応付けられて記憶されている。
音源分離・音源方向推定処理部11aは、マイク14によって集音された音声を音声分離した後に、各音声がいずれの音源方向に対応付けられている音声モデルと完全一致または類似するかを、音声モデルの照合によって判定する。そして、完全一致すると判定可能な音声モデルに対応する音源方向を、推定された音源方向とする。また、完全一致すると判定可能な音声モデルが存在しない場合には、最も類似の尤度が高い音声モデルに対応する音源方向を、推定された音源方向とする。この尤度は、音源方向推定の信頼度(音源方向の信頼度)である。最も高い音源方向推定の信頼度が所定閾値(例えば、80%)を超える場合は、その音源方向を推定された音源方向とし、推定された音源方向のみの信頼度を音声を識別可能に後述の音声認識信頼度テーブル12eに記憶する。また、最も高い音源方向推定の信頼度が所定閾値(例えば、80%)以下である場合は、すべての音源方向の推定の信頼度を算出し、すべての音源方向の信頼度を音声を識別可能に後述の音声認識信頼度テーブル12eに記憶する。
また、音源分離・音源方向推定処理部11aは、マイク14によって集音された音声を音声分離した後に、各音声の発話時間および発話の強度である音声レベルを検知して、後述の検知音声属性テーブル12gに記憶する。
なお、音源分離・音源方向推定処理部11aは、音源方向が運転席であると推定された音声を、運転席用音声認識・操作コマンド変換処理部11bへ受け渡す。また、音源分離・音源方向推定処理部11aは、音源方向が助手席であると推定された音声を、助手席用音声認識・操作コマンド変換処理部11cへ受け渡す。また、音源分離・音源方向推定処理部11aは、音源方向が後部座席であると推定された音声を、後部座席用音声認識・操作コマンド変換処理部11dへ受け渡す。
運転席用音声認識・操作コマンド変換処理部11bは、音源分離・音源方向推定処理部11aによって音源方向が運転席であると推定された音声の音声認識をおこない、該音声に対応する操作コマンドへの変換をおこなう。この音声認識・操作コマンドへの変換処理は、運転席が音源方向として推定された際の信頼度が所定閾値(例えば、80%)より大であった場合に、運転席方向に対応する後述の運転席用音声認識辞書12bのみを使用しておこなわれる。
一方、運転席が音源方向として推定された際の信頼度が所定閾値(例えば、80%)以下であった場合に、音声認識・操作コマンドへの変換処理は、すべての音源方向に対応する音声認識用辞書(後述の運転席用音声認識辞書12b、助手席用音声認識辞書12c、後部座席用音声認識辞書12d)を使用しておこなわれ、音声認識用辞書ごとに音声認識結果が取得される。その際に、音声認識結果と、各音声認識用辞書に記憶されている音声モデルとの類似度をそれぞれ算出される。音声認識結果と、音声モデルとの類似度は、音声認識結果の信頼度(音声認識の信頼度)である。この音声認識結果の信頼度は、音声ごと、音声認識用辞書に対応する音源方向ごとに、音声認識信頼度テーブル12eに記憶される。
助手席用音声認識・操作コマンド変換処理部11cは、音源分離・音源方向推定処理部11aによって音源方向が助手席であると推定された音声の音声認識をおこない、該音声に対応する操作コマンドへの変換をおこなう。この音声認識・操作コマンドへの変換処理は、助手席が音源方向として推定された際の信頼度が所定閾値(例えば、80%)より大であった場合に、助手席方向に対応する助手席用音声認識辞書12cのみを使用しておこなわれる。
一方、助手席が音源方向として推定された際の信頼度が所定閾値(例えば、80%)以下であった場合に、音声認識・操作コマンドへの変換処理は、すべての音源方向に対応する音声認識用辞書(運転席用音声認識辞書12b、助手席用音声認識辞書12c、後部座席用音声認識辞書12d)を使用しておこなわれ、音声認識用辞書ごとに音声認識結果が取得される。その際に、各音声認識用辞書に記憶されている音声認識された音声モデルとの類似度がそれぞれ算出される。この音声認識結果の信頼度は、音声ごと、音声認識用辞書に対応する音源方向ごとに、音声認識信頼度テーブル12eに記憶される。
後部座席用音声認識・操作コマンド変換処理部11dは、音源分離・音源方向推定処理部11aによって音源方向が後部座席であると推定された音声の音声認識をおこない、該音声に対応する操作コマンドへの変換をおこなう。この音声認識・操作コマンドへの変換処理は、助手席が音源方向として推定された際の信頼度が所定閾値(例えば、80%)より大であった場合に、後部座席方向に対応する後部座席用音声認識辞書12dのみを使用しておこなわれる。
一方、後部座席が音源方向として推定された際の信頼度が所定閾値(例えば、80%)以下であった場合に、音声認識・操作コマンドへの変換処理は、すべての音源方向に対応する音声認識用辞書(運転席用音声認識辞書12b、助手席用音声認識辞書12c、後部座席用音声認識辞書12d)を使用しておこなわれ、音声認識用辞書ごとに音声認識結果が取得される。その際に、各音声認識用辞書に記憶されている音声認識された音声モデルとの類似度がそれぞれ算出される。この音声認識結果の信頼度は、音声ごと、音声認識用辞書に対応する音源方向ごとに、音声認識信頼度テーブル12eに記憶される。
操作コマンド変換結果補正処理部11eは、音源方向の推定の際の信頼度が所定閾値(例えば、80%)以下であった場合に、音声認識信頼度テーブル12eに記憶されている音声ごと、音源方向ごとの音源方向の信頼度および音声認識の信頼度の積を算出し、同テーブルに記憶する。そして、その積が最も大きい音源方向を補正された音源方向とする。そして、補正された音源方向に対応する音声認識・コマンド変換結果を、補正された操作コマンド変換結果とする。
コマンド優先制御・振り分け処理部11fは、音源分離・音源方向推定処理部11aによって推定された音源方向または操作コマンド変換結果補正処理部11eによって補正された音源方向に基づく操作コマンドの実行の優先順位を決定する。具体的には、推定または補正された音源方向と、操作内容とに基づき、後述の操作コマンド優先度決定テーブル12fに基づいて複数の操作コマンドに対して実行順序を決定する優先度スコアを付与する。例えば、同じ操作内容であっても、運転者による操作コマンドの方が、同乗者(助手席搭乗者、後部座席搭乗者)による操作コマンドよりも優先的に実行されるように、各車載装置へと受け渡される。このようにして、同時に発話された音声に基づく各種装置の操作順序が、優先度の高いものから実行されるように制御される。
なお、コマンド優先制御・振り分け処理部11fは、操作コマンド優先度決定テーブル12fに基づいて決定された複数の操作コマンドの実行順序が同位である場合には、検知音声属性テーブル12gを参照して、発話時間および音声レベルに基づいて実行順序の先後を決定する。すなわち、同時に音声認識され、操作コマンドに変換された発話であっても、発話時間が長いほうがより先に発話開始されたことになるので、対応する操作コマンドはより優先して実行されるべきである。また、同時に音声認識され、操作コマンドに変換された発話であっても、音声レベルが強いほうが、車載機操作を目的とした発話である尤度が高いことになるので、対応する操作コマンドはより優先して実行されるべきである。このようにして、最終的に、同時に音声認識され、操作コマンドに変換された発話に対応するすべての操作コマンドの実行順序が決定されることとなる。
そして、コマンド優先制御・振り分け処理部11fは、最終的に実行順序の先後が決定されたすべての操作コマンドを、各車載装置へと受け渡す。この操作コマンドの受け渡しの際に、後述の操作コマンド送信条件テーブル12hを参照して操作コマンドの送信条件を決定し、該操作コマンドに付与する。送信条件の詳細は、後述する。
記憶部12は、音源方向特定用テーブル12aと、運転席用音声認識辞書12bと、助手席用音声認識辞書12cと、後部座席用音声認識辞書12dと、音声認識信頼度テーブル12eと、操作コマンド優先度決定テーブル12fと、検知音声属性テーブル12gと、操作コマンド送信条件テーブル12hとをさらに含む。
次に、図4〜図6を参照して、各音声認識辞書について説明する。図4は、運転席用音声認識辞書の例を示す図であり、図5は、助手席用音声認識辞書の例を示す図であり、図6は、後部座席用音声認識辞書の例を示す図である。
図4を参照すると、運転席用音声認識辞書12bは、「発話カテゴリ」として、“カーナビゲーション制御”、“オーディオ制御”、“エアコン制御”などのカテゴリがある。“カーナビゲーション制御”の「発話カテゴリ」には、「発話内容」として、“カーナビゲーション装置電源オン”、“現在地表示“、“目的地設定”、“ルート検索”、“目的地変更”、“案内終了”、“カーナビゲーション装置電源オフ”などがある。「発話カテゴリ」が“カーナビゲーション制御”である項目に対して、「音声モデル」として、“カーナビゲーション装置電源オン音声モデル”、“現在地表示音声モデル”、“目的地設定音声モデル”、“ルート検索音声モデル”、“目的地変更音声モデル”、“案内終了音声モデル”、“カーナビゲーション装置電源オフ音声モデル”が対応付けられている。
また、それぞれの「発話内容」に対して、「操作コマンド」として、“カーナビゲーション装置電源オン操作コマンド”、“現在地表示操作コマンド”、“目的地設定操作コマンド”、“ルート検索操作コマンド”、“目的地変更操作コマンド”、“案内終了操作コマンド”、“カーナビゲーション装置電源オフ操作コマンド”が対応付けられている。なお、「発話カテゴリ」が“オーディオ制御”、“エアコン制御”である項目に対応する「発話内容」、「音声モデル」、「操作コマンド」は、図示のとおりである。
このように、運転席用音声認識辞書12bを使用すると、“カーナビゲーション制御”のように、車両の運行にかかわる重要度が比較的高い車載装置の操作コマンドが音声認識可能である。また、各「発話カテゴリ」においても、“電源オン”、“電源オフ”などの当該車載装置の重要な操作コマンドが音声認識可能である。
一方で、図5を参照すると、助手席用音声認識辞書12cは、「発話カテゴリ」として、“カーナビゲーション制御”、“オーディオ制御”、“エアコン制御”などのカテゴリがあるものの、例えば、“カーナビゲーション制御”の「発話カテゴリ」には、「発話内容」として、“現在地表示”、“目的地表示”、“目的地設定”、“ルート検索”、“目的地変更”のみである。これは、助手席の搭乗者には、運転者に比べて、車載装置にかかる重要な操作の権限が与えられていないためである。また、同様に、運転者と比較して、助手席の搭乗者は、車両の運行に関わるようなより重要な車載装置の操作の権限が与えられず、従って、助手席用音声認識辞書12cは、「発話カテゴリ」の項目が、運転席用音声認識辞書12bと比較して適宜削減されている。
同様に、図6を参照すると、後部座席用音声認識辞書12dは、「発話カテゴリ」として、“オーディオ制御”、“エアコン制御”などのカテゴリのみしかなく、さらに、例えば“オーディオ制御”の「発話カテゴリ」には、「発話内容」として、“再生”、“停止”、“一時停止”、“1曲前へ”、“1曲後へ”のみであり、運転席用音声認識辞書12bに存在するような“オーディオ電源オン”、“オーディオ電源オフ”の項目が存在しない。これは、助手席用音声認識辞書12cと同様に、後部座席の搭乗者には、運転者、助手席の搭乗者に比べて、車載装置にかかる重要な操作の権限が与えられていないためである。また、同様に、運転者、助手席の搭乗者と比較して、後部座席の搭乗者は、車両の運行に関わるようなより重要な車載装置の操作の権限が与えられず、従って、後部座席用音声認識辞書12dは、「発話カテゴリ」の項目が、運転席用音声認識辞書12b、助手席用音声認識辞書12cと比較して適宜削減されている。
次に、音声認識信頼度テーブルについて説明する。図7は、音声認識信頼度テーブルの例を示す図である。同図に示すように、音声認識信頼度テーブル12eは、音源分離・音源方向推定処理部11aによって推定された音源方向およびその音源方向推定の信頼度、運転席用音声認識・操作コマンド変換処理部11b、助手席用音声認識・操作コマンド変換処理部11c、後部座席用音声認識・操作コマンド変換処理部11dによって音声認識された音源方向ごとの音声認識の信頼度、および操作コマンド変換結果補正処理部11eによって算出された推定された該音源方向の信頼度と、該音声認識の信頼度との積を、音声ごとに識別可能に記憶する。
図7に示すように、「音声識別番号」の“1”は、「音源方向」として“運転席”が“85.0%”の信頼度で推定されており、音源方向推定の信頼度の所定閾値(例えば、80%)を超えているので、推定された音源方向として“運転席”が信頼可能であるとし、その他の「音源方向」の信頼度は“0%”としている。これによると、音源分離・音源方向推定処理部11aによって推定された音源方向“運転席”は、そのまま音源方向の推定結果として採用されることとなる。
一方、「音声識別番号」の“2”は、「音源方向」として“運転席”が“30.0%”の信頼度で推定されており、“助手席”が“60.0%”の信頼度で推定されており、“後部座席”が“10.0%”の信頼度で推定されており、いずれの音源方向推定の信頼度も所定閾値(例えば、80%)未満であるので、推定された音源方向としていずれの音源方向も信頼不可能であるとされる。これによると、音源分離・音源方向推定処理部11aによって推定された音源方向は、そのまま音源方向の推定結果として採用されず、運転席用音声認識・操作コマンド変換処理部11b、助手席用音声認識・操作コマンド変換処理部11c、後部座席用音声認識・操作コマンド変換処理部11dによる音声認識の信頼度を考慮して、最終的な音源方向が推定されることとなる。
図7を参照すると、「音声識別番号」の“2”の“運転席”の音声認識の信頼度は90.0%であり、“助手席”の音声認識の信頼度は40.0%であり、“後部座席”の音声認識の信頼度は60.0%である。これらの音声認識の信頼度と、音源方向の信頼度との積をそれぞれ取ると、“運転席”が“27.0%”、“助手席”が“24.0%”、“後部座席”が“6.0%”となる。よって、これらの積のうち最も値が大きい”運転席“が最終的な推定された音源方向として採用される。
次に、操作コマンド優先度決定テーブルについて説明する。図8は、操作コマンド優先度決定テーブルの例を示す図である。同図に示すように、「操作内容」と、操作主体(同乗者(助手席の搭乗者、後部座席の搭乗者)あるいは運転者か)とに応じて、操作実行の優先順位の高さを表す優先度スコアが付与されている。「操作内容」には、“オーディオ操作”、“カーナビゲーション操作”、“車両補機操作”、“ハンズフリー操作”、“車両制御操作”がある。また、“オーディオ操作”、“カーナビゲーション操作”、“車両補機操作”には、各装置の電源オン・オフなどの制御に関わる重要な操作である「重要度」が“高”の操作と、「重要度」が“高”以外の「重要度」が“低”の操作とがある。
優先度スコアは、「操作内容」が“オーディオ操作”、“カーナビゲーション操作”、“車両補機操作”、“ハンズフリー操作”、“車両制御操作”の順序でより大きい値が付与され、「重要度」が“低”のものよりも“高”のものの方がより大きい値が付与され、操作主体が同乗者よりも運転者の方がより高い値が付与される。そして、優先度スコアは、同じ操作内容であれば、重要度の高低にかかわらず、操作主体が運転者の方が同乗者よりも大きな値が付与される。優先度スコアは、その値が大きいほうが優先的に実行される操作コマンドとなる。
図8に示す優先度スコアの例では、例えば、同乗者の“カーナビゲーション操作”よりも運転者の“オーディオ操作”が優先される場合がある。具体的には、同乗者がカーナビゲーション装置20を使用して周辺施設(レストラン、コンビニエンスストアなど)を検索している場合に、運転者がオーディオ装置の音量を下げたい場合が該当する。この場合、同乗者のカーナビゲーション操作は「重要度」が“低”である一方、運転者のオーディオ操作は「重要度」が“高”である。そして、操作コマンド優先度決定テーブル12fによると、同乗者の「重要度」が“低”のカーナビゲーション操作は「優先度スコア」が“3”である一方、運転者の重要度」が“高”のオーディオ操作は「優先度スコア」が“4”である。従って、同乗者の“カーナビゲーション操作”よりも運転者の“オーディオ操作”が優先されることとなる。
次に、検知音声属性テーブルについて説明する。図9は、検知音声属性テーブルの例を示す図である。同図に示すように、運転席用音声認識・操作コマンド変換処理部11b、助手席用音声認識・操作コマンド変換処理部11c、後部座席用音声認識・操作コマンド変換処理部11dのいずれかによって音声認識された発話音声は、「音声属性」として「発話時間」および「音声レベル」が検知され、その「属性値」がこのテーブルに記憶されることとなる。
次に、操作コマンド送信条件テーブルについて説明する。図10は、操作コマンド送信条件テーブルの例を示す図である。同図に示すように、「操作コマンド送信条件名」として“送信条件1”、“送信条件2”、“送信条件3”がある。“送信条件1”は、“直前の操作完了通知を受信後、次の操作コマンドを送信”する送信条件である。車載装置は本来、受信した操作コマンドを実行中に、他の操作コマンドを受信すると、先に受信した操作コマンドに対応する操作を中止して、後に受信した操作コマンドに対応する操作を実行開始する仕様になっている。しかし、この“送信条件1”に従うと、直前の操作完了通知を受信してはじめて、次の操作コマンドを送信するので、車載装置において個々の操作コマンドに対応する操作が実行順序に従って確実に実行されることとなる。
また、“送信条件2”は、“直前の操作コマンド受信完了通知を受信後、次の操作コマンドを送信”する送信条件である。この“送信条件2”に従うと、直前の操作コマンド受信完了通知を受信すると、次の操作コマンドを送信するので、直前の操作コマンドに対応する操作が車載装置において迅速に実行完了するものである限り、個々の操作コマンドに対応する操作が実行順序に従って実行されることとなる。すなわち、“送信条件2”に従うと、直前の操作コマンドに対応する操作が車載装置において迅速に実行完了するものである限り、操作コマンドの送信を迅速におこない、操作コマンドの送信キューの領域圧迫を防止することが可能になる。
また、“送信条件3”は、“直前の操作コマンドを送信後、次の操作コマンドを送信”する送信条件である。この“送信条件3”に従うと、直前の操作コマンドを送信すると、次の操作コマンドを送信するので、直前の操作コマンドに対応する操作の実行が中止され、後から送信された操作コマンドに対応する操作が実行されることとなる。すなわち、“送信条件3”に従うと、直前の操作コマンドに対応する操作を注視してでも、後に送信された送信コマンドに対応する操作を優先してよい場合には、操作コマンドの送信を迅速におこない、操作コマンドの送信キューの領域圧迫を防止することが可能になる。
なお、送信条件の付与方法は、次の方法に従ってもよい。例えば、ある時間内にほぼ同時に音声認識された結果の操作コマンドのグループに属する操作コマンドは、すべて“送信条件1”または“送信条件2”が付与される。ここで“送信条件1”または“送信条件2”のいずれが付与されるかは、車載装置の処理性能および操作の処理負担の重さによって決まる処理時間を考慮して決定する。例えば、車載装置の処理性能が高い若しくは操作の処理負担が軽いために処理時間が短く、直前の操作コマンド受信完了通知を受信後に、次の操作コマンドを送信したとしても、すでに直前の操作コマンドに対応する操作が終了しているようなケースでは、“送信条件2”が付与される。そして、“送信条件2”が付与されるケース以外では、“送信条件1”が付与される。
また、操作コマンドの第1のグループとしてほぼ同時に発話が音声認識された第1の時間内より所定時間経過した第2の時間内にほぼ同時に音声認識された結果の操作コマンドの第2のグループの先頭の操作コマンドと、第1のグループの未実行の操作コマンドの「優先度スコア」とを比較して、第2のグループの先頭の操作コマンドが第1のグループの未実行の操作コマンドの「優先度スコア」よりも一定値以上高い場合に、第2のグループの先頭の操作コマンドの緊急性が高いと判定して、“送信条件3”を付与して、割り込み処理により直ちに第2のグループの先頭の操作コマンドに対応する操作を実行するようにしてもよい。
なお、送信条件付与は、車載装置側ではなく、音声認識装置側でおこなうと、車載装置の仕様変更を必要とせず、操作コマンドを要求した搭乗者と要求タイミングとに基づいて、正確に優先度制御をおこなうことが可能になる。
次に、音声認識処理について説明する。図11は、音声認識処理手順を示すフローチャートである。同図に示すように、先ず、音声認識装置10の制御部11は、音声認識・コマンド変換処理をおこなう(ステップS101)。この音声認識・コマンド変換処理の詳細は、図12を参照して後述する。続いて、音声認識装置10の制御部11は、操作コマンド振り分け・送信処理をおこなう(ステップS102)。この操作コマンド振り分け・送信処理の詳細は、図13を参照して後述する。
次に、図11のステップS101で示した音声認識・コマンド変換処理について説明する。図12は、音声認識・コマンド変換処理手順を示すフローチャートである。先ず、音源分離・音源方向推定処理部11aは、重畳された音声を分離する(ステップS111)。続いて、音源分離・音源方向推定処理部11aは、音源方向特定用テーブル12aを参照して音源方向を推定する(ステップS112)。続いて、音源分離・音源方向推定処理部11aは、推定された音源方向の信頼度を、音声モデルとの一致または類似の尤度に基づいて算出し、音声認識信頼度テーブル12eに記憶する(ステップS113)。
続いて、音源分離・音源方向推定処理部11aは、ステップS113推定された音源方向に対応する音声認識エンジン(運転席用音声認識・操作コマンド変換処理部11b、助手席用音声認識・操作コマンド変換処理部11c、後部座席用音声認識・操作コマンド変換処理部11d)に音声を入力する。ここで、例えば、1つの音源方向が所定閾値(例えば、80%)を超える信頼度で音源推定された場合には、この方向に対応する音声認識エンジンのみへ音声を入力する。一方、すべての音源方向が所定閾値(例えば、80%)以下の信頼度で音源推定された場合には、すべての方向に対応する音声認識エンジンへ音声を入力する。
続いて、ステップS114で音声を入力された各音声認識エンジン(運転席用音声認識・操作コマンド変換処理部11b、助手席用音声認識・操作コマンド変換処理部11c、後部座席用音声認識・操作コマンド変換処理部11d)は、推定される音源方向の信頼度は所定閾値(例えば、80%以上)を超えるか否かを判定する(ステップS115)。推定される音源方向の信頼度は所定閾値を超えると判定された場合に(ステップS115肯定)、ステップS116へ移り、推定される音源方向の信頼度は所定閾値を超えると判定されなかった場合に(ステップS115否定)、ステップS118へ移る。
ステップS116では、ステップS114で音声を入力された音声認識エンジン(運転席用音声認識・操作コマンド変換処理部11b、助手席用音声認識・操作コマンド変換処理部11cまたは後部座席用音声認識・操作コマンド変換処理部11d)は、推定される音源方向に対応する音声認識辞書(運転席用音声認識辞書12b、助手席用音声認識辞書12cまたは後部座席用音声認識辞書12d)にて音声認識処理をおこなう。続いて、ステップS114で音声を入力された音声認識エンジン(運転席用音声認識・操作コマンド変換処理部11b、助手席用音声認識・操作コマンド変換処理部11cまたは後部座席用音声認識・操作コマンド変換処理部11d)は、音声認識結果を操作コマンドへ変換する(ステップS117)。この処理が終了すると、図11の音声認識処理に復帰する。
一方、ステップS118では、ステップS114で音声を入力された各音声認識エンジン(運転席用音声認識・操作コマンド変換処理部11b、助手席用音声認識・操作コマンド変換処理部11c、後部座席用音声認識・操作コマンド変換処理部11d)は、音声認識辞書を切り替えながらすべての音声認識辞書(運転席用音声認識・操作コマンド変換処理部12b、助手席用音声認識・操作コマンド変換処理部12c、後部座席用音声認識・操作コマンド変換処理部12d)にて音声認識処理をおこなう。この際に、各音声認識エンジンは、各音声認識辞書に基づく音声認識の尤度を信頼度として算出し、音源方向ごとに音声認識信頼度テーブルに記憶する。
続いて、操作コマンド変換結果補正処理部11eは、推定された音源方向の信頼度と、各音声認識辞書にて音声認識処理された結果の信頼度とを乗算した結果を音声認識信頼度テーブルに記憶する(ステップS119)。続いて、操作コマンド変換結果補正処理部11eは、ステップS119による信頼度の乗算結果に基づき、最も乗算結果の値が大きい音源方向を補正された音源方向とし、この音源方向に対応する音声認識結果を選択する(ステップS120)。続いて、ステップS120で音声認識結果を選択された音声認識エンジン(運転席用音声認識・操作コマンド変換処理部11b、助手席用音声認識・操作コマンド変換処理部11cまたは後部座席用音声認識・操作コマンド変換処理部11d)は、自らの音声認識結果を操作コマンドへ変換する(ステップS121)。この処理が終了すると、図11の音声認識処理に復帰する。
次に、図11のステップS102で示した操作コマンド振り分け・送信処理について説明する。図13は、操作コマンド振り分け・送信処理手順を示すフローチャートである。先ず、操作コマンド優先制御・振り分け処理部11fは、各音声認識エンジン(運転席用音声認識・操作コマンド変換処理部11b、助手席用音声認識・操作コマンド変換処理部11c、後部座席用音声認識・操作コマンド変換処理部11d)によって変換された操作コマンドを取得する(ステップS121)。
続いて、操作コマンド優先制御・振り分け処理部11fは、各音声認識エンジンによって変換されたすべての操作コマンドを取得したか否かを判定する(ステップS122)。すべての操作コマンドを取得したと判定された場合に(ステップS122肯定)、ステップS123へ移り、すべての操作コマンドを取得したと判定されなかった場合に(ステップS122否定)、ステップS122を繰り返す。なお、ステップS122で“すべての操作コマンド”とされる複数の操作コマンドを、“一連の操作コマンド”と呼ぶ。
続いて、操作コマンド優先制御・振り分け処理部11fは、ステップS122で取得した操作コマンドは複数か否かを判定する(ステップS123)。取得した操作コマンドは複数であると判定された場合に(ステップS123肯定)、ステップS124へ移り、取得した操作コマンドは複数であると判定されなかった場合に(ステップS123否定)、ステップS130へ移る。
ステップS124では、操作コマンド優先制御・振り分け処理部11fは、操作コマンド優先度決定テーブル12fに基づいて一連の操作コマンドそれぞれに優先度を付与し、この優先度順に所定のキューにキューイングする。続いて、操作コマンド優先制御・振り分け処理部11fは、ステップS124で所定のキューにキューイングされた一連の操作コマンドに対して、操作コマンド送信対象の車載装置の性能、処理負担などを考慮して、操作コマンド送信条件テーブル12hに基づいて送信条件を付与する(ステップS125)。
続いて、操作コマンド優先制御・振り分け処理部11fは、前述の所定のキューの先頭から操作コマンドを1つ取り出す(ステップS126)。続いて、操作コマンド優先制御・振り分け処理部11fは、ステップS126で取り出した操作コマンドが、一連の操作コマンドのうち最初に送信すべき操作コマンドか否かを判定する(ステップS127)。最初に送信すべき操作コマンドであると判定された場合に(ステップS127肯定)、ステップS130へ移り、最初に送信すべき操作コマンドであると判定されなかった場合に(ステップS127否定)、ステップS128へ移る。
ステップS128では、操作コマンド優先制御・振り分け処理部11fは、今回送信対象の操作コマンドが、操作完了待ちが必要であるとされる送信条件を付与されているか否かを判定する。今回送信対象の操作コマンドが、操作完了待ちが必要であるとされる送信条件を付与されていると判定された場合に(ステップS128肯定)、ステップS129へ移り、今回送信対象の操作コマンドが、操作完了待ちが必要であるとされる送信条件を付与されていると判定されなかった場合に(ステップS128否定)、ステップS130へ移る。ステップS129では、操作コマンド優先制御・振り分け処理部11fは、直前の操作コマンドに基づく操作の完了を待機する。
ステップS130では、操作コマンド優先制御・振り分け処理部11fは、今回送信対象の操作コマンドを、対象の車載装置に対して送信する。続いて、操作コマンド優先制御・振り分け処理部11fは、一連の操作コマンドのうちすべての操作コマンドを送信したか否かを判定する(ステップS131)。一連の操作コマンドのうちすべての操作コマンドを送信したと判定された場合に(ステップS131肯定)、図11の音声認識処理に復帰し、一連の操作コマンドのうちすべての操作コマンドを送信したと判定されなかった場合に(ステップS131否定)、ステップS126へ移る。
以上、本発明の実施例を説明したが、本発明は、これに限られるものではなく、特許請求の範囲に記載した技術的思想の範囲内で、更に種々の異なる実施例で実施されてもよいものである。また、実施例に記載した効果は、これに限定されるものではない。
また、上記実施例において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記実施例で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPU(Central Processing Unit)(またはMPU(Micro Processing Unit)、MCU(Micro Controller Unit)などのマイクロ・コンピュータ)および当該CPU(またはMPU、MCUなどのマイクロ・コンピュータ)にて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現されてもよい。
本発明は、車載装置の発話制御において、重畳された音声に基づく認識結果である複数の制御コマンドを効率的に実行するために、より高い精度で音声認識することを可能にしたい場合に有用である。
実施例にかかる音声認識装置の構成を示す機能ブロック図である。 実施例における音源方向の例を示す図である。 音源方向特定用テーブルの例を示す図である。 運転席用音声認識辞書の例を示す図である。 助手席用音声認識辞書の例を示す図である。 後部座席用音声認識辞書の例を示す図である。 音声認識信頼度テーブルの例を示す図である。 操作コマンド優先度決定テーブルの例を示す図である。 検知音声属性テーブルの例を示す図である。 操作コマンド送信条件テーブルの例を示す図である。 音声認識処理手順を示すフローチャートである。 音声認識・コマンド変換処理手順を示すフローチャートである。 操作コマンド振り分け・送信処理手順を示すフローチャートである。
符号の説明
1 車両
10 音声認識装置
11 制御部
11a 音源分離・音源方向推定処理部
11b 運転席用音声認識・操作コマンド変換処理部
11c 助手席用音声認識・操作コマンド変換処理部
11d 後部座席用音声認識・操作コマンド変換処理部
11e 操作コマンド変換結果補正処理部
11f コマンド優先制御・振り分け処理部
12 記憶部
12a 音源方向特定用テーブル
12b 運転席用音声認識辞書
12c 助手席用音声認識辞書
12d 後部座席用音声認識辞書
12e 音声認識信頼度テーブル
12f 操作コマンド優先度決定テーブル
12g 検知音声属性テーブル
12h 操作コマンド送信条件テーブル
13a 表示部
13b 音声発生部
14 マイク
20 カーナビゲーション装置
30 オーディオ装置
40 車両補機装置
50 ハンズフリー装置
60 車両制御装置

Claims (9)

  1. 車載装置を制御するための制御コマンドを取得するために、車両の搭乗者によって発話された発話音声を音声認識する音声認識装置であって、
    前記発話音声の音源方向を推定する音源方向推定手段と、
    前記音源方向推定手段によって推定された前記音源方向ごとに前記発話音声の音声認識をおこなう複数の音声認識手段と、
    前記複数の音声認識手段それぞれによる前記発話音声の音声認識結果に基づいて、前記音源方向推定手段によって推定された前記音源方向を補正する推定音源方向補正手段と
    を有することを特徴とする音声認識装置。
  2. 前記複数の音声認識手段は、前記音源方向ごとの音声認識用辞書を使用して前記発話音声の音声認識をおこなうことを特徴とする請求項1に記載の音声認識装置。
  3. 前記音源方向推定手段は、前記発話音声の音源方向の推定をおこなう際に、該音源方向の推定の信頼度を算出し、
    前記複数の音声認識手段は、前記音源方向ごとの音声認識用辞書を使用して音声認識をおこなうとともに、該音源方向ごとの音声認識の信頼度を算出し、
    前記推定音源方向補正手段は、前記音源方向の推定の信頼度と、前記音源方向ごとの音声認識の信頼度とに基づいて、前記音源方向推定手段によって推定された前記音源方向を補正することを特徴とする請求項2に記載の音声認識装置。
  4. 前記車両の搭乗者によって発話された複数の発話音声を音声分離する音声分離手段をさらに有し、
    前記音源方向推定手段は、前記音声分離手段によって音声分離された前記複数の発話音声それぞれの音源方向を推定することを特徴とする請求項1、2または3に記載の音声認識装置。
  5. 前記複数の発話音声にそれぞれ対応する操作コマンドによる前記車載装置の操作内容と、該複数の発話音声のそれぞれの音源方向とに基づいて複数の該操作コマンドの実行順序を決定する実行順序決定手段と、
    前記実行順序決定手段によって決定された前記操作コマンドの実行順序に従って複数の該操作コマンドを前記車載装置へと送信する操作コマンド送信手段と
    をさらに有することを特徴とする請求項4に記載の音声認識装置。
  6. 前記操作コマンドを前記車載装置へと送信する送信タイミングを規定する送信条件を複数の該操作コマンドそれぞれに対して付与する送信条件付与手段をさらに有し、
    前記操作コマンド送信手段は、前記送信条件付与手段によって前記操作コマンドそれぞれに付与された前記送信条件に従って複数の該操作コマンドを前記車載装置へと送信することを特徴とする請求項5に記載の音声認識装置。
  7. 前記音声分離手段は、前記複数の発話音声それぞれの発話時間および発話音声レベルを取得し、
    前記実行順序決定手段は、前記発話時間および前記発話音声レベルにさらに基づいて複数の前記操作コマンドの実行順序を決定することを特徴とする請求項4、5または6に記載の音声認識装置。
  8. 車載装置を制御するための制御コマンドを取得するために、車両の搭乗者によって発話された複数の発話音声を音声認識する音声認識方法であって、
    前記複数の発話音声を音声分離する音声分離ステップと、
    前記音声分離ステップによって音声分離された前記複数の発話音声のそれぞれの音源方向を推定するとともに、該音源方向の推定の信頼度を算出する音源方向推定ステップと、
    前記音声分離ステップによって音声分離された前記発話音声ごと、および、前記音源方向推定ステップによって推定された前記音源方向ごとに、該音源方向ごとの音声認識用辞書を使用して前記複数の発話音声の音声認識をおこなうとともに、該音声認識の信頼度を算出する音声認識ステップと、
    前記音源方向の推定の信頼度と、前記音源方向ごとの音声認識の信頼度とに基づいて、前記音源方向推定ステップによって推定された前記音源方向を補正する推定音源方向補正ステップと
    を含んだことを特徴とする音声認識方法。
  9. 前記複数の発話音声にそれぞれ対応する操作コマンドによる前記車載装置の操作内容と、該複数の発話音声のそれぞれの音源方向とに基づいて複数の該操作コマンドの実行順序を決定する実行順序決定ステップと、
    前記操作コマンドを前記車載装置へと送信する送信タイミングを規定する送信条件を複数の該操作コマンドそれぞれに対して付与する送信条件付与ステップと、
    前記実行順序決定ステップによって決定された前記操作コマンドの実行順序、および、前記送信条件付与手段によって前記操作コマンドそれぞれに付与された前記送信条件、に従って複数の該操作コマンドを前記車載装置へと送信する操作コマンド送信ステップと
    をさらに含んだことを特徴とする請求項8に記載の音声認識方法。
JP2007184435A 2007-07-13 2007-07-13 音声認識装置および音声認識方法 Pending JP2009020423A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007184435A JP2009020423A (ja) 2007-07-13 2007-07-13 音声認識装置および音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007184435A JP2009020423A (ja) 2007-07-13 2007-07-13 音声認識装置および音声認識方法

Publications (1)

Publication Number Publication Date
JP2009020423A true JP2009020423A (ja) 2009-01-29

Family

ID=40360086

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007184435A Pending JP2009020423A (ja) 2007-07-13 2007-07-13 音声認識装置および音声認識方法

Country Status (1)

Country Link
JP (1) JP2009020423A (ja)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011237621A (ja) * 2010-05-11 2011-11-24 Honda Motor Co Ltd ロボット
JP2013088535A (ja) * 2011-10-14 2013-05-13 Vri Inc 音声制御システム及びプログラム
JP2014048514A (ja) * 2012-08-31 2014-03-17 Nec Corp 音声認識装置、音声認識方法及びプログラム
JP2016080750A (ja) * 2014-10-10 2016-05-16 株式会社Nttドコモ 音声認識装置、音声認識方法、及び音声認識プログラム
CN106030700A (zh) * 2014-02-19 2016-10-12 诺基亚技术有限公司 至少部分地基于空间音频属性来确定操作指令
JP2017009701A (ja) * 2015-06-18 2017-01-12 本田技研工業株式会社 音声認識装置、および音声認識方法
JP2017007652A (ja) * 2015-06-08 2017-01-12 ロベルト・ボッシュ・ゲゼルシャフト・ミト・ベシュレンクテル・ハフツングRobert Bosch Gmbh 言語制御のための文脈を認識する方法、言語制御のための言語制御信号を決定する方法、および方法を実施するための装置
JPWO2016120904A1 (ja) * 2015-01-28 2017-04-27 三菱電機株式会社 意図推定装置及び意図推定方法
CN107219838A (zh) * 2016-03-21 2017-09-29 法雷奥照明公司 具有用于车辆内部照明的声音和/或姿势识别的控制装置和方法
CN108986806A (zh) * 2018-06-30 2018-12-11 上海爱优威软件开发有限公司 基于声源方向的语音控制方法及系统
CN109658922A (zh) * 2017-10-12 2019-04-19 现代自动车株式会社 车辆的用于处理用户输入的装置和方法
WO2019138619A1 (ja) * 2018-01-09 2019-07-18 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
WO2020079733A1 (ja) * 2018-10-15 2020-04-23 三菱電機株式会社 音声認識装置、音声認識システム、及び音声認識方法
CN113113005A (zh) * 2021-03-19 2021-07-13 大众问问(北京)信息科技有限公司 语音数据处理方法、装置、计算机设备和存储介质
JP2022007018A (ja) * 2020-06-25 2022-01-13 コニカミノルタ株式会社 音声設定システム、音声設定支援装置および音声設定支援プログラム
JP7383761B2 (ja) 2021-06-03 2023-11-20 阿波▲羅▼智▲聯▼(北京)科技有限公司 車両に対する音声処理方法、装置、電子機器、記憶媒体及びコンピュータプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006166007A (ja) * 2004-12-07 2006-06-22 Sony Ericsson Mobilecommunications Japan Inc 音源方向検出方法、音源方向検出装置及び撮影装置
JP2006263348A (ja) * 2005-03-25 2006-10-05 Toshiba Corp 利用者識別装置、利用者識別方法および利用者識別プログラム
JP2007221300A (ja) * 2006-02-15 2007-08-30 Fujitsu Ltd ロボット及びロボットの制御方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006166007A (ja) * 2004-12-07 2006-06-22 Sony Ericsson Mobilecommunications Japan Inc 音源方向検出方法、音源方向検出装置及び撮影装置
JP2006263348A (ja) * 2005-03-25 2006-10-05 Toshiba Corp 利用者識別装置、利用者識別方法および利用者識別プログラム
JP2007221300A (ja) * 2006-02-15 2007-08-30 Fujitsu Ltd ロボット及びロボットの制御方法

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011237621A (ja) * 2010-05-11 2011-11-24 Honda Motor Co Ltd ロボット
JP2013088535A (ja) * 2011-10-14 2013-05-13 Vri Inc 音声制御システム及びプログラム
JP2014048514A (ja) * 2012-08-31 2014-03-17 Nec Corp 音声認識装置、音声認識方法及びプログラム
CN106030700A (zh) * 2014-02-19 2016-10-12 诺基亚技术有限公司 至少部分地基于空间音频属性来确定操作指令
CN106030700B (zh) * 2014-02-19 2019-12-06 诺基亚技术有限公司 至少部分地基于空间音频属性来确定操作指令
US10152967B2 (en) 2014-02-19 2018-12-11 Nokia Technologies Oy Determination of an operational directive based at least in part on a spatial audio property
JP2017509917A (ja) * 2014-02-19 2017-04-06 ノキア テクノロジーズ オサケユイチア 空間音響特性に少なくとも部分的に基づく動作指令の決定
JP2016080750A (ja) * 2014-10-10 2016-05-16 株式会社Nttドコモ 音声認識装置、音声認識方法、及び音声認識プログラム
JPWO2016120904A1 (ja) * 2015-01-28 2017-04-27 三菱電機株式会社 意図推定装置及び意図推定方法
JP2017007652A (ja) * 2015-06-08 2017-01-12 ロベルト・ボッシュ・ゲゼルシャフト・ミト・ベシュレンクテル・ハフツングRobert Bosch Gmbh 言語制御のための文脈を認識する方法、言語制御のための言語制御信号を決定する方法、および方法を実施するための装置
JP2017009701A (ja) * 2015-06-18 2017-01-12 本田技研工業株式会社 音声認識装置、および音声認識方法
CN107219838A (zh) * 2016-03-21 2017-09-29 法雷奥照明公司 具有用于车辆内部照明的声音和/或姿势识别的控制装置和方法
CN109658922B (zh) * 2017-10-12 2023-10-10 现代自动车株式会社 车辆的用于处理用户输入的装置和方法
CN109658922A (zh) * 2017-10-12 2019-04-19 现代自动车株式会社 车辆的用于处理用户输入的装置和方法
WO2019138619A1 (ja) * 2018-01-09 2019-07-18 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
CN108986806A (zh) * 2018-06-30 2018-12-11 上海爱优威软件开发有限公司 基于声源方向的语音控制方法及系统
JPWO2020079733A1 (ja) * 2018-10-15 2021-02-15 三菱電機株式会社 音声認識装置、音声認識システム、及び音声認識方法
US20220036877A1 (en) * 2018-10-15 2022-02-03 Mitsubishi Electric Corporation Speech recognition device, speech recognition system, and speech recognition method
WO2020079733A1 (ja) * 2018-10-15 2020-04-23 三菱電機株式会社 音声認識装置、音声認識システム、及び音声認識方法
JP2022007018A (ja) * 2020-06-25 2022-01-13 コニカミノルタ株式会社 音声設定システム、音声設定支援装置および音声設定支援プログラム
CN113113005A (zh) * 2021-03-19 2021-07-13 大众问问(北京)信息科技有限公司 语音数据处理方法、装置、计算机设备和存储介质
JP7383761B2 (ja) 2021-06-03 2023-11-20 阿波▲羅▼智▲聯▼(北京)科技有限公司 車両に対する音声処理方法、装置、電子機器、記憶媒体及びコンピュータプログラム

Similar Documents

Publication Publication Date Title
JP2009020423A (ja) 音声認識装置および音声認識方法
US8010359B2 (en) Speech recognition system, speech recognition method and storage medium
US11153733B2 (en) Information providing system and information providing method
US11955126B2 (en) Systems and methods for virtual assistant routing
JP5709980B2 (ja) 音声認識装置およびナビゲーション装置
WO2017057173A1 (ja) 対話装置及び対話方法
US10431221B2 (en) Apparatus for selecting at least one task based on voice command, vehicle including the same, and method thereof
WO2016006385A1 (ja) 音声認識装置及び音声認識システム
JP2004506971A (ja) 音声入出力の制御方法
CN109658922B (zh) 车辆的用于处理用户输入的装置和方法
US20200319841A1 (en) Agent apparatus, agent apparatus control method, and storage medium
JP6604267B2 (ja) 音声処理システムおよび音声処理方法
JP2001013994A (ja) 複数搭乗者機器用音声制御装置、複数搭乗者機器用音声制御方法及び車両
JP7261626B2 (ja) 車載機器制御システム、車載機器制御装置、車載機器制御方法、及びプログラム
JP5052241B2 (ja) 車載用の音声処理装置、音声処理システム、及び音声処理方法
JP2019018729A (ja) 車載システム
JP7192858B2 (ja) 機器制御装置及び機器を制御する制御方法
JP2004301875A (ja) 音声認識装置
JP2019211599A (ja) 音声認識装置、音声認識方法およびプログラム
JP6606921B2 (ja) 発声方向特定装置
JP6332072B2 (ja) 対話装置
JP2020144285A (ja) エージェントシステム、情報処理装置、移動体搭載機器制御方法、及びプログラム
JP2008309865A (ja) 音声認識装置および音声認識方法
JP7192561B2 (ja) 音声出力装置および音声出力方法
JP7178983B2 (ja) エージェント装置、エージェント方法、及びプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101214

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110426