JP6227209B2 - 車載用音声認識装置および車載機器 - Google Patents

車載用音声認識装置および車載機器 Download PDF

Info

Publication number
JP6227209B2
JP6227209B2 JP2017538774A JP2017538774A JP6227209B2 JP 6227209 B2 JP6227209 B2 JP 6227209B2 JP 2017538774 A JP2017538774 A JP 2017538774A JP 2017538774 A JP2017538774 A JP 2017538774A JP 6227209 B2 JP6227209 B2 JP 6227209B2
Authority
JP
Japan
Prior art keywords
recognition
unit
vehicle
speech
control unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2017538774A
Other languages
English (en)
Other versions
JPWO2017042906A1 (ja
Inventor
尚嘉 竹裏
尚嘉 竹裏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Application granted granted Critical
Publication of JP6227209B2 publication Critical patent/JP6227209B2/ja
Publication of JPWO2017042906A1 publication Critical patent/JPWO2017042906A1/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Navigation (AREA)
  • Traffic Control Systems (AREA)

Description

この発明は、発話者の発話を認識する車載用音声認識装置、および認識した結果に応じて動作する車載機器に関するものである。
車内に複数の発話者がいる場合、音声認識装置が、ある発話者による他の発話者に対する発話を、当該装置に対する発話と誤認識してしまうことを防ぐ必要がある。そこで、例えば特許文献1では、ユーザによる特定の発話または特定の動作を待ち受け、当該特定の発話等を検出すると、操作対象である機器を操作するためのコマンドの認識を開始する音声認識装置が開示されている。
特開2013−80015号公報
従来の音声認識装置によれば、音声認識装置が発話者の意図に反して発話をコマンドと認識してしまうことを防ぐことができ、これによって操作対象である機器の誤動作を防ぐことができる。また、人と人との間における一対多での対話においては、発話者は、名前を呼ぶこと等によって話しかける相手を特定してから発話することが自然であるため、音声認識装置に対する呼びかけのような特定の発話等をしてからコマンドを発話することで、発話者と当該装置との間でも自然な対話を実現することができる。
しかし、特許文献1に記載されたような音声認識装置では、車内のような空間で発話者が運転者のみという状況において、当該装置に対するコマンドの発話であることが明らかな場合であっても、発話者は、コマンドを発話する前に特定の発話等を行う必要があるため煩わしさを感じる。また、当該状況においては音声認識装置との対話は、人との一対一の対話に近いので、発話者は、音声認識装置に対する呼びかけのような特定の発話等を行うことを不自然と感じるという問題があった。
すなわち、従来の音声認識装置では、車内にいる人数にかかわらず、発話者は音声認識装置に対して特定の発話または特定の動作を行う必要があったため、発話者が対話の不自然さおよび煩わしさを感じるという操作性の問題があった。
この発明は、上記のような問題を解決するためになされたものであり、誤認識の防止と操作性の向上を両立させることを目的とする。
この発明に係る車載用音声認識装置は、音声を認識して認識結果を出力する音声認識部と、車内の発話者の人数が複数か単数かを判断して判断結果を出力する判断部と、音声認識部および判断部からの出力結果に基づき、発話者の人数が複数であると判断された場合は発話開始の指示を受けた後に発話された音声の認識結果を採用し、単数であると判断された場合は発話開始の指示を受けた後に発話された音声の認識結果であっても発話開始の指示を受けていないときに発話された音声の認識結果であっても採用する認識制御部とを備えるものである。
この発明によれば、車内に複数の発話者がいる場合は、発話開始の指示を受けた後に発話された音声の認識結果を採用するようにしたので、ある発話者による他の発話者に対する発話をコマンドとして誤認識してしまうことを防ぐことができる。他方、車内に発話者が一人いる場合は、発話開始の指示を受けた後に発話された音声の認識結果であっても発話開始の指示を受けていないときに発話された音声の認識結果であっても採用するようにしたので、発話者はコマンドを発話する前に発話開始の指示を行う必要がない。そのため、対話の不自然さおよび煩わしさを解消でき、操作性を向上させることができる。
この発明の実施の形態1に係る車載機器の構成例を示すブロック図である。 実施の形態1に係る車載機器の、車内の発話者が単数か複数かに応じて音声認識部における認識語彙を切替える処理を示すフローチャートである。 実施の形態1に係る車載機器の、発話者の音声を認識し、認識結果に応じた動作を行う処理を示すフローチャートである。 この発明の実施の形態2に係る車載機器の構成例を示すブロック図である。 実施の形態2に係る車載機器が行う処理を示すフローチャートであり、図5(a)は車内の発話者が複数であると判断されている場合の処理、図5(b)は車内の発話者が単数であると判断されている場合の処理である。 この発明の各実施の形態に係る車載機器とその周辺機器の主なハードウェア構成図である。
以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
図1は、この発明の実施の形態1に係る車載機器1の構成例を示すブロック図である。この車載機器1は、音声認識部11、判断部12、認識制御部13および制御部14を備えている。音声認識部11、判断部12および認識制御部13は、音声認識装置10を構成している。また、車載機器1には、音声入力部2、カメラ3、圧力センサ4、表示部5およびスピーカ6が接続されている。
図1の例では、車載機器1に音声認識装置10を組み込んだ構成を示すが、音声認識装置10を、車載機器1から独立した構成にしてもよい。
車載機器1は、音声認識装置10からの出力に基づき、車内の発話者が複数の場合は、発話者による特定の指示を受けた後の発話内容に応じて動作する。一方、車内の発話者が単数の場合は、車載機器1は、当該指示の有無にかかわらず、発話者の発話内容に応じて動作する。
この車載機器1は、例えば、ナビゲーション装置またはオーディオ装置等の車両に搭載される機器である。
表示部5は、例えばLCD(Liquid Crystal Display)または有機EL(Electroluminescence)ディスプレイ等である。また、表示部5は、LCDまたは有機ELディスプレイとタッチセンサから構成されている表示一体型のタッチパネルであってもよいし、ヘッドアップディスプレイであってもよい。
音声入力部2は、発話者により発話された音声を取り込み、当該音声を、例えばPCM(Pulse Code Modulation)によりA/D(Analog/Digital)変換して、音声認識装置10へ入力する。
音声認識部11は、「車載機器を操作するためのコマンド」(以下、「コマンド」と記載する)と「キーワードとコマンドの組み合わせ」を認識語彙として備えている。そして、後述する認識制御部13の指示に基づいて認識語彙を切替える。「コマンド」には、例えば、「目的地設定」、「施設検索」および「ラジオ」等の認識語彙が含まれる。
「キーワード」とは、音声認識装置10に対して、発話者がコマンドの発話の開始を明示するためのものである。そして、本実施の形態1においては、発話者によるキーワードの発話が、上述の「発話者による特定の指示」に相当する。「キーワード」は、音声認識装置10の設計時に予め設定されるものでもよいし、発話者により音声認識装置10に対して設定されるものであってもよい。例えば、「キーワード」が「ミツビシ」に設定されている場合、「キーワードとコマンドの組み合わせ」は「ミツビシ、目的地設定」となる。
なお、音声認識部11は、各コマンドの他の言い回しも認識対象としてもよい。例えば、「目的地設定」の他の言い回しとして「目的地を設定して」および「目的地を設定したい」等を認識対象としてもよい。
音声認識部11は、音声入力部2によりデジタル化された音声データを受け取る。そして、音声認識部11は、該音声データから、発話者が発話した内容に該当する音声区間(以下、「発話区間」と記載する)を検出する。続いて、該発話区間の音声データの特徴量を抽出する。その後、音声認識部11は、後述する認識制御部13により指示された認識語彙を認識対象として該特徴量に対する認識処理を行い、認識結果を認識制御部13に対して出力する。認識処理の方法としては、例えばHMM(Hidden Markov Model)法のような一般的な方法を用いて行えばよいため詳細な説明を省略する。
また、音声認識部11は、予め設定された期間においては、音声入力部2から受け取った音声データに対して発話区間を検出し、認識処理を行う。「予め設定された期間」には、例えば、車載機器1が起動している間、音声認識装置10が起動もしくは再開してから終了もしくは停止するまでの間、または音声認識部11が起動している間等の期間が含まれるものとする。本実施の形態1においては、音声認識部11は、音声認識装置10が起動してから終了するまでの間、上述の処理を行うものとして説明する。
なお、本実施の形態1では、音声認識部11から出力される認識結果は、コマンド名等の具体的な文字列として説明するが、例えば、数字で表されたID等、コマンド同士を区別できるものであれば、出力される認識結果はどのような形態のものであってもよい。以降の実施の形態でも同様である。
判断部12は、車内の発話者が複数か単数かを判断する。そして、該判断結果を後述する認識制御部13に対して出力する。
本実施の形態1において、「発話者」は、音声によって音声認識装置10と車載機器1を誤動作させる可能性があるものをいい、赤ん坊および動物等も含まれるものとする。
例えば、判断部12は、車内に設置されたカメラ3が撮像した画像データを取得し、該画像データを解析して、車内の搭乗者の人数が複数か単数かを判断する。また、判断部12は、各座席に設置された圧力センサ4が検出した各座席の圧力データを取得し、該圧力データに基づいて搭乗者が座席に座っているか否かを判断し、車内の搭乗者の人数が複数か単数かを判断してもよい。判断部12は、搭乗者の人数を発話者の人数と判断する。
上述した判断方法は公知の技術を用いればよいため詳細な説明を省略する。なお、判断方法はこれらに限られない。また、図1ではカメラ3と圧力センサ4の両方を用いる構成を示すが、例えば、カメラ3のみを用いる構成でもよい。
さらに、判断部12は、車内の搭乗者の人数が複数であっても、発話する可能性のある人数が単数である場合には、発話者の人数を単数と判断してもよい。
例えば、判断部12は、カメラ3から取得した画像データを解析して、搭乗者が起きているか寝ているかを判断し、起きている搭乗者の人数を発話者の人数として数える。一方、寝ている搭乗者は発話する可能性がないので、判断部12は、寝ている搭乗者の人数を発話者の人数として数えない。
認識制御部13は、判断部12から受け取った判断結果が「複数」である場合は、音声認識部11に対して、認識語彙を「キーワードとコマンドの組み合わせ」にするよう指示する。一方、認識制御部13は、該判断結果が「単数」である場合は、音声認識部11に対して、認識語彙を「コマンド」と「キーワードとコマンドの組み合わせ」の両方とするよう指示する。
音声認識部11が「キーワードとコマンドの組み合わせ」を認識語彙として用いた場合、発話音声がキーワードとコマンドの組み合わせであれば認識に成功し、それ以外の発話音声では認識に失敗することになる。また、音声認識部11が「コマンド」を認識語彙として用いた場合、発話音声がコマンドのみであれば認識に成功し、それ以外の発話音声では認識に失敗することになる。
したがって、車内の発話者が一人である状況でこの発話者がコマンドのみまたはキーワードとコマンドの組み合わせを発話した場合、音声認識装置10が認識に成功し、車載機器1がコマンドに対応する動作を実行する。他方、車内に複数の発話者がいる状況でいずれかの発話者がキーワードとコマンドの組み合わせを発話した場合には、音声認識装置10が認識に成功し、車載機器1がコマンドに対応する動作を実行し、いずれかの発話者がコマンドのみを発話した場合には、音声認識装置10が認識に失敗し、車載機器1はコマンドに対応する動作を実行しない。
なお、以降の説明においては、認識制御部13は、音声認識部11に対して上述したように認識語彙を指示するものとするが、認識制御部13は、判断部12から受け取った判断結果が「単数」である場合に、音声認識部11において少なくとも「コマンド」が認識されるように、音声認識部11に対して指示すればよい。
判断結果が「単数」である場合に、上述したように「コマンド」と「キーワードとコマンドの組み合わせ」を認識語彙として用いて少なくとも「コマンド」を認識可能なように音声認識部11を構成する以外にも、例えば、ワードスポッティング等の公知の技術により「コマンド」を含む発話から「コマンド」のみを認識結果として出力するように音声認識部11を構成してもよい。
認識制御部13は、判断部12から受け取った判断結果が「複数」である場合において、音声認識部11から認識結果を受け取ると、コマンドの発話開始を指示する「キーワード」の後に発話された音声の認識結果を採用する。一方、認識制御部13は、判断部12から受け取った判断結果が「単数」である場合において、音声認識部11から認識結果を受け取ると、コマンドの発話開始を指示する「キーワード」の有無にかかわらず、発話された音声の認識結果を採用する。ここでいう「採用」とは、ある認識結果を「コマンド」として制御部14へ出力すると決定することである。
具体的には、認識制御部13は、音声認識部11から受け取った認識結果に「キーワード」が含まれている場合、認識制御部13は、認識結果から「キーワード」に対応する部分を削除し、「キーワード」の後に発話された「コマンド」に対応する部分を、制御部14へ出力する。一方、認識結果に「キーワード」が含まれていない場合、認識制御部13は、「コマンド」に対応する認識結果をそのまま制御部14へ出力する。
制御部14は、認識制御部13から受け取った認識結果に対応する動作を行い、当該動作の結果を表示部5またはスピーカ6から出力させる。例えば、認識制御部13から受け取った認識結果が「コンビニ検索」である場合は、制御部14は、地図データを用いて自車位置周辺に存在するコンビニを検索し、検索結果を表示部5に表示させるとともに、コンビニが見つかった旨のガイダンスをスピーカ6に出力させる。認識結果である「コマンド」と動作との対応関係は、予め制御部14に設定されているものとする。
次に、図2と図3に示すフローチャートと具体例を用いて、実施の形態1の車載機器1の動作を説明する。なお、「キーワード」が「ミツビシ」に設定されているものとして説明するが、これに限られるものではない。また、音声認識装置10が起動している間、車載機器1は図2および図3で示したフローチャートの処理を繰り返すものとする。
図2は、車内の発話者が単数か複数かに応じて音声認識部11における認識語彙を切替えるフローチャートを示している。
まず、判断部12は、カメラ3または圧力センサ4から取得した情報に基づいて、車内の発話者の人数を判断する(ステップST01)。そして、判断結果を認識制御部13へ出力する(ステップST02)。
次に、認識制御部13は、判断部12から受け取った判断結果が「単数」である場合(ステップST03「YES」)、発話者から特定の指示を受けたか否かにかからわず車載機器1を操作できるようにするため、音声認識部11に対して、認識語彙を「コマンド」と「キーワードとコマンドの組み合わせ」とするよう指示する(ステップST04)。一方、認識制御部13は、判断部12から受け取った判断結果が「複数」である場合(ステップST03「NO」)、発話者から特定の指示を受けたときだけ車載機器1を操作できるようにするため、音声認識部11に対して、認識語彙を「キーワードとコマンドの組み合わせ」とするよう指示する(ステップST05)。
図3は、発話者の音声を認識し、認識結果に応じた動作を行うフローチャートを示している。
まず、音声認識部11は、発話者により発話された音声を音声入力部2が取り込みA/D変換した音声データを、受け取る(ステップST11)。次に、音声認識部11は、音声入力部2から受け取った音声データに対して認識処理を行い、認識制御部13へ認識結果を出力する(ステップST12)。音声認識部11は、認識に成功した場合は認識した文字列等を認識結果として出力し、認識に失敗した場合は失敗した旨を認識結果として出力する。
次に、認識制御部13は、音声認識部11から認識結果を受け取る(ステップST13)。そして、認識制御部13は、当該認識結果に基づいて音声認識の成否を判断し、音声認識部11での音声認識に失敗していると判断した場合(ステップST14「NO」)、何もしない。
例えば、車内に複数の発話者がいる状況で、「A君、コンビニを検索して」と発話されたとする。この場合、図2の処理において車内の発話者の人数が複数と判断されており、音声認識部11が用いる認識語彙は、例えば「ミツビシ、コンビニ検索して」等の「キーワードとコマンドの組み合わせ」となっているため、音声認識部11は音声認識に失敗する。そして、認識制御部13は、音声認識部11から受け取った認識結果に基づいて「認識失敗」と判断する(ステップST11〜ステップST14「NO」)。その結果、車載機器1は何も動作しない。
また、例えば、それまでの対話の流れから発話者が話しかける対象が明らかにA君であるような状況であったため、発話者が、「A君」を省略して「コンビニを検索して」と発話した場合も同様に、音声認識部11は音声認識に失敗するため、車載機器1は何も動作しない。
一方、認識制御部13は、音声認識部11から受け取った認識結果に基づいて、音声認識部11での音声認識に成功したと判断した場合(ステップST14「YES」)、当該認識結果にキーワードが含まれているか判断する(ステップST15)。そして、認識制御部13は、当該認識結果にキーワードが含まれている場合(ステップST15「YES」)、当該認識結果からキーワードを削除し、制御部14へ出力する(ステップST16)。
その後、制御部14は、キーワードが削除された認識結果を認識制御部13から受け取り、受け取った認識結果に対応する動作を行う(ステップST17)。
例えば、車内に複数の発話者がいる状況で、「ミツビシ、コンビニを検索して」と発話されたとする。この場合、図2の処理において車内の発話者が複数と判断されており、音声認識部11における認識語彙が「キーワードとコマンドの組み合わせ」となっている。そのため、音声認識部11は、キーワードを含む上記発話の認識に成功し、認識制御部13は、音声認識部11から受け取った認識結果に基づいて「認識成功」と判断する(ステップST11〜ステップST14「YES」)。
そして、認識制御部13は、当該受け取った認識結果「ミツビシ、コンビニを検索して」から「キーワード」である「ミツビシ」を削除した「コンビニを検索して」を、コマンドとして制御部14へ出力する(ステップST15「YES」、ステップST16)。その後、制御部14は、地図データを用いて自車位置周辺に存在するコンビニを検索し、検索結果を表示部5に表示させるとともに、コンビニが見つかった旨のガイダンスをスピーカ6に出力させる(ステップST17)。
他方、当該認識結果にキーワードが含まれていない場合(ステップST15「NO」)、認識制御部13は、当該認識結果をそのままコマンドとして制御部14へ出力する。制御部14は、認識制御部13から受け取った認識結果に対応する動作を行う(ステップST18)。
例えば、車内の発話者が一人である状況で、「コンビニを検索して」と発話されたとする。この場合、図2の処理において、車内の発話者が単数と判断されており、音声認識部11における認識語彙が「コマンド」と「キーワードとコマンドの組み合わせ」の両方となっている。そのため、音声認識部11における認識処理が成功し、認識制御部13は、音声認識部11から受け取った認識結果に基づいて「認識成功」と判断する(ステップST11〜ステップST14「YES」)。そして、認識制御部13は当該受け取った認識結果「コンビニを検索して」を制御部14へ出力する。その後、制御部14は、地図データを用いて自車位置周辺に存在するコンビニを検索し、検索結果を表示部5に表示させるとともに、コンビニが見つかった旨のガイダンスをスピーカ6に出力させる(ステップST17)。
また、例えば、車内の発話者が一人である状況で、「ミツビシ、コンビニを検索して」と発話されたとする。この場合、図2の処理において車内の発話者が単数と判断されており、音声認識部11における認識語彙が「コマンド」と「キーワードとコマンドの組み合わせ」の両方となっているため、音声認識部11における認識処理が成功し、認識制御部13は、音声認識部11から受け取った認識結果に基づいて「認識成功」と判断する(ステップST11〜ステップST14「YES」)。この場合、認識結果にはコマンドだけでなくキーワードが含まれているため、認識制御部13は、受け取った認識結果「ミツビシ、コンビニを検索して」から不要な「ミツビシ」を削除し、「コンビニを検索して」を制御部14へ出力する。
以上のように、この実施の形態1によれば、音声認識装置10は、音声を認識して認識結果を出力する音声認識部11と、車内の発話者の人数が複数か単数かを判断して判断結果を出力する判断部12と、音声認識部11および判断部12からの出力結果に基づき、発話者の人数が複数であると判断された場合は発話開始の指示を受けた後に発話された音声の認識結果を採用し、単数であると判断された場合は発話開始の指示を受けた後に発話された音声の認識結果であっても発話開始の指示を受けていないときに発話された音声の認識結果であっても採用する認識制御部13とを備える構成にしたので、車内に複数の発話者がいる場合に、ある発話者による他の発話者に対する発話をコマンドとして誤認識してしまうことを防ぐことができる。また、車内の発話者が一人のみの場合に、発話者はコマンドを発話する前に特定の発話を行う必要がないので、対話の不自然さおよび煩わしさを解消でき、操作性を向上させることができる。よって、人同士の場合と同様な自然な対話が可能となる。
また、実施の形態1によれば、車載機器1は、音声認識装置10と、音声認識装置10が採用した認識結果に応じた動作を行う制御部14とを備える構成にしたので、車内に複数の発話者がいる場合に、ある発話者による他の発話者に対する発話に応じて誤動作してしまうことを防ぐことができる。また、車内の発話者が一人のみの場合に、発話者はコマンドを発話する前に特定の発話を行う必要がないので、対話の不自然さおよび煩わしさを解消でき、操作性を向上させることができる。
また、実施の形態1によれば、判断部12は、車内の搭乗者の人数が複数であっても発話する可能性のある人数が単数である場合、発話者の人数を単数と判断するようにしたので、例えば、運転者以外の搭乗者が寝ている状況において運転者は特定の発話を行うことなく車載機器1を動作させることができる。
実施の形態2.
図4は、この発明の実施の形態2に係る車載機器1の構成例を示すブロック図である。なお、実施の形態1で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。
実施の形態2では、発話者がコマンドの発話の開始を明示するための「特定の指示」を、「コマンドの発話開始を指示する手動操作」とする。車載機器1は、車内の発話者が複数の場合は、発話者によるコマンドの発話開始を指示する手動操作の後に発話された内容に応じて動作する。一方、車内の発話者が単数の場合は、車載機器1は、当該操作の有無にかかわらず、発話者の発話内容に応じて動作する。
指示入力部7は、発話者の手動による指示の入力を受け付けるものである。例えば、ハードウェアのスイッチ、ディスプレイに組み込まれているタッチセンサ、あるいはリモコンを介した発話者の指示を認識する認識装置が挙げられる。
指示入力部7は、コマンドの発話開始を指示するための入力を受け付けると、当該発話開始の指示を認識制御部13aに対して出力する。
認識制御部13aは、判断部12から受け取った判断結果が「複数」である場合において、指示入力部7からコマンドの発話開始の指示を受けると、音声認識部11aに対してコマンドの発話開始を通知する。
そして、認識制御部13aは、指示入力部7からのコマンドの発話開始の指示を受けた後に音声認識部11aから受け取った認識結果を採用し、制御部14に対して出力する。一方、指示入力部7からのコマンドの発話開始の指示を受けていない場合、認識制御部13aは、音声認識部11aにより出力された認識結果を採用せず破棄する。すなわち、認識制御部13aは当該認識結果を制御部14に対して出力しない。
認識制御部13aは、判断部12から受け取った判断結果が「単数」である場合は、指示入力部7から発話開始の指示を受けているか否かにかかわらず、音声認識部11aから受け取った認識結果を採用し、制御部14に対して出力する。
音声認識部11aは、車内の発話者の人数が単数か複数かにかかわらず「コマンド」を認識語彙として用い、音声入力部2から音声データを受け取って認識処理を行い、認識結果を認識制御部13aに出力する。判断部12からの判断結果が「複数」の場合、認識制御部13aからの通知によってコマンドの発話開始が明示されるため、音声認識部11aは認識率を向上させることができる。
次に、図5に示すフローチャートを用いて、実施の形態2の車載機器1の動作を説明する。なお、本実施の形態2においては、音声認識装置10が起動している間、判断部12は、車内の発話者が複数か否かを判断し、当該判断結果を認識制御部13aへ出力するものとして説明する。また、音声認識部11aは、音声認識装置10が起動している間、上述したコマンドの発話開始の指示の有無にかかわらず、音声入力部2から受け取った音声データに対して認識処理を行い、認識結果を認識制御部13aへ出力するものとして説明する。
図5(a)は、判断部12により車内の発話者が複数であると判断されている場合の処理を示すフローチャートである。なお、音声認識装置10が起動している間、車載機器1は図5(a)で示したフローチャートの処理を繰り返すものとする。
まず、認識制御部13aは、指示入力部7からコマンドの発話開始の指示を受けると(ステップST21「YES」)、音声認識部11aに対してコマンドの発話開始を通知する(ステップST22)。次に、認識制御部13aは、音声認識部11aから認識結果を受け取り(ステップST23)、当該認識結果に基づいて音声認識の成否を判断する(ステップST24)。
そして、認識制御部13aは、「認識成功」と判断した場合(ステップST24「YES」)、制御部14に対して認識結果を出力する。その後、制御部14は、認識制御部13aから受け取った認識結果に対応する動作を実行する(ステップST25)。一方、認識制御部13aは、「認識失敗」と判断した場合(ステップST24「NO」)、何もしない。
認識制御部13aは、指示入力部7からコマンドの発話開始の指示を受けていない場合(ステップST21「NO」)、音声認識部11aから認識結果を受け取ったとしても当該認識結果を破棄する。すなわち、音声認識装置10が発話者により発話された音声を認識しても、車載機器1は何も動作しない。
図5(b)は、判断部12により車内の発話者が単数であると判断されている場合の処理を示すフローチャートである。なお、音声認識装置10が起動している間、車載機器1は図5(b)で示したフローチャートの処理を繰り返すものとする。
まず、認識制御部13aは、音声認識部11aから認識結果を受け取る(ステップST31)。次に、認識制御部13aは、当該認識結果に基づいて音声認識の成否を判断し(ステップST32)、「認識成功」と判断した場合、当該認識結果を制御部14に対して出力する(ステップST32「YES」)。そして、制御部14は、認識制御部13aから受け取った認識結果に対応する動作を実行する(ステップST33)。
一方、認識制御部13aは、「認識失敗」と判断した場合(ステップST32「NO」)、何もしない。
以上のように、この実施の形態2によれば、音声認識装置10は、音声を認識して認識結果を出力する音声認識部11aと、車内の発話者の人数が複数か単数かを判断して判断結果を出力する判断部12と、音声認識部11aおよび判断部12の出力結果に基づき、発話者の人数が複数であると判断された場合は発話開始の指示を受けた後に発話された音声の認識結果を採用し、単数であると判断された場合は発話開始の指示を受けた後に発話された音声の認識結果であっても発話開始の指示を受けていないときに発話された音声の認識結果であっても採用する認識制御部13aとを備える構成にしたので、車内に複数の発話者がいる場合に、ある発話者による他の発話者に対する発話をコマンドとして誤認識してしまうことを防ぐことができる。また、車内の発話者が一人のみの場合に、発話者はコマンドを発話する前に特定の動作を行う必要がないので、対話の不自然さおよび煩わしさを解消でき、操作性を向上させることができる。よって、人同士の場合と同様な自然な対話が可能となる。
また、実施の形態2によれば、車載機器1は、音声認識装置10と、音声認識装置10が採用した認識結果に応じた動作を行う制御部14とを備える構成にしたので、車内に複数の発話者がいる場合に、ある発話者による他の発話者に対する発話に応じて誤動作してしまうことを防ぐことができる。また、車内の発話者が一人のみの場合に、発話者はコマンドを発話する前に特定の動作を行う必要がないので、対話の不自然さおよび煩わしさを解消でき、操作性を向上させることができる。
また、実施の形態2においても上記実施の形態1と同様に、判断部12は、車内の搭乗者の人数が複数であっても発話する可能性のある人数が単数である場合、発話者の人数を単数と判断するようにできるので、例えば、運転者以外の搭乗者が寝ている状況において運転者は特定の動作を行うことなく車載機器1を動作させることができる。
次に、音声認識装置10の変形例を説明する。
図1に示した音声認識装置10において、音声認識部11は、車内の発話者が複数か単数かによらず、「コマンド」と「キーワードとコマンドの組み合わせ」を認識語彙として用いて、発話音声を認識する。音声認識部11は、「コマンド」のみを認識結果として出力するか、「キーワード」と「コマンド」を認識結果として出力するか、認識に失敗した旨を認識結果として出力する。
認識制御部13は、判断部12から受け取った判断結果が「複数」である場合において、音声認識部11から認識結果を受け取ると、「キーワード」の後に発話された音声の認識結果を採用する。
つまり、音声認識部11から受け取った認識結果に「キーワード」と「コマンド」が含まれている場合、認識制御部13は、認識結果から「キーワード」に対応する部分を削除し、「キーワード」の後に発話された「コマンド」に対応する部分を制御部14へ出力する。一方、音声認識部11から受け取った認識結果に「キーワード」が含まれていない場合、認識制御部13は、該認識結果を採用せず破棄し、制御部14に対して出力しない。
また、音声認識部11で認識に失敗した場合、認識制御部13は何もしない。
認識制御部13は、判断部12から受け取った判断結果が「単数」である場合において、音声認識部11から認識結果を受け取ると、「キーワード」の有無にかかわらず、発話された音声の認識結果を採用する。
つまり、音声認識部11から受け取った認識結果に「キーワード」と「コマンド」が含まれている場合、認識制御部13は、認識結果から「キーワード」に対応する部分を削除し、「キーワード」の後に発話された「コマンド」に対応する部分を制御部14へ出力する。一方、音声認識部11から受け取った認識結果に「キーワード」が含まれていない場合、認識制御部13は、「コマンド」に対応する認識結果をそのまま制御部14へ出力する。
また、音声認識部11で認識に失敗した場合、認識制御部13は何もしない。
次に、この発明の実施の形態1,2に示した車載機器1とその周辺機器の主なハードウェア構成例を説明する。図6は、この発明の各実施の形態に係る車載機器1とその周辺機器の主なハードウェア構成図である。
車載機器1における音声認識部11,11a、判断部12、認識制御部13,13aおよび制御部14の各機能は、処理回路により実現される。すなわち、車載機器1は、車内の発話者の人数が複数か単数かを判断し、発話者の人数が複数であると判断された場合は発話開始の指示を受けた後に発話された音声の認識結果を採用し、単数であると判断された場合は発話開始の指示を受けたか否かにかかわらず発話された音声の認識結果を採用し、採用した認識結果に応じた動作を行うための処理回路を備える。処理回路は、メモリ102に格納されるプログラムを実行するプロセッサ101である。プロセッサ101は、CPU(Central Processing Unit)中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、またはDSP(Digital Signal Processor)などともいう。なお、複数のプロセッサ101により、車載機器1の各機能を実現してもよい。
音声認識部11,11a、判断部12、認識制御部13,13aおよび制御部14の各機能は、ソフトウェア、ファームウェア、またはソフトウェアとファームウェアとの組み合わせにより実現される。ソフトウェアまたはファームウェアはプログラムとして記述され、メモリ102に格納される。プロセッサ101は、メモリ102に記憶されたプログラムを読み出して実行することにより、各部の機能を実現する。すなわち、車載機器1は、プロセッサ101により実行されるときに、図2と図3に示した各ステップ、または図5に示した各ステップが結果的に実行されることになるプログラムを格納するためのメモリ102を備える。また、これらのプログラムは、音声認識部11,11a、判断部12、認識制御部13,13aおよび制御部14の手順または方法をコンピュータに実行させるものであるともいえる。メモリ102は、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ、EPROM(Erasable Programmable ROM)、EEPROM(Electrically EPROM)等の不揮発性または揮発性の半導体メモリであってもよいし、ハードディスク、フレキシブルディスク等の磁気ディスクであってもよいし、ミニディスク、CD(Compact Disc)、DVD(Digital Versatile Disc)等の光ディスクであってもよい。
入力装置103は、音声入力部2、カメラ3、圧力センサ4および指示入力部7である。出力装置104は、表示部5およびスピーカ6である。
なお、本発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、各実施の形態の任意の構成要素の変形、または各実施の形態の任意の構成要素の省略が可能である。
この発明に係る音声認識装置は、発話者の人数が複数の場合は発話開始の指示を受けた後に発話された音声の認識結果を採用し、発話者が単数の場合は指示を受けたか否かにかかわらず発話された音声の認識結果を採用するようにしたので、発話者の発話を常時認識する車載用音声認識装置などに用いるのに適している。
1 車載機器、2 音声入力部、3 カメラ、4 圧力センサ、5 表示部、6 スピーカ、7 指示入力部、10 音声認識装置、11,11a 音声認識部、12 判断部、13,13a 認識制御部、14 制御部、101 プロセッサ、102 メモリ、103 入力装置、104 出力装置。

Claims (4)

  1. 音声を認識して認識結果を出力する音声認識部と、
    車内の発話者の人数が複数か単数かを判断して判断結果を出力する判断部と、
    前記音声認識部および前記判断部からの出力結果に基づき、発話者の人数が複数であると判断された場合は発話開始の指示を受けた後に発話された音声の認識結果を採用し、単数であると判断された場合は発話開始の指示を受けた後に発話された音声の認識結果であっても発話開始の指示を受けていないときに発話された音声の認識結果であっても採用する認識制御部とを備える車載用音声認識装置。
  2. 前記判断部は、前記車内の搭乗者の人数が複数であっても発話する可能性のある人数が単数である場合、前記発話者の人数を単数と判断することを特徴とする請求項1記載の車載用音声認識装置。
  3. 前記判断部は、前記車内の搭乗者が起きているか寝ているかを判断し、起きている搭乗者を前記発話する可能性のある人数に数えることを特徴とする請求項2記載の車載用音声認識装置。
  4. 音声を認識して認識結果を出力する音声認識部と、
    車内の発話者の人数が複数か単数かを判断して判断結果を出力する判断部と、
    前記音声認識部および前記判断部からの出力結果に基づき、発話者の人数が複数であると判断された場合は発話開始の指示を受けた後に発話された音声の認識結果を採用し、単数であると判断された場合は発話開始の指示を受けた後に発話された音声の認識結果であっても発話開始の指示を受けていないときに発話された音声の認識結果であっても採用する認識制御部と、
    前記認識制御部が採用した認識結果に応じた動作を行う制御部とを備えることを特徴とする車載機器。
JP2017538774A 2015-09-09 2015-09-09 車載用音声認識装置および車載機器 Expired - Fee Related JP6227209B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/075595 WO2017042906A1 (ja) 2015-09-09 2015-09-09 車載用音声認識装置および車載機器

Publications (2)

Publication Number Publication Date
JP6227209B2 true JP6227209B2 (ja) 2017-11-08
JPWO2017042906A1 JPWO2017042906A1 (ja) 2017-11-24

Family

ID=58239449

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017538774A Expired - Fee Related JP6227209B2 (ja) 2015-09-09 2015-09-09 車載用音声認識装置および車載機器

Country Status (5)

Country Link
US (1) US20180130467A1 (ja)
JP (1) JP6227209B2 (ja)
CN (1) CN107949880A (ja)
DE (1) DE112015006887B4 (ja)
WO (1) WO2017042906A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018173293A1 (ja) * 2017-03-24 2018-09-27 ヤマハ株式会社 音声端末、音声コマンド生成システム、及び音声コマンド生成システムの制御方法
US20200411012A1 (en) * 2017-12-25 2020-12-31 Mitsubishi Electric Corporation Speech recognition device, speech recognition system, and speech recognition method
JP7235441B2 (ja) * 2018-04-11 2023-03-08 株式会社Subaru 音声認識装置及び音声認識方法
CN112585674B (zh) * 2018-08-31 2024-08-02 三菱电机株式会社 信息处理装置、信息处理方法和存储介质
JP7103089B2 (ja) * 2018-09-06 2022-07-20 トヨタ自動車株式会社 音声対話装置、音声対話方法および音声対話プログラム
CN109410952B (zh) * 2018-10-26 2020-02-28 北京蓦然认知科技有限公司 一种语音唤醒方法、装置及系统
JP7023823B2 (ja) * 2018-11-16 2022-02-22 アルパイン株式会社 車載装置及び音声認識方法
CN109285547B (zh) * 2018-12-04 2020-05-01 北京蓦然认知科技有限公司 一种语音唤醒方法、装置及系统
JP7266432B2 (ja) * 2019-03-14 2023-04-28 本田技研工業株式会社 エージェント装置、エージェント装置の制御方法、およびプログラム
CN110265010A (zh) * 2019-06-05 2019-09-20 四川驹马科技有限公司 基于百度语音的货车多人语音识别方法及系统
JP7242873B2 (ja) * 2019-09-05 2023-03-20 三菱電機株式会社 音声認識補助装置および音声認識補助方法
US20220415321A1 (en) * 2021-06-25 2022-12-29 Samsung Electronics Co., Ltd. Electronic device mounted in vehicle, and method of operating the same
WO2024070080A1 (ja) * 2022-09-30 2024-04-04 パイオニア株式会社 情報処理装置、情報処理方法、及びプログラム

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4320880B2 (ja) * 1999-12-08 2009-08-26 株式会社デンソー 音声認識装置及び車載ナビゲーションシステム
US6889189B2 (en) * 2003-09-26 2005-05-03 Matsushita Electric Industrial Co., Ltd. Speech recognizer performance in car and home applications utilizing novel multiple microphone configurations
JP2005157086A (ja) * 2003-11-27 2005-06-16 Matsushita Electric Ind Co Ltd 音声認識装置
JP2008250236A (ja) * 2007-03-30 2008-10-16 Fujitsu Ten Ltd 音声認識装置および音声認識方法
US9111538B2 (en) * 2009-09-30 2015-08-18 T-Mobile Usa, Inc. Genius button secondary commands
DE102009051508B4 (de) * 2009-10-30 2020-12-03 Continental Automotive Gmbh Vorrichtung, System und Verfahren zur Sprachdialogaktivierung und -führung
CN101770774B (zh) * 2009-12-31 2011-12-07 吉林大学 基于嵌入式的开集说话人识别方法及其系统
US8359020B2 (en) * 2010-08-06 2013-01-22 Google Inc. Automatically monitoring for voice input based on context
US9159324B2 (en) * 2011-07-01 2015-10-13 Qualcomm Incorporated Identifying people that are proximate to a mobile device user via social graphs, speech models, and user context
JP2013080015A (ja) 2011-09-30 2013-05-02 Toshiba Corp 音声認識装置および音声認識方法
CN102568478B (zh) * 2012-02-07 2015-01-07 合一网络技术(北京)有限公司 一种基于语音识别的视频播放控制方法和系统
US9305555B2 (en) * 2012-06-25 2016-04-05 Mitsubishi Electric Corporation Onboard information device
CN102945671A (zh) * 2012-10-31 2013-02-27 四川长虹电器股份有限公司 语音识别方法
CN103971685B (zh) * 2013-01-30 2015-06-10 腾讯科技(深圳)有限公司 语音命令识别方法和系统
US9747900B2 (en) * 2013-05-24 2017-08-29 Google Technology Holdings LLC Method and apparatus for using image data to aid voice recognition
WO2015029304A1 (ja) * 2013-08-29 2015-03-05 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音声認識方法及び音声認識装置
CN104700832B (zh) * 2013-12-09 2018-05-25 联发科技股份有限公司 语音关键字检测系统及方法
US9240182B2 (en) * 2013-09-17 2016-01-19 Qualcomm Incorporated Method and apparatus for adjusting detection threshold for activating voice assistant function
US8938394B1 (en) * 2014-01-09 2015-01-20 Google Inc. Audio triggers based on context
US9715875B2 (en) * 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases

Also Published As

Publication number Publication date
US20180130467A1 (en) 2018-05-10
CN107949880A (zh) 2018-04-20
DE112015006887T5 (de) 2018-05-24
WO2017042906A1 (ja) 2017-03-16
JPWO2017042906A1 (ja) 2017-11-24
DE112015006887B4 (de) 2020-10-08

Similar Documents

Publication Publication Date Title
JP6227209B2 (ja) 車載用音声認識装置および車載機器
CN106796786B (zh) 语音识别系统
EP3414759B1 (en) Techniques for spatially selective wake-up word recognition and related systems and methods
JP5601419B2 (ja) エレベーターの呼び登録装置
JP5677650B2 (ja) 音声認識装置
JPWO2017145373A1 (ja) 音声認識装置
JP2002091466A (ja) 音声認識装置
JP5077107B2 (ja) 車両用飲酒検知装置及び車両用飲酒検知方法
JP2015107867A (ja) エレベータの音声呼び登録装置
JP2009015148A (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP2003114698A (ja) コマンド受付装置及びプログラム
JP6459330B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP2006208486A (ja) 音声入力装置
JP2016133378A (ja) カーナビゲーション装置
JP2018116130A (ja) 車内音声処理装置および車内音声処理方法
KR102417899B1 (ko) 차량의 음성인식 시스템 및 방법
JP4604377B2 (ja) 音声認識装置
JP2006215317A (ja) 音声認識システム、音声認識装置及び音声認識プログラム
JP3764302B2 (ja) 音声認識装置
JP2007057805A (ja) 車両用情報処理装置
JP2019132997A (ja) 音声処理装置、方法およびプログラム
JP6748565B2 (ja) 音声対話システム及び音声対話方法
JP7242873B2 (ja) 音声認識補助装置および音声認識補助方法
JP2009003205A (ja) 音声認識装置、および音声認識方法
JP2006023444A (ja) 音声対話装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170726

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20170726

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20170904

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170912

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171010

R150 Certificate of patent or registration of utility model

Ref document number: 6227209

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees