JP7242873B2 - 音声認識補助装置および音声認識補助方法 - Google Patents

音声認識補助装置および音声認識補助方法 Download PDF

Info

Publication number
JP7242873B2
JP7242873B2 JP2021543881A JP2021543881A JP7242873B2 JP 7242873 B2 JP7242873 B2 JP 7242873B2 JP 2021543881 A JP2021543881 A JP 2021543881A JP 2021543881 A JP2021543881 A JP 2021543881A JP 7242873 B2 JP7242873 B2 JP 7242873B2
Authority
JP
Japan
Prior art keywords
vehicle
speech recognition
voice recognition
information
status information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021543881A
Other languages
English (en)
Other versions
JPWO2021044569A1 (ja
Inventor
慶太 山室
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JPWO2021044569A1 publication Critical patent/JPWO2021044569A1/ja
Application granted granted Critical
Publication of JP7242873B2 publication Critical patent/JP7242873B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Navigation (AREA)
  • User Interface Of Digital Computer (AREA)
  • Traffic Control Systems (AREA)

Description

本発明は、音声認識補助装置および音声認識補助方法に関する。
従来、音声認識装置は、ユーザによってスイッチ(H/WキーやS/Wキー)が押下された後に、音声認処理を開始するのが一般的であった。近年では、ユーザによって発話される特定のキーフレーズに基づいて音声認識処理を起動させる音声認識装置が主流である。音声認識処理を起動させるための特定のキーフレーズは、ウェイクアップワードと言われ、例えば、Android(登録商標)の「OK, google(登録商標)」やiPhone(登録商標)の「Hey, Siri(登録商標)」などが知られている。このウェイクアップワードにより、ユーザは特定のキーフレーズを発話するだけで音声認識処理を開始させることができるため、運転中など、手を離すことができない状況や、端末から少し離れた場所からでも、ユーザは手操作なしで音声認識を使用することが可能となった。
特開2015-219440号公報
他者の会話や周辺の環境音などの騒音が大きい場合、音声認識装置がウェイクアップワードである特定のキーフレーズを誤検出し、想定外のタイミングで音声認識が起動する可能性がある。特に、自動車内での音声認識においては、同乗者との会話または周囲の環境音などが、ユーザによる発話に入り込む可能性が高い。その場合、特定のキーフレーズが誤検出され、ユーザが意図しないタイミングで音声認識が開始する。
本発明は、以上のような課題を解決するためになされたものであり、音声認識装置による特定のキーフレーズの誤検出を抑制することが可能な音声認識補助装置の提供を目的とする。
本発明に係る音声認識補助装置は、ユーザが発話した音声に含まれる特定のキーフレーズを検出して音声認識を開始する音声認識装置に対して、特定のキーフレーズを検出するための判定基準を変更する制御を行う。音声認識補助装置は、車両状況情報取得部および判定基準変更部を含む。車両状況情報取得部は、ユーザである車両の搭乗者の口の動きに関する情報、または、車両状態に関する情報を含む車両状況情報を取得する。判定基準変更部は、車両状況情報に基づいて判定基準を変更する制御を、音声認識装置に対して行う。音声認識装置が判定基準に基づいて特定のキーフレーズを検出した後に搭乗者が続けて発話した音声に対して音声認識を開始した回数である音声認識回数を、車両状況情報取得部にて取得された車両状況情報ごとに記憶する履歴情報記憶部をさらに含む。判定基準変更部は、履歴情報記憶部に記憶されている音声認識回数のうち、車両状況情報取得部で取得された車両状況情報に対応する音声認識回数が予め定められた回数以上である場合に、判定基準を緩和する。
本発明によれば、音声認識装置による特定のキーフレーズの誤検出を抑制する音声認識補助装置の提供が可能である。
本発明の目的、特徴、局面、および利点は、以下の詳細な説明と添付図面とによって、より明白になる。
実施の形態1における音声認識補助装置の構成を示すブロック図である。 音声認識補助装置が含む処理回路の構成の一例を示す図である。 音声認識補助装置が含む処理回路の構成の別の一例を示す図である。 実施の形態1における音声認識補助方法を示すフローチャートである。 実施の形態2における音声認識システムおよび音声認識補助装置の構成を示すブロック図である。 実施の形態2における音声認識補助方法を示すフローチャートである。 実施の形態3における音声認識システムおよび音声認識補助装置の構成を示すブロック図である。 実施の形態3における音声認識補助方法を示すフローチャートである。 実施の形態4における音声認識システムおよび音声認識補助装置の構成を示すブロック図である。 実施の形態5における音声認識システムおよび音声認識補助装置の構成を示すブロック図である。 実施の形態5における履歴情報記憶部に記憶される音声認識回数の一例を示す図である。 実施の形態5における音声認識補助方法を示すフローチャートである。 実施の形態6における音声認識システムおよび音声認識補助装置の構成を示すブロック図である。 実施の形態6における音声認識補助方法を示すフローチャートである。 実施の形態7における音声認識補助装置およびそれに関連して動作する装置の構成を示すブロック図である。
<実施の形態1>
図1は、実施の形態1における音声認識補助装置100の構成を示すブロック図である。
音声認識補助装置100に接続される音声認識装置200は、ユーザが発話した音声を解析し、その音声に含まれる特定のキーフレーズを検出して音声認識を開始する機能を有する。特定のキーフレーズとは、いわゆる、ウェイクアップワードであり、音声認識装置200に予め登録されている。音声認識装置200は、その特定のキーフレーズを判定基準に基づいて認識する。例えば、音声認識装置200は、ユーザの音声と特定のキーフレーズとの一致度または近似度を、判定基準に基づいて判定する。一致度または近似度が判定基準を満たしている場合、音声認識装置200は、特定のキーフレーズを検出したと判断する。判定基準は、例えば、スコアであってもよいし、「高」、「中」、「低」などの離散的なレベルであってもよい。または、判定基準は、特定のキーフレーズを「認識する」あるいは「認識しない」の二値であってもよい。音声認識装置200は、特定のキーフレーズを検出した場合、その後に発話される音声に対して音声認識を開始する。
音声認識補助装置100は、その音声認識装置200に対して、特定のキーフレーズを検出するための判定基準を変更する制御を行う。音声認識補助装置100は、車両状況情報取得部10および判定基準変更部20を含む。
車両状況情報取得部10は、車両状況情報を取得する。車両状況情報とは、ユーザである車両の搭乗者の口の動きに関する情報、または、車両状態の情報を含む。車両状況情報は、車両に搭載されたセンサー110または車載機器120によって検出される。車両の搭乗者とは、例えば、ドライバーまたは助手席に座っている者である。
搭乗者の口の動きに関する情報は、例えば、搭乗者の口の開閉度、または、口の開閉パターンの情報である。車両状態の情報は、車両の窓の開閉状態の情報、車両の位置および時刻の情報、または、車両の乗車人数の情報である。これらの車両状況情報は、音声認識装置200による音声認識処理の際、音声認識装置200に入力され得る音の発生要因に関連する情報である。例えば、口が閉じているにも関わらず音声認識装置200に入力される音は、雑音である可能性が高い。または、窓が開いている状態で音声認識装置200に入力される音は、車両の外部の騒音である可能性が高い。または、車両の位置と時刻とに基づいて判別される車両の利用シーンによっては、音声認識装置200に入力される音声がユーザによる発話でない場合がある。または、多数の同乗者がいる場合には、ユーザではない同乗者の音声が音声認識装置200に入力される可能性が高い。
判定基準変更部20は、車両状況情報に基づいて、判定基準を変更する制御を、音声認識装置200に対して行う。
図2は、音声認識補助装置100が含む処理回路90の構成の一例を示す図である。車両状況情報取得部10および判定基準変更部20の各機能は、処理回路90により実現される。すなわち、処理回路90は、車両状況情報取得部10および判定基準変更部20を有する。
処理回路90が専用のハードウェアである場合、処理回路90は、例えば、単一回路、複合回路、プログラム化されたプロセッサ、並列プログラム化されたプロセッサ、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、またはこれらを組み合わせた回路等である。車両状況情報取得部10および判定基準変更部20の各機能は、複数の処理回路により個別に実現されてもよいし、1つの処理回路によりまとめて実現されてもよい。
図3は、音声認識補助装置100が含む処理回路の構成の別の一例を示す図である。処理回路は、プロセッサ91とメモリ92とを有する。プロセッサ91がメモリ92に格納されるプログラムを実行することにより、車両状況情報取得部10および判定基準変更部20の各機能が実現される。例えば、プログラムとして記述されたソフトウェアまたはファームウェアがプロセッサ91により実行されることにより各機能が実現される。このように、音声認識補助装置100は、プログラムを格納するメモリ92と、そのプログラムを実行するプロセッサ91とを有する。
プログラムには、音声認識補助装置100が、ユーザである車両の搭乗者の口の動きに関する情報、または、車両状態の情報を含む車両状況情報を取得し、車両状況情報に基づいて、判定基準を変更する制御を、音声認識装置200に対して行う機能が記述されている。また、プログラムは、車両状況情報取得部10および判定基準変更部20の手順または方法をコンピュータに実行させるものである。
プロセッサ91は、例えば、CPU(Central Processing Unit)、演算装置、マイクロプロセッサ、マイクロコンピュータ、DSP(Digital Signal Processor)等である。メモリ92は、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ、EPROM(Erasable Programmable Read Only Memory)、EEPROM(Electrically Erasable Programmable Read Only Memory)等の、不揮発性または揮発性の半導体メモリである。または、メモリ92は、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、DVD等、今後使用されるあらゆる記憶媒体であってもよい。
上述した車両状況情報取得部10および判定基準変更部20の各機能は、一部が専用のハードウェアによって実現され、他の一部がソフトウェアまたはファームウェアにより実現されてもよい。このように、処理回路は、ハードウェア、ソフトウェア、ファームウェア、またはこれらの組み合わせによって、上述の各機能を実現する。
図4は、実施の形態1における音声認識補助方法を示すフローチャートである。
ステップS1にて、車両状況情報取得部10は、車両状況情報を取得する。
ステップS2にて、判定基準変更部20は、車両状況情報に基づいて、判定基準を変更する制御を、音声認識装置200に対して行う。
その後、音声認識装置200は、音声認識補助装置100にて変更された判定基準に基づいて、搭乗者が発話した音声に含まれる特定のキーフレーズを検出する。特定のキーフレーズを検出した場合には、音声認識装置200は音声認識を開始する。
以上をまとめると、実施の形態1における音声認識補助装置100は、ユーザが発話した音声に含まれる特定のキーフレーズを検出して音声認識を開始する音声認識装置200に対して、特定のキーフレーズを検出するための判定基準を変更する制御を行う。音声認識補助装置100は、車両状況情報取得部10および判定基準変更部20を含む。車両状況情報取得部10は、ユーザである車両の搭乗者の口の動きに関する情報、または、車両状態に関する情報を含む車両状況情報を取得する。判定基準変更部20は、車両状況情報に基づいて判定基準を変更する制御を、音声認識装置200に対して行う。
このような音声認識補助装置100は、音声認識装置200による特定のキーフレーズの判定動作を補助し、その特定のキーフレーズの誤検出を抑制する。
また、実施の形態1における音声認識補助方法は、ユーザが発話した音声に含まれる特定のキーフレーズを検出して音声認識を開始する音声認識装置200に対して、特定のキーフレーズを検出するための判定基準を変更する制御を行う。音声認識補助方法は、ユーザである車両の搭乗者の口の動きに関する情報、または、車両状態に関する情報を含む車両状況情報を取得し、車両状況情報に基づいて判定基準を変更する制御を、音声認識装置200に対して行う。
このような音声認識補助方法は、音声認識装置200による特定のキーフレーズの判定動作を補助し、その特定のキーフレーズの誤検出を抑制する。
<実施の形態2>
実施の形態2における音声認識補助装置および音声認識補助方法を説明する。実施の形態2は実施の形態1の下位概念であり、実施の形態2における音声認識補助装置は、実施の形態1における音声認識補助装置100の各構成を含む。なお、実施の形態1と同様の構成および動作については説明を省略する。
図5は、実施の形態2における音声認識システム301および音声認識補助装置101の構成を示すブロック図である。音声認識システム301は音声認識補助装置101および音声認識装置200を含む。
音声認識補助装置101は、車両状況情報取得部10A、車両状況判定部30および判定基準変更部20を含む。
車両状況情報取得部10Aは、搭乗者情報取得部11を含む。搭乗者情報取得部11は、車両に設けられたカメラ等のセンサー110によって検出される車両状況情報のうち、搭乗者の状態に関する情報を、逐次取得する。実施の形態2における搭乗者情報取得部11は、開口度情報取得部11A、視線情報取得部11Bおよび顔向き情報取得部11Cを含む。
開口度情報取得部11Aは、搭乗者の状態に関する情報として、搭乗者の口の開閉度合い、または口の開閉パターンを示す開口度情報を取得する。開閉パターンとは、口の開閉度合いおよび開口形状の時系列変化である。視線情報取得部11Bは、搭乗者の状態に関する情報として、搭乗者の視線情報を取得する。顔向き情報取得部11Cは、搭乗者の状態に関する情報として、搭乗者の顔向き情報を取得する。これら開口度情報、視線情報および顔向き情報は、例えば、カメラによって取得される搭乗者の顔画像を解析することによって検出される。
車両状況判定部30は、車両状況情報に基づき、搭乗者の状態を判定する。例えば、車両状況判定部30は、(A)搭乗者が口を閉じている状態、(B)搭乗者が口を開けている状態、(C)搭乗者が口を開けており、かつ、操作画面に視線を向けている状態、(D)搭乗者が口を開けており、かつ、操作画面に顔および視線の両方を向けている状態、を判定する。
判定基準変更部20は、搭乗者の状態に基づいて、判定基準を変更する制御を、逐次、音声認識装置200に対して行う。例えば、判定基準変更部20は、搭乗者の状態に基づいて既存の判定基準を変更し、変更された判定基準を後述する音声認識装置200のキーフレーズ判定部220に出力する。または、判定基準変更部20は、搭乗者の状態に基づいて、音声認識装置200に対し判定基準を変更するよう指令を出力してもよい。その場合、後述する音声認識装置200のキーフレーズ判定部220がその指令に従い、判定基準を変更する。
判定基準変更部20は、例えば、上記の(A)→(B)→(C)→(D)の順に、音声認識装置200が特定のキーフレーズを認識しにくくなるよう、判定基準を変更する。搭乗者の状態が(A)の状態である場合、判定基準変更部20は、判定基準を上げる。その結果、音声認識装置200は特定のキーフレーズを認識しにくくなる。または、搭乗者の状態が(D)の状態である場合、判定基準変更部20は、判定基準を下げる。その結果、音声認識装置200は特定のキーフレーズを認識しやすくなる。
車両状況情報取得部10A、車両状況判定部30および判定基準変更部20の機能は、図2または図3に示される処理回路によって実現される。
音声認識装置200は、音声取得部210、キーフレーズ判定部220、音声認識起動部230および音声認識部240を含む。
音声取得部210は、車両内のマイク130が検出する搭乗者の音声を取得する。
キーフレーズ判定部220は、ユーザが発話した音声を解析し、その音声と特定のキーフレーズとの一致度を、判定基準に基づいて判定する。特定のキーフレーズは、音声認識装置200に予め登録されている。
音声認識起動部230は、キーフレーズ判定部220の判定結果に基づいて、音声認識部240の音声認識処理機能を起動させる。
音声認識部240は、その後に搭乗者が発話する音声に対して音声認識処理を行う。
音声取得部210、キーフレーズ判定部220、音声認識起動部230および音声認識部240の機能は、図2または図3に示される処理回路によって実現される。音声認識装置200の処理回路は、音声認識補助装置101の処理回路とは別であってもよいし、一体であってもよい。
図6は、実施の形態2における音声認識補助方法を示すフローチャートである。ここでは、音声認識補助装置101および音声認識装置200のユーザがドライバーである例を示す。車両状況情報としての搭乗者の状態に関する情報が、ドライバーの状態に関する情報であるか、または同乗者の状態に関する情報であるかは、例えば、搭乗者の状態を検出するカメラが撮影する画像を解析することによって区別可能である。
ステップS10にて、開口度情報取得部11Aは、センサー110によって検出されるドライバーの開口度情報を取得する。ここでは、開口度情報取得部11Aは、ドライバーの口の開閉度合いを示す開口度情報を取得する。
ステップS20にて、車両状況判定部30は、開口度情報に基づいて、口の開閉度合いを判定する。
ステップS30にて、車両状況判定部30は、ドライバーの口が開いているか否かを判定する。口が開いていない場合、ステップS40が実行される。口が開いている場合、ステップS50が実行される。
ステップS40にて、判定基準変更部20は、判定基準を「高」に変更する。ドライバーの口が開いていない状態で、音声認識装置200に入力される音声は、ドライバーの発話に基づく音声ではない。判定基準を「高」に変更することで、音声認識装置200のキーフレーズ判定部220は、特定のキーフレーズを認識しにくくなる。次に、ステップS140が実行される。
ステップS50にて、視線情報取得部11Bは、センサー110によって検出されるドライバーの視線情報を取得する。
ステップS60にて、車両状況判定部30は、視線情報に基づいて、視線方向を判定する。
ステップS70にて、車両状況判定部30は、ドライバーの視線がカーナビへ向いているか否かを判定する。視線がカーナビへ向いていない場合、ステップS80が実行される。視線がカーナビへ向いている場合、ステップS90が実行される。
ステップS80にて、判定基準変更部20は、判定基準を「中」に変更する。この状態は、ドライバーの口が開いているものの、視線がカーナビに向いていない状態である。この状態で音声認識装置200に入力される音声は、ドライバーの発話に基づく音声である可能性、および、そうではない可能性のいずれもある。そのため、判定基準は「中」に変更される。次に、ステップS140が実行される。
ステップS90にて、顔向き情報取得部11Cは、センサー110によって検出されるドライバーの顔向き情報を取得する。
ステップS100にて、車両状況判定部30は、顔向き情報に基づいて、顔の方向を判定する。
ステップS110にて、車両状況判定部30は、ドライバーの顔がカーナビへ向いているか否かを判定する。顔がカーナビへ向いていない場合、ステップS120が実行される。顔がカーナビへ向いている場合、ステップS130が実行される。
ステップS120にて、判定基準変更部20は、判定基準を「低」に変更する。この状態は、ドライバーの口が開いており、かつ、視線がカーナビに向いているものの、顔がカーナビに向いていない状態である。この状態で音声認識装置200に入力される音声は、ドライバーの発話に基づく音声である可能性が高い。そのため、判定基準は「低」に変更される。これにより、音声認識装置200のキーフレーズ判定部220は、特定のキーフレーズを認識しやすくなる。次に、ステップS140が実行される。
ステップS130にて、判定基準変更部20は、判定基準を「最低」に変更する。この状態は、ドライバーの口が開いており、かつ、視線および顔がカーナビに向いている状態である。この状態で音声認識装置200に入力される音声は、ドライバーの発話に基づく音声である可能性が非常に高い。そのため、判定基準は「最低」に変更される。これにより、音声認識装置200のキーフレーズ判定部220は、特定のキーフレーズをより認識しやすくなる。次に、ステップS140が実行される。
ステップS140にて、キーフレーズ判定部220は、変更された判定基準に基づいて、ドライバーの音声と特定のキーフレーズとの一致度を判定する。
その後、ドライバーの音声と特定のキーフレーズとが一致していると判定された場合、音声認識起動部230は、音声認識部240の音声認識処理機能を起動させる。音声認識部240は、その後にドライバーが発話する音声に対して音声認識処理を行う。
以上をまとめると、実施の形態2における車両状況情報取得部10Aは、搭乗者情報取得部11を含む。搭乗者情報取得部11は、車両に設けられたセンサー110によって検出される車両状況情報のうち、車両の搭乗者の口の動きに関する情報を取得する。搭乗者の口の動きに関する情報は、搭乗者の口の開閉度、または、口の開閉パターンの情報を含む。
このような音声認識補助装置101は、ユーザである搭乗者が音声認識装置200に対して発話している状況を判断する。音声認識補助装置101は、搭乗者が音声認識装置200に対して発話していると判断した場合、音声認識装置200が特定のキーフレーズを認識しやすくなるよう、判定基準を変更する。搭乗者が音声認識装置200に対して発話していないと判断した場合には、音声認識補助装置101は、音声認識装置200が特定のキーフレーズを認識しにくくなるよう、判定基準を変更する。その結果、音声認識装置200による特定のキーフレーズの誤検出が低減し、ユーザに不快な印象を与えることがなくなる。
また、このような音声認識システム301においては、ユーザが予め誤検出されにくい特定のキーフレーズを選定する必要がない。ユーザが自由に特定のキーフレーズを設定した場合であっても、音声認識システム301は正確にその特定のキーフレーズを検出する。このように、音声認識システム301は高いユーザビリティを提供する。
また、特定のキーフレーズの誤検出を避けるため、特定条件下において、その検出を省略して、直接、音声認識を開始する音声認識技術が知られている。例えば、そのような音声認識技術においては、音声対話の終了後の一定時間内の発話であれば特定のキーフレーズを必要とすることなく、音声認識処理が実行される。しかし、特定条件下に限定されるため、ユーザビリティが低い。それに対して、実施の形態2における音声認識補助装置101は、誤検出そのものの頻度を低減させるため、幅広い条件下で正確な音声認識処理を可能とする。
また、音声認識補助装置101は、逐次、車両状況情報を取得し、その車両状況情報に基づいて判定基準を変更する制御も、逐次行っている。そのため、音声認識補助装置101は、車両状況の急な変化に対しても、正確に判定基準を変更する制御を行うことができ、誤検出を低減させることができる。
また、音声認識補助装置101は、既存の音声認識装置200に外部装置として取り付けることも可能である。言い換えると、既存の音声認識装置200に音声認識補助装置101を取り付けるだけで、上記の効果を奏する音声認識システム301を構築可能である。
(実施の形態2の変形例1)
図6のステップS10において、開口度情報取得部11Aは、ドライバーの口の開閉度合いを示す開口度情報に代えて、ドライバーの口の開閉パターンを示す開口度情報を取得してもよい。その場合、ステップS20において、車両状況判定部30は、開口度情報取得部11Aにて取得されたドライバーの口の開閉パターンと、特定のキーフレーズが発話される際の口の開閉パターンと、に基づいて、ドライバーの口の開閉度合いおよび開口形状の時系列変化を判定する。特定のキーフレーズが発話される際の口の開閉パターンは、予め音声認識補助装置101に登録されている。ステップS30において、車両状況判定部30は、それら2つの開閉パターンが一致するか否かを判定する。開閉パターンが一致しない場合、ステップS40が実行され、一致している場合、ステップS50が実行される。このような音声認識補助装置101も、上記と同様の効果を奏する。
(実施の形態2の変形例2)
判定基準は、検出される搭乗者の状態ごとに、すなわち車両状況情報ごとに、予め定められたものであってもよい。その場合、車両状況情報ごとに予め定められた判定基準は、音声認識補助装置101または音声認識装置200に記憶されている。
または、判定基準は、ユーザの操作により任意に設定可能であってもよい。例えば、上記(A)または(B)の場合、音声認識装置200が特定のキーフレーズを認識しないような判定基準に設定可能である。また(C)の場合、音声認識装置200が特定のキーフレーズを認識しにくいような判定基準に設定可能である。また(D)の場合、音声認識装置200が特定のキーフレーズを認識しやすいような判定基準に設定可能である。
また、上記の実施の形態2にける判定基準変更部20は、開口度情報、視線情報および顔向き情報の全てに基づいて、判定基準を変更する制御を行ったが、いずれか1つの情報に基づいて上記制御を行ってもよい。例えば、判定基準変更部20は、車両に設けられたセンサー110が検出できる情報の組み合わせに基づいて、その制御を行ってもよい。
<実施の形態3>
実施の形態3における音声認識補助装置および音声認識補助方法を説明する。実施の形態3は実施の形態1の下位概念であり、実施の形態3における音声認識補助装置は、実施の形態1における音声認識補助装置100の各構成を含む。なお、実施の形態1または2と同様の構成および動作については説明を省略する。
図7は、実施の形態3における音声認識システム302および音声認識補助装置102の構成を示すブロック図である。音声認識補助装置102は、車両状況情報取得部10B、車両状況判定部30および判定基準変更部20を含む。
車両状況情報取得部10Bは、車両情報取得部12を含む。車両情報取得部12は、車両に設けられたセンサー110または車載機器120によって検出される車両状況情報のうち、車両状態に関する情報を、逐次取得する。実施の形態3における車両情報取得部12は、車載機器情報取得部12Aおよび乗車人数情報取得部12Bを含む。
車載機器情報取得部12Aは、車両状態に関する情報として、車両の窓の開閉状態の情報、車両の位置および時刻の情報を取得する。それらの情報は、車載機器120によって検出される。乗車人数情報取得部12Bは、車両状態に関する情報として、車両の乗車人数の情報を取得する。車両の乗車人数の情報は、例えば、カメラ等のセンサー110によって取得される車内の画像を解析することによって検出される。
車両状況判定部30は、車両状況情報に基づき、車両状態を判定する。例えば、車両状況判定部30は、(E)窓の開閉状態、(F)車両の利用シーン(例えば、通勤時の利用、プライベートの利用など)、(G)同乗者の存否状態、を判定する。なお、車両の利用シーンは、車両の位置および時刻に基づいて判定される。例えば、車両の位置が自宅と勤務地との間であり、時刻が平日の朝である場合、通勤時の利用と判定される。または例えば、車両の位置が自宅とレジャー施設との間であり、時刻が休日の昼間である場合、プライベートの利用と判定される。
判定基準変更部20は、車両状態に基づいて、判定基準を変更する制御を、逐次、音声認識装置200に対して行う。実施の形態3における判定基準は、「認識する」もしくは「認識しない」の二値である。すなわち、音声認識装置200のキーフレーズ判定部220は、判定基準が「認識する」の場合、音声取得部210にて取得された音声を解析して特定のキーフレーズを認識するための処理を実行する。判定基準が「認識しない」の場合、キーフレーズ判定部220は、その音声を解析して特定のキーフレーズを認識するための処理を実行しない。
判定基準変更部20は、例えば、車両の窓が開いている場合、判定基準を「認識しない」に変更する。または、判定基準変更部20は、車両の窓が閉じている場合、判定基準を「認識する」に変更する。同様に、判定基準変更部20は、車内に同乗者が存在する場合、判定基準を「認識しない」に変更する。または、判定基準変更部20は、車内に同乗者が存在しない場合、判定基準を「認識する」に変更する。同様に、判定基準変更部20は、車両の利用シーンに応じて判定基準を変更する。
車両状況情報取得部10B、車両状況判定部30および判定基準変更部20の機能は、図2または図3に示される処理回路によって実現される。
図8は、実施の形態3における音声認識補助方法を示すフローチャートである。ここでは、音声認識補助装置102および音声認識装置200のユーザがドライバーである例を示す。
ステップS210にて、車載機器情報取得部12Aは、車載機器120によって検出される車両の窓の開閉状態の情報を取得する。
ステップS220にて、車両状況判定部30は、窓の開閉状態を判定する。
ステップS230にて、車両状況判定部30は、窓が閉じているか否かを判定する。窓が開いている場合、ステップS240が実行される。窓が閉じている場合、ステップS250が実行される。
ステップS240にて、判定基準変更部20は、判定基準を「認識しない」に変更する。この状態は、車両の窓が開いている状態である。この状態で音声認識装置200に入力される音声には、ドライバーによる発話以外の音声、例えば、風の音や外部の騒音等が入り込む可能性が高い。判定基準を「認識しない」に変更することで、音声認識装置200のキーフレーズ判定部220は、特定のキーフレーズを認識しなくなる。次に、ステップS340が実行される。
ステップS250にて、車載機器情報取得部12Aは、車載機器120によって検出される車両の位置および時刻の情報を取得する。
ステップS260にて、車両状況判定部30は、車両の位置および時刻の情報に基づいて、利用シーンを判定する。
ステップS270にて、車両状況判定部30は、プライベートな利用であるか否かを判定する。プライベートな利用である場合、ステップS280が実行される。プライベートな利用でない場合、ステップS290が実行される。
ステップS280にて、判定基準変更部20は、判定基準を「認識しない」に変更する。この状態は、車両の窓が閉じており、かつ、プライベートな利用である状態である。この状態で音声認識装置200に入力される音声には、ドライバーによる発話以外の音声が入り込む可能性が高い。そのため、判定基準は「認識しない」に変更される。次に、ステップS340が実行される。
ステップS290にて、乗車人数情報取得部12Bは、センサー110によって検出される乗車人数の情報を取得する。
ステップS300にて、車両状況判定部30は、搭乗者の乗車人数を判定する。
ステップS310にて、車両状況判定部30は、乗車人数は2人以上か否かを判定する。乗車人数が2人以上である場合、ステップS320が実行される。乗車人数が1人である場合、ステップS330が実行される。
ステップS320にて、判定基準変更部20は、判定基準を「認識しない」に変更する。この状態は、車両の窓が閉じており、プライベートな利用ではなく、かつ、乗車人数が2人以上の状態である。この状態で音声認識装置200に入力される音声には、ドライバーによる発話以外の音声が入り込む可能性が高い。そのため、判定基準は「認識しない」に変更される。次に、ステップS340が実行される。
ステップS330にて、判定基準変更部20は、判定基準を「認識する」に変更する。この状態は、車両の窓が閉じており、プライベートな利用ではなく、かつ、乗車人数が1人の状態である。この状態で音声認識装置200に入力される音声には、ドライバーによる発話以外の音声が入り込む可能性は低い。そのため、判定基準は「認識する」に変更される。これにより、音声認識装置200のキーフレーズ判定部220は、特定のキーフレーズを認識することができる。次に、ステップS340が実行される。
ステップS340にて、キーフレーズ判定部220は、変更された判定基準に基づいて、搭乗者の音声と特定のキーフレーズとの一致度を判定する。
その後、搭乗者の音声と特定のキーフレーズとが一致していると判定された場合、音声認識起動部230は、音声認識部240の音声認識処理機能を起動させる。音声認識部240は、その後に搭乗者が発話する音声に対して音声認識処理を行う。
以上をまとめると、実施の形態3における車両状況情報取得部10Bは、車両情報取得部12を含む。車両情報取得部12は、車両に設けられたセンサー110または車載機器120によって検出される車両状況情報のうち、車両状態に関する情報を取得する。車両状態の情報は、車両の窓の開閉状態の情報、車両の位置と時刻との情報、または、車両の乗車人数の情報を含む。
このような音声認識補助装置102は、ユーザである搭乗者の発話以外の音声が音声認識装置200に入り込む可能性の高い状況を判断する。その可能性が高い場合には、音声認識補助装置102は、音声認識装置200が特定のキーフレーズを認識しないように、判定基準を変更する。音声認識補助装置102は、ユーザである搭乗者(ドライバー)の音声以外の環境音でキーフレーズが誤検出されることを抑制する。
(実施の形態3の変形例)
判定基準変更部20は、車両の窓の開閉状態の情報、車両の位置および時刻の情報、車両の乗車人数の情報の全てに基づいて、判定基準を変更する制御を行う必要はなく、車両に設けられたセンサー110または車載機器120が検出できる情報の組み合わせに基づいて、その制御を行ってもよい。
また、判定基準は、ユーザの操作により任意に設定可能であってもよい。例えば、車両の窓が開いている場合、音声認識装置200が特定のキーフレーズを認識しないような判定基準に設定可能である。または、通勤中の利用である場合、音声認識装置200が特定のキーフレーズを認識するような判定基準に設定可能である。または、同乗者が存在する場合、音声認識装置200が特定のキーフレーズを認識するような判定基準に設定可能である。
<実施の形態4>
実施の形態4における音声認識補助装置および音声認識補助方法を説明する。実施の形態4は実施の形態1の下位概念であり、実施の形態4における音声認識補助装置は、実施の形態1における音声認識補助装置の各構成を含む。なお、実施の形態1から3のいずれかと同様の構成および動作については説明を省略する。
図9は、実施の形態4における音声認識システム303および音声認識補助装置103の構成を示すブロック図である。車両状況情報取得部10Cは、実施の形態1に示される搭乗者情報取得部11および実施の形態3に示される車両情報取得部12の両方を含む。
車両状況判定部30は、搭乗者の状態に関する情報および車両状態に関する情報を組み合わせて、搭乗者の状態および車両状態を判定する。
判定基準変更部20は、車両状況判定部30の判定結果に基づいて、判定基準を変更する制御を、音声認識装置200に対して行う。
このような音声認識補助装置103は、より的確に特定のキーフレーズの誤検出を抑制する。
<実施の形態5>
実施の形態5における音声認識補助装置および音声認識補助方法を説明する。実施の形態5は実施の形態1の下位概念であり、実施の形態5における音声認識補助装置は、実施の形態1における音声認識補助装置100の各構成を含む。なお、実施の形態1から4のいずれかと同様の構成および動作については説明を省略する。
図10は、実施の形態5における音声認識システム304および音声認識補助装置104の構成を示すブロック図である。音声認識補助装置104は、車両状況情報取得部10C、車両状況判定部30、判定基準変更部20および履歴情報記憶部40を含む。
車両状況情報取得部10Cは、実施の形態1に示される搭乗者情報取得部11および実施の形態3に示される車両情報取得部12の両方を含む。
車両状況判定部30は、搭乗者の状態に関する情報および車両状態に関する情報を組み合わせて、搭乗者の状態および車両状態を判定する。
判定基準変更部20は、車両状況判定部30の判定結果に基づいて、すなわち搭乗者の状態および車両状態に基づいて判定基準を変更する制御を、音声認識装置200に対して行う。
履歴情報記憶部40は、車両状況情報取得部10Cにて取得された搭乗者の状態および車両状態の情報ごとに、つまり車両状況情報ごとに、音声認識装置200による音声認識回数を記憶している。ここで音声認識回数とは、音声認識装置200が判定基準変更部20にて変更された判定基準に基づいて、特定のキーフレーズを検出した後、搭乗者の音声に対して音声認識を開始した回数である。図11は、実施の形態5における履歴情報記憶部40に記憶される音声認識回数の一例を示す図である。
履歴情報記憶部40は、音声認識装置200のキーフレーズ判定部220が特定のキーフレーズを検出した後、搭乗者が続けて発話した場合、音声認識回数をプラスする。一方で、履歴情報記憶部40は、キーフレーズ判定部220が特定のキーフレーズを検出した後、搭乗者が続けて発話しなかった場合、または、音声認識処理を終了させる内容を発話した場合、音声認識回数をマイナスする。
実施の形態4における判定基準変更部20は、履歴情報記憶部40に記憶されている音声認識回数のうち、車両状況情報取得部10Cで取得された車両状況情報に対応する音声認識回数が予め定められた回数以上である場合に、判定基準を緩和する。
これら車両状況情報取得部10C、車両状況判定部30、判定基準変更部20および履歴情報記憶部40の機能は、図2または図3に示される処理回路によって実現される。
図12は、実施の形態5における音声認識補助方法を示すフローチャートである。このフローチャートは、音声認識装置200のキーフレーズ判定部220が特定のキーフレーズを検出した後の音声認識システム304の動作を示している。ここでは、音声認識補助装置102および音声認識装置200のユーザがドライバーである例を示す。
ステップS410にて、音声認識起動部230は、音声認識部240の音声認識処理機能を起動させる。
ステップS420にて、音声認識部240は、ドライバーの音声を認識したか否かを判定する。ドライバーの音声が認識されなかった場合、ステップS430が実行される。ドライバーの音声が認識された場合、ステップS460が実行される。
ステップS430にて、音声認識部240は、履歴情報記憶部40に音声認識回数をマイナスするよう通知する。
ステップS440にて、履歴情報記憶部40は、音声認識部240による音声認識時の車両状況情報を車両状況判定部30から取得する。
ステップS450にて、履歴情報記憶部40は、車両状況情報に対応する音声認識回数をマイナスする。次に、ステップS500が実行される。
ステップS460にて、音声認識部240は、音声認識処理を終了させる発話を認識したか否かを判定する。音声認識処理を終了させる発話が認識された場合、ステップS430が実行される。音声認識処理を終了させる発話が認識されなかった場合、ステップS470が実行される。
ステップS470にて、音声認識部240は、履歴情報記憶部40に音声認識回数をプラスするよう通知する。
ステップS480にて、履歴情報記憶部40は、音声認識部240による音声認識時の車両状況情報を車両状況判定部30から取得する。
ステップS490にて、履歴情報記憶部40は、車両状況情報に対応する音声認識回数をプラスする。次に、ステップS500が実行される。
ステップS500にて、判定基準変更部20は、現在の車両状況情報に対応する音声認識回数が予め定められた第1基準値を超えたか否かを判定する。音声認識回数が予め定められた第1基準値を超えていない場合、ステップS510が実行される。予め定められた第1基準値を超えている場合、ステップS520が実行される。
ステップS510にて、判定基準変更部20は、現在の車両状況情報に対応する音声認識回数が予め定められた第2基準値を割ったか否かを判定する。音声認識回数が予め定められた第2基準値を割った場合、ステップS520が実行される。予め定められた第2基準値を割っていない場合、音声認識補助方法は終了する。
ステップS520にて、判定基準変更部20は、判定基準を強化する。これにより、音声認識装置200のキーフレーズ判定部220は、特定のキーフレーズを認識しにくくなる。
ステップS530にて、判定基準変更部20は、判定基準を緩和する。これにより、音声認識装置200のキーフレーズ判定部220は、特定のキーフレーズを認識しやすくなる。
以上で音声認識方法は終了する。
以上をまとめると、実施の形態5における音声認識補助装置104は、履歴情報記憶部40を含む。履歴情報記憶部40は、音声認識回数を、車両状況情報取得部10Cにて取得された車両状況情報ごとに記憶している。音声認識回数とは、音声認識装置200が判定基準に基づいて特定のキーフレーズを検出した後に搭乗者が続けて発話した音声に対して音声認識を開始した回数である。判定基準変更部20は、履歴情報記憶部40に記憶されている音声認識回数のうち、車両状況情報取得部10Cで取得された車両状況情報に対応する音声認識回数が予め定められた回数以上である場合に、判定基準を緩和する。
このような音声認識補助装置104は、音声認識装置200が特定のキーフレーズを誤検出しないよう判定基準を正確に変更する。
<実施の形態6>
実施の形態6における音声認識補助装置および音声認識補助方法を説明する。実施の形態6は実施の形態1の下位概念であり、実施の形態6における音声認識補助装置は、実施の形態1における音声認識補助装置100の各構成を含む。なお、実施の形態1から5のいずれかと同様の構成および動作については説明を省略する。
図13は、実施の形態6における音声認識システム305および音声認識補助装置105の構成を示すブロック図である。音声認識補助装置105は、車両状況情報取得部10C、車両状況判定部30、判定基準変更部20およびキーフレーズ省略判定部50を含む。
キーフレーズ省略判定部50は、車両状況情報に基づいて、特定のキーフレーズの検出を省略して音声認識を開始する制御を、音声認識装置200に対して行う。言い換えると、音声認識システム305は、車両状況が特定の状態である場合、特定のキーフレーズの検出を省略して音声認識を開始する。特定の状態とは、例えば、搭乗者の口が開いている状態、車両の窓が閉じている状態、または、同乗者がいない状態である。
キーフレーズ省略判定部50は、車両状況が特定の状態である場合、キーフレーズ判定部220に対し、特定のキーフレーズの検出を省略する制御を行う。さらに、キーフレーズ省略判定部50は、音声認識起動部230に対し、特定のキーフレーズの検出を待つことなく、音声認識部240の音声認識処理機能を起動させる制御を行う。
車両状況情報取得部10C、車両状況判定部30および判定基準変更部20の機能は、他の実施の形態と同様である。これら車両状況情報取得部10C、車両状況判定部30、判定基準変更部20およびキーフレーズ省略判定部50の機能は、図2または図3に示される処理回路によって実現される。
図14は、実施の形態6における音声認識補助方法を示すフローチャートである。
ステップS610にて、車両状況情報取得部10Cは、車両状況情報を取得する。このステップS610は、例えば、図6に示されるステップS10,S50またはS90に対応する。または、図8に示されるS210,S250,S290に対応する。
ステップS620にて、車両状況判定部30は、車両状況を判定する。このステップS620は、例えば、図6に示されるステップS20,S60またはS100に対応する。または、図8に示されるS220,S260,S300に対応する。実施の形態6においては、車両状況判定部30が車両状況を判定したあと、判定基準変更部20の機能およびキーフレーズ省略判定部50の機能の両方が実行される。判定基準変更部20の機能は、他の実施の形態と同様であるため説明を省略する。
ステップS630にて、キーフレーズ省略判定部50は、車両状況が特定の状態であるか否かを判定する。特定の状態でないと判定された場合、音声認識補助方法は終了する。特定の状態であると判定された場合、ステップS640が実行される。
ステップS640にて、キーフレーズ省略判定部50は、特定のキーフレーズの検出を省略して音声認識を開始する制御を、音声認識装置200に対して行う。ここでは、キーフレーズ省略判定部50は、キーフレーズ判定部220に対し、特定のキーフレーズの検出を省略する制御を行う。さらに、キーフレーズ省略判定部50は、音声認識起動部230に対し、特定のキーフレーズの検出を待つことなく、音声認識部240の音声認識処理機能を起動させる制御を行う。
その後、音声認識部240は、搭乗者が発話する音声に対して音声認識処理を行う。
以上をまとめると、実施の形態6における音声認識補助装置105は、キーフレーズ省略判定部50を含む。キーフレーズ省略判定部50は、車両状況情報に基づいて、前記特定のキーフレーズの検出を省略して前記音声認識を開始する制御を、前記音声認識装置200に対して行う。
このような音声認識補助装置105は、特定のキーフレーズの検出を省略することができる。
<実施の形態7>
以上の各実施の形態に示された音声認識補助装置は、ナビゲーション装置と、通信端末と、サーバと、これらにインストールされるアプリケーションの機能とを適宜に組み合わせて構築されるシステムにも適用することができる。ここで、ナビゲーション装置とは、例えば、PND(Portable Navigation Device)などを含む。通信端末とは、例えば、携帯電話、スマートフォンおよびタブレットなどの携帯端末を含む。
図15は、実施の形態7における音声認識補助装置100およびそれに関連して動作する装置の構成を示すブロック図である。
音声認識補助装置100、音声認識装置200および通信装置160がサーバ400に設けられている。音声認識補助装置100は、車両1に設けられたセンサー110または車載機器120から通信装置140および通信装置160を介して車両状況情報を取得する。音声認識補助装置100は、車両状況情報に基づいて判定基準を変更する制御を音声認識装置200に対して行う。音声認識装置200は、車両1に設けられたマイク130にて取得される音声に対して音声認識処理を行い、車両1に設けられたスピーカ150に、各通信装置を介して応答を出力する。
このように、音声認識補助装置100がサーバ400に配置されることにより、車載装置の構成を簡素化することができる。
また、音声認識補助装置100の機能あるいは構成要素の一部がサーバ400に設けられ、他の一部が車両1に設けられるなど、分散して配置されてもよい。
なお、本発明は、その発明の範囲内において、各実施の形態を自由に組み合わせたり、各実施の形態を適宜、変形、省略したりすることが可能である。
本発明は詳細に説明されたが、上記した説明は、全ての局面において、例示であって、本発明がそれに限定されるものではない。例示されていない無数の変形例が、この発明の範囲から外れることなく想定され得るものと解される。
1 車両、10 車両状況情報取得部、11 搭乗者情報取得部、11A 開口度情報取得部、11B 視線情報取得部、11C 顔向き情報取得部、12 車両情報取得部、12A 車載機器情報取得部、12B 乗車人数情報取得部、20 判定基準変更部、30 車両状況判定部、40 履歴情報記憶部、50 キーフレーズ省略判定部、100 音声認識補助装置、110 センサー、120 車載機器、200 音声認識装置、300 音声認識システム。

Claims (6)

  1. ユーザが発話した音声に含まれる特定のキーフレーズを検出して音声認識を開始する音声認識装置に対して、前記特定のキーフレーズを検出するための判定基準を変更する制御を行う音声認識補助装置であって、
    前記ユーザである車両の搭乗者の口の動きに関する情報、または、車両状態に関する情報を含む車両状況情報を取得する車両状況情報取得部と、
    前記車両状況情報に基づいて前記判定基準を変更する制御を、前記音声認識装置に対して行う判定基準変更部と、
    前記音声認識装置が前記判定基準に基づいて前記特定のキーフレーズを検出した後に前記搭乗者が続けて発話した前記音声に対して前記音声認識を開始した回数である音声認識回数を、前記車両状況情報取得部にて取得された前記車両状況情報ごとに記憶する履歴情報記憶部と、を備え、
    前記判定基準変更部は、
    前記履歴情報記憶部に記憶されている前記音声認識回数のうち、前記車両状況情報取得部で取得された前記車両状況情報に対応する前記音声認識回数が予め定められた回数以上である場合に、前記判定基準を緩和する音声認識補助装置。
  2. ユーザが発話した音声に含まれる特定のキーフレーズを検出して音声認識を開始する音声認識装置に対して、前記特定のキーフレーズを検出するための判定基準を変更する制御を行う音声認識補助装置であって、
    前記ユーザである車両の搭乗者の口の動きに関する情報、または、車両状態に関する情報を含む車両状況情報を取得する車両状況情報取得部と、
    前記車両状況情報に基づいて前記判定基準を変更する制御を、前記音声認識装置に対して行う判定基準変更部と、
    前記車両状況情報に基づいて、前記特定のキーフレーズの検出を省略して前記音声認識を開始する制御を、前記音声認識装置に対して行うキーフレーズ省略判定部と、
    前記音声認識装置が前記判定基準に基づいて前記特定のキーフレーズを検出した後に前記搭乗者が続けて発話した前記音声に対して前記音声認識を開始した回数である音声認識回数を、前記車両状況情報取得部にて取得された前記車両状況情報ごとに記憶する履歴情報記憶部と、を備え
    前記判定基準変更部は、
    前記履歴情報記憶部に記憶されている前記音声認識回数のうち、前記車両状況情報取得部で取得された前記車両状況情報に対応する前記音声認識回数が予め定められた回数以上である場合に、前記判定基準を緩和する音声認識補助装置。
  3. 前記車両状況情報取得部は、
    前記車両に設けられたセンサーによって検出される前記車両状況情報のうち、前記車両の前記搭乗者の前記口の動きに関する前記情報を取得する搭乗者情報取得部を含み、
    前記搭乗者の前記口の動きに関する前記情報は、前記搭乗者の前記口の開閉度、または、前記口の開閉パターンの情報を含む、請求項1または請求項2に記載の音声認識補助装置。
  4. 前記車両状況情報取得部は、
    前記車両に設けられたセンサーまたは車載機器によって検出される前記車両状況情報のうち、前記車両状態に関する前記情報を取得する車両情報取得部を含み、
    前記車両状態の前記情報は、前記車両の窓の開閉状態の情報、前記車両の位置と時刻との情報、または、前記車両の乗車人数の情報を含む、請求項1または請求項2に記載の音声認識補助装置。
  5. ユーザが発話した音声に含まれる特定のキーフレーズを検出して音声認識を開始する音声認識装置に対して、前記特定のキーフレーズを検出するための判定基準を変更する制御を行う音声認識補助方法であって、
    前記ユーザである車両の搭乗者の口の動きに関する情報、または、車両状態に関する情報を含む車両状況情報を取得し、
    前記車両状況情報に基づいて前記判定基準を変更する制御を、前記音声認識装置に対して行い、
    前記音声認識装置が前記判定基準に基づいて前記特定のキーフレーズを検出した後に前記搭乗者が続けて発話した前記音声に対して前記音声認識を開始した回数である音声認識回数を、取得された前記車両状況情報ごとに記憶し、
    記憶されている前記音声認識回数のうち、取得された前記車両状況情報に対応する前記音声認識回数が予め定められた回数以上である場合に、前記判定基準を緩和する、音声認識補助方法。
  6. ユーザが発話した音声に含まれる特定のキーフレーズを検出して音声認識を開始する音声認識装置に対して、前記特定のキーフレーズを検出するための判定基準を変更する制御を行う音声認識補助方法であって、
    前記ユーザである車両の搭乗者の口の動きに関する情報、または、車両状態に関する情報を含む車両状況情報を取得し、
    前記車両状況情報に基づいて前記判定基準を変更する制御を、前記音声認識装置に対して行い、
    前記車両状況情報に基づいて、前記特定のキーフレーズの検出を省略して前記音声認識を開始する制御を、前記音声認識装置に対して行い、
    前記音声認識装置が前記判定基準に基づいて前記特定のキーフレーズを検出した後に前記搭乗者が続けて発話した前記音声に対して前記音声認識を開始した回数である音声認識回数を、取得された前記車両状況情報ごとに記憶し、
    記憶されている前記音声認識回数のうち、取得された前記車両状況情報に対応する前記音声認識回数が予め定められた回数以上である場合に、前記判定基準を緩和する、音声認識補助方法。
JP2021543881A 2019-09-05 2019-09-05 音声認識補助装置および音声認識補助方法 Active JP7242873B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/034922 WO2021044569A1 (ja) 2019-09-05 2019-09-05 音声認識補助装置および音声認識補助方法

Publications (2)

Publication Number Publication Date
JPWO2021044569A1 JPWO2021044569A1 (ja) 2021-12-09
JP7242873B2 true JP7242873B2 (ja) 2023-03-20

Family

ID=74853305

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021543881A Active JP7242873B2 (ja) 2019-09-05 2019-09-05 音声認識補助装置および音声認識補助方法

Country Status (2)

Country Link
JP (1) JP7242873B2 (ja)
WO (1) WO2021044569A1 (ja)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001075595A (ja) 1999-09-02 2001-03-23 Honda Motor Co Ltd 車載用音声認識装置
JP2004245938A (ja) 2003-02-12 2004-09-02 Fujitsu Ten Ltd 音声認識装置及びプログラム
JP2011081541A (ja) 2009-10-06 2011-04-21 Canon Inc 入力装置及びその制御方法
WO2014025012A1 (ja) 2012-08-10 2014-02-13 株式会社ホンダアクセス 音声認識方法及び音声認識装置
JP2015219440A (ja) 2014-05-20 2015-12-07 パナソニックIpマネジメント株式会社 操作補助装置および操作補助方法
JP2017037176A (ja) 2015-08-10 2017-02-16 クラリオン株式会社 音声操作システム、サーバー装置、車載機器および音声操作方法
WO2017042906A1 (ja) 2015-09-09 2017-03-16 三菱電機株式会社 車載用音声認識装置および車載機器
JP2018072599A (ja) 2016-10-31 2018-05-10 アルパイン株式会社 音声認識装置および音声認識方法
WO2019176252A1 (ja) 2018-03-13 2019-09-19 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001075595A (ja) 1999-09-02 2001-03-23 Honda Motor Co Ltd 車載用音声認識装置
JP2004245938A (ja) 2003-02-12 2004-09-02 Fujitsu Ten Ltd 音声認識装置及びプログラム
JP2011081541A (ja) 2009-10-06 2011-04-21 Canon Inc 入力装置及びその制御方法
WO2014025012A1 (ja) 2012-08-10 2014-02-13 株式会社ホンダアクセス 音声認識方法及び音声認識装置
JP2015219440A (ja) 2014-05-20 2015-12-07 パナソニックIpマネジメント株式会社 操作補助装置および操作補助方法
JP2017037176A (ja) 2015-08-10 2017-02-16 クラリオン株式会社 音声操作システム、サーバー装置、車載機器および音声操作方法
WO2017042906A1 (ja) 2015-09-09 2017-03-16 三菱電機株式会社 車載用音声認識装置および車載機器
JP2018072599A (ja) 2016-10-31 2018-05-10 アルパイン株式会社 音声認識装置および音声認識方法
WO2019176252A1 (ja) 2018-03-13 2019-09-19 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム

Also Published As

Publication number Publication date
JPWO2021044569A1 (ja) 2021-12-09
WO2021044569A1 (ja) 2021-03-11

Similar Documents

Publication Publication Date Title
EP3414759B1 (en) Techniques for spatially selective wake-up word recognition and related systems and methods
US7050550B2 (en) Method for the training or adaptation of a speech recognition device
JP6227209B2 (ja) 車載用音声認識装置および車載機器
EP1933303B1 (en) Speech dialog control based on signal pre-processing
JP2002091466A (ja) 音声認識装置
JP6350903B2 (ja) 操作補助装置および操作補助方法
JP2012128440A (ja) 音声対話装置
JP6767082B2 (ja) 車内通話制御装置、車内通話システムおよび車内通話制御方法
EP1494208A1 (en) Method for controlling a speech dialog system and speech dialog system
CN112585674B (zh) 信息处理装置、信息处理方法和存储介质
JP6459330B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP2008026463A (ja) 音声対話装置
JP6827536B2 (ja) 音声認識装置および音声認識方法
JP2016133378A (ja) カーナビゲーション装置
JP7242873B2 (ja) 音声認識補助装置および音声認識補助方法
JP3916861B2 (ja) 音声認識装置
JP2018116206A (ja) 音声認識装置、音声認識方法及び音声認識システム
JP4026198B2 (ja) 音声認識装置
JP2004318026A (ja) セキュリティペットロボット及びその装置に関する信号処理方法
JP6748565B2 (ja) 音声対話システム及び音声対話方法
JP2004184803A (ja) 車両用音声認識装置
JP2020091435A (ja) 音声認識システム、音声認識システムの通知方法、プログラム、及び移動体搭載機器
JP7449070B2 (ja) 音声入力装置、音声入力方法及びそのプログラム
JP2019191477A (ja) 音声認識装置及び音声認識方法
JP7429107B2 (ja) 音声翻訳装置、音声翻訳方法及びそのプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210805

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220705

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220817

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20221206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230118

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20230118

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20230126

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20230131

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230307

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230308

R150 Certificate of patent or registration of utility model

Ref document number: 7242873

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150