JP2024022448A - 音声コマンド受付装置、および音声コマンド受付方法 - Google Patents

音声コマンド受付装置、および音声コマンド受付方法 Download PDF

Info

Publication number
JP2024022448A
JP2024022448A JP2023015969A JP2023015969A JP2024022448A JP 2024022448 A JP2024022448 A JP 2024022448A JP 2023015969 A JP2023015969 A JP 2023015969A JP 2023015969 A JP2023015969 A JP 2023015969A JP 2024022448 A JP2024022448 A JP 2024022448A
Authority
JP
Japan
Prior art keywords
voice command
language
voice
reception unit
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023015969A
Other languages
English (en)
Inventor
領平 須永
Ryohei Sunaga
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JVCKenwood Corp
Original Assignee
JVCKenwood Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JVCKenwood Corp filed Critical JVCKenwood Corp
Priority to PCT/JP2023/021310 priority Critical patent/WO2024029192A1/ja
Publication of JP2024022448A publication Critical patent/JP2024022448A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Time Recorders, Dirve Recorders, Access Control (AREA)

Abstract

【課題】音声コマンドによる操作を適切に行うこと。【解決手段】音声コマンド受付装置は、音声コマンドを受け付ける音声コマンド受付部と、音声コマンドを発話する人物が使用する言語に関する情報を取得する検出部と、音声コマンド受付部が音声コマンドを受け付けた場合に、受け付けた音声コマンドに対する機能を実行させる実行制御部と、を備え、音声コマンド受付部は、音声コマンドを発話する人物が使用する言語が音声コマンドとして使用可能な言語であると判断した場合は、音声コマンド受付部が取得した音声コマンドの認識率が第一閾値以上で音声コマンドを受け付け、音声コマンドを発話する人物が使用する言語が音声コマンドとして使用可能な言語ではないと判断した場合は、音声コマンド受付部が取得した音声コマンドの認識率が、第一閾値より低い第二閾値以上で音声コマンドを受け付ける。【選択図】図3

Description

本発明は、音声コマンド受付装置、および音声コマンド受付方法に関する。
音声コマンドによって操作を行う装置が多様化している。例えば、車両用記録装置、いわゆるドライブレコーダにおいては、加速度センサによる衝撃検出に加え、音声コマンドによってイベント記録を行うものもある(例えば、非特許文献1)。音声コマンドによるイベント記録は、自らが事故の当事者ではない場合の事故を記録する場合など、運転中にタッチパネル等の操作を必要とせず、安全にイベント記録を行うことができる。特許文献1には、加速度によるイベント検出に対して音声による指示を行うことで、イベント記録を行うドライブレコーダが開示されている。
特開2020-154904号公報
DRV-MR760[令和3年12月20日検索]、インターネット(URL:https://www.kenwood.com/jp/car/drive-recorders/products/drv-mr760/)
ドライブレコーダにイベント記録を指示する音声コマンドは、例えば「ろくがかいし」のような音声コマンドが受け付けられるよう予め設定されている。音声コマンドは、他の音声による誤検出を防止するため、ある程度の音節数で構成されることが要求される。例えば「ろくがかいし」は6音節からなる。このため、音声コマンドを正確に認識させるために、発話者はドライブレコーダの方向など、音声コマンドの発話音声を入力するマイクロフォンの方向を向いて発話することが多い。一般的なドライブレコーダは、発話者である搭乗者から見て車両の前方に設置されていることから、車両の前方である進行方向を向いた状態での音声コマンド入力は、適切に認識される。
しかし、音声コマンドが適切に認識されないような状況において音声コマンドが発話された場合、音声コマンドの認識率が低くなることから、音声コマンドによる指示が受け付けられない場合が生じる。このような場合、例えば、ドライブレコーダにおけるイベント記録を行う場合の音声コマンドなど、緊急性や即時性を要する操作を指示するための音声コマンドは、音声コマンドの言い直しなどによって、操作に遅れが生じてしまう。音声コマンドが適切に認識されないような状況とは、例えば、音声コマンドを発話する人物が、音声コマンドを適切に発話できる人物ではない場合に生じる可能性がある。
本発明は、音声コマンドによる操作を適切に行うことができる音声コマンド受付装置、および音声コマンド受付方法を提供することを目的とする。
本発明の音声コマンド受付装置は、音声コマンドを受け付ける音声コマンド受付部と、前記音声コマンドを発話する人物が使用する言語に関する情報を取得する検出部と、前記音声コマンド受付部が音声コマンドを受け付けた場合に、受け付けた音声コマンドに対する機能を実行させる実行制御部と、を備え、前記音声コマンド受付部は、前記人物が使用する言語が前記音声コマンドとして使用可能な言語であると判断した場合は、前記音声コマンド受付部が取得した音声コマンドの認識率が第一閾値以上で音声コマンドを受け付け、前記人物が使用する言語が前記音声コマンドとして使用可能な言語ではないと判断した場合は、前記音声コマンド受付部が取得した音声コマンドの認識率が、前記第一閾値より低い第二閾値以上で音声コマンドを受け付ける。
本発明の音声コマンド受付方法は、音声コマンドを発話する人物が使用する言語に関する情報を取得するステップと、前記人物が使用する言語が前記音声コマンドとして使用可能な言語であると判断した場合は、前記音声コマンドの認識率が第一閾値以上で音声コマンドを受け付け、前記人物が使用する言語が前記音声コマンドとして使用可能な言語ではないと判断した場合は、前記音声コマンドの認識率が、前記第一閾値より低い第二閾値以上で音声コマンドを受け付けるステップと、前記音声コマンドを受け付けた場合に、受け付けた音声コマンドに対する機能を実行させるステップと、を音声コマンド受付装置が実行する。
本発明によれば、音声コマンドによる操作を適切に行うことができる。
図1は、第一実施形態に係る記録装置の構成例を示すブロック図である。 図2は、第一実施形態に係る制御部の処理の流れを示すフローチャートである。 図3は、第二実施形態に係る音声コマンド受付装置の構成例を示すブロック図である。 図4は、第二実施形態に係る音声コマンド受付装置の処理の流れを示すフローチャートである。 図5は、第三実施形態に係る記録装置の構成例を示すブロック図である。 図6は、第三実施形態に係る制御部の処理の流れを示すフローチャートである。 図7は、第四実施形態に係る音声コマンド受付装置の構成例を示すブロック図である。 図8は、第四実施形態に係る音声コマンド受付装置の処理の流れを示すフローチャートである。
以下、添付図面を参照して、本発明に係る実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではなく、また、以下の実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。また、本発明に係る音声コマンド受付装置は、音声コマンドを用いて操作を行う様々な装置を想定しており、以下の実施の形態により、適用される装置が限定されるものではない。
[第一実施形態]
第一実施形態においては、音声コマンド受付装置の例として、車両において用いられる記録装置について説明する。
(記録装置)
図1を用いて、第一実施形態に係る記録装置の構成例を説明する。図1は、第一実施形態に係る記録装置の構成例を示すブロック図である。
記録装置1は、車両に対して発生したイベントの検出や、ユーザの指示によって映像などを記録する、いわゆるドライブレコーダである。記録装置1は、車両に載置されている装置であってもよいし、可搬型で車両において利用可能な装置であってもよい。記録装置1は、映像の再生機能を備えることから、記録再生装置と言い換えてもよい。記録装置1は、車両にあらかじめ設置されている装置やナビゲーション装置等の機能または構成を含んで実現されてもよい。記録装置1は、車両の運転者を含む搭乗者が使用する言語が音声コマンドとして登録されていることによって、音声コマンドに使用可能な言語であるか否かに応じて、受け付ける音声コマンドに認識率を変更する処理を実行する。
図1に示すように、記録装置1は、カメラ10と、記録部14と、表示部16と、マイクロフォン18と、加速度センサ20と、操作部22と、GNSS(Global Navigation Satellite System)24と、制御部(記録制御装置)26と、を備える。記録装置1は、カメラ10と、マイクロフォン18とを一体的に含む装置であってもよく、カメラ10と、マイクロフォン18とが別体で構成された装置であってもよい。
カメラ10は、車両の周辺を撮影するカメラである。カメラ10は、一例としては、記録装置1に固有のカメラ、または、車両の前後方向などをそれぞれ撮影する複数のカメラである。第一実施形態では、カメラ10は、例えば、車両の前方および後方を向いて配置される複数のカメラで構成され、車両の前方および後方を中心とした周辺を撮影する。カメラ10は、例えば、全天周や半天周を撮影可能な単一のカメラであってもよい。カメラ10は、撮影した映像データを制御部26の映像データ取得部30へ出力する。映像データは、例えば毎秒30フレームの画像から構成される動画像である。
記録部14は、記録装置1におけるデータの一時記憶などに用いられる。記録部14は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)などの半導体メモリ素子、または、メモリカードなどの記録媒体である。または、図示しない通信装置を介して無線接続される外部記録部であってもよい。記録部14は、制御部26の記録制御部36から出力された制御信号に基づいて、ループ記録映像データまたはイベントデータを記録する。
表示部16は、例えば、記録装置1に固有の表示装置、または、ナビゲーションシステムを含む他のシステムと共用した表示装置などである。表示部16は、第一カメラ10と一体に形成されていてもよい。表示部16、例えば、液晶ディスプレイ(LCD:Liquid Crystal Display)または有機EL(Organic Electro-Luminescence)ディスプレイなどを含むディスプレイである。第一実施形態では、表示部16は、車両の運転者前方の、ダッシュボード、インストルメントパネル、センターコンソールなどに配置されている。表示部16は、制御部26の記録制御部36から出力された映像信号に基づいて、映像を表示する。表示部16は、カメラ10が撮影している映像、または、記録部14に記録された映像を表示する。
マイクロフォン18は、車両の車室内の音声の音声データを収音する。第一実施形態では、マイクロフォン18は、運転者を含む車両の搭乗者が発話する音声を取得可能な位置に配置される。マイクロフォン18は、例えば、ダッシュボード、インストルメントパネル、センターコンソールなどに配置されている。マイクロフォン18は、車両の車室内における搭乗者の発話や会話に関する音声データを収音し、検出部42に出力する。マイクロフォン18は、記録装置1に対する音声コマンドに関する音声を収音し、音声コマンド受付部44に出力する。マイクロフォン18は、収音した音声を、映像データ取得部30に出力することで、記録制御部36は、音声を含むループ記録映像データまたはイベントデータを記録してもよい。
加速度センサ20は、車両に対して生じる加速度を検出するセンサである。加速度センサ20は、検出結果を制御部26のイベント検出部46に出力する。加速度センサ20は、例えば3軸方向の加速度を検出するセンサである。3軸方向とは、車両の前後方向、左右方向、および上下方向である。
操作部22は、記録装置1に対する各種操作を受付可能である。例えば、操作部22は、撮影した映像データを記録部14にイベントデータとして手動で保存する操作を受付可能である。例えば、操作部22は、記録部14に記録したループ記録映像データまたはイベントデータを再生する操作を受付可能である。例えば、操作部22は、記録部14に記録したイベントデータを消去する操作を受付可能である。例えば、操作部22は、ループ記録を終了する操作を受付可能である。操作部22は、操作情報を制御部26の操作制御部48に出力する。
GNSS受信部24は、GNSS衛星からのGNSS信号を受信するGNSS受信機なで構成される。GNSS受信部24は、受信したGNSS信号を制御部26の位置情報
取得部50へ出力する。
制御部26は、記録装置1の各部を制御する、記録制御装置である。制御部26は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)などの情報処理装置と、RAM(Random Access Memory)又はROM(Read Only Memory)などの記憶装置とを有する。制御部26は、本発明に係る記録装置1の動作を制御するプログラムを実行する。制御部26は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されてもよい。制御部26は、ハードウェアと、ソフトウェアとの組み合わせで実現されてもよい。
制御部26は、映像データ取得部30と、バッファメモリ32と、映像データ処理部34と、記録制御部36と、再生制御部38と、表示制御部40と、検出部42と、音声コマンド受付部44と、イベント検出部46と、操作制御部48と、位置情報取得部50と、を制御部26の構成またはプログラムの実行によって実現される機能ブロックとして備える。
映像データ取得部30は、車両の周辺を撮影した映像データを取得する。具体的には、映像データ取得部30は、カメラ10が撮影した映像データを取得する。映像データ取得部30は、取得した映像データを、バッファメモリ32に出力する。映像データ取得部30が取得する映像データは、映像のみのデータに限らず、映像と音声とを含む映像データであってもよい。映像データ取得部30は、映像データとして、全天周や半天周を撮影した映像データを取得してもよい。
バッファメモリ32は、記録装置1が備える内部メモリであり、映像データ取得部30が取得した一定時間分の映像データを、更新しながら一時的に記録するメモリである。
映像データ処理部34は、バッファメモリ32が一時的に記憶している映像データを、例えばH.264やMPEG-4(Moving Picture Experts Group)などの任意の方式のコーデックで符号化された、例えばMP4形式などの任意のファイル形式に変換する。映像データ処理部34は、バッファメモリ32が一時的に記憶している映像データから、一定時間分のファイルとした映像データを生成する。具体例として、映像データ処理部34は、バッファメモリ32が一時的に記憶している映像データを、記録順に60秒間の映像データをファイルとして生成する。映像データ処理部34は、生成した映像データを記録制御部36へ出力する。映像データ処理部34は、生成した映像データを表示制御部40へ出力する。ファイルとして生成される映像データの期間は、一例として60秒としたが、これには限定されない。
記録制御部36は、映像データ処理部34でファイル化された映像データを、記録部14に記録させる制御を行う。記録制御部36は、車両のアクセサリ電源がONであるときなど、ループ記録処理を実行する期間は、映像データ処理部34でファイル化された映像データを、上書き可能な映像データとして、記録部14に記録する。記録制御部36は、ループ記録処理を実行する期間は、映像データ処理部34が生成した映像データを記録部14に記録し続け、記録部14の容量が一杯になった場合、最も古い映像データに新しい映像データを上書きして記録する。
記録制御部36は、音声コマンド受付部44が音声コマンドによるイベント検出を受け付けた場合に、イベント検出を受け付けた時点を含む映像データをイベントデータとして保存する。記録制御部36は、イベントデータを上書きが禁止されたデータとして記録部14に保存する。例えば、記録制御部36は、音声コマンド受付部44が音声コマンドによるイベント検出を受け付けた時点の前後10秒程度の所定の期間の映像データをバッファメモリ32からコピーして、イベントデータとして保存する。
記録制御部36は、イベント検出部46が、加速度センサ20の出力値に基づきイベントの発生を検出した場合に、イベントを検出した時点を含む映像データをイベントデータとして保存する。記録制御部36は、イベントデータを上書きが禁止されたデータとして記録部14に保存する。例えば、記録制御部36は、イベント検出部46がイベントを検出した時点の前後10秒程度の所定の期間の映像データをバッファメモリ32からコピーして、イベントデータとして保存する。
再生制御部38は、操作制御部48から出力された再生操作の制御信号に基づいて、記録部14に記録されたループ記録映像データまたはイベントデータを再生し、再生した映像などを表示制御部40によって表示部16に出力させる制御を行う。
表示制御部40は、表示部16における映像データの表示を制御する。表示制御部40は、映像データを表示部16に出力させる映像信号を出力する。より詳しくは、表示制御部40は、第一カメラ10が撮影している映像、または、記録部14に記録されたループ記録映像データまたはイベントデータの再生によって表示する映像信号を出力する。
検出部42は、音声コマンドを発話する環境における、音声コマンドが適切に認識されない状況となる条件を検出する。本実施形態においては、検出部42は、音声コマンドを発話する人物が使用する言語に関する情報を取得する。検出部42は、音声コマンドを発話する人物が使用する言語として、音声コマンドを発話する人物が通常使用する言語、言い換えると、母国語など日常的に使用している言語に関する情報を取得する。音声コマンドを発話する人物は、車両において用いられる記録装置1の場合は、車両の搭乗者、車両の運転者である。
検出部42は、例えば、車両が動作している期間、マイクロフォン18が集音した音声に対して、車両の搭乗者による発話や会話の音声を取得し、車両の搭乗者が使用している言語を特定する。検出部42は、複数の言語毎に特徴量等を機械学習させた学習モデルを参照し、車両の搭乗者が使用している言語を特定する。検出部42は、車両の搭乗者による発話や会話の音声に基づき、車両の搭乗者が使用している単数または複数の言語を特定する。検出部42は、車両の搭乗者が操作部22を操作することで、使用している言語を特定してもよい。
本実施形態では、検出部42は、車両の搭乗者が使用している言語と、音声コマンドとして登録されている言語が一致するか否かを判断することによって、音声コマンドに使用可能な言語であるか否かを判断する。音声コマンドとして登録されている言語とは、記録装置1において、音声コマンドを示す単語や語句が登録されている言語である。記録装置1に、例えば、日本語による音声コマンドが登録されている場合とは、日本語による「録画開始(ろくがかいし)」のような音声コマンドが登録されていることである。音声コマンドとして登録されている言語ではない言語、つまり、音声コマンドとして登録されていない言語とは、記録装置1において、音声コマンドが登録されていない言語である。
検出部42は、車両の搭乗者が使用している言語が複数検出された場合であって、検出された複数の言語が、音声コマンドとして登録されている言語と登録されていない言語である場合、車両の搭乗者が使用している言語は、音声コマンドとして登録されていない言語とみなす。その理由としては、音声コマンドとして登録されていない言語を使用する搭乗者が、音声コマンドを発話する可能性があることによる。
音声コマンド受付部44は、マイクロフォン18が集音した音声を認識することで、音声コマンドを受け付ける。音声コマンド受付部44は、例えば、マイクロフォン18が集音した音声に対して、音源分離処理および音声認識処理を実行し、イベント記録を開始するための音声コマンドを認識する。イベント記録を開始するための音声コマンドは、音声コマンドとして日本語が登録されている場合、例えば、「録画開始(ろくがかいし)」である。音声コマンド受付部44は、マイクロフォン18が集音した音声において「Ro・Ku・Ga・Ka・I・Shi」の連続した6音節を認識した場合に、イベント記録処理を開始するための制御信号を記録制御部36に出力する。または、音声コマンド受付部44は、マイクロフォン18が集音した音声において「RoKuGaKaIShi」の単語を示す音声を認識した場合に、イベント記録処理を開始するための制御信号を記録制御部36に出力する。音声コマンド受付部44は、音声コマンドを発話する人物が使用する言語が音声コマンドとして登録されている言語であるか否かを判断し、音声コマンドを発話する人物が使用する言語が音声コマンドとして登録されている言語であるか否かに応じて、音声コマンドを取得した否かを判定するための音声の認識率を変更する。
音声コマンド受付部44は、車両の搭乗者が使用する言語が、音声コマンドとして登録されている言語である場合には、「Ro・Ku・Ga・Ka・I・Shi」の連続した6音節のうち、全ての音節が一致した場合に、音声コマンドを取得したと判定する。音声コマンド受付部44は、例えば、音声コマンドを取得した判定する認識率の第一閾値として、90%に設定する。この場合、音声コマンド受付部44は、「Ro・Ku・Ga・Ka・I・Shi」の6音節のうち、90%以上認識できた場合には、音声コマンドを取得したと判定する。
音声コマンド受付部44は、車両の搭乗者が使用する言語が、音声コマンドとして登録されている言語ではない場合には、「Ro・Ku・Ga・Ka・I・Shi」の連続した6音節のうち、5音節以上が一致した場合に、音声コマンドを取得したと判定する。この場合、音声部44は、音声コマンドを取得したと判定する認識率を第一閾値よりも低い第二閾値に設定する。音声コマンド受付部44は、例えば、第二閾値を80%に設定する。この場合、音声コマンド受付部44は、「Ro・Ku・Ga・Ka・I・Shi」の連続した6音節のうち、80%以上認識できた場合には、音声コマンドを取得したと判定する。すなわち、車両の搭乗者が使用する言語が、音声コマンドとして登録されている言語ではない場合のように、音声コマンドを発話する人物が、適切な発音や適切なイントネーションなどによる音声コマンドの発話に慣れていない状態や、適切な発話を咄嗟に行うことができない状態などにおいては、搭乗者の発話が完全に認識できなくとも、音声コマンドが発話されたと判定することで、適切に音声コマンドが認識される。
また、音声コマンド受付部44は、車両の搭乗者が使用する言語が、音声コマンドとして登録されている言語である場合には、「RoKuGaKaIShi」の単語を示す音声波形の音響モデルと、入力された音声の波形との一致率を、音声コマンドを取得した判定する認識率の第一閾値として、例えば、90%に設定する。この場合、音声コマンド受付部44は、「RoKuGaKaIShi」の単語を示す音声波形の音響モデルと、入力された音声の波形との一致率が90%以上である場合には、音声コマンドを取得したと判定する。
また、音声コマンド受付部44は、車両の搭乗者が使用する言語が、音声コマンドとして登録されている言語ではない場合には、「RoKuGaKaIShi」の単語を示す音声波形の音響モデルと、入力された音声の波形との一致率を、音声コマンドを取得した判定する認識率の第一閾値よりも低い第二閾値として、例えば80%に設定する。この場合、音声コマンド受付部44は、「RoKuGaKaIShi」の単語を示す音声波形の音響モデルと、入力された音声の波形との一致率が80%以上である場合には、音声コマンドを取得したと判定する。すなわち、車両の搭乗者が使用する言語が、音声コマンドとして登録されている言語ではない場合には、搭乗者の音声が音声コマンドとして認識されやすくなる。
イベント検出部46は、車両に加わる加速度に基づくイベントを検出する。イベント検出部46は、加速度センサ20の検出結果に基づいて、イベントを検出する。イベント検出部46は、加速度情報が、車両の衝突に該当するような予め設定された閾値以上である場合、イベントが発生したことを検出する。
操作制御部48は、操作部22が受け付けた操作の操作情報を取得する。例えば、操作制御部48は、映像データの手動保存操作を示す保存操作情報、再生操作を示す再生操作情報、または、映像データの消去操作を示す消去操作情報を取得して制御信号を出力する。例えば、操作制御部48は、ループ記録を終了する操作を示す終了操作情報を取得して制御信号を出力する。操作制御部48は、操作部22が受け付けた、車両の搭乗者が使用している言語を設定する操作情報を取得してもよい。操作制御部48は、車両の搭乗者が使用している言語を設定する操作情報を取得する場合は、検出部42の機能を代替する。
操作制御部48は、音声コマンド受付部44が認識した音声コマンドによるイベント記録操作を受け付ける。
位置情報取得部50は、車両の現在位置を示す位置情報を取得する。位置情報取得部50は、GNSS受信部24が受信したGNSS信号に基づいて、車両の現在位置の位置情報を公知の方法によって算出する。
(制御部の処理)
図2を用いて、第一実施形態に係る制御部の処理の流れを説明する。図2は、第一実施形態に係る制御部26の処理の流れを示すフローチャートである。図2に示すフローチャートは、記録装置1が装着されている車両のエンジンなどの動力が始動することや、記録装置1に電力が供給されることで開始される。
処理の開始に伴い、制御部26は、通常記録、いわゆるループ記録を開始する(ステップS10)。具体的には、記録制御部36は、カメラ10が撮影した映像データをバッファメモリ32に送信し、例えば、60秒ごとのような所定期間の映像ごとに映像ファイルを生成し、記録部14に記録させる処理を開始し、ステップS12に進む。
ステップS10の開始とともに、検出部42は、車両の搭乗者が使用している言語の特定を開始してもよい。検出部42による両の搭乗者が使用している言語の特定は、図2に示すフローチャートの開始によって車両内の発話が取得されることで特定されてもよい。または、図2に示すフローチャートの開始によって、車両の搭乗者に対して、表示部16の表示や、音声によって使用言語を問い合わせる案内を行ってもよい。または、図示しない車室内カメラや、スマートキーに対応付けられた車両の搭乗者や運転者の情報に基づいて、過去に特定された言語が設定されてもよい。また、記録装置1が搭載されている車両がレンタカーなどであれば、車両の貸与者が、利用者の国籍や会話の結果などに基づき、予め設定してもよい。例えば、記録装置1において日本語による音声コマンドのみが登録されている場合、車室内での発話や会話が日本語以外の言語で行われていることを検出する。このような搭乗者は、適切な発音の日本語による音声コマンドを発話することができない場合や、適切な発音の日本語による音声コマンドを咄嗟に発話することができない場合などが生じるためである。
音声コマンド受付部44は、音声コマンドを発話する人物である車両の搭乗者が使用する言語が、音声コマンドとして登録されている言語であるか否かを判定する(ステップS12)。音声コマンドを発話する人物とは、車両の運転者に限定してもよく、車両の運転者以外の搭乗者であってもよい。音声コマンドを発話する人物が使用する言語が、音声コマンドとして登録されている言語であると判定された場合(ステップS12;Yes)、ステップS14に進む。音声コマンドを発話する人物が使用する言語が、音声コマンドとして登録されている言語ではないと判定された場合(ステップS12;No)、ステップS18に進む。
ステップS12でYesと判定された場合、音声コマンド受付部44は、マイクロフォン18により車両の搭乗者から音声コマンドを取得したか否かを判定する(ステップS14)。音声コマンドを取得したと判定された場合(ステップS14;Yes)、ステップS16に進む。音声コマンドを取得したと判定されない場合(ステップS14;No)、ステップS24に進む。
ステップS14でYesと判定された場合、音声コマンド受付部44は、取得した音声コマンドの認識率は第一閾値以上であるか否かを判定する(ステップS16)。音声コマンドの認識率が第一閾値以上であると判定された場合(ステップS16;Yes)、ステップS22に進む。音声コマンドの認識率が第一閾値以上であると判定されない場合(ステップS16;No)、ステップS24に進む。
ステップS12でNoと判定された場合、音声コマンド受付部44は、マイクロフォン18により車両の搭乗者から音声コマンドを取得したか否かを判定する(ステップS18)。音声コマンドを取得したと判定された場合(ステップS18;Yes)、ステップS20に進む。音声コマンドを取得したと判定されない場合(ステップS18;No)、ステップS24に進む。
ステップS18でYesと判定された場合、音声コマンド受付部44は、取得した音声コマンドの認識率は第二閾値以上であるか否かを判定する(ステップS20)。音声コマンドの認識率が第二閾値以上であると判定された場合(ステップS20;Yes)、ステップS22に進む。音声コマンドの認識率が第二閾値以上であると判定されない場合(ステップS20;No)、ステップS24に進む。
ステップS14およびステップS18においては、音声コマンドを取得したか否かの判断に加えて、取得した音声コマンドが、緊急性または即時性の高い音声コマンドであるか否かを判断してもよい。言い換えると、ステップS14およびステップS18においては、緊急性または即時性の高い音声コマンドを取得したか否かを判定する。緊急性または即時性の高い音声コマンドとは、音声コマンドが受け付けられることで、遅延なく動作開始することが要求される機能に対する操作を要求する音声コマンドである。例えば、記録装置1における緊急性または即時性の高い音声コマンドとは、イベント記録を指示する音声コマンドである。
ステップS16でYesまたはステップS20でYesと判定された場合、記録制御部36は、イベントデータを記録部14に保存する(ステップS22)。具体的には、記録制御部36は、音声コマンド受付部44が音声コマンドを取得した時点の前後の第一映像データをイベントデータとして記録部14に保存し、ステップS24に進む。
ステップS14からステップS20でNoと判定された場合、またはステップS22の後、制御部26は、処理を終了するか否かを判定する(ステップS24)。具体的には、制御部26は、操作部22が電源をオフにする操作や、処理を終了する旨の操作を受け付けた場合、または、記録装置1が装着されている車両のエンジンなどの動力がOFFとなることで、処理を終了すると判定する。処理を終了すると判定された場合(ステップS24;Yes)、図2の処理を終了する。処理を終了すると判定されない場合(ステップS24;No)、ステップS12に進む。
上述のとおり、第一実施形態は、車両の搭乗者が使用する言語が、音声コマンドとして登録されている言語である場合と、音声コマンドとして登録されている言語ではない場合とで、音声を音声コマンドとして認識するための認識率を変更して、音声コマンドを受け付ける。記録装置1が受け付ける音声コマンドは、例えば、イベント記録指示を行う音声コマンドである。また、記録装置1は、イベント記録指示を行う音声コマンドを受け付けることで、イベントデータの保存を行う。第一実施形態では、車両の搭乗者、つまり音声コマンドを発話する人物が使用する言語が、音声コマンドとして登録されている言語ではない場合には、音声コマンドとして登録されている言語である場合と比較して、認識率を低くして音声コマンドを受け付け、イベントデータの保存処理を実行する。これにより、第一実施形態は、搭乗者が音声コマンドを適切に発話できる状態ではない場合であっても、音声コマンドによる操作指示、例えば音声コマンドによるきイベント記録指示を行うことで、イベントデータの保存を適切に行うことができる。
[第二実施形態]
第二実施形態について説明する。第二実施形態における音声コマンド受付装置は、音声コマンドを用いて操作を行う汎用的な装置であり、例えば、スマートスピーカーやテレビジョン受信器などの家庭用装置、スマートフォン、タブレット端末、PCなどの情報装置、車両において用いられるナビゲーション装置やインフォテインメントシステムなどに適用可能である。
図3を用いて、第二実施形態に係る音声コマンド受付装置の構成例について説明する。図3は、第二実施形態に係る音声コマンド受付装置100の構成例を示すブロック図である。
図3に示すように、音声コマンド受付装置100は、音声コマンド受付部144と、検出部142と、実行制御部150と、を備える。音声コマンド受付装置100は、例えば、CPUやMPUなどの情報処理装置と、RAM又はROMなどの記憶装置とを有する。音声コマンド受付装置100は、本発明に係るプログラムを実行する。音声コマンド受付装置100は、例えば、ASICやFPGA等の集積回路により実現されてもよい。音声コマンド受付装置100は、ハードウェアと、ソフトウェアとの組み合わせで実現されてもよい。音声コマンド受付装置100は、第一実施形態における制御部26のように、音声コマンドを用いる装置を制御する制御部である。このため、音声コマンド受付装置100は、受け付けた音声コマンドに基づいて動作または機能するための構成要素が付加されていてもよい。
音声コマンド受付装置100は、マイクロフォン118から音声を取得する。マイクロフォン118は、音声コマンド受付装置100の構成要素としてもよい。
マイクロフォン118は、発話者が発話した音声を収音する。マイクロフォン118は、収音した音声に関する音声を音声コマンド受付装置100に出力する。マイクロフォン118は、音声コマンド受付装置100と一体に構成されていてもよいし、別体に構成されていてもよい。
音声コマンド受付部144は、音声コマンドを受け付ける。音声コマンド受付部144は、例えば、マイクロフォン118が収音した音声を認識することで、音声コマンドを受け付ける。音声コマンド受付部144は、第一実施形態における音声コマンド受付部44と同様の機能を備える。
検出部142は、音声コマンドを発話する環境における、音声コマンドが適切に認識されない状況となる条件を検出する。本実施形態においては、検出部142は、音声コマンドを発話する人物が使用する言語に関する情報を取得する。検出部142は、音声コマンドを発話する人物が使用する言語として、音声コマンドが発話する人物が通常使用する言語、言い換えると、母国後など日常的に使用している言語に関する情報報を取得する。検出部142は、第一実施形態における検出部42と同様の機能を備える。
実行制御部150は、音声コマンド受付部144が音声コマンドを受け付けた場合に、受け付けた音声コマンドに対する機能を実行させる。
音声コマンド受付部144は、検出部142の検出結果に基づき、音声コマンドを発話する人物が使用する言語が前記音声コマンドとして登録されていることによって使用可能な言語であるか否かに応じて音声コマンドの認識率を変化させて音声コマンドを受け付ける。音声コマンド受付部144は、例えば、音声コマンドを発話する人物が使用する言語が音声コマンドとして登録されている言語であると判断した場合には、第一閾値以上の認識率で音声コマンドを受け付ける。音声コマンド受付部144は、例えば、音声コマンドを発話する人物が使用する言語が音声コマンドとして登録されている言語ではないと判断した場合には、第一閾値よりも低い第二閾値以上で音声コマンドを受け付ける。
音声コマンド受付部144は、緊急性または即時性の高い音声コマンドに対しては、第二閾値以上の認識率で音声コマンドを受け付けることとしてもよい。第二実施形態において、緊急性または即時性の高い音声コマンドとは、緊急通話、緊急通信、放送コンテンツの記録開始指示、継続リスクの高い機能の停止指示など、機能の実行開始や実行終了に対して、操作時点からの遅延が好ましくない、または遅延によって悪影響やリスクのある機能に対する音声コマンドである。
(音声コマンド受付装置の処理)
図4を用いて、第二実施形態に係る音声コマンド受付装置の処理の流れを説明する。図4は、第二実施形態に係る音声コマンド受付装置100の処理の流れを示すフローチャートである。
検出部142は、音声コマンドを発話する人物が使用する言語を抽出し(ステップS40)、ステップS42に進む。具体的には、検出部142は、音声コマンド受付装置100の近傍で発話されている発話内容などに基づき、音声コマンドを発話する人物が使用する言語を抽出する。
音声コマンド受付部144は、音声コマンドを発話する人物が使用する言語が、音声コマンドとして登録されている言語であるか否かを判定する(ステップS42)。具体的には、音声コマンド受付部144は、検出部142が音声コマンドを発話する人物が使用する言語を検出した結果に基づいて、音声コマンド受付装置100の音声コマンドとして登録されている言語であるか否かを判定する。音声コマンドを発話する人物が使用する言語が、音声コマンドとして登録されている言語であると判定された場合(ステップS42;Yes)、ステップS44に進む。音声コマンドを発話する人物が使用する言語が、音声コマンドとして登録されている言語ではないと判定される場合(ステップS42;No)、ステップS48に進む。
ステップS42でYesと判定された場合、音声コマンド受付部144は、マイクロフォン118により音声コマンドを取得したか否かを判定する(ステップS44)。音声コマンドを取得したと判定された場合(ステップS44;Yes)、ステップS46に進む。音声コマンドを取得したと判定されない場合(ステップS44;No)、ステップS54に進む。
ステップS44でYesと判定された場合、音声コマンド受付部144は、取得した音声コマンドの認識率は第一閾値以上であるか否かを判定する(ステップS46)。音声コマンドの認識率が第一閾値以上であると判定された場合(ステップS46;Yes)、ステップS52に進む。音声コマンドの認識率が第一閾値以上であると判定されない場合(ステップS46;No)、ステップS54に進む。
ステップS42でNoと判定された場合、音声コマンド受付部144は、マイクロフォン118により音声コマンドを取得したか否かを判定する(ステップS48)。音声コマンドを取得したと判定された場合(ステップS48;Yes)、ステップS50に進む。音声コマンドを取得したと判定されない場合(ステップS48;No)、ステップS54に進む。
ステップS48でYesと判定された場合、音声コマンド受付部144は、取得した音声コマンドの認識率は第二閾値以上であるか否かを判定する(ステップS50)。音声コマンドの認識率が第二閾値以上であると判定された場合(ステップS50;Yes)、ステップS52に進む。音声コマンドの認識率が第二閾値以上であると判定されない場合(ステップS50;No)、ステップS54に進む。
ステップS44およびステップS48においては、音声コマンドを取得したか否かの判断に加えて、取得した音声コマンドが、緊急性または即時性の高い音声コマンドであるか否かを判断してもよい。
ステップS46でYesまたはステップS50でYesと判定された場合、実行制御部150は、音声コマンドに対する機能を実行する(ステップS52)。そして、ステップS54に進む。
ステップS44からステップS50でNoと判定された場合、またはステップS52の後、音声コマンド受付装置100は、処理を終了するか否かを判定する(ステップS54)。具体的には、音声コマンド受付装置100は、電源をオフにする操作や、処理を終了する旨の操作を受け付けた場合などに、処理を終了すると判定する。処理を終了すると判定された場合(ステップS54;Yes)、図4の処理を終了する。処理を終了すると判定されない場合(ステップS54;No)、ステップS42に進む。
上述のとおり、第二実施形態は、音声コマンドを発話する人物が使用する言語が、音声コマンドとして登録されている言語である場合と、音声コマンドとして登録されている言語ではない場合とで、音声を音声コマンドとして認識するための認識率を変更して、音声コマンドを受け付け、音声コマンドに対する機能を実行する。第二実施形態では、音声コマンドを発話する人物が使用する言語が音声コマンドとして登録されている言語ではない場合には、音声コマンドとして登録されている言語である場合と比較して、認識率を低くして音声コマンドを受け付け、音声コマンドに対する機能を実行する。これにより、第二実施形態は、音声コマンドを発話する人物が音声コマンドとして登録されている言語ではない言語を使用している人物であり、音声コマンドを適切に発話できる状態ではない状況であっても、音声コマンドに対する機能を適切に実行することができる。
[第三実施形態]
第三実施形態について説明する。第三実施形態は、音声コマンド受付装置の例として、車両において用いられる記録装置について説明する。
(記録装置)
図5を用いて、第三実施形態に係る記録装置の構成例を説明する。図5は、第三実施形態に係る記録装置の構成例を示すブロック図である。第三実施形態に係る記録装置1Aは、第一実施形態に係る記録装置1と構成と機能が共通するため、以下の説明においては、記録装置1と同一の構成要素には同一の符号を付し、その詳細な説明は省略する。第三実施形態に係る記録装置1Aは、複数の言語による音声コマンドに対応している装置、言い換えると、複数の言語による音声コマンドが登録されている装置であり、対応している複数の言語から、音声コマンドを受け付ける言語を選択して用いる装置である。
図5に示すように、記録装置1Aは、記録装置1と同一の構成に加えて、制御部26Aを備える。制御部26Aは、制御部26と同一の構成に加えて、設定部52をさらに備える。
設定部52は、音声コマンド受付部44が音声コマンドを受け付ける言語を設定する。設定部52は、例えば、操作部22による操作によって、音声コマンドが対応する複数の言語から、少なくとも1つの言語を設定する。設定部52は、言い換えると、記録装置1Aにおいて複数の言語に対応する音声コマンドから、少なくとも1つの言語を選択して使用可能とする。
設定部52は、記録装置1Aのユーザなどが、操作部22を操作することによって、記録装置1Aが対応している複数の言語から、音声コマンドを受け付ける言語を選択して設定する。
本実施形態では、検出部42は、車両の搭乗者が使用している言語と、音声コマンドを受け付ける言語として設定されている言語が一致するか否かを判断することによって、音声コマンドに使用可能な言語であるか否かを判断する。音声コマンドを受け付ける言語として設定されている言語とは、記録装置1Aにおいて、音声コマンドを示す単語や語句が登録されている複数の言語から選択された言語である。記録装置1Aに、例えば、日本語、英語、中国語、韓国語の音声コマンドが登録されており、音声コマンドを受け付ける言語として日本語が選択されている場合、日本語による「録画開始(ろくがかいし)」のような音声コマンドが使用可能である。また、音声コマンドを受け付ける言語として設定されている言語ではない言語とは、記録装置1Aに登録されており、音声コマンドを受け付ける言語として設定されていない言語に加えて、記録装置1Aに登録されていない言語も含まれる。
音声コマンド受付部44は、マイクロフォン18が集音した音声を認識することで、音声コマンドを受け付ける。音声コマンドを受け付ける言語として日本語が設定されている場合、例えば、イベント記録を開始するための音声コマンドは、「録画開始(ろくがかいし)」である。音声コマンド受付部44は、音声コマンドを発話する人物が使用する言語が音声コマンドを受け付ける言語として設定されている言語であるか否かを判断し、音声コマンドを発話する人物が使用する言語が音声コマンドを受け付ける言語として設定されている言語であるか否かに応じて、音声コマンドを取得した否かを判定するための音声の認識率を変更する。
音声コマンド受付部44は、車両の搭乗者が使用する言語が、音声コマンドを受け付ける言語として設定されている言語である場合には、「Ro・Ku・Ga・Ka・I・Shi」の連続した6音節のうち、全ての音節が一致した場合に、音声コマンドを取得したと判定する。音声コマンド受付部44は、例えば、音声コマンドを取得した判定する認識率の第一閾値として、90%に設定する。この場合、音声コマンド受付部44は、「Ro・Ku・Ga・Ka・I・Shi」の6音節のうち、90%以上認識できた場合には、音声コマンドを取得したと判定する。
音声コマンド受付部44は、車両の搭乗者が使用する言語が、音声コマンドを受け付ける言語として設定されている言語ではない場合には、「Ro・Ku・Ga・Ka・I・Shi」の連続した6音節のうち、5音節以上が一致した場合に、音声コマンドを取得したと判定する。この場合、音声部44は、音声コマンドを取得したと判定する認識率を第一閾値よりも低い第二閾値に設定する。音声コマンド受付部44は、例えば、第二閾値を80%に設定する。この場合、音声コマンド受付部44は、「Ro・Ku・Ga・Ka・I・Shi」の連続した6音節のうち、80%以上認識できた場合には、音声コマンドを取得したと判定する。すなわち、車両の搭乗者が使用する言語が、音声コマンドを受け付ける言語として設定されている言語ではない場合のように、音声コマンドを発話する人物が、適切な発音や適切なイントネーションなどによる音声コマンドの発話に慣れていない状態や、適切な発話を咄嗟に行うことができない状態などにおいては、搭乗者の発話が完全に認識できなくとも、音声コマンドが発話されたと判定することで、適切に音声コマンドが認識される。
また、音声コマンド受付部44は、車両の搭乗者が使用する言語が、音声コマンドを受け付ける言語として設定されている言語である場合には、「RoKuGaKaIShi」の単語を示す音声波形の音響モデルと、入力された音声の波形との一致率を、音声コマンドを取得した判定する認識率の第一閾値として、例えば、90%に設定する。この場合、音声コマンド受付部44は、「RoKuGaKaIShi」の単語を示す音声波形の音響モデルと、入力された音声の波形との一致率が90%以上である場合には、音声コマンドを取得したと判定する。
また、音声コマンド受付部44は、車両の搭乗者が使用する言語が、音声コマンドを受け付ける言語として設定されている言語ではない場合には、「RoKuGaKaIShi」の単語を示す音声波形の音響モデルと、入力された音声の波形との一致率を、音声コマンドを取得した判定する認識率の第一閾値よりも低い第二閾値として、例えば80%に設定する。この場合、音声コマンド受付部44は、「RoKuGaKaIShi」の単語を示す音声波形の音響モデルと、入力された音声の波形との一致率が80%以上である場合には、音声コマンドを取得したと判定する。すなわち、車両の搭乗者が使用する言語が、音声コマンド受け付ける言語として設定されている言語ではない場合には、搭乗者の音声が音声コマンドとして認識されやすくなる。
(制御部の処理)
図6を用いて、第三実施形態に係る制御部の処理の流れを説明する。図6は、第三実施形態に係る制御部26Aの処理の流れを示すフローチャートである。図6に示すステップS60、ステップS64からステップS74の処理は、図2に示すステップS10、ステップS14からステップS24の処理と同一であるため、説明を省略する。
音声コマンド受付部44は、音声コマンドを発話する人物である車両の搭乗者が使用する言語が、音声コマンドを受け付ける言語として設定されている言語であるか否かを判定する(ステップS62)。言い換えると、音声コマンド受付部44は、音声コマンドを発話する人物である車両の搭乗者が使用する言語が、設定部52で設定された言語であるか否かを判定する。音声コマンドを発話する人物が使用する言語が、音声コマンドを受け付ける言語として設定されている言語であると判定された場合(ステップS62;Yes)、ステップS64に進む。音声コマンドを発話する人物が使用する言語が、音声コマンドを受け付ける言語として設定されている言語ではないと判定された場合(ステップS62;No)、ステップS68に進む。
上述のとおり、第三実施形態は、車両の搭乗者が使用する言語が、音声コマンドを受け付ける言語として設定されている言語である場合と、音声コマンドを受け付ける言語として設定されている言語ではない場合とで、音声を音声コマンドとして認識するための認識率を変更して、音声コマンドを受け付ける。第三実施形態では、車両の搭乗者、つまり音声コマンドを発話する人物が使用する言語が、音声コマンド受け付ける言語として設定されている言語ではない場合には、音声コマンドを受け付ける言語として設定されている言語である場合と比較して、認識率を低くして音声コマンドを受け付け、イベントデータの保存処理を実行する。これにより、第三実施形態は、搭乗者が音声コマンドを適切に発話できる状態ではない場合であっても、音声コマンドによる操作指示、例えばイベントデータの保存を適切に行うことができる。
[第四実施形態]
第四実施形態について説明する。第四実施形態における音声コマンド受付装置は、第二実施形態における音声コマンド受付装置と同様に、音声コマンドを用いて操作を行う様々な装置に適用される。
図7を用いて、第四実施形態に係る音声コマンド受付装置の構成例を説明する。図7は、第四実施形態に係る音声コマンド受付装置100Aの構成例を示すブロック図である。第四実施形態に係る音声コマンド受付装置100Aは、第二実施形態に係る音声コマンド受付装置100と構成が共通するため、以下の説明においては、音声コマンド受付装置100と同一の構成要素には同一の符号を付し、その詳細な説明は省略する。
図7に示すように、音声コマンド受付装置100Aは、音声コマンド受付装置100と同一の構成に加えて、操作部122、操作制御部148および設定部152をさらに備える。操作部122は、音声コマンド受付装置100Aの構成要素としてもよい。
操作部122は、音声コマンド受付装置100Aに対する各種操作を受付可能である。操作部122は、音声コマンド受付装置100Aが対応している複数の言語から、音声コマンドを受け付ける言語を設定する操作を受け付け可能である。操作部122は、操作情報を操作制御部148に出力する。
操作制御部148は、操作部122が受け付けた操作の操作情報を取得する。例えば、操作制御部148は、音声コマンドを受け付ける言語を設定する操作情報を取得する。
設定部152は、音声コマンド受付部144が音声コマンドを受け付ける言語を設定する。設定部152は、第三実施形態における設定部52と同様の機能を備える。
(音声コマンド受付装置の処理)
図8を用いて、第四実施形態に係る音声コマンド受付装置の処理の流れを説明する。図8は、第四実施形態に係る音声コマンド受付装置100Aの処理の流れを示すフローチャートである。図8に示すステップS80、ステップS84からステップS94の処理は、図4に示すステップS40、ステップS44からステップS54の処理と同一であるため、説明を省略する。
ステップS82においては、音声コマンド受付部144は、音声コマンドを受け付ける言語として設定されている言語であるか否かを判定する。具体的には、音声コマンド受付部144は、検出部142が音声コマンドを発話する人物が使用する言語を検出した結果に基づいて、音声コマンド受付装置100Aが音声コマンドを受け付ける言語として設定されている言語であるか否かを判定する。音声コマンドを発話する人物が使用する言語が、音声コマンドを受け付ける言語として設定されている言語であると判定された場合(ステップS82;Yes)、ステップS84に進む。音声コマンドを発話する人物が使用する言語が、音声コマンドを受け付ける言語として設定されている言語ではないと判定される場合(ステップS82;No)、ステップS88に進む。
上述のとおり、第四実施形態は、音声コマンドを発話する人物が使用する言語が、音声コマンドを受け付ける言語として設定されている言語である場合と、音声コマンドとして設定されている言語ではない場合とで、音声を音声コマンドとして認識するための認識率を変更して、音声コマンドを受け付け、音声コマンドに対する機能を実行する。第四実施形態では、音声コマンドを発話する人物が使用する言語が音声コマンドを受け付ける言語として設定されている言語ではない場合には、音声コマンドを受け付ける言語として設定されている場合と比較して、認識率を低くして音声コマンドを受け付け、音声コマンドに対する機能を実行する。これにより、第四実施形態は、音声コマンドを発話する人物が音声コマンドを受け付ける言語として設定されている言語ではない言語を使用している人物であり、音声コマンドを適切に発話できる状態ではない状況であっても、音声コマンドに対する機能を適切に実行することができる。
以上、本発明の実施形態を説明したが、これら実施形態の内容により本発明が限定されるものではない。また、前述した構成要素には、当業者が容易に想定できるもの、実質的に同一のもの、いわゆる均等の範囲のものが含まれる。さらに、前述した構成要素は適宜組み合わせることが可能である。さらに、前述した実施形態の要旨を逸脱しない範囲で構成要素の種々の省略、置換又は変更を行うことができる。
1、1A 記録装置
10 カメラ
14 記録部
16 表示部
18、118 マイクロフォン
20 加速度センサ
22、122 操作部
24 GNSS受信部
26 制御部(記録制御装置)
30 映像データ取得部
32 バッファメモリ
34 映像データ処理部
36 記録制御部
38 再生制御部
40 表示制御部
42、142 検出部
44、144 音声コマンド受付部
46 イベント検出部
48、148 操作制御部
50 位置情報取得部
52、152 設定部
100、100A 音声コマンド受付装置
118 マイクロフォン
144 音声コマンド受付部
142 検出部
150 実行制御部

Claims (7)

  1. 音声コマンドを受け付ける音声コマンド受付部と、
    前記音声コマンドを発話する人物が使用する言語に関する情報を取得する検出部と、
    前記音声コマンド受付部が音声コマンドを受け付けた場合に、受け付けた音声コマンドに対する機能を実行させる実行制御部と、
    を備え、
    前記音声コマンド受付部は、前記人物が使用する言語が前記音声コマンドとして使用可能な言語であると判断した場合は、前記音声コマンド受付部が取得した音声コマンドの認識率が第一閾値以上で音声コマンドを受け付け、前記人物が使用する言語が前記音声コマンドとして使用可能な言語ではないと判断した場合は、前記音声コマンド受付部が取得した音声コマンドの認識率が、前記第一閾値より低い第二閾値以上で音声コマンドを受け付ける、
    音声コマンド受付装置。
  2. 前記音声コマンド受付部は、前記人物が使用する言語が前記音声コマンドとして登録されていることによって使用可能な言語であると判断した場合は、前記音声コマンド受付部が取得した音声コマンドの認識率が第一閾値以上で音声コマンドを受け付け、前記人物が使用する言語が前記音声コマンドとして登録されていることによって使用可能な言語でははないと判断した場合は、前記音声コマンド受付部が取得した音声コマンドの認識率が、前記第一閾値より低い第二閾値以上で音声コマンドを受け付ける、
    請求項1に記載の音声コマンド受付装置。
  3. 前記音声コマンド受付部が音声コマンドを受け付ける言語を設定する設定部をさらに備え、
    前記音声コマンド受付部は、前記人物が使用する言語が、前記設定部で前記音声コマンドを受け付ける言語として設定されていることによって使用可能な言語であると判断した場合は、前記音声コマンド受付部が取得した音声コマンドの認識率が第一閾値以上で音声コマンドを受け付け、前記人物が使用する言語が、前記設定部で前記音声コマンドを受け付ける言語として設定されていることによって使用可能な言語でははないと判断した場合は、前記音声コマンド受付部が取得した音声コマンドの認識率が、前記第一閾値より低い第二閾値以上で音声コマンドを受け付ける、
    請求項1に記載の音声コマンド受付装置。
  4. 前記検出部は、前記人物の発話に基づいて、前記人物が使用する言語に関する情報を取得する、
    請求項1から3のいずれか1項に記載の音声コマンド受付装置。
  5. 前記音声コマンド受付部は、緊急性または即時性の高い音声コマンドに対して、前記音声コマンド受付部が取得した音声コマンドの認識率が、前記第一閾値より低い第二閾値以上で音声コマンドを受け付ける、
    請求項1から3のいずれか1項に記載の音声コマンド受付装置。
  6. 前記音声コマンド受付装置は、車両において用いられる車両用記録制御装置であり、
    車両の周辺を撮影する第一撮影部が撮影した第一映像データを取得する映像データ取得部を備え、
    前記音声コマンド受付部は、音声コマンドによるイベント記録指示を受け付け、
    前記実行制御部は、前記音声コマンド受付部が音声コマンドによるイベント記録指示を受け付けた場合に、イベント記録指示を受け付けた時点を含む前記第一映像データをイベントデータとして保存する、
    請求項1から3のいずれか1項に記載の音声コマンド受付装置。
  7. 音声コマンドを発話する人物が使用する言語に関する情報を取得するステップと、
    前記人物が使用する言語が前記音声コマンドとして使用可能な言語であると判断した場合は、前記音声コマンドの認識率が第一閾値以上で音声コマンドを受け付け、前記人物が使用する言語が前記音声コマンドとして使用可能な言語ではないと判断した場合は、前記音声コマンドの認識率が、前記第一閾値より低い第二閾値以上で音声コマンドを受け付けるステップと、
    前記音声コマンドを受け付けた場合に、受け付けた音声コマンドに対する機能を実行させるステップと、
    を音声コマンド受付装置が実行する音声コマンド受付方法。
JP2023015969A 2022-08-03 2023-02-06 音声コマンド受付装置、および音声コマンド受付方法 Pending JP2024022448A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2023/021310 WO2024029192A1 (ja) 2022-08-03 2023-06-08 音声コマンド受付装置、および音声コマンド受付方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022123854 2022-08-03
JP2022123854 2022-08-03

Publications (1)

Publication Number Publication Date
JP2024022448A true JP2024022448A (ja) 2024-02-16

Family

ID=89855479

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023015969A Pending JP2024022448A (ja) 2022-08-03 2023-02-06 音声コマンド受付装置、および音声コマンド受付方法

Country Status (1)

Country Link
JP (1) JP2024022448A (ja)

Similar Documents

Publication Publication Date Title
US9704484B2 (en) Speech recognition method and speech recognition device
CN112397065A (zh) 语音交互方法、装置、计算机可读存储介质及电子设备
CN110402584B (zh) 车内通话控制装置、车内通话系统以及车内通话控制方法
JP6459330B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP2004354930A (ja) 音声認識システム
JPH1152976A (ja) 音声認識装置
CN110996163A (zh) 用于自动字幕显示的系统和方法
JP2018116130A (ja) 車内音声処理装置および車内音声処理方法
WO2024029192A1 (ja) 音声コマンド受付装置、および音声コマンド受付方法
WO2007145331A1 (ja) カメラ制御装置、カメラ制御方法、カメラ制御プログラムおよび記録媒体
JP2024022448A (ja) 音声コマンド受付装置、および音声コマンド受付方法
JP2019018729A (ja) 車載システム
JP4478146B2 (ja) 音声認識システム、音声認識方法およびそのプログラム
JPH11352987A (ja) 音声認識装置
JP2001296891A (ja) 音声認識方法および装置
JP2004301875A (ja) 音声認識装置
JP2024030853A (ja) 音声コマンド受付装置、および音声コマンド受付方法
JP2024030925A (ja) 音声コマンド受付装置、音声コマンド受付方法およびプログラム
JP2023094516A (ja) 音声コマンド受付装置、音声コマンド受付方法およびプログラム
WO2024029187A1 (ja) 音声コマンド受付装置、および音声コマンド受付方法
WO2022137534A1 (ja) 車載用音声認識装置及び車載用音声認識方法
JP6332072B2 (ja) 対話装置
WO2023074162A1 (ja) 車両用記録制御装置および記録制御方法
WO2023119771A1 (ja) 音声コマンド受付装置、音声コマンド受付方法およびプログラム
JP2024030926A (ja) 音声コマンド受付装置、および音声コマンド受付方法