JP2017090613A - Voice recognition control system - Google Patents
Voice recognition control system Download PDFInfo
- Publication number
- JP2017090613A JP2017090613A JP2015219114A JP2015219114A JP2017090613A JP 2017090613 A JP2017090613 A JP 2017090613A JP 2015219114 A JP2015219114 A JP 2015219114A JP 2015219114 A JP2015219114 A JP 2015219114A JP 2017090613 A JP2017090613 A JP 2017090613A
- Authority
- JP
- Japan
- Prior art keywords
- guide
- voice
- gesture
- voice recognition
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
- Position Input By Displaying (AREA)
- User Interface Of Digital Computer (AREA)
- Image Analysis (AREA)
Abstract
Description
本発明は、車両乗員の音声で車載装置を制御する音声認識制御システムに関する。 The present invention relates to a voice recognition control system for controlling an in-vehicle device with a voice of a vehicle occupant.
従来、車両に搭載される各種車載装置の操作方法を音声で案内するガイダンスシステムが開発されている。すなわち、各種車載装置の操作に不慣れな乗員に対して、具体的な使い方を説明するガイド情報を音声で提供するものである。例えば、車両用ドアの開閉操作時に、自動施解錠装置の操作方法に関する音声ガイドを出力する技術が知られている(特許文献1参照)。これにより、乗員はユーザーマニュアルを確認する手間が省けるだけでなく、操作の習熟度を手軽に高めることができ、各種車載装置の利便性を向上させることができる。 2. Description of the Related Art Conventionally, guidance systems have been developed that provide voice guidance for operating various on-vehicle devices mounted on a vehicle. That is, the guide information explaining specific usage is provided by voice to passengers unfamiliar with the operation of various in-vehicle devices. For example, a technique for outputting a voice guide related to an operation method of an automatic locking / unlocking device at the time of opening / closing a vehicle door is known (see Patent Document 1). As a result, the occupant can not only save time and effort to check the user manual, but also can easily increase the proficiency level of operation and improve the convenience of various in-vehicle devices.
一方、近年の車載装置は、利便性や快適性,自然環境への適合性に対するニーズに応えるべく多機能化されており、新たに追加された機能の存在すら乗員に知られていない場合がある。このような未知の機能に関するガイド情報は、既存のガイダンスシステムでは提供することが難しく、乗員がそのようなガイド情報を引き出すことも困難であった。 On the other hand, in-vehicle devices in recent years have been multi-functionalized to meet the needs for convenience, comfort, and adaptability to the natural environment, and even the presence of newly added functions may not be known to passengers. . Such guide information relating to unknown functions is difficult to provide with existing guidance systems, and it has also been difficult for passengers to extract such guide information.
本件の目的の一つは、上記のような課題に鑑みて創案されたものであり、乗員にとって未知の機能に関するガイド情報を容易に提供することができ、利便性を高めることのできる音声認識制御システムを提供することである。なおこの目的に限らず、後述する「発明を実施するための形態」に示す各構成から導き出される作用効果であって、従来の技術では得られない作用効果を奏することも、本件の他の目的として位置付けることができる。 One of the purposes of this case was created in view of the above problems, and can easily provide guide information regarding functions unknown to the occupant, and can improve the convenience of voice recognition control. Is to provide a system. It is not limited to this purpose, and is an operational effect derived from each configuration shown in “Mode for Carrying Out the Invention” to be described later. Can be positioned as
(1)ここで開示する音声認識制御システムは、車両乗員の音声を入力信号として車載装置を制御する音声認識制御システムである。本システムは、少なくとも前記音声に基づき、発話者及び発話内容を認識する音声認識部を備える。また、室内カメラで撮影された車室内の画像に基づき、発話の対象を表す前記発話者のジェスチャを検出するジェスチャ検出部を備える。さらに、前記音声認識部で認識された前記発話内容が所定の音声コマンドを含む場合に、前記ジェスチャが表す前記対象の使い方を案内するための音声ガイド又は映像ガイドを出力するガイド部を備える。
なお、前記発話内容が前記所定の音声コマンドを含まない場合には、前記ガイド部が前記発話内容に応じて前記対象の作動状態を制御することが好ましい。
(1) The voice recognition control system disclosed here is a voice recognition control system that controls an in-vehicle device using a voice of a vehicle occupant as an input signal. The system includes a speech recognition unit that recognizes a speaker and utterance contents based on at least the speech. In addition, a gesture detection unit is provided for detecting the gesture of the speaker representing the utterance target based on the vehicle interior image captured by the indoor camera. In addition, when the utterance content recognized by the voice recognition unit includes a predetermined voice command, a guide unit that outputs a voice guide or a video guide for guiding how to use the object represented by the gesture is provided.
In addition, when the said utterance content does not contain the said predetermined | prescribed voice command, it is preferable that the said guide part controls the operating state of the said object according to the said utterance content.
(2)前記ジェスチャが、前記対象に向けて指をさす仕草であることが好ましい。
(3)前記ガイド部が、前記発話者に応じて前記音声ガイド又は前記映像ガイドの情報量を変更することが好ましい。
例えば、前記発話者が運転手である場合には前記情報量を増加させ、専門的な案内を実施することが好ましい。一方、前記発話者が運転手以外の乗員である場合には前記情報量を減少させ、基礎的な案内を実施することが好ましい。
(2) It is preferable that the gesture is a gesture of pointing a finger toward the target.
(3) It is preferable that the guide unit changes an information amount of the voice guide or the video guide according to the speaker.
For example, when the speaker is a driver, it is preferable to increase the amount of information and provide specialized guidance. On the other hand, when the speaker is an occupant other than the driver, it is preferable to reduce the amount of information and perform basic guidance.
(4)前記ガイド部が、前記発話者の累積搭乗時間に応じて前記情報量を変更することが好ましい。
(5)前記ガイド部は、前記発話者が運転手又は助手であることを条件として、前記音声ガイド又は前記映像ガイドを出力することが好ましい。
(6)車速を検出する車速検出部をさらに備えることが好ましい。この場合、前記ガイド部は、前記車速検出部で検出された前記車速が所定車速以下であることを条件として、前記音声ガイド又は前記映像ガイドを出力することが好ましい。
(4) It is preferable that the guide unit changes the information amount according to the accumulated boarding time of the speaker.
(5) It is preferable that the guide unit outputs the voice guide or the video guide on the condition that the speaker is a driver or an assistant.
(6) It is preferable to further include a vehicle speed detector that detects the vehicle speed. In this case, it is preferable that the guide unit outputs the audio guide or the video guide on condition that the vehicle speed detected by the vehicle speed detection unit is equal to or lower than a predetermined vehicle speed.
音声入力とジェスチャ入力とを組み合わせて音声ガイドや映像ガイドを出力させることで、車載装置の使い方を乗員に対して知らせることができ、特に乗員にとって未知の機能に関するガイド情報を容易に提供することができる。また、乗員は発話の対象を表すジェスチャをしながら所定の音声コマンドを発するだけで、その対象の操作方法や機能に関する音声ガイドや映像ガイドを引き出すことができる。したがって、車載装置の利便性を高めることができる。 By combining voice input and gesture input to output a voice guide or video guide, it is possible to inform the occupant how to use the in-vehicle device, and in particular, it is possible to easily provide guide information regarding functions unknown to the occupant. it can. Further, the occupant can draw out a voice guide and a video guide related to the operation method and function of the target simply by issuing a predetermined voice command while making a gesture representing the target of the utterance. Therefore, the convenience of the in-vehicle device can be improved.
図面を参照して、実施形態としての音声認識制御システムについて説明する。なお、以下に示す実施形態はあくまでも例示に過ぎず、以下の実施形態で明示しない種々の変形や技術の適用を排除する意図はない。本実施形態の各構成は、それらの趣旨を逸脱しない範囲で種々変形して実施することができる。また、必要に応じて取捨選択することができ、あるいは適宜組み合わせることができる。 A speech recognition control system as an embodiment will be described with reference to the drawings. Note that the embodiment described below is merely an example, and there is no intention to exclude various modifications and technical applications that are not explicitly described in the following embodiment. Each configuration of the present embodiment can be implemented with various modifications without departing from the spirit thereof. Further, they can be selected as necessary, or can be appropriately combined.
[1.装置構成]
本実施形態の音声認識制御システムは、図1に示す車両10に適用される。車両10の車室内には運転席14,助手席15が設けられ、車室前方側にはインパネ(インストルメントパネル,ダッシュボード)が配置される。インパネの車室側に面した部分のうち、運転席14の前方にはステアリング装置や計器類が配置され、助手席15の前方にはグローブボックスが配置される。また、インパネの車幅方向中央には、カーナビ機能やオーディオビジュアル機能などのユーザーインターフェースを集約して提供するマルチコミュニケーション型のディスプレイ装置16とボタン式のスイッチ類17とが設けられる。ディスプレイ装置16及びスイッチ類17の位置は、運転席14に座る運転手の視点では左斜め前方であり、助手席15に座る乗員(助手)の視点では右斜め前方である。
[1. Device configuration]
The voice recognition control system of this embodiment is applied to the
ディスプレイ装置16は、タッチパネルを備えた汎用の映像表示装置(表示画面)とスピーカ(音響装置)とCPU(Central Processing Unit),ROM(Read Only Memory),RAM(Random Access Memory)などを含む電子制御装置(コンピューター)とを備えた電子デバイスである。ディスプレイ装置16は、ナビゲーション装置11,エアコン装置12,カーオーディオ装置13,マルチメディアシステムなどの車載装置に接続されて、各種車載装置の入出力装置として機能しうる。例えば、ナビゲーション装置11から提供される目的地までの経路情報や地図情報,渋滞情報などは、このディスプレイ装置16の表示画面に表示可能とされ、音声案内も出力可能とされる。また、このディスプレイ装置16の表示画面には、車載の地上デジタル放送チューナーで受信した番組や、情報記録メディアの映像コンテンツ,リアビューカメラで撮影された映像,エアコン装置12やカーオーディオ装置13の操作用インターフェースといった、多様な視聴覚情報が再生,表示可能である。
The
スイッチ類17は、LED(Light Emitting Diode)や有機EL(Organic Electro-Luminescence)などの発光素子を内蔵したキー(ボタン)が複数個並べられたものであり、ナビゲーション装置11,エアコン装置12,カーオーディオ装置13,マルチメディアシステムなどの車載装置に接続されて、各種車載装置の入力装置として機能しうる。個々のボタンには、各種車載装置の機能の一つを任意に設定可能とされる。例えば、車両10の乗員がカーオーディオ装置13を頻繁に利用する場合には、スイッチ類17のボタンの一つに選曲機能やスピーカボリューム調節機能を付与することが可能である。また、ナビゲーション装置11を頻用する場合には、ナビゲーション装置11の起動機能を付与することも可能である。
The
また、車両10には、乗員の音声を入力信号として各種車載装置を制御する音声認識制御装置1が搭載される。音声認識制御装置1は、CPU,MPU(Micro Processing Unit)などのプロセッサとROM,RAM,不揮発メモリなどを集積した電子デバイス(ECU,電子制御装置)である。ここでいうプロセッサとは、例えば制御ユニット(制御回路)や演算ユニット(演算回路),キャッシュメモリ(レジスタ)などを内蔵する処理装置(プロセッサ)である。また、ROM,RAM及び不揮発メモリは、プログラムや作業中のデータが格納されるメモリ装置である。音声認識制御装置1で実施される制御の内容は、ファームウェアやアプリケーションプログラムとしてROM,RAM,不揮発メモリ,リムーバブルメディア内に記録される。また、プログラムの実行時には、プログラムの内容がRAM内のメモリ空間内に展開され、プロセッサによって実行される。
In addition, the
図2に示すように、音声認識制御装置1の入力装置としては、マイクアレイ21,室内カメラ22,車速センサ23などが挙げられる。マイクアレイ21は、複数のマイクロフォンを所定の配列に並べた音声入力装置であり、室内カメラ22は車室内全体を撮影可能な広角ビデオカメラである。マイクアレイ21,室内カメラ22は、例えば車幅方向中央部の天井面に内蔵される。車速センサ23は、車輪の回転速度に応じたパルス信号を出力するセンサである。一方、音声認識制御装置1の出力装置としては、ナビゲーション装置11,エアコン装置12,カーオーディオ装置13,ディスプレイ装置16,スイッチ類17などが挙げられる。音声認識制御装置1は、マイクアレイ21から入力された音声と室内カメラ22で撮影された画像と車速センサ23で検出されたパルス情報とに基づいて、各種車載装置を制御する。
As shown in FIG. 2, examples of the input device of the voice
[2.制御構成]
音声認識制御装置1は、乗員の音声と車室内の画像とに基づいて、各種車載装置の使い方を案内するための音声ガイドや映像ガイドを出力する機能(いわゆる『使い方ガイド機能』)を持つ。例えば、マイクアレイ21から何らかの音声が入力されると、まずその音声を発した発話者が認識されるとともに、発話内容が認識される。また、室内カメラ22で撮影された画像に基づき、発話と同時に発話者によってなされたジェスチャが検出され、そのジェスチャが表す対象(ジェスチャによって指定される対象物)が検出される。そして、発話内容が「ガイドの要求」である場合には、ジェスチャが表す対象についての使い方を案内するための音声ガイドや映像ガイドが乗員に提供される。一方、発話内容が「制御の指令」である場合には、その発話内容に応じて、ジェスチャが表す対象に対する制御が実施される。
[2. Control configuration]
The voice
乗員に提供される音声ガイドの具体例を以下に例示する。
・『このボタンは、カーナビの起動ボタンです』
・『このスイッチは、エコモードの選択スイッチです』
・『このレバーは、ステアリングヒーターの起動レバーです』
・『このディスプレイには、カーナビ・オーディオ・エアコンシステムのメニュー画面が表示されます』
また、乗員に提供される映像ガイドの具体例としては、音声ガイドの内容を文字で表示することや、車両10のユーザーマニュアルに記載されているような図解ガイドを再生,表示することなどが挙げられる。
Specific examples of voice guides provided to passengers are shown below.
・ "This button is a car navigation start button"
・ "This switch is an eco-mode selection switch"
・ "This lever is a steering heater start lever"
・ "The menu screen of the car navigation system, audio system, and air conditioner system is displayed on this display"
In addition, specific examples of the video guide provided to the occupant include displaying the contents of the audio guide in characters and playing and displaying an illustrated guide as described in the user manual of the
上記のような制御を実施するための要素として、音声認識制御装置1には、車速検出部2,音声認識部3,ジェスチャ検出部4,データベース5,人物特定部6,ガイド部7が設けられる。これらは、音声認識制御装置1で実行されるプログラムの一部の機能を示すものであり、ソフトウェアで実現されるものとする。ただし、各機能の一部又は全部をハードウェア(電子制御回路)で実現してもよく、あるいはソフトウェアとハードウェアとを併用して実現してもよい。
As an element for carrying out the control as described above, the voice
データベース5は、音声認識に関する総合的な各種データが記録,保存されたストレージ装置である。ここには、音声認識で用いられる音響モデルや言語モデルが記録,保存される。音響モデル及び言語モデルは、標準話者の音声に基づいて予め作成されたものである。なお、具体的な音響モデル,言語モデルの構成については、公知の技術(例えば、特開2002-189492号など)を参照して採用することができる。
車速検出部2は、車速センサ23が出力するパルス信号に基づき、車速を取得(検出,算出)するものである。ここで取得された車速の情報は、ガイド部7に伝達される。
The database 5 is a storage device in which various general data relating to speech recognition are recorded and stored. Here, acoustic models and language models used in speech recognition are recorded and stored. The acoustic model and the language model are created in advance based on the voice of the standard speaker. In addition, about the structure of a specific acoustic model and a language model, it can employ | adopt with reference to a well-known technique (for example, Unexamined-Japanese-Patent No. 2002-189492 etc.).
The vehicle
音声認識部3は、少なくともマイクアレイ21から入力された音声に基づき、発話者(発話位置)及び発話内容を認識するものである。ここでは、発話者が運転席14に着座している人物(運転手)であるのか、助手席15に着座している人物(助手)であるのか、それともこれら以外の乗員(後部座席の乗員)であるのかが判断される。発話者の位置は、マイクアレイ21で検知された複数の音声信号の大きさや遅れに基づいて特定可能である。あるいは、室内カメラ22で撮影された画像を解析し、画像中に存在する人物の口唇の動きと音声が検出されたタイミングとを比較することでも、発話者の位置を特定可能である。
The
発話内容は「ガイドの要求」,「制御の指令」,「その他」の三種類のいずれかに分類されて認識される。例えば、発話内容が『これはなに?』『なんだっけ?』『説明して?』といった音声コマンドを含む場合には、その発話内容が「ガイドの要求」であると判断される。一方、発話内容が『オン』『オフ』『作動』『停止』といった音声コマンドを含む場合には、その発話内容が「制御の指令」であると判断される。また、発話内容が上記のいずれの音声コマンドを含まない場合には、その発話内容が「その他」に該当するものと判断される。音声認識の具体的な手法は任意であり、公知の音声認識技術を採用することができる。例えば、音響モデルに基づいて音声に含まれる音素が解析された後に、言語モデルに基づいて音素の連なりからなる語や句が解析され、その意味内容が認識される。ここで認識された発話者及び発話内容の情報は、ジェスチャ検出部4及びガイド部7に伝達される。
The utterance content is classified and recognized as one of three types: “Guide request”, “Control command”, and “Other”. For example, if the utterance is “What is this? ""What was that? ""Explain? ”Is determined to be“ Guide Request ”. On the other hand, if the utterance content includes voice commands such as “on”, “off”, “activate”, and “stop”, it is determined that the utterance content is a “control command”. If the utterance content does not include any of the above voice commands, it is determined that the utterance content corresponds to “other”. A specific method of speech recognition is arbitrary, and a known speech recognition technique can be employed. For example, after a phoneme included in speech is analyzed based on an acoustic model, a word or phrase consisting of a series of phonemes is analyzed based on a language model, and its semantic content is recognized. The information of the speaker and the content of the utterance recognized here is transmitted to the
ジェスチャ検出部4は、室内カメラ22で撮影された画像に基づき、発話位置に存在する人物(すなわち発話者)によるジェスチャを検出するものである。ここでは、発話者のジェスチャとして、発話の対象を表すジェスチャが検出される。ジェスチャの具体例としては、対象に指をさす仕草や対象を見つめる仕草(視線を向ける仕草)などが挙げられる。このジェスチャによって表される「発話の対象」には、車両10に搭載された各種車載装置やその操作ボタン,スイッチ類17,インストルメントパネル上に表示されるインジケーター,ディスプレイ装置16上に表示されるアイコンなどが含まれる。
The
対象物は、音声認識部3で認識された発話者の位置から、ジェスチャによって示された方向に向かって仮想線を伸ばした先に配置されているものを推定することによって検出可能である。ジェスチャとして指さしの仕草を検出する場合、画像解析により手の位置を推定し、車室内における発話者の手の位置を基準として、指の方向に仮想線を伸ばすことで、対象を精度よく検出することができる。一方、ジェスチャとして視線を検出する場合、画像解析により顔の位置や向きを推定し、車室内における発話者の顔の位置を基準として、視線方向に仮想線を伸ばすことで、対象を精度よく検出することができる。ここで検出された対象の情報は、ガイド部7に伝達される。
The object can be detected by estimating from the position of the speaker recognized by the
人物特定部6は、少なくともマイクアレイ21から入力された音声に基づき、その音声を発した人物を特定するものである。ここでは、発話した人物が誰であるのかが検出されるとともに、その人物が車両10に搭乗したのべ時間(累積搭乗時間)が計測される。人物の特定手法としては、音声が検出された時点でリアルタイムに特定する手法と、車両10に誰かが乗車したときにその人物と着座位置との関係を把握しておき、検出された音声の音源位置に基づいて人物を特定する手法とが挙げられる。
The
前者の場合、音声中に含まれる波形パターンや周波数パターン,声紋パターンなどに基づいて人物を特定することが可能である。あるいは、室内カメラ22で撮影された画像中から人間の顔を抽出し、口唇の動きと音声のタイミングとが一致する人物を特定することも可能である。後者の場合、室内カメラ22で撮影された画像を解析(例えば、顔認証)することで人物を特定してもよいし、その人物に何らかの音声を発してもらい、前者と同様の手法を用いてその人物を特定してもよい。ここで特定された人物の情報は、ガイド部7に伝達される。
In the former case, it is possible to specify a person based on a waveform pattern, a frequency pattern, a voiceprint pattern, etc. included in the voice. Alternatively, it is also possible to extract a human face from an image photographed by the
ガイド部7は、音声認識部3で認識された発話者及び発話内容と、ジェスチャ検出部4で検出されたジェスチャとに基づき、各種車載装置を制御するものである。ガイド部7はおもに二つの機能を持つ。
第一の機能は、ジェスチャによって特定される対象を音声で制御する機能(ハンズフリー制御機能)である。ガイド部7は、音声認識部3で認識された発話内容が「ガイドの要求」を意味する音声コマンドを含まず、かつ「制御の指令」を意味する音声コマンドを含む場合に、対象の作動状態を制御する。なお、発話内容に「ガイドの要求」を意味する音声コマンドや「制御の指令」を意味する音声コマンドが含まれない場合には、対象が制御されることなく、音声コマンドがキャンセル(取り消し)される。
The
The first function is a function (hands-free control function) for controlling an object specified by a gesture by voice. When the utterance content recognized by the
第二の機能は、ジェスチャによって特定される対象の使い方を案内するための音声ガイドや映像ガイドをディスプレイ装置16に出力する機能(ガイド機能)である。ガイド部7は、音声認識部3で認識された発話内容が「ガイドの要求」を意味する音声コマンドを含む場合に、対象に関する音声ガイドや映像ガイドを乗員に提供する。
本実施形態のガイド部7は、発話者が運転手又は助手であることと、車速検出部2で検出された車速が所定車速以下(例えば、10km/h以下)であることとを条件として、ガイド機能を発動する。つまり、ガイド機能は、運転手又は助手による「ガイドの要求」がジェスチャとともに認識された場合に実行可能とする。これにより、後部座席の乗員による不必要なガイダンスが防止される。また、ガイド機能は車両10の停止中に実行可能とする。これにより、車両10の走行中に運転手の意図しないタイミングでガイド機能が発動することが防止される。
The second function is a function (guide function) for outputting a voice guide or a video guide for guiding how to use the object specified by the gesture to the
The
ガイド部7によって提供される案内レベル(案内の量や質)は、発話者に応じて変更される。すなわち、本実施形態のガイド部7は、発話者に応じて音声ガイドや前記映像ガイドの情報量を変更する機能を持つ。例えば、対象がナビゲーション装置11の起動ボタンであって発話者が助手である場合、『このボタンは、カーナビの起動ボタンです』といった風に、対象の名称や初歩的,基本的な使い方の情報を提供する。一方、発話者が運転手である場合には、『このボタンは、カーナビの起動ボタンです。長押しするとカーナビを再起動します』といった風に、助手に対する情報よりも専門的で高度な使い方の情報を提供する。
The guidance level (amount and quality of guidance) provided by the
また、本実施形態のガイド部7は、発話者の累積搭乗時間に応じて、案内レベルを変更する機能を持つ。例えば、発話者である運転手の累積搭乗時間が比較的短く、車両10の運転経験が浅い場合には、『このボタンは、カーナビの起動ボタンです。長押しするとカーナビを再起動します』といった丁寧なガイドを提供する。一方、運転手の累積搭乗時間が比較的長く、各種車載装置の操作に熟練していると考えられる場合には、『長押しでリセット』といった風に、初歩的,基本的な使い方の情報を省略し、高度な使い方の情報を提供する。
Moreover, the
[3.フローチャート]
図3は、音声認識制御装置1で実施される制御内容を説明するためのフローチャート例である。まず、マイクアレイ21で検出された音声情報,室内カメラ22で撮影された画像情報,車速センサ23からのパルス情報が音声認識制御装置1に入力され(ステップA1)、音声が入力されたか否かが判定される(ステップA2)。ここで、何らかの音声が入力されていると、音声認識部3において、少なくともその音声に基づき、発話者と発話内容とが認識される(ステップA3)。また、ジェスチャ検出部4では、室内カメラ22で撮影された画像に基づき、発話者のジェスチャが検出される(ステップA4)。同様に、人物特定部6では、入力された音声や画像に基づき、発話した人物が特定される(ステップA5)。
[3. flowchart]
FIG. 3 is an example of a flowchart for explaining the control contents executed by the speech
ガイド部7では、発話者が運転手,助手のどちらかであるか否かが判定され(ステップA6)、車速検出部2で検出された車速が所定車速以下であるか否かが判定される(ステップA7)。また、音声認識部3で認識された発話内容が「ガイドの要求」を意味する音声コマンドを含むか否かが判定される(ステップA8)。これらの全ての条件が成立すると、ガイド部7において、発話者の着座位置や累積搭乗時間に応じた案内レベルが設定され(ステップA9)、ジェスチャによって特定された対象の使い方を案内するための音声ガイド,映像ガイドがディスプレイ装置16に出力される(ステップA10)。
In the
一方、ステップA6,A7,A8で判定される各条件の何れかが不成立であれば、音声認識部3で認識された発話内容が「制御の指令」を意味する音声コマンドを含むか否かが判定される(ステップA11)。この条件が成立すると、ジェスチャ対象の作動状態が制御される。また、この条件が不成立ならば、対象が制御されることなく、音声コマンドがキャンセル(取り消し)される。
On the other hand, if any of the conditions determined in steps A6, A7, and A8 is not satisfied, whether or not the utterance content recognized by the
[4.作用,効果]
図4に示すように、運転手が車両停止中にスイッチ類17の一つを指さしつつ、『これなんだっけ?』と発話すると、音声認識制御装置1は発話者(発話位置)及び発話内容を認識するとともに発話した人物を特定する。また、運転手の仕草から、指をさされた一個のスイッチを発話の対象として認識する。
運転手が発した『これなんだっけ?』との音声コマンドは「ガイドの要求」を意味するものであることから、音声認識制御装置1はそのスイッチの使い方を案内するための音声ガイドや映像ガイドをディスプレイ装置16に出力する。このとき、案内レベルは運転手の累積搭乗時間に応じたものとされる。これにより、スイッチ類17の使い方に関する運転手の習熟度に見合った情報が提供されることになり、利便性が向上する。
[4. Action, effect]
As shown in FIG. 4, while the driver points to one of the
"What was this?" ] Means a “guide request”, and the voice
(1)このように、音声入力とジェスチャ入力とを組み合わせて、ジェスチャ対象の使い方を案内するための音声ガイドや映像ガイドを出力させることで、車載装置やその操作ボタンの使い方を乗員に対して知らせることができる。また、実際にその車載装置を作動させる必要がなく、乗員にとって未知の機能に関するガイド情報を容易に提供することができる。さらに、乗員は発話の対象を表すジェスチャをしながら所定の音声コマンドを発するだけで、その対象の操作方法や機能に関する音声ガイドや映像ガイドを手軽に引き出すことができる。したがって、車両,車載装置の利便性を高めることができる。 (1) In this way, by combining voice input and gesture input and outputting a voice guide and video guide for guiding how to use the gesture target, the usage of the in-vehicle device and its operation buttons can be given to the occupant. I can inform you. Further, it is not necessary to actually operate the in-vehicle device, and guide information regarding functions unknown to the occupant can be easily provided. Furthermore, the occupant can easily draw out a voice guide and a video guide related to the operation method and function of the target simply by issuing a predetermined voice command while making a gesture representing the target of the utterance. Therefore, the convenience of the vehicle and the in-vehicle device can be improved.
(2)また、対象に指をさす仕草をガイド開始のトリガーとすることで、車載装置の使い方を乗員に対して容易に教示することができ、利便性を高めることができる。また、視線や顔の向きといったジェスチャを用いる場合と比較して、発話の対象が特定しやすいことから、ガイドの誤作動やジェスチャの誤検出を発生しにくくすることができる。したがって、車両,車載装置の利便性を高めることができる。 (2) Moreover, by using the gesture of pointing a finger at the object as a trigger for starting the guide, it is possible to easily teach the occupant how to use the in-vehicle device, and the convenience can be improved. In addition, compared to the case of using a gesture such as a line of sight or a face direction, it is easier to specify the utterance target, so that it is possible to make it difficult for the guide to malfunction or to detect a gesture erroneously. Therefore, the convenience of the vehicle and the in-vehicle device can be improved.
(3)上記の音声認識制御装置1では、発話者に応じてガイドの情報量が変更される。例えば、発話者が運転手である場合には情報量を増加させ、専門的な案内が実施される。一方、発話者が運転手以外の乗員(助手)である場合には情報量を減少させ、基礎的な案内が実施される。このように、発話者(発話位置)に応じて情報量を増減させることで、乗員のニーズに見合ったガイド機能を提供することができる。
(3) In the voice
(4)上記の音声認識制御装置1では、発話者の累積搭乗時間に応じてガイドの情報量が変更される。例えば、車両10の運転経験が浅い運転手に対しては基礎的な案内と専門的な案内とがともに実施される。一方、車両10の運転に熟練した運転手に対しては、専門的な案内のみが実施される。これにより、発話者の熟練度や知識量に見合ったガイド機能を提供することができる。
(4) In the voice
(5)上記のガイド機能は、発話者が運転手又は助手であることを条件として実施される。これにより、後部座席に搭乗する人物によるガイド機能の発動を禁止することができ、音声コマンドの誤認識やジェスチャの誤検出を防止することができる。
(6)また、上記のガイド機能は、車速が所定車速以下であることを条件として実施される。これにより、車両10が中高速で走行している状態ではガイド機能の発動に制限をかけることができ、音声コマンドの誤認識やジェスチャの誤検出をより確実に防止することができる。
(5) The above guide function is implemented on condition that the speaker is a driver or an assistant. As a result, it is possible to prohibit the guide function from being activated by a person on the rear seat, and to prevent erroneous recognition of voice commands and erroneous detection of gestures.
(6) Moreover, said guide function is implemented on condition that a vehicle speed is below a predetermined vehicle speed. Thereby, in the state where the
[5.変形例]
上述の実施形態では、対象に指をさす仕草が発話の対象を表すジェスチャである場合について詳述したが、具体的なジェスチャの種類はこれに限定されない。例えば、乗員が対象に視線を向けながら『これなんだっけ?』と発声したときに、その対象に関するガイド情報を提供するような制御構成としてもよい。
また、上述の実施形態では、スイッチ類17の一つを対象とした場合のガイドについて詳述したが、音声ガイドや映像ガイドの提供と同時に、対象スイッチに内蔵された発光素子を点滅させてもよい。ガイド中の対象を目立たせることで、発話者以外の乗員に対しても、ガイドの内容がどの対象に関するものであるのかを明示することができ、利便性をさらに高めることができる。
[5. Modified example]
In the above-described embodiment, the case where the gesture of pointing the finger at the object is a gesture representing the utterance target has been described in detail, but the specific type of gesture is not limited to this. For example, an occupant turned his gaze toward the subject, saying, “What ’s this? The control configuration may be such that guide information relating to the target is provided when “
In the above-described embodiment, the guide for one of the
また、上述の実施形態では、音声の認識から制御対象の制御までに至るすべての過程が音声認識制御装置1で統括管理されているが、音声認識制御装置1の機能の一部又は全部を車両10の外部に移設することも考えられる。例えば、音声認識制御装置1をインターネット,携帯電話機の無線通信網,その他のデジタル無線通信網などのネットワークに接続可能とし、ネットワーク上のサーバに音声認識制御装置1の機能の一部又は全部を実装してもよい。これにより、データベース5の管理や更新が容易となり、音声認識精度やジェスチャ認識精度を向上させることができる。
Further, in the above-described embodiment, all processes from speech recognition to control of the control target are managed in an integrated manner by the speech
1 音声認識制御装置
2 車速検出部
3 音声認識部
4 ジェスチャ検出部
5 データベース
6 人物特定部
7 ガイド部
10 車両
11 ナビゲーション装置
12 エアコン装置
13 カーオーディオ装置
14 運転席
15 助手席
16 ディスプレイ装置
17 スイッチ類
21 マイクアレイ
22 室内カメラ
23 車速センサ
DESCRIPTION OF
Claims (6)
少なくとも前記音声に基づき、発話者及び発話内容を認識する音声認識部と、
室内カメラで撮影された車室内の画像に基づき、発話の対象を表す前記発話者のジェスチャを検出するジェスチャ検出部と、
前記音声認識部で認識された前記発話内容が所定の音声コマンドを含む場合に、前記ジェスチャが表す前記対象の使い方を案内するための音声ガイド又は映像ガイドを出力するガイド部と、
を備えたことを特徴とする、音声認識制御システム。 In a voice recognition control system that controls an in-vehicle device using the voice of a vehicle occupant as an input signal,
A voice recognition unit for recognizing a speaker and utterance content based on at least the voice;
A gesture detection unit that detects a gesture of the speaker representing an utterance target based on an image of a passenger compartment captured by an indoor camera;
When the utterance content recognized by the voice recognition unit includes a predetermined voice command, a guide unit that outputs a voice guide or a video guide for guiding how to use the target represented by the gesture;
A voice recognition control system comprising:
ことを特徴とする、請求項1記載の音声認識制御システム。 The voice recognition control system according to claim 1, wherein the gesture is a gesture of pointing a finger toward the object.
ことを特徴とする、請求項1又は2記載の音声認識制御システム。 The voice recognition control system according to claim 1, wherein the guide unit changes an information amount of the voice guide or the video guide according to the speaker.
ことを特徴とする、請求項3記載の音声認識制御システム。 The voice recognition control system according to claim 3, wherein the guide unit changes the information amount according to the accumulated boarding time of the speaker.
ことを特徴とする、請求項1〜4の何れか1項に記載の音声認識制御システム。 The audio according to any one of claims 1 to 4, wherein the guide unit outputs the audio guide or the video guide on condition that the speaker is a driver or an assistant. Recognition control system.
前記ガイド部は、前記車速検出部で検出された前記車速が所定車速以下であることを条件として、前記音声ガイド又は前記映像ガイドを出力する
ことを特徴とする、請求項1〜5の何れか1項に記載の音声認識制御システム。 A vehicle speed detector for detecting the vehicle speed;
The said guide part outputs the said audio | voice guide or the said image | video guide on condition that the said vehicle speed detected by the said vehicle speed detection part is below a predetermined vehicle speed, The one of Claims 1-5 characterized by the above-mentioned. The speech recognition control system according to item 1.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015219114A JP2017090613A (en) | 2015-11-09 | 2015-11-09 | Voice recognition control system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015219114A JP2017090613A (en) | 2015-11-09 | 2015-11-09 | Voice recognition control system |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2017090613A true JP2017090613A (en) | 2017-05-25 |
Family
ID=58771635
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015219114A Pending JP2017090613A (en) | 2015-11-09 | 2015-11-09 | Voice recognition control system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2017090613A (en) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019133634A (en) * | 2018-02-01 | 2019-08-08 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | Smart device function guiding method and system |
JP2019209808A (en) * | 2018-06-04 | 2019-12-12 | マツダ株式会社 | Air conditioner for vehicle |
CN111511599A (en) * | 2017-12-13 | 2020-08-07 | 戴姆勒股份公司 | Method for operating an auxiliary system and auxiliary system for a motor vehicle |
JP2020144209A (en) * | 2019-03-06 | 2020-09-10 | シャープ株式会社 | Speech processing unit, conference system and speech processing method |
JP2021041800A (en) * | 2019-09-10 | 2021-03-18 | 株式会社Subaru | Vehicular control device |
JP2021184282A (en) * | 2017-07-26 | 2021-12-02 | 日本電気株式会社 | Voice operation device and method for controlling the same |
JP2022087109A (en) * | 2020-10-07 | 2022-06-09 | グーグル エルエルシー | Multi-factor authentication and access control in vehicular environment |
US11393469B2 (en) | 2018-12-19 | 2022-07-19 | Toyota Jidosha Kabushiki Kaisha | Vehicle-mounted device operation system |
US20230052913A1 (en) | 2017-10-03 | 2023-02-16 | Google Llc | Multi-factor authentication and access control in a vehicular environment |
KR20230082758A (en) * | 2021-12-02 | 2023-06-09 | 한국과학기술원 | METHOD AND DEVICE FOR Task-oriented Sounding Guide with Object Detection to Guide Visually Impaired People During Smart Device Usage |
WO2023119771A1 (en) * | 2021-12-23 | 2023-06-29 | 株式会社Jvcケンウッド | Voice command acceptance device, voice command acceptance method, and program |
EP4163913A4 (en) * | 2020-07-03 | 2023-11-01 | Huawei Technologies Co., Ltd. | In-vehicle voice instruction control method, and related device |
WO2024053182A1 (en) * | 2022-09-05 | 2024-03-14 | 日産自動車株式会社 | Voice recognition method and voice recognition device |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005050273A (en) * | 2003-07-31 | 2005-02-24 | Denso Corp | In-vehicle apparatus operation supporting system |
JP2008001247A (en) * | 2006-06-23 | 2008-01-10 | Kenwood Corp | Agent device, program, and character display method in agent device |
JP2009121960A (en) * | 2007-11-15 | 2009-06-04 | Mitsubishi Electric Corp | Onboard speech recognition device |
JP2014180912A (en) * | 2013-03-18 | 2014-09-29 | Panasonic Corp | Information providing device and information providing method |
JP2015509204A (en) * | 2011-12-29 | 2015-03-26 | インテル・コーポレーション | Direct grammar access |
-
2015
- 2015-11-09 JP JP2015219114A patent/JP2017090613A/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005050273A (en) * | 2003-07-31 | 2005-02-24 | Denso Corp | In-vehicle apparatus operation supporting system |
JP2008001247A (en) * | 2006-06-23 | 2008-01-10 | Kenwood Corp | Agent device, program, and character display method in agent device |
JP2009121960A (en) * | 2007-11-15 | 2009-06-04 | Mitsubishi Electric Corp | Onboard speech recognition device |
JP2015509204A (en) * | 2011-12-29 | 2015-03-26 | インテル・コーポレーション | Direct grammar access |
JP2014180912A (en) * | 2013-03-18 | 2014-09-29 | Panasonic Corp | Information providing device and information providing method |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11961534B2 (en) | 2017-07-26 | 2024-04-16 | Nec Corporation | Identifying user of voice operation based on voice information, voice quality model, and auxiliary information |
JP2021184282A (en) * | 2017-07-26 | 2021-12-02 | 日本電気株式会社 | Voice operation device and method for controlling the same |
JP7314975B2 (en) | 2017-07-26 | 2023-07-26 | 日本電気株式会社 | Voice operation device and its control method |
US20230052913A1 (en) | 2017-10-03 | 2023-02-16 | Google Llc | Multi-factor authentication and access control in a vehicular environment |
US11856399B2 (en) | 2017-10-03 | 2023-12-26 | Google Llc | Multi-factor authentication and access control in a vehicular environment |
CN111511599A (en) * | 2017-12-13 | 2020-08-07 | 戴姆勒股份公司 | Method for operating an auxiliary system and auxiliary system for a motor vehicle |
US10937423B2 (en) | 2018-02-01 | 2021-03-02 | Baidu Online Network Technology (Beijing) Co., Ltd. | Smart device function guiding method and system |
JP2019133634A (en) * | 2018-02-01 | 2019-08-08 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | Smart device function guiding method and system |
JP2019209808A (en) * | 2018-06-04 | 2019-12-12 | マツダ株式会社 | Air conditioner for vehicle |
JP7115044B2 (en) | 2018-06-04 | 2022-08-09 | マツダ株式会社 | vehicle air conditioner |
US11393469B2 (en) | 2018-12-19 | 2022-07-19 | Toyota Jidosha Kabushiki Kaisha | Vehicle-mounted device operation system |
JP2020144209A (en) * | 2019-03-06 | 2020-09-10 | シャープ株式会社 | Speech processing unit, conference system and speech processing method |
JP2021041800A (en) * | 2019-09-10 | 2021-03-18 | 株式会社Subaru | Vehicular control device |
EP4163913A4 (en) * | 2020-07-03 | 2023-11-01 | Huawei Technologies Co., Ltd. | In-vehicle voice instruction control method, and related device |
JP2022087109A (en) * | 2020-10-07 | 2022-06-09 | グーグル エルエルシー | Multi-factor authentication and access control in vehicular environment |
KR20230082758A (en) * | 2021-12-02 | 2023-06-09 | 한국과학기술원 | METHOD AND DEVICE FOR Task-oriented Sounding Guide with Object Detection to Guide Visually Impaired People During Smart Device Usage |
KR102593866B1 (en) | 2021-12-02 | 2023-10-26 | 한국과학기술원 | METHOD AND DEVICE FOR Task-oriented Sounding Guide with Object Detection to Guide Visually Impaired People During Smart Device Usage |
WO2023119771A1 (en) * | 2021-12-23 | 2023-06-29 | 株式会社Jvcケンウッド | Voice command acceptance device, voice command acceptance method, and program |
WO2024053182A1 (en) * | 2022-09-05 | 2024-03-14 | 日産自動車株式会社 | Voice recognition method and voice recognition device |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2017090613A (en) | Voice recognition control system | |
JP6604151B2 (en) | Speech recognition control system | |
US9881605B2 (en) | In-vehicle control apparatus and in-vehicle control method | |
WO2017081960A1 (en) | Voice recognition control system | |
US20170235361A1 (en) | Interaction based on capturing user intent via eye gaze | |
US20080059175A1 (en) | Voice recognition method and voice recognition apparatus | |
JP2017090612A (en) | Voice recognition control system | |
US9704484B2 (en) | Speech recognition method and speech recognition device | |
US11176948B2 (en) | Agent device, agent presentation method, and storage medium | |
JP2017090614A (en) | Voice recognition control system | |
KR101736109B1 (en) | Speech recognition apparatus, vehicle having the same, and method for controlling thereof | |
JP6851482B2 (en) | Operation support device and operation support method | |
US20230102157A1 (en) | Contextual utterance resolution in multimodal systems | |
US11450316B2 (en) | Agent device, agent presenting method, and storage medium | |
CN113157080A (en) | Instruction input method for vehicle, storage medium, system and vehicle | |
JP2020060861A (en) | Agent system, agent method, and program | |
US11325605B2 (en) | Information providing device, information providing method, and storage medium | |
JP6385624B2 (en) | In-vehicle information processing apparatus, in-vehicle apparatus, and in-vehicle information processing method | |
JP6387287B2 (en) | Unknown matter resolution processing system | |
JP2020144264A (en) | Agent device, control method of agent device, and program | |
KR102036606B1 (en) | System and method for provision of head up display information according to driver's condition and driving condition based on speech recognition | |
JP2020144081A (en) | Agent device, control method of agent device, and program | |
JP2007057805A (en) | Information processing apparatus for vehicle | |
US20200320997A1 (en) | Agent apparatus, agent apparatus control method, and storage medium | |
US11797261B2 (en) | On-vehicle device, method of controlling on-vehicle device, and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181026 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190906 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190917 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20200310 |