JP2022118998A

JP2022118998A - 音声認識応答装置及び方法並びに車載装置

Info

Publication number: JP2022118998A
Application number: JP2021015910A
Authority: JP
Inventors: 修久木元; Osamu Kukimoto; 智子内山; Tomoko Uchiyama; 龍也桑本; Tatsuya Kuwamoto
Original assignee: Denso Ten Ltd
Current assignee: Denso Ten Ltd
Priority date: 2021-02-03
Filing date: 2021-02-03
Publication date: 2022-08-16

Abstract

【課題】音声操作においてウェイクアップワード等を不要とする。【解決手段】ユーザの発話に対して応答可能な音声認識応答装置であって、ユーザの発話の音響信号を含む第１入力音響信号を受けたとき、ユーザの発話区間より前の前段区間（Ｐ）における第２入力音響信号から特徴量を導出する特徴量導出部と、特徴量導出部の導出結果に基づいて応答の要否を判定する判定部と、を備える。【選択図】図１３

Description

本発明は、音声認識応答装置及び方法並びに車載装置に関する。

音声操作が可能な装置が提案及び実用化されている。音声操作においてユーザは装置に向けて発話し、この発話の中で装置に対して様々な指示を与えることができる。装置に向けた発話がユーザからあったとき、装置はユーザの発話に対して応答する。例えば、ユーザが発話により「今日の天気を教えて」という指示を装置に与えたとき、装置は現在地における天気予報を取得して、取得した天気予報をユーザに通知する応答を行う。

但し、人同士の会話の中での発話に対して装置が応答したり、ユーザの独り言に対して装置が応答したりすることは望ましくない。このため、音声操作が可能な装置においては、通常、予めウェイクアップワードが設定されており、ユーザはウェイクアップワードの発話に続いて指示を含む発話を行う。装置は、ウェイクアップワードの発話を受けて、それに続く発話が自身（装置）に対する発話であると明確に認識することができ、当該発話に対して正しく応答することができる。また、ウェイクアップワードの代わりにボタン操作等が利用されることもある。

特開２０１８－１４０４７７号公報特開２０１５－１６１７１８号公報杉山貴昭、他３名、"多人数対話ロボットのためのユーザの挙動を利用した応答義務の推定（Estimating Response Obligation by User Behaviors for Multi-Party Dialogue Robot）、人工知能学会研究会資料（SIG-SLUD-B502-02）、ページ７－１４、［ｏｎｌｉｎｅ］、［令和３年１月８日検索］阿部渉、他２名、"SVMを用いた自発対話音声の感情認識における学習データの検討（Study on Training Data for Emotion Recognition in Spontaneous Dialogue Speech Using SVM）、情報処理学会東北支部研究報告（IPSJ Tohoku Branch SIG Technical Report）、2016-7-A3-3、［ｏｎｌｉｎｅ］、［令和３年１月８日検索］

しかしながら、ウェイクアップワードの発話等を逐一要するのはユーザにとって煩わしい。ウェイクアップワード等を要することなく、ユーザの発話が装置に対する発話であるのかを認識し、当該発話に対する応答要否を正しく判定できれば、利便性が高い。

本発明は、ウェイクアップワード等を要することなくユーザの発話に対する応答要否を高精度で判定可能な音声認識応答装置及び方法並びに車載装置を提供することを目的とする。

本発明に係る音声認識応答装置は、ユーザの発話に対して応答可能な音声認識応答装置であって、前記ユーザの発話の音響信号を含む第１入力音響信号を受けたとき、前記ユーザの発話区間より前の前段区間における第２入力音響信号から特徴量を導出する特徴量導出部と、前記特徴量導出部の導出結果に基づいて前記応答の要否を判定する判定部と、を備える構成（第１の構成）である。

上記第１の構成に係る音声認識応答装置において、前記特徴量導出部は、前記第２入力音響信号から前記特徴量としての第２特定特徴量を含む第２音響特徴量を導出するとともに、前記第１入力音響信号から第１特定特徴量を含む第１音響特徴量を導出し、前記第２特定特徴量の種類は前記第１特定特徴量の種類と同じである構成（第２の構成）であっても良い。

上記第２の構成に係る音声認識応答装置において、前記特徴量導出部は、前記第１特定特徴量とは別に、前記第１入力音響信号から前記ユーザの感情に応じた感情特徴量を導出し、前記第１音響特徴量は前記感情特徴量を含む構成（第３の構成）であっても良い。

上記第２又は第３の構成に係る音声認識応答装置において、前記特徴量導出部は、前記第２音響特徴量に加えて、前記前段区間における前記ユーザの体の動きに基づいた動き特徴量を導出し、前記判定部は、前記第２音響特徴量及び前記動き特徴量を含む判定用特徴量群に基づいて、前記応答の要否を判定する構成（第４の構成）であっても良い。

上記第４の構成に係る音声認識応答装置において、前記判定部は、所定のアルゴリズムに従って前記判定用特徴量群を第１クラス又は第２クラスに分類し、前記判定用特徴量群が前記第１クラスに分類される場合に、前記応答が必要であると判定する構成（第５の構成）であっても良い。

本発明に係る車載装置は、車両に搭載される車載装置であって、上記第１～第５の構成の何れかに係る音声認識応答装置を備えた構成（第６の構成）である。

本発明に係る音声認識応答方法は、ユーザの発話に対して応答可能な音声認識応答方法であって、前記ユーザの発話の音響信号を含む第１入力音響信号を受けたとき、前記ユーザの発話区間より前の前段区間における第２入力音響信号から特徴量を導出する特徴量導出ステップと、前記特徴量導出ステップの導出結果に基づいて前記応答の要否を判定する判定ステップと、を備える構成（第７の構成）である。

本発明によれば、ウェイクアップワード等を要することなくユーザの発話に対する応答要否を高精度で判定可能な音声認識応答装置及び方法並びに車載装置を提供することが可能となる。

本発明の実施形態に係る車載システムの全体構成図である。本発明の実施形態に係る車載システムが車両に搭載される様子を示す図である。本発明の実施形態にて注目される発話区間を示す図である。本発明の実施形態に係り、ユーザの発話に対する応答要否判定に関わる機能ブロック図である。本発明の実施形態に属する実施例ＥＸ１＿Ａに係り、特徴量導出部の導出内容を示す図である。本発明の実施形態に属する実施例ＥＸ１＿Ａに係り、発話区間から導出される特徴量を示す図である。本発明の実施形態に属する実施例ＥＸ１＿Ａに係り、発話区間から導出される動き特徴量の構成を示す図である。本発明の実施形態に属する実施例ＥＸ１＿Ａに係り、複数の軸間の関係を示す図である。本発明の実施形態に属する実施例ＥＸ１＿Ａに係り、発話区間から導出される音響特徴量の構成を示す図である。本発明の実施形態に属する実施例ＥＸ１＿Ａに係り、発話区間に対し複数のフレームが設定される様子を示す図である。本発明の実施形態に属する実施例ＥＸ２＿Ａに係り、発話区間と前段区間との関係を示す図である。本発明の実施形態に属する実施例ＥＸ２＿Ａに係り、特徴量導出部の導出内容を示す図である。本発明の実施形態に属する実施例ＥＸ２＿Ａに係り、前段区間から導出される特徴量を示す図である。本発明の実施形態に属する実施例ＥＸ２＿Ａに係り、前段区間から導出される音響特徴量の構成を示す図である。本発明の実施形態に属する実施例ＥＸ２＿Ａに係り、前段区間に対し複数のフレームが設定される様子を示す図である。本発明の実施形態に属する実施例ＥＸ２＿Ａに係り、前段区間から導出される動き特徴量の構成を示す図である。

以下、本発明の実施形態の例を、図面を参照して具体的に説明する。参照される各図において、同一の部分には同一の符号を付し、同一の部分に関する重複する説明を原則として省略する。尚、本明細書では、記述の簡略化上、情報、信号、物理量又は部材等を参照する記号又は符号を記すことによって、該記号又は符号に対応する情報、信号、物理量又は部材等の名称を省略又は略記することがある。例えば、後述の“Ｍ_Ａ＿Ｋ”によって参照される頭部動き特徴量Ｍ_Ａ＿Ｋは（図７参照）、頭部動き特徴量Ｍ_Ａ＿Ｋと表記されることもあるし、特徴量Ｍ_Ａ＿Ｋと略記されることもあり得るが、それらは全て同じものを指す。

図１は本実施形態に係る車載システムＳＹＳの全体構成図である。車載システムＳＹＳは、図２に示す如く車両ＣＲに搭載される。ここでは、車両ＣＲが路面上を走行可能な車両（自動車等）であることを想定するが、車両ＣＲは任意の種類の車両であって良い。車載システムＳＹＳの各構成要素は車両ＣＲ内の適所に設置される。

車載システムＳＹＳは、車載装置１、マイク部２、カメラ部３、ＧＰＳ処理部４及び車載センサ部５を備える。車載装置１と、マイク部２、カメラ部３、ＧＰＳ処理部４及び車載センサ部５の夫々とは、互いに直接接続されるか、或いは、車両ＣＲ内に形成されたＣＡＮ（Controller Area Network）を通じて接続される。マイク部２、カメラ部３、ＧＰＳ処理部４及び車載センサ部５の内、全部又は任意の一部は、車載装置１の構成要素に含まれると解しても良い。

マイク部２は自身の周辺音を音響信号に変換して出力するマイクロホンから成る。このマイクロホンの出力音響信号は、マイク部２の出力音響信号として車載装置１に送られる。マイク部２は、ユーザの発話内容を収音することを目的の１つとし、ユーザの発話内容を収音可能な位置に配置される。従って、ユーザの発話区間におけるマイク部２の出力音響信号は、ユーザの発話内容の音響信号を含む。ユーザとは車載システムＳＹＳのユーザであり、ここでは車両ＣＲの運転手がユーザであるとする。但し、車両ＣＲの乗員の内、運転手以外の人物がユーザにもなり得る。

カメラ部３は、車両ＣＲの車内に設置され、車内に視野（撮影範囲）を持つカメラである。カメラ部３は、自身の視野内の様子を所定のフレームレートで順次撮影して、撮影結果を示すカメラ画像の画像信号（画像データ）を生成する。カメラ部３は、生成したカメラ画像の画像信号（以下、カメラ画像信号と称する）を順次車載装置１に送る。カメラ部３は、ユーザを撮影することを目的の１つとし、カメラ部３の視野にユーザの全身が含まれる、或いは、カメラ部３の視野に少なくともユーザの上半身が含まれる。ユーザの上半身は、ユーザの顔、頭部、腕及び上半身を含む。故に、カメラ画像信号はユーザの撮影結果を含む。カメラ部３は単一のカメラにて構成されることもあるし、複数のカメラにて構成されることもある。

ＧＰＳ処理部４は、ＧＰＳ（Global Positioning System）を形成する複数のＧＰＳ衛星からの信号を受信することで車両ＣＲの位置（現在地）を検出し、検出位置を示す車両位置情報を生成する。車両ＣＲの位置とは車両ＣＲの存在位置を意味する。車両位置情報では、車両ＣＲの位置（現在地）が、地球上における経度及び緯度によって表現される。車両位置情報は所定周期で順次生成され、生成された車両位置情報は順次車載装置１に送られる。

車載センサ部５は、車両ＣＲに設置された複数の車載センサから成り、各車載センサを用いて車載センサ情報を生成する。車載センサ情報は所定周期で順次生成され、取得された車載センサ情報は順次車載装置１に送られる。車載センサ情報は、車両ＣＲの速度を表す車速情報、車両ＣＲに設けられたアクセルペダルの踏み込み量を表すアクセル情報、車両ＣＲに設けられたブレーキペダルの踏み込み量を表すブレーキ情報、及び、車両ＣＲに設けられたステアリングホイールの操舵角を表す操舵角情報などを含む。

車載装置１は、主制御部１０、計時部２０、メモリ部３０、通信モジュール４０及びインターフェース部５０を備える。

主制御部１０は、音声認識部１１、特徴量導出部１２、判定部１３及び応答処理部１４を備える他、車載装置１の各部位の動作を統括的に制御する機能を備える。主制御部１０は、ＣＰＵ（Central Processing Unit）、ＲＯＭ（Read only memory）及びＲＡＭ（Random access memory）等にて構成され、ＲＯＭに格納されたプログラムをＣＰＵが実行することで、音声認識部１１、特徴量導出部１２、判定部１３及び応答処理部１４の機能が実現されて良い。

計時部２０は、現在の日付及び時刻を示す時刻情報を生成して主制御部１０に送る。ＧＰＳ処理部４の受信信号を用いて時刻情報が生成又は修正されても良い。

メモリ部３０は、主制御部１０の制御の下で任意の情報及びデータの読み書きを行う。メモリ部３０において、マイク部２の出力音響信号及びカメラ部３のカメラ画像信号を所定の一定時間分だけ一時的に記憶するリングバッファが形成される。マイク部２の出力音響信号とカメラ部３のカメラ画像信号とを含む信号を、便宜上、ＡＶ信号と称する。或る時刻においてマイク部２及びカメラ部３により生成されたＡＶ信号には、ＡＶ信号の生成時刻を表す時刻情報が付加される。リングバッファにおいて、一定時間分のＡＶ信号が記録された状態で、新たに記録すべきＡＶ信号が発生すると、最も古くに記録されたＡＶ信号に対し、最新のＡＶ信号が上書きして記録される。このため、常に最新の一定時間分のＡＶ信号がリングバッファにて保持される。

通信モジュール４０は、車載装置１以外の装置（例えばインターネット網に接続されたサーバ装置）と車載装置１との間で情報を送受信するための通信機能を備え、その情報の送受信は任意の無線通信回線を介して行われる。尚、通信モジュール４０は車載装置１の外部に設けられていても良い。

インターフェース部５０は、車載装置１とユーザとの間のマンマシンインターフェースであり、表示部５１、スピーカ部５２及び操作部５３を備える。表示部５１は液晶ディスプレイパネル等にて構成される表示装置であり、主制御部１０の制御の下で任意の画像を表示できる。スピーカ部５２は主制御部１０の制御の下で任意の音を出力できる。即ち、主制御部１０は、表示部５１を用いて視覚的に又はスピーカ部５２を用いて聴覚的に任意の情報をユーザに出力できる。操作部５３はユーザから任意の操作の入力を受け付ける。表示部５１及び操作部５３によりタッチパネルが構成されていても良く、操作部５３への操作はタッチパネルに対する操作であっても良い。尚、表示部５１、スピーカ部５２及び操作部５３の内の全部又は一部は車載装置１の外部に設けられていても良い。

車載装置１は、車両ＣＲの目的地までの経路を案内するナビゲーション機能、ＡＶ信号を図示されない不揮発性の記録媒体に記録するドライブレコーディング機能、オーディオデータやビデオデータを再生する機能、テレビ放送波又はラジオ放送波を受信して受信放送波による映像又は音声を出力する機能など、各種の機能を備えていて良い。ここでは、車載装置１にて少なくともナビゲーション機能が実現されるものとする。この場合、車載装置１はカーナビゲーション装置に分類され得るが、車載装置１はカーナビゲーション装置以外の装置に分類されるものであっても良い。

ユーザは車載装置１を音声操作することができる。音声操作においてユーザは車載装置１に向けて発話し、この発話の中でユーザは所定の又は任意の指示を車載装置１に与えることができる。ユーザによる指示は、車載装置１に対して何らかの回答を求める問い合わせであり得る。車載装置１に向けた発話がユーザからあったとき、車載装置１は、ユーザの発話に対して応答する応答処理を行う。応答処理は、応答処理部１４により実行される。応答処理における応答は、ユーザに対する音声応答及び表示応答の少なくとも一方を含んでいて良い。音声応答は、スピーカ部５２からの音声出力により実現される。表示応答は、表示部５１での文字や画像の表示により実現される。運転操作の従事などによりユーザが表示部５１を見がたいことも考えられるため、応答処理における応答は少なくとも音声応答を含んでいると良い。

ところで、ユーザの発話は車載装置１に向けられたものでないこともある。即ち例えば、運転手としてのユーザとは別に同乗者が車両ＣＲに搭乗している場合、運転手としてのユーザと同乗者との間の会話においてユーザが発話を行う場合もある。また例えば、ユーザが独り言を発する場合もある。このような人同士の会話の中での発話や独り言に対して車載装置１は応答すべきでない。発話が装置に向けたものであるか否かを明確に装置に認識させるべく、ウェイクアップワードを設定しておき、ウェイクアップワードに続く発話のみを装置への発話と捉える方法が広く用いられている。しかしながら、ウェイクアップワードの発話を逐一要するのはユーザにとって煩わしい。

本実施形態に係る車載装置１では、ウェイクアップワードを要することなく、ユーザの発話が車載装置１への発話であるか否かを判定する。この判定は主制御部１０（特に特徴量導出部１２及び判定部１３）により実現される。以下、主制御部１０を構成する各機能ブロックの動作について説明する。尚、マイク部２の出力音響信号は、車載装置１にとっての入力音響信号である。以下の説明において、入力音響信号とは、マイク部２の出力音響信号に相当する、車載装置１にとっての入力音響信号を指すものとする。

音声認識部１１は、マイク部２から入力音響信号が供給されると、供給された入力音響信号に基づきユーザの発話内容を認識してテキストデータ（文字列）に変換する。この変換により生成される、ユーザの発話内容を示すテキストデータを発話テキストデータと称する。

特徴量導出部１２は、マイク部２から入力音響信号が供給されると、供給された入力音響信号及びカメラ画像信号の内、少なくとも一方から、ユーザの発話が車載装置１への発話であるか否かの峻別に有益な特徴量を導出する。

判定部１３は、特徴量導出部１２により導出された特徴量に基づき、ユーザの発話が車載装置１への発話であるか否かを判定する。ユーザの発話が車載装置１への発話である場合にはユーザの発話に対する応答が必要であり、ユーザの発話が人同士の会話における発話である場合又はユーザの独り言である場合には、ユーザの発話に対する応答は不要である。このため、ユーザの発話が車載装置１への発話であるか否かの判定は、ユーザの発話に対する応答の要否の判定と等価である。従って、判定部１３は、特徴量導出部１２により導出された特徴量に基づき、ユーザの発話に対する応答の要否を判定するとも言える（このように考えた場合、判定部１３を応答要否判定部と称することもできる）。以下では、判定部１３はユーザの発話に対する応答の要否を判定すると考える。また、ユーザの発話に対して応答が必要であることを応答義務ありと表現することがあり、ユーザの発話に対して応答が必要でない（即ち不要である）ことを応答義務なしと表現することがある。

応答処理部１４は、判定部１３により応答義務ありと判定された場合、発話テキストデータに基づきユーザの指示を判定（理解）し、ユーザの指示に応じた応答処理を実行することでユーザの発話に対して応答する。判定部１３により応答義務なしと判定された場合、応答処理部１４は、応答処理を実行しない（即ち、ユーザの発話に対して応答しない）。尚、本実施形態では、応答処理部１４がユーザの指示を判定（理解）する機能を持つが、応答処理部１４以外の他の構成要素が当該機能を実現しても良い。当該他の構成要素は、例えば、主制御部１０に設けることのできる指示解釈部（不図示）であっても良いし、車載装置１の外部装置（通信モジュール４０を介し車載装置１と双方向通信が可能なサーバ装置等）であっても良い。

応答処理の具体的な内容はユーザの発話内容に依存する。例えば、ユーザが発話により「ＡＢＣ博物館を目的地に設定して」という指示を車載装置１に与えた場合、応答処理部１４は、応答処理において、ナビゲーション機能における目的地にＡＢＣ博物館を設定すると共に、その旨を示す音声応答又は表示応答を行う。また例えば、ユーザが発話により「渋滞情報を教えて」という指示を車載装置１に与えた場合、応答処理部１４は、応答処理において、「了解しました」という音声をスピーカ部５２から出力すると共に、車両ＣＲの周辺の渋滞情報を通信モジュール４０を介して取得し、取得した渋滞情報を表示部５１又はスピーカ部５２を用いてユーザに通知する。

車載装置１は、上記ナビゲーション機能等に関わる制御に加えて、制御対象機器の制御を行う機能を有していても良く、この場合、応答処理は制御対象機器の制御を含み得る。制御対象機器は、車両ＣＲに搭載された機器（但し車載装置１、マイク部２、カメラ部３、ＧＰＳ処理部４及び車載センサ部５とは異なる）であって、主制御部１０により動作が制御される機器である。例えば、車外を照らす車外用照明装置（ヘッドライト等）、車室内を照らす車内用照明装置、車両ＣＲのフロントガラスに付着した水や汚れを払拭するためのワイパー、車室内の温度及び湿度を調整するエアコンディショナが、制御対象機器に該当しうる。この際、例えば、ユーザが発話により「ワイパーをオンにして」という指示を車載装置１に与えた場合、応答処理部１４は、応答処理において、ワイパーを作動させると共に、その旨を示す音声応答又は表示応答を行う。

ユーザは様々な発話を行うと考えられるが、ここでは、ユーザによる一連且つ単一の発話に注目し、注目した発話が行われる区間を発話区間Ｋと称する（図３参照）。以下では、発話区間Ｋにおけるユーザの発話に対する応答の要否の判定方法を説明する。図３において、時刻ｔ_Ｓは発話区間Ｋの開始時刻であり、時刻ｔ_Ｅは発話区間Ｋの終了時刻である。発話区間Ｋにおいて、ユーザは、車載装置１に対して何らかの指示を発話する（例えば「ＡＢＣ博物館を目的地に設定して」という指示を発話する）、ユーザ以外の同乗者に発話する（例えば「ＡＢＣ博物館を目的地に設定する？」と同乗者に問い合わせる）、又は、独り言を発する（例えば「ＡＢＣ博物館を目的地に設定しようか」と独り言を発する）。

図４に示す如く、判定部１３に対し判定用特徴量群が入力され、判定用特徴量群はＮ種類の特徴量（個別特徴量）ＦＶ_１～ＦＶ_Ｎを含む。Ｎは２以上の任意の整数である。特徴量ＦＶ_１～ＦＶ_Ｎは特徴量導出部１２により導出される。特徴量ＦＶ_１～ＦＶ_Ｎにより特徴量ＦＶ_１～ＦＶ_ＮをＮ個の要素とするＮ次元の特徴ベクトルが形成される。判定部１３は判定用特徴量群に基づき（即ちＮ次元の特徴ベクトルに基づき）判定結果Ｄｏｕｔを得る応答要否判定処理を実行する。判定結果Ｄｏｕｔは“１”又は“０”の値を有する二値化信号である。“１”の判定結果Ｄｏｕｔは応答義務ありを表し、“０”の判定結果Ｄｏｕｔは応答義務なしを表す。即ち、判定部１３は、判定用特徴量群に基づいてユーザの発話に対する応答の要否を判定し、応答が必要であると判定した場合には“１”の判定結果Ｄｏｕｔを出力し、応答が必要でない（即ち不要である）と判定した場合には“０”の判定結果Ｄｏｕｔを出力する。応答処理部１４は、“１”の判定結果Ｄｏｕｔが出力された場合、発話テキストデータに応じた応答処理を実行することでユーザの発話に対して応答し、“０”の判定結果Ｄｏｕｔが出力された場合には応答処理を実行しない（即ち、ユーザの発話に対して応答しない）。

判定部１３は所定のアルゴリズムにより判定結果Ｄｏｕｔを得る。所定のアルゴリズムでは判定用特徴量群を入力情報として受けて判定結果Ｄｏｕｔを出力する。判定部１３に対し特徴量ＦＶ_１～ＦＶ_Ｎが入力されたとき、所定のアルゴリズムにより特徴量ＦＶ_１～ＦＶ_Ｎを含む判定用特徴量群が第１クラス及び第２クラスの何れか一方に分類される。判定部１３は、判定用特徴量群が第１クラスに分類されたとき判定結果Ｄｏｕｔに“１”の値を持たせ、判定用特徴量群が第２クラスに分類されたとき判定結果Ｄｏｕｔに“０”の値を持たせる。

ここでは、所定のアルゴリズムとしてサポートベクタマシン（以下、ＳＶＭと称する）を利用することを例にとる。ＳＶＭは教師あり機械学習モデルであり、事前知識として与えられた教師データに基づき、発話区間Ｋに至る前に、ＳＶＭは学習済みであるとする。教師データは、特徴量ＦＶ_１～ＦＶ_Ｎと、その特徴量ＦＶ_１～ＦＶ_Ｎに対応する正解の判定結果Ｄｏｕｔとの組データを、多数、含む。学習済みのＳＶＭに対して発話区間Ｋに関する特徴量ＦＶ_１～ＦＶ_Ｎが入力されたとき、発話区間Ｋに関する判定用特徴量群が第１クラス又は第２クラスに分類され、これよって発話区間Ｋに関する判定結果Ｄｏｕｔが得られる。尚、判定部１３においてＳＶＭ以外のアルゴリズム（例えば、ランダムフォレスト、ディープフォレスト又は決定木）を用いて判定結果Ｄｏｕｔを得るようにしても良い。

尚、判定部１３に関する用語“判定”を“推定”と読み替えても良い。例えば、判定部を、推定部又は応答要否推定部と読み替えても良いし、応答要否判定処理を応答要否推定処理と読み替えても良い。

以下に示す複数の実施例の中で、車載システムＳＹＳ（特に判定用特徴量群）に関する幾つかの具体例、応用技術、変形技術等を説明する。本実施形態にて上述した事項は、特に記述無き限り且つ矛盾無き限り、以下の各実施例に適用される。各実施例において、上述の事項と矛盾する事項がある場合には、各実施例での記載が優先されて良い。また矛盾無き限り、以下に示す複数の実施例の内、任意の実施例に記載した事項を、他の任意の実施例に適用することもできる（即ち複数の実施例の内の任意の２以上の実施例を組み合わせることも可能である）。

＜＜実施例ＥＸ１＿Ａ＞＞
実施例ＥＸ１＿Ａを説明する。図５に示す如く、実施例ＥＸ１＿Ａに係る特徴量導出部１２は、発話区間Ｋにおけるカメラ画像信号に基づき動き特徴量Ｍ＿Ｋを導出すると共に、発話区間Ｋにおける入力音響信号に基づき音響特徴量Ｓ＿Ｋを導出する（図６も参照）。そして、実施例ＥＸ１＿Ａに係る判定部１３は動き特徴量Ｍ＿Ｋと音響特徴量Ｓ＿Ｋに基づいて応答要否判定処理を実行する。従って、実施例ＥＸ１＿Ａにおける判定用特徴量群は、動き特徴量Ｍ＿Ｋと音響特徴量Ｓ＿Ｋを含む。動き特徴量Ｍ＿Ｋは１種類以上の特徴量を含み、動き特徴量Ｍ＿Ｋに含まれる各種類の特徴量が判定用特徴量群を構成する特徴量ＦＶ_１～ＦＶ_Ｎの一部として機能する。同様に、音響特徴量Ｓ＿Ｋは１種類以上の特徴量を含み、音響特徴量Ｓ＿Ｋに含まれる各種類の特徴量が判定用特徴量群を構成する特徴量ＦＶ_１～ＦＶ_Ｎの他の一部として機能する。

人間がロボット（ここでは車載装置１）に対して発話する際、体の動きが停止する又は小さくなるという傾向（以下、発話中動き傾向と称する）がある。換言すれば、人間がロボットに対して発話する際、人に対して発話するときと比べて体が静止しやすい。故に、発話区間Ｋにおけるユーザの体の動きに応じた特徴量をカメラ画像信号に基づいて抽出し、その動きに応じた特徴量に基づいて応答要否判定処理を行えば応答要否の推定精度が向上すると見込まれる。尚、発話中動き傾向は、上記非特許文献１などにて研究及び報告されている（例えば非特許文献１における項目“４．２入力特徴”中の項目（ｂ）及び（ｅ）を参照））。

図７に示す如く、発話中動き傾向を考慮し、動き特徴量Ｍ＿Ｋは、発話区間Ｋ中のユーザの頭部の動きに応じた頭部動き特徴量Ｍ_Ａ＿Ｋと、発話区間Ｋ中のユーザの右肘の動きに応じた右肘動き特徴量Ｍ_Ｂ＿Ｋと、発話区間Ｋ中のユーザの左肘の動きに応じた左肘動き特徴量Ｍ_Ｃ＿Ｋと、発話区間Ｋ中のユーザの上半身の動きに応じた上半身動き特徴量Ｍ_Ｄ＿Ｋと、発話区間Ｋ中のユーザの顔の動きに応じた顔動き特徴量Ｍ_Ｅ＿Ｋと、を含む。

ここで、ユーザの体の部位の動きは、Ｘ軸、Ｙ軸及びＺ軸の成分ごとに導出される。Ｘ軸、Ｙ軸及びＺ軸は実空間において固定され且つ互いに直交する３つの直線軸である（図８（ａ）参照）。特徴量導出部１２は、発話区間Ｋ中のカメラ画像信号に基づき、発話区間Ｋ中のユーザの頭部、右肘、左肘及び上半身の夫々の動きにおけるＸ軸、Ｙ軸及びＺ軸成分を求める。カメラ画像信号に基づき対象物の三次元の動きを検出する方法として公知の方法を利用でき、必要に応じ、カメラ部２に複数のカメラを設けて複数のカメラのカメラ画像信号を利用して三次元の動きを検出して良い。

頭部動き特徴量Ｍ_Ａ＿Ｋは、発話区間Ｋ中のユーザの頭部の動きに関する統計量を含む。統計量とは、平均値、最大値、最小値又は標準偏差などであり、これは後述される任意の統計量についても同様である。具体的には例えば、発話区間Ｋ中のユーザの頭部の動きにおけるＸ軸方向の平均速度、Ｙ軸方向の平均速度及びＺ軸方向の平均速度が、頭部の動きに関する３つの統計量として頭部動き特徴量Ｍ_Ａ＿Ｋに含められる。

右肘動き特徴量Ｍ_Ｂ＿Ｋは、発話区間Ｋ中のユーザの右肘の動きに関する統計量を含む。具体的には例えば、発話区間Ｋ中のユーザの右肘の動きにおけるＸ軸方向の平均速度、Ｙ軸方向の平均速度及びＺ軸方向の平均速度が、右肘の動きに関する３つの統計量として右肘動き特徴量Ｍ_Ｂ＿Ｋに含められる。

左肘動き特徴量Ｍ_Ｃ＿Ｋは、発話区間Ｋ中のユーザの左肘の動きに関する統計量を含む。具体的には例えば、発話区間Ｋ中のユーザの左肘の動きにおけるＸ軸方向の平均速度、Ｙ軸方向の平均速度及びＺ軸方向の平均速度が、左肘の動きに関する３つの統計量として左肘動き特徴量Ｍ_Ｃ＿Ｋに含められる。

上半身動き特徴量Ｍ_Ｄ＿Ｋは、発話区間Ｋ中のユーザの上半身の動きに関する統計量を含む。具体的には例えば、発話区間Ｋ中のユーザの上半身の動きにおけるＸ軸方向の平均速度、Ｙ軸方向の平均速度及びＺ軸方向の平均速度が、上半身の動きに関する３つの統計量として上半身動き特徴量Ｍ_Ｄ＿Ｋに含められる。発話区間Ｋ中のユーザの上半身の動きにおけるＸ軸方向の平均速度を求めるにあたり、発話区間Ｋ中のユーザの上半身に属する６つの部位（頭部、みぞおち、臀部の中央、肩の中央、右肩及び左肩）に注目し、当該６つの部位について発話区間Ｋ中のＸ軸方向の平均速度を個別に求める。これにより、Ｘ軸方向の平均速度が６種類求まる。即ち、発話区間Ｋ中のユーザの頭部のＸ軸方向の平均速度、みぞおちのＸ軸方向の平均速度、臀部の中央のＸ軸方向の平均速度、肩の中央のＸ軸方向の平均速度、右肩のＸ軸方向の平均速度、及び、左肩のＸ軸方向の平均速度が求まる。これら６つの部位について求められた計６種類のＸ軸方向の平均速度の平均を、発話区間Ｋ中のユーザの上半身の動きにおけるＸ軸方向の平均速度とする。発話区間Ｋ中のユーザの上半身の動きにおけるＹ軸方向の平均速度及びＺ軸方向の平均速度についても同様である。

また、発話区間Ｋ中のユーザの頭部の動きにおけるＸ軸方向の最大速度、Ｙ軸方向の最大速度及びＺ軸方向の最大速度も、それらの平均速度とは別に、頭部の動きに関する３つの統計量として頭部動き特徴量Ｍ_Ａ＿Ｋに含められて良い。同様に、発話区間Ｋ中のユーザの右肘の動きにおけるＸ軸方向の最大速度、Ｙ軸方向の最大速度及びＺ軸方向の最大速度も、それらの平均速度とは別に、右肘の動きに関する統計量として右肘動き特徴量Ｍ_Ｂ＿Ｋに含められて良い。左肘及び上半身についても同様である。

顔動き特徴量Ｍ_Ｅ＿Ｋは、発話区間Ｋ中のユーザの顔の動きに関する統計量を含む。ここで、顔の動きとは、顔の向きに変化をもたらす顔の動きを指す。発話区間Ｋ中のユーザの顔の動きに関する統計量として、発話区間Ｋ中のユーザの顔の向きにおけるオイラー角の平均角速度が求められる。オイラー角の平均角速度としては、ヨー方向の平均角速度と、ピッチ方向の平均角速度と、ロール方向の平均角速度と、がある。ここで、図８（ｂ）に示す如く、ユーザの顔における口の中心と眉間の中心とを結ぶ直線に平行な軸をヨー軸と定義し、ユーザの顔における左目の中心と右目の中心とを結ぶ直線に平行な軸をピッチ軸と定義し、ヨー軸及びピッチ軸の夫々に直交する軸をロール軸と定義する。但し、ヨー軸、ピッチ軸及びロール軸は、ユーザの顔の中心（例えば鼻の中心）にて互いに交差するものとする。ヨー軸、ピッチ軸、ロール軸を回転軸としてユーザの顔が回転する方向が、夫々、ヨー方向、ピッチ方向、ロール方向である。発話区間Ｋ中のユーザの顔の向きにおけるヨー方向の平均角速度、ピッチ方向の平均角速度及びロール方向の平均角速度が、顔の動き（顔の向きの変化）に関する３つの統計量として顔動き特徴量Ｍ_Ｅ＿Ｋに含められる。この他、発話区間Ｋ中のユーザの顔の向きにおけるヨー方向の最大角速度、ピッチ方向の最大角速度及びロール方向の最大角速度を、顔動き特徴量Ｍ_Ｅ＿Ｋに含めても良い。

頭部動き特徴量Ｍ_Ａ＿Ｋ、右肘動き特徴量Ｍ_Ｂ＿Ｋ、左肘動き特徴量Ｍ_Ｃ＿Ｋ、上半身動き特徴量Ｍ_Ｄ＿Ｋ及び顔動き特徴量Ｍ_Ｅ＿Ｋの夫々に含まれる各統計量が、特徴量ＦＶ_１～ＦＶ_Ｎの１つとして機能する。

ところで、人間が発する音声には言語情報だけでなく、感情といった心理的な非言語情報も含まれている。そして、人間が指示などを行うべくロボット（ここでは車載装置１）に対して発話する際には、他の人間に対して発話する場合などと比べて、発話に感情が含まれにくいという傾向（以下、発話中感情傾向と称する）がある。感情を含まない発話は抑揚が少なく単調な発話となる。故に、発話区間Ｋの入力音響信号から発話中感情傾向に関わる特徴量を抽出し、抽出した特徴量に基づいて応答要否判定処理を行えば応答要否の推定精度が向上すると見込まれる。尚、発話中感情傾向に関わる特徴量については、上記非特許文献２などにて研究及び報告されている。

また、人間がロボット（ここでは車載装置１）に対して発話する際には、他の人間に対して発話する場合などと比べて、大きな声で明瞭に発話するという傾向（以下、発話中明瞭性傾向と称する）がある。故に、発話区間Ｋの入力音響信号から発話中明瞭性傾向に関わる特徴量を抽出し、抽出した特徴量に基づいて応答要否判定処理を行えば応答要否の推定精度が向上すると見込まれる。尚、発話中明瞭性傾向に関わる特徴量については、上記非特許文献１などにて研究及び報告されている（例えば非特許文献１における項目“４．２入力特徴”中の項目（ｆ）を参照））。

図９に示す如く（図５も参照）、発話中感情傾向及び発話中明瞭性傾向を考慮し、音響特徴量Ｓ＿Ｋには、発話区間Ｋ中のユーザの発話の感情に応じた感情特徴量と、発話区間Ｋ中のユーザの発話の明瞭性及び音量に応じた明瞭性特徴量と、が含められる。感情特徴量はユーザの感情量を示す量である。

感情特徴量について説明する。感情特徴量は、図９に示す如く、特徴量Ｓ_Ａ＿Ｋと、特徴量Ｓ_Ｂ１＿Ｋ～Ｓ_Ｂ１２＿Ｋと、特徴量Ｓ_Ｃ＿Ｋと、特徴量Ｓ_Ｄ＿Ｋと、特徴量Ｓ_Ｅ＿Ｋを含む。更に、感情特徴量は、特徴量Ｓ_Ａ＿Ｋの一次微分に相当する特徴量ΔＳ_Ａ＿Ｋと、特徴量Ｓ_Ｂ１＿Ｋ～Ｓ_Ｂ１２＿Ｋの一次微分に相当する特徴量ΔＳ_Ｂ１＿Ｋ～ΔＳ_Ｂ１２＿Ｋと、特徴量Ｓ_Ｃ＿Ｋの一次微分に相当する特徴量ΔＳ_Ｃ＿Ｋと、特徴量Ｓ_Ｄ＿Ｋの一次微分に相当する特徴量ΔＳ_Ｄ＿Ｋと、特徴量Ｓ_Ｅ＿Ｋの一次微分に相当する特徴量ΔＳ_Ｅ＿Ｋと、を含む。一次微分とは時間方向の一次微分を指す。これらの特徴量を導出するにあたり、図１０に示す如く、発話区間Ｋが所定の時間長さ（例えば１０ミリ秒）を有するフレームを単位に分割され、発話区間Ｋに設定されたフレームごとに必要な演算が行われる。以下、発話区間Ｋは第１～第Ｓフレームにて構成されると考える。Ｓは２以上の整数である。任意の自然数ｉについて、第ｉフレームと第（ｉ＋１）フレームは互いに隣接し、且つ、第（ｉ＋１）フレームは第ｉフレームよりも後のフレームであるとする。

特徴量Ｓ_Ａ＿Ｋは、発話区間Ｋ中の入力音響信号により示される音量の二乗平均平行根（即ち実効値）に基づく特徴量であって、発話区間Ｋ中の入力音響信号の強さを表す。具体的には、特徴量導出部１２は、発話区間Ｋ中のフレームごとに、入力音響信号により示される音量の二乗平均平行根（即ちフレーム中の入力音響信号の値の二乗平均平行根）を導出する。そして、特徴量導出部１２は、発話区間Ｋ中の第１～第Ｓフレームに対して求めたＳ個の二乗平均平行根の統計量（例えば平均値）を、特徴量Ｓ_Ａ＿Ｋに含める。

更に、特徴量導出部１２は、上記Ｓ個の二乗平均平行根の一次微分の統計量を、特徴量ΔＳ_Ａ＿Ｋに含める。二乗平均平行根の一次微分は二乗平均平行根の時間方向の変化量を表す。故に、上記Ｓ個の二乗平均平行根の一次微分は、第１及び第２フレームに対して求めた２つの二乗平均平行根間の差分と、第２及び第３フレームに対して求めた２つの二乗平均平行根間の差分と、・・・、第（Ｓ－１）及び第Ｓフレームに対して求めた２つの二乗平均平行根間の差分とから成り、例えば、それらの差分の平均を特徴量ΔＳ_Ａ＿Ｋとすることができる。

特徴量Ｓ_Ｂ１＿Ｋ～Ｓ_Ｂ１２＿Ｋは、発話区間Ｋ中の入力音響信号における１次～１２次のメル周波数ケプストラム係数に基づく特徴量である。具体的には、特徴量導出部１２は、発話区間Ｋ中のフレームごとに、入力音響信号における１次～１２次のメル周波数ケプストラム係数を導出する。ｉ次のメル周波数ケプストラム係数を“ＭＦＣＣｉ”で表す。特徴量導出部１２は、発話区間Ｋ中の第１～第Ｓフレームに対して求めたＳ個の係数ＭＦＣＣｉの統計量（例えば平均値）を、特徴量Ｓ_Ｂｉ＿Ｋに含める。従って例えば、発話区間Ｋ中の第１～第Ｓフレームに対して求めたＳ個の係数ＭＦＣＣ１の統計量（例えば平均値）が特徴量Ｓ_Ｂ１＿Ｋに含められ、発話区間Ｋ中の第１～第Ｓフレームに対して求めたＳ個の係数ＭＦＣＣ２の統計量（例えば平均値）が特徴量Ｓ_Ｂ２＿Ｋに含められる。特徴量Ｓ_Ｂ３＿Ｋ～Ｓ_Ｂ１２＿Ｋについても同様である。

更に、特徴量導出部１２は、発話区間Ｋ中の第１～第Ｓフレームに対して求めたＳ個の係数ＭＦＣＣｉの一次微分の統計量を、特徴量ΔＳ_Ｂｉ＿Ｋに含める。係数ＭＦＣＣｉの一次微分は係数ＭＦＣＣｉの時間方向の変化量を表す。発話区間Ｋ中の第１～第Ｓフレームに対して求めたＳ個の係数ＭＦＣＣ１の一次微分の統計量が特徴量ΔＳ_Ｂ１＿Ｋに含められ、発話区間Ｋ中の第１～第Ｓフレームに対して求めたＳ個の係数ＭＦＣＣ２の一次微分の統計量が特徴量ΔＳ_Ｂ２＿Ｋに含められる。特徴量ΔＳ_Ｂ３＿Ｋ～ΔＳ_Ｂ１２＿Ｋについても同様である。上記Ｓ個の係数ＭＦＣＣｉの一次微分は、第１及び第２フレームに対して求めた２つの係数ＭＦＣＣｉ間の差分と、第２及び第３フレームに対して求めた２つの係数ＭＦＣＣｉ間の差分と、・・・、第（Ｓ－１）及び第Ｓフレームに対して求めた２つの係数ＭＦＣＣｉ間の差分とから成り、例えば、それらの差分の平均を特徴量ΔＳ_Ｂｉ＿Ｋとすることができる。

特徴量Ｓ_Ｃ＿Ｋは、発話区間Ｋ中の入力音響信号のゼロ交差率に基づく特徴量である。時間領域における入力音響信号はゼロを交差する波形を有する。具体的には、特徴量導出部１２は、発話区間Ｋ中のフレームごとに入力音響信号のゼロ交差率を求める。そして、特徴量導出部１２は、発話区間Ｋ中の第１～第Ｓフレームに対して求めたＳ個のゼロ交差率の統計量（例えば平均値）を、特徴量Ｓ_Ｃ＿Ｋに含める。発話区間Ｋ中の第ｉフレームにおける入力音響信号のゼロ交差率ｆ_ＺＣＲ［ｉ］は、“ｆ_ＺＣＲ［ｉ］＝１０×ｌｏｇ_１０（Ｚ（ｉ）／Ｚ_{ＮＯＩＳＥ}）”により表される。ここで、Ｚ（ｉ）は、発話区間Ｋ中の第ｉフレームにおける入力音響信号のゼロ交差数（単位時間当たりで、入力音響信号の波形がゼロと交差する回数）を表す。Ｚ_{ＮＯＩＳＥ}は雑音区間におけるゼロ交差数を表す。即ち、Ｚ_{ＮＯＩＳＥ}は、入力音響信号が雑音の信号成分のみを含むと仮定したときの、入力音響信号のゼロ交差数を表す。Ｚ_{ＮＯＩＳＥ}の値は既知情報として予め設定される。

更に、特徴量導出部１２は、上記Ｓ個のゼロ交差率の一次微分の統計量を、特徴量ΔＳ_Ｃ＿Ｋに含める。ゼロ交差率の一次微分はゼロ交差率の時間方向の変化量を表す。故に、上記Ｓ個のゼロ交差率の一次微分は、第１及び第２フレームに対して求めた２つのゼロ交差率間の差分と、第２及び第３フレームに対して求めた２つのゼロ交差率間の差分と、・・・、第（Ｓ－１）及び第Ｓフレームに対して求めた２つのゼロ交差率間の差分とから成り、例えば、それらの差分の平均を特徴量ΔＳ_Ｃ＿Ｋとすることができる。

特徴量Ｓ_Ｄ＿Ｋは、発話区間Ｋ中の入力音響信号の全パワーを占める調波成分の割合に基づく特徴量であって、その時点における音が声であるかどうかの確率を表す。具体的には、特徴量導出部１２は、発話区間Ｋ中のフレームごとに、入力音響信号の全パワーを求めると共に入力音響信号の調波成分のパワーを求め、前者のパワーに対する後者のパワーの比を調波パワー割合として求める。そして、特徴量導出部１２は、発話区間Ｋ中の第１～第Ｓフレームに対して求めたＳ個の調波パワー割合の統計量（例えば平均値）を、特徴量Ｓ_Ｄ＿Ｋに含める。

更に、特徴量導出部１２は、上記Ｓ個の調波パワー割合の一次微分の統計量を、特徴量ΔＳ_Ｄ＿Ｋに含める。調波パワー割合の一次微分は調波パワー割合の時間方向の変化量を表す。故に、上記Ｓ個の調波パワー割合の一次微分は、第１及び第２フレームに対して求めた２つの調波パワー割合間の差分と、第２及び第３フレームに対して求めた２つの調波パワー割合間の差分と、・・・、第（Ｓ－１）及び第Ｓフレームに対して求めた２つの調波パワー割合間の差分とから成り、例えば、それらの差分の平均を特徴量ΔＳ_Ｄ＿Ｋとすることができる。

特徴量Ｓ_Ｅ＿Ｋは、発話区間Ｋ中の入力音響信号の基本周波数に基づく特徴量である。具体的には、特徴量導出部１２は、発話区間Ｋ中のフレームごとに、入力音響信号の基本周波数（Ｆ０）を導出する。そして、特徴量導出部１２は、発話区間Ｋ中の第１～第Ｓフレームに対して求めたＳ個の基本周波数の統計量（例えば平均値）を、特徴量Ｓ_Ｅ＿Ｋに含める。尚、第ｉフレームにおける基本周波数は、第ｉフレームの入力音響信号を複数の正弦波の合成にて表現したときの、最も低次の正弦波の周波数（即ち、最低周波数を有する正弦波の周波数）を指す。上記の調波成分は、基本周波数の整数倍（但し１倍を除く）の周波数成分を表す。

更に、特徴量導出部１２は、上記Ｓ個の基本周波数の一次微分の統計量を、特徴量ΔＳ_Ｅ＿Ｋに含める。基本周波数の一次微分は、基本周波数の時間方向の変化量を表す。故に、上記Ｓ個の基本周波数の一次微分は、第１及び第２フレームに対して求めた２つの基本周波数間の差分と、第２及び第３フレームに対して求めた２つの基本周波数間の差分と、・・・、第（Ｓ－１）及び第Ｓフレームに対して求めた２つの基本周波数間の差分とから成り、例えば、それらの差分の平均を特徴量ΔＳ_Ｅ＿Ｋとすることができる。

明瞭性特徴量について説明する。明瞭性特徴量は、図９に示す如く、特徴量Ｓ_Ｆ＿Ｋと、特徴量Ｓ_Ｄ＿Ｋと、特徴量Ｓ_Ｅ＿Ｋを含む。更に、明瞭性特徴量は、特徴量Ｓ_Ｆ＿Ｋの一次微分に相当する特徴量ΔＳ_Ｆ＿Ｋと、特徴量Ｓ_Ｄ＿Ｋの一次微分に相当する特徴量ΔＳ_Ｄ＿Ｋと、特徴量Ｓ_Ｅ＿Ｋの一次微分に相当する特徴量ΔＳ_Ｅ＿Ｋと、を含む。感情特徴量に含まれる特徴量Ｓ_Ｄ＿Ｋ、Ｓ_Ｅ＿Ｋ、ΔＳ_Ｄ＿Ｋ及びΔＳ_Ｅ＿Ｋと、明瞭性特徴量に含まれる特徴量Ｓ_Ｄ＿Ｋ、Ｓ_Ｅ＿Ｋ、ΔＳ_Ｄ＿Ｋ及びΔＳ_Ｅ＿Ｋとは、互いに同じものである。故に、特徴量Ｓ_Ａ＿Ｋ、Ｓ_Ｂ１＿Ｋ～Ｓ_Ｂ１２＿Ｋ、Ｓ_Ｃ＿Ｋ、Ｓ_Ｄ＿Ｋ及びＳ_Ｅ＿Ｋ並びにΔＳ_Ａ＿Ｋ、ΔＳ_Ｂ１＿Ｋ～ΔＳ_Ｂ１２＿Ｋ、ΔＳ_Ｃ＿Ｋ、ΔＳ_Ｄ＿Ｋ及びΔＳ_Ｅ＿Ｋと、特徴量Ｓ_Ｆ＿Ｋ及びΔＳ_Ｆ＿Ｋと、を導出することで、感情特徴量の全体と明瞭性特徴量の全体が導出されることになる。

特徴量Ｓ_Ｆ＿Ｋは、発話区間Ｋ中の入力音響信号における音の大きさに基づく特徴量である。音の大きさとはマイク部２にて収音された音の大きさを指す。ここでは音の大きさの単位がラウドネスであるとする。但し、音の大きさの単位は任意で良い（例えば音圧レベルやデシベルでも良い）。具体的には、特徴量導出部１２は、発話区間Ｋ中のフレームごとに、入力音響信号における音の大きさをラウドネス値として導出する。そして、特徴量導出部１２は、発話区間Ｋ中の第１～第Ｓフレームに対して求めたＳ個のラウドネス値の統計量（例えば平均値）を、特徴量Ｓ_Ｆ＿Ｋに含める。

更に、特徴量導出部１２は、上記Ｓ個のラウドネス値の一次微分の統計量を、特徴量ΔＳ_Ｆ＿Ｋに含める。ラウドネス値の一次微分はラウドネス値の時間方向の変化量を表す。故に、上記Ｓ個のラウドネス値の一次微分は、第１及び第２フレームに対して求めた２つのラウドネス値間の差分と、第２及び第３フレームに対して求めた２つのラウドネス値間の差分と、・・・、第（Ｓ－１）及び第Ｓフレームに対して求めた２つのラウドネス値間の差分とから成り、例えば、それらの差分の平均を特徴量ΔＳ_Ｆ＿Ｋとすることができる。

感情特徴量と判定用特徴量群との関係について補足する。特徴量Ｓ_Ａ＿Ｋ、Ｓ_Ｂ１＿Ｋ～Ｓ_Ｂ１２＿Ｋ、Ｓ_Ｃ＿Ｋ、Ｓ_Ｄ＿Ｋ及びＳ_Ｅ＿Ｋ並びにΔＳ_Ａ＿Ｋ、ΔＳ_Ｂ１＿Ｋ～ΔＳ_Ｂ１２＿Ｋ、ΔＳ_Ｃ＿Ｋ、ΔＳ_Ｄ＿Ｋ及びΔＳ_Ｅ＿Ｋは、計３２種類の特徴量に相当する。これら計３２種類の特徴量の夫々についてｕ種類の統計量（例えば、平均値、最大値、最小値及び標準偏差等）を導出すれば、計（３２×ｕ）個の統計量が得られる。ｕは１以上の任意の整数である。この計（３２×ｕ）個の統計量を、感情特徴量を構成する計（３２×ｕ）個の特徴量として、判定用特徴量群を構成する特徴量ＦＶ_１～ＦＶ_Ｎ（図４参照）に含めると良い。即ち例えば、上記の計（３２×ｕ）個の統計量を、特徴量ＦＶ_１～ＦＶ_Ｎに含まれる特徴量ＦＶ_１～ＦＶ_{（３２×ｕ）}として用いて良い。

実施例ＥＸ１＿Ａでは、感情特徴量及び明瞭性特徴量から成る音量特徴量Ｓ＿Ｋと、動き特徴量Ｍ＿Ｋとで、判定用特徴量群が形成される（図５及び図６参照）。故に例えば、感情特徴量について求めた計（３２×ｕ）個の統計量と、明瞭性特徴量について求めた計ｖ_Ｋ個の統計量と、動き特徴量Ｍ＿Ｋについて求めた計ｗ_Ｋ個の統計量とで、計（３２×ｕ＋ｖ_Ｋ＋ｗ_Ｋ）個の統計量を構成し、この計（３２×ｕ＋ｖ_Ｋ＋ｗ_Ｋ）個の統計量を特徴量ＦＶ_１～ＦＶ_Ｎとして用いることができる。この場合、特徴量ＦＶ_１～ＦＶ_Ｎにて定義されるＮ次元の特徴ベクトルは（３２×ｕ＋ｖ_Ｋ＋ｗ_Ｋ）次元の特徴ベクトルとなる。ｖ_Ｋ及びｗ_Ｋの夫々は２以上の任意の整数である。この（３２×ｕ＋ｖ_Ｋ＋ｗ_Ｋ）次元の特徴ベクトルを所定のアルゴリズム（ここではＳＶＭ）に入力することで判定結果Ｄｏｕｔが得られる（図４参照）。

このように、本実施例では、上記発話中感情傾向を考慮して、発話区間Ｋ中の入力音響信号からユーザの感情に応じた感情特徴量を導出し、感情特徴量を含む判定用特徴量群に基づきユーザの発話に対する応答の要否を判定する（換言すればユーザの発話が車載装置１への発話であるかを推定する）。このため、応答要否の推定精度（換言すればユーザの発話が車載装置１への発話であるかの推定精度）の向上が図られ、ウェイクアップワードを要することなく妥当な応答を行うことが可能となる。

また、動き特徴量Ｍ＿Ｋを判定用特徴量群に含めることでも応答要否の推定精度向上が図られる。

＜＜実施例ＥＸ１＿Ｂ＞＞
実施例ＥＸ１＿Ｂを説明する。実施例ＥＸ１＿Ｂでは、実施例ＥＸ１＿Ａに対する変形例などを説明する。

実施例ＥＸ１＿Ａにおいて、判定用特徴量群に含められると上述した特徴量の内、任意の幾つかの特徴量は判定用特徴量群から除外されても良い。即ち、実施例ＥＸ１＿Ａにおいて、図９に示される特徴量と、図７に示される特徴量との内、任意の１以上の特徴量は、判定用特徴量群から除外されても良い（判定用特徴量群に含まれていなくても良い）。

例えば、図９に示される特徴量Ｓ_Ａ＿Ｋ、Ｓ_Ｂ１＿Ｋ～Ｓ_Ｂ１２＿Ｋ、Ｓ_Ｃ＿Ｋ、Ｓ_Ｄ＿Ｋ、Ｓ_Ｅ＿Ｋ及びＳ_Ｆ＿Ｋ並びにΔＳ_Ａ＿Ｋ、ΔＳ_Ｂ１＿Ｋ～ΔＳ_Ｂ１２＿Ｋ、ΔＳ_Ｃ＿Ｋ、ΔＳ_Ｄ＿Ｋ、ΔＳ_Ｅ＿Ｋ及びΔＳ_Ｆ＿Ｋの内、任意の１以上の特徴量を判定用特徴量群から除外する変形（これを、便宜上、変形ＭＤ_１Ａと称する）を行っても良い。

また例えば、図７に示される特徴量Ｍ_Ａ＿Ｋ、Ｍ_Ｂ＿Ｋ、Ｍ_Ｃ＿Ｋ、Ｍ_Ｄ＿Ｋ及びＭ_Ｅ＿Ｋの内、任意の１以上の特徴量を判定用特徴量群から除外する変形（これを、便宜上、変形ＭＤ_１Ｂと称する）を行っても良い。

変形ＭＤ_１Ａと変形ＭＤ_１Ｂを組み合わせて実施しても良い。但し、少なくとも、感情特徴量の一部（即ち、特徴量Ｓ_Ａ＿Ｋ、Ｓ_Ｂ１＿Ｋ～Ｓ_Ｂ１２＿Ｋ、Ｓ_Ｃ＿Ｋ、Ｓ_Ｄ＿Ｋ及びＳ_Ｅ＿Ｋ並びにΔＳ_Ａ＿Ｋ、ΔＳ_Ｂ１＿Ｋ～ΔＳ_Ｂ１２＿Ｋ、ΔＳ_Ｃ＿Ｋ、ΔＳ_Ｄ＿Ｋ及びΔＳ_Ｅ＿Ｋの内の一部）は、判定用特徴量群に含めておくことが望ましい。

＜＜実施例ＥＸ２＿Ａ＞＞
実施例ＥＸ２＿Ａを説明する。図１１を参照する。実施例ＥＸ２＿Ａでは、発話区間Ｋより前の前段区間Ｐに注目して、ユーザの発話に対する応答の要否判定を行う。

主制御部１０は、マイク部２から順次供給される入力音響信号に人間の声の信号成分が含まれているか否かを継続的に監視し、その監視結果に基づいて発話区間Ｋを設定する。また、主制御部１０は、発話区間Ｋの開始時刻ｔ_Ｓよりも所定時間（例えば１秒）だけ前の時刻ｔ_ＰＳを特定し、時刻ｔ_ＰＳから開始時刻ｔ_Ｓに至る直前までの区間を前段区間Ｐに設定する。時刻ｔ_Ｓは、前段区間Ｐと発話区間Ｋとの境界に位置すると考えて良い。主制御部１０には発話区間Ｋ及び前段区間Ｐを設定する区間設定部（不図示）が設けられていると考えることができる。

発話区間Ｋの設定方法について簡単に説明を補足する。ここで述べられる発話区間Ｋの設定方法は第１実施例にも適用可能である。説明の便宜上、所定値以上の音の大きさを有する人間の声の信号成分が入力音響信号に含まれていない状態を第１状態と称し、所定値以上の音の大きさを有する人間の声の信号成分が入力音響信号に含まれている状態を第２状態と称する。音の大きさの定義は第１実施例で述べた通りである。或る第１注目時刻の以前において入力音響信号は第１状態にて維持され、第１注目時刻において入力音響信号の状態が第１状態から第２状態に切り替わり、その後、第２注目時刻において入力音響信号の状態が第２状態から第１状態に切り替わったとする。この場合、第１、第２注目時刻が、夫々、発話区間Ｋの開始時刻ｔ_Ｓ、終了時刻ｔ_Ｅに設定される。第１及び第２注目時刻間において微小時間だけ入力音響信号の状態が第１状態となった場合も、第１、第２注目時刻が、夫々、発話区間Ｋの開始時刻ｔ_Ｓ、終了時刻ｔ_Ｅに設定されて良い。

前段区間Ｐは、ユーザが明瞭に発声を行う期間ではない。このため、前段区間Ｐにおける入力音響信号に、基本的には、ユーザの発話音声の信号成分は含まれない、或いは、含まれていたとしても微小である。他方、人間がロボットに対して発話する際（ここでは車載装置１に対して指示等の発話を行う際）、発話の直前に発話内容を検討すべく沈黙するという傾向（以下、発話直前沈黙傾向と称する）がある。故に、前段区間Ｐの入力音響信号から発話直前沈黙傾向に関わる特徴量を抽出し、抽出した特徴量に基づいて応答要否判定処理を行えば応答要否の推定精度が向上すると見込まれる。

また、人間がロボットに対して発話する際（ここでは車載装置１に対して指示等の発話を行う際）、発話の直前に発話内容を検討すべく体の動きが停止する又は小さくなるという傾向（以下、発話直前停止傾向と称する）がある。故に、前段区間Ｐのカメラ画像信号から発話直前停止傾向に関わる特徴量を抽出し、抽出した特徴量に基づいて応答要否判定処理を行えば応答要否の推定精度が向上すると見込まれる。

発話直前沈黙傾向及び発話直前停止傾向を考慮し、実施例ＥＸ２＿Ａに係る特徴量導出部１２は、マイク部２から入力音響信号が供給されると（発話区間Ｋの開始が特定されると）、図１２に示す如く、前段区間Ｐにおける入力音響信号に基づき音響特徴量Ｓ＿Ｐを導出し、且つ、前段区間Ｐにおけるカメラ画像信号に基づき動き特徴量Ｍ＿Ｐを導出する（図１３も参照）。そして、実施例ＥＸ２＿Ａに係る判定部１３は、音響特徴量Ｓ＿Ｐ及び動き特徴量Ｍ＿Ｐに基づいて応答要否判定処理を実行する。従って、実施例ＥＸ２＿Ａにおける判定用特徴量群は、音響特徴量Ｓ＿Ｐ及び動き特徴量Ｍ＿Ｐを含む。

実施例ＥＸ２＿Ａにおける判定用特徴量群において、音響特徴量Ｓ＿Ｐは１種類以上の特徴量を含み、動き特徴量Ｍ＿Ｐも１種類以上の特徴量を含む。音響特徴量Ｓ＿Ｐに含まれる各種類の特徴量及び動き特徴量Ｍ＿Ｐに含まれる各種類の特徴量により、判定用特徴量群における特徴量ＦＶ_１～ＦＶ_Ｎが構成される（但し特徴量ＦＶ_１～ＦＶ_Ｎの一部のみが構成される場合があっても良い）。

図１４に、前段区間Ｐにおける音響特徴量Ｓ＿Ｐの構成を示す。音響特徴量Ｓ＿Ｐは、特徴量Ｓ_Ｆ＿Ｐと、特徴量Ｓ_Ｄ＿Ｐと、特徴量Ｓ_Ｅ＿Ｐを含む。更に、音響特徴量Ｓ＿Ｐは、特徴量Ｓ_Ｆ＿Ｐの一次微分に相当する特徴量ΔＳ_Ｆ＿Ｐと、特徴量Ｓ_Ｄ＿Ｐの一次微分に相当する特徴量ΔＳ_Ｄ＿Ｐと、特徴量Ｓ_Ｅ＿Ｐの一次微分に相当する特徴量ΔＳ_Ｅ＿Ｐと、を含む。一次微分とは時間方向の一次微分を指す。これらの特徴量を導出するにあたり、図１５に示す如く、前段区間Ｐが所定の時間長さ（例えば１０ミリ秒）を有するフレームを単位に分割され、前段区間Ｐに設定されたフレームごとに必要な演算が行われる。以下、前段区間Ｐは第１～第Ｔフレームにて構成されると考える。Ｔは２以上の整数である。実施例ＥＸ２＿Ａにおいて、以下、フレームとは、特に記述なき限り、前段区間Ｐにおけるフレームを指すものとする。任意の自然数ｉについて、第ｉフレームと第（ｉ＋１）フレームは互いに隣接し、且つ、第（ｉ＋１）フレームは第ｉフレームよりも後のフレームであるとする。

図１４に示す特徴量Ｓ_Ｆ＿Ｐ、Ｓ_Ｄ＿Ｐ、Ｓ_Ｅ＿Ｐ、ΔＳ_Ｆ＿Ｐ、ΔＳ_Ｄ＿Ｐ及びΔＳ_Ｅ＿Ｐの導出元となる入力音響信号が前段区間Ｐの入力音響信号であるのに対し、図９に示す特徴量Ｓ_Ｆ＿Ｋ、Ｓ_Ｄ＿Ｋ、Ｓ_Ｅ＿Ｋ、ΔＳ_Ｆ＿Ｋ、ΔＳ_Ｄ＿Ｋ及びΔＳ_Ｅ＿Ｋの導出元となる入力音響信号が発話区間Ｋの入力音響信号である点を除き、特徴量Ｓ_Ｆ＿Ｐ、Ｓ_Ｄ＿Ｐ、Ｓ_Ｅ＿Ｐ、ΔＳ_Ｆ＿Ｐ、ΔＳ_Ｄ＿Ｐ及びΔＳ_Ｅ＿Ｐの導出方法は、夫々、特徴量Ｓ_Ｆ＿Ｋ、Ｓ_Ｄ＿Ｋ、Ｓ_Ｅ＿Ｋ、ΔＳ_Ｆ＿Ｋ、ΔＳ_Ｄ＿Ｋ及びΔＳ_Ｅ＿Ｋの導出方法と同じである。

つまり、特徴量Ｓ_Ｆ＿Ｐ、Ｓ_Ｄ＿Ｐ、Ｓ_Ｅ＿Ｐ、ΔＳ_Ｆ＿Ｐ、ΔＳ_Ｄ＿Ｐ及びΔＳ_Ｅ＿Ｐと、特徴量Ｓ_Ｆ＿Ｋ、Ｓ_Ｄ＿Ｋ、Ｓ_Ｅ＿Ｋ、ΔＳ_Ｆ＿Ｋ、ΔＳ_Ｄ＿Ｋ及びΔＳ_Ｅ＿Ｋと、は互いに共通種類の特徴量である。より詳細には、特徴量Ｓ_Ｆ＿Ｐと特徴量Ｓ_Ｆ＿Ｋは互いに共通種類の特徴量であって、前段区間Ｐの入力音響信号から特徴量Ｓ_Ｆ＿Ｐを導出する方法と発話区間Ｋの入力音響信号から特徴量Ｓ_Ｆ＿Ｋを導出する方法は互いに同じである。同様に、特徴量Ｓ_Ｄ＿Ｐと特徴量Ｓ_Ｄ＿Ｋは互いに共通種類の特徴量であって、前段区間Ｐの入力音響信号から特徴量Ｓ_Ｄ＿Ｐを導出する方法と発話区間Ｋの入力音響信号から特徴量Ｓ_Ｄ＿Ｋを導出する方法は互いに同じである。特徴量Ｓ_Ｅ＿Ｐ及びＳ_Ｅ＿Ｋの組についても同様であり、特徴量ΔＳ_Ｆ＿Ｐ及びΔＳ_Ｆ＿Ｋの組、特徴量ΔＳ_Ｄ＿Ｐ及びΔＳ_Ｄ＿Ｋの組、並びに、特徴量ΔＳ_Ｅ＿Ｐ及びΔＳ_Ｅ＿Ｋの組についても同様である。

上述の内容から理解される事項ではあるが、以下に、特徴量Ｓ_Ｆ＿Ｐ、Ｓ_Ｄ＿Ｐ、Ｓ_Ｅ＿Ｐ、ΔＳ_Ｆ＿Ｐ、ΔＳ_Ｄ＿Ｐ及びΔＳ_Ｅ＿Ｐの導出方法を記述する。

特徴量Ｓ_Ｆ＿Ｐは、前段区間Ｐ中の入力音響信号における音の大きさに基づく特徴量である。音の大きさとはマイク部２にて収音された音の大きさを指す。ここでは音の大きさの単位がラウドネスであるとする。但し、音の大きさの単位は任意で良い（例えば音圧レベルやデシベルでも良い）。具体的には、特徴量導出部１２は、前段区間Ｐ中のフレームごとに、入力音響信号における音の大きさをラウドネス値として導出する。そして、特徴量導出部１２は、前段区間Ｐ中の第１～第Ｔフレームに対して求めたＴ個のラウドネス値の統計量（例えば平均値）を、特徴量Ｓ_Ｆ＿Ｐに含める。

更に、特徴量導出部１２は、上記Ｔ個のラウドネス値の一次微分の統計量を、特徴量ΔＳ_Ｆ＿Ｐに含める。ラウドネス値の一次微分はラウドネス値の時間方向の変化量を表す。故に、上記Ｔ個のラウドネス値の一次微分は、第１及び第２フレームに対して求めた２つのラウドネス値間の差分と、第２及び第３フレームに対して求めた２つのラウドネス値間の差分と、・・・、第（Ｔ－１）及び第Ｔフレームに対して求めた２つのラウドネス値間の差分とから成り、例えば、それらの差分の平均を特徴量ΔＳ_Ｆ＿Ｐとすることができる。

特徴量Ｓ_Ｄ＿Ｐは、前段区間Ｐ中の入力音響信号の全パワーを占める調波成分の割合に基づく特徴量であって、その時点における音が声であるかどうかの確率を表す。具体的には、特徴量導出部１２は、前段区間Ｐ中のフレームごとに、入力音響信号の全パワーを求めると共に入力音響信号の調波成分のパワーを求め、前者のパワーに対する後者のパワーの比を調波パワー割合として求める。そして、特徴量導出部１２は、前段区間Ｐ中の第１～第Ｔフレームに対して求めたＴ個の調波パワー割合の統計量（例えば平均値）を、特徴量Ｓ_Ｄ＿Ｐに含める。

更に、特徴量導出部１２は、上記Ｔ個の調波パワー割合の一次微分の統計量を、特徴量ΔＳ_Ｄ＿Ｐに含める。調波パワー割合の一次微分は調波パワー割合の時間方向の変化量を表す。故に、上記Ｔ個の調波パワー割合の一次微分は、第１及び第２フレームに対して求めた２つの調波パワー割合間の差分と、第２及び第３フレームに対して求めた２つの調波パワー割合間の差分と、・・・、第（Ｔ－１）及び第Ｔフレームに対して求めた２つの調波パワー割合間の差分とから成り、例えば、それらの差分の平均を特徴量ΔＳ_Ｄ＿Ｐとすることができる。

特徴量Ｓ_Ｅ＿Ｐは、前段区間Ｐ中の入力音響信号の基本周波数に基づく特徴量である。具体的には、特徴量導出部１２は、前段区間Ｐ中のフレームごとに、入力音響信号の基本周波数（Ｆ０）を導出する。そして、特徴量導出部１２は、前段区間Ｐ中の第１～第Ｔフレームに対して求めたＴ個の基本周波数の統計量（例えば平均値）を、特徴量Ｓ_Ｅ＿Ｐに含める。尚、第ｉフレームにおける基本周波数は、第ｉフレームの入力音響信号を複数の正弦波の合成にて表現したときの、最も低次の正弦波の周波数（即ち、最低周波数を有する正弦波の周波数）を指す。上記の調波成分は、基本周波数の整数倍（但し１倍を除く）の周波数成分を表す。

更に、特徴量導出部１２は、上記Ｔ個の基本周波数の一次微分の統計量を、特徴量ΔＳ_Ｅ＿Ｐに含める。基本周波数の一次微分は基本周波数の時間方向の変化量を表す。故に、上記Ｔ個の基本周波数の一次微分は、第１及び第２フレームに対して求めた２つの基本周波数間の差分と、第２及び第３フレームに対して求めた２つの基本周波数間の差分と、・・・、第（Ｔ－１）及び第Ｔフレームに対して求めた２つの基本周波数間の差分とから成り、例えば、それらの差分の平均を特徴量ΔＳ_Ｅ＿Ｐとすることができる。

図１６に、前段区間Ｐにおける動き特徴量Ｍ＿Ｐの構成を示す。発話直前停止傾向を考慮し、動き特徴量Ｍ＿Ｐは、前段区間Ｐ中のユーザの頭部の動きに応じた頭部動き特徴量Ｍ_Ａ＿Ｐと、前段区間Ｐ中のユーザの右肘の動きに応じた右肘動き特徴量Ｍ_Ｂ＿Ｐと、前段区間Ｐ中のユーザの左肘の動きに応じた左肘動き特徴量Ｍ_Ｃ＿Ｐと、前段区間Ｐ中のユーザの上半身の動きに応じた上半身動き特徴量Ｍ_Ｄ＿Ｐと、前段区間Ｐ中のユーザの顔の動きに応じた顔動き特徴量Ｍ_Ｅ＿Ｐと、を含む。

図１６に示す特徴量Ｍ_Ａ＿Ｐ、Ｍ_Ｂ＿Ｐ、Ｍ_Ｃ＿Ｐ、Ｍ_Ｄ＿Ｐ及びＭ_Ｅ＿Ｐの導出元となるカメラ画像信号が前段区間Ｐのカメラ画像信号であるのに対し、図７に示す特徴量Ｍ_Ａ＿Ｋ、Ｍ_Ｂ＿Ｋ、Ｍ_Ｃ＿Ｋ、Ｍ_Ｄ＿Ｋ及びＭ_Ｅ＿Ｋの導出元となるカメラ画像信号が発話区間Ｋのカメラ画像信号である点を除き、特徴量Ｍ_Ａ＿Ｐ、Ｍ_Ｂ＿Ｐ、Ｍ_Ｃ＿Ｐ、Ｍ_Ｄ＿Ｐ及びＭ_Ｅ＿Ｐの導出方法は、夫々、特徴量Ｍ_Ａ＿Ｋ、Ｍ_Ｂ＿Ｋ、Ｍ_Ｃ＿Ｋ、Ｍ_Ｄ＿Ｋ及びＭ_Ｅ＿Ｋの導出方法と同じである。

つまり、特徴量Ｍ_Ａ＿Ｐ、Ｍ_Ｂ＿Ｐ、Ｍ_Ｃ＿Ｐ、Ｍ_Ｄ＿Ｐ及びＭ_Ｅ＿Ｐと、特徴量Ｍ_Ａ＿Ｋ、Ｍ_Ｂ＿Ｋ、Ｍ_Ｃ＿Ｋ、Ｍ_Ｄ＿Ｋ及びＭ_Ｅ＿Ｋと、は互いに共通種類の特徴量である。より詳細には、特徴量Ｍ_Ａ＿Ｐと特徴量Ｍ_Ａ＿Ｋは互いに共通種類の特徴量であって、前段区間Ｐのカメラ画像信号から特徴量Ｍ_Ａ＿Ｐを導出する方法と発話区間Ｋのカメラ画像信号から特徴量Ｍ_Ａ＿Ｋを導出する方法は互いに同じである。同様に、特徴量Ｍ_Ｂ＿Ｐと特徴量Ｍ_Ｂ＿Ｋは互いに共通種類の特徴量であって、前段区間Ｐのカメラ画像信号から特徴量Ｍ_Ｂ＿Ｐを導出する方法と発話区間Ｋのカメラ画像信号から特徴量Ｍ_Ｂ＿Ｋを導出する方法は互いに同じである。特徴量Ｍ_Ｃ＿Ｐ及びＭ_Ｃ＿Ｋの組、特徴量Ｍ_Ｄ＿Ｐ及びＭ_Ｄ＿Ｋの組、並びに、特徴量Ｍ_Ｅ＿Ｐ及びＭ_Ｅ＿Ｋの組についても同様である。

上述の内容から理解される事項であるが、以下に、特徴量Ｍ_Ａ＿Ｐ、Ｍ_Ｂ＿Ｐ、Ｍ_Ｃ＿Ｐ、Ｍ_Ｄ＿Ｐ及びＭ_Ｅ＿Ｐの導出方法を記述する。

ユーザの体の部位の動きは、上述したように、Ｘ軸、Ｙ軸及びＺ軸の成分ごとに導出される。Ｘ軸、Ｙ軸及びＺ軸は実空間において固定され且つ互いに直交する３つの直線軸である（図８（ａ）参照）。特徴量導出部１２は、前段区間Ｐ中のカメラ画像信号に基づき、前段区間Ｐ中のユーザの頭部、右肘、左肘及び上半身の夫々の動きにおけるＸ軸、Ｙ軸及びＺ軸成分を求める。尚、実施例ＥＸ２＿Ａにおいて、以下、カメラ画像信号とは、特に記述なき限り、前段区間Ｐにおけるカメラ画像信号を指すものとする。

頭部動き特徴量Ｍ_Ａ＿Ｐは、前段区間Ｐ中のユーザの頭部の動きに関する統計量を含む。上述したように、統計量とは、平均値、最大値、最小値又は標準偏差などである。具体的には例えば、前段区間Ｐ中のユーザの頭部の動きにおけるＸ軸方向の平均速度、Ｙ軸方向の平均速度及びＺ軸方向の平均速度が、頭部の動きに関する３つの統計量として頭部動き特徴量Ｍ_Ａ＿Ｐに含められる。

右肘動き特徴量Ｍ_Ｂ＿Ｐは、前段区間Ｐ中のユーザの右肘の動きに関する統計量を含む。具体的には例えば、前段区間Ｐ中のユーザの右肘の動きにおけるＸ軸方向の平均速度、Ｙ軸方向の平均速度及びＺ軸方向の平均速度が、右肘の動きに関する３つの統計量として右肘動き特徴量Ｍ_Ｂ＿Ｐに含められる。

左肘動き特徴量Ｍ_Ｃ＿Ｐは、前段区間Ｐ中のユーザの左肘の動きに関する統計量を含む。具体的には例えば、前段区間Ｐ中のユーザの左肘の動きにおけるＸ軸方向の平均速度、Ｙ軸方向の平均速度及びＺ軸方向の平均速度が、左肘の動きに関する３つの統計量として左肘動き特徴量Ｍ_Ｃ＿Ｐに含められる。

上半身動き特徴量Ｍ_Ｄ＿Ｐは、前段区間Ｐ中のユーザの上半身の動きに関する統計量を含む。具体的には例えば、前段区間Ｐ中のユーザの上半身の動きにおけるＸ軸方向の平均速度、Ｙ軸方向の平均速度及びＺ軸方向の平均速度が、上半身の動きに関する３つの統計量として上半身動き特徴量Ｍ_Ｄ＿Ｐに含められる。前段区間Ｐ中のユーザの上半身の動きにおけるＸ軸方向の平均速度を求めるにあたり、前段区間Ｐ中のユーザの上半身に属する６つの部位（頭部、みぞおち、臀部の中央、肩の中央、右肩及び左肩）に注目し、当該６つの部位について前段区間Ｐ中のＸ軸方向の平均速度を個別に求める。これにより、Ｘ軸方向の平均速度が６種類求まる。即ち、前段区間Ｐ中のユーザの頭部のＸ軸方向の平均速度、みぞおちのＸ軸方向の平均速度、臀部の中央のＸ軸方向の平均速度、肩の中央のＸ軸方向の平均速度、右肩のＸ軸方向の平均速度、及び、左肩のＸ軸方向の平均速度が求まる。６つの部位について求められた計６種類のＸ軸方向の平均速度の平均を、前段区間Ｐ中のユーザの上半身の動きにおけるＸ軸方向の平均速度とする。前段区間Ｐ中のユーザの上半身の動きにおけるＹ軸方向の平均速度及びＺ軸方向の平均速度についても同様である。

また、前段区間Ｐ中のユーザの頭部の動きにおけるＸ軸方向の最大速度、Ｙ軸方向の最大速度及びＺ軸方向の最大速度も、それらの平均速度とは別に、頭部の動きに関する３つの統計量として頭部動き特徴量Ｍ_Ａ＿Ｐに含められて良い。同様に、前段区間Ｐ中のユーザの右肘の動きにおけるＸ軸方向の最大速度、Ｙ軸方向の最大速度及びＺ軸方向の最大速度も、それらの平均速度とは別に、右肘の動きに関する統計量として右肘動き特徴量Ｍ_Ｂ＿Ｐに含められて良い。左肘及び上半身についても同様である。

顔動き特徴量Ｍ_Ｅ＿Ｐは、前段区間Ｐ中のユーザの顔の動きに関する統計量を含む。ここで、顔の動きとは、顔の向きに変化をもたらす顔の動きを指す。前段区間Ｐ中のユーザの顔の動きに関する統計量として、前段区間Ｐ中のユーザの顔の向きにおけるオイラー角の平均角速度が求められる。オイラー角の平均角速度としては、ヨー方向の平均角速度と、ピッチ方向の平均角速度と、ロール方向の平均角速度と、がある。ヨー軸、ピッチ軸、ロール軸を回転軸としてユーザの顔が回転する方向が、夫々、ヨー方向、ピッチ方向、ロール方向である。ヨー軸、ピッチ軸及びロール軸の意義は実施例ＥＸ１＿Ａにて示した通りである（図８（ｂ）参照）。前段区間Ｐ中のユーザの顔の向きにおけるヨー方向の平均角速度、ピッチ方向の平均角速度及びロール方向の平均角速度が、顔の動き（顔の向きの変化）に関する３つの統計量として顔動き特徴量Ｍ_Ｅ＿Ｐに含められる。この他、前段区間Ｐ中のユーザの顔の向きにおけるヨー方向の最大角速度、ピッチ方向の最大角速度及びロール方向の最大角速度を、顔動き特徴量Ｍ_Ｅ＿Ｐに含めても良い。

実施例ＥＸ２＿Ａでは、前段区間Ｐにおける音響特徴量Ｓ＿Ｐ及び動き特徴量Ｍ＿Ｐにより判定用特徴量群が形成される（図１２及び図１３参照）。故に例えば、音響特徴量Ｓ＿Ｐについて求めた計ｖ_Ｐ個の統計量と、動き特徴量Ｍ＿Ｐについて求めた計ｗ_Ｐ個の統計量とで、計（ｖ_Ｐ＋ｗ_Ｐ）個の統計量を構成し、この計（ｖ_Ｐ＋ｗ_Ｐ）個の統計量を特徴量ＦＶ_１～ＦＶ_Ｎとして用いることができる。この場合、特徴量ＦＶ_１～ＦＶ_Ｎにて定義されるＮ次元の特徴ベクトルは（ｖ_Ｐ＋ｗ_Ｐ）次元の特徴ベクトルとなる。この（ｖ_Ｐ＋ｗ_Ｐ）次元の特徴ベクトルを所定のアルゴリズム（ここではＳＶＭ）に入力することで判定結果Ｄｏｕｔが得られる（図４参照）。ｖ_Ｐ及びｗ_Ｐの夫々は２以上の任意の整数である。

このように、本実施例では、発話直前沈黙傾向を考慮して、前段区間Ｐ中の入力音響信号から前段区間Ｐにてユーザが沈黙しているかの指標となる音響特徴量Ｓ＿Ｐを導出し、その導出結果を含む判定用特徴量群に基づいてユーザの発話に対する応答の要否を判定する（換言すればユーザの発話が車載装置１への発話であるかを推定する）。このため、応答要否の推定精度（換言すればユーザの発話が車載装置１への発話であるかの推定精度）の向上が図られ、ウェイクアップワードを要することなく妥当な応答を行うことが可能となる。

この際、発話区間Ｋの入力音響信号から抽出される特徴量と共通種類の特徴量（同じ種類の特徴量）を前段区間Ｐの入力音響信号から導出することで前段区間Ｐの音響特徴量Ｓ＿Ｐが得られる。故に、当該共通種類の特徴量を導出するための導出処理を発話区間Ｋと前段区間Ｐとで共用することができる。共用は構成の簡素化及び演算負荷の軽減に繋がり、メリットが大きい。

更に、動き特徴量Ｍ＿Ｐを判定用特徴量群に含めることでも応答要否の推定精度向上が図られる。

発話直前沈黙傾向を考慮した音響特徴量Ｓ＿Ｐ中の各構成要素（図１４参照）について説明を補足する。

前段区間Ｐにおいて、音の大きさが小さいほどユーザが沈黙している可能性が高い。このため、前段区間Ｐにおける音の大きさが小さいほど判定用特徴量群が第１クラスに分類されやすくなる（即ち判定結果Ｄｏｕｔの値が“１”になりやすくなる）。つまり、前段区間Ｐにおける音の大きさが小さいほど判定用特徴量群が第１クラスに分類されやすくなるよう、ＳＶＭが形成されて特徴量Ｓ_Ｆ＿Ｐに基づき応答要否判定処理が実行される。

前段区間Ｐにおいて、人間の声がマイク部２にて収音されていない場合、ユーザが沈黙している可能性が高い。人間の声がマイク部２にて収音されていない場合、入力音響信号の全パワーを占める調波成分のパワーの割合（調波パワー割合）は小さくなる。このため、前段区間Ｐにおける調波パワー割合が小さいほど判定用特徴量群が第１クラスに分類されやすくなる（即ち判定結果Ｄｏｕｔの値が“１”になりやすくなる）。つまり、前段区間Ｐにおける調波パワー割合が小さいほど判定用特徴量群が第１クラスに分類されやすくなるよう、ＳＶＭが形成されて特徴量Ｓ_Ｄ＿Ｐに基づき応答要否判定処理が実行される。

特徴量Ｓ_Ｅ＿Ｐは、上述の如く、前段区間Ｐの入力音響信号の基本周波数（Ｆ０）に対応している。一方、入力音響信号の基本周波数の変化量が小さい状態は、ユーザが継続的に発声している状態又はユーザが継続的に沈黙している状態に相当すると考えられる。故に、前段区間Ｐにおける音の大きさ及び調波パワー割合が小さい状態であって、且つ、前段区間Ｐの入力音響信号の基本周波数の変化量が小さい特定状態は、ユーザが継続的に沈黙している状態に相当すると考えられる。従って、特定状態において、判定用特徴量群が第１クラスに分類されやすくなるよう又は第１クラスに分類されるよう、ＳＶＭを形成して音響特徴量Ｓ＿Ｐ中の各構成要素（図１４参照）に基づき応答要否判定処理が実行すると良い。上記の特定状態では、例えば、前段区間Ｐ中の第１～第Ｔフレームに対して求めたＴ個のラウドネス値の平均値が第１所定値以下であって、且つ、前段区間Ｐ中の第１～第Ｔフレームに対して求めたＴ個の調波パワー割合の平均値が第２所定値以下であって、且つ、前段区間Ｐにおける入力音響信号の基本周波数のフレーム間変化量（即ち基本周波数の一次微分の値）の平均値が第３所定値以下である。

＜＜実施例ＥＸ２＿Ｂ＞＞
実施例ＥＸ２＿Ｂを説明する。実施例ＥＸ２＿Ｂでは、実施例ＥＸ２＿Ａに対する変形例などを説明する。

実施例ＥＸ２＿Ａにおいて、判定用特徴量群に含められると上述した特徴量の内、任意の幾つかの特徴量は判定用特徴量群から除外されても良い。即ち、実施例ＥＸ２＿Ａにおいて、図１４に示される特徴量Ｓ_Ｆ＿Ｐ、Ｓ_Ｄ＿Ｐ及びＳ_Ｅ＿Ｐ並びにΔＳ_Ｆ＿Ｐ、ΔＳ_Ｄ＿Ｐ及びΔＳ_Ｅ＿Ｐと、図１６に示される特徴量Ｍ_Ａ＿Ｐ、Ｍ_Ｂ＿Ｐ、Ｍ_Ｃ＿Ｐ、Ｍ_Ｄ＿Ｐ及びＭ_Ｅ＿Ｐと、の内、任意の１以上の特徴量を、判定用特徴量群から除外する変形（これを、便宜上、変形ＭＤ_２Ａと称する）を行っても良い。

実施例ＥＸ２＿Ａにおいて、判定部１３は、発話区間Ｋにおける音響特徴量Ｓ＿Ｋ（図９参照）を判定用特徴量群に含めて応答要否判定処理を実行しても良い。即ち、実施例ＥＸ２＿Ａにおいて、図９に示される特徴量Ｓ_Ａ＿Ｋ、Ｓ_Ｂ１＿Ｋ～Ｓ_Ｂ１２＿Ｋ、Ｓ_Ｃ＿Ｋ、Ｓ_Ｄ＿Ｋ、Ｓ_Ｅ＿Ｋ及びＳ_Ｆ＿Ｋ並びにΔＳ_Ａ＿Ｋ、ΔＳ_Ｂ１＿Ｋ～ΔＳ_Ｂ１２＿Ｋ、ΔＳ_Ｃ＿Ｋ、ΔＳ_Ｄ＿Ｋ、ΔＳ_Ｅ＿Ｋ及びΔＳ_Ｆ＿Ｋの全部又は一部（図９に示される特徴量の内、任意の１以上の特徴量）を、判定用特徴量群に追加する変形（これを、便宜上、変形ＭＤ_２Ｂと称する）を行っても良い。

特に発話中感情傾向を考慮し、発話区間Ｋの音響特徴量Ｓ＿Ｋにおける感情特徴量（図９参照）を判定用特徴量群に含めてことが好ましく、これにより、応答要否の推定精度（換言すればユーザの発話が車載装置１への発話であるかの推定精度）の更なる向上が期待される。

また、実施例ＥＸ２＿Ａにおいて、判定部１３は、発話区間Ｋにおける動き特徴量Ｍ＿Ｋ（図７参照）を判定用特徴量群に含めて応答要否判定処理を実行しても良い。即ち、実施例ＥＸ２＿Ａにおいて、図７に示される特徴量Ｍ_Ａ＿Ｋ、Ｍ_Ｂ＿Ｋ、Ｍ_Ｃ＿Ｋ、Ｍ_Ｄ＿Ｋ及びＭ_Ｅ＿Ｋの全部又は一部（図７に示される特徴量の内、任意の１以上の特徴量）を、判定用特徴量群に追加する変形（これを、便宜上、変形ＭＤ_２Ｃと称する）を行っても良い。

変形ＭＤ_２Ａ、ＭＤ_２Ｂ及びＭＤ_２Ｃの内、任意の２以上の変形を組み合わせて実施しても良い。但し、発話区間Ｋの入力音響信号に基づく特徴量を判定用特徴量群に含める場合、判定用特徴量群に含められる、前段区間Ｐの入力音響信号に基づく特徴量と、発話区間Ｋの入力音響信号に基づく特徴量とは、互いに共通の種類の特徴量を含んでいると良い。

また、前段区間Ｐに関する動き特徴量Ｍ＿Ｐは、右肘動き特徴量Ｍ_Ｂ＿Ｐ、左肘動き特徴量Ｍ_Ｃ＿Ｐ及び上半身動き特徴量Ｍ_Ｄ＿Ｐを含まないものであっても良い（即ち判定用特徴量群に含まれなくて良い）。頭部の動き及び顔の向きの変化において発話直前停止傾向が顕著に表れるので、前段区間Ｐに関する動き特徴量Ｍ＿Ｐに頭部動き特徴量Ｍ_Ａ＿Ｐ及び顔動き特徴量Ｍ_Ｅ＿Ｐを含めておけば、十分なケースも多いと考えられるからである。

＜＜実施例ＥＸ３＞＞
実施例ＥＸ３を説明する。実施例ＥＸ３では、上述の実施例ＥＸ１＿Ａ、ＥＸ１＿Ｂ、ＥＸ２＿Ａ及びＥＸ２＿Ｂに対して適用可能な補足事項や応用技術などを説明する。

判定部１３は、判定用特徴量群が第１クラス及び第２クラスの何れに分類されたかのみに基づいて応答の要否を判定することができる（即ち判定結果Ｄｏｕｔの値を決定しても良い）。但し、判定部１３は、判定用特徴量群と、他の情報とに基づいて、応答の要否を判定しても良い（即ち判定結果Ｄｏｕｔの値を決定しても良い）。他の情報の代表例として、発話区間Ｋにおけるユーザの発話内容が挙げられる。即ち、判定部１３は、判定用特徴量群と、発話区間Ｋにおけるユーザの発話内容を表す発話テキストデータと、に基づいて、応答の要否を判定しても良い（即ち判定結果Ｄｏｕｔの値を決定しても良い）。例えば、ユーザの発話が車載装置１に対する発話であることが発話テキストデータから明確に認識される場合、応答が必要であると判定して判定結果Ｄｏｕｔに“１”を設定することができる。

車載装置１には、ユーザの発話に対して応答可能な音声認識応答装置が内包されている。図１の構成においては主制御部１０により音声認識応答装置が構成される。

車載装置１にて具体化された本発明を、車載用途とは異なる任意の用途に適用することも可能である。従って、音声認識応答装置の機能を実現する主制御部１０を、車載装置とは異なる任意の装置に設けておくことができる。

本発明に係る任意の装置（例えば音声認識応答装置又は車載装置）を、便宜上、対象装置と称する。対象装置を、集積回路等のハードウェア、或いは、ハードウェアとソフトウェアの組み合わせによって構成することができる。対象装置にて実現される機能の全部又は一部である任意の特定の機能をプログラムとして記述して、該プログラムを対象装置に搭載可能なメモリに保存しておいても良い。そして、該プログラムをプログラム実行装置（例えば、対象装置に搭載可能なマイクロコンピュータ）上で実行することによって、その特定の機能を実現するようにしても良い。上記プログラムは任意の記録媒体に記憶及び固定されうる。上記プログラムを記憶及び固定する記録媒体は対象装置と異なる機器（サーバ機器等）に搭載又は接続されても良い。

本発明の実施形態は、特許請求の範囲に示された技術的思想の範囲内において、適宜、種々の変更が可能である。以上の実施形態は、あくまでも、本発明の実施形態の例であって、本発明ないし各構成要件の用語の意義は、以上の実施形態に記載されたものに制限されるものではない。上述の説明文中に示した具体的な数値は、単なる例示であって、当然の如く、それらを様々な数値に変更することができる。

＜＜付記＞＞
本発明について付記を設ける。

本発明の一側面に係る音声認識応答装置は、以下の構成Ｗ_Ａ１を有する。構成Ｗ_Ａ１に係る音声認識応答装置は（図１、図５、図６及び図９参照）、ユーザの発話に対して応答可能な音声認識応答装置（１０）であって、前記ユーザの発話区間（Ｋ）の音響信号を含む入力音響信号から前記ユーザの感情量を示す感情特徴量を含む音響特徴量（Ｓ＿Ｋ）を導出する特徴量導出部（１２）と、前記音響特徴量に基づいて前記ユーザの発話に対する前記応答の要否を判定する（換言すれば、前記ユーザの発話が当該音声認識応答装置に対する発話である否かを判定する）判定部（１３）と、を備える。

構成Ｗ_Ａ２に係る音声認識応答装置は（図９参照）、上記構成Ｗ_Ａ１に係る音声認識応答装置において、前記感情特徴量は、前記入力音響信号の音量の二乗平均平方根に基づく第１特徴量（Ｓ_Ａ＿Ｋ）、前記入力音響信号のメル周波数ケプストラム係数に基づく第２特徴量（Ｓ_Ｂ１＿Ｋ等）、前記入力音響信号のゼロ交差率に基づく第３特徴量（Ｓ_Ｃ＿Ｋ）、前記入力音響信号の全パワーを占める調波成分の割合に基づく第４特徴量（Ｓ_Ｄ＿Ｋ）、及び、前記入力音響信号の基本周波数に基づく第５特徴量（Ｓ_Ｅ＿Ｋ）、を含む。

構成Ｗ_Ａ３に係る音声認識応答装置は（図９参照）、上記構成Ｗ_Ａ２に係る音声認識応答装置において、前記感情特徴量は、前記入力音響信号の音量の二乗平均平方根の一次微分に基づく第６特徴量（ΔＳ_Ａ＿Ｋ）、前記入力音響信号のメル周波数ケプストラム係数の一次微分に基づく第７特徴量（ΔＳ_Ｂ１＿Ｋ等）、前記入力音響信号のゼロ交差率の一次微分に基づく第８特徴量（ΔＳ_Ｃ＿Ｋ）、前記入力音響信号の全パワーを占める調波成分の割合の一次微分に基づく第９特徴量（ΔＳ_Ｄ＿Ｋ）、及び、前記入力音響信号の基本周波数の一次微分に基づく第１０特徴量（ΔＳ_Ｅ＿Ｋ）、を含む。

尚、第２特徴量の例として、上述の実施形態では特徴量Ｓ_Ｂ１＿Ｋ～Ｓ_Ｂ１２＿Ｋを挙げているが、第２特徴量は、計１２種類の特徴量Ｓ_Ｂ１＿Ｋ～Ｓ_Ｂ１２＿Ｋの内、任意の１種類以上の特徴量を含むものであって良い。同様に、第７特徴量の例として、上述の実施形態では特徴量ΔＳ_Ｂ１＿Ｋ～ΔＳ_Ｂ１２＿Ｋを挙げているが、第７特徴量は、計１２種類の特徴量ΔＳ_Ｂ１＿Ｋ～ΔＳ_Ｂ１２＿Ｋの内、任意の１種類以上の特徴量を含むものであって良い。

構成Ｗ_Ａ４に係る音声認識応答装置は（図５、図６及び図７参照）、上記構成Ｗ_Ａ１～Ｗ_Ａ３の何れかに係る音声認識応答装置において、前記特徴量導出部は、前記音響特徴量とは別に、前記ユーザの発話区間における前記ユーザの体の動きに基づいた動き特徴量（Ｍ＿Ｋ）を導出し、前記判定部は、前記音響特徴量及び前記動き特徴量を含む判定用特徴量群に基づいて前記応答の要否を判定する。

構成Ｗ_Ａ５に係る音声認識応答装置は、上記構成Ｗ_Ａ４に係る音声認識応答装置において、前記判定部は、所定のアルゴリズムに従って（例えばサポートベクタマシンを用いて）前記判定用特徴量群を第１クラス又は第２クラスに分類し、前記判定用特徴量群が前記第１クラスに分類される場合に、前記応答が必要であると判定する。

本発明の他の一側面に係る音声認識応答装置は、以下の構成Ｗ_Ｂ１を有する。構成Ｗ_Ｂ１に係る音声認識応答装置は（図１、図９、図１１、図１２、図１３及び図１４参照）、ユーザの発話に対して応答可能な音声認識応答装置（１０）であって、前記ユーザの発話の音響信号を含む第１入力音響信号を受けたとき、前記ユーザの発話区間より前の前段区間（Ｐ）における第２入力音響信号から特徴量（例えばＳ_Ｆ＿Ｐ）を導出する特徴量導出部（１２）と、前記特徴量導出部の導出結果に基づいて前記応答の要否を判定する判定部（１３）と、を備える。

構成Ｗ_Ｂ２に係る音声認識応答装置は（図９、図１２、図１３及び図１４参照）、上記構成Ｗ_Ｂ１に係る音声認識応答装置において、前記特徴量導出部は、前記第２入力音響信号から前記特徴量としての第２特定特徴量（例えばＳ_Ｆ＿Ｐ）を含む第２音響特徴量（Ｓ＿Ｐ）を導出するとともに、前記第１入力音響信号から第１特定特徴量（例えばＳ_Ｆ＿Ｋ）を含む第１音響特徴量（Ｓ＿Ｋ）を導出し、前記第２特定特徴量の種類は前記第１特定特徴量の種類と同じである。

構成Ｗ_Ｂ３に係る音声認識応答装置は（図９参照）、上記構成Ｗ_Ｂ２に係る音声認識応答装置において、前記特徴量導出部は、前記第１特定特徴量とは別に、前記第１入力音響信号から前記ユーザの感情に応じた感情特徴量を導出し、前記第１音響特徴量は前記感情特徴量を含む。

構成Ｗ_Ｂ４に係る音声認識応答装置は（図１１、図１２及び図１３参照）、上記構成Ｗ_Ｂ２又はＷ_Ｂ３に係る音声認識応答装置において、前記特徴量導出部は、前記第２音響特徴量（Ｓ＿Ｐ）に加えて、前記前段区間における前記ユーザの体の動きに基づいた動き特徴量（Ｍ＿Ｐ）を導出し、前記判定部は、前記第２音響特徴量及び前記動き特徴量を含む判定用特徴量群に基づいて、前記応答の要否を判定する。

構成Ｗ_Ｂ５に係る音声認識応答装置は（図９参照）、上記構成Ｗ_Ｂ４に係る音声認識応答装置において、前記判定部は、所定のアルゴリズムに従って（例えばサポートベクタマシンを用いて）前記判定用特徴量群を第１クラス又は第２クラスに分類し、前記判定用特徴量群が前記第１クラスに分類される場合に、前記応答が必要であると判定する。

ＳＹＳ車載システム
１車載装置
２マイク部
３カメラ部
４ＧＰＳ処理部
５車載センサ部
１０主制御部
１１音声認識部
１２特徴量導出部
１３判定部
１４応答処理部
２０計時部
３０メモリ部
４０通信モジュール
５０インターフェース部
５１表示部
５２スピーカ部
５３操作部
ＣＲ車両

Claims

ユーザの発話に対して応答可能な音声認識応答装置であって、
前記ユーザの発話の音響信号を含む第１入力音響信号を受けたとき、前記ユーザの発話区間より前の前段区間における第２入力音響信号から特徴量を導出する特徴量導出部と、
前記特徴量導出部の導出結果に基づいて前記応答の要否を判定する判定部と、を備える
、音声認識応答装置。
前記特徴量導出部は、前記第２入力音響信号から前記特徴量としての第２特定特徴量を含む第２音響特徴量を導出するとともに、前記第１入力音響信号から第１特定特徴量を含む第１音響特徴量を導出し、
前記第２特定特徴量の種類は前記第１特定特徴量の種類と同じである
、請求項１に記載の音声認識応答装置。
前記特徴量導出部は、前記第１特定特徴量とは別に、前記第１入力音響信号から前記ユーザの感情に応じた感情特徴量を導出し、
前記第１音響特徴量は前記感情特徴量を含む
、請求項２に記載の音声認識応答装置。
前記特徴量導出部は、前記第２音響特徴量に加えて、前記前段区間における前記ユーザの体の動きに基づいた動き特徴量を導出し、
前記判定部は、前記第２音響特徴量及び前記動き特徴量を含む判定用特徴量群に基づいて、前記応答の要否を判定する
、請求項２又は３に記載の音声認識応答装置。
前記判定部は、所定のアルゴリズムに従って前記判定用特徴量群を第１クラス又は第２クラスに分類し、前記判定用特徴量群が前記第１クラスに分類される場合に、前記応答が必要であると判定する
、請求項４に記載の音声認識応答装置。
車両に搭載される車載装置であって、
請求項１～５の何れかに記載の音声認識応答装置を備えた
、車載装置。
ユーザの発話に対して応答可能な音声認識応答方法であって、
前記ユーザの発話の音響信号を含む第１入力音響信号を受けたとき、前記ユーザの発話区間より前の前段区間における第２入力音響信号から特徴量を導出する特徴量導出ステップと、
前記特徴量導出ステップの導出結果に基づいて前記応答の要否を判定する判定ステップと、を備える
、音響認識応答方法。