JP2022118998A - 音声認識応答装置及び方法並びに車載装置 - Google Patents
音声認識応答装置及び方法並びに車載装置 Download PDFInfo
- Publication number
- JP2022118998A JP2022118998A JP2021015910A JP2021015910A JP2022118998A JP 2022118998 A JP2022118998 A JP 2022118998A JP 2021015910 A JP2021015910 A JP 2021015910A JP 2021015910 A JP2021015910 A JP 2021015910A JP 2022118998 A JP2022118998 A JP 2022118998A
- Authority
- JP
- Japan
- Prior art keywords
- feature
- user
- feature amount
- utterance
- feature quantity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Navigation (AREA)
Abstract
【課題】音声操作においてウェイクアップワード等を不要とする。【解決手段】ユーザの発話に対して応答可能な音声認識応答装置であって、ユーザの発話の音響信号を含む第1入力音響信号を受けたとき、ユーザの発話区間より前の前段区間(P)における第2入力音響信号から特徴量を導出する特徴量導出部と、特徴量導出部の導出結果に基づいて応答の要否を判定する判定部と、を備える。【選択図】図13
Description
本発明は、音声認識応答装置及び方法並びに車載装置に関する。
音声操作が可能な装置が提案及び実用化されている。音声操作においてユーザは装置に向けて発話し、この発話の中で装置に対して様々な指示を与えることができる。装置に向けた発話がユーザからあったとき、装置はユーザの発話に対して応答する。例えば、ユーザが発話により「今日の天気を教えて」という指示を装置に与えたとき、装置は現在地における天気予報を取得して、取得した天気予報をユーザに通知する応答を行う。
但し、人同士の会話の中での発話に対して装置が応答したり、ユーザの独り言に対して装置が応答したりすることは望ましくない。このため、音声操作が可能な装置においては、通常、予めウェイクアップワードが設定されており、ユーザはウェイクアップワードの発話に続いて指示を含む発話を行う。装置は、ウェイクアップワードの発話を受けて、それに続く発話が自身(装置)に対する発話であると明確に認識することができ、当該発話に対して正しく応答することができる。また、ウェイクアップワードの代わりにボタン操作等が利用されることもある。
しかしながら、ウェイクアップワードの発話等を逐一要するのはユーザにとって煩わしい。ウェイクアップワード等を要することなく、ユーザの発話が装置に対する発話であるのかを認識し、当該発話に対する応答要否を正しく判定できれば、利便性が高い。
本発明は、ウェイクアップワード等を要することなくユーザの発話に対する応答要否を高精度で判定可能な音声認識応答装置及び方法並びに車載装置を提供することを目的とする。
本発明に係る音声認識応答装置は、ユーザの発話に対して応答可能な音声認識応答装置であって、前記ユーザの発話の音響信号を含む第1入力音響信号を受けたとき、前記ユーザの発話区間より前の前段区間における第2入力音響信号から特徴量を導出する特徴量導出部と、前記特徴量導出部の導出結果に基づいて前記応答の要否を判定する判定部と、を備える構成(第1の構成)である。
上記第1の構成に係る音声認識応答装置において、前記特徴量導出部は、前記第2入力音響信号から前記特徴量としての第2特定特徴量を含む第2音響特徴量を導出するとともに、前記第1入力音響信号から第1特定特徴量を含む第1音響特徴量を導出し、前記第2特定特徴量の種類は前記第1特定特徴量の種類と同じである構成(第2の構成)であっても良い。
上記第2の構成に係る音声認識応答装置において、前記特徴量導出部は、前記第1特定特徴量とは別に、前記第1入力音響信号から前記ユーザの感情に応じた感情特徴量を導出し、前記第1音響特徴量は前記感情特徴量を含む構成(第3の構成)であっても良い。
上記第2又は第3の構成に係る音声認識応答装置において、前記特徴量導出部は、前記第2音響特徴量に加えて、前記前段区間における前記ユーザの体の動きに基づいた動き特徴量を導出し、前記判定部は、前記第2音響特徴量及び前記動き特徴量を含む判定用特徴量群に基づいて、前記応答の要否を判定する構成(第4の構成)であっても良い。
上記第4の構成に係る音声認識応答装置において、前記判定部は、所定のアルゴリズムに従って前記判定用特徴量群を第1クラス又は第2クラスに分類し、前記判定用特徴量群が前記第1クラスに分類される場合に、前記応答が必要であると判定する構成(第5の構成)であっても良い。
本発明に係る車載装置は、車両に搭載される車載装置であって、上記第1~第5の構成の何れかに係る音声認識応答装置を備えた構成(第6の構成)である。
本発明に係る音声認識応答方法は、ユーザの発話に対して応答可能な音声認識応答方法であって、前記ユーザの発話の音響信号を含む第1入力音響信号を受けたとき、前記ユーザの発話区間より前の前段区間における第2入力音響信号から特徴量を導出する特徴量導出ステップと、前記特徴量導出ステップの導出結果に基づいて前記応答の要否を判定する判定ステップと、を備える構成(第7の構成)である。
本発明によれば、ウェイクアップワード等を要することなくユーザの発話に対する応答要否を高精度で判定可能な音声認識応答装置及び方法並びに車載装置を提供することが可能となる。
以下、本発明の実施形態の例を、図面を参照して具体的に説明する。参照される各図において、同一の部分には同一の符号を付し、同一の部分に関する重複する説明を原則として省略する。尚、本明細書では、記述の簡略化上、情報、信号、物理量又は部材等を参照する記号又は符号を記すことによって、該記号又は符号に対応する情報、信号、物理量又は部材等の名称を省略又は略記することがある。例えば、後述の“MA_K”によって参照される頭部動き特徴量MA_Kは(図7参照)、頭部動き特徴量MA_Kと表記されることもあるし、特徴量MA_Kと略記されることもあり得るが、それらは全て同じものを指す。
図1は本実施形態に係る車載システムSYSの全体構成図である。車載システムSYSは、図2に示す如く車両CRに搭載される。ここでは、車両CRが路面上を走行可能な車両(自動車等)であることを想定するが、車両CRは任意の種類の車両であって良い。車載システムSYSの各構成要素は車両CR内の適所に設置される。
車載システムSYSは、車載装置1、マイク部2、カメラ部3、GPS処理部4及び車載センサ部5を備える。車載装置1と、マイク部2、カメラ部3、GPS処理部4及び車載センサ部5の夫々とは、互いに直接接続されるか、或いは、車両CR内に形成されたCAN(Controller Area Network)を通じて接続される。マイク部2、カメラ部3、GPS処理部4及び車載センサ部5の内、全部又は任意の一部は、車載装置1の構成要素に含まれると解しても良い。
マイク部2は自身の周辺音を音響信号に変換して出力するマイクロホンから成る。このマイクロホンの出力音響信号は、マイク部2の出力音響信号として車載装置1に送られる。マイク部2は、ユーザの発話内容を収音することを目的の1つとし、ユーザの発話内容を収音可能な位置に配置される。従って、ユーザの発話区間におけるマイク部2の出力音響信号は、ユーザの発話内容の音響信号を含む。ユーザとは車載システムSYSのユーザであり、ここでは車両CRの運転手がユーザであるとする。但し、車両CRの乗員の内、運転手以外の人物がユーザにもなり得る。
カメラ部3は、車両CRの車内に設置され、車内に視野(撮影範囲)を持つカメラである。カメラ部3は、自身の視野内の様子を所定のフレームレートで順次撮影して、撮影結果を示すカメラ画像の画像信号(画像データ)を生成する。カメラ部3は、生成したカメラ画像の画像信号(以下、カメラ画像信号と称する)を順次車載装置1に送る。カメラ部3は、ユーザを撮影することを目的の1つとし、カメラ部3の視野にユーザの全身が含まれる、或いは、カメラ部3の視野に少なくともユーザの上半身が含まれる。ユーザの上半身は、ユーザの顔、頭部、腕及び上半身を含む。故に、カメラ画像信号はユーザの撮影結果を含む。カメラ部3は単一のカメラにて構成されることもあるし、複数のカメラにて構成されることもある。
GPS処理部4は、GPS(Global Positioning System)を形成する複数のGPS衛星からの信号を受信することで車両CRの位置(現在地)を検出し、検出位置を示す車両位置情報を生成する。車両CRの位置とは車両CRの存在位置を意味する。車両位置情報では、車両CRの位置(現在地)が、地球上における経度及び緯度によって表現される。車両位置情報は所定周期で順次生成され、生成された車両位置情報は順次車載装置1に送られる。
車載センサ部5は、車両CRに設置された複数の車載センサから成り、各車載センサを用いて車載センサ情報を生成する。車載センサ情報は所定周期で順次生成され、取得された車載センサ情報は順次車載装置1に送られる。車載センサ情報は、車両CRの速度を表す車速情報、車両CRに設けられたアクセルペダルの踏み込み量を表すアクセル情報、車両CRに設けられたブレーキペダルの踏み込み量を表すブレーキ情報、及び、車両CRに設けられたステアリングホイールの操舵角を表す操舵角情報などを含む。
車載装置1は、主制御部10、計時部20、メモリ部30、通信モジュール40及びインターフェース部50を備える。
主制御部10は、音声認識部11、特徴量導出部12、判定部13及び応答処理部14を備える他、車載装置1の各部位の動作を統括的に制御する機能を備える。主制御部10は、CPU(Central Processing Unit)、ROM(Read only memory)及びRAM(Random access memory)等にて構成され、ROMに格納されたプログラムをCPUが実行することで、音声認識部11、特徴量導出部12、判定部13及び応答処理部14の機能が実現されて良い。
計時部20は、現在の日付及び時刻を示す時刻情報を生成して主制御部10に送る。GPS処理部4の受信信号を用いて時刻情報が生成又は修正されても良い。
メモリ部30は、主制御部10の制御の下で任意の情報及びデータの読み書きを行う。メモリ部30において、マイク部2の出力音響信号及びカメラ部3のカメラ画像信号を所定の一定時間分だけ一時的に記憶するリングバッファが形成される。マイク部2の出力音響信号とカメラ部3のカメラ画像信号とを含む信号を、便宜上、AV信号と称する。或る時刻においてマイク部2及びカメラ部3により生成されたAV信号には、AV信号の生成時刻を表す時刻情報が付加される。リングバッファにおいて、一定時間分のAV信号が記録された状態で、新たに記録すべきAV信号が発生すると、最も古くに記録されたAV信号に対し、最新のAV信号が上書きして記録される。このため、常に最新の一定時間分のAV信号がリングバッファにて保持される。
通信モジュール40は、車載装置1以外の装置(例えばインターネット網に接続されたサーバ装置)と車載装置1との間で情報を送受信するための通信機能を備え、その情報の送受信は任意の無線通信回線を介して行われる。尚、通信モジュール40は車載装置1の外部に設けられていても良い。
インターフェース部50は、車載装置1とユーザとの間のマンマシンインターフェースであり、表示部51、スピーカ部52及び操作部53を備える。表示部51は液晶ディスプレイパネル等にて構成される表示装置であり、主制御部10の制御の下で任意の画像を表示できる。スピーカ部52は主制御部10の制御の下で任意の音を出力できる。即ち、主制御部10は、表示部51を用いて視覚的に又はスピーカ部52を用いて聴覚的に任意の情報をユーザに出力できる。操作部53はユーザから任意の操作の入力を受け付ける。表示部51及び操作部53によりタッチパネルが構成されていても良く、操作部53への操作はタッチパネルに対する操作であっても良い。尚、表示部51、スピーカ部52及び操作部53の内の全部又は一部は車載装置1の外部に設けられていても良い。
車載装置1は、車両CRの目的地までの経路を案内するナビゲーション機能、AV信号を図示されない不揮発性の記録媒体に記録するドライブレコーディング機能、オーディオデータやビデオデータを再生する機能、テレビ放送波又はラジオ放送波を受信して受信放送波による映像又は音声を出力する機能など、各種の機能を備えていて良い。ここでは、車載装置1にて少なくともナビゲーション機能が実現されるものとする。この場合、車載装置1はカーナビゲーション装置に分類され得るが、車載装置1はカーナビゲーション装置以外の装置に分類されるものであっても良い。
ユーザは車載装置1を音声操作することができる。音声操作においてユーザは車載装置1に向けて発話し、この発話の中でユーザは所定の又は任意の指示を車載装置1に与えることができる。ユーザによる指示は、車載装置1に対して何らかの回答を求める問い合わせであり得る。車載装置1に向けた発話がユーザからあったとき、車載装置1は、ユーザの発話に対して応答する応答処理を行う。応答処理は、応答処理部14により実行される。応答処理における応答は、ユーザに対する音声応答及び表示応答の少なくとも一方を含んでいて良い。音声応答は、スピーカ部52からの音声出力により実現される。表示応答は、表示部51での文字や画像の表示により実現される。運転操作の従事などによりユーザが表示部51を見がたいことも考えられるため、応答処理における応答は少なくとも音声応答を含んでいると良い。
ところで、ユーザの発話は車載装置1に向けられたものでないこともある。即ち例えば、運転手としてのユーザとは別に同乗者が車両CRに搭乗している場合、運転手としてのユーザと同乗者との間の会話においてユーザが発話を行う場合もある。また例えば、ユーザが独り言を発する場合もある。このような人同士の会話の中での発話や独り言に対して車載装置1は応答すべきでない。発話が装置に向けたものであるか否かを明確に装置に認識させるべく、ウェイクアップワードを設定しておき、ウェイクアップワードに続く発話のみを装置への発話と捉える方法が広く用いられている。しかしながら、ウェイクアップワードの発話を逐一要するのはユーザにとって煩わしい。
本実施形態に係る車載装置1では、ウェイクアップワードを要することなく、ユーザの発話が車載装置1への発話であるか否かを判定する。この判定は主制御部10(特に特徴量導出部12及び判定部13)により実現される。以下、主制御部10を構成する各機能ブロックの動作について説明する。尚、マイク部2の出力音響信号は、車載装置1にとっての入力音響信号である。以下の説明において、入力音響信号とは、マイク部2の出力音響信号に相当する、車載装置1にとっての入力音響信号を指すものとする。
音声認識部11は、マイク部2から入力音響信号が供給されると、供給された入力音響信号に基づきユーザの発話内容を認識してテキストデータ(文字列)に変換する。この変換により生成される、ユーザの発話内容を示すテキストデータを発話テキストデータと称する。
特徴量導出部12は、マイク部2から入力音響信号が供給されると、供給された入力音響信号及びカメラ画像信号の内、少なくとも一方から、ユーザの発話が車載装置1への発話であるか否かの峻別に有益な特徴量を導出する。
判定部13は、特徴量導出部12により導出された特徴量に基づき、ユーザの発話が車載装置1への発話であるか否かを判定する。ユーザの発話が車載装置1への発話である場合にはユーザの発話に対する応答が必要であり、ユーザの発話が人同士の会話における発話である場合又はユーザの独り言である場合には、ユーザの発話に対する応答は不要である。このため、ユーザの発話が車載装置1への発話であるか否かの判定は、ユーザの発話に対する応答の要否の判定と等価である。従って、判定部13は、特徴量導出部12により導出された特徴量に基づき、ユーザの発話に対する応答の要否を判定するとも言える(このように考えた場合、判定部13を応答要否判定部と称することもできる)。以下では、判定部13はユーザの発話に対する応答の要否を判定すると考える。また、ユーザの発話に対して応答が必要であることを応答義務ありと表現することがあり、ユーザの発話に対して応答が必要でない(即ち不要である)ことを応答義務なしと表現することがある。
応答処理部14は、判定部13により応答義務ありと判定された場合、発話テキストデータに基づきユーザの指示を判定(理解)し、ユーザの指示に応じた応答処理を実行することでユーザの発話に対して応答する。判定部13により応答義務なしと判定された場合、応答処理部14は、応答処理を実行しない(即ち、ユーザの発話に対して応答しない)。尚、本実施形態では、応答処理部14がユーザの指示を判定(理解)する機能を持つが、応答処理部14以外の他の構成要素が当該機能を実現しても良い。当該他の構成要素は、例えば、主制御部10に設けることのできる指示解釈部(不図示)であっても良いし、車載装置1の外部装置(通信モジュール40を介し車載装置1と双方向通信が可能なサーバ装置等)であっても良い。
応答処理の具体的な内容はユーザの発話内容に依存する。例えば、ユーザが発話により「ABC博物館を目的地に設定して」という指示を車載装置1に与えた場合、応答処理部14は、応答処理において、ナビゲーション機能における目的地にABC博物館を設定すると共に、その旨を示す音声応答又は表示応答を行う。また例えば、ユーザが発話により「渋滞情報を教えて」という指示を車載装置1に与えた場合、応答処理部14は、応答処理において、「了解しました」という音声をスピーカ部52から出力すると共に、車両CRの周辺の渋滞情報を通信モジュール40を介して取得し、取得した渋滞情報を表示部51又はスピーカ部52を用いてユーザに通知する。
車載装置1は、上記ナビゲーション機能等に関わる制御に加えて、制御対象機器の制御を行う機能を有していても良く、この場合、応答処理は制御対象機器の制御を含み得る。制御対象機器は、車両CRに搭載された機器(但し車載装置1、マイク部2、カメラ部3、GPS処理部4及び車載センサ部5とは異なる)であって、主制御部10により動作が制御される機器である。例えば、車外を照らす車外用照明装置(ヘッドライト等)、車室内を照らす車内用照明装置、車両CRのフロントガラスに付着した水や汚れを払拭するためのワイパー、車室内の温度及び湿度を調整するエアコンディショナが、制御対象機器に該当しうる。この際、例えば、ユーザが発話により「ワイパーをオンにして」という指示を車載装置1に与えた場合、応答処理部14は、応答処理において、ワイパーを作動させると共に、その旨を示す音声応答又は表示応答を行う。
ユーザは様々な発話を行うと考えられるが、ここでは、ユーザによる一連且つ単一の発話に注目し、注目した発話が行われる区間を発話区間Kと称する(図3参照)。以下では、発話区間Kにおけるユーザの発話に対する応答の要否の判定方法を説明する。図3において、時刻tSは発話区間Kの開始時刻であり、時刻tEは発話区間Kの終了時刻である。発話区間Kにおいて、ユーザは、車載装置1に対して何らかの指示を発話する(例えば「ABC博物館を目的地に設定して」という指示を発話する)、ユーザ以外の同乗者に発話する(例えば「ABC博物館を目的地に設定する?」と同乗者に問い合わせる)、又は、独り言を発する(例えば「ABC博物館を目的地に設定しようか」と独り言を発する)。
図4に示す如く、判定部13に対し判定用特徴量群が入力され、判定用特徴量群はN種類の特徴量(個別特徴量)FV1~FVNを含む。Nは2以上の任意の整数である。特徴量FV1~FVNは特徴量導出部12により導出される。特徴量FV1~FVNにより特徴量FV1~FVNをN個の要素とするN次元の特徴ベクトルが形成される。判定部13は判定用特徴量群に基づき(即ちN次元の特徴ベクトルに基づき)判定結果Doutを得る応答要否判定処理を実行する。判定結果Doutは“1”又は“0”の値を有する二値化信号である。“1”の判定結果Doutは応答義務ありを表し、“0”の判定結果Doutは応答義務なしを表す。即ち、判定部13は、判定用特徴量群に基づいてユーザの発話に対する応答の要否を判定し、応答が必要であると判定した場合には“1”の判定結果Doutを出力し、応答が必要でない(即ち不要である)と判定した場合には“0”の判定結果Doutを出力する。応答処理部14は、“1”の判定結果Doutが出力された場合、発話テキストデータに応じた応答処理を実行することでユーザの発話に対して応答し、“0”の判定結果Doutが出力された場合には応答処理を実行しない(即ち、ユーザの発話に対して応答しない)。
判定部13は所定のアルゴリズムにより判定結果Doutを得る。所定のアルゴリズムでは判定用特徴量群を入力情報として受けて判定結果Doutを出力する。判定部13に対し特徴量FV1~FVNが入力されたとき、所定のアルゴリズムにより特徴量FV1~FVNを含む判定用特徴量群が第1クラス及び第2クラスの何れか一方に分類される。判定部13は、判定用特徴量群が第1クラスに分類されたとき判定結果Doutに“1”の値を持たせ、判定用特徴量群が第2クラスに分類されたとき判定結果Doutに“0”の値を持たせる。
ここでは、所定のアルゴリズムとしてサポートベクタマシン(以下、SVMと称する)を利用することを例にとる。SVMは教師あり機械学習モデルであり、事前知識として与えられた教師データに基づき、発話区間Kに至る前に、SVMは学習済みであるとする。教師データは、特徴量FV1~FVNと、その特徴量FV1~FVNに対応する正解の判定結果Doutとの組データを、多数、含む。学習済みのSVMに対して発話区間Kに関する特徴量FV1~FVNが入力されたとき、発話区間Kに関する判定用特徴量群が第1クラス又は第2クラスに分類され、これよって発話区間Kに関する判定結果Doutが得られる。尚、判定部13においてSVM以外のアルゴリズム(例えば、ランダムフォレスト、ディープフォレスト又は決定木)を用いて判定結果Doutを得るようにしても良い。
尚、判定部13に関する用語“判定”を“推定”と読み替えても良い。例えば、判定部を、推定部又は応答要否推定部と読み替えても良いし、応答要否判定処理を応答要否推定処理と読み替えても良い。
以下に示す複数の実施例の中で、車載システムSYS(特に判定用特徴量群)に関する幾つかの具体例、応用技術、変形技術等を説明する。本実施形態にて上述した事項は、特に記述無き限り且つ矛盾無き限り、以下の各実施例に適用される。各実施例において、上述の事項と矛盾する事項がある場合には、各実施例での記載が優先されて良い。また矛盾無き限り、以下に示す複数の実施例の内、任意の実施例に記載した事項を、他の任意の実施例に適用することもできる(即ち複数の実施例の内の任意の2以上の実施例を組み合わせることも可能である)。
<<実施例EX1_A>>
実施例EX1_Aを説明する。図5に示す如く、実施例EX1_Aに係る特徴量導出部12は、発話区間Kにおけるカメラ画像信号に基づき動き特徴量M_Kを導出すると共に、発話区間Kにおける入力音響信号に基づき音響特徴量S_Kを導出する(図6も参照)。そして、実施例EX1_Aに係る判定部13は動き特徴量M_Kと音響特徴量S_Kに基づいて応答要否判定処理を実行する。従って、実施例EX1_Aにおける判定用特徴量群は、動き特徴量M_Kと音響特徴量S_Kを含む。動き特徴量M_Kは1種類以上の特徴量を含み、動き特徴量M_Kに含まれる各種類の特徴量が判定用特徴量群を構成する特徴量FV1~FVNの一部として機能する。同様に、音響特徴量S_Kは1種類以上の特徴量を含み、音響特徴量S_Kに含まれる各種類の特徴量が判定用特徴量群を構成する特徴量FV1~FVNの他の一部として機能する。
実施例EX1_Aを説明する。図5に示す如く、実施例EX1_Aに係る特徴量導出部12は、発話区間Kにおけるカメラ画像信号に基づき動き特徴量M_Kを導出すると共に、発話区間Kにおける入力音響信号に基づき音響特徴量S_Kを導出する(図6も参照)。そして、実施例EX1_Aに係る判定部13は動き特徴量M_Kと音響特徴量S_Kに基づいて応答要否判定処理を実行する。従って、実施例EX1_Aにおける判定用特徴量群は、動き特徴量M_Kと音響特徴量S_Kを含む。動き特徴量M_Kは1種類以上の特徴量を含み、動き特徴量M_Kに含まれる各種類の特徴量が判定用特徴量群を構成する特徴量FV1~FVNの一部として機能する。同様に、音響特徴量S_Kは1種類以上の特徴量を含み、音響特徴量S_Kに含まれる各種類の特徴量が判定用特徴量群を構成する特徴量FV1~FVNの他の一部として機能する。
人間がロボット(ここでは車載装置1)に対して発話する際、体の動きが停止する又は小さくなるという傾向(以下、発話中動き傾向と称する)がある。換言すれば、人間がロボットに対して発話する際、人に対して発話するときと比べて体が静止しやすい。故に、発話区間Kにおけるユーザの体の動きに応じた特徴量をカメラ画像信号に基づいて抽出し、その動きに応じた特徴量に基づいて応答要否判定処理を行えば応答要否の推定精度が向上すると見込まれる。尚、発話中動き傾向は、上記非特許文献1などにて研究及び報告されている(例えば非特許文献1における項目“4.2入力特徴”中の項目(b)及び(e)を参照))。
図7に示す如く、発話中動き傾向を考慮し、動き特徴量M_Kは、発話区間K中のユーザの頭部の動きに応じた頭部動き特徴量MA_Kと、発話区間K中のユーザの右肘の動きに応じた右肘動き特徴量MB_Kと、発話区間K中のユーザの左肘の動きに応じた左肘動き特徴量MC_Kと、発話区間K中のユーザの上半身の動きに応じた上半身動き特徴量MD_Kと、発話区間K中のユーザの顔の動きに応じた顔動き特徴量ME_Kと、を含む。
ここで、ユーザの体の部位の動きは、X軸、Y軸及びZ軸の成分ごとに導出される。X軸、Y軸及びZ軸は実空間において固定され且つ互いに直交する3つの直線軸である(図8(a)参照)。特徴量導出部12は、発話区間K中のカメラ画像信号に基づき、発話区間K中のユーザの頭部、右肘、左肘及び上半身の夫々の動きにおけるX軸、Y軸及びZ軸成分を求める。カメラ画像信号に基づき対象物の三次元の動きを検出する方法として公知の方法を利用でき、必要に応じ、カメラ部2に複数のカメラを設けて複数のカメラのカメラ画像信号を利用して三次元の動きを検出して良い。
頭部動き特徴量MA_Kは、発話区間K中のユーザの頭部の動きに関する統計量を含む。統計量とは、平均値、最大値、最小値又は標準偏差などであり、これは後述される任意の統計量についても同様である。具体的には例えば、発話区間K中のユーザの頭部の動きにおけるX軸方向の平均速度、Y軸方向の平均速度及びZ軸方向の平均速度が、頭部の動きに関する3つの統計量として頭部動き特徴量MA_Kに含められる。
右肘動き特徴量MB_Kは、発話区間K中のユーザの右肘の動きに関する統計量を含む。具体的には例えば、発話区間K中のユーザの右肘の動きにおけるX軸方向の平均速度、Y軸方向の平均速度及びZ軸方向の平均速度が、右肘の動きに関する3つの統計量として右肘動き特徴量MB_Kに含められる。
左肘動き特徴量MC_Kは、発話区間K中のユーザの左肘の動きに関する統計量を含む。具体的には例えば、発話区間K中のユーザの左肘の動きにおけるX軸方向の平均速度、Y軸方向の平均速度及びZ軸方向の平均速度が、左肘の動きに関する3つの統計量として左肘動き特徴量MC_Kに含められる。
上半身動き特徴量MD_Kは、発話区間K中のユーザの上半身の動きに関する統計量を含む。具体的には例えば、発話区間K中のユーザの上半身の動きにおけるX軸方向の平均速度、Y軸方向の平均速度及びZ軸方向の平均速度が、上半身の動きに関する3つの統計量として上半身動き特徴量MD_Kに含められる。発話区間K中のユーザの上半身の動きにおけるX軸方向の平均速度を求めるにあたり、発話区間K中のユーザの上半身に属する6つの部位(頭部、みぞおち、臀部の中央、肩の中央、右肩及び左肩)に注目し、当該6つの部位について発話区間K中のX軸方向の平均速度を個別に求める。これにより、X軸方向の平均速度が6種類求まる。即ち、発話区間K中のユーザの頭部のX軸方向の平均速度、みぞおちのX軸方向の平均速度、臀部の中央のX軸方向の平均速度、肩の中央のX軸方向の平均速度、右肩のX軸方向の平均速度、及び、左肩のX軸方向の平均速度が求まる。これら6つの部位について求められた計6種類のX軸方向の平均速度の平均を、発話区間K中のユーザの上半身の動きにおけるX軸方向の平均速度とする。発話区間K中のユーザの上半身の動きにおけるY軸方向の平均速度及びZ軸方向の平均速度についても同様である。
また、発話区間K中のユーザの頭部の動きにおけるX軸方向の最大速度、Y軸方向の最大速度及びZ軸方向の最大速度も、それらの平均速度とは別に、頭部の動きに関する3つの統計量として頭部動き特徴量MA_Kに含められて良い。同様に、発話区間K中のユーザの右肘の動きにおけるX軸方向の最大速度、Y軸方向の最大速度及びZ軸方向の最大速度も、それらの平均速度とは別に、右肘の動きに関する統計量として右肘動き特徴量MB_Kに含められて良い。左肘及び上半身についても同様である。
顔動き特徴量ME_Kは、発話区間K中のユーザの顔の動きに関する統計量を含む。ここで、顔の動きとは、顔の向きに変化をもたらす顔の動きを指す。発話区間K中のユーザの顔の動きに関する統計量として、発話区間K中のユーザの顔の向きにおけるオイラー角の平均角速度が求められる。オイラー角の平均角速度としては、ヨー方向の平均角速度と、ピッチ方向の平均角速度と、ロール方向の平均角速度と、がある。ここで、図8(b)に示す如く、ユーザの顔における口の中心と眉間の中心とを結ぶ直線に平行な軸をヨー軸と定義し、ユーザの顔における左目の中心と右目の中心とを結ぶ直線に平行な軸をピッチ軸と定義し、ヨー軸及びピッチ軸の夫々に直交する軸をロール軸と定義する。但し、ヨー軸、ピッチ軸及びロール軸は、ユーザの顔の中心(例えば鼻の中心)にて互いに交差するものとする。ヨー軸、ピッチ軸、ロール軸を回転軸としてユーザの顔が回転する方向が、夫々、ヨー方向、ピッチ方向、ロール方向である。発話区間K中のユーザの顔の向きにおけるヨー方向の平均角速度、ピッチ方向の平均角速度及びロール方向の平均角速度が、顔の動き(顔の向きの変化)に関する3つの統計量として顔動き特徴量ME_Kに含められる。この他、発話区間K中のユーザの顔の向きにおけるヨー方向の最大角速度、ピッチ方向の最大角速度及びロール方向の最大角速度を、顔動き特徴量ME_Kに含めても良い。
頭部動き特徴量MA_K、右肘動き特徴量MB_K、左肘動き特徴量MC_K、上半身動き特徴量MD_K及び顔動き特徴量ME_Kの夫々に含まれる各統計量が、特徴量FV1~FVNの1つとして機能する。
ところで、人間が発する音声には言語情報だけでなく、感情といった心理的な非言語情報も含まれている。そして、人間が指示などを行うべくロボット(ここでは車載装置1)に対して発話する際には、他の人間に対して発話する場合などと比べて、発話に感情が含まれにくいという傾向(以下、発話中感情傾向と称する)がある。感情を含まない発話は抑揚が少なく単調な発話となる。故に、発話区間Kの入力音響信号から発話中感情傾向に関わる特徴量を抽出し、抽出した特徴量に基づいて応答要否判定処理を行えば応答要否の推定精度が向上すると見込まれる。尚、発話中感情傾向に関わる特徴量については、上記非特許文献2などにて研究及び報告されている。
また、人間がロボット(ここでは車載装置1)に対して発話する際には、他の人間に対して発話する場合などと比べて、大きな声で明瞭に発話するという傾向(以下、発話中明瞭性傾向と称する)がある。故に、発話区間Kの入力音響信号から発話中明瞭性傾向に関わる特徴量を抽出し、抽出した特徴量に基づいて応答要否判定処理を行えば応答要否の推定精度が向上すると見込まれる。尚、発話中明瞭性傾向に関わる特徴量については、上記非特許文献1などにて研究及び報告されている(例えば非特許文献1における項目“4.2 入力特徴”中の項目(f)を参照))。
図9に示す如く(図5も参照)、発話中感情傾向及び発話中明瞭性傾向を考慮し、音響特徴量S_Kには、発話区間K中のユーザの発話の感情に応じた感情特徴量と、発話区間K中のユーザの発話の明瞭性及び音量に応じた明瞭性特徴量と、が含められる。感情特徴量はユーザの感情量を示す量である。
感情特徴量について説明する。感情特徴量は、図9に示す如く、特徴量SA_Kと、特徴量SB1_K~SB12_Kと、特徴量SC_Kと、特徴量SD_Kと、特徴量SE_Kを含む。更に、感情特徴量は、特徴量SA_Kの一次微分に相当する特徴量ΔSA_Kと、特徴量SB1_K~SB12_Kの一次微分に相当する特徴量ΔSB1_K~ΔSB12_Kと、特徴量SC_Kの一次微分に相当する特徴量ΔSC_Kと、特徴量SD_Kの一次微分に相当する特徴量ΔSD_Kと、特徴量SE_Kの一次微分に相当する特徴量ΔSE_Kと、を含む。一次微分とは時間方向の一次微分を指す。これらの特徴量を導出するにあたり、図10に示す如く、発話区間Kが所定の時間長さ(例えば10ミリ秒)を有するフレームを単位に分割され、発話区間Kに設定されたフレームごとに必要な演算が行われる。以下、発話区間Kは第1~第Sフレームにて構成されると考える。Sは2以上の整数である。任意の自然数iについて、第iフレームと第(i+1)フレームは互いに隣接し、且つ、第(i+1)フレームは第iフレームよりも後のフレームであるとする。
特徴量SA_Kは、発話区間K中の入力音響信号により示される音量の二乗平均平行根(即ち実効値)に基づく特徴量であって、発話区間K中の入力音響信号の強さを表す。具体的には、特徴量導出部12は、発話区間K中のフレームごとに、入力音響信号により示される音量の二乗平均平行根(即ちフレーム中の入力音響信号の値の二乗平均平行根)を導出する。そして、特徴量導出部12は、発話区間K中の第1~第Sフレームに対して求めたS個の二乗平均平行根の統計量(例えば平均値)を、特徴量SA_Kに含める。
更に、特徴量導出部12は、上記S個の二乗平均平行根の一次微分の統計量を、特徴量ΔSA_Kに含める。二乗平均平行根の一次微分は二乗平均平行根の時間方向の変化量を表す。故に、上記S個の二乗平均平行根の一次微分は、第1及び第2フレームに対して求めた2つの二乗平均平行根間の差分と、第2及び第3フレームに対して求めた2つの二乗平均平行根間の差分と、・・・、第(S-1)及び第Sフレームに対して求めた2つの二乗平均平行根間の差分とから成り、例えば、それらの差分の平均を特徴量ΔSA_Kとすることができる。
特徴量SB1_K~SB12_Kは、発話区間K中の入力音響信号における1次~12次のメル周波数ケプストラム係数に基づく特徴量である。具体的には、特徴量導出部12は、発話区間K中のフレームごとに、入力音響信号における1次~12次のメル周波数ケプストラム係数を導出する。i次のメル周波数ケプストラム係数を“MFCCi”で表す。特徴量導出部12は、発話区間K中の第1~第Sフレームに対して求めたS個の係数MFCCiの統計量(例えば平均値)を、特徴量SBi_Kに含める。従って例えば、発話区間K中の第1~第Sフレームに対して求めたS個の係数MFCC1の統計量(例えば平均値)が特徴量SB1_Kに含められ、発話区間K中の第1~第Sフレームに対して求めたS個の係数MFCC2の統計量(例えば平均値)が特徴量SB2_Kに含められる。特徴量SB3_K~SB12_Kについても同様である。
更に、特徴量導出部12は、発話区間K中の第1~第Sフレームに対して求めたS個の係数MFCCiの一次微分の統計量を、特徴量ΔSBi_Kに含める。係数MFCCiの一次微分は係数MFCCiの時間方向の変化量を表す。発話区間K中の第1~第Sフレームに対して求めたS個の係数MFCC1の一次微分の統計量が特徴量ΔSB1_Kに含められ、発話区間K中の第1~第Sフレームに対して求めたS個の係数MFCC2の一次微分の統計量が特徴量ΔSB2_Kに含められる。特徴量ΔSB3_K~ΔSB12_Kについても同様である。上記S個の係数MFCCiの一次微分は、第1及び第2フレームに対して求めた2つの係数MFCCi間の差分と、第2及び第3フレームに対して求めた2つの係数MFCCi間の差分と、・・・、第(S-1)及び第Sフレームに対して求めた2つの係数MFCCi間の差分とから成り、例えば、それらの差分の平均を特徴量ΔSBi_Kとすることができる。
特徴量SC_Kは、発話区間K中の入力音響信号のゼロ交差率に基づく特徴量である。時間領域における入力音響信号はゼロを交差する波形を有する。具体的には、特徴量導出部12は、発話区間K中のフレームごとに入力音響信号のゼロ交差率を求める。そして、特徴量導出部12は、発話区間K中の第1~第Sフレームに対して求めたS個のゼロ交差率の統計量(例えば平均値)を、特徴量SC_Kに含める。発話区間K中の第iフレームにおける入力音響信号のゼロ交差率fZCR[i]は、“fZCR[i]=10×log10(Z(i)/ZNOISE)”により表される。ここで、Z(i)は、発話区間K中の第iフレームにおける入力音響信号のゼロ交差数(単位時間当たりで、入力音響信号の波形がゼロと交差する回数)を表す。ZNOISEは雑音区間におけるゼロ交差数を表す。即ち、ZNOISEは、入力音響信号が雑音の信号成分のみを含むと仮定したときの、入力音響信号のゼロ交差数を表す。ZNOISEの値は既知情報として予め設定される。
更に、特徴量導出部12は、上記S個のゼロ交差率の一次微分の統計量を、特徴量ΔSC_Kに含める。ゼロ交差率の一次微分はゼロ交差率の時間方向の変化量を表す。故に、上記S個のゼロ交差率の一次微分は、第1及び第2フレームに対して求めた2つのゼロ交差率間の差分と、第2及び第3フレームに対して求めた2つのゼロ交差率間の差分と、・・・、第(S-1)及び第Sフレームに対して求めた2つのゼロ交差率間の差分とから成り、例えば、それらの差分の平均を特徴量ΔSC_Kとすることができる。
特徴量SD_Kは、発話区間K中の入力音響信号の全パワーを占める調波成分の割合に基づく特徴量であって、その時点における音が声であるかどうかの確率を表す。具体的には、特徴量導出部12は、発話区間K中のフレームごとに、入力音響信号の全パワーを求めると共に入力音響信号の調波成分のパワーを求め、前者のパワーに対する後者のパワーの比を調波パワー割合として求める。そして、特徴量導出部12は、発話区間K中の第1~第Sフレームに対して求めたS個の調波パワー割合の統計量(例えば平均値)を、特徴量SD_Kに含める。
更に、特徴量導出部12は、上記S個の調波パワー割合の一次微分の統計量を、特徴量ΔSD_Kに含める。調波パワー割合の一次微分は調波パワー割合の時間方向の変化量を表す。故に、上記S個の調波パワー割合の一次微分は、第1及び第2フレームに対して求めた2つの調波パワー割合間の差分と、第2及び第3フレームに対して求めた2つの調波パワー割合間の差分と、・・・、第(S-1)及び第Sフレームに対して求めた2つの調波パワー割合間の差分とから成り、例えば、それらの差分の平均を特徴量ΔSD_Kとすることができる。
特徴量SE_Kは、発話区間K中の入力音響信号の基本周波数に基づく特徴量である。具体的には、特徴量導出部12は、発話区間K中のフレームごとに、入力音響信号の基本周波数(F0)を導出する。そして、特徴量導出部12は、発話区間K中の第1~第Sフレームに対して求めたS個の基本周波数の統計量(例えば平均値)を、特徴量SE_Kに含める。尚、第iフレームにおける基本周波数は、第iフレームの入力音響信号を複数の正弦波の合成にて表現したときの、最も低次の正弦波の周波数(即ち、最低周波数を有する正弦波の周波数)を指す。上記の調波成分は、基本周波数の整数倍(但し1倍を除く)の周波数成分を表す。
更に、特徴量導出部12は、上記S個の基本周波数の一次微分の統計量を、特徴量ΔSE_Kに含める。基本周波数の一次微分は、基本周波数の時間方向の変化量を表す。故に、上記S個の基本周波数の一次微分は、第1及び第2フレームに対して求めた2つの基本周波数間の差分と、第2及び第3フレームに対して求めた2つの基本周波数間の差分と、・・・、第(S-1)及び第Sフレームに対して求めた2つの基本周波数間の差分とから成り、例えば、それらの差分の平均を特徴量ΔSE_Kとすることができる。
明瞭性特徴量について説明する。明瞭性特徴量は、図9に示す如く、特徴量SF_Kと、特徴量SD_Kと、特徴量SE_Kを含む。更に、明瞭性特徴量は、特徴量SF_Kの一次微分に相当する特徴量ΔSF_Kと、特徴量SD_Kの一次微分に相当する特徴量ΔSD_Kと、特徴量SE_Kの一次微分に相当する特徴量ΔSE_Kと、を含む。感情特徴量に含まれる特徴量SD_K、SE_K、ΔSD_K及びΔSE_Kと、明瞭性特徴量に含まれる特徴量SD_K、SE_K、ΔSD_K及びΔSE_Kとは、互いに同じものである。故に、特徴量SA_K、SB1_K~SB12_K、SC_K、SD_K及びSE_K並びにΔSA_K、ΔSB1_K~ΔSB12_K、ΔSC_K、ΔSD_K及びΔSE_Kと、特徴量SF_K及びΔSF_Kと、を導出することで、感情特徴量の全体と明瞭性特徴量の全体が導出されることになる。
特徴量SF_Kは、発話区間K中の入力音響信号における音の大きさに基づく特徴量である。音の大きさとはマイク部2にて収音された音の大きさを指す。ここでは音の大きさの単位がラウドネスであるとする。但し、音の大きさの単位は任意で良い(例えば音圧レベルやデシベルでも良い)。具体的には、特徴量導出部12は、発話区間K中のフレームごとに、入力音響信号における音の大きさをラウドネス値として導出する。そして、特徴量導出部12は、発話区間K中の第1~第Sフレームに対して求めたS個のラウドネス値の統計量(例えば平均値)を、特徴量SF_Kに含める。
更に、特徴量導出部12は、上記S個のラウドネス値の一次微分の統計量を、特徴量ΔSF_Kに含める。ラウドネス値の一次微分はラウドネス値の時間方向の変化量を表す。故に、上記S個のラウドネス値の一次微分は、第1及び第2フレームに対して求めた2つのラウドネス値間の差分と、第2及び第3フレームに対して求めた2つのラウドネス値間の差分と、・・・、第(S-1)及び第Sフレームに対して求めた2つのラウドネス値間の差分とから成り、例えば、それらの差分の平均を特徴量ΔSF_Kとすることができる。
感情特徴量と判定用特徴量群との関係について補足する。特徴量SA_K、SB1_K~SB12_K、SC_K、SD_K及びSE_K並びにΔSA_K、ΔSB1_K~ΔSB12_K、ΔSC_K、ΔSD_K及びΔSE_Kは、計32種類の特徴量に相当する。これら計32種類の特徴量の夫々についてu種類の統計量(例えば、平均値、最大値、最小値及び標準偏差等)を導出すれば、計(32×u)個の統計量が得られる。uは1以上の任意の整数である。この計(32×u)個の統計量を、感情特徴量を構成する計(32×u)個の特徴量として、判定用特徴量群を構成する特徴量FV1~FVN(図4参照)に含めると良い。即ち例えば、上記の計(32×u)個の統計量を、特徴量FV1~FVNに含まれる特徴量FV1~FV(32×u)として用いて良い。
実施例EX1_Aでは、感情特徴量及び明瞭性特徴量から成る音量特徴量S_Kと、動き特徴量M_Kとで、判定用特徴量群が形成される(図5及び図6参照)。故に例えば、感情特徴量について求めた計(32×u)個の統計量と、明瞭性特徴量について求めた計vK個の統計量と、動き特徴量M_Kについて求めた計wK個の統計量とで、計(32×u+vK+wK)個の統計量を構成し、この計(32×u+vK+wK)個の統計量を特徴量FV1~FVNとして用いることができる。この場合、特徴量FV1~FVNにて定義されるN次元の特徴ベクトルは(32×u+vK+wK)次元の特徴ベクトルとなる。vK及びwKの夫々は2以上の任意の整数である。この(32×u+vK+wK)次元の特徴ベクトルを所定のアルゴリズム(ここではSVM)に入力することで判定結果Doutが得られる(図4参照)。
このように、本実施例では、上記発話中感情傾向を考慮して、発話区間K中の入力音響信号からユーザの感情に応じた感情特徴量を導出し、感情特徴量を含む判定用特徴量群に基づきユーザの発話に対する応答の要否を判定する(換言すればユーザの発話が車載装置1への発話であるかを推定する)。このため、応答要否の推定精度(換言すればユーザの発話が車載装置1への発話であるかの推定精度)の向上が図られ、ウェイクアップワードを要することなく妥当な応答を行うことが可能となる。
また、動き特徴量M_Kを判定用特徴量群に含めることでも応答要否の推定精度向上が図られる。
<<実施例EX1_B>>
実施例EX1_Bを説明する。実施例EX1_Bでは、実施例EX1_Aに対する変形例などを説明する。
実施例EX1_Bを説明する。実施例EX1_Bでは、実施例EX1_Aに対する変形例などを説明する。
実施例EX1_Aにおいて、判定用特徴量群に含められると上述した特徴量の内、任意の幾つかの特徴量は判定用特徴量群から除外されても良い。即ち、実施例EX1_Aにおいて、図9に示される特徴量と、図7に示される特徴量との内、任意の1以上の特徴量は、判定用特徴量群から除外されても良い(判定用特徴量群に含まれていなくても良い)。
例えば、図9に示される特徴量SA_K、SB1_K~SB12_K、SC_K、SD_K、SE_K及びSF_K並びにΔSA_K、ΔSB1_K~ΔSB12_K、ΔSC_K、ΔSD_K、ΔSE_K及びΔSF_Kの内、任意の1以上の特徴量を判定用特徴量群から除外する変形(これを、便宜上、変形MD1Aと称する)を行っても良い。
また例えば、図7に示される特徴量MA_K、MB_K、MC_K、MD_K及びME_Kの内、任意の1以上の特徴量を判定用特徴量群から除外する変形(これを、便宜上、変形MD1Bと称する)を行っても良い。
変形MD1Aと変形MD1Bを組み合わせて実施しても良い。但し、少なくとも、感情特徴量の一部(即ち、特徴量SA_K、SB1_K~SB12_K、SC_K、SD_K及びSE_K並びにΔSA_K、ΔSB1_K~ΔSB12_K、ΔSC_K、ΔSD_K及びΔSE_Kの内の一部)は、判定用特徴量群に含めておくことが望ましい。
<<実施例EX2_A>>
実施例EX2_Aを説明する。図11を参照する。実施例EX2_Aでは、発話区間Kより前の前段区間Pに注目して、ユーザの発話に対する応答の要否判定を行う。
実施例EX2_Aを説明する。図11を参照する。実施例EX2_Aでは、発話区間Kより前の前段区間Pに注目して、ユーザの発話に対する応答の要否判定を行う。
主制御部10は、マイク部2から順次供給される入力音響信号に人間の声の信号成分が含まれているか否かを継続的に監視し、その監視結果に基づいて発話区間Kを設定する。また、主制御部10は、発話区間Kの開始時刻tSよりも所定時間(例えば1秒)だけ前の時刻tPSを特定し、時刻tPSから開始時刻tSに至る直前までの区間を前段区間Pに設定する。時刻tSは、前段区間Pと発話区間Kとの境界に位置すると考えて良い。主制御部10には発話区間K及び前段区間Pを設定する区間設定部(不図示)が設けられていると考えることができる。
発話区間Kの設定方法について簡単に説明を補足する。ここで述べられる発話区間Kの設定方法は第1実施例にも適用可能である。説明の便宜上、所定値以上の音の大きさを有する人間の声の信号成分が入力音響信号に含まれていない状態を第1状態と称し、所定値以上の音の大きさを有する人間の声の信号成分が入力音響信号に含まれている状態を第2状態と称する。音の大きさの定義は第1実施例で述べた通りである。或る第1注目時刻の以前において入力音響信号は第1状態にて維持され、第1注目時刻において入力音響信号の状態が第1状態から第2状態に切り替わり、その後、第2注目時刻において入力音響信号の状態が第2状態から第1状態に切り替わったとする。この場合、第1、第2注目時刻が、夫々、発話区間Kの開始時刻tS、終了時刻tEに設定される。第1及び第2注目時刻間において微小時間だけ入力音響信号の状態が第1状態となった場合も、第1、第2注目時刻が、夫々、発話区間Kの開始時刻tS、終了時刻tEに設定されて良い。
前段区間Pは、ユーザが明瞭に発声を行う期間ではない。このため、前段区間Pにおける入力音響信号に、基本的には、ユーザの発話音声の信号成分は含まれない、或いは、含まれていたとしても微小である。他方、人間がロボットに対して発話する際(ここでは車載装置1に対して指示等の発話を行う際)、発話の直前に発話内容を検討すべく沈黙するという傾向(以下、発話直前沈黙傾向と称する)がある。故に、前段区間Pの入力音響信号から発話直前沈黙傾向に関わる特徴量を抽出し、抽出した特徴量に基づいて応答要否判定処理を行えば応答要否の推定精度が向上すると見込まれる。
また、人間がロボットに対して発話する際(ここでは車載装置1に対して指示等の発話を行う際)、発話の直前に発話内容を検討すべく体の動きが停止する又は小さくなるという傾向(以下、発話直前停止傾向と称する)がある。故に、前段区間Pのカメラ画像信号から発話直前停止傾向に関わる特徴量を抽出し、抽出した特徴量に基づいて応答要否判定処理を行えば応答要否の推定精度が向上すると見込まれる。
発話直前沈黙傾向及び発話直前停止傾向を考慮し、実施例EX2_Aに係る特徴量導出部12は、マイク部2から入力音響信号が供給されると(発話区間Kの開始が特定されると)、図12に示す如く、前段区間Pにおける入力音響信号に基づき音響特徴量S_Pを導出し、且つ、前段区間Pにおけるカメラ画像信号に基づき動き特徴量M_Pを導出する(図13も参照)。そして、実施例EX2_Aに係る判定部13は、音響特徴量S_P及び動き特徴量M_Pに基づいて応答要否判定処理を実行する。従って、実施例EX2_Aにおける判定用特徴量群は、音響特徴量S_P及び動き特徴量M_Pを含む。
実施例EX2_Aにおける判定用特徴量群において、音響特徴量S_Pは1種類以上の特徴量を含み、動き特徴量M_Pも1種類以上の特徴量を含む。音響特徴量S_Pに含まれる各種類の特徴量及び動き特徴量M_Pに含まれる各種類の特徴量により、判定用特徴量群における特徴量FV1~FVNが構成される(但し特徴量FV1~FVNの一部のみが構成される場合があっても良い)。
図14に、前段区間Pにおける音響特徴量S_Pの構成を示す。音響特徴量S_Pは、特徴量SF_Pと、特徴量SD_Pと、特徴量SE_Pを含む。更に、音響特徴量S_Pは、特徴量SF_Pの一次微分に相当する特徴量ΔSF_Pと、特徴量SD_Pの一次微分に相当する特徴量ΔSD_Pと、特徴量SE_Pの一次微分に相当する特徴量ΔSE_Pと、を含む。一次微分とは時間方向の一次微分を指す。これらの特徴量を導出するにあたり、図15に示す如く、前段区間Pが所定の時間長さ(例えば10ミリ秒)を有するフレームを単位に分割され、前段区間Pに設定されたフレームごとに必要な演算が行われる。以下、前段区間Pは第1~第Tフレームにて構成されると考える。Tは2以上の整数である。実施例EX2_Aにおいて、以下、フレームとは、特に記述なき限り、前段区間Pにおけるフレームを指すものとする。任意の自然数iについて、第iフレームと第(i+1)フレームは互いに隣接し、且つ、第(i+1)フレームは第iフレームよりも後のフレームであるとする。
図14に示す特徴量SF_P、SD_P、SE_P、ΔSF_P、ΔSD_P及びΔSE_Pの導出元となる入力音響信号が前段区間Pの入力音響信号であるのに対し、図9に示す特徴量SF_K、SD_K、SE_K、ΔSF_K、ΔSD_K及びΔSE_Kの導出元となる入力音響信号が発話区間Kの入力音響信号である点を除き、特徴量SF_P、SD_P、SE_P、ΔSF_P、ΔSD_P及びΔSE_Pの導出方法は、夫々、特徴量SF_K、SD_K、SE_K、ΔSF_K、ΔSD_K及びΔSE_Kの導出方法と同じである。
つまり、特徴量SF_P、SD_P、SE_P、ΔSF_P、ΔSD_P及びΔSE_Pと、特徴量SF_K、SD_K、SE_K、ΔSF_K、ΔSD_K及びΔSE_Kと、は互いに共通種類の特徴量である。より詳細には、特徴量SF_Pと特徴量SF_Kは互いに共通種類の特徴量であって、前段区間Pの入力音響信号から特徴量SF_Pを導出する方法と発話区間Kの入力音響信号から特徴量SF_Kを導出する方法は互いに同じである。同様に、特徴量SD_Pと特徴量SD_Kは互いに共通種類の特徴量であって、前段区間Pの入力音響信号から特徴量SD_Pを導出する方法と発話区間Kの入力音響信号から特徴量SD_Kを導出する方法は互いに同じである。特徴量SE_P及びSE_Kの組についても同様であり、特徴量ΔSF_P及びΔSF_Kの組、特徴量ΔSD_P及びΔSD_Kの組、並びに、特徴量ΔSE_P及びΔSE_Kの組についても同様である。
上述の内容から理解される事項ではあるが、以下に、特徴量SF_P、SD_P、SE_P、ΔSF_P、ΔSD_P及びΔSE_Pの導出方法を記述する。
特徴量SF_Pは、前段区間P中の入力音響信号における音の大きさに基づく特徴量である。音の大きさとはマイク部2にて収音された音の大きさを指す。ここでは音の大きさの単位がラウドネスであるとする。但し、音の大きさの単位は任意で良い(例えば音圧レベルやデシベルでも良い)。具体的には、特徴量導出部12は、前段区間P中のフレームごとに、入力音響信号における音の大きさをラウドネス値として導出する。そして、特徴量導出部12は、前段区間P中の第1~第Tフレームに対して求めたT個のラウドネス値の統計量(例えば平均値)を、特徴量SF_Pに含める。
更に、特徴量導出部12は、上記T個のラウドネス値の一次微分の統計量を、特徴量ΔSF_Pに含める。ラウドネス値の一次微分はラウドネス値の時間方向の変化量を表す。故に、上記T個のラウドネス値の一次微分は、第1及び第2フレームに対して求めた2つのラウドネス値間の差分と、第2及び第3フレームに対して求めた2つのラウドネス値間の差分と、・・・、第(T-1)及び第Tフレームに対して求めた2つのラウドネス値間の差分とから成り、例えば、それらの差分の平均を特徴量ΔSF_Pとすることができる。
特徴量SD_Pは、前段区間P中の入力音響信号の全パワーを占める調波成分の割合に基づく特徴量であって、その時点における音が声であるかどうかの確率を表す。具体的には、特徴量導出部12は、前段区間P中のフレームごとに、入力音響信号の全パワーを求めると共に入力音響信号の調波成分のパワーを求め、前者のパワーに対する後者のパワーの比を調波パワー割合として求める。そして、特徴量導出部12は、前段区間P中の第1~第Tフレームに対して求めたT個の調波パワー割合の統計量(例えば平均値)を、特徴量SD_Pに含める。
更に、特徴量導出部12は、上記T個の調波パワー割合の一次微分の統計量を、特徴量ΔSD_Pに含める。調波パワー割合の一次微分は調波パワー割合の時間方向の変化量を表す。故に、上記T個の調波パワー割合の一次微分は、第1及び第2フレームに対して求めた2つの調波パワー割合間の差分と、第2及び第3フレームに対して求めた2つの調波パワー割合間の差分と、・・・、第(T-1)及び第Tフレームに対して求めた2つの調波パワー割合間の差分とから成り、例えば、それらの差分の平均を特徴量ΔSD_Pとすることができる。
特徴量SE_Pは、前段区間P中の入力音響信号の基本周波数に基づく特徴量である。具体的には、特徴量導出部12は、前段区間P中のフレームごとに、入力音響信号の基本周波数(F0)を導出する。そして、特徴量導出部12は、前段区間P中の第1~第Tフレームに対して求めたT個の基本周波数の統計量(例えば平均値)を、特徴量SE_Pに含める。尚、第iフレームにおける基本周波数は、第iフレームの入力音響信号を複数の正弦波の合成にて表現したときの、最も低次の正弦波の周波数(即ち、最低周波数を有する正弦波の周波数)を指す。上記の調波成分は、基本周波数の整数倍(但し1倍を除く)の周波数成分を表す。
更に、特徴量導出部12は、上記T個の基本周波数の一次微分の統計量を、特徴量ΔSE_Pに含める。基本周波数の一次微分は基本周波数の時間方向の変化量を表す。故に、上記T個の基本周波数の一次微分は、第1及び第2フレームに対して求めた2つの基本周波数間の差分と、第2及び第3フレームに対して求めた2つの基本周波数間の差分と、・・・、第(T-1)及び第Tフレームに対して求めた2つの基本周波数間の差分とから成り、例えば、それらの差分の平均を特徴量ΔSE_Pとすることができる。
図16に、前段区間Pにおける動き特徴量M_Pの構成を示す。発話直前停止傾向を考慮し、動き特徴量M_Pは、前段区間P中のユーザの頭部の動きに応じた頭部動き特徴量MA_Pと、前段区間P中のユーザの右肘の動きに応じた右肘動き特徴量MB_Pと、前段区間P中のユーザの左肘の動きに応じた左肘動き特徴量MC_Pと、前段区間P中のユーザの上半身の動きに応じた上半身動き特徴量MD_Pと、前段区間P中のユーザの顔の動きに応じた顔動き特徴量ME_Pと、を含む。
図16に示す特徴量MA_P、MB_P、MC_P、MD_P及びME_Pの導出元となるカメラ画像信号が前段区間Pのカメラ画像信号であるのに対し、図7に示す特徴量MA_K、MB_K、MC_K、MD_K及びME_Kの導出元となるカメラ画像信号が発話区間Kのカメラ画像信号である点を除き、特徴量MA_P、MB_P、MC_P、MD_P及びME_Pの導出方法は、夫々、特徴量MA_K、MB_K、MC_K、MD_K及びME_Kの導出方法と同じである。
つまり、特徴量MA_P、MB_P、MC_P、MD_P及びME_Pと、特徴量MA_K、MB_K、MC_K、MD_K及びME_Kと、は互いに共通種類の特徴量である。より詳細には、特徴量MA_Pと特徴量MA_Kは互いに共通種類の特徴量であって、前段区間Pのカメラ画像信号から特徴量MA_Pを導出する方法と発話区間Kのカメラ画像信号から特徴量MA_Kを導出する方法は互いに同じである。同様に、特徴量MB_Pと特徴量MB_Kは互いに共通種類の特徴量であって、前段区間Pのカメラ画像信号から特徴量MB_Pを導出する方法と発話区間Kのカメラ画像信号から特徴量MB_Kを導出する方法は互いに同じである。特徴量MC_P及びMC_Kの組、特徴量MD_P及びMD_Kの組、並びに、特徴量ME_P及びME_Kの組についても同様である。
上述の内容から理解される事項であるが、以下に、特徴量MA_P、MB_P、MC_P、MD_P及びME_Pの導出方法を記述する。
ユーザの体の部位の動きは、上述したように、X軸、Y軸及びZ軸の成分ごとに導出される。X軸、Y軸及びZ軸は実空間において固定され且つ互いに直交する3つの直線軸である(図8(a)参照)。特徴量導出部12は、前段区間P中のカメラ画像信号に基づき、前段区間P中のユーザの頭部、右肘、左肘及び上半身の夫々の動きにおけるX軸、Y軸及びZ軸成分を求める。尚、実施例EX2_Aにおいて、以下、カメラ画像信号とは、特に記述なき限り、前段区間Pにおけるカメラ画像信号を指すものとする。
頭部動き特徴量MA_Pは、前段区間P中のユーザの頭部の動きに関する統計量を含む。上述したように、統計量とは、平均値、最大値、最小値又は標準偏差などである。具体的には例えば、前段区間P中のユーザの頭部の動きにおけるX軸方向の平均速度、Y軸方向の平均速度及びZ軸方向の平均速度が、頭部の動きに関する3つの統計量として頭部動き特徴量MA_Pに含められる。
右肘動き特徴量MB_Pは、前段区間P中のユーザの右肘の動きに関する統計量を含む。具体的には例えば、前段区間P中のユーザの右肘の動きにおけるX軸方向の平均速度、Y軸方向の平均速度及びZ軸方向の平均速度が、右肘の動きに関する3つの統計量として右肘動き特徴量MB_Pに含められる。
左肘動き特徴量MC_Pは、前段区間P中のユーザの左肘の動きに関する統計量を含む。具体的には例えば、前段区間P中のユーザの左肘の動きにおけるX軸方向の平均速度、Y軸方向の平均速度及びZ軸方向の平均速度が、左肘の動きに関する3つの統計量として左肘動き特徴量MC_Pに含められる。
上半身動き特徴量MD_Pは、前段区間P中のユーザの上半身の動きに関する統計量を含む。具体的には例えば、前段区間P中のユーザの上半身の動きにおけるX軸方向の平均速度、Y軸方向の平均速度及びZ軸方向の平均速度が、上半身の動きに関する3つの統計量として上半身動き特徴量MD_Pに含められる。前段区間P中のユーザの上半身の動きにおけるX軸方向の平均速度を求めるにあたり、前段区間P中のユーザの上半身に属する6つの部位(頭部、みぞおち、臀部の中央、肩の中央、右肩及び左肩)に注目し、当該6つの部位について前段区間P中のX軸方向の平均速度を個別に求める。これにより、X軸方向の平均速度が6種類求まる。即ち、前段区間P中のユーザの頭部のX軸方向の平均速度、みぞおちのX軸方向の平均速度、臀部の中央のX軸方向の平均速度、肩の中央のX軸方向の平均速度、右肩のX軸方向の平均速度、及び、左肩のX軸方向の平均速度が求まる。6つの部位について求められた計6種類のX軸方向の平均速度の平均を、前段区間P中のユーザの上半身の動きにおけるX軸方向の平均速度とする。前段区間P中のユーザの上半身の動きにおけるY軸方向の平均速度及びZ軸方向の平均速度についても同様である。
また、前段区間P中のユーザの頭部の動きにおけるX軸方向の最大速度、Y軸方向の最大速度及びZ軸方向の最大速度も、それらの平均速度とは別に、頭部の動きに関する3つの統計量として頭部動き特徴量MA_Pに含められて良い。同様に、前段区間P中のユーザの右肘の動きにおけるX軸方向の最大速度、Y軸方向の最大速度及びZ軸方向の最大速度も、それらの平均速度とは別に、右肘の動きに関する統計量として右肘動き特徴量MB_Pに含められて良い。左肘及び上半身についても同様である。
顔動き特徴量ME_Pは、前段区間P中のユーザの顔の動きに関する統計量を含む。ここで、顔の動きとは、顔の向きに変化をもたらす顔の動きを指す。前段区間P中のユーザの顔の動きに関する統計量として、前段区間P中のユーザの顔の向きにおけるオイラー角の平均角速度が求められる。オイラー角の平均角速度としては、ヨー方向の平均角速度と、ピッチ方向の平均角速度と、ロール方向の平均角速度と、がある。ヨー軸、ピッチ軸、ロール軸を回転軸としてユーザの顔が回転する方向が、夫々、ヨー方向、ピッチ方向、ロール方向である。ヨー軸、ピッチ軸及びロール軸の意義は実施例EX1_Aにて示した通りである(図8(b)参照)。前段区間P中のユーザの顔の向きにおけるヨー方向の平均角速度、ピッチ方向の平均角速度及びロール方向の平均角速度が、顔の動き(顔の向きの変化)に関する3つの統計量として顔動き特徴量ME_Pに含められる。この他、前段区間P中のユーザの顔の向きにおけるヨー方向の最大角速度、ピッチ方向の最大角速度及びロール方向の最大角速度を、顔動き特徴量ME_Pに含めても良い。
実施例EX2_Aでは、前段区間Pにおける音響特徴量S_P及び動き特徴量M_Pにより判定用特徴量群が形成される(図12及び図13参照)。故に例えば、音響特徴量S_Pについて求めた計vP個の統計量と、動き特徴量M_Pについて求めた計wP個の統計量とで、計(vP+wP)個の統計量を構成し、この計(vP+wP)個の統計量を特徴量FV1~FVNとして用いることができる。この場合、特徴量FV1~FVNにて定義されるN次元の特徴ベクトルは(vP+wP)次元の特徴ベクトルとなる。この(vP+wP)次元の特徴ベクトルを所定のアルゴリズム(ここではSVM)に入力することで判定結果Doutが得られる(図4参照)。vP及びwPの夫々は2以上の任意の整数である。
このように、本実施例では、発話直前沈黙傾向を考慮して、前段区間P中の入力音響信号から前段区間Pにてユーザが沈黙しているかの指標となる音響特徴量S_Pを導出し、その導出結果を含む判定用特徴量群に基づいてユーザの発話に対する応答の要否を判定する(換言すればユーザの発話が車載装置1への発話であるかを推定する)。このため、応答要否の推定精度(換言すればユーザの発話が車載装置1への発話であるかの推定精度)の向上が図られ、ウェイクアップワードを要することなく妥当な応答を行うことが可能となる。
この際、発話区間Kの入力音響信号から抽出される特徴量と共通種類の特徴量(同じ種類の特徴量)を前段区間Pの入力音響信号から導出することで前段区間Pの音響特徴量S_Pが得られる。故に、当該共通種類の特徴量を導出するための導出処理を発話区間Kと前段区間Pとで共用することができる。共用は構成の簡素化及び演算負荷の軽減に繋がり、メリットが大きい。
更に、動き特徴量M_Pを判定用特徴量群に含めることでも応答要否の推定精度向上が図られる。
発話直前沈黙傾向を考慮した音響特徴量S_P中の各構成要素(図14参照)について説明を補足する。
前段区間Pにおいて、音の大きさが小さいほどユーザが沈黙している可能性が高い。このため、前段区間Pにおける音の大きさが小さいほど判定用特徴量群が第1クラスに分類されやすくなる(即ち判定結果Doutの値が“1”になりやすくなる)。つまり、前段区間Pにおける音の大きさが小さいほど判定用特徴量群が第1クラスに分類されやすくなるよう、SVMが形成されて特徴量SF_Pに基づき応答要否判定処理が実行される。
前段区間Pにおいて、人間の声がマイク部2にて収音されていない場合、ユーザが沈黙している可能性が高い。人間の声がマイク部2にて収音されていない場合、入力音響信号の全パワーを占める調波成分のパワーの割合(調波パワー割合)は小さくなる。このため、前段区間Pにおける調波パワー割合が小さいほど判定用特徴量群が第1クラスに分類されやすくなる(即ち判定結果Doutの値が“1”になりやすくなる)。つまり、前段区間Pにおける調波パワー割合が小さいほど判定用特徴量群が第1クラスに分類されやすくなるよう、SVMが形成されて特徴量SD_Pに基づき応答要否判定処理が実行される。
特徴量SE_Pは、上述の如く、前段区間Pの入力音響信号の基本周波数(F0)に対応している。一方、入力音響信号の基本周波数の変化量が小さい状態は、ユーザが継続的に発声している状態又はユーザが継続的に沈黙している状態に相当すると考えられる。故に、前段区間Pにおける音の大きさ及び調波パワー割合が小さい状態であって、且つ、前段区間Pの入力音響信号の基本周波数の変化量が小さい特定状態は、ユーザが継続的に沈黙している状態に相当すると考えられる。従って、特定状態において、判定用特徴量群が第1クラスに分類されやすくなるよう又は第1クラスに分類されるよう、SVMを形成して音響特徴量S_P中の各構成要素(図14参照)に基づき応答要否判定処理が実行すると良い。上記の特定状態では、例えば、前段区間P中の第1~第Tフレームに対して求めたT個のラウドネス値の平均値が第1所定値以下であって、且つ、前段区間P中の第1~第Tフレームに対して求めたT個の調波パワー割合の平均値が第2所定値以下であって、且つ、前段区間Pにおける入力音響信号の基本周波数のフレーム間変化量(即ち基本周波数の一次微分の値)の平均値が第3所定値以下である。
<<実施例EX2_B>>
実施例EX2_Bを説明する。実施例EX2_Bでは、実施例EX2_Aに対する変形例などを説明する。
実施例EX2_Bを説明する。実施例EX2_Bでは、実施例EX2_Aに対する変形例などを説明する。
実施例EX2_Aにおいて、判定用特徴量群に含められると上述した特徴量の内、任意の幾つかの特徴量は判定用特徴量群から除外されても良い。即ち、実施例EX2_Aにおいて、図14に示される特徴量SF_P、SD_P及びSE_P並びにΔSF_P、ΔSD_P及びΔSE_Pと、図16に示される特徴量MA_P、MB_P、MC_P、MD_P及びME_Pと、の内、任意の1以上の特徴量を、判定用特徴量群から除外する変形(これを、便宜上、変形MD2Aと称する)を行っても良い。
実施例EX2_Aにおいて、判定部13は、発話区間Kにおける音響特徴量S_K(図9参照)を判定用特徴量群に含めて応答要否判定処理を実行しても良い。即ち、実施例EX2_Aにおいて、図9に示される特徴量SA_K、SB1_K~SB12_K、SC_K、SD_K、SE_K及びSF_K並びにΔSA_K、ΔSB1_K~ΔSB12_K、ΔSC_K、ΔSD_K、ΔSE_K及びΔSF_Kの全部又は一部(図9に示される特徴量の内、任意の1以上の特徴量)を、判定用特徴量群に追加する変形(これを、便宜上、変形MD2Bと称する)を行っても良い。
特に発話中感情傾向を考慮し、発話区間Kの音響特徴量S_Kにおける感情特徴量(図9参照)を判定用特徴量群に含めてことが好ましく、これにより、応答要否の推定精度(換言すればユーザの発話が車載装置1への発話であるかの推定精度)の更なる向上が期待される。
また、実施例EX2_Aにおいて、判定部13は、発話区間Kにおける動き特徴量M_K(図7参照)を判定用特徴量群に含めて応答要否判定処理を実行しても良い。即ち、実施例EX2_Aにおいて、図7に示される特徴量MA_K、MB_K、MC_K、MD_K及びME_Kの全部又は一部(図7に示される特徴量の内、任意の1以上の特徴量)を、判定用特徴量群に追加する変形(これを、便宜上、変形MD2Cと称する)を行っても良い。
変形MD2A、MD2B及びMD2Cの内、任意の2以上の変形を組み合わせて実施しても良い。但し、発話区間Kの入力音響信号に基づく特徴量を判定用特徴量群に含める場合、判定用特徴量群に含められる、前段区間Pの入力音響信号に基づく特徴量と、発話区間Kの入力音響信号に基づく特徴量とは、互いに共通の種類の特徴量を含んでいると良い。
また、前段区間Pに関する動き特徴量M_Pは、右肘動き特徴量MB_P、左肘動き特徴量MC_P及び上半身動き特徴量MD_Pを含まないものであっても良い(即ち判定用特徴量群に含まれなくて良い)。頭部の動き及び顔の向きの変化において発話直前停止傾向が顕著に表れるので、前段区間Pに関する動き特徴量M_Pに頭部動き特徴量MA_P及び顔動き特徴量ME_Pを含めておけば、十分なケースも多いと考えられるからである。
<<実施例EX3>>
実施例EX3を説明する。実施例EX3では、上述の実施例EX1_A、EX1_B、EX2_A及びEX2_Bに対して適用可能な補足事項や応用技術などを説明する。
実施例EX3を説明する。実施例EX3では、上述の実施例EX1_A、EX1_B、EX2_A及びEX2_Bに対して適用可能な補足事項や応用技術などを説明する。
判定部13は、判定用特徴量群が第1クラス及び第2クラスの何れに分類されたかのみに基づいて応答の要否を判定することができる(即ち判定結果Doutの値を決定しても良い)。但し、判定部13は、判定用特徴量群と、他の情報とに基づいて、応答の要否を判定しても良い(即ち判定結果Doutの値を決定しても良い)。他の情報の代表例として、発話区間Kにおけるユーザの発話内容が挙げられる。即ち、判定部13は、判定用特徴量群と、発話区間Kにおけるユーザの発話内容を表す発話テキストデータと、に基づいて、応答の要否を判定しても良い(即ち判定結果Doutの値を決定しても良い)。例えば、ユーザの発話が車載装置1に対する発話であることが発話テキストデータから明確に認識される場合、応答が必要であると判定して判定結果Doutに“1”を設定することができる。
車載装置1には、ユーザの発話に対して応答可能な音声認識応答装置が内包されている。図1の構成においては主制御部10により音声認識応答装置が構成される。
車載装置1にて具体化された本発明を、車載用途とは異なる任意の用途に適用することも可能である。従って、音声認識応答装置の機能を実現する主制御部10を、車載装置とは異なる任意の装置に設けておくことができる。
本発明に係る任意の装置(例えば音声認識応答装置又は車載装置)を、便宜上、対象装置と称する。対象装置を、集積回路等のハードウェア、或いは、ハードウェアとソフトウェアの組み合わせによって構成することができる。対象装置にて実現される機能の全部又は一部である任意の特定の機能をプログラムとして記述して、該プログラムを対象装置に搭載可能なメモリに保存しておいても良い。そして、該プログラムをプログラム実行装置(例えば、対象装置に搭載可能なマイクロコンピュータ)上で実行することによって、その特定の機能を実現するようにしても良い。上記プログラムは任意の記録媒体に記憶及び固定されうる。上記プログラムを記憶及び固定する記録媒体は対象装置と異なる機器(サーバ機器等)に搭載又は接続されても良い。
本発明の実施形態は、特許請求の範囲に示された技術的思想の範囲内において、適宜、種々の変更が可能である。以上の実施形態は、あくまでも、本発明の実施形態の例であって、本発明ないし各構成要件の用語の意義は、以上の実施形態に記載されたものに制限されるものではない。上述の説明文中に示した具体的な数値は、単なる例示であって、当然の如く、それらを様々な数値に変更することができる。
<<付記>>
本発明について付記を設ける。
本発明について付記を設ける。
本発明の一側面に係る音声認識応答装置は、以下の構成WA1を有する。構成WA1に係る音声認識応答装置は(図1、図5、図6及び図9参照)、ユーザの発話に対して応答可能な音声認識応答装置(10)であって、前記ユーザの発話区間(K)の音響信号を含む入力音響信号から前記ユーザの感情量を示す感情特徴量を含む音響特徴量(S_K)を導出する特徴量導出部(12)と、前記音響特徴量に基づいて前記ユーザの発話に対する前記応答の要否を判定する(換言すれば、前記ユーザの発話が当該音声認識応答装置に対する発話である否かを判定する)判定部(13)と、を備える。
構成WA2に係る音声認識応答装置は(図9参照)、上記構成WA1に係る音声認識応答装置において、前記感情特徴量は、前記入力音響信号の音量の二乗平均平方根に基づく第1特徴量(SA_K)、前記入力音響信号のメル周波数ケプストラム係数に基づく第2特徴量(SB1_K等)、前記入力音響信号のゼロ交差率に基づく第3特徴量(SC_K)、前記入力音響信号の全パワーを占める調波成分の割合に基づく第4特徴量(SD_K)、及び、前記入力音響信号の基本周波数に基づく第5特徴量(SE_K)、を含む。
構成WA3に係る音声認識応答装置は(図9参照)、上記構成WA2に係る音声認識応答装置において、前記感情特徴量は、前記入力音響信号の音量の二乗平均平方根の一次微分に基づく第6特徴量(ΔSA_K)、前記入力音響信号のメル周波数ケプストラム係数の一次微分に基づく第7特徴量(ΔSB1_K等)、前記入力音響信号のゼロ交差率の一次微分に基づく第8特徴量(ΔSC_K)、前記入力音響信号の全パワーを占める調波成分の割合の一次微分に基づく第9特徴量(ΔSD_K)、及び、前記入力音響信号の基本周波数の一次微分に基づく第10特徴量(ΔSE_K)、を含む。
尚、第2特徴量の例として、上述の実施形態では特徴量SB1_K~SB12_Kを挙げているが、第2特徴量は、計12種類の特徴量SB1_K~SB12_Kの内、任意の1種類以上の特徴量を含むものであって良い。同様に、第7特徴量の例として、上述の実施形態では特徴量ΔSB1_K~ΔSB12_Kを挙げているが、第7特徴量は、計12種類の特徴量ΔSB1_K~ΔSB12_Kの内、任意の1種類以上の特徴量を含むものであって良い。
構成WA4に係る音声認識応答装置は(図5、図6及び図7参照)、上記構成WA1~WA3の何れかに係る音声認識応答装置において、前記特徴量導出部は、前記音響特徴量とは別に、前記ユーザの発話区間における前記ユーザの体の動きに基づいた動き特徴量(M_K)を導出し、前記判定部は、前記音響特徴量及び前記動き特徴量を含む判定用特徴量群に基づいて前記応答の要否を判定する。
構成WA5に係る音声認識応答装置は、上記構成WA4に係る音声認識応答装置において、前記判定部は、所定のアルゴリズムに従って(例えばサポートベクタマシンを用いて)前記判定用特徴量群を第1クラス又は第2クラスに分類し、前記判定用特徴量群が前記第1クラスに分類される場合に、前記応答が必要であると判定する。
本発明の他の一側面に係る音声認識応答装置は、以下の構成WB1を有する。構成WB1に係る音声認識応答装置は(図1、図9、図11、図12、図13及び図14参照)、ユーザの発話に対して応答可能な音声認識応答装置(10)であって、前記ユーザの発話の音響信号を含む第1入力音響信号を受けたとき、前記ユーザの発話区間より前の前段区間(P)における第2入力音響信号から特徴量(例えばSF_P)を導出する特徴量導出部(12)と、前記特徴量導出部の導出結果に基づいて前記応答の要否を判定する判定部(13)と、を備える。
構成WB2に係る音声認識応答装置は(図9、図12、図13及び図14参照)、上記構成WB1に係る音声認識応答装置において、前記特徴量導出部は、前記第2入力音響信号から前記特徴量としての第2特定特徴量(例えばSF_P)を含む第2音響特徴量(S_P)を導出するとともに、前記第1入力音響信号から第1特定特徴量(例えばSF_K)を含む第1音響特徴量(S_K)を導出し、前記第2特定特徴量の種類は前記第1特定特徴量の種類と同じである。
構成WB3に係る音声認識応答装置は(図9参照)、上記構成WB2に係る音声認識応答装置において、前記特徴量導出部は、前記第1特定特徴量とは別に、前記第1入力音響信号から前記ユーザの感情に応じた感情特徴量を導出し、前記第1音響特徴量は前記感情特徴量を含む。
構成WB4に係る音声認識応答装置は(図11、図12及び図13参照)、上記構成WB2又はWB3に係る音声認識応答装置において、前記特徴量導出部は、前記第2音響特徴量(S_P)に加えて、前記前段区間における前記ユーザの体の動きに基づいた動き特徴量(M_P)を導出し、前記判定部は、前記第2音響特徴量及び前記動き特徴量を含む判定用特徴量群に基づいて、前記応答の要否を判定する。
構成WB5に係る音声認識応答装置は(図9参照)、上記構成WB4に係る音声認識応答装置において、前記判定部は、所定のアルゴリズムに従って(例えばサポートベクタマシンを用いて)前記判定用特徴量群を第1クラス又は第2クラスに分類し、前記判定用特徴量群が前記第1クラスに分類される場合に、前記応答が必要であると判定する。
SYS 車載システム
1 車載装置
2 マイク部
3 カメラ部
4 GPS処理部
5 車載センサ部
10 主制御部
11 音声認識部
12 特徴量導出部
13 判定部
14 応答処理部
20 計時部
30 メモリ部
40 通信モジュール
50 インターフェース部
51 表示部
52 スピーカ部
53 操作部
CR 車両
1 車載装置
2 マイク部
3 カメラ部
4 GPS処理部
5 車載センサ部
10 主制御部
11 音声認識部
12 特徴量導出部
13 判定部
14 応答処理部
20 計時部
30 メモリ部
40 通信モジュール
50 インターフェース部
51 表示部
52 スピーカ部
53 操作部
CR 車両
Claims (7)
- ユーザの発話に対して応答可能な音声認識応答装置であって、
前記ユーザの発話の音響信号を含む第1入力音響信号を受けたとき、前記ユーザの発話区間より前の前段区間における第2入力音響信号から特徴量を導出する特徴量導出部と、
前記特徴量導出部の導出結果に基づいて前記応答の要否を判定する判定部と、を備える
、音声認識応答装置。 - 前記特徴量導出部は、前記第2入力音響信号から前記特徴量としての第2特定特徴量を含む第2音響特徴量を導出するとともに、前記第1入力音響信号から第1特定特徴量を含む第1音響特徴量を導出し、
前記第2特定特徴量の種類は前記第1特定特徴量の種類と同じである
、請求項1に記載の音声認識応答装置。 - 前記特徴量導出部は、前記第1特定特徴量とは別に、前記第1入力音響信号から前記ユーザの感情に応じた感情特徴量を導出し、
前記第1音響特徴量は前記感情特徴量を含む
、請求項2に記載の音声認識応答装置。 - 前記特徴量導出部は、前記第2音響特徴量に加えて、前記前段区間における前記ユーザの体の動きに基づいた動き特徴量を導出し、
前記判定部は、前記第2音響特徴量及び前記動き特徴量を含む判定用特徴量群に基づいて、前記応答の要否を判定する
、請求項2又は3に記載の音声認識応答装置。 - 前記判定部は、所定のアルゴリズムに従って前記判定用特徴量群を第1クラス又は第2クラスに分類し、前記判定用特徴量群が前記第1クラスに分類される場合に、前記応答が必要であると判定する
、請求項4に記載の音声認識応答装置。 - 車両に搭載される車載装置であって、
請求項1~5の何れかに記載の音声認識応答装置を備えた
、車載装置。 - ユーザの発話に対して応答可能な音声認識応答方法であって、
前記ユーザの発話の音響信号を含む第1入力音響信号を受けたとき、前記ユーザの発話区間より前の前段区間における第2入力音響信号から特徴量を導出する特徴量導出ステップと、
前記特徴量導出ステップの導出結果に基づいて前記応答の要否を判定する判定ステップと、を備える
、音響認識応答方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021015910A JP2022118998A (ja) | 2021-02-03 | 2021-02-03 | 音声認識応答装置及び方法並びに車載装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021015910A JP2022118998A (ja) | 2021-02-03 | 2021-02-03 | 音声認識応答装置及び方法並びに車載装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022118998A true JP2022118998A (ja) | 2022-08-16 |
Family
ID=82845049
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021015910A Pending JP2022118998A (ja) | 2021-02-03 | 2021-02-03 | 音声認識応答装置及び方法並びに車載装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2022118998A (ja) |
-
2021
- 2021-02-03 JP JP2021015910A patent/JP2022118998A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10403266B2 (en) | Detecting keywords in audio using a spiking neural network | |
CN110364143B (zh) | 语音唤醒方法、装置及其智能电子设备 | |
US11270694B2 (en) | Artificial intelligence apparatus and method for recognizing speech by correcting misrecognized word | |
JP6977004B2 (ja) | 車載装置、発声を処理する方法およびプログラム | |
JP6080978B2 (ja) | 音声認識装置および音声認識方法 | |
CN110556103A (zh) | 音频信号处理方法、装置、系统、设备和存储介质 | |
JP6173477B2 (ja) | ナビゲーション用サーバ、ナビゲーションシステムおよびナビゲーション方法 | |
US11443747B2 (en) | Artificial intelligence apparatus and method for recognizing speech of user in consideration of word usage frequency | |
JP5677647B2 (ja) | ナビゲーション装置 | |
JP2004206063A (ja) | 音響モデル作成方法および音声認識装置ならびに音声認識装置を有する乗り物 | |
JPH10187186A (ja) | 認識装置および認識方法、並びに学習装置および学習方法 | |
US5758022A (en) | Method and apparatus for improved speech recognition from stress-induced pronunciation variations with a neural network utilizing non-linear imaging characteristics | |
CN115205729A (zh) | 基于多模态特征融合的行为识别方法、系统 | |
US11211059B2 (en) | Artificial intelligence apparatus and method for recognizing speech with multiple languages | |
JP4360308B2 (ja) | 車載音響制御システム及びaiエージェント | |
Ivanko et al. | DAVIS: Driver's Audio-Visual Speech recognition. | |
US11404075B1 (en) | Vehicle voice user interface | |
US11273778B1 (en) | Vehicle voice user interface | |
JP2022118998A (ja) | 音声認識応答装置及び方法並びに車載装置 | |
JP2022118999A (ja) | 音声認識応答装置及び方法並びに車載装置 | |
KR20210073461A (ko) | 에이전트 관리 장치, 프로그램, 및 에이전트 관리 방법 | |
JP6596771B2 (ja) | 情報提供装置および情報提供方法 | |
US20230197098A1 (en) | System and method for removing noise and echo for multi-party video conference or video education | |
JP7297483B2 (ja) | エージェントシステム、サーバ装置、エージェントシステムの制御方法、およびプログラム | |
JP2006106300A (ja) | 音声認識装置及びそのプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230929 |