JP2024505968A

JP2024505968A - 乗員発話検出方法及び装置、電子機器並びに記憶媒体

Info

Publication number: JP2024505968A
Application number: JP2023546461A
Authority: JP
Inventors: フェイワン; チェンチイエン
Original assignee: Shanghai Lingang Jueying Intelligent Technology Co Ltd
Current assignee: Shanghai Lingang Jueying Intelligent Technology Co Ltd
Priority date: 2021-06-30
Filing date: 2021-10-28
Publication date: 2024-02-08
Also published as: CN113488043B; WO2023273063A1; CN113488043A

Abstract

本開示は、乗員発話検出方法及び装置、電子機器並びに記憶媒体に関する。前記乗員発話検出方法は、車室内のビデオストリーム及び音信号を取得することと、前記ビデオストリームに対して顔検出を行い、前記ビデオストリームにおいて車室内の少なくとも１人の乗員の顔領域を特定することと、少なくとも１人の乗員の前記顔領域、及び前記音信号に基づいて、前記車室内において前記音信号を発した目標乗員を特定することと、を含む。【選択図】図１

Description

本開示は、２０２１年６月３０日に中国特許庁に提出された、出願番号が２０２１１０７３８６７７．５号で、発明の名称「乗員発話検出方法及び装置、電子機器並びに記憶媒体」である中国特許出願の優先権を主張し、そのすべての内容は援用により本開示に組み込まれる。

本開示は、コンピュータ技術に関し、特に乗員発話検出方法及び装置、電子機器並びに記憶媒体に関する。

車室のスマート化は、マルチモーダルインタラクション、パーソナライゼーションサービス、安全感知などのスマート化を含み、現在の自動車業界の発展の重要な方向である。車室のマルチモーダルインタラクションは、乗客への快適なインタラクティブエクスペリエンスの提供を意図している。マルチモーダルインタラクション手段は、音声認識やジェスチャ認識などを含む。そのうち、音声認識は、車載インタラクションの分野で高いマーケットシェアを占めている。

しかしながら、車室内には例えば、オーディオ、ドライビングノイズ、外部ノイズなどのサウンドソースが多数あるので、音声認識には非常に強く干渉されてしまう。

本開示は乗員発話検出に係る技術的解決手段を提供する。

本開示の一方面によれば、車室内のビデオストリーム及び音信号を取得することと、前記ビデオストリームに対して顔検出を行い、前記ビデオストリームにおいて車室内の少なくとも１人の乗員の顔領域を特定することと、各乗員の前記顔領域、及び前記音信号に基づいて、前記車室内において前記音信号を発した目標乗員を特定することと、を含む乗員発話検出方法を提供する。

可能な一実施形態では、前記乗員発話検出方法は、前記音信号の内容認識を行い、前記音信号に対応する音声内容を特定することと、前記音声内容に予め設定された音声コマンドが含まれる場合、前記音声コマンドに対応する制御機能を実行することとをさらに含む。

可能な一実施形態では、前記した、前記音声内容に予め設定された音声コマンドが含まれる場合、前記音声コマンドに対応する制御機能を実行することは、前記音声コマンドが、方向性を有する複数の制御機能に対応する場合、前記目標乗員の前記顔領域に基づいて、前記目標乗員の注視方向を特定することと、前記目標乗員の注視方向に基づいて、前記複数の制御機能から目標制御機能を決定することと、前記目標制御機能を実行することと、を含む。

可能な一実施形態では、前記ビデオストリームは運転者領域の第１ビデオストリームを含み、前記した、前記ビデオストリームにおいて車室内の少なくとも１人の乗員の顔領域を特定することは、前記第１ビデオストリームにおいて前記車室内の運転者の顔領域を特定することを含み、前記した、各乗員の前記顔領域、及び前記音信号に基づいて、前記車室内において前記音信号を発した目標乗員を特定することは、前記運転者の前記顔領域、及び前記音信号に基づいて、前記車室内において前記音信号を発した目標乗員が前記運転者であるか否かを判定することを含む。

可能な一実施形態では、前記ビデオストリームは乗員領域の第２ビデオストリームを含み、前記した、各乗員の前記顔領域、及び前記音信号に基づいて、前記車室内において前記音信号を発した目標乗員を特定することは、前記乗員ごとの顔領域に対して、当該顔領域及び前記音信号に基づいて、前記車室内において前記音信号を発した目標乗員が当該顔領域に対応する乗員であるか否かを判定することを含む。

可能な一実施形態では、前記乗員発話検出方法は、前記ビデオストリームに基づいて、前記目標乗員の席領域を特定することと、前記音信号の内容認識を行い、前記音信号に対応する音声内容を特定することと、前記音声内容に予め設定された音声コマンドが含まれる場合、前記目標乗員の席領域に基づいて、前記音声コマンドに対応する領域制御機能を決定することと、前記領域制御機能を実行することと、をさらに含む。

可能な一実施形態では、前記した、各乗員の前記顔領域、及び前記音信号に基づいて、前記車室内において前記音信号を発した目標乗員を特定することは、前記ビデオストリームにおいて前記音信号の時間帯に対応するビデオフレームシーケンスを特定することと、各乗員の前記顔領域について、前記ビデオフレームシーケンスにおける前記乗員の顔領域の特徴抽出を行い、前記乗員の顔特徴を得ることと、前記顔特徴及び前記音信号から抽出された前記音声特徴に基づいて、前記乗員の融合特徴を決定することと、前記融合特徴に基づいて、前記乗員の発話検出結果を特定することと、を行うことと、各乗員の発話検出結果に基づいて、前記音信号を発した目標乗員を特定することと、を含む。

可能な一実施形態では、前記した、前記ビデオフレームシーケンスにおける前記乗員の顔領域の特徴抽出を行うことは、前記ビデオフレームシーケンス内のＮ個のビデオフレームのそれぞれにおける前記乗員の顔領域の特徴抽出を行い、前記乗員のＮ個の顔特徴を得ることを含み、前記音声特徴の抽出について、前記Ｎ個のビデオフレームの収集時刻に基づいて前記音信号の分割及び音声特徴抽出を行い、前記Ｎ個のビデオフレームのそれぞれに対応するＮ個の音声特徴を得る。

可能な一実施形態では、前記した、前記Ｎ個のビデオフレームの収集時刻に基づいて前記音信号の分割及び音声特徴抽出を行い、前記Ｎ個のビデオフレームのそれぞれに対応するＮ個の音声特徴を得ることは、前記Ｎ個のビデオフレームの収集時刻に基づいて前記音信号を分割し、前記Ｎ個のビデオフレームのそれぞれに対応するＮ個の音声フレームを得ることであって、前記Ｎ個のビデオフレームのうち、ｎ（ｎが整数であって、１≦ｎ≦Ｎである）番目のビデオフレームの収集時刻がｎ番目の音声フレームに対応する時間帯内にあることと、前記Ｎ個の音声フレームのそれぞれに対して音声特徴抽出を行い、Ｎ個の音声特徴を得ることと、を含む。

可能な一実施形態では、前記した、前記Ｎ個のビデオフレームの収集時刻に基づいて前記音信号を分割し、前記Ｎ個のビデオフレームのそれぞれに対応するＮ個の音声フレームを得ることは、前記Ｎ個のビデオフレームの収集時刻に基づいて、前記音信号を分割するための時間窓の時間窓長、及び前記時間窓長よりも小さい移動ステップサイズを決定することと、ｎ番目の音声フレームについて、前記移動ステップサイズに基づいて前記時間窓を移動させ、前記ｎ番目の音声フレームに対応する時間帯を特定することと、前記ｎ番目の音声フレームに対応する時間帯に基づいて、前記音信号から前記ｎ番目の音声フレームを切り出すことと、を含む。

可能な一実施形態では、前記した、前記顔特徴及び前記音声特徴に基づいて、前記乗員の融合特徴を決定することは、前記Ｎ個の顔特徴と前記Ｎ個の音声特徴とを一対一対応させて融合し、Ｎ個のサブ融合特徴を得ることと、前記Ｎ個のサブ融合特徴を連結し、前記乗員の融合特徴を得ることと、を含む。

本開示の一方面によれば、車室内のビデオストリーム及び音信号を取得するための信号取得モジュールと、前記ビデオストリームに対して顔検出を行い、前記ビデオストリームにおいて車室内の少なくとも１人の乗員の顔領域を特定するための顔検出モジュールと、各乗員の前記顔領域、及び前記音信号に基づいて、前記車室内において前記音信号を発した目標乗員を特定するための乗員特定モジュールと、を含む乗員発話検出装置を提供する。

可能な一実施形態では、前記乗員発話検出装置は、前記音信号の内容認識を行い、前記音信号に対応する音声内容を特定するための第１認識モジュールと、前記音声内容に予め設定された音声コマンドが含まれる場合、前記音声コマンドに対応する制御機能を実行するための機能実行モジュールと、をさらに含む。

可能な一実施形態では、前記機能実行モジュールは、前記音声コマンドが、方向性を有する複数の制御機能に対応する場合、前記目標乗員の前記顔領域に基づいて、前記目標乗員の注視方向を特定することと、前記目標乗員の注視方向に基づいて、前記複数の制御機能から目標制御機能を決定することと、前記目標制御機能を実行することとに用いられる。

可能な一実施形態では、前記ビデオストリームは運転者領域の第１ビデオストリームを含み、前記顔検出モジュールは、前記第１ビデオストリームにおいて前記車室内の運転者の顔領域を特定することに用いられ、前記乗員特定モジュールは、前記運転者の前記顔領域、及び前記音信号に基づいて、前記車室内において前記音信号を発した目標乗員が前記運転者であるか否かを判定することに用いられる。

可能な一実施形態では、前記ビデオストリームは乗員領域の第２ビデオストリームを含み、前記乗員特定モジュールは、前記乗員ごとの顔領域に対して、当該顔領域及び前記音信号に基づいて、前記車室内において前記音信号を発した目標乗員が当該顔領域に対応する乗員であるか否かを判定することに用いられる。

可能な一実施形態では、前記乗員発話検出装置は前記ビデオストリームに基づいて、前記目標乗員の席領域を特定するための席領域特定モジュールと、前記音信号の内容認識を行い、前記音信号に対応する音声内容を特定するための第２認識モジュールと、前記音声内容に予め設定された音声コマンドが含まれる場合、前記目標乗員の席領域に基づいて、前記音声コマンドに対応する領域制御機能を決定するための機能決定モジュールと、前記領域制御機能を実行するための領域制御モジュールと、をさらに含む。

可能な一実施形態では、前記乗員特定モジュールは、前記ビデオストリームにおいて前記音信号の時間帯に対応するビデオフレームシーケンスを特定することと、各乗員の前記顔領域について、前記ビデオフレームシーケンスにおける前記乗員の顔領域の特徴抽出を行い、前記乗員の顔特徴を得ることと、前記顔特徴及び前記音信号から抽出された音声特徴に基づいて、前記乗員の融合特徴を決定することと、前記融合特徴に基づいて、前記乗員の発話検出結果を特定することと、を行うことと、各乗員の発話検出結果に基づいて、前記音信号を発した目標乗員を特定することとに用いられる。

可能な一実施形態では、前記乗員特定モジュールが前記ビデオフレームシーケンスにおける前記乗員の顔領域の特徴抽出を行うことは、前記ビデオフレームシーケンス内のＮ個のビデオフレームのそれぞれにおける前記乗員の顔領域の特徴抽出を行い、前記乗員のＮ個の顔特徴を得ることを含み、前記音声特徴の抽出について、前記乗員特定モジュールにより前記Ｎ個のビデオフレームの収集時刻に基づいて前記音信号の分割及び音声特徴抽出を行い、前記Ｎ個のビデオフレームのそれぞれに対応するＮ個の音声特徴を得る。

可能な一実施形態では、前記乗員特定モジュールにより前記Ｎ個のビデオフレームの収集時刻に基づいて前記音信号の分割及び音声特徴抽出を行い、前記Ｎ個のビデオフレームのそれぞれに対応するＮ個の音声特徴を得ることは、前記Ｎ個のビデオフレームの収集時刻に基づいて前記音信号を分割し、前記Ｎ個のビデオフレームのそれぞれに対応するＮ個の音声フレームを得ることであって、前記Ｎ個のビデオフレームのうち、ｎ（ｎが整数であって、１≦ｎ≦Ｎである）番目のビデオフレームの収集時刻がｎ番目の音声フレームに対応する時間帯内にあることと、前記Ｎ個の音声フレームのそれぞれに対して音声特徴抽出を行い、Ｎ個の音声特徴を得ることと、を含む。

可能な一実施形態では、前記乗員特定モジュールが前記Ｎ個のビデオフレームの収集時刻に基づいて前記音信号を分割し、前記Ｎ個のビデオフレームのそれぞれに対応するＮ個の音声フレームを得ることは、前記Ｎ個のビデオフレームの収集時刻に基づいて、前記音信号を分割するための時間窓の時間窓長、及び前記時間窓長よりも小さい移動ステップサイズを決定することと、ｎ番目の音声フレームについて、前記移動ステップサイズに基づいて前記時間窓を移動させ、前記ｎ番目の音声フレームに対応する時間帯を特定することと、前記ｎ番目の音声フレームに対応する時間帯に基づいて、前記音信号から前記ｎ番目の音声フレームを切り出すことと、を含む。

可能な一実施形態では、前記乗員特定モジュールが前記顔特徴及び前記音声特徴に基づいて、前記乗員の融合特徴を決定することは、前記Ｎ個の顔特徴と前記Ｎ個の音声特徴とを一対一対応させて融合し、Ｎ個のサブ融合特徴を得ることと、前記Ｎ個のサブ融合特徴を連結し、前記乗員の融合特徴を得ることと、を含む。

本開示の一方面によれば、プロセッサと、プロセッサにより実行可能な命令を記憶するメモリと、をみ、前記プロセッサは、前記メモリに記憶されている命令を呼び出すことにより上記乗員発話検出方法を実行するように構成される電子機器を提供する。

本開示の一方面によれば、コンピュータプログラム命令が記憶されているコンピュータ可読記憶媒体であって、前記コンピュータプログラム命令は、プロセッサにより実行されると、上記乗員発話検出方法を実現させるコンピュータ可読記憶媒体を提供する。

本開示の一方面によれば、コンピュータ可読コードを含むコンピュータプログラムであって、前記コンピュータ可読コードが電子機器で動作すると、前記電子機器のプロセッサに上記乗員発話検出方法を実現するための命令を実行させるコンピュータプログラムを提供する。

本開示の実施例では、車室内のビデオストリーム及び音信号を取得して、ビデオストリームに対して顔検出を行い、ビデオストリームにおいて車室内の少なくとも１人の乗員の顔領域を特定して、各乗員の顔領域及び音信号に基づいて、各乗員から音信号を発した目標乗員を特定することができる。顔領域及び音信号の両方により乗員が発話するか否かを判断するので、乗員発話検出の正確性を向上させ、音声認識の誤認識率を低減することができる。

以上の一般な説明と以下の詳細な説明は、例示的や解釈的なものに過ぎず、本開示を制限するものではないと理解すべきである。以下、図面を参考しながら例示的な実施例を詳細に説明することによって、本開示の他の特徴および方面は明確になる。

明細書の一部として含まれる図面は、本開示の実施例を示し、明細書と共に本開示の技術的手段を説明するものである。
本開示の実施例に係る乗員発話検出方法のフローチャートを示す。本開示の実施例に係る発話検出プロセスの模式図を示す。本開示の実施例に係る乗員発話検出装置のブロック図を示す。本開示の実施例に係る電子機器のブロック図を示す。本開示の実施例に係る電子機器のブロック図を示す。

以下、図面を参照しながら本開示の様々な例示的実施例、特徴および態様を詳細に説明する。図面において、同じ符号は、機能が同じまたは類似する要素を表す。図面において実施例の様々な態様を示したが、特に明記されていない限り、図面は、必ずしも原寸に比例しているとは限らない。

ここの用語「例示的」とは、「例、実施例として用いられることまたは説明的なもの」を意味する。ここで「例示的」に説明されるいかなる実施例は、必ずしも他の実施例より好ましい又は優れたものであると解釈されるとは限らない。

本明細書において、用語の「及び／又は」は、関連対象の関連関係を記述するのものに過ぎず、３つの関係が存在可能であることを示し、例えば、Ａ及び／又はＢは、Ａのみが存在し、ＡとＢが同時に存在し、Ｂのみが存在するという３つの場合を示すことができる。また、本明細書において、用語の「少なくとも１つ」は複数のうちのいずれか１つ又は複数のうちの少なくとも２つの任意の組み合わせを示し、例えば、Ａ、Ｂ及びＣのうちの少なくとも１つを含むということは、Ａ、Ｂ及びＣで構成される集合から選択されたいずれか１つ又は複数の要素を含むことを示すことができる。

また、本開示をより良く説明するために、以下の具体的な実施形態には多くの具体的な細部が示されている。当業者であれば、何らかの具体的な細部がなくても、本開示は同様に実施できることを理解すべきである。いくつかの実施例では、本開示の趣旨を強調するために、当業者によく知られている方法、手段、素子および回路について、詳細な説明を行わない。

車載音声インタラクションでは、音声検出機能は、通常、車載インフォテインメントでがリアルタイムに実行されるため、音声検出機能の誤認識率を非常に低いレベルに維持する必要がある。関連技術では、単一の音声に基づく信号検出手段を採用するのは一般であり、音声の誤認識を抑制することが困難であるので、誤認識率が高く、ユーザーインタラクションエクスペリエンスが悪いことを招く。

本開示の実施例に係る乗員発話検出方法によれば、ビデオ画像と音信号をマルチモーダルに融合して、車室内で発話状態にある乗員を認識することにより、乗員の発話検出の正確性を向上させ、音声認識の誤認識率を低減し、ユーザーインタラクションエクスペリエンスを向上させることができる。

本開示の実施例に係る乗員発話検出方法は、端末機器やサーバーなどの電子機器により実行されてもよい。端末機器は、車載装置、ユーザ装置（ＵｓｅｒＥｑｕｉｐｍｅｎｔ、ＵＥ）、携帯機器、ユーザー端末、端末、セルラーホン、コードレス電話、パーソナル・デジタル・アシスタント（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ、ＰＤＡ）、手持ち装置、計算装置、車載装置、ウエアラブルデバイス等であってもよい。前記乗員発話検出方法は、プロセッサがメモリに記憶されているコンピュータ可読命令を呼び出すことにより実現されてもよい。

車載装置は、車室内の車載インフォテインメント、ドメインコントローラ又はプロセッサであってもよく、ＤＭＳ（ＤｒｉｖｅｒＭｏｎｉｔｏｒＳｙｓｔｅｍ、運転者監視システム）又はＯＭＳ（ＯｃｃｕｐａｎｔＭｏｎｉｔｏｒｉｎｇＳｙｓｔｅｍ、乗員監視システム）における画像等のデータの処理操作を実行するためのデバイス・ホスト等であってもよい。

図１は、本開示の実施例に係る乗員発話検出方法のフローチャートを示す。図１に示すように、前記乗員発話検出方法は以下のステップを含む。
ステップＳ１１：車室内のビデオストリーム及び音信号を取得する。
ステップＳ１２：前記ビデオストリームに対して顔検出を行い、前記ビデオストリームにおいて車室内の少なくとも１人の乗員の顔領域を特定する。
ステップＳ１３：各乗員の前記顔領域、及び前記音信号に基づいて、前記車室内において前記音信号を発した目標乗員を特定する。

例を挙げると、本開示の実施例は、乗用車、タクシー、シャアカー、バス、貨物車、地下鉄、汽車等の任意種類の車両に適用可能である。

可能な一実施形態では、ステップＳ１１において、車載カメラで車室内のビデオストリームを収集し、車載マイクで音信号を収集してもよい。車載カメラは、車両に設けられる任意のカメラであってもよく、数は一つ又は複数であってもよい。車載カメラの種類については、ＤＭＳカメラ、ＯＭＳカメラ、普通のカメラ等であってもよい。車載マイクは、車両の任意の位置に設けられてもよく、数は一つ又は複数であってもよい。本開示は、車載カメラ及び車載マイクの配置位置、数及び種類について限定しない。

可能な一実施形態では、ステップＳ１２では、ビデオストリームに対して顔検出を行ってもよい。ビデオストリームのビデオフレームシーケンスに対して直接顔検出を行い、各ビデオフレームにおいて顔枠を決定してもよいし、ビデオストリームのビデオフレームシーケンスをサンプリングし、サンプリングされたビデオフレームに対して顔検出を行い、サンプリングされた各ビデオフレームにおいて顔枠を決定してもよい。本開示は、具体的な処理方法について特に限定しない。

可能な一実施形態では、各ビデオフレームにおける顔枠を追跡し、同じアイデンティティの乗員の顔枠を特定することにより、ビデオストリームにおいて車室内の少なくとも１人の乗員の顔領域を特定してもよい。

顔検出の方法は、例えば顔キーポイント認識、顔輪郭の検出等が挙げられる。顔追跡の方法は、例えば、隣接のビデオフレームにおける顔枠のＩｏＵ（ＩｎｔｅｒｓｅｃｔｉｏｎｏｖｅｒＵｎｉｏｎ）に基づいて同じアイデンティティの乗員に該当することを特定してもよい。顔検出及び顔追跡が関連技術の任意の方法で実現されてもよいことは当業者に理解されるべきであるが、本開示はこれについて特に限定しない。

可能な一実施形態では、ビデオストリームのビデオフレームにおいて、１人又は複数の乗員（例えば運転者および／または乗客）の顔を含む可能性がある。ステップＳ１２の処理により、各乗員の顔領域が取得される。ステップＳ１３では、各乗員のそれぞれに対して分析し、該乗員が発話しているか否かを判定することができる。

可能な一実施形態では、分析対象者のいずれかの乗員に対して、ビデオストリームのＮ個（Ｎは１よりも大きな整数である）のビデオフレームにおいて該乗員の顔領域を特定してもよい。つまり、ビデオストリームから、一定の時間長（例えば２ｓ）に対応するＮ個のビデオフレームを抽出する。リアルタイム検出の場合、該Ｎ個のビデオフレームは、ビデオストリームの内の、最新的にサンプリングされたＮ個のビデオフレームであってもよい。Ｎは、例えば１０、１５、２０等であってもよいが、本開示はこれについて特に限定しない。

可能な一実施形態では、Ｎ個のビデオフレームに対応する時間帯の音信号を特定してもよく、例えば、Ｎ個のビデオフレームに対応する時間帯は最近の２ｓ（２ｓ前から現在まで）とし、音信号は最近の２ｓの音信号としてもよい。

可能な一実施形態では、Ｎ個のビデオフレームにおける該乗員の顔領域の画像及び音信号を、予め設定された発話検出ネットワークに直接入力して処理し、該乗員が発話状態又は未発話状態にあることを示す該乗員の発話検出結果を出力してもよい。

可能な一実施形態では、Ｎ個のビデオフレームにおける該乗員の顔領域の画像にたいして特徴抽出を行って顔特徴を得て、音信号に対して音声特徴抽出を行って音声特徴を得て、顔特徴及び音声特徴を予め設定された発話検出ネットワークに入力して処理し、該乗員の発話検出結果を出力してもよい。本開示は、具体的な処理方法を特に限定しない。

可能な一実施形態では、ステップＳ１３では、各乗員のそれぞれに対して発話検出を行って各乗員の発話検出結果を特定し、発話状態にある乗員を車室内において前記音信号を発した目標乗員として特定してもよい。

本開示の実施例によれば、車室内のビデオストリーム及び音信号を取得して、ビデオストリームに対して顔検出を行い、ビデオストリームにおいて車室内の少なくとも１人の乗員の顔領域を特定して、各乗員の顔領域及び音信号に基づいて各乗員から音信号を発した目標乗員を特定することができる。顔領域及び音信号の両方により乗員が発話するか否かを判断するため、乗員発話検出の正確性を向上させ、音声認識の誤認識率を低減することができる。

本開示の実施例に係る乗員発話検出方法を以下のように展開して説明する。

上述したように、ステップＳ１１では、車載カメラで収集された車室内のビデオストリーム、及び車載マイクで収集された音信号を取得してもよい。

可能な一実施形態では、車載カメラは、運転者監視システムＤＭＳカメラ、および／または乗員監視システムＯＭＳカメラを含んでもよい。ＤＭＳカメラで収集されたビデオストリームは運転者領域に対するビデオストリーム（第１ビデオストリームという）であり、ＯＭＳカメラにより収集されたビデオストリームは車室内の乗員領域に対するビデオストリーム（第２ビデオストリームという）である。このように、ステップＳ１１で取得されたビデオストリームは、第１ビデオストリームおよび／または第２ビデオストリームを含んでもよい。

可能な一実施形態では、ビデオストリームは運転者領域の第１ビデオストリームを含み、ステップＳ１２では、前記ビデオストリームにおいて車室内の少なくとも１人の乗員の顔領域を特定することは、前記第１ビデオストリームにおいて前記車室内の運転者の顔領域を特定することを含む。

ステップＳ１３は、前記運転者の前記顔領域、及び前記音信号に基づいて、前記車室内において前記音信号を発した目標乗員が前記運転者であるか否かを判定することをを含んでもよい。

例を挙げると、第１ビデオストリームは、運転者のみを含む運転者領域に対応する。この場合、第１ビデオストリームのうちの複数のビデオフレーム（第１ビデオフレームという）を取得し、複数の第１ビデオフレームのそれぞれに対して顔検出及び追跡を行い、各々の第１ビデオフレームにおいて運転者の顔領域を取得してもよい。

可能な一実施形態では、運転者の顔領域及び音信号に基づいて、運転者の発話検出を行い、運転者が発話しているか否かを判定することにより、車室内において音信号を発した目標乗員が運転者であるか否かを判定することができる。つまり、運転者が発話していると特定した場合、音信号を発した目標乗員が運転者であると特定することができる。逆に、運転者が発話していなかったと特定した場合、音信号を発した目標乗員が運転者ではないと特定することができる。

可能な一実施形態では、車室内において音信号を発した目標乗員が運転者であるか否かに応じて、後続の処理を行ってもよい。例えば、音信号を発した目標乗員が運転者であれば、音声認識機能をオンにして音信号に対して反応してもよい。一方、音信号を発した目標乗員が運転者でなければ、音信号に対して反応しなくてもよい。本開示は後続処理の方法を特に限定しない。

上記形態によれば、運転者領域の第１ビデオストリーム及び音信号に基づいて運転者が発話しているか否かを判定することにより、音信号を発した目標乗員が運転者であるか否かを判定するので、音声認識の誤認識率を低減し、ユーザの利用利便性を向上させることができる。

可能な一実施形態では、前記ビデオストリームは乗員領域の第２ビデオストリームを含む。ステップＳ１３は、
前記乗員ごとの顔領域に対して、当該顔領域及び前記音信号に基づいて、前記車室内において前記音信号を発した目標乗員が当該顔領域に対応する乗員であるか否かを判定することを含んでもよい。

例を挙げると、第２ビデオフレームは、運転者および／または乗客を含む車室内の乗員領域に対応する。この場合、ステップＳ１２では、第２ビデオストリームから複数のビデオフレーム（第２ビデオフレームという）を取得し、複数の第２ビデオフレームのそれぞれに対して顔検出及び追跡を行い、各々の第２ビデオフレームにおいて車室内の各乗員の顔領域を得てもよい。

例えば、運転者領域が車室の前部左側にある場合、第２ビデオフレームの右下側に位置する顔領域を運転者の顔領域として特定し、第２ビデオフレームの左下側に位置する顔領域を助手席の乗客の顔領域として特定してもよい。本開示は各乗員の具体的な特定方法を特に限定しない。

可能な一実施形態では、各乗員の顔領域に対して、該乗員の顔領域及び音信号に基づいて、該乗員発話検出を行い、該乗員が発話しているか否かを判定することにより、車室内において音信号を発した目標乗員が該乗員であるか否かを判定してもよい。つまり、該乗員が発話していると特定した場合、音信号を発した目標乗員が該顔領域に対応する乗員であると特定することができる。逆に、該乗員が発話していなかったと特定した場合、音信号を発した目標乗員が該顔領域に対応する乗員ではないと特定することができる。

可能な一実施形態では、車室内において音信号を発した目標乗員のアイデンティティに応じて、後続の処理を行ってもよい。例えば、音信号を発した目標乗員が運転者である場合、音声認識機能をオンにして音信号に対して反応してもよい。音信号を発した目標乗員が乗客であり、かつ該乗客が制御権限を有しない場合、音信号に対して反応しなくてもよい。音信号を発した目標乗員が乗客であり、該乗客が制御権限を有する場合、音声認識機能をオンにして音信号に対して反応してもよい。本開示は後続処理の方法を特に限定しない。

上記形態によれば、乗員領域の第２ビデオストリーム及び音信号に基づいて、各乗員が発話しているか否かをそれぞれ特定することにより、音信号を発した目標乗員がどの乗員であるかを特定するので、音声認識の誤認識率を低減し、乗員発話検出の精度を向上させることができ、後続の反応をよりピンポイントに行うことができる。

可能な一実施形態では、ステップＳ１３において乗員の発話検出を行ってもよい。ステップＳ１３は、
前記ビデオストリームにおいて前記音信号の時間帯に対応するビデオフレームシーケンスを特定することと、
各乗員の前記顔領域について、前記ビデオフレームシーケンスにおける前記乗員の顔領域の特徴抽出を行い、前記乗員の顔特徴を得ることと、前記顔特徴及び前記音信号から抽出された音声特徴に基づいて、前記乗員の融合特徴を決定することと、前記融合特徴に基づいて、前記乗員の発話検出結果を特定することと、を行うことと、
各乗員の発話検出結果に基づいて、前記音信号を発した目標乗員を特定することと、を含む。

例を挙げると、発話検出を行う一定の時間長を予め設定してもよい。この時間長は例えば１ｓ、２ｓ又は３ｓと設定してもよい。本開示はこれにいついて特に限定しない。

可能な一実施形態では、音信号に対して特徴抽出を行って音声特徴を取得して、ビデオストリームから検出された各乗員の顔特徴を該音声特徴と融合して融合特徴を取得してもよい。

可能な一実施形態では、車載マイクで収集された音信号から該時間長の音信号を抽出し、ビデオストリームから音信号の時間帯に対応するビデオフレームシーケンスを特定してもよい。リアルタイム処理の場合、音信号の時間帯は、例えば最近の２ｓ（２ｓ前から現在まで）とし、ビデオフレームシーケンスは最近の２ｓの複数のビデオフレーム（Ｎ個のビデオフレームとする。Ｎ＞１）を含んでもよい。

可能な一実施形態では、各乗員の前記顔領域について、ビデオフレームシーケンスにおいて該乗員の顔領域の画像を決定し、各顔領域の画像のそれぞれに対して特徴抽出を行い、該乗員のＮ個の顔特徴を得てもよい。特徴抽出の方法は、例えば顔キーポイント抽出、顔輪郭抽出等が挙げられ、本開示はこれについて特に限定しない。

可能な一実施形態では、検出された各乗員の顔領域について、ビデオストリーム内の該顔領域が現れたＮ個のビデオフレームを特定し、該Ｎ個のビデオフレームに対応する時間帯内の音声特徴を抽出してもよい。この場合、前記ビデオフレームシーケンス内のＮ個のビデオフレームのそれぞれにおいて前記乗員の顔領域の特徴抽出を行い、前記乗員のＮ個の顔特徴を取得するように、前記ビデオフレームシーケンスにおいて前記乗員の顔領域の特徴抽出を行い、前記乗員の顔特徴を得てもよい。このようにして、顔特徴と音声特徴とを時間的に「一致」させることで、発話検出結果の正確性を向上させることができる。

例を挙げると、ビデオストリームのＴ～Ｔ＋ｋ時刻のビデオフレームシーケンス内のＮ個のビデオフレームＩ１、Ｉ２、…、ＩＮについて、顔検出及び追跡により、車室内の乗員のＭ個の顔の顔枠シーケンス（Ｍ≧１）を取得してもよい。すなわち、各乗員と顔枠シーケンスとが一対一に対応する。Ｔが任意の時刻であり、ｋが１ｓ、２ｓ又は３ｓ等であってもよいが、本開示はｋの値について特に限定しない。

可能な一実施形態では、いずれかの乗員（ｉ番目の乗員、ｉが整数であって、１≦ｉ≦Ｍである）について、Ｎ個のビデオフレームのいずれか１個（ｎ番目のビデオフレームという。ｎが整数であって、１≦ｎ≦Ｎである）における該乗員の顔領域をＩｎ－ｆａｃｅ－ｉと記してもよい。顔領域Ｉｎ－ｆａｃｅ－ｉを顔特徴抽出ネットＭｆａｃｅＮｅｔに入力して特徴を抽出し、ｉ番目の乗員のｎ番目の顔特徴を示す特徴マップＩｎ－Ｆｅａｔｕｒｅｍａｐ－ｉを取得してもよい。顔特徴の特徴次元は（ｃ、ｈ、ｗ）であり、ｃ、ｈ及びｗはそれぞれトンネル数、高さ及び幅を表す。

可能な一実施形態では、顔特徴抽出ネットＭｆａｃｅＮｅｔは、畳み込みニューラルネットワークであってもよく、例えば、顔キーポイント検出モールドからキーポイントヘッド（ｈｅａｄ）部分を除去し、該顔特徴抽出ネットＭＦａｃｅＮｅｔを取得してもよい。本開示は顔特徴抽出ネットのネット構造について特に限定しない。

このように、Ｎ個のビデオフレームごとの顔領域に対して特徴を抽出し、該乗員のＮ個の顔特徴を取得する。

可能な一実施形態では、前記音信号に対して音声特徴抽出を行い、音声特徴を取得するステップは、前記Ｎ個のビデオフレームの収集時刻に基づいて前記音信号の分割及び音声特徴抽出を行い、前記Ｎ個のビデオフレームのそれぞれに対応するＮ個の音声特徴を得ることを含んでもよい。

すなわち、音信号を分割し、Ｎ個のビデオフレームのそれぞれに対応するＮ個の音声フレームを取得し、次に、Ｎ個の音声フレームのそれぞれに対して音声特徴抽出を行い、Ｎ個の音声特徴を得てもよい。

可能な一実施形態では、前記した、前記Ｎ個のビデオフレームの収集時刻に基づいて前記音信号の分割及び音声特徴抽出を行い、前記Ｎ個のビデオフレームのそれぞれに対応するＮ個の音声特徴を取得するステップは、
前記Ｎ個のビデオフレームの収集時刻に基づいて前記音信号を分割し、前記Ｎ個のビデオフレームのそれぞれに対応するＮ個の音声フレームを得ることであって、前記Ｎ個のビデオフレームのうち、ｎ（１≦ｎ≦Ｎ）番目のビデオフレームの収集時刻がｎ番目の音声フレームに対応する時間帯内にあることと、
前記Ｎ個の音声フレームのそれぞれに対して音声特徴抽出を行い、Ｎ個の音声特徴を得ることと、を含んでもよい。

例を挙げると、Ｔ～Ｔ＋ｋ時刻にマイクで取得された音信号Ａｕｄｉｏに対して、まず最初と最後のミュートをカットして干渉を減らしてもよい。そして、音信号をフレームに分割し、すなわち音声を複数の小さいセグメントに分割し、各小さいセグメントは１つの音声フレームとする。音声フレームとビデオフレームとのシーケンスの一致を確保するために、各音声フレームの時間帯をビデオフレームの収集時刻に対応させる。つまり、ｎ番目のビデオフレームの収集時刻は、ｎ番目の音声フレームに対応する時間帯内にある。

可能な一実施形態では、前記した、前記Ｎ個のビデオフレームの収集時刻に基づいて前記音信号を分割し、前記Ｎ個のビデオフレームのそれぞれに対応するＮ個の音声フレームを得るステップは、
前記Ｎ個のビデオフレームの収集時刻に基づいて、前記音信号を分割するための時間窓の時間窓長、及び前記時間窓長よりも小さい移動ステップサイズを決定することと、
ｎ番目の音声フレームについて、前記移動ステップサイズに基づいて前記時間窓を移動し、前記ｎ番目の音声フレームに対応する時間帯を特定することと、
前記ｎ番目の音声フレームに対応する時間帯に基づいて、前記音信号から前記ｎ番目の音声フレームを切り出すことと、を含む。

例を挙げると、音の歪みを減らすために、各音声フレームの時間帯間をオーバーラップしてもよい。移動窓関数により音信号の分割を実現してもよい。

可能な一実施形態では、Ｎ個のビデオフレームの収集時刻に基づいて、移動窓関数の時間窓の時間窓長及び時間窓長よりも小さい移動ステップサイズを決定してもよい。例えば、Ｎ個のビデオフレームのうちの隣接するビデオフレームの収集時刻の時間的間隔が５０ｍｓ（すなわち、ビデオフレームのフレームレートが２０フレーム／ｓ）である場合、移動ステップサイズを５０ｍｓ、時間窓長を６０ｍｓとしてもよい。この場合、隣接する音声フレーム間のオーバーラップが１０ｍｓである。本開示は時間窓長及び移動ステップサイズの具体的な値について特に限定しない。

可能な一実施形態では、１番目の音声フレームについて、Ｔ時刻からの、時間窓に対応する時間帯を１番目の音声フレームに対応する時間帯としてもよい。例えば、Ｔ～Ｔ＋６０ｍｓである。２番目の音声フレームについて、移動ステップサイズに基づいて時間窓を移動し、時間窓に対応する時間帯を２番目の音声フレームに対応する時間帯としてもよい。例えば、Ｔ＋５０ｍｓ～Ｔ＋１１０ｍｓである。ｎ番目の音声フレームについて、移動ステップサイズに基づいて時間窓を移動し、ｎ番目の音声フレームに対応する時間帯を特定してもよい。このようにして、ｎ個の音声フレームに対応する時間帯のそれぞれを特定してもよい。

可能な一実施形態では、ｎ番目の音声フレームに対応する時間帯に基づいて、音信号からｎ番目の音声フレームを切り出してもよい。Ｎ個の音声フレームの時間帯に基づいてそれぞれ分割すると、Ａ１、Ａ２、・・・、ＡＮと記すＮ個の音声フレームが得られる。

上記形態によれば、音声分割プロセスを実現し、後続の処理効果を向上させることができる。

可能な一実施形態では、音声フレームに対して音声特徴抽出を行ってもよい。例えば、ＭＦＣＣ（Ｍｅｌ－ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒａｌＣｏｅｆｆｉｃｉｅｎｔｓ、メル周波数ケプストラム係数）の変換により、音声情報を含むｃ次元ベクトルとなるように音声フレームを変換し、該ｃ次元ベクトルを音声特徴とし、Ａｎ－ｆｅａｔｕｒｅとして記してもよい。音声特徴の長さｃは、顔特徴のトンネル数と同一である。

このようにして、Ｎ個の音声フレームのそれぞれを処理することにより、Ｎ個の音声特徴を得てもよい。他の方法により音声フレームに対して音声特徴抽出を行ってもよいことは理解されるべきである。本開示はこれについて特に限定しない。

可能な一実施形態では、乗員のＮ個の顔特徴及びＮ個の音声特徴が得られた後、顔特徴及び音声特徴を融合してもよい。前記顔特徴及び前記音声特徴に基づいて、前記乗員の融合特徴を決定することは、
前記Ｎ個の顔特徴と前記Ｎ個の音声特徴とを一対一対応させて融合し、Ｎ個のサブ融合特徴を得ることと、
前記Ｎ個のサブ融合特徴を連結し、前記乗員の融合特徴を得ることと、を含んでもよい。

すなわち、該乗員ｉのｎ番目の顔特徴Ｉｎ－ｆｅａｔｕｒｅｍａｐ－ｉとｎ番目の音声特徴Ａｎ－ｆｅａｔｕｒｅとを融合してもよい。例えば、音声特徴（ｃ次元ベクトル）と用いて顔特徴（特徴次元が（ｃ、ｈ、ｗ））の各位置との内積を実行してＦｕｓｉｏｎｆｅａｔｕｒｅ－ｎ（ｃ、ｈ、ｗ）と記するｎ番目のサブ融合特徴が得られてもよい。このように、Ｎ個の顔特徴とＮ個の音声特徴とを一対一対応させて融合することにより、Ｎ個のサブ融合特徴が得られる。

可能な一実施形態では、Ｎ個のサブ融合特徴を連結し、ｖｉｄｅｏ－ｆｕｓｉｏｎｆｅａｔｕｒｅと記する該乗員ｉの融合特徴が得られる。

上記形態によれば、顔特徴と音声特徴とのマルチモーダル融合を実現でき、ニューラルネットワークレベルで両者を融合し、発話検出の誤認識率を大幅に低減することができる。アッパー層で論理融合を行う場合に比べて、ニューラルネットワークレベルでの融合は発話検出のロバスト性を向上させることができる。

可能な一実施形態では、融合特徴に基づいて、該乗員ｉの発話検出結果を特定してもよい。発話検出ネットワークを予め設け、融合特徴を発話検出ネットワークに入力して処理し、該乗員ｉの発話検出結果を出力してもよい。

該発話検出ネットワークは、例えば、複数の全結合層（例えば、３つの全結合層）、ｓｏｆｔｍａｘ層などを含む畳み込みニューラルネットワークであり、融合特徴の二項分類を実行してもよい。融合機能を発話検出ネットワークの全結合層に入力すると、発話状態と他の状態にそれぞれ対応する２次元の出力が得られる。ｓｏｆｔｍａｘ層により処理すると、正規化されたスコア（ｓｃｏｒｅ）または信頼度が得られる。

可能な一実施形態では、発話状態にあるスコア又は信頼度の予め設定された閾値を設定してもよい（例えば、０．８と設定してもよい）。該予め設定された閾値を超えると、該乗員ｉが発話状態にあると決定する。逆に、該乗員ｉが未発話状態にあると決定する。本開示は、発話検出ネットワークのネットワーク構造、訓練方法及び予め設定された閾値の具体的な値を特に限定しない。

図２は、本開示の一実施例に係る発話検出プロセスの模式図を示す。

図２に示すように、ビデオフレーム１、ビデオフレーム２、…、ビデオフレームＮを含む処理対象のＮ個のビデオフレームについては、Ｎ個のビデオフレームのそれぞれに対して顔検出を行い、Ｎ個のビデオフレームにおいて乗員ｉの顔領域を特定して、Ｎ個のビデオフレームにおける乗員ｉの顔領域のそれぞれに対して顔特徴抽出を行い、Ｎ個の顔特徴を得る。音声フレーム１、音声フレーム２、…、音声フレームＮを含む処理対象のＮ個の音声フレームについては、Ｎ個の音声フレームのそれぞれに対してＭＦＣＣ変換を行い、Ｎ個の音声特徴を抽出して、内積によりＮ個の顔特徴とＮ個の音声特徴とを一対一対応させて融合し、サブ融合特徴１、サブ融合特徴２、…、サブ融合特徴Ｎを含むＮ個のサブ融合特徴を得て、Ｎ個のサブ融合特徴を連結し、該乗員ｉの融合特徴を得て、融合特徴を発話検出ネットワークに入力して処理し、該乗員ｉが発話状態又は未発話状態にあることを示す該乗員ｉの発話検出結果を出力する。

上記形態によれば、画像構成と音声特徴とのマルチモーダル融合特徴に基づいて、車室内の乗員が発話しているか否かを判断することができるので、発話検出の正確性が向上する。

可能な一実施形態では、乗員発話検出の精度を向上させるために、各乗員に対して上記処理をすることにより各乗員の発話検出結果を取得して、各乗員の発話検出結果に基づいて、音信号を発した目標乗員を特定することにより、音信号を発した目標乗員がどの乗員であるかを特定してもよい。

可能な一実施形態では、本開示の実施例に係る乗員発話検出方法は、
前記音信号の内容認識を行い、前記音信号に対応する音声内容を特定することと、
前記音声内容に予め設定された音声コマンドが含まれる場合、前記音声コマンドに対応する制御機能を実行することと、をさらに含む。

例を挙げると、ステップＳ１３において音信号を発した目標乗員を特定した場合、音声認識機能をオンにして音信号の内容認識を行い、音信号に対応する音声内容を特定してもよい。本開示は、音声内容認識の実現方法について特に限定しない。

可能な一実施形態では、各音声コマンドを予め設定してもよい。音声内容に予め設定された音声コマンドが含まれると認識された場合、該音声コマンドに対応する制御機能を実行することができる。例えば、音声内容が「音楽を再生して」という音声コマンドを含むことが認識された場合、音楽を再生するように車載の音楽再生デバイスを制御することができる。音声内容が「左ウィンドウを開いて」という音声コマンドを含むことが認識された場合、左ウィンドウを開けるように制御することができる。

上記形態によれば、車内乗員との音声インタラクションを実現でき、ユーザが音声で各制御機能を実現し、ユーザによる使用の利便性を向上させ、ユーザーエクスペリエンスを向上させることができる。

可能な一実施形態では、前記した、前記音声内容に予め設定された音声コマンドが含まれる場合、前記音声コマンドに対応する制御機能を実行するのステップは、
前記音声コマンドが、方向性を有する複数の制御機能に対応する場合、前記目標乗員の前記顔領域に基づいて、前記目標乗員の注視方向を特定することと、
前記目標乗員の注視方向に基づいて、前記複数の制御機能から目標制御機能を決定することと、
前記目標制御機能を実行することと、を含んでもよい。

例を挙げると、音声コマンドは、方向性を有する複数の制御機能に対応する可能性がある。例えば、、「ウィンドウを開けて」という音声コマンドが左側と右側との二方向のウィンドウのオープンに対応し、複数の制御機能は、左ウィンドウを開けるように制御すること及び「右ウィンドウを開けるように制御することを含む。該当音声コマンドが左前、左後、右前、右後との４方向のウィンドウのオープンに対応することが可能であるので、複数の制御機能は、左前ウィンドウを開けるように制御することと、右前ウィンドウを開けるように制御することと、左後ウィンドウを開けるように制御することと、右後ウィンドウを開けるように制御することとを含む。この場合、画像認識と組み合わせて、対応の制御機能を決定してもよい。

可能な一実施形態では、音声コマンドが、方向性を有する複数の制御機能に対応する場合、Ｎ個のビデオフレームにおける目標乗員の顔領域に基づいて、目標乗員の注視方向を特定してもよい。

可能な一実施形態では、Ｎ個のビデオフレームにおける目標乗員の顔領域の画像のそれぞれに対して特徴抽出を行い、Ｎ個のビデオフレームにおける目標乗員の顔特徴を得て、Ｎ個の顔特徴を融合し、目標乗員の顔融合特徴を得て、顔融合特徴を予め設定された注視方向認識ネットワークに入力して処理し、目標乗員の注視方向（目標乗員の目の視線方向）を得てもよい。

この注視方向認識ネットワークは、例えば、畳み込み層、全結合層、ｓｏｆｔｍａｘ層等を含む畳み込みニューラルネットワークであってもよい。本開示は、注視方向認識ネットワークのネットワーク構造及びトレーニング方法について特に限定しない。

可能な一実施形態では、目標乗員の注視方向に基づいて、複数の制御機能から目標制御機能を決定してもよい。例えば、音声コマンドが「ウィンドウを開けて」であり、目標乗員の注視方向が右側に向かっていると特定された場合、目標制御機能が右ウィンドウを開けるように制御すると決定することができる。これにより、目標制御機能（例えば、右ウィンドウを開けること）を実行することができる。

上記形態によれば、音声インタラクションの正確性を向上させ、ユーザによる使用の利便性を更に向上させることができる。

可能な一実施形態では、乗員のアイデンティティを区別せずに、発話している目標乗員がいると判断すれば、音声認識をスタートして対応する制御機能を実行してもよい。目標乗員のアイデンティティを区別してもよく、例えば、運転者の音声のみに対して反応し、運転者が発話していると判断した場合、音声認識を行うが、乗客の音声に対して反応しない。又は、乗客が位置する席領域に基づいて、乗客が発話していると判断した場合、音声認識を行い、乗客が位置する席領域の領域制御機能等を実行してもよい。

可能な一実施形態では、本開示の実施例に係る乗員発話検出方法は、
前記ビデオストリームに基づいて、前記目標乗員の席領域を特定することと、
前記音信号の内容認識を行い、前記音信号に対応する音声内容を特定することと、
前記音声内容に予め設定された音声コマンドが含まれる場合、前記目標乗員の席領域に基づいて、前記音声コマンドに対応する領域制御機能を決定することと、
前記領域制御機能を実行することと、をさらに含む。

例を挙げると、ビデオストリームは運転者領域の第１ビデオストリーム、および／または車室内の乗員領域の第２ビデオストリームを含み、目標乗員は、運転者および／または乗員を含んでもよい。

可能な一実施形態では、第１ビデオストリームについて、ステップＳ１３において音信号を発した目標乗員を特定した場合、該目標乗員が運転者であり、目標乗員の席領域が運転者領域であると直接特定してもよい。

可能な一実施形態では、第２ビデオストリームについて、ステップＳ１３において音信号を発した目標乗員を特定した場合、第２ビデオストリームのビデオフレームにおける目標乗員の顔領域の位置に基づいて、該乗員の席領域、例えば助手席領域、後部左側席領域、後部右側席領域等を特定してもよい。

例えば、運転者領域が車室の前部左側にある場合、目標乗員の顔領域がビデオフレームの左下位置であれば、目標乗員の席領域が助手席領域であると特定してもよい。

可能な一実施形態では、ステップＳ１３において音信号を発した目標乗員を特定した場合、音声認識機能をオンにして音信号の内容認識を行い、音信号に対応する音声内容を特定してもよいが、本開示は、音声内容認識の実現方法について特に限定しない。

可能な一実施形態では、各音声コマンドを予め設定してもよい。音声内容に予め設定された音声コマンドが含まれると認識された場合、目標乗員の席領域に基づいて、音声コマンドに対応する領域制御機能を決定してもよい。例えば、音声内容が音声コマンド「ウィンドウを開けて」を含み、目標乗員の席領域が後部左側席領域であると認識した場合、対応する領域制御機能として、左後ウィンドウを開けるように制御すると決定することができる。これにより、該領域制御機能（例えば左後ウィンドウを開けること）を実行してもよい。

上記形態によれば、対応する領域制御機能を実行し、ユーザの利用利便性を向上させることができる。

本開示の実施例に係る乗員発話検出方法によれば、車室内のビデオストリーム及び音信号を取得して、ビデオストリームに対して顔検出を行い、ビデオストリームにおいて車室内の少なくとも１人の乗員の顔領域を特定して、各乗員顔領域及び音信号に基づいて、各乗員から、音信号を発した目標乗員を特定することができる。顔領域及び音信号の両方により乗員が発話するか否かを判断するので、乗員発話検出の正確性を向上させ、音声認識の誤認識率を低減することができる。

本開示の実施例に係る乗員発話検出方法によれば、ビデオ画像と音信号をマルチモーダルに融合し、ニューラルネットワークで融合することにより、非ヒト音源に起因する音声の干渉を極めて大きく低減し、発話検出の誤認識率を大幅に低減することができる。また、アッパー層で論理融合を行う場合に比べて、ニューラルネットワークレベルでの融合は発話検出のロバスト性を向上させることができる。

本開示の実施例に係る乗員発話検出方法によれば、スマート車室の感知システムに適用可能であり、単に音信号に頼ることによる誤検出が効果的に回避され、音声認識が正常にトリガーされることが確保でき、ユーザーエクスペリエンスが向上することができる。

本開示で言及される上記各方法の実施例は、原理と論理に違反しない限り、相互に組み合わせて実施例を形成することができることが理解すべきである。紙数に限りがあるので、本開示では詳細な説明を省略する。具体的な実施形態の上記方法において、各ステップの具体的な実行順番はその機能と、あり得る内部ロジックとにより決定すべきであることが、当業者に理解できる。

なお、本開示は、さらに、乗員発話検出装置、電子機器、コンピュータ可読記憶媒体、プログラムを提供する。これらは、いずれも本開示で提供される乗員発話検出方法のいずれかを実現するために利用可能であり、対応する技術的手段及び説明については、方法に対応する記載を参照すればよく、ここでは詳細な説明を省略する。

図３は、本開示の実施例に係る乗員発話検出装置のブロック図を示す。図３に示すように、前記乗員発話検出装置は、
車室内のビデオストリーム及び音信号を取得するための信号取得モジュール３１と、
前記ビデオストリームに対して顔検出を行い、前記ビデオストリームにおいて車室内の少なくとも１人の乗員の顔領域を特定するための顔検出モジュール３２と、
各乗員の前記顔領域、及び前記音信号に基づいて、前記車室内において前記音信号を発した目標乗員を特定するための乗員特定モジュール３３と、
を含む。

可能な一実施形態では、前記機能実行モジュールは前記音声コマンドが、方向性を有する複数の制御機能に対応する場合、前記目標乗員の前記顔領域に基づいて、前記目標乗員の注視方向を特定することと、前記目標乗員の注視方向に基づいて、前記複数の制御機能から目標制御機能を決定することと、前記目標制御機能を実行することとに用いられる。

可能な一実施形態では、前記ビデオストリームは運転者領域の第１ビデオストリームを含み、
前記顔検出モジュールは、前記第１ビデオストリームにおいて前記車室内の運転者の顔領域を特定することに用いられ、
前記乗員特定モジュールは、前記運転者の前記顔領域、及び前記音信号に基づいて、前記車室内において前記音信号を発した目標乗員が前記運転者であるか否かを判定することに用いられる。

可能な一実施形態では、前記ビデオストリームは乗員領域の第２ビデオストリームを含み、
前記乗員特定モジュールは、前記乗員ごとの顔領域に対して、当該顔領域及び前記音信号に基づいて、前記車室内において前記音信号を発した目標乗員が当該顔領域に対応する乗員であるか否かを判定することに用いられる。

可能な一実施形態では、前記乗員発話検出装置は、
前記ビデオストリームに基づいて、前記目標乗員の席領域を特定するための席領域特定モジュールと、前記音信号の内容認識を行い、前記音信号に対応する音声内容を特定するための第２認識モジュールと、前記音声内容に予め設定された音声コマンドが含まれる場合、前記目標乗員の席領域に基づいて、前記音声コマンドに対応する領域制御機能を決定するための機能決定モジュールと、前記領域制御機能を実行するための領域制御モジュールと、をさらに含む。

可能な一実施形態では、前記乗員特定モジュールは、
前記ビデオストリームにおいて前記音信号の時間帯に対応するビデオフレームシーケンスを特定することと、
各乗員の前記顔領域について、前記ビデオフレームシーケンスにおける前記乗員の顔領域の特徴抽出を行い、前記乗員の顔特徴を得ることと、前記顔特徴及び前記音信号から抽出された音声特徴に基づいて、前記乗員の融合特徴を決定することと、前記融合特徴に基づいて、前記乗員の発話検出結果を特定することと、を行うことと、
各乗員の発話検出結果に基づいて、前記音信号を発した目標乗員を特定することとに用いられる。

可能な一実施形態では、前記乗員特定モジュールが前記ビデオフレームシーケンスにおける前記乗員の顔領域の特徴抽出を行うことは、前記ビデオフレームシーケンス内のＮ個のビデオフレームのそれぞれにおける前記乗員の顔領域の特徴抽出を行い、前記乗員のＮ個の顔特徴を得ることを含み、前記音声特徴の抽出について、前記乗員特定モジュールにより、前記Ｎ個のビデオフレームの収集時刻に基づいて前記音信号の分割及び音声特徴抽出を行い、前記Ｎ個のビデオフレームのそれぞれに対応するＮ個の音声特徴を得る。

可能な一実施形態では、前記乗員特定モジュールが前記Ｎ個のビデオフレームの収集時刻に基づいて前記音信号の分割及び音声特徴抽出を行い、前記Ｎ個のビデオフレームのそれぞれに対応するＮ個の音声特徴を得ることは、前記Ｎ個のビデオフレームの収集時刻に基づいて前記音信号を分割し、前記Ｎ個のビデオフレームのそれぞれに対応するＮ個の音声フレームを得ることであって、前記Ｎ個のビデオフレームのうち、ｎ（ｎが整数であって、１≦ｎ≦Ｎである）番目のビデオフレームの収集時刻がｎ番目の音声フレームに対応する時間帯内にあることと、前記Ｎ個の音声フレームのそれぞれに対して音声特徴抽出を行い、Ｎ個の音声特徴を得ることと、を含む。

いくつかの実施例では、本開示の実施例で提供された装置が備えた機能又はモジュールは、上記方法実施例に記載の方法を実行するために用いられことができる。具体的な実施形態及び技術的効果については、上記方法実施例の説明を参照すればよく、簡潔化するために、ここで重複説明は割愛する。

本開示の実施例では、コンピュータプログラム命令が記憶されているコンピュータ可読記憶媒体であって、前記コンピュータプログラム命令がプロセッサにより実行されると、上記乗員発話検出方法を実現させるコンピュータ可読記憶媒体をさらに提供する。コンピュータ可読記憶媒体は、揮発性または不揮発性のコンピュータ可読記憶媒体であってもよい。

本開示の実施例では、プロセッサと、プロセッサにより実行可能な命令を記憶するメモリとを含み、前記プロセッサは、前記メモリに記憶されている命令を呼び出すことにより上記乗員発話検出方法を実行するように構成される電子機器をさらに提供する。

本開示の実施例では、コンピュータ可読コード、又はコンピュータ可読コードを記憶しているコンピュータ可読な不揮発性記憶媒体を含むコンピュータプログラムであって、前記コンピュータ可読コードが電子機器のプロセッサで動作すると、前記電子機器のプロセッサに上記乗員発話検出方法を実現するための命令を実行させるコンピュータプログラム製品をさらに提供する。

本開示の実施例では、コンピュータ可読コードを含むコンピュータプログラムであって、前記コンピュータ可読コードが電子機器で動作すると、前記電子機器のプロセッサに上記乗員発話検出方法を実現するための命令を実行させるコンピュータプログラムをさらに提供する。

電子機器は、端末、サーバー又はその他の形態の機器として提供されてもよい。

図４は、本開示の実施例に係る電子機器８００のブロック図を示す。例えば、装置８００は携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信機器、ゲームコンソール、タブレット型機器、医療機器、フィットネス機器、パーソナル・デジタル・アシスタント等の端末であってよい。

図４を参照すると、電子機器８００は処理コンポーネント８０２、メモリ８０４、電源コンポーネント８０６、マルチメディアコンポーネント８０８、オーディオコンポーネント８１０、入力／出力（Ｉ／Ｏ）インタフェース８１２、センサコンポーネント８１４、及び通信コンポーネント８１６のうちの一つ以上を含んでもよい。

処理コンポーネント８０２は通常、電子機器８００の全体的な動作、例えば表示、電話の呼び出し、データ通信、カメラ動作及び記録動作に関連する動作を制御する。処理コンポーネント８０２は、上記方法の全てまたは一部のステップを実行するために、命令を実行する一つ以上のプロセッサ８２０を含んでもよい。また、処理コンポーネント８０２は、他のコンポーネントとのインタラクションのための一つ以上のモジュールを含んでもよい。例えば、処理コンポーネント８０２は、マルチメディアコンポーネント８０８とのインタラクションのために、マルチメディアモジュールを含んでもよい。

メモリ８０４は、電子機器８００での動作をサポートするための様々なタイプのデータを記憶するように構成される。これらのデータは、例として、電子機器８００において操作するあらゆるアプリケーションプログラムまたは方法の命令、連絡先データ、電話帳データ、メッセージ、ピクチャー、ビデオなどを含む。メモリ８０４は、例えば静的ランダムアクセスメモリ（ＳＲＡＭ）、電気的消去可能プログラマブル読み取り専用メモリ（ＥＥＰＲＯＭ）、消去可能なプログラマブル読み取り専用メモリ（ＥＰＲＯＭ）、プログラマブル読み取り専用メモリ（ＰＲＯＭ）、読み取り専用メモリ（ＲＯＭ）、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクなどの様々なタイプの揮発性または不揮発性記憶装置またはそれらの組み合わせによって実現できる。

電源コンポーネント８０６は電子機器８００の各コンポーネントに電力を供給する。電源コンポーネント８０６は電源管理システム、一つ以上の電源、及び電子機器８００のための電力生成、管理及び配分に関連する他のコンポーネントを含んでもよい。

マルチメディアコンポーネント８０８は前記電子機器８００とユーザとの間で出力インタフェースを提供するスクリーンを含む。いくつかの実施例では、スクリーンは液晶ディスプレイ（ＬＣＤ）及びタッチパネル（ＴＰ）を含んでもよい。スクリーンがタッチパネルを含む場合、ユーザからの入力信号を受信するタッチスクリーンとして実現してもよい。タッチパネルは、タッチ、スライド及びタッチパネルでのジェスチャを検出するために、一つ以上のタッチセンサを含む。前記タッチセンサはタッチまたはスライド動きの境界を検出するのみならず、前記タッチまたはスライド操作に関する持続時間及び圧力を検出するようにしてもよい。いくつかの実施例では、マルチメディアコンポーネント８０８は前面カメラ及び／または背面カメラを含む。電子機器８００が動作モード、例えば撮影モードまたは撮像モードになる場合、前面カメラ及び／または背面カメラは外部のマルチメディアデータを受信するようにしてもよい。各前面カメラ及び背面カメラは、固定された光学レンズ系、または焦点距離及び光学ズーム能力を有するものであってもよい。

オーディオコンポーネント８１０はオーディオ信号を出力及び／または入力するように構成される。例えば、オーディオコンポーネント８１０は、一つのマイク（ＭＩＣ）を含み、マイク（ＭＩＣ）は、電子機器８００が動作モード、例えば呼び出しモード、記録モードまたは音声認識モードになる場合、外部のオーディオ信号を受信するように構成される。受信されたオーディオ信号はさらにメモリ８０４に記憶されるか、または通信コンポーネント８１６を介して送信されてもよい。いくつかの実施例では、オーディオコンポーネント８１０はさらに、オーディオ信号を出力するためのスピーカーを含む。

Ｉ／Ｏインタフェース８１２は処理コンポーネント８０２と周辺インタフェースモジュールとの間でインタフェースを提供し、上記周辺インタフェースモジュールはキーボード、クリックホイール、ボタンなどであってもよい。これらのボタンはホームボタン、ボリュームボタン、スタートボタン及びロックボタンを含んでもよいが、これらに限定されない。

センサコンポーネント８１４は電子機器８００の各面の状態評価のための一つ以上のセンサを含む。例えば、センサコンポーネント８１４は、電子機器８００のオン／オフ状態、例えば電子機器８００の表示装置及びキーパッドのようなコンポーネントの相対的位置決めを検出でき、センサコンポーネント８１４はさらに、電子機器８００または電子機器８００のあるコンポーネントの位置の変化、ユーザと電子機器８００との接触の有無、電子機器８００の方位または加減速及び電子機器８００の温度変化を検出できる。センサコンポーネント８１４は、いかなる物理的接触もない場合に近傍の物体の存在を検出するように構成される近接センサを含む。センサコンポーネント８１４はさらに、相補型金属酸化膜半導体（ＣＭＯＳ）または電荷結合素子（ＣＣＤ）イメージセンサのような、イメージングアプリケーションにおいて使用するための光センサを含んでもよい。いくつかの実施例では、該センサコンポーネント８１４はさらに、加速度センサ、ジャイロセンサ、磁気センサ、圧力センサまたは温度センサを含んでもよい。

通信コンポーネント８１６は電子機器８００と他の機器との間の有線または無線通信を実現するように構成される。電子機器８００は通信規格に基づく無線ネットワーク、例えば無線ネットワーク（ＷｉＦｉ）、第２世代移動通信技術（２Ｇ）または第３世代移動通信技術（３Ｇ）、またはそれらの組み合わせにアクセスできる。一例示的実施例では、通信コンポーネント８１６は放送チャネルを介して外部の放送管理システムからの放送信号または放送関連情報を受信する。一例示的実施例では、前記通信コンポーネント８１６はさらに、近距離通信を促進させるために、近距離無線通信（ＮＦＣ）モジュールを含む。例えば、ＮＦＣモジュールは無線周波数識別（ＲＦＩＤ）技術、赤外線データ協会（ＩｒＤＡ）技術、超広帯域（ＵＷＢ）技術、ブルートゥース（ＢＴ）技術及び他の技術によって実現できる。

例示的な実施例では、電子機器８００は一つ以上の特定用途向け集積回路（ＡＳＩＣ）、デジタル信号プロセッサ（ＤＳＰ）、デジタル信号処理デバイス（ＤＳＰＤ）、プログラマブルロジックデバイス（ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子要素によって実現され、上記方法を実行するために用いられることができる。

例示的な実施例では、さらに、不揮発性のコンピュータ可読記憶媒体、例えばコンピュータプログラム命令を含むメモリ８０４が提供され、上記コンピュータプログラム命令は電子機器８００のプロセッサ８２０によって実行されると、上記方法を実行させることができる。

図５は、本開示の実施例に係る電子機器１９００のブロック図を示す。例えば、電子機器１９００は、サーバとして提供されてもよい。図５を参照すると、電子機器１９００は、一つ以上のプロセッサを含む処理コンポーネント１９２２、及び、処理コンポーネント１９２２によって実行可能な命令、例えばアプリケーションプログラムを記憶するための、メモリ１９３２を代表とするメモリ資源をさらに含む。メモリ１９３２に記憶されているアプリケーションプログラムは、それぞれが１つの命令群に対応する一つ以上のモジュールを含んでもよい。また、処理コンポーネント１９２２は、命令を実行することによって上記方法を実行するように構成される。

電子機器１９００はさらに、電子機器１９００の電源管理を実行するように構成される電源コンポーネント１９２６、電子機器１９００をネットワークに接続するように構成される有線または無線ネットワークインタフェース１９５０、及び入出力（Ｉ／Ｏ）インタフェース１９５８を含んでもよい。電子機器１９００はメモリ１９３２に記憶されているオペレーティングシステム、例えばマイクロソフトウィンドウズサーバオペレーティングシステム（ＷｉｎｄｏｗｓＳｅｒｖｅｒＴＭ）、アップル社製グラフィカルユーザーインターフェースオペレーティングシステムＭａｃＯＳＸＴＭ、コンピュータ用のマルチタスク・マルチユーザーのオペレーティングシステム（ＵｎｉｘＴＭ）、フリーでオープンソースのUnix系のオペレーティングシステム（ＬｉｎｕｘＴＭ）、オープンソースのUnix系のオペレーティングシステム（ＦｒｅｅＢＳＤＴＭ）または類似するものに基づいて動作できる。

例示的な実施例では、さらに、不揮発性のコンピュータ可読記憶媒体、例えばコンピュータプログラム命令を含むメモリ１９３２が提供され、上記コンピュータプログラム命令は、電子機器１９００の処理コンポーネント１９２２によって実行されると、上記方法を実行させることができる。

本開示はシステム、方法および／またはコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、プロセッサに本開示の各方面を実現させるためのコンピュータ可読プログラム命令を有しているコンピュータ可読記憶媒体を含んでもよい。

コンピュータ読み取り可能な記憶媒体コンピュータ可読記憶媒体は、命令実行装置に使用される命令を保存及び記憶可能な実体のある装置であってもよい。コンピュータ可読記憶媒体は例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置または上記の任意の適当な組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のさらなる具体的な例（非網羅的リスト）としては、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去・プログラマブル可能な読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、静的ランダムアクセスメモリ（ＳＲＡＭ）、携帯型コンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリスティック、フロッピーディスク、例えば命令が記憶されているせん孔カードまたはスロット内突起構造のような機械的符号化装置、及び上記の任意の適当な組み合わせを含む。ここで使用されるコンピュータ可読記憶媒体は、一時的な信号自体、例えば無線電波または他の自由に伝播される電磁波、導波路または他の伝送媒体を経由して伝播される電磁波（例えば、光ファイバーケーブルを通過するパルス光）、または電線を経由して伝送される電気信号であると解釈されるものではない。

ここで記述したコンピュータ可読プログラム命令はコンピュータ可読記憶媒体から各計算／処理機器にダウンロードされてもよいし、またはネットワーク、例えばインターネット、ローカルエリアネットワーク、広域ネットワーク及び／または無線ネットワークを経由して外部のコンピュータまたは外部記憶装置にダウンロードされてもよい。ネットワークは銅伝送ケーブル、光ファイバー伝送、無線伝送、ルーター、ファイアウォール、交換機、ゲートウェイコンピュータ及び／またはエッジサーバを含んでもよい。各計算／処理機器内のネットワークアダプタカードまたはネットワークインタフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、該コンピュータ読取可能プログラム命令を転送し、各計算／処理機器内のコンピュータ可読記憶媒体に記憶させる。

本開示の動作を実行するためのコンピュータプログラム命令はアセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはＳｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向プログラミング言語及び「Ｃ」言語または類似するプログラミング言語などの一般的な手続き型プログラミング言語を含める一つ以上のプログラミング言語の任意の組み合わせで書かれたソースコードまたは目標コードであってもよい。コンピュータ可読プログラム命令は、完全にユーザのコンピュータにおいて実行されてもよく、部分的にユーザのコンピュータにおいて実行されてもよく、スタンドアロンソフトウェアパッケージとして実行されてもよく、部分的にユーザのコンピュータにおいてかつ部分的にリモートコンピュータにおいて実行されてもよく、または完全にリモートコンピュータもしくはサーバにおいて実行されてもよい。リモートコンピュータに関与する場合、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）または広域ネットワーク（ＷＡＮ）を含む任意の種類のネットワークを経由してユーザのコンピュータに接続されてもよく、または、（例えばインターネットサービスプロバイダを利用してインターネットを経由して）外部コンピュータに接続されてもよい。いくつかの実施例では、コンピュータ可読プログラム命令の状態情報を利用して、例えばプログラマブル論理回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）またはプログラマブル論理アレイ（ＰＬＡ）などの電子回路をパーソナライズし、該電子回路によりコンピュータ可読プログラム命令を実行することにより、本開示の各方面を実現するようにしてもよい。

ここで本開示の実施例に係る方法、装置（システム）及びコンピュータプログラム製品のフローチャート及び／またはブロック図を参照しながら本開示の各態様を説明したが、フローチャート及び／またはブロック図の各ブロック、及びフローチャート及び／またはブロック図の各ブロックの組み合わせは、いずれもコンピュータ可読プログラム命令によって実現できることを理解すべきである。

これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサへ提供され、これらの命令がコンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行されると、フローチャート及び／またはブロック図の一つ以上のブロックにおいて指定された機能／動作を実現させるように、装置を製造してもよい。これらのコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体に記憶され、コンピュータ、プログラマブルデータ処理装置及び／または他の機器を決定の方式で動作させるようにしてもよい。これにより、命令が記憶されているコンピュータ可読記憶媒体は、フローチャート及び／またはブロック図の一つ以上のブロックにおいて指定された機能／動作の各方面を実現する命令を有する製品を含む。

コンピュータ可読プログラム命令は、コンピュータ、他のプログラマブルデータ処理装置、または他の機器にロードされ、コンピュータ、他のプログラマブルデータ処理装置または他の機器に一連の動作ステップを実行させることにより、コンピュータにより実施可能なプロセスを生成するようにしてもよい。このようにして、コンピュータ、他のプログラマブルデータ処理装置、または他の機器において実行される命令により、フローチャート及び／またはブロック図の一つ以上のブロックにおいて指定された機能／動作を実現する。

図面のうちフローチャート及びブロック図は、本開示の複数の実施例に係るシステム、方法及びコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能及び動作を示す。この点では、フローチャートまたはブロック図における各ブロックは一つのモジュール、プログラムセグメントまたは命令の一部分を代表することができ、前記モジュール、プログラムセグメントまたは命令の一部分は指定された論理機能を実現するための一つ以上の実行可能な命令を含む。いくつかの代替としての実現形態では、ブロックに表記される機能は、図面に付した順序と異なる順序で実現してもよい。例えば、連続的な二つのブロックは実質的に並行に実行してもよく、また、係る機能によって、逆な順序で実行してもよい場合がある。なお、ブロック図及び／またはフローチャートにおける各ブロック、及びブロック図及び／またはフローチャートにおけるブロックの組み合わせは、指定される機能または動作を実行するハードウェアに基づく専用システムによって実現してもよいし、または専用ハードウェアとコンピュータ命令との組み合わせによって実現してもよいことにも注意すべきである。

該コンピュータプログラム製品は、具体的に、ハードウェア、ソフトウェアまたはそれらの組み合わせによって実現できる。可能な一実施例では、前記コンピュータプログラム製品は、具体的にコンピュータ記憶媒体であってもよい。別の可能な一実施例では、コンピュータプログラム製品は、具体的に例えばソフトウェア開発キット（ＳｏｆｔｗａｒｅＤｅｖｅｌｏｐｍｅｎｔＫｉｔ、ＳＤＫ）などのソフトウェア製品であってもよい。

以上、本開示の各実施例を記述したが、上記説明は例示的なものに過ぎず、網羅的なものではなく、かつ披露された各実施例に限定されるものでもない。当業者にとって、説明された各実施例の範囲及び精神から逸脱することなく、様々な修正及び変更が自明である。本明細書に選ばれた用語は、各実施例の原理、実際の適用または従来技術への技術的改善を好適に解釈するか、または他の当業者に本明細書に披露された各実施例を理解させるためのものである。

Claims

車室内のビデオストリーム及び音信号を取得することと、
前記ビデオストリームに対して顔検出を行い、前記ビデオストリームにおいて車室内の少なくとも１人の乗員の顔領域を特定することと、
少なくとも１人の乗員の前記顔領域、及び前記音信号に基づいて、前記車室内において前記音信号を発した目標乗員を特定することと、
を含むことを特徴とする乗員発話検出方法。
前記音信号の内容認識を行い、前記音信号に対応する音声内容を特定することと、
前記音声内容に予め設定された音声コマンドが含まれる場合、前記音声コマンドに対応する制御機能を実行することと、
をさらに含むことを特徴とする請求項１に記載の乗員発話検出方法。
前記した、前記音声内容に予め設定された音声コマンドが含まれる場合、前記音声コマンドに対応する制御機能を実行することは、
前記音声コマンドが、方向性を有する複数の制御機能に対応する場合、前記目標乗員の前記顔領域に基づいて、前記目標乗員の注視方向を特定することと、
前記目標乗員の注視方向に基づいて、前記複数の制御機能から目標制御機能を決定することと、
前記目標制御機能を実行することと、
を含むことを特徴とする請求項２に記載の乗員発話検出方法。
前記ビデオストリームは運転者領域の第１ビデオストリームを含み、
前記した、前記ビデオストリームにおいて車室内の少なくとも１人の乗員の顔領域を特定することは、
前記第１ビデオストリームにおいて前記車室内の運転者の顔領域を特定することを含み、
前記した、少なくとも１人の乗員の前記顔領域、及び前記音信号に基づいて、前記車室内において前記音信号を発した目標乗員を特定することは、
前記運転者の前記顔領域、及び前記音信号に基づいて、前記車室内において前記音信号を発した目標乗員が前記運転者であるか否かを判定することを含むことを特徴とする請求項１～３のいずれか１項に記載の乗員発話検出方法。
前記ビデオストリームは乗員領域の第２ビデオストリームを含み、
前記した、少なくとも１人の乗員の前記顔領域、及び前記音信号に基づいて、前記車室内において前記音信号を発した目標乗員を特定することは、
前記乗員ごとの顔領域に対して、当該顔領域及び前記音信号に基づいて、前記車室内において前記音信号を発した目標乗員が当該顔領域に対応する乗員であるか否かを判定することを含むことを特徴とする請求項１～４のいずれか１項に記載の乗員発話検出方法。
前記ビデオストリームに基づいて、前記目標乗員の席領域を特定することと、
前記音信号の内容認識を行い、前記音信号に対応する音声内容を特定することと、
前記音声内容に予め設定された音声コマンドが含まれる場合、前記目標乗員の席領域に基づいて、前記音声コマンドに対応する領域制御機能を決定することと、
前記領域制御機能を実行することと、
をさらに含むことを特徴とする請求項１～５のいずれか１項に記載の乗員発話検出方法。
前記した、少なくとも１人の乗員の前記顔領域、及び前記音信号に基づいて、前記車室内において前記音信号を発した目標乗員を特定することは、
前記ビデオストリームにおいて前記音信号の時間帯に対応するビデオフレームシーケンスを特定することと、
いずれかの乗員の前記顔領域について、
前記ビデオフレームシーケンスにおける前記乗員の顔領域の特徴抽出を行い、前記乗員の顔特徴を得ることと、
前記顔特徴及び前記音信号から抽出された音声特徴に基づいて、前記乗員の融合特徴を決定することと、
前記融合特徴に基づいて、前記乗員の発話検出結果を特定することと、を行うことと、
少なくとも１人の乗員の発話検出結果に基づいて、前記音信号を発した目標乗員を特定することと、
を含むことを特徴とする請求項１～６のいずれか１項に記載の乗員発話検出方法。
前記した、前記ビデオフレームシーケンスにおける前記乗員の顔領域の特徴抽出を行うことは、
前記ビデオフレームシーケンス内のＮ個のビデオフレームのうちの少なくとも１つのフレームにおける前記乗員の顔領域の特徴抽出を行い、前記乗員のＮ個の顔特徴を得ることを含み、
前記音声特徴の抽出について、前記Ｎ個のビデオフレームの収集時刻に基づいて前記音信号の分割及び音声特徴抽出を行い、前記Ｎ個のビデオフレームのそれぞれに対応するＮ個の音声特徴を得ることを特徴とする請求項７に記載の乗員発話検出方法。
前記した、前記Ｎ個のビデオフレームの収集時刻に基づいて前記音信号の分割及び音声特徴抽出を行い、前記Ｎ個のビデオフレームのそれぞれに対応するＮ個の音声特徴を得ることは、
前記Ｎ個のビデオフレームの収集時刻に基づいて前記音信号を分割し、前記Ｎ個のビデオフレームのそれぞれに対応するＮ個の音声フレームを得ることであって、前記Ｎ個のビデオフレームのうち、ｎ（ｎが整数であって、１≦ｎ≦Ｎである）番目のビデオフレームの収集時刻がｎ番目の音声フレームに対応する時間帯内にあることと、
前記Ｎ個の音声フレームのそれぞれに対して音声特徴抽出を行い、Ｎ個の音声特徴を得ることと、
を含むことを特徴とする請求項８に記載の乗員発話検出方法。
前記した、前記Ｎ個のビデオフレームの収集時刻に基づいて前記音信号を分割し、前記Ｎ個のビデオフレームのそれぞれに対応するＮ個の音声フレームを得ることは、
前記Ｎ個のビデオフレームの収集時刻に基づいて、前記音信号を分割するための時間窓の時間窓長、及び前記時間窓長よりも小さい移動ステップサイズを決定することと、
ｎ番目の音声フレームについて、前記移動ステップサイズに基づいて前記時間窓を移動させ、前記ｎ番目の音声フレームに対応する時間帯を特定することと、
前記ｎ番目の音声フレームに対応する時間帯に基づいて、前記音信号から前記ｎ番目の音声フレームを切り出すことと、
を含むことを特徴とする請求項９に記載の乗員発話検出方法。
前記した、前記顔特徴及び前記音声特徴に基づいて、前記乗員の融合特徴を決定することは、
前記Ｎ個の顔特徴と前記Ｎ個の音声特徴とを一対一対応させて融合し、Ｎ個のサブ融合特徴を得ることと、
前記Ｎ個のサブ融合特徴を連結し、前記乗員の融合特徴を得ることと、
を含むことを特徴とする請求項８～１０のいずれか１項に記載の乗員発話検出方法。
車室内のビデオストリーム及び音信号を取得するための信号取得モジュールと、
前記ビデオストリームに対して顔検出を行い、前記ビデオストリームにおいて車室内の少なくとも１人の乗員の顔領域を特定するための顔検出モジュールと、
少なくとも１人の乗員の前記顔領域、及び前記音信号に基づいて、前記車室内において前記音信号を発した目標乗員を特定するための乗員特定モジュールと、
を含むことを特徴とする乗員発話検出装置。
プロセッサと、
プロセッサにより実行可能な命令を記憶するメモリと、を含み、
前記プロセッサは、前記メモリに記憶されている命令を呼び出すことにより請求項１～１１のいずれか１項に記載の乗員発話検出方法を実行するように構成されることを特徴とする電子機器。
コンピュータプログラム命令が記憶されているコンピュータ可読記憶媒体であって、前記コンピュータプログラム命令は、プロセッサにより実行されると、請求項１～１１のいずれか１項に記載の乗員発話検出方法を実現させることを特徴とするコンピュータ可読記憶媒体。
コンピュータ可読コードを含むコンピュータプログラムであって、前記コンピュータ可読コードが電子機器で動作すると、前記電子機器のプロセッサに請求項１～１１のいずれか１項に記載の乗員発話検出方法を実現するための命令を実行させることを特徴とするコンピュータプログラム。