JP2024505968A - 乗員発話検出方法及び装置、電子機器並びに記憶媒体 - Google Patents

乗員発話検出方法及び装置、電子機器並びに記憶媒体 Download PDF

Info

Publication number
JP2024505968A
JP2024505968A JP2023546461A JP2023546461A JP2024505968A JP 2024505968 A JP2024505968 A JP 2024505968A JP 2023546461 A JP2023546461 A JP 2023546461A JP 2023546461 A JP2023546461 A JP 2023546461A JP 2024505968 A JP2024505968 A JP 2024505968A
Authority
JP
Japan
Prior art keywords
occupant
audio
sound signal
video stream
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023546461A
Other languages
English (en)
Inventor
フェイ ワン
チェン チイエン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Lingang Jueying Intelligent Technology Co Ltd
Original Assignee
Shanghai Lingang Jueying Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Lingang Jueying Intelligent Technology Co Ltd filed Critical Shanghai Lingang Jueying Intelligent Technology Co Ltd
Publication of JP2024505968A publication Critical patent/JP2024505968A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本開示は、乗員発話検出方法及び装置、電子機器並びに記憶媒体に関する。前記乗員発話検出方法は、車室内のビデオストリーム及び音信号を取得することと、前記ビデオストリームに対して顔検出を行い、前記ビデオストリームにおいて車室内の少なくとも1人の乗員の顔領域を特定することと、少なくとも1人の乗員の前記顔領域、及び前記音信号に基づいて、前記車室内において前記音信号を発した目標乗員を特定することと、を含む。【選択図】図1

Description

本開示は、2021年6月30日に中国特許庁に提出された、出願番号が202110738677.5号で、発明の名称「乗員発話検出方法及び装置、電子機器並びに記憶媒体」である中国特許出願の優先権を主張し、そのすべての内容は援用により本開示に組み込まれる。
本開示は、コンピュータ技術に関し、特に乗員発話検出方法及び装置、電子機器並びに記憶媒体に関する。
車室のスマート化は、マルチモーダルインタラクション、パーソナライゼーションサービス、安全感知などのスマート化を含み、現在の自動車業界の発展の重要な方向である。車室のマルチモーダルインタラクションは、乗客への快適なインタラクティブエクスペリエンスの提供を意図している。マルチモーダルインタラクション手段は、音声認識やジェスチャ認識などを含む。そのうち、音声認識は、車載インタラクションの分野で高いマーケットシェアを占めている。
しかしながら、車室内には例えば、オーディオ、ドライビングノイズ、外部ノイズなどのサウンドソースが多数あるので、音声認識には非常に強く干渉されてしまう。
本開示は乗員発話検出に係る技術的解決手段を提供する。
本開示の一方面によれば、車室内のビデオストリーム及び音信号を取得することと、前記ビデオストリームに対して顔検出を行い、前記ビデオストリームにおいて車室内の少なくとも1人の乗員の顔領域を特定することと、各乗員の前記顔領域、及び前記音信号に基づいて、前記車室内において前記音信号を発した目標乗員を特定することと、を含む乗員発話検出方法を提供する。
可能な一実施形態では、前記乗員発話検出方法は、前記音信号の内容認識を行い、前記音信号に対応する音声内容を特定することと、前記音声内容に予め設定された音声コマンドが含まれる場合、前記音声コマンドに対応する制御機能を実行することとをさらに含む。
可能な一実施形態では、前記した、前記音声内容に予め設定された音声コマンドが含まれる場合、前記音声コマンドに対応する制御機能を実行することは、前記音声コマンドが、方向性を有する複数の制御機能に対応する場合、前記目標乗員の前記顔領域に基づいて、前記目標乗員の注視方向を特定することと、前記目標乗員の注視方向に基づいて、前記複数の制御機能から目標制御機能を決定することと、前記目標制御機能を実行することと、を含む。
可能な一実施形態では、前記ビデオストリームは運転者領域の第1ビデオストリームを含み、前記した、前記ビデオストリームにおいて車室内の少なくとも1人の乗員の顔領域を特定することは、前記第1ビデオストリームにおいて前記車室内の運転者の顔領域を特定することを含み、前記した、各乗員の前記顔領域、及び前記音信号に基づいて、前記車室内において前記音信号を発した目標乗員を特定することは、前記運転者の前記顔領域、及び前記音信号に基づいて、前記車室内において前記音信号を発した目標乗員が前記運転者であるか否かを判定することを含む。
可能な一実施形態では、前記ビデオストリームは乗員領域の第2ビデオストリームを含み、前記した、各乗員の前記顔領域、及び前記音信号に基づいて、前記車室内において前記音信号を発した目標乗員を特定することは、前記乗員ごとの顔領域に対して、当該顔領域及び前記音信号に基づいて、前記車室内において前記音信号を発した目標乗員が当該顔領域に対応する乗員であるか否かを判定することを含む。
可能な一実施形態では、前記乗員発話検出方法は、前記ビデオストリームに基づいて、前記目標乗員の席領域を特定することと、前記音信号の内容認識を行い、前記音信号に対応する音声内容を特定することと、前記音声内容に予め設定された音声コマンドが含まれる場合、前記目標乗員の席領域に基づいて、前記音声コマンドに対応する領域制御機能を決定することと、前記領域制御機能を実行することと、をさらに含む。
可能な一実施形態では、前記した、各乗員の前記顔領域、及び前記音信号に基づいて、前記車室内において前記音信号を発した目標乗員を特定することは、前記ビデオストリームにおいて前記音信号の時間帯に対応するビデオフレームシーケンスを特定することと、各乗員の前記顔領域について、前記ビデオフレームシーケンスにおける前記乗員の顔領域の特徴抽出を行い、前記乗員の顔特徴を得ることと、前記顔特徴及び前記音信号から抽出された前記音声特徴に基づいて、前記乗員の融合特徴を決定することと、前記融合特徴に基づいて、前記乗員の発話検出結果を特定することと、を行うことと、各乗員の発話検出結果に基づいて、前記音信号を発した目標乗員を特定することと、を含む。
可能な一実施形態では、前記した、前記ビデオフレームシーケンスにおける前記乗員の顔領域の特徴抽出を行うことは、前記ビデオフレームシーケンス内のN個のビデオフレームのそれぞれにおける前記乗員の顔領域の特徴抽出を行い、前記乗員のN個の顔特徴を得ることを含み、前記音声特徴の抽出について、前記N個のビデオフレームの収集時刻に基づいて前記音信号の分割及び音声特徴抽出を行い、前記N個のビデオフレームのそれぞれに対応するN個の音声特徴を得る。
可能な一実施形態では、前記した、前記N個のビデオフレームの収集時刻に基づいて前記音信号の分割及び音声特徴抽出を行い、前記N個のビデオフレームのそれぞれに対応するN個の音声特徴を得ることは、前記N個のビデオフレームの収集時刻に基づいて前記音信号を分割し、前記N個のビデオフレームのそれぞれに対応するN個の音声フレームを得ることであって、前記N個のビデオフレームのうち、n(nが整数であって、1≦n≦Nである)番目のビデオフレームの収集時刻がn番目の音声フレームに対応する時間帯内にあることと、前記N個の音声フレームのそれぞれに対して音声特徴抽出を行い、N個の音声特徴を得ることと、を含む。
可能な一実施形態では、前記した、前記N個のビデオフレームの収集時刻に基づいて前記音信号を分割し、前記N個のビデオフレームのそれぞれに対応するN個の音声フレームを得ることは、前記N個のビデオフレームの収集時刻に基づいて、前記音信号を分割するための時間窓の時間窓長、及び前記時間窓長よりも小さい移動ステップサイズを決定することと、n番目の音声フレームについて、前記移動ステップサイズに基づいて前記時間窓を移動させ、前記n番目の音声フレームに対応する時間帯を特定することと、前記n番目の音声フレームに対応する時間帯に基づいて、前記音信号から前記n番目の音声フレームを切り出すことと、を含む。
可能な一実施形態では、前記した、前記顔特徴及び前記音声特徴に基づいて、前記乗員の融合特徴を決定することは、前記N個の顔特徴と前記N個の音声特徴とを一対一対応させて融合し、N個のサブ融合特徴を得ることと、前記N個のサブ融合特徴を連結し、前記乗員の融合特徴を得ることと、を含む。
本開示の一方面によれば、車室内のビデオストリーム及び音信号を取得するための信号取得モジュールと、前記ビデオストリームに対して顔検出を行い、前記ビデオストリームにおいて車室内の少なくとも1人の乗員の顔領域を特定するための顔検出モジュールと、各乗員の前記顔領域、及び前記音信号に基づいて、前記車室内において前記音信号を発した目標乗員を特定するための乗員特定モジュールと、を含む乗員発話検出装置を提供する。
可能な一実施形態では、前記乗員発話検出装置は、前記音信号の内容認識を行い、前記音信号に対応する音声内容を特定するための第1認識モジュールと、前記音声内容に予め設定された音声コマンドが含まれる場合、前記音声コマンドに対応する制御機能を実行するための機能実行モジュールと、をさらに含む。
可能な一実施形態では、前記機能実行モジュールは、前記音声コマンドが、方向性を有する複数の制御機能に対応する場合、前記目標乗員の前記顔領域に基づいて、前記目標乗員の注視方向を特定することと、前記目標乗員の注視方向に基づいて、前記複数の制御機能から目標制御機能を決定することと、前記目標制御機能を実行することとに用いられる。
可能な一実施形態では、前記ビデオストリームは運転者領域の第1ビデオストリームを含み、前記顔検出モジュールは、前記第1ビデオストリームにおいて前記車室内の運転者の顔領域を特定することに用いられ、前記乗員特定モジュールは、前記運転者の前記顔領域、及び前記音信号に基づいて、前記車室内において前記音信号を発した目標乗員が前記運転者であるか否かを判定することに用いられる。
可能な一実施形態では、前記ビデオストリームは乗員領域の第2ビデオストリームを含み、前記乗員特定モジュールは、前記乗員ごとの顔領域に対して、当該顔領域及び前記音信号に基づいて、前記車室内において前記音信号を発した目標乗員が当該顔領域に対応する乗員であるか否かを判定することに用いられる。
可能な一実施形態では、前記乗員発話検出装置は前記ビデオストリームに基づいて、前記目標乗員の席領域を特定するための席領域特定モジュールと、前記音信号の内容認識を行い、前記音信号に対応する音声内容を特定するための第2認識モジュールと、前記音声内容に予め設定された音声コマンドが含まれる場合、前記目標乗員の席領域に基づいて、前記音声コマンドに対応する領域制御機能を決定するための機能決定モジュールと、前記領域制御機能を実行するための領域制御モジュールと、をさらに含む。
可能な一実施形態では、前記乗員特定モジュールは、前記ビデオストリームにおいて前記音信号の時間帯に対応するビデオフレームシーケンスを特定することと、各乗員の前記顔領域について、前記ビデオフレームシーケンスにおける前記乗員の顔領域の特徴抽出を行い、前記乗員の顔特徴を得ることと、前記顔特徴及び前記音信号から抽出された音声特徴に基づいて、前記乗員の融合特徴を決定することと、前記融合特徴に基づいて、前記乗員の発話検出結果を特定することと、を行うことと、各乗員の発話検出結果に基づいて、前記音信号を発した目標乗員を特定することとに用いられる。
可能な一実施形態では、前記乗員特定モジュールが前記ビデオフレームシーケンスにおける前記乗員の顔領域の特徴抽出を行うことは、前記ビデオフレームシーケンス内のN個のビデオフレームのそれぞれにおける前記乗員の顔領域の特徴抽出を行い、前記乗員のN個の顔特徴を得ることを含み、前記音声特徴の抽出について、前記乗員特定モジュールにより前記N個のビデオフレームの収集時刻に基づいて前記音信号の分割及び音声特徴抽出を行い、前記N個のビデオフレームのそれぞれに対応するN個の音声特徴を得る。
可能な一実施形態では、前記乗員特定モジュールにより前記N個のビデオフレームの収集時刻に基づいて前記音信号の分割及び音声特徴抽出を行い、前記N個のビデオフレームのそれぞれに対応するN個の音声特徴を得ることは、前記N個のビデオフレームの収集時刻に基づいて前記音信号を分割し、前記N個のビデオフレームのそれぞれに対応するN個の音声フレームを得ることであって、前記N個のビデオフレームのうち、n(nが整数であって、1≦n≦Nである)番目のビデオフレームの収集時刻がn番目の音声フレームに対応する時間帯内にあることと、前記N個の音声フレームのそれぞれに対して音声特徴抽出を行い、N個の音声特徴を得ることと、を含む。
可能な一実施形態では、前記乗員特定モジュールが前記N個のビデオフレームの収集時刻に基づいて前記音信号を分割し、前記N個のビデオフレームのそれぞれに対応するN個の音声フレームを得ることは、前記N個のビデオフレームの収集時刻に基づいて、前記音信号を分割するための時間窓の時間窓長、及び前記時間窓長よりも小さい移動ステップサイズを決定することと、n番目の音声フレームについて、前記移動ステップサイズに基づいて前記時間窓を移動させ、前記n番目の音声フレームに対応する時間帯を特定することと、前記n番目の音声フレームに対応する時間帯に基づいて、前記音信号から前記n番目の音声フレームを切り出すことと、を含む。
可能な一実施形態では、前記乗員特定モジュールが前記顔特徴及び前記音声特徴に基づいて、前記乗員の融合特徴を決定することは、前記N個の顔特徴と前記N個の音声特徴とを一対一対応させて融合し、N個のサブ融合特徴を得ることと、前記N個のサブ融合特徴を連結し、前記乗員の融合特徴を得ることと、を含む。
本開示の一方面によれば、プロセッサと、プロセッサにより実行可能な命令を記憶するメモリと、をみ、前記プロセッサは、前記メモリに記憶されている命令を呼び出すことにより上記乗員発話検出方法を実行するように構成される電子機器を提供する。
本開示の一方面によれば、コンピュータプログラム命令が記憶されているコンピュータ可読記憶媒体であって、前記コンピュータプログラム命令は、プロセッサにより実行されると、上記乗員発話検出方法を実現させるコンピュータ可読記憶媒体を提供する。
本開示の一方面によれば、コンピュータ可読コードを含むコンピュータプログラムであって、前記コンピュータ可読コードが電子機器で動作すると、前記電子機器のプロセッサに上記乗員発話検出方法を実現するための命令を実行させるコンピュータプログラムを提供する。
本開示の実施例では、車室内のビデオストリーム及び音信号を取得して、ビデオストリームに対して顔検出を行い、ビデオストリームにおいて車室内の少なくとも1人の乗員の顔領域を特定して、各乗員の顔領域及び音信号に基づいて、各乗員から音信号を発した目標乗員を特定することができる。顔領域及び音信号の両方により乗員が発話するか否かを判断するので、乗員発話検出の正確性を向上させ、音声認識の誤認識率を低減することができる。
以上の一般な説明と以下の詳細な説明は、例示的や解釈的なものに過ぎず、本開示を制限するものではないと理解すべきである。以下、図面を参考しながら例示的な実施例を詳細に説明することによって、本開示の他の特徴および方面は明確になる。
明細書の一部として含まれる図面は、本開示の実施例を示し、明細書と共に本開示の技術的手段を説明するものである。
本開示の実施例に係る乗員発話検出方法のフローチャートを示す。 本開示の実施例に係る発話検出プロセスの模式図を示す。 本開示の実施例に係る乗員発話検出装置のブロック図を示す。 本開示の実施例に係る電子機器のブロック図を示す。 本開示の実施例に係る電子機器のブロック図を示す。
以下、図面を参照しながら本開示の様々な例示的実施例、特徴および態様を詳細に説明する。図面において、同じ符号は、機能が同じまたは類似する要素を表す。図面において実施例の様々な態様を示したが、特に明記されていない限り、図面は、必ずしも原寸に比例しているとは限らない。
ここの用語「例示的」とは、「例、実施例として用いられることまたは説明的なもの」を意味する。ここで「例示的」に説明されるいかなる実施例は、必ずしも他の実施例より好ましい又は優れたものであると解釈されるとは限らない。
本明細書において、用語の「及び/又は」は、関連対象の関連関係を記述するのものに過ぎず、3つの関係が存在可能であることを示し、例えば、A及び/又はBは、Aのみが存在し、AとBが同時に存在し、Bのみが存在するという3つの場合を示すことができる。また、本明細書において、用語の「少なくとも1つ」は複数のうちのいずれか1つ又は複数のうちの少なくとも2つの任意の組み合わせを示し、例えば、A、B及びCのうちの少なくとも1つを含むということは、A、B及びCで構成される集合から選択されたいずれか1つ又は複数の要素を含むことを示すことができる。
また、本開示をより良く説明するために、以下の具体的な実施形態には多くの具体的な細部が示されている。当業者であれば、何らかの具体的な細部がなくても、本開示は同様に実施できることを理解すべきである。いくつかの実施例では、本開示の趣旨を強調するために、当業者によく知られている方法、手段、素子および回路について、詳細な説明を行わない。
車載音声インタラクションでは、音声検出機能は、通常、車載インフォテインメントでがリアルタイムに実行されるため、音声検出機能の誤認識率を非常に低いレベルに維持する必要がある。関連技術では、単一の音声に基づく信号検出手段を採用するのは一般であり、音声の誤認識を抑制することが困難であるので、誤認識率が高く、ユーザーインタラクションエクスペリエンスが悪いことを招く。
本開示の実施例に係る乗員発話検出方法によれば、ビデオ画像と音信号をマルチモーダルに融合して、車室内で発話状態にある乗員を認識することにより、乗員の発話検出の正確性を向上させ、音声認識の誤認識率を低減し、ユーザーインタラクションエクスペリエンスを向上させることができる。
本開示の実施例に係る乗員発話検出方法は、端末機器やサーバーなどの電子機器により実行されてもよい。端末機器は、車載装置、ユーザ装置(User Equipment、UE)、携帯機器、ユーザー端末、端末、セルラーホン、コードレス電話、パーソナル・デジタル・アシスタント(Personal Digital Assistant、PDA)、手持ち装置、計算装置、車載装置、ウエアラブルデバイス等であってもよい。前記乗員発話検出方法は、プロセッサがメモリに記憶されているコンピュータ可読命令を呼び出すことにより実現されてもよい。
車載装置は、車室内の車載インフォテインメント、ドメインコントローラ又はプロセッサであってもよく、DMS(Driver Monitor System、運転者監視システム)又はOMS(Occupant Monitoring System、乗員監視システム)における画像等のデータの処理操作を実行するためのデバイス・ホスト等であってもよい。
図1は、本開示の実施例に係る乗員発話検出方法のフローチャートを示す。図1に示すように、前記乗員発話検出方法は以下のステップを含む。
ステップS11:車室内のビデオストリーム及び音信号を取得する。
ステップS12:前記ビデオストリームに対して顔検出を行い、前記ビデオストリームにおいて車室内の少なくとも1人の乗員の顔領域を特定する。
ステップS13:各乗員の前記顔領域、及び前記音信号に基づいて、前記車室内において前記音信号を発した目標乗員を特定する。
例を挙げると、本開示の実施例は、乗用車、タクシー、シャアカー、バス、貨物車、地下鉄、汽車等の任意種類の車両に適用可能である。
可能な一実施形態では、ステップS11において、車載カメラで車室内のビデオストリームを収集し、車載マイクで音信号を収集してもよい。車載カメラは、車両に設けられる任意のカメラであってもよく、数は一つ又は複数であってもよい。車載カメラの種類については、DMSカメラ、OMSカメラ、普通のカメラ等であってもよい。車載マイクは、車両の任意の位置に設けられてもよく、数は一つ又は複数であってもよい。本開示は、車載カメラ及び車載マイクの配置位置、数及び種類について限定しない。
可能な一実施形態では、ステップS12では、ビデオストリームに対して顔検出を行ってもよい。ビデオストリームのビデオフレームシーケンスに対して直接顔検出を行い、各ビデオフレームにおいて顔枠を決定してもよいし、ビデオストリームのビデオフレームシーケンスをサンプリングし、サンプリングされたビデオフレームに対して顔検出を行い、サンプリングされた各ビデオフレームにおいて顔枠を決定してもよい。本開示は、具体的な処理方法について特に限定しない。
可能な一実施形態では、各ビデオフレームにおける顔枠を追跡し、同じアイデンティティの乗員の顔枠を特定することにより、ビデオストリームにおいて車室内の少なくとも1人の乗員の顔領域を特定してもよい。
顔検出の方法は、例えば顔キーポイント認識、顔輪郭の検出等が挙げられる。顔追跡の方法は、例えば、隣接のビデオフレームにおける顔枠のIoU(Intersection over Union)に基づいて同じアイデンティティの乗員に該当することを特定してもよい。顔検出及び顔追跡が関連技術の任意の方法で実現されてもよいことは当業者に理解されるべきであるが、本開示はこれについて特に限定しない。
可能な一実施形態では、ビデオストリームのビデオフレームにおいて、1人又は複数の乗員(例えば運転者および/または乗客)の顔を含む可能性がある。ステップS12の処理により、各乗員の顔領域が取得される。ステップS13では、各乗員のそれぞれに対して分析し、該乗員が発話しているか否かを判定することができる。
可能な一実施形態では、分析対象者のいずれかの乗員に対して、ビデオストリームのN個(Nは1よりも大きな整数である)のビデオフレームにおいて該乗員の顔領域を特定してもよい。つまり、ビデオストリームから、一定の時間長(例えば2s)に対応するN個のビデオフレームを抽出する。リアルタイム検出の場合、該N個のビデオフレームは、ビデオストリームの内の、最新的にサンプリングされたN個のビデオフレームであってもよい。Nは、例えば10、15、20等であってもよいが、本開示はこれについて特に限定しない。
可能な一実施形態では、N個のビデオフレームに対応する時間帯の音信号を特定してもよく、例えば、N個のビデオフレームに対応する時間帯は最近の2s(2s前から現在まで)とし、音信号は最近の2sの音信号としてもよい。
可能な一実施形態では、N個のビデオフレームにおける該乗員の顔領域の画像及び音信号を、予め設定された発話検出ネットワークに直接入力して処理し、該乗員が発話状態又は未発話状態にあることを示す該乗員の発話検出結果を出力してもよい。
可能な一実施形態では、N個のビデオフレームにおける該乗員の顔領域の画像にたいして特徴抽出を行って顔特徴を得て、音信号に対して音声特徴抽出を行って音声特徴を得て、顔特徴及び音声特徴を予め設定された発話検出ネットワークに入力して処理し、該乗員の発話検出結果を出力してもよい。本開示は、具体的な処理方法を特に限定しない。
可能な一実施形態では、ステップS13では、各乗員のそれぞれに対して発話検出を行って各乗員の発話検出結果を特定し、発話状態にある乗員を車室内において前記音信号を発した目標乗員として特定してもよい。
本開示の実施例によれば、車室内のビデオストリーム及び音信号を取得して、ビデオストリームに対して顔検出を行い、ビデオストリームにおいて車室内の少なくとも1人の乗員の顔領域を特定して、各乗員の顔領域及び音信号に基づいて各乗員から音信号を発した目標乗員を特定することができる。顔領域及び音信号の両方により乗員が発話するか否かを判断するため、乗員発話検出の正確性を向上させ、音声認識の誤認識率を低減することができる。
本開示の実施例に係る乗員発話検出方法を以下のように展開して説明する。
上述したように、ステップS11では、車載カメラで収集された車室内のビデオストリーム、及び車載マイクで収集された音信号を取得してもよい。
可能な一実施形態では、車載カメラは、運転者監視システムDMSカメラ、および/または乗員監視システムOMSカメラを含んでもよい。DMSカメラで収集されたビデオストリームは運転者領域に対するビデオストリーム(第1ビデオストリームという)であり、OMSカメラにより収集されたビデオストリームは車室内の乗員領域に対するビデオストリーム(第2ビデオストリームという)である。このように、ステップS11で取得されたビデオストリームは、第1ビデオストリームおよび/または第2ビデオストリームを含んでもよい。
可能な一実施形態では、ビデオストリームは運転者領域の第1ビデオストリームを含み、ステップS12では、前記ビデオストリームにおいて車室内の少なくとも1人の乗員の顔領域を特定することは、前記第1ビデオストリームにおいて前記車室内の運転者の顔領域を特定することを含む。
ステップS13は、前記運転者の前記顔領域、及び前記音信号に基づいて、前記車室内において前記音信号を発した目標乗員が前記運転者であるか否かを判定することをを含んでもよい。
例を挙げると、第1ビデオストリームは、運転者のみを含む運転者領域に対応する。この場合、第1ビデオストリームのうちの複数のビデオフレーム(第1ビデオフレームという)を取得し、複数の第1ビデオフレームのそれぞれに対して顔検出及び追跡を行い、各々の第1ビデオフレームにおいて運転者の顔領域を取得してもよい。
可能な一実施形態では、運転者の顔領域及び音信号に基づいて、運転者の発話検出を行い、運転者が発話しているか否かを判定することにより、車室内において音信号を発した目標乗員が運転者であるか否かを判定することができる。つまり、運転者が発話していると特定した場合、音信号を発した目標乗員が運転者であると特定することができる。逆に、運転者が発話していなかったと特定した場合、音信号を発した目標乗員が運転者ではないと特定することができる。
可能な一実施形態では、車室内において音信号を発した目標乗員が運転者であるか否かに応じて、後続の処理を行ってもよい。例えば、音信号を発した目標乗員が運転者であれば、音声認識機能をオンにして音信号に対して反応してもよい。一方、音信号を発した目標乗員が運転者でなければ、音信号に対して反応しなくてもよい。本開示は後続処理の方法を特に限定しない。
上記形態によれば、運転者領域の第1ビデオストリーム及び音信号に基づいて運転者が発話しているか否かを判定することにより、音信号を発した目標乗員が運転者であるか否かを判定するので、音声認識の誤認識率を低減し、ユーザの利用利便性を向上させることができる。
可能な一実施形態では、前記ビデオストリームは乗員領域の第2ビデオストリームを含む。ステップS13は、
前記乗員ごとの顔領域に対して、当該顔領域及び前記音信号に基づいて、前記車室内において前記音信号を発した目標乗員が当該顔領域に対応する乗員であるか否かを判定することを含んでもよい。
例を挙げると、第2ビデオフレームは、運転者および/または乗客を含む車室内の乗員領域に対応する。この場合、ステップS12では、第2ビデオストリームから複数のビデオフレーム(第2ビデオフレームという)を取得し、複数の第2ビデオフレームのそれぞれに対して顔検出及び追跡を行い、各々の第2ビデオフレームにおいて車室内の各乗員の顔領域を得てもよい。
例えば、運転者領域が車室の前部左側にある場合、第2ビデオフレームの右下側に位置する顔領域を運転者の顔領域として特定し、第2ビデオフレームの左下側に位置する顔領域を助手席の乗客の顔領域として特定してもよい。本開示は各乗員の具体的な特定方法を特に限定しない。
可能な一実施形態では、各乗員の顔領域に対して、該乗員の顔領域及び音信号に基づいて、該乗員発話検出を行い、該乗員が発話しているか否かを判定することにより、車室内において音信号を発した目標乗員が該乗員であるか否かを判定してもよい。つまり、該乗員が発話していると特定した場合、音信号を発した目標乗員が該顔領域に対応する乗員であると特定することができる。逆に、該乗員が発話していなかったと特定した場合、音信号を発した目標乗員が該顔領域に対応する乗員ではないと特定することができる。
可能な一実施形態では、車室内において音信号を発した目標乗員のアイデンティティに応じて、後続の処理を行ってもよい。例えば、音信号を発した目標乗員が運転者である場合、音声認識機能をオンにして音信号に対して反応してもよい。音信号を発した目標乗員が乗客であり、かつ該乗客が制御権限を有しない場合、音信号に対して反応しなくてもよい。音信号を発した目標乗員が乗客であり、該乗客が制御権限を有する場合、音声認識機能をオンにして音信号に対して反応してもよい。本開示は後続処理の方法を特に限定しない。
上記形態によれば、乗員領域の第2ビデオストリーム及び音信号に基づいて、各乗員が発話しているか否かをそれぞれ特定することにより、音信号を発した目標乗員がどの乗員であるかを特定するので、音声認識の誤認識率を低減し、乗員発話検出の精度を向上させることができ、後続の反応をよりピンポイントに行うことができる。
可能な一実施形態では、ステップS13において乗員の発話検出を行ってもよい。ステップS13は、
前記ビデオストリームにおいて前記音信号の時間帯に対応するビデオフレームシーケンスを特定することと、
各乗員の前記顔領域について、前記ビデオフレームシーケンスにおける前記乗員の顔領域の特徴抽出を行い、前記乗員の顔特徴を得ることと、前記顔特徴及び前記音信号から抽出された音声特徴に基づいて、前記乗員の融合特徴を決定することと、前記融合特徴に基づいて、前記乗員の発話検出結果を特定することと、を行うことと、
各乗員の発話検出結果に基づいて、前記音信号を発した目標乗員を特定することと、を含む。
例を挙げると、発話検出を行う一定の時間長を予め設定してもよい。この時間長は例えば1s、2s又は3sと設定してもよい。本開示はこれにいついて特に限定しない。
可能な一実施形態では、音信号に対して特徴抽出を行って音声特徴を取得して、ビデオストリームから検出された各乗員の顔特徴を該音声特徴と融合して融合特徴を取得してもよい。
可能な一実施形態では、車載マイクで収集された音信号から該時間長の音信号を抽出し、ビデオストリームから音信号の時間帯に対応するビデオフレームシーケンスを特定してもよい。リアルタイム処理の場合、音信号の時間帯は、例えば最近の2s(2s前から現在まで)とし、ビデオフレームシーケンスは最近の2sの複数のビデオフレーム(N個のビデオフレームとする。N>1)を含んでもよい。
可能な一実施形態では、各乗員の前記顔領域について、ビデオフレームシーケンスにおいて該乗員の顔領域の画像を決定し、各顔領域の画像のそれぞれに対して特徴抽出を行い、該乗員のN個の顔特徴を得てもよい。特徴抽出の方法は、例えば顔キーポイント抽出、顔輪郭抽出等が挙げられ、本開示はこれについて特に限定しない。
可能な一実施形態では、検出された各乗員の顔領域について、ビデオストリーム内の該顔領域が現れたN個のビデオフレームを特定し、該N個のビデオフレームに対応する時間帯内の音声特徴を抽出してもよい。この場合、前記ビデオフレームシーケンス内のN個のビデオフレームのそれぞれにおいて前記乗員の顔領域の特徴抽出を行い、前記乗員のN個の顔特徴を取得するように、前記ビデオフレームシーケンスにおいて前記乗員の顔領域の特徴抽出を行い、前記乗員の顔特徴を得てもよい。このようにして、顔特徴と音声特徴とを時間的に「一致」させることで、発話検出結果の正確性を向上させることができる。
例を挙げると、ビデオストリームのT~T+k時刻のビデオフレームシーケンス内のN個のビデオフレームI1、I2、…、INについて、顔検出及び追跡により、車室内の乗員のM個の顔の顔枠シーケンス(M≧1)を取得してもよい。すなわち、各乗員と顔枠シーケンスとが一対一に対応する。Tが任意の時刻であり、kが1s、2s又は3s等であってもよいが、本開示はkの値について特に限定しない。
可能な一実施形態では、いずれかの乗員(i番目の乗員、iが整数であって、1≦i≦Mである)について、N個のビデオフレームのいずれか1個(n番目のビデオフレームという。nが整数であって、1≦n≦Nである)における該乗員の顔領域をIn-face-iと記してもよい。顔領域In-face-iを顔特徴抽出ネットMfaceNetに入力して特徴を抽出し、i番目の乗員のn番目の顔特徴を示す特徴マップIn-Featuremap-iを取得してもよい。顔特徴の特徴次元は(c、h、w)であり、c、h及びwはそれぞれトンネル数、高さ及び幅を表す。
可能な一実施形態では、顔特徴抽出ネットMfaceNetは、畳み込みニューラルネットワークであってもよく、例えば、顔キーポイント検出モールドからキーポイントヘッド(head)部分を除去し、該顔特徴抽出ネットMFaceNetを取得してもよい。本開示は顔特徴抽出ネットのネット構造について特に限定しない。
このように、N個のビデオフレームごとの顔領域に対して特徴を抽出し、該乗員のN個の顔特徴を取得する。
可能な一実施形態では、前記音信号に対して音声特徴抽出を行い、音声特徴を取得するステップは、前記N個のビデオフレームの収集時刻に基づいて前記音信号の分割及び音声特徴抽出を行い、前記N個のビデオフレームのそれぞれに対応するN個の音声特徴を得ることを含んでもよい。
すなわち、音信号を分割し、N個のビデオフレームのそれぞれに対応するN個の音声フレームを取得し、次に、N個の音声フレームのそれぞれに対して音声特徴抽出を行い、N個の音声特徴を得てもよい。
可能な一実施形態では、前記した、前記N個のビデオフレームの収集時刻に基づいて前記音信号の分割及び音声特徴抽出を行い、前記N個のビデオフレームのそれぞれに対応するN個の音声特徴を取得するステップは、
前記N個のビデオフレームの収集時刻に基づいて前記音信号を分割し、前記N個のビデオフレームのそれぞれに対応するN個の音声フレームを得ることであって、前記N個のビデオフレームのうち、n(1≦n≦N)番目のビデオフレームの収集時刻がn番目の音声フレームに対応する時間帯内にあることと、
前記N個の音声フレームのそれぞれに対して音声特徴抽出を行い、N個の音声特徴を得ることと、を含んでもよい。
例を挙げると、T~T+k時刻にマイクで取得された音信号Audioに対して、まず最初と最後のミュートをカットして干渉を減らしてもよい。そして、音信号をフレームに分割し、すなわち音声を複数の小さいセグメントに分割し、各小さいセグメントは1つの音声フレームとする。音声フレームとビデオフレームとのシーケンスの一致を確保するために、各音声フレームの時間帯をビデオフレームの収集時刻に対応させる。つまり、n番目のビデオフレームの収集時刻は、n番目の音声フレームに対応する時間帯内にある。
可能な一実施形態では、前記した、前記N個のビデオフレームの収集時刻に基づいて前記音信号を分割し、前記N個のビデオフレームのそれぞれに対応するN個の音声フレームを得るステップは、
前記N個のビデオフレームの収集時刻に基づいて、前記音信号を分割するための時間窓の時間窓長、及び前記時間窓長よりも小さい移動ステップサイズを決定することと、
n番目の音声フレームについて、前記移動ステップサイズに基づいて前記時間窓を移動し、前記n番目の音声フレームに対応する時間帯を特定することと、
前記n番目の音声フレームに対応する時間帯に基づいて、前記音信号から前記n番目の音声フレームを切り出すことと、を含む。
例を挙げると、音の歪みを減らすために、各音声フレームの時間帯間をオーバーラップしてもよい。移動窓関数により音信号の分割を実現してもよい。
可能な一実施形態では、N個のビデオフレームの収集時刻に基づいて、移動窓関数の時間窓の時間窓長及び時間窓長よりも小さい移動ステップサイズを決定してもよい。例えば、N個のビデオフレームのうちの隣接するビデオフレームの収集時刻の時間的間隔が50ms(すなわち、ビデオフレームのフレームレートが20フレーム/s)である場合、移動ステップサイズを50ms、時間窓長を60msとしてもよい。この場合、隣接する音声フレーム間のオーバーラップが10msである。本開示は時間窓長及び移動ステップサイズの具体的な値について特に限定しない。
可能な一実施形態では、1番目の音声フレームについて、T時刻からの、時間窓に対応する時間帯を1番目の音声フレームに対応する時間帯としてもよい。例えば、T~T+60msである。2番目の音声フレームについて、移動ステップサイズに基づいて時間窓を移動し、時間窓に対応する時間帯を2番目の音声フレームに対応する時間帯としてもよい。例えば、T+50ms~T+110msである。n番目の音声フレームについて、移動ステップサイズに基づいて時間窓を移動し、n番目の音声フレームに対応する時間帯を特定してもよい。このようにして、n個の音声フレームに対応する時間帯のそれぞれを特定してもよい。
可能な一実施形態では、n番目の音声フレームに対応する時間帯に基づいて、音信号からn番目の音声フレームを切り出してもよい。N個の音声フレームの時間帯に基づいてそれぞれ分割すると、A1、A2、・・・、ANと記すN個の音声フレームが得られる。
上記形態によれば、音声分割プロセスを実現し、後続の処理効果を向上させることができる。
可能な一実施形態では、音声フレームに対して音声特徴抽出を行ってもよい。例えば、MFCC(Mel-Frequency Cepstral Coefficients、メル周波数ケプストラム係数)の変換により、音声情報を含むc次元ベクトルとなるように音声フレームを変換し、該c次元ベクトルを音声特徴とし、An-featureとして記してもよい。音声特徴の長さcは、顔特徴のトンネル数と同一である。
このようにして、N個の音声フレームのそれぞれを処理することにより、N個の音声特徴を得てもよい。他の方法により音声フレームに対して音声特徴抽出を行ってもよいことは理解されるべきである。本開示はこれについて特に限定しない。
可能な一実施形態では、乗員のN個の顔特徴及びN個の音声特徴が得られた後、顔特徴及び音声特徴を融合してもよい。前記顔特徴及び前記音声特徴に基づいて、前記乗員の融合特徴を決定することは、
前記N個の顔特徴と前記N個の音声特徴とを一対一対応させて融合し、N個のサブ融合特徴を得ることと、
前記N個のサブ融合特徴を連結し、前記乗員の融合特徴を得ることと、を含んでもよい。
すなわち、該乗員iのn番目の顔特徴In-featuremap-iとn番目の音声特徴An-featureとを融合してもよい。例えば、音声特徴(c次元ベクトル)と用いて顔特徴(特徴次元が(c、h、w))の各位置との内積を実行してFusionfeature-n(c、h、w)と記するn番目のサブ融合特徴が得られてもよい。このように、N個の顔特徴とN個の音声特徴とを一対一対応させて融合することにより、N個のサブ融合特徴が得られる。
可能な一実施形態では、N個のサブ融合特徴を連結し、video-fusionfeatureと記する該乗員iの融合特徴が得られる。
上記形態によれば、顔特徴と音声特徴とのマルチモーダル融合を実現でき、ニューラルネットワークレベルで両者を融合し、発話検出の誤認識率を大幅に低減することができる。アッパー層で論理融合を行う場合に比べて、ニューラルネットワークレベルでの融合は発話検出のロバスト性を向上させることができる。
可能な一実施形態では、融合特徴に基づいて、該乗員iの発話検出結果を特定してもよい。発話検出ネットワークを予め設け、融合特徴を発話検出ネットワークに入力して処理し、該乗員iの発話検出結果を出力してもよい。
該発話検出ネットワークは、例えば、複数の全結合層(例えば、3つの全結合層)、softmax層などを含む畳み込みニューラルネットワークであり、融合特徴の二項分類を実行してもよい。融合機能を発話検出ネットワークの全結合層に入力すると、発話状態と他の状態にそれぞれ対応する2次元の出力が得られる。softmax層により処理すると、正規化されたスコア(score)または信頼度が得られる。
可能な一実施形態では、発話状態にあるスコア又は信頼度の予め設定された閾値を設定してもよい(例えば、0.8と設定してもよい)。該予め設定された閾値を超えると、該乗員iが発話状態にあると決定する。逆に、該乗員iが未発話状態にあると決定する。本開示は、発話検出ネットワークのネットワーク構造、訓練方法及び予め設定された閾値の具体的な値を特に限定しない。
図2は、本開示の一実施例に係る発話検出プロセスの模式図を示す。
図2に示すように、ビデオフレーム1、ビデオフレーム2、…、ビデオフレームNを含む処理対象のN個のビデオフレームについては、N個のビデオフレームのそれぞれに対して顔検出を行い、N個のビデオフレームにおいて乗員iの顔領域を特定して、N個のビデオフレームにおける乗員iの顔領域のそれぞれに対して顔特徴抽出を行い、N個の顔特徴を得る。音声フレーム1、音声フレーム2、…、音声フレームNを含む処理対象のN個の音声フレームについては、N個の音声フレームのそれぞれに対してMFCC変換を行い、N個の音声特徴を抽出して、内積によりN個の顔特徴とN個の音声特徴とを一対一対応させて融合し、サブ融合特徴1、サブ融合特徴2、…、サブ融合特徴Nを含むN個のサブ融合特徴を得て、N個のサブ融合特徴を連結し、該乗員iの融合特徴を得て、融合特徴を発話検出ネットワークに入力して処理し、該乗員iが発話状態又は未発話状態にあることを示す該乗員iの発話検出結果を出力する。
上記形態によれば、画像構成と音声特徴とのマルチモーダル融合特徴に基づいて、車室内の乗員が発話しているか否かを判断することができるので、発話検出の正確性が向上する。
可能な一実施形態では、乗員発話検出の精度を向上させるために、各乗員に対して上記処理をすることにより各乗員の発話検出結果を取得して、各乗員の発話検出結果に基づいて、音信号を発した目標乗員を特定することにより、音信号を発した目標乗員がどの乗員であるかを特定してもよい。
可能な一実施形態では、本開示の実施例に係る乗員発話検出方法は、
前記音信号の内容認識を行い、前記音信号に対応する音声内容を特定することと、
前記音声内容に予め設定された音声コマンドが含まれる場合、前記音声コマンドに対応する制御機能を実行することと、をさらに含む。
例を挙げると、ステップS13において音信号を発した目標乗員を特定した場合、音声認識機能をオンにして音信号の内容認識を行い、音信号に対応する音声内容を特定してもよい。本開示は、音声内容認識の実現方法について特に限定しない。
可能な一実施形態では、各音声コマンドを予め設定してもよい。音声内容に予め設定された音声コマンドが含まれると認識された場合、該音声コマンドに対応する制御機能を実行することができる。例えば、音声内容が「音楽を再生して」という音声コマンドを含むことが認識された場合、音楽を再生するように車載の音楽再生デバイスを制御することができる。音声内容が「左ウィンドウを開いて」という音声コマンドを含むことが認識された場合、左ウィンドウを開けるように制御することができる。
上記形態によれば、車内乗員との音声インタラクションを実現でき、ユーザが音声で各制御機能を実現し、ユーザによる使用の利便性を向上させ、ユーザーエクスペリエンスを向上させることができる。
可能な一実施形態では、前記した、前記音声内容に予め設定された音声コマンドが含まれる場合、前記音声コマンドに対応する制御機能を実行するのステップは、
前記音声コマンドが、方向性を有する複数の制御機能に対応する場合、前記目標乗員の前記顔領域に基づいて、前記目標乗員の注視方向を特定することと、
前記目標乗員の注視方向に基づいて、前記複数の制御機能から目標制御機能を決定することと、
前記目標制御機能を実行することと、を含んでもよい。
例を挙げると、音声コマンドは、方向性を有する複数の制御機能に対応する可能性がある。例えば、、「ウィンドウを開けて」という音声コマンドが左側と右側との二方向のウィンドウのオープンに対応し、複数の制御機能は、左ウィンドウを開けるように制御すること及び「右ウィンドウを開けるように制御することを含む。該当音声コマンドが左前、左後、右前、右後との4方向のウィンドウのオープンに対応することが可能であるので、複数の制御機能は、左前ウィンドウを開けるように制御することと、右前ウィンドウを開けるように制御することと、左後ウィンドウを開けるように制御することと、右後ウィンドウを開けるように制御することとを含む。この場合、画像認識と組み合わせて、対応の制御機能を決定してもよい。
可能な一実施形態では、音声コマンドが、方向性を有する複数の制御機能に対応する場合、N個のビデオフレームにおける目標乗員の顔領域に基づいて、目標乗員の注視方向を特定してもよい。
可能な一実施形態では、N個のビデオフレームにおける目標乗員の顔領域の画像のそれぞれに対して特徴抽出を行い、N個のビデオフレームにおける目標乗員の顔特徴を得て、N個の顔特徴を融合し、目標乗員の顔融合特徴を得て、顔融合特徴を予め設定された注視方向認識ネットワークに入力して処理し、目標乗員の注視方向(目標乗員の目の視線方向)を得てもよい。
この注視方向認識ネットワークは、例えば、畳み込み層、全結合層、softmax層等を含む畳み込みニューラルネットワークであってもよい。本開示は、注視方向認識ネットワークのネットワーク構造及びトレーニング方法について特に限定しない。
可能な一実施形態では、目標乗員の注視方向に基づいて、複数の制御機能から目標制御機能を決定してもよい。例えば、音声コマンドが「ウィンドウを開けて」であり、目標乗員の注視方向が右側に向かっていると特定された場合、目標制御機能が右ウィンドウを開けるように制御すると決定することができる。これにより、目標制御機能(例えば、右ウィンドウを開けること)を実行することができる。
上記形態によれば、音声インタラクションの正確性を向上させ、ユーザによる使用の利便性を更に向上させることができる。
可能な一実施形態では、乗員のアイデンティティを区別せずに、発話している目標乗員がいると判断すれば、音声認識をスタートして対応する制御機能を実行してもよい。目標乗員のアイデンティティを区別してもよく、例えば、運転者の音声のみに対して反応し、運転者が発話していると判断した場合、音声認識を行うが、乗客の音声に対して反応しない。又は、乗客が位置する席領域に基づいて、乗客が発話していると判断した場合、音声認識を行い、乗客が位置する席領域の領域制御機能等を実行してもよい。
可能な一実施形態では、本開示の実施例に係る乗員発話検出方法は、
前記ビデオストリームに基づいて、前記目標乗員の席領域を特定することと、
前記音信号の内容認識を行い、前記音信号に対応する音声内容を特定することと、
前記音声内容に予め設定された音声コマンドが含まれる場合、前記目標乗員の席領域に基づいて、前記音声コマンドに対応する領域制御機能を決定することと、
前記領域制御機能を実行することと、をさらに含む。
例を挙げると、ビデオストリームは運転者領域の第1ビデオストリーム、および/または車室内の乗員領域の第2ビデオストリームを含み、目標乗員は、運転者および/または乗員を含んでもよい。
可能な一実施形態では、第1ビデオストリームについて、ステップS13において音信号を発した目標乗員を特定した場合、該目標乗員が運転者であり、目標乗員の席領域が運転者領域であると直接特定してもよい。
可能な一実施形態では、第2ビデオストリームについて、ステップS13において音信号を発した目標乗員を特定した場合、第2ビデオストリームのビデオフレームにおける目標乗員の顔領域の位置に基づいて、該乗員の席領域、例えば助手席領域、後部左側席領域、後部右側席領域等を特定してもよい。
例えば、運転者領域が車室の前部左側にある場合、目標乗員の顔領域がビデオフレームの左下位置であれば、目標乗員の席領域が助手席領域であると特定してもよい。
可能な一実施形態では、ステップS13において音信号を発した目標乗員を特定した場合、音声認識機能をオンにして音信号の内容認識を行い、音信号に対応する音声内容を特定してもよいが、本開示は、音声内容認識の実現方法について特に限定しない。
可能な一実施形態では、各音声コマンドを予め設定してもよい。音声内容に予め設定された音声コマンドが含まれると認識された場合、目標乗員の席領域に基づいて、音声コマンドに対応する領域制御機能を決定してもよい。例えば、音声内容が音声コマンド「ウィンドウを開けて」を含み、目標乗員の席領域が後部左側席領域であると認識した場合、対応する領域制御機能として、左後ウィンドウを開けるように制御すると決定することができる。これにより、該領域制御機能(例えば左後ウィンドウを開けること)を実行してもよい。
上記形態によれば、対応する領域制御機能を実行し、ユーザの利用利便性を向上させることができる。
本開示の実施例に係る乗員発話検出方法によれば、車室内のビデオストリーム及び音信号を取得して、ビデオストリームに対して顔検出を行い、ビデオストリームにおいて車室内の少なくとも1人の乗員の顔領域を特定して、各乗員顔領域及び音信号に基づいて、各乗員から、音信号を発した目標乗員を特定することができる。顔領域及び音信号の両方により乗員が発話するか否かを判断するので、乗員発話検出の正確性を向上させ、音声認識の誤認識率を低減することができる。
本開示の実施例に係る乗員発話検出方法によれば、ビデオ画像と音信号をマルチモーダルに融合し、ニューラルネットワークで融合することにより、非ヒト音源に起因する音声の干渉を極めて大きく低減し、発話検出の誤認識率を大幅に低減することができる。また、アッパー層で論理融合を行う場合に比べて、ニューラルネットワークレベルでの融合は発話検出のロバスト性を向上させることができる。
本開示の実施例に係る乗員発話検出方法によれば、スマート車室の感知システムに適用可能であり、単に音信号に頼ることによる誤検出が効果的に回避され、音声認識が正常にトリガーされることが確保でき、ユーザーエクスペリエンスが向上することができる。
本開示で言及される上記各方法の実施例は、原理と論理に違反しない限り、相互に組み合わせて実施例を形成することができることが理解すべきである。紙数に限りがあるので、本開示では詳細な説明を省略する。具体的な実施形態の上記方法において、各ステップの具体的な実行順番はその機能と、あり得る内部ロジックとにより決定すべきであることが、当業者に理解できる。
なお、本開示は、さらに、乗員発話検出装置、電子機器、コンピュータ可読記憶媒体、プログラムを提供する。これらは、いずれも本開示で提供される乗員発話検出方法のいずれかを実現するために利用可能であり、対応する技術的手段及び説明については、方法に対応する記載を参照すればよく、ここでは詳細な説明を省略する。
図3は、本開示の実施例に係る乗員発話検出装置のブロック図を示す。図3に示すように、前記乗員発話検出装置は、
車室内のビデオストリーム及び音信号を取得するための信号取得モジュール31と、
前記ビデオストリームに対して顔検出を行い、前記ビデオストリームにおいて車室内の少なくとも1人の乗員の顔領域を特定するための顔検出モジュール32と、
各乗員の前記顔領域、及び前記音信号に基づいて、前記車室内において前記音信号を発した目標乗員を特定するための乗員特定モジュール33と、
を含む。
可能な一実施形態では、前記乗員発話検出装置は、前記音信号の内容認識を行い、前記音信号に対応する音声内容を特定するための第1認識モジュールと、前記音声内容に予め設定された音声コマンドが含まれる場合、前記音声コマンドに対応する制御機能を実行するための機能実行モジュールと、をさらに含む。
可能な一実施形態では、前記機能実行モジュールは前記音声コマンドが、方向性を有する複数の制御機能に対応する場合、前記目標乗員の前記顔領域に基づいて、前記目標乗員の注視方向を特定することと、前記目標乗員の注視方向に基づいて、前記複数の制御機能から目標制御機能を決定することと、前記目標制御機能を実行することとに用いられる。
可能な一実施形態では、前記ビデオストリームは運転者領域の第1ビデオストリームを含み、
前記顔検出モジュールは、前記第1ビデオストリームにおいて前記車室内の運転者の顔領域を特定することに用いられ、
前記乗員特定モジュールは、前記運転者の前記顔領域、及び前記音信号に基づいて、前記車室内において前記音信号を発した目標乗員が前記運転者であるか否かを判定することに用いられる。
可能な一実施形態では、前記ビデオストリームは乗員領域の第2ビデオストリームを含み、
前記乗員特定モジュールは、前記乗員ごとの顔領域に対して、当該顔領域及び前記音信号に基づいて、前記車室内において前記音信号を発した目標乗員が当該顔領域に対応する乗員であるか否かを判定することに用いられる。
可能な一実施形態では、前記乗員発話検出装置は、
前記ビデオストリームに基づいて、前記目標乗員の席領域を特定するための席領域特定モジュールと、前記音信号の内容認識を行い、前記音信号に対応する音声内容を特定するための第2認識モジュールと、前記音声内容に予め設定された音声コマンドが含まれる場合、前記目標乗員の席領域に基づいて、前記音声コマンドに対応する領域制御機能を決定するための機能決定モジュールと、前記領域制御機能を実行するための領域制御モジュールと、をさらに含む。
可能な一実施形態では、前記乗員特定モジュールは、
前記ビデオストリームにおいて前記音信号の時間帯に対応するビデオフレームシーケンスを特定することと、
各乗員の前記顔領域について、前記ビデオフレームシーケンスにおける前記乗員の顔領域の特徴抽出を行い、前記乗員の顔特徴を得ることと、前記顔特徴及び前記音信号から抽出された音声特徴に基づいて、前記乗員の融合特徴を決定することと、前記融合特徴に基づいて、前記乗員の発話検出結果を特定することと、を行うことと、
各乗員の発話検出結果に基づいて、前記音信号を発した目標乗員を特定することとに用いられる。
可能な一実施形態では、前記乗員特定モジュールが前記ビデオフレームシーケンスにおける前記乗員の顔領域の特徴抽出を行うことは、前記ビデオフレームシーケンス内のN個のビデオフレームのそれぞれにおける前記乗員の顔領域の特徴抽出を行い、前記乗員のN個の顔特徴を得ることを含み、前記音声特徴の抽出について、前記乗員特定モジュールにより、前記N個のビデオフレームの収集時刻に基づいて前記音信号の分割及び音声特徴抽出を行い、前記N個のビデオフレームのそれぞれに対応するN個の音声特徴を得る。
可能な一実施形態では、前記乗員特定モジュールが前記N個のビデオフレームの収集時刻に基づいて前記音信号の分割及び音声特徴抽出を行い、前記N個のビデオフレームのそれぞれに対応するN個の音声特徴を得ることは、前記N個のビデオフレームの収集時刻に基づいて前記音信号を分割し、前記N個のビデオフレームのそれぞれに対応するN個の音声フレームを得ることであって、前記N個のビデオフレームのうち、n(nが整数であって、1≦n≦Nである)番目のビデオフレームの収集時刻がn番目の音声フレームに対応する時間帯内にあることと、前記N個の音声フレームのそれぞれに対して音声特徴抽出を行い、N個の音声特徴を得ることと、を含む。
可能な一実施形態では、前記乗員特定モジュールが前記N個のビデオフレームの収集時刻に基づいて前記音信号を分割し、前記N個のビデオフレームのそれぞれに対応するN個の音声フレームを得ることは、前記N個のビデオフレームの収集時刻に基づいて、前記音信号を分割するための時間窓の時間窓長、及び前記時間窓長よりも小さい移動ステップサイズを決定することと、n番目の音声フレームについて、前記移動ステップサイズに基づいて前記時間窓を移動させ、前記n番目の音声フレームに対応する時間帯を特定することと、前記n番目の音声フレームに対応する時間帯に基づいて、前記音信号から前記n番目の音声フレームを切り出すことと、を含む。
可能な一実施形態では、前記乗員特定モジュールが前記顔特徴及び前記音声特徴に基づいて、前記乗員の融合特徴を決定することは、前記N個の顔特徴と前記N個の音声特徴とを一対一対応させて融合し、N個のサブ融合特徴を得ることと、前記N個のサブ融合特徴を連結し、前記乗員の融合特徴を得ることと、を含む。
いくつかの実施例では、本開示の実施例で提供された装置が備えた機能又はモジュールは、上記方法実施例に記載の方法を実行するために用いられことができる。具体的な実施形態及び技術的効果については、上記方法実施例の説明を参照すればよく、簡潔化するために、ここで重複説明は割愛する。
本開示の実施例では、コンピュータプログラム命令が記憶されているコンピュータ可読記憶媒体であって、前記コンピュータプログラム命令がプロセッサにより実行されると、上記乗員発話検出方法を実現させるコンピュータ可読記憶媒体をさらに提供する。コンピュータ可読記憶媒体は、揮発性または不揮発性のコンピュータ可読記憶媒体であってもよい。
本開示の実施例では、プロセッサと、プロセッサにより実行可能な命令を記憶するメモリとを含み、前記プロセッサは、前記メモリに記憶されている命令を呼び出すことにより上記乗員発話検出方法を実行するように構成される電子機器をさらに提供する。
本開示の実施例では、コンピュータ可読コード、又はコンピュータ可読コードを記憶しているコンピュータ可読な不揮発性記憶媒体を含むコンピュータプログラムであって、前記コンピュータ可読コードが電子機器のプロセッサで動作すると、前記電子機器のプロセッサに上記乗員発話検出方法を実現するための命令を実行させるコンピュータプログラム製品をさらに提供する。
本開示の実施例では、コンピュータ可読コードを含むコンピュータプログラムであって、前記コンピュータ可読コードが電子機器で動作すると、前記電子機器のプロセッサに上記乗員発話検出方法を実現するための命令を実行させるコンピュータプログラムをさらに提供する。
電子機器は、端末、サーバー又はその他の形態の機器として提供されてもよい。
図4は、本開示の実施例に係る電子機器800のブロック図を示す。例えば、装置800は携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信機器、ゲームコンソール、タブレット型機器、医療機器、フィットネス機器、パーソナル・デジタル・アシスタント等の端末であってよい。
図4を参照すると、電子機器800は処理コンポーネント802、メモリ804、電源コンポーネント806、マルチメディアコンポーネント808、オーディオコンポーネント810、入力/出力(I/O)インタフェース812、センサコンポーネント814、及び通信コンポーネント816のうちの一つ以上を含んでもよい。
処理コンポーネント802は通常、電子機器800の全体的な動作、例えば表示、電話の呼び出し、データ通信、カメラ動作及び記録動作に関連する動作を制御する。処理コンポーネント802は、上記方法の全てまたは一部のステップを実行するために、命令を実行する一つ以上のプロセッサ820を含んでもよい。また、処理コンポーネント802は、他のコンポーネントとのインタラクションのための一つ以上のモジュールを含んでもよい。例えば、処理コンポーネント802は、マルチメディアコンポーネント808とのインタラクションのために、マルチメディアモジュールを含んでもよい。
メモリ804は、電子機器800での動作をサポートするための様々なタイプのデータを記憶するように構成される。これらのデータは、例として、電子機器800において操作するあらゆるアプリケーションプログラムまたは方法の命令、連絡先データ、電話帳データ、メッセージ、ピクチャー、ビデオなどを含む。メモリ804は、例えば静的ランダムアクセスメモリ(SRAM)、電気的消去可能プログラマブル読み取り専用メモリ(EEPROM)、消去可能なプログラマブル読み取り専用メモリ(EPROM)、プログラマブル読み取り専用メモリ(PROM)、読み取り専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクなどの様々なタイプの揮発性または不揮発性記憶装置またはそれらの組み合わせによって実現できる。
電源コンポーネント806は電子機器800の各コンポーネントに電力を供給する。電源コンポーネント806は電源管理システム、一つ以上の電源、及び電子機器800のための電力生成、管理及び配分に関連する他のコンポーネントを含んでもよい。
マルチメディアコンポーネント808は前記電子機器800とユーザとの間で出力インタフェースを提供するスクリーンを含む。いくつかの実施例では、スクリーンは液晶ディスプレイ(LCD)及びタッチパネル(TP)を含んでもよい。スクリーンがタッチパネルを含む場合、ユーザからの入力信号を受信するタッチスクリーンとして実現してもよい。タッチパネルは、タッチ、スライド及びタッチパネルでのジェスチャを検出するために、一つ以上のタッチセンサを含む。前記タッチセンサはタッチまたはスライド動きの境界を検出するのみならず、前記タッチまたはスライド操作に関する持続時間及び圧力を検出するようにしてもよい。いくつかの実施例では、マルチメディアコンポーネント808は前面カメラ及び/または背面カメラを含む。電子機器800が動作モード、例えば撮影モードまたは撮像モードになる場合、前面カメラ及び/または背面カメラは外部のマルチメディアデータを受信するようにしてもよい。各前面カメラ及び背面カメラは、固定された光学レンズ系、または焦点距離及び光学ズーム能力を有するものであってもよい。
オーディオコンポーネント810はオーディオ信号を出力及び/または入力するように構成される。例えば、オーディオコンポーネント810は、一つのマイク(MIC)を含み、マイク(MIC)は、電子機器800が動作モード、例えば呼び出しモード、記録モードまたは音声認識モードになる場合、外部のオーディオ信号を受信するように構成される。受信されたオーディオ信号はさらにメモリ804に記憶されるか、または通信コンポーネント816を介して送信されてもよい。いくつかの実施例では、オーディオコンポーネント810はさらに、オーディオ信号を出力するためのスピーカーを含む。
I/Oインタフェース812は処理コンポーネント802と周辺インタフェースモジュールとの間でインタフェースを提供し、上記周辺インタフェースモジュールはキーボード、クリックホイール、ボタンなどであってもよい。これらのボタンはホームボタン、ボリュームボタン、スタートボタン及びロックボタンを含んでもよいが、これらに限定されない。
センサコンポーネント814は電子機器800の各面の状態評価のための一つ以上のセンサを含む。例えば、センサコンポーネント814は、電子機器800のオン/オフ状態、例えば電子機器800の表示装置及びキーパッドのようなコンポーネントの相対的位置決めを検出でき、センサコンポーネント814はさらに、電子機器800または電子機器800のあるコンポーネントの位置の変化、ユーザと電子機器800との接触の有無、電子機器800の方位または加減速及び電子機器800の温度変化を検出できる。センサコンポーネント814は、いかなる物理的接触もない場合に近傍の物体の存在を検出するように構成される近接センサを含む。センサコンポーネント814はさらに、相補型金属酸化膜半導体(CMOS)または電荷結合素子(CCD)イメージセンサのような、イメージングアプリケーションにおいて使用するための光センサを含んでもよい。いくつかの実施例では、該センサコンポーネント814はさらに、加速度センサ、ジャイロセンサ、磁気センサ、圧力センサまたは温度センサを含んでもよい。
通信コンポーネント816は電子機器800と他の機器との間の有線または無線通信を実現するように構成される。電子機器800は通信規格に基づく無線ネットワーク、例えば無線ネットワーク(WiFi)、第2世代移動通信技術(2G)または第3世代移動通信技術(3G)、またはそれらの組み合わせにアクセスできる。一例示的実施例では、通信コンポーネント816は放送チャネルを介して外部の放送管理システムからの放送信号または放送関連情報を受信する。一例示的実施例では、前記通信コンポーネント816はさらに、近距離通信を促進させるために、近距離無線通信(NFC)モジュールを含む。例えば、NFCモジュールは無線周波数識別(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(BT)技術及び他の技術によって実現できる。
例示的な実施例では、電子機器800は一つ以上の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理デバイス(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子要素によって実現され、上記方法を実行するために用いられることができる。
例示的な実施例では、さらに、不揮発性のコンピュータ可読記憶媒体、例えばコンピュータプログラム命令を含むメモリ804が提供され、上記コンピュータプログラム命令は電子機器800のプロセッサ820によって実行されると、上記方法を実行させることができる。
図5は、本開示の実施例に係る電子機器1900のブロック図を示す。例えば、電子機器1900は、サーバとして提供されてもよい。図5を参照すると、電子機器1900は、一つ以上のプロセッサを含む処理コンポーネント1922、及び、処理コンポーネント1922によって実行可能な命令、例えばアプリケーションプログラムを記憶するための、メモリ1932を代表とするメモリ資源をさらに含む。メモリ1932に記憶されているアプリケーションプログラムは、それぞれが1つの命令群に対応する一つ以上のモジュールを含んでもよい。また、処理コンポーネント1922は、命令を実行することによって上記方法を実行するように構成される。
電子機器1900はさらに、電子機器1900の電源管理を実行するように構成される電源コンポーネント1926、電子機器1900をネットワークに接続するように構成される有線または無線ネットワークインタフェース1950、及び入出力(I/O)インタフェース1958を含んでもよい。電子機器1900はメモリ1932に記憶されているオペレーティングシステム、例えばマイクロソフトウィンドウズサーバオペレーティングシステム(Windows ServerTM)、アップル社製グラフィカルユーザーインターフェースオペレーティングシステムMac OS XTM、コンピュータ用のマルチタスク・マルチユーザーのオペレーティングシステム(UnixTM)、フリーでオープンソースのUnix系のオペレーティングシステム(LinuxTM)、オープンソースのUnix系のオペレーティングシステム(FreeBSDTM)または類似するものに基づいて動作できる。
例示的な実施例では、さらに、不揮発性のコンピュータ可読記憶媒体、例えばコンピュータプログラム命令を含むメモリ1932が提供され、上記コンピュータプログラム命令は、電子機器1900の処理コンポーネント1922によって実行されると、上記方法を実行させることができる。
本開示はシステム、方法および/またはコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、プロセッサに本開示の各方面を実現させるためのコンピュータ可読プログラム命令を有しているコンピュータ可読記憶媒体を含んでもよい。
コンピュータ読み取り可能な記憶媒体コンピュータ可読記憶媒体は、命令実行装置に使用される命令を保存及び記憶可能な実体のある装置であってもよい。コンピュータ可読記憶媒体は例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置または上記の任意の適当な組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のさらなる具体的な例(非網羅的リスト)としては、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去・プログラマブル可能な読み取り専用メモリ(EPROMまたはフラッシュメモリ)、静的ランダムアクセスメモリ(SRAM)、携帯型コンパクトディスク読み取り専用メモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピーディスク、例えば命令が記憶されているせん孔カードまたはスロット内突起構造のような機械的符号化装置、及び上記の任意の適当な組み合わせを含む。ここで使用されるコンピュータ可読記憶媒体は、一時的な信号自体、例えば無線電波または他の自由に伝播される電磁波、導波路または他の伝送媒体を経由して伝播される電磁波(例えば、光ファイバーケーブルを通過するパルス光)、または電線を経由して伝送される電気信号であると解釈されるものではない。
ここで記述したコンピュータ可読プログラム命令はコンピュータ可読記憶媒体から各計算/処理機器にダウンロードされてもよいし、またはネットワーク、例えばインターネット、ローカルエリアネットワーク、広域ネットワーク及び/または無線ネットワークを経由して外部のコンピュータまたは外部記憶装置にダウンロードされてもよい。ネットワークは銅伝送ケーブル、光ファイバー伝送、無線伝送、ルーター、ファイアウォール、交換機、ゲートウェイコンピュータ及び/またはエッジサーバを含んでもよい。各計算/処理機器内のネットワークアダプタカードまたはネットワークインタフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、該コンピュータ読取可能プログラム命令を転送し、各計算/処理機器内のコンピュータ可読記憶媒体に記憶させる。
本開示の動作を実行するためのコンピュータプログラム命令はアセンブラ命令、命令セットアーキテクチャ(ISA)命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはSmalltalk、C++などのオブジェクト指向プログラミング言語及び「C」言語または類似するプログラミング言語などの一般的な手続き型プログラミング言語を含める一つ以上のプログラミング言語の任意の組み合わせで書かれたソースコードまたは目標コードであってもよい。コンピュータ可読プログラム命令は、完全にユーザのコンピュータにおいて実行されてもよく、部分的にユーザのコンピュータにおいて実行されてもよく、スタンドアロンソフトウェアパッケージとして実行されてもよく、部分的にユーザのコンピュータにおいてかつ部分的にリモートコンピュータにおいて実行されてもよく、または完全にリモートコンピュータもしくはサーバにおいて実行されてもよい。リモートコンピュータに関与する場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)または広域ネットワーク(WAN)を含む任意の種類のネットワークを経由してユーザのコンピュータに接続されてもよく、または、(例えばインターネットサービスプロバイダを利用してインターネットを経由して)外部コンピュータに接続されてもよい。いくつかの実施例では、コンピュータ可読プログラム命令の状態情報を利用して、例えばプログラマブル論理回路、フィールドプログラマブルゲートアレイ(FPGA)またはプログラマブル論理アレイ(PLA)などの電子回路をパーソナライズし、該電子回路によりコンピュータ可読プログラム命令を実行することにより、本開示の各方面を実現するようにしてもよい。
ここで本開示の実施例に係る方法、装置(システム)及びコンピュータプログラム製品のフローチャート及び/またはブロック図を参照しながら本開示の各態様を説明したが、フローチャート及び/またはブロック図の各ブロック、及びフローチャート及び/またはブロック図の各ブロックの組み合わせは、いずれもコンピュータ可読プログラム命令によって実現できることを理解すべきである。
これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサへ提供され、これらの命令がコンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行されると、フローチャート及び/またはブロック図の一つ以上のブロックにおいて指定された機能/動作を実現させるように、装置を製造してもよい。これらのコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体に記憶され、コンピュータ、プログラマブルデータ処理装置及び/または他の機器を決定の方式で動作させるようにしてもよい。これにより、命令が記憶されているコンピュータ可読記憶媒体は、フローチャート及び/またはブロック図の一つ以上のブロックにおいて指定された機能/動作の各方面を実現する命令を有する製品を含む。
コンピュータ可読プログラム命令は、コンピュータ、他のプログラマブルデータ処理装置、または他の機器にロードされ、コンピュータ、他のプログラマブルデータ処理装置または他の機器に一連の動作ステップを実行させることにより、コンピュータにより実施可能なプロセスを生成するようにしてもよい。このようにして、コンピュータ、他のプログラマブルデータ処理装置、または他の機器において実行される命令により、フローチャート及び/またはブロック図の一つ以上のブロックにおいて指定された機能/動作を実現する。
図面のうちフローチャート及びブロック図は、本開示の複数の実施例に係るシステム、方法及びコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能及び動作を示す。この点では、フローチャートまたはブロック図における各ブロックは一つのモジュール、プログラムセグメントまたは命令の一部分を代表することができ、前記モジュール、プログラムセグメントまたは命令の一部分は指定された論理機能を実現するための一つ以上の実行可能な命令を含む。いくつかの代替としての実現形態では、ブロックに表記される機能は、図面に付した順序と異なる順序で実現してもよい。例えば、連続的な二つのブロックは実質的に並行に実行してもよく、また、係る機能によって、逆な順序で実行してもよい場合がある。なお、ブロック図及び/またはフローチャートにおける各ブロック、及びブロック図及び/またはフローチャートにおけるブロックの組み合わせは、指定される機能または動作を実行するハードウェアに基づく専用システムによって実現してもよいし、または専用ハードウェアとコンピュータ命令との組み合わせによって実現してもよいことにも注意すべきである。
該コンピュータプログラム製品は、具体的に、ハードウェア、ソフトウェアまたはそれらの組み合わせによって実現できる。可能な一実施例では、前記コンピュータプログラム製品は、具体的にコンピュータ記憶媒体であってもよい。別の可能な一実施例では、コンピュータプログラム製品は、具体的に例えばソフトウェア開発キット(Software Development Kit、SDK)などのソフトウェア製品であってもよい。
以上、本開示の各実施例を記述したが、上記説明は例示的なものに過ぎず、網羅的なものではなく、かつ披露された各実施例に限定されるものでもない。当業者にとって、説明された各実施例の範囲及び精神から逸脱することなく、様々な修正及び変更が自明である。本明細書に選ばれた用語は、各実施例の原理、実際の適用または従来技術への技術的改善を好適に解釈するか、または他の当業者に本明細書に披露された各実施例を理解させるためのものである。

Claims (15)

  1. 車室内のビデオストリーム及び音信号を取得することと、
    前記ビデオストリームに対して顔検出を行い、前記ビデオストリームにおいて車室内の少なくとも1人の乗員の顔領域を特定することと、
    少なくとも1人の乗員の前記顔領域、及び前記音信号に基づいて、前記車室内において前記音信号を発した目標乗員を特定することと、
    を含むことを特徴とする乗員発話検出方法。
  2. 前記音信号の内容認識を行い、前記音信号に対応する音声内容を特定することと、
    前記音声内容に予め設定された音声コマンドが含まれる場合、前記音声コマンドに対応する制御機能を実行することと、
    をさらに含むことを特徴とする請求項1に記載の乗員発話検出方法。
  3. 前記した、前記音声内容に予め設定された音声コマンドが含まれる場合、前記音声コマンドに対応する制御機能を実行することは、
    前記音声コマンドが、方向性を有する複数の制御機能に対応する場合、前記目標乗員の前記顔領域に基づいて、前記目標乗員の注視方向を特定することと、
    前記目標乗員の注視方向に基づいて、前記複数の制御機能から目標制御機能を決定することと、
    前記目標制御機能を実行することと、
    を含むことを特徴とする請求項2に記載の乗員発話検出方法。
  4. 前記ビデオストリームは運転者領域の第1ビデオストリームを含み、
    前記した、前記ビデオストリームにおいて車室内の少なくとも1人の乗員の顔領域を特定することは、
    前記第1ビデオストリームにおいて前記車室内の運転者の顔領域を特定することを含み、
    前記した、少なくとも1人の乗員の前記顔領域、及び前記音信号に基づいて、前記車室内において前記音信号を発した目標乗員を特定することは、
    前記運転者の前記顔領域、及び前記音信号に基づいて、前記車室内において前記音信号を発した目標乗員が前記運転者であるか否かを判定することを含むことを特徴とする請求項1~3のいずれか1項に記載の乗員発話検出方法。
  5. 前記ビデオストリームは乗員領域の第2ビデオストリームを含み、
    前記した、少なくとも1人の乗員の前記顔領域、及び前記音信号に基づいて、前記車室内において前記音信号を発した目標乗員を特定することは、
    前記乗員ごとの顔領域に対して、当該顔領域及び前記音信号に基づいて、前記車室内において前記音信号を発した目標乗員が当該顔領域に対応する乗員であるか否かを判定することを含むことを特徴とする請求項1~4のいずれか1項に記載の乗員発話検出方法。
  6. 前記ビデオストリームに基づいて、前記目標乗員の席領域を特定することと、
    前記音信号の内容認識を行い、前記音信号に対応する音声内容を特定することと、
    前記音声内容に予め設定された音声コマンドが含まれる場合、前記目標乗員の席領域に基づいて、前記音声コマンドに対応する領域制御機能を決定することと、
    前記領域制御機能を実行することと、
    をさらに含むことを特徴とする請求項1~5のいずれか1項に記載の乗員発話検出方法。
  7. 前記した、少なくとも1人の乗員の前記顔領域、及び前記音信号に基づいて、前記車室内において前記音信号を発した目標乗員を特定することは、
    前記ビデオストリームにおいて前記音信号の時間帯に対応するビデオフレームシーケンスを特定することと、
    いずれかの乗員の前記顔領域について、
    前記ビデオフレームシーケンスにおける前記乗員の顔領域の特徴抽出を行い、前記乗員の顔特徴を得ることと、
    前記顔特徴及び前記音信号から抽出された音声特徴に基づいて、前記乗員の融合特徴を決定することと、
    前記融合特徴に基づいて、前記乗員の発話検出結果を特定することと、を行うことと、
    少なくとも1人の乗員の発話検出結果に基づいて、前記音信号を発した目標乗員を特定することと、
    を含むことを特徴とする請求項1~6のいずれか1項に記載の乗員発話検出方法。
  8. 前記した、前記ビデオフレームシーケンスにおける前記乗員の顔領域の特徴抽出を行うことは、
    前記ビデオフレームシーケンス内のN個のビデオフレームのうちの少なくとも1つのフレームにおける前記乗員の顔領域の特徴抽出を行い、前記乗員のN個の顔特徴を得ることを含み、
    前記音声特徴の抽出について、前記N個のビデオフレームの収集時刻に基づいて前記音信号の分割及び音声特徴抽出を行い、前記N個のビデオフレームのそれぞれに対応するN個の音声特徴を得ることを特徴とする請求項7に記載の乗員発話検出方法。
  9. 前記した、前記N個のビデオフレームの収集時刻に基づいて前記音信号の分割及び音声特徴抽出を行い、前記N個のビデオフレームのそれぞれに対応するN個の音声特徴を得ることは、
    前記N個のビデオフレームの収集時刻に基づいて前記音信号を分割し、前記N個のビデオフレームのそれぞれに対応するN個の音声フレームを得ることであって、前記N個のビデオフレームのうち、n(nが整数であって、1≦n≦Nである)番目のビデオフレームの収集時刻がn番目の音声フレームに対応する時間帯内にあることと、
    前記N個の音声フレームのそれぞれに対して音声特徴抽出を行い、N個の音声特徴を得ることと、
    を含むことを特徴とする請求項8に記載の乗員発話検出方法。
  10. 前記した、前記N個のビデオフレームの収集時刻に基づいて前記音信号を分割し、前記N個のビデオフレームのそれぞれに対応するN個の音声フレームを得ることは、
    前記N個のビデオフレームの収集時刻に基づいて、前記音信号を分割するための時間窓の時間窓長、及び前記時間窓長よりも小さい移動ステップサイズを決定することと、
    n番目の音声フレームについて、前記移動ステップサイズに基づいて前記時間窓を移動させ、前記n番目の音声フレームに対応する時間帯を特定することと、
    前記n番目の音声フレームに対応する時間帯に基づいて、前記音信号から前記n番目の音声フレームを切り出すことと、
    を含むことを特徴とする請求項9に記載の乗員発話検出方法。
  11. 前記した、前記顔特徴及び前記音声特徴に基づいて、前記乗員の融合特徴を決定することは、
    前記N個の顔特徴と前記N個の音声特徴とを一対一対応させて融合し、N個のサブ融合特徴を得ることと、
    前記N個のサブ融合特徴を連結し、前記乗員の融合特徴を得ることと、
    を含むことを特徴とする請求項8~10のいずれか1項に記載の乗員発話検出方法。
  12. 車室内のビデオストリーム及び音信号を取得するための信号取得モジュールと、
    前記ビデオストリームに対して顔検出を行い、前記ビデオストリームにおいて車室内の少なくとも1人の乗員の顔領域を特定するための顔検出モジュールと、
    少なくとも1人の乗員の前記顔領域、及び前記音信号に基づいて、前記車室内において前記音信号を発した目標乗員を特定するための乗員特定モジュールと、
    を含むことを特徴とする乗員発話検出装置。
  13. プロセッサと、
    プロセッサにより実行可能な命令を記憶するメモリと、を含み、
    前記プロセッサは、前記メモリに記憶されている命令を呼び出すことにより請求項1~11のいずれか1項に記載の乗員発話検出方法を実行するように構成されることを特徴とする電子機器。
  14. コンピュータプログラム命令が記憶されているコンピュータ可読記憶媒体であって、前記コンピュータプログラム命令は、プロセッサにより実行されると、請求項1~11のいずれか1項に記載の乗員発話検出方法を実現させることを特徴とするコンピュータ可読記憶媒体。
  15. コンピュータ可読コードを含むコンピュータプログラムであって、前記コンピュータ可読コードが電子機器で動作すると、前記電子機器のプロセッサに請求項1~11のいずれか1項に記載の乗員発話検出方法を実現するための命令を実行させることを特徴とするコンピュータプログラム。
JP2023546461A 2021-06-30 2021-10-28 乗員発話検出方法及び装置、電子機器並びに記憶媒体 Pending JP2024505968A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202110738677.5 2021-06-30
CN202110738677.5A CN113488043B (zh) 2021-06-30 2021-06-30 乘员说话检测方法及装置、电子设备和存储介质
PCT/CN2021/127096 WO2023273063A1 (zh) 2021-06-30 2021-10-28 乘员说话检测方法及装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
JP2024505968A true JP2024505968A (ja) 2024-02-08

Family

ID=77937123

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023546461A Pending JP2024505968A (ja) 2021-06-30 2021-10-28 乗員発話検出方法及び装置、電子機器並びに記憶媒体

Country Status (3)

Country Link
JP (1) JP2024505968A (ja)
CN (1) CN113488043B (ja)
WO (1) WO2023273063A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113488043B (zh) * 2021-06-30 2023-03-24 上海商汤临港智能科技有限公司 乘员说话检测方法及装置、电子设备和存储介质
CN117155583B (zh) * 2023-10-24 2024-01-23 清华大学 非完整信息深度融合的多模态身份认证方法及系统

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008058409A (ja) * 2006-08-29 2008-03-13 Aisin Aw Co Ltd 音声認識方法及び音声認識装置
BR112014015844A8 (pt) * 2011-12-26 2017-07-04 Intel Corp determinação das entradas de áudio e visuais de ocupantes baseada em veículo
DE102013222645A1 (de) * 2013-11-07 2015-05-07 Robert Bosch Gmbh Erkennungssystem in einem Fahrzeug zur Erfassung der Sprachaktivität eines Fahrzeuginsassen
US9626575B2 (en) * 2015-08-07 2017-04-18 International Business Machines Corporation Visual liveness detection
JP2017117371A (ja) * 2015-12-25 2017-06-29 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 制御方法、制御装置およびプログラム
CN111629301B (zh) * 2019-02-27 2021-12-31 北京地平线机器人技术研发有限公司 用于控制多个扬声器播放音频的方法、装置和电子设备
WO2020196931A1 (ko) * 2019-03-22 2020-10-01 엘지전자 주식회사 차량용 전자 장치 및 차량용 전자 장치의 동작 방법
CN110246512B (zh) * 2019-05-30 2023-05-26 平安科技(深圳)有限公司 声音分离方法、装置及计算机可读存储介质
WO2021038736A1 (ja) * 2019-08-28 2021-03-04 三菱電機株式会社 音場制御装置及び音場制御方法
CN110544491A (zh) * 2019-08-30 2019-12-06 上海依图信息技术有限公司 一种实时关联说话人及其语音识别结果的方法及装置
US20210065712A1 (en) * 2019-08-31 2021-03-04 Soundhound, Inc. Automotive visual speech recognition
CN110991329A (zh) * 2019-11-29 2020-04-10 上海商汤智能科技有限公司 一种语义分析方法及装置、电子设备和存储介质
EP4064284A4 (en) * 2019-12-13 2022-11-30 Huawei Technologies Co., Ltd. SPEECH DETECTION METHODS, TRAINING METHODS FOR PREDICTIVE MODELS, DEVICE, DEVICE AND MEDIUM
CN112026790B (zh) * 2020-09-03 2022-04-15 上海商汤临港智能科技有限公司 车载机器人的控制方法及装置、车辆、电子设备和介质
CN112017633B (zh) * 2020-09-10 2024-04-26 北京地平线信息技术有限公司 语音识别方法、装置、存储介质及电子设备
CN112286364A (zh) * 2020-11-20 2021-01-29 苏州思必驰信息科技有限公司 人机交互方法和装置
CN112989967A (zh) * 2021-02-25 2021-06-18 复旦大学 一种基于音视频信息融合的人员身份识别方法
CN113488043B (zh) * 2021-06-30 2023-03-24 上海商汤临港智能科技有限公司 乘员说话检测方法及装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN113488043B (zh) 2023-03-24
WO2023273063A1 (zh) 2023-01-05
CN113488043A (zh) 2021-10-08

Similar Documents

Publication Publication Date Title
WO2023273064A1 (zh) 对象说话检测方法及装置、电子设备和存储介质
CN105828101B (zh) 生成字幕文件的方法及装置
JP2024505968A (ja) 乗員発話検出方法及び装置、電子機器並びに記憶媒体
CN113302664A (zh) 运载工具的多模态用户接口
KR20150032055A (ko) 이동 단말기 및 그것의 제어방법
US11176948B2 (en) Agent device, agent presentation method, and storage medium
KR20160014465A (ko) 전자 장치 및 이의 음성 인식 방법
CN110770693A (zh) 手势操作装置及手势操作方法
CN105489220A (zh) 语音识别方法及装置
CN109144260B (zh) 动态动作检测方法、动态动作控制方法及装置
JP2023543339A (ja) 車室内乗員検出方法及び装置、電子機器並びに記憶媒体
JP2022522551A (ja) 画像処理方法及び装置、電子機器並びに記憶媒体
EP3869301A1 (en) Information processing device, information processing method, and computer program
CN107945806B (zh) 基于声音特征的用户识别方法及装置
CN114678021B (zh) 音频信号的处理方法、装置、存储介质及车辆
US12014730B2 (en) Voice processing method, electronic device, and storage medium
CN113920492A (zh) 车内人员检测方法及装置、电子设备和存储介质
CN109388699A (zh) 输入方法、装置、设备及存储介质
JP2024506809A (ja) 危険行為の識別方法及び装置、電子機器並びに記憶媒体
WO2023071175A1 (zh) 关联车内的人和物的方法及装置、电子设备和存储介质
EP4276818A1 (en) Speech operation method for device, apparatus, and electronic device
CN106098066B (zh) 语音识别方法及装置
WO2017206133A1 (zh) 语音识别方法及装置
KR20190074344A (ko) 대화 시스템 및 대화 처리 방법
CN116670624A (zh) 界面的控制方法、装置和系统

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230801