JP2022530605A

JP2022530605A - 子供状態検出方法及び装置、電子機器、記憶媒体

Info

Publication number: JP2022530605A
Application number: JP2021557464A
Authority: JP
Inventors: 王▲飛▼; ▲錢▼晨
Original assignee: Shanghai Sensetime Lingang Intelligent Technology Co Ltd
Current assignee: Shanghai Sensetime Lingang Intelligent Technology Co Ltd
Priority date: 2020-03-30
Filing date: 2020-12-14
Publication date: 2022-06-30
Anticipated expiration: 2040-12-14
Also published as: US20220084384A1; CN111439170A; JP7259078B2; KR20210142177A; SG11202113260SA; WO2021196738A1; CN111439170B

Abstract

本発明は、子供状態検出方法及び装置、電子機器、コンピュータ可読記憶媒体を提供する。ここで、第１態様によれば、本発明は、子供状態検出方法を提供し、前記子供状態検出方法は、キャビン内の目標画像を取得することと、前記目標画像内の子供を認識することと、前記子供の位置情報に基づいて、前記子供がキャビン内の後部座席にいるかどうかを決定することと、前記子供がキャビン内の後部座席にいない場合、警告を発することと、を含む。【選択図】図１

Description

［関連出願への相互参照］
本願は、２０２０年０３月３０日に中国特許局に提出された、出願番号が２０２０１０２３９２５９．７である中国特許出願に基づいて提出されるものであり、当該中国特許出願の優先権を主張し、当該中国特許出願の全ての内容が引用によって本願に組み込まれる。
［技術分野］
本発明は、コンピュータビジョンの技術分野に関し、特に、子供状態検出方法及び装置、電子機器、コンピュータ可読記憶媒体に関する。

現在の自動車用電子産業は急速に発展しており、人々が車に乗るのに便利で快適なキャビン環境を提供している。インテリジェントで安全なキャビンは、現在の自動車産業の発展重要な発展方向である。

身体の発達やその他の制限により、子供にとって車に乗るリスクが高い。車載システムの安全認識に関しては、現在、乗車中の子供の安全性を効果的に認識して早期警告することができないため、乗車中の子供の安全に問題が生じる可能性がある。

これを鑑みて、本発明は、少なくとも、子供状態検出方法及び装置を提供する。

第１態様によれば、本発明は、子供状態検出方法を提供し、前記子供状態検出方法は、
キャビン内の目標画像を取得することと、
前記目標画像内の子供を認識することと、
前記子供の位置情報に基づいて、前記子供がキャビン内の後部座席にいるかどうかを決定することと、
前記子供がキャビン内の後部座席にいない場合、警告を発することと、を含む。

この態様によれば、キャビン内の子供及び子供位置を認識することにより、キャビン内の子供が後部座席にいるかどうかを判断し、子供が後部座席にいない場合、警告を発し、これにより、乗車中の子供の安全状態の認識の精度を向上させ、乗車中の子供の安全性を向上させるのに役に立つ。

一可能な実施形態において、上記の子供状態検出方法は、
前記子供の位置情報及び前記目標画像内のチャイルドシートの位置情報に基づいて、前記子供がチャイルドシートにいるかどうかを決定することと、
前記子供がチャイルドシートにいない場合、前記キャビンの移動速度がプリセットされた値より大きいことに応答して、警告を発することと、を更に含む。

一可能な実施形態において、前記子供状態検出方法は、
前記目標画像内のチャイルドシートを認識することと、
キャビン内にチャイルドシートがないと決定した場合、前記キャビンの移動速度がプリセットされた値より大きいことに応答して、警告を発することと、を更に含む。

一可能な実施形態において、前記目標画像内の子供を認識することは、
前記子供の状態特徴情報を認識することと、
前記状態特徴情報に基づいて、前記キャビン内のキャビン環境を調整することと、を更に含む。

一可能な実施形態において、前記目標画像内の子供を認識することは、
前記目標画像に基づいて、前記目標画像内の各対象の対象情報を決定することであって、１つの対象の対象情報は、前記対象の中心点情報及び前記対象の中心点に対応する対象タイプ情報を含む、ことと、
決定された各対象の対象情報に基づいて、前記目標画像内の子供を決定することと、を含む。

一可能な実施形態において、前記目標画像に基づいて、前記目標画像内の各対象の対象情報を決定することは、
前記目標画像に対して特徴抽出を実行して、前記目標画像に対応する第１特徴マップを取得することと、
前記第１特徴マップの第１プリセットされたチャネルから、前記第１特徴マップの各特徴点を対象の中心点の応答値として取得することと、
前記第１特徴マップを複数のサブ領域に分割し、各サブ領域の最大の応答値及び最大の応答値に対応する特徴点を決定することと、
最大の応答値がプリセットされた閾値より大きい目標特徴点を対象の中心点として使用し、第１特徴マップにおける前記目標特徴点の位置インデックスに基づいて、対象の中心点の位置情報を決定することと、を含む。

一可能な実施形態において、前記対象の中心点情報は、対象の中心点の長さ情報及び幅情報を更に含み、前記目標画像に基づいて、前記目標画像内の各対象の対象情報を決定することは、
前記第１特徴マップの第２プリセットされたチャネルの、前記目標特徴点の位置インデックスに対応する位置から、前記目標特徴点に対応する対象の中心点の長さ情報を取得することと、
前記第１特徴マップ的第３プリセットされたチャネルの、前記目標特徴点の位置インデックスに対応する位置から、前記目標特徴点に対応する対象の中心点の幅情報を取得することと、を更に含む。

一可能な実施形態において、前記目標画像に基づいて、前記目標画像内の各対象の対象情報を決定することは、
前記目標画像に対して特徴抽出を実行して、前記目標画像に対応する第２特徴マップを取得することと、
第１特徴マップにおける前記目標特徴点の位置インデックスに基づいて、前記第２特徴マップにおける前記目標特徴点の位置インデックスを決定することと、
前記第２特徴マップにおける前記目標特徴点の位置インデックスに対応する位置から、前記目標特徴点に対応する対象タイプ情報を取得することと、を更に含む。

一可能な実施形態において、前記対象は顔及び体を含み、
前記決定された各対象の対象情報に基づいて、前記目標画像内の子供を決定することは、
各体の中心点に対応する位置オフセット情報に基づいて、各体とマッチングする顔の中心点の予測位置情報をそれぞれ決定することであって、同一人に属する体と顔は互いにマッチングすることと、
決定された予測位置情報及び各顔の中心点の位置情報に基づいて、各体とマッチングする顔を決定することと、
マッチングに成功した体と顔について、マッチングに成功した体の中心点に対応する対象タイプ情報及び顔の中心点に対応する対象タイプ情報を用いて、前記マッチングに成功した体と顔が属する人が子供であるかどうかを決定することと、を含む。

一可能な実施形態において、前記子供状態検出方法は、
マッチングに成功しなかった体について、前記体の中心点に対応する対象タイプ情報を用いて前記体の中心点が属する人が子供であるかどうかを決定することと、
マッチングに成功しなかった顔について、前記顔の中心点に対応する対象タイプ情報を用いて前記顔の中心点が属する人が子供であるかどうかを決定することと、を更に含む。

一可能な実施形態において、前記状態特徴情報は、子供の睡眠状態特徴情報を含み、
前記子供の状態特徴情報を認識することは、
前記目標画像から子供の顔サブ画像を抽出することと、
前記顔サブ画像に基づいて、子供の左目の開閉状態情報及び右目の開閉状態情報を決定することと、
子供の左目の開閉状態情報及び右目の開閉状態情報に基づいて、子供の睡眠状態特徴情報を決定することと、を含む。

一可能な実施形態において、前記子供の左目の開閉状態情報及び右目の開閉状態情報に基づいて、子供の睡眠状態特徴情報を決定することは、
連続する複数のフレームの前記目標画像に対応する左目の開閉状態情報及び右目の開閉状態情報に基づいて、前記子供が目を閉じた累積持続時間を決定することと、
前記目を閉じた累積持続時間がプリセットされた閾値より大きい場合、前記睡眠状態特徴情報が睡眠状態であると決定することと、
前記目を閉じた累積持続時間がプリセットされた閾値より小さいか等しい場合、前記睡眠状態特徴情報が非睡眠状態であると決定することと、を含む。

一可能な実施形態において、前記状態特徴情報は、子供の気分状態特徴情報を含み、
前記子供の状態特徴情報を認識することは、
前記目標画像から子供の顔サブ画像を抽出することと、
前記顔サブ画像によって表される顔の少なくとも２つの器官の各器官の動作を認識することと、
認識された前記各器官の動作に基づいて、前記顔サブ画像によって表される顔の気分状態特徴情報を決定することと、を含む。

一可能な実施形態において、顔の器官の動作は、
顔をしかめること、目を大きく開くこと、口角を上げること、上唇を上げること、口角を下げること、及び口を開くことを含む。

一可能な実施形態において、前記顔サブ画像によって表される顔の少なくとも２つの器官の各器官の動作を認識するステップは、動作認識用のニューラルネットワークによって実行され、前記動作認識用のニューラルネットワークは、バックボーンネットワーク及び少なくとも２つの分類ブランチネットワークを含み、各分類ブランチネットワークは、顔の１つの器官の動作を認識するために使用され、
前記顔サブ画像によって表される顔の少なくとも２つの器官の各器官の動作を認識することは、
バックボーンネットワークを用いて前記顔サブ画像に対して特徴抽出を実行して、前記顔サブ画像の特徴マップを取得することと、
各分類ブランチネットワークを用いて、前記顔サブ画像の特徴マップに従って動作認識をそれぞれ実行して、各分類ブランチネットワークによって認識できる動作の発生確率を取得することと、
発生確率がプリセットされた確率より大きい動作を、前記顔サブ画像によって表される顔の器官の動作として決定することと、を含む。

第２態様によれば、本発明は、子供状態検出装置を提供し、前記子供状態検出装置は、
キャビン内の目標画像を取得するように構成される画像取得モジュールと、
前記目標画像内の子供を認識するように構成される子供認識モジュールと、
前記子供の位置情報に基づいて、前記子供がキャビン内の後部座席にいるかどうかを決定するように構成される位置判定モジュールと、
前記子供がキャビン内の後部座席にいない場合、警告を発するように構成される早期警告モジュールと、を備える。

第３態様によれば、本発明は、電子機器を提供し、前記電子機器は、プロセッサ、メモリ及びバスを備え、前記メモリには、前記プロセッサ実行可能な機械可読命令が記憶され、電子機器が動作するときに、前記プロセッサと前記メモリはバスを介して通信し、前記機械可読命令が前記プロセッサによって実行されるときに、上記の子供状態検出方法のステップを実行する。

第４態様によれば、本発明は、コンピュータ可読記憶媒体を更に提供し、当該コンピュータ可読記憶媒体にはコンピュータプログラムが記憶され、当該コンピュータプログラムがプロセッサによって実行されるときに、上記委の子供状態検出方法のステップを実行する。

本発明は、コンピュータプログラム製品を提供し、前記コンピュータプログラム製品はコンピュータ可読コードを含み、前記コンピュータ可読コードが電子機器によって実行されるときに、前記電子機器のプロセッサに、上記の１つまたは複数の実施例における方法を実行させる。

本発明の装置、電子機器、及びコンピュータ可読記憶媒体は、少なくとも、本発明の上記の方法の任意の態様又は任意の態様の任意の実施形態に係る技術的特徴と同じ又は類似の技術的特徴を含むため、上記の装置、電子機器、及びコンピュータ可読記憶媒体の技術的効果については、上記の方法の技術的効果の説明を参照でき、ここでは繰り返して説明しない。

本発明の実施例の技術的解決策をより明確に説明するために、以下では、実施例に使用される図面について簡単に説明し、以下の図面は、本発明のいくつかの特定の実施例のみを示し、範囲を限定するものと見なされるべきではことを理解されたい。当業者にとっては、創造的な作業なしに、これらの図面にしたがって他の図面を得ることもできる。
本発明の実施例に係る子供状態検出方法のフローチャートを示す。本発明の実施例に係る別の子供状態検出方法において、目標画像内の各対象の対象情報を決定することを示すフローチャートを示す。本発明の実施例に係る更に別の子供状態検出方法において、対象の対象タイプ情報を決定することを示すフローチャートを示す。本発明の実施例に係る更に別の子供状態検出方法において、子供の気分状態特徴情報を決定することを示すフローチャートを示す。本発明の実施例に係る子供状態検出装置の概略構造図を示す。本発明の実施例に係る電子機器の概略構造図を示す。

本発明の実施例の目的、技術的解決策および利点をより明確にするために、以下、本発明の実施例における図面を参照して、本発明の実施例における技術的解決策を明確且つ完全に説明するが、理解できることとして、本発明の図面は、説明及び解釈するためのものに過ぎず、本発明の保護範囲を限定するものではない。また、理解できることとして、例示の図面は、原寸に比例して描かれていない。本発明で使用されるフローチャートは、本発明に係るいくつかの実施例に係る動作を示す。理解できることとして、フローチャートの動作は順番に実現することではなく、論理的なコンテキスト関係を有しないステップは、逆順に実施されたり、又は同時実施されることができる。さらに、当業者は、本発明に基づき、フローチャートに１つ又は複数の他の動作を追加してもよく、フローチャートから１つ又は複数の動作を取り消してもよい。

さらに、説明された実施例は、実施例のすべてではなく、本発明の実施例の一部に過ぎない。通常、本明細書の図面に記載および図示されている本発明の実施例のコンポーネントは、様々な異なる構成で配置および設計することができる。したがって、図面に提供される本発明の実施例の以下の詳細な説明は、本発明の保護範囲を制限するものではなく、本発明の特定の実施例を示すものに過ぎない。本発明の実施例に基づき、創造的な努力なしに当業者が取得した他のすべての実施例は、本発明の保護範囲に含まれる。

本発明の実施例の「含む」という用語は、その後の特徴の存在を表すた目のものであり、他の特徴が追加される場合を排除しない。

本発明は、子供状態検出方法及び装置、電子機器、コンピュータ可読記憶媒体を提供する。本発明は、キャビン内の子供及び子供位置を認識することにより、キャビン内の子供が後部座席にいるかどうかを判断し、子供が後部座席にいない場合、警告を発し、これにより、乗車中の子供の安全状態の認識の精度を向上させ、乗車中の子供の安全性を向上させるのに役に立つ。

以下では、実施例を参照して、本発明に係る子供状態検出方法及び装置、電子機器、コンピュータ可読記憶媒体を説明する。

本発明の実施例は、子供状態検出方法を提供し、当該方法は、子供状態及び安全性を検出するための端末機器動作を認識するステップは、又はサーバに適用される。図１に示されたように、本発明の実施例に係る子供状態検出方法は、次のステップを含む。

ステップＳ１１０において、キャビン内の目標画像を取得する。

ここで、目標画像は、子供を含む場合と含まない場合があり、当該画像は、子供の状態と安全性を検出するための端末機器によって撮影されてもよいし、他の撮影機器によって撮影された後に上記の子供の状態と安全性を検出するための端末機器やサーバに伝送されてもよい。

ステップＳ１２０において、前記目標画像内の子供を認識する。

ここで、目標画像内の子供を認識することは、目標画像内の各対象から子供を選別し、子供の位置情報を決定することを含む。

目標画像内の子供を認識する場合、先ず、前記目標画像に基づいて、前記目標画像内の各対象の対象情報を決定することができる。ここで、１つの対象の対象情報は、前記対象の中心点情報及び前記対象の中心点に対応する対象タイプ情報を含む。その後、決定された各対象の対象情報に基づいて、前記目標画像内の子供を決定する。

上記の対象タイプ情報は、子供タイプ、後部座席タイプ、チャイルドシートタイプ、成人タイプなどを含み得、中心点情報は、対応する対象の中心点の位置情報を含み得る。そうすると、実施するとき、決定された中心点に対応する対象タイプ情報を用いて、目標画像内の各対象から子供を選別した後、子供に属する中心点情報を用いて子供の位置情報を決定することができる。

このステップでは、対象の中心点及び中心点に対応する対象タイプ情報を認識及び決定することにより、目標画像内の子供を正確に決定することができ、画像内の子供認識の精度を向上させることができる。

ステップＳ１３０において、前記子供の位置情報に基づいて、前記子供がキャビン内の後部座席にいるかどうかを決定する。

ここで、子供がキャビン内の後部座席にいるかどうかを判断する前に、先ず、目標画像内の後部座席を認識し、後部座席の位置情報を決定する必要がある。

目標画像内の後部座席を認識し、後部座席の位置情報を決定する方法は、目標画像内の子供を認識し、子供の位置情報を決定する上記の方法と同じである。つまり、前記方式は、決定された中心点に対応する対象タイプ情報を用いて、目標画像内の各対象から後部座席を選別した後、後部座席に属する中心点情報を用いて後部座席の位置情報を決定することであってもよい。

子供の位置情報及び後部座席の位置情報を決定した後、当該２つの位置情報を用いて、子供がキャビン内の後部座席にいるかどうかを決定することができる。

ステップＳ１４０において、前記子供がキャビン内の後部座席にいない場合、警告を発する。

ここで、上記の判断により、子供が後部座席にいないと決定した場合、子供の乗車状態が不安全であると決定し、この場合、運転者や他の乗客に警報を発して、キャビン内の子供の位置を調整するようにすることにより、乗車中の子供の安全性を向上させる。

乗車中の子供の安全性をさらに向上させるために、子供は、後部座席だけでなく、チャイルドシートにもいる必要があり、したがって、上記の子供状態検出方法は、
前記子供の位置情報及び前記目標画像内のチャイルドシートの位置情報に基づいて、前記子供がチャイルドシートにいるかどうかを決定することと、前記子供がチャイルドシートにいない場合、前記キャビンの移動速度がプリセットされた値より大きいことに応答して、警告を発することと、を更に含み得る。

上記のステップを実行する前に、先ず、目標画像内のチャイルドシートを認識する必要があり、キャビン内にチャイルドシートがある場合、チャイルドシートの位置情報を決定する。

目標画像内のチャイルドシートを認識し、チャイルドシートの位置情報を決定する方法は、目標画像内の子供を認識し、子供の位置情報を決定する上記の方法と同じである。つまり、前記方式は、決定された中心点に対応する対象タイプ情報を用いて、目標画像内の各対象からチャイルドシートを選別した後、チャイルドシートに属する中心点情報を用いてチャイルドシートの位置情報を決定することであってもよい。

子供の位置情報及びチャイルドシートの位置情報を決定した後、当該２つの位置情報を用いて、子供がキャビン内のチャイルドシートにいるかどうかを決定することができる。

認識により、キャビン内にチャイルドシートがないと決定し、キャビン内にチャイルドシートがないと決定した場合、前記キャビンの移動速度がプリセットされた値より大きいことに応答して、警告を発する。このようにして、子供が車に乗っているシナリオでは、キャビン内にチャイルドシートがない場合、警告を時間内に発して、乗車中の子供の安全性を向上させることができる。

上記において、子供がチャイルドシートに位置せず、キャビンの移動速度がプリセットされた値より大きい場合、警告を発することにより、乗車中の子供の安全状態認識の精度を更に向上させ、乗車中の子供の安全性を向上させる。

上記の実施例によれば、対象情報に従って、子供、後部座席、及びチャイルドシートなどに対して認識及び位置決めを実行することができる。上記の対象は、顔、体、後部座席、チャイルドシートなどであってもよい。

そうすると、図２に示されたように、いくつかの実施例において、次のステップにより、目標画像内の各対象の対象情報を決定することができる。

ステップＳ２１０において、前記目標画像に対して特徴抽出を実行して、前記目標画像に対応する第１特徴マップを取得する。

ここで、先ず、目標画像を１つのニューラルネットワークに入力して画像特徴抽出を実行することができ、例えば、目標画像をバックボーンネットワーク（ｂａｃｋｂｏｎｅ）というニューラルネットワークに入力して画像特徴抽出を実行することにより、１つの初期特徴マップを取得することができる。その後、当該初期特徴マップを、対象情報を抽出するためのニューラルネットワークに入力して、上記の第１特徴マップを取得する。

実施する場合、上記の目標画像は、６４０＊４８０ピクセルのサイズの画像であってもよく、ｂａｃｋｂｏｎｅ処理後、８０＊６０＊Ｃの初期特徴マップを取得することができる。ここで、Ｃは、チャネルの数を表す。対象情報を抽出するためのニューラルネットワークを介して初期特徴マップを処理した後、８０＊６０＊３の第１特徴マップを取得することができる。

ステップＳ２２０において、前記第１特徴マップの第１プリセットされたチャネルから、前記第１特徴マップの各特徴点を対象の中心点の応答値として取得する。

ここで、第１プリセットされたチャネルは、第１特徴マップにおける第０チャネルであってもよく、当該チャネルは、対象の中心点のチャネルであり、当該チャネル内の応答値は、各特徴点が対象の中心点として使用される可能性を表すことができる。

第１プリセットされたチャネル内の各特徴点に対応する応答値を取得した後、ｓｉｇｍｏｉｄ活性化関数を介して、これらの応答値を０～１に転換することができる。

ステップＳ２３０において、前記第１特徴マップを複数のサブ領域に分割し、各サブ領域の最大の応答値及び最大の応答値に対応する特徴点を決定する。

ここで、特徴マップに対して、３＊３のステップ幅が１である最大プーリング化（ｍａｘｐｏｏｌｉｎｇ）操作を実行して、３＊３内の最大応答値及び第１特徴マップにおけるその位置インデックスを取得することができる。つまり、６０＊８０個の最大の応答値及びそれに対応する位置インデックスを取得することができる。

その後、同じ位置インデックスを合併して、Ｎ個の最大の応答値、各最大の応答値に対応する位置インデックス、及び各最大の応答値に対応する特徴点を取得することもできる。

ステップＳ２４０において、最大の応答値がプリセットされた閾値より大きい目標特徴点を対象の中心点として使用し、第１特徴マップにおける前記目標特徴点の位置インデックスに基づいて、対象の中心点の位置情報を決定する。

ここで、閾値ｔｈｒｄを事前に設定し、最大の応答値がｔｈｒｄより大きい場合、当該特徴点が対象の中心点であると判定することができる。

このように、特徴マップ内の応答値に対して最大プーリング処理を実行することにより、局部範囲において対象である可能性が最も高い対象の中心点の特徴点を見つけることができ、それにより、決定された中心点の精度を効果的に向上させることができる。

上記では、対象の中心点及び中心点の位置情報を中心点情報として使用する。いくつかの実施例において、中心点情報は、対象の中心点の長さ情報及び幅情報を更に含む。この場合、次のステップにより、中心点の長さ情報及び幅情報を決定することができる。

前記第１特徴マップの第２プリセットされたチャネルの、前記目標特徴点の位置インデックスに対応する位置から、前記目標特徴点に対応する対象の中心点の長さ情報を取得する。前記第１特徴マップの第３プリセットされたチャネルの、前記目標特徴点の位置インデックスに対応する位置から、前記目標特徴点に対応する対象の中心点の幅情報を取得する。

上記の第２プリセットされたチャネルは、第１特徴マップにおける第１チャネルであってもよく、第３プリセットされたチャネルは、第１特徴マップにおける第２チャネルであってもよい。上記のステップでは、第１特徴マップにおける第１チャネルの、中心点に対応する位置から、中心点の長さ情報を取得し、第１特徴マップにおける第２チャネルの、中心点に対応する位置から、中心点の幅情報を取得する。

対象の中心点を決定した後、中心点の位置インデックスを用いて、特徴マップのプリセットされた他のチャネルから、対象の中心点の長さ情報及び幅情報を正確に取得することができる。

対象は顔、体、後部座席、チャイルドシートなどであり得るため、実施するとき、異なるニューラルネットワークを用いて異なる対象に対応する第１特徴マップを決定した後、異なる第１特徴マップに基づいて異なる対象の中心点、各中心点の位置情報、各中心点の長さ情報及び各中心点の幅情報を決定する必要がある。

上記の説明から分かるように、対象情報は、対象の中心点に対応する対象タイプ情報を含み、いくつかの実施例において、図３に示されたように、次のステップにより対象タイプ情報を決定することができる。

ステップＳ３１０において、前記目標画像に対して特徴抽出を実行して、前記目標画像に対応する第２特徴マップを取得する。

ここで、目標画像を１つのニューラルネットワークに入力して画像特徴抽出を実行することができ、例えば、目標画像をｂａｃｋｂｏｎｅニューラルネットワークに入力して画像特徴抽出を実行して、１つの初期特徴マップを取得し、その後、当該初期特徴マップを、対象タイプ認識用のニューラルネットワークに入力して処理して、第２特徴マップを取得し、当該第２特徴マップに基づいて、各対象の中心点に対応する対象タイプ情報を決定することができる。上記の第２特徴マップは、１つの８０＊６０＊２の特徴マップであってもよい。

子供を認識する適用シナリオでは、第２特徴マップの各特徴点は、１つの２次元の特徴ベクトルに対応し、対象の中心点に対応する上記の第２特徴マップの特徴点の２次元の特徴ベクトルに対して分類処理を実行して、分類結果を取得することができ、１つの分類結果が子供を表し、もう１つの分類結果がその他を表す場合、上記の分類結果に基づいて中心点に対応する対象タイプ情報が子供であるかどうかを決定することができる。子供を認識する適用シナリオでは、上記の対象は体又は顔であってもよい。

チャイルドシートを認識する適用シナリオでは、第２特徴マップの各特徴点は、１つの２次元の特徴ベクトルに対応し、対象の中心点に対応する上記の第２特徴マップの特徴点の２次元の特徴ベクトルに対して分類処理を実行して、分類結果を取得することができ、１つの分類結果がチャイルドシートを表し、もう１つの分類結果が他を表す場合、上記の分類結果に基づいて中心点に対応する対象タイプ情報がチャイルドシートであるかどうかを決定することができる。

もちろん、同じ方法で、後部座席を認識することもできる。

対象は、顔、体、後部座席、チャイルドシートなどであり得るため、実施するとき、異なるニューラルネットワークを用いて異なる対象に対応する第２特徴マップを決定した後、異なる第２特徴マップに基づいて異なる対象の対象タイプ情報を決定する必要がある。

ステップＳ３２０において、第１特徴マップにおける前記目標特徴点の位置インデックスに基づいて、前記第２特徴マップにおける前記目標特徴点の位置インデックスを決定する。

ここで、目標特徴点は、対象の中心点である。目標特徴点は、プリセットされた閾値より大きい、最大の応答値に対応する特徴点である。

ステップＳ３３０において、前記第２特徴マップにおける前記目標特徴点の位置インデックスに対応する位置から、前記目標特徴点に対応する対象タイプ情報を取得する。

対象の中心点を決定した後、中心点の位置インデックスを用いて、対象の中心点に対応する対象タイプ情報を正確に取得することができる。

子供を認識する適用シナリオでは、各対象の中心点に対応する対象タイプ情報を決定した後、次のステップにより、目標画像内の子供を認識することができる。

ステップ１において、各体の中心点に対応する位置オフセット情報に基づいて、各体とマッチングする顔の中心点の予測位置情報をそれぞれ決定し、同一人に属する体と顔は互いにマッチングする。

このステップを実行する前に、先ず、各体の中心点及び同一人に属する顔の中心点の位置オフセット情報を決定する必要があり、その後、位置オフセット情報を用いて予測位置情報を決定する。

上記の位置オフセット情報を決定する場合、先ず、目標画像を１つのニューラルネットワークに入力して画像特徴抽出を実行し、例えば、目標画像をｂａｃｋｂｏｎｅニューラルネットワークに入力して画像特徴抽出を実行することにより、１つの初期特徴マップを取得することができる。その後、上記の位置オフセット情報を決定するためのニューラルネットワークに当該初期特徴マップを入力して、１つの特徴マップを取得し、当該特徴マップに基づいて、各体の中心点に対応する位置オフセット情報を決定することができる。

実施するとき、上記の位置オフセット情報を決定するためのニューラルネットワークを介して初期特徴マップを処理した後、１つの８０＊６０＊２の特徴マップを取得することができる。

ステップ２において、決定された予測位置情報及び各顔の中心点の位置情報に基づいて、各体とマッチングする顔を決定する。

ここで、予測位置情報に対応する位置に最も近い中心点の位置に対応する顔を、体とマッチングする顔として使用する。

ステップ３において、マッチングに成功した体と顔について、マッチングに成功した体の中心点に対応する対象タイプ情報及び顔の中心点に対応する対象タイプ情報を用いて、前記マッチングに成功した体と顔が属する人が子供であるかどうかを決定する。

ここで、マッチングに成功した体の中心点に対応する対象タイプ情報が、対応する体が属する人が子供であることを指示するか、又は顔の中心点に対応する対象タイプ情報が、対応する顔が属する人が子供であることを指示する場合、当該マッチングに成功した体と顔が属する人は子供であると決定する。

上記によれば、体の中心点に対応する位置オフセット情報を用いて、各体とマッチングする顔の中心点の予測位置情報を決定することができ、予測位置情報を用いて、各体とマッチングする顔を決定することができる。マッチングに成功した体と顔を用いて子供を認識し、これにより、認識の精度を向上させることができる。

ブロックされることなどの原因により、マッチングに成功しない体又は顔がある可能性があり、この場合、マッチングに成功しなかった体について、前記体の中心点に対応する対象タイプ情報を用いて前記体の中心点が属する人が子供であるかどうかを決定する。当該体の中心点に対応する対象タイプ情報が子供であることを指示する場合、当該体が属する人が子供であると決定する。

マッチングに成功しなかった顔について、前記顔の中心点に対応する対象タイプ情報を用いて前記顔の中心点が属する人が子供であるかどうかを決定する。当該顔の中心点に対応する対象タイプ情報が子供であることを指示する場合、当該顔が属する人が子供であると決定する。

マッチングに成功しなかった体又は顔について、それ自体の中心点に対応する対象タイプ情報を用いて、子供を正確に認識することができる。

乗車中の子供の安全性を向上させながら、子供の状態特徴情報を認識し、状態特徴情報に基づいて、前記キャビン内のキャビン環境を調整することにより、子供のためにより快適で安全な乗車環境を提供することができる。

上記の状態特徴情報は、睡眠状態特徴情報、気分状態特徴情報などを含み得る。ここで、気分状態特徴情報は、嬉しい、泣き、落ち着きなどを含み得る。

上記の状態特徴情報を決定した後、前記キャビン内のキャビン環境を調整することは、前記状態特徴情報が、子供が睡眠状態にあることを指示する場合、ライトを柔らかな状態に調整したり、子守唄を再生したりすること、前記状態特徴情報が、前記子供が嬉しいという気分状態にあることを指示する場合、再生する音楽のタイプを陽気な音楽に設定すること、前記状態特徴情報が、前記子供が泣いているという気分状態にあることを指示する場合、再生する音楽のタイプをなだめる音楽に設定することであってもよい。

いくつかの実施例において、次のステップにより、子供が睡眠状態にいるかどうかを決定することができる。

ステップ１において、前記目標画像から子供の顔サブ画像を抽出する。

ここで、以上の実施例で決定された顔の中心点及び顔の中心点の長さ情報と幅情報を用いて、目標画像から子供の顔サブ画像を抽出することができる。

顔サブ画像を利用することにより、睡眠状態を認識するための画像のサイズとピクセルの数を減らすことができ、つまり、睡眠状態認識を実行するためのデータ処理量を減らし、睡眠状態認識の効率を向上させることができる。

ステップ２において、前記顔サブ画像に基づいて、子供の左目の開閉状態情報及び右目の開閉状態情報を決定する。

ここで、左目の開閉状態情報は、左目が見えないこと、左目が見えかつ開いていること、左目が見えかつ閉じていることを含む。右目の開閉状態情報は、右目が見えないこと、右目が見えかつ開いていること、右目が見えかつ閉じていることを含む。

実施するとき、顔サブ画像をトレーニング済みのニューラルネットワークに入力して、当該ニューラルネットワークによって処理されることにより、９つの左目と右目の状態情報を出力することができる。

上記のニューラルネットワークは、２つの全結合層で構成され、当該ニューラルネットワークの入力は、顔サブ画像に対して画像特徴抽出を実行することによって取得された特徴マップである。最初の全結合層は、入力した特徴マップをＫ４次元の特徴ベクトルに変換し、２番目の全結合層は、Ｋ４次元の特徴ベクトルを９次元のベクトルに変換して出力し、その後、分類ｓｏｆｔｍａｘ処理を実行して、ｓｏｆｔｍａｘによって出力されたスコアが最大の次元に対応する状態情報は、最終の予測状態情報である。

ステップ３において、子供の左目の開閉状態情報及び右目の開閉状態情報に基づいて、子供の睡眠状態特徴情報を決定する。

ここで、上記のステップ３は、
連続する複数のフレームの前記目標画像に対応する左目の開閉状態情報及び右目の開閉状態情報に基づいて、前記子供が目を閉じた累積持続時間を決定することと、前記目を閉じた累積持続時間がプリセットされた閾値より大きい場合、前記睡眠状態特徴情報が睡眠状態であると決定することと、前記目を閉じた累積持続時間がプリセットされた閾値より小さいか等しい場合、前記睡眠状態特徴情報が非睡眠状態であると決定することと、を含み得る。

このように、子供の左目と右目の開閉状態情報に基づいて、子供の目を閉じた累積持続時間を決定し、子供の目を閉じた累積持続時間とプリセットされた閾値との関係を用いて、子供が睡眠状態にいるかどうかを正確に決定することができる。

上記の説明から分かるように、状態特徴情報は、子供の気分状態特徴情報を更に含み、図４に示されたように、次のステップにより前記子供の気分状態特徴情報を認識することができる。

ステップＳ４１０において、前記目標画像から子供の顔サブ画像を抽出する。

顔サブ画像を利用することにより、気分状態を認識するための画像のサイズとピクセルの数を減らすことができ、つまり、気分状態認識を実行するためのデータ処理量を減らし、気分状態認識の効率を向上させることができる。

ステップＳ４２０において、前記顔サブ画像によって表される顔の少なくとも２つの器官の各器官の動作を認識する。

ここで、顔の器官の動作は、顔をしかめること、目を大きく開くこと、口角を上げること、上唇を上げること、口角を下げること、及び口を開くことを含み得る。

顔サブ画像をトレーニング済みのニューラルネットワークに入力して顔の器官の動作認識を実行する前に、ニューラルネットワークが動作認識を実行する効率や精度を向上させるために、一可能な実施形態において、先ず、顔サブ画像に対して画像前処理を実行して、処理後の顔サブ画像を取得することもでき、ここで、前記画像前処理は、顔サブ画像に対してキー情報強調処理を実行するために使用され、その後、処理後の顔サブ画像をトレーニング済みのニューラルネットワークに入力して動作認識を実行する。

ステップＳ４３０において、認識された前記各器官の動作に基づいて、前記顔サブ画像によって表される顔の気分状態特徴情報を決定する。

ここで、気分状態特徴情報と顔の器官の動作との間には、一定の対応関係があり、例示的に、顔の器官の動作が口角を上げることである場合、対応する気分状態特徴情報が嬉しいであり、顔の器官の動作が目を大きく開く同時に口を開くことである場合、対応する気分状態特徴は驚きである。

実施プロセスにおいて、認識された顔の器官の動作に基づいて、顔の気分状態特徴情報を決定する場合、認識された顔の各器官の動作、及び事前に設定された動作と気分状態特徴情報との間の対応関係に基づいて、顔サブ画像によって表される顔の気分状態特徴情報を決定することができる。

上記のステップ４２０において、顔サブ画像に対して画像前処理を実行する場合、顔サブ画像内のキーポイントの位置情報を決定し、キーポイントの位置情報に基づいて、顔サブ画像に対してアフィン変換を実行して、顔サブ画像に対応する補正された画像を取得し、補正された画像に対して正規化処理を実行して、処理後の顔サブ画像を取得することができる。

顔サブ画像内のキーポイントは、例えば、眼角、口角、眉、眉の尻尾、鼻などを含み得る。実施中、顔サブ画像内のキーポイントは、必要に応じて設定でき、キーポイントの位置情報は、顔サブ画像におけるキーポイントの位置座標であってもよい。

キーポイントの位置情報に基づいて、顔サブ画像に対してアフィン変換を実行する場合、先ず、キーポイントの位置情報、及び事前に保存された目標キーポイントのプリセット位置情報に基づいて、変換行列を決定することができ、変換行列は、顔サブ画像内の各キーポイントの位置情報と、当該キーポイントとマッチングする目標キーポイントのプリセット位置情報との間の変換関係を表す。その後、変換行列に基づいて、顔サブ画像に対してアフィン変換を実行する。

キーポイントの位置情報、及び事前に保存された目標キーポイントのプリセット位置情報に基づいて、変換行列を決定する場合、次の式１で計算できる。

ここで、ｘ’、ｙ’は、事前に保存された目標キーポイントの横座標と縦座標を示し、ｘ、ｙは、キーポイントの横座標と縦座標を示し、

は変換行列を示す。

変換行列に基づいて、顔サブ画像に対してアフィン変換を実行する場合、先ず、顔サブ画像内の各ピクセルの座標を決定し、次に、顔サブ画像内の各ピクセルの座標を上記の式に取り込んで、各ピクセルに対応する変換後の座標を決定し、各ピクセルに対応する変換後の座標に基づいて、顔サブ画像に対応する補正後の画像を決定することができる。

顔サブ画像に対してアフィン変換を実行することにより、顔サブ画像のうちの異なる向きの顔サブ画像を正面向きの顔サブ画像に変換し、顔サブ画像に対応する補正後の画像に基づいて動作認識を実行することにより、動作認識の精度を向上させることができる。

キーポイントの位置情報に基づいて、顔サブ画像に対してアフィン変換を実行して、顔サブ画像に対応する補正後の画像を取得した後、更に、キーポイントの位置情報に基づいて、補正後の画像を切り取って、切り取られた画像を取得し、切り取られた画像を正規化処理することができる。

このように、先ず、顔の器官の動作を認識し、その後、認識された動作に基づいて、顔に対応する表情状態を決定し、顔の器官の動作と顔の表情状態との間の関係は客観的に存在するものであるため、この方式により、ユーザが顔サブ画像の表情状態を主観的に定義する必要がない。また、顔の器官の動作はいくつかの特定の顔特徴に焦点を合わせることができるため、顔サブ画像上の器官の動作を認識する精度は、表情姿勢を直接認識する精度と比較して大幅に向上できるため、本実施形態は、顔表情認識の精度を向上させることができる。

いくつかの実施例において、上記の顔サブ画像によって表される顔の少なくとも２つの器官の各器官の動作を認識するステップは、動作認識用のニューラルネットワークによって実行され、前記動作認識用のニューラルネットワークは、バックボーンネットワーク及び少なくとも２つの分類ブランチネットワークを含み、各分類ブランチネットワークは、顔の１つの器官の動作を認識するために使用される。

上記の前記顔サブ画像によって表される顔の少なくとも２つの器官の各器官の動作を認識することは、以下のステップを含み得る。

ステップ１において、バックボーンネットワークを用いて前記顔サブ画像に対して特徴抽出を実行して、前記顔サブ画像の特徴マップを取得する。

ステップ２において、各分類ブランチネットワークを用いて、前記顔サブ画像の特徴マップに従って動作認識をそれぞれ実行して、各分類ブランチネットワークによって認識できる動作の発生確率を取得する。

ステップ３において、発生確率がプリセットされた確率より大きい動作を前記顔サブ画像によって表される顔の器官の動作として決定する。

顔サブ画像によって表される顔が複数の器官の動作を含む場合、上記の方法により、顔サブ画像に対応する複数の器官の動作を同時に認識することができ、さらに、各分類ブランチネットワークを用いて、対応する器官の動作を認識する。各分類ブランチネットワークをトレーニングする場合、特定の器官の動作に対応する画像特徴に焦点を合わせるようにトレーニングすることができため、このようにして、トレーニングされた分類ブランチネットワークの認識精度をより高めることができ、それにより、気分状態認識を実行するときの精度を向上させることができる。

上記の子供状態検出方法に対応して、本発明は、子供状態検出装置を更に提供し、当該装置は、子供状態及び安全性を検出するための端末機器又はサーバに適用され、各モジュールは、上記の方法と同じ方法のステップを実現しかつ同じ有益な効果を得ることができるため、同じ部分については、本発明では繰り返して説明しない。

図５に示されたように、本発明に係る子供状態検出装置は、
キャビン内の目標画像を取得するように構成される画像取得モジュール５１０と、
前記目標画像内の子供を認識するように構成される子供認識モジュール５２０と、
前記子供の位置情報に基づいて、前記子供がキャビン内の後部座席にいるかどうかを決定するように構成される位置判定モジュール５３０と、
前記子供がキャビン内の後部座席にいない場合、警告を発するように構成される早期警告モジュール５４０と、を備える。

いくつかの実施例において、上記の位置判定モジュール５３０は更に、前記子供の位置情報及び前記目標画像内のチャイルドシートの位置情報に基づいて、前記子供がチャイルドシートにいるかどうかを決定するように構成され、
早期警告モジュール５４０は、前記子供がチャイルドシートにいない場合、前記キャビンの移動速度がプリセットされた値より大きいことに応答して、警告を発する。

いくつかの実施例において、前記子供状態検出装置は更に、前記目標画像内のチャイルドシートを認識するように構成されるチャイルドシート認識モジュール５２０を備え、
上述早期警告モジュール５４０は更に、キャビン内にチャイルドシートがないと決定した場合、前記キャビンの移動速度がプリセットされた値より大きいことに応答して、警告を発するように構成される。

いくつかの実施例において、上記の子供認識モジュール５２０は更に、
前記子供の状態特徴情報を認識し、
前記状態特徴情報に基づいて、前記キャビン内のキャビン環境を調整するように構成される。

いくつかの実施例において、前記子供認識モジュール５２０は、前記目標画像内の子供を認識するとき、
前記目標画像に基づいて、前記目標画像内の各対象の対象情報を決定し、ここで、１つの対象の対象情報は、前記対象の中心点情報及び前記対象の中心点に対応する対象タイプ情報を含み、
決定された各対象の対象情報に基づいて、前記目標画像内の子供を決定するように構成される。

いくつかの実施例において、前記子供認識モジュール５２０は、前記目標画像に基づいて、前記目標画像内の各対象の対象情報を決定するとき、
前記目標画像に対して特徴抽出を実行して、前記目標画像に対応する第１特徴マップを取得し、
前記第１特徴マップの第１プリセットされたチャネルから、前記第１特徴マップの各特徴点を対象の中心点の応答値として取得し、
前記第１特徴マップを複数のサブ領域に分割し、各サブ領域の最大の応答値及び最大の応答値に対応する特徴点を決定し、
最大の応答値がプリセットされた閾値より大きい目標特徴点を対象の中心点として使用し、第１特徴マップにおける前記目標特徴点の位置インデックスに基づいて、対象の中心点の位置情報を決定するように構成される。

いくつかの実施例において、前記対象の中心点情報は、対象の中心点の長さ情報及び幅情報を更に含み、前記子供認識モジュール５２０は更に、
前記第１特徴マップの第２プリセットされたチャネルの、前記目標特徴点の位置インデックスに対応する位置から、前記目標特徴点に対応する対象の中心点の長さ情報を取得し、
前記第１特徴マップ的第３プリセットされたチャネルの、前記目標特徴点の位置インデックスに対応する位置から、前記目標特徴点に対応する対象の中心点の幅情報を取得するように構成される。

いくつかの実施例において、前記子供認識モジュール５２０は更に、前記目標画像に基づいて、前記目標画像内の各対象の対象情報を決定するとき、
前記目標画像に対して特徴抽出を実行して、前記目標画像に対応する第２特徴マップを取得し、
第１特徴マップにおける前記目標特徴点の位置インデックスに基づいて、前記第２特徴マップにおける前記目標特徴点の位置インデックスを決定し、
前記第２特徴マップにおける前記目標特徴点の位置インデックスに対応する位置から、前記目標特徴点に対応する対象タイプ情報を取得するように構成される。

いくつかの実施例において、前記対象は顔及び体を含み、
前記子供認識モジュール５２０は、決定された各対象の対象情報に基づいて、前記目標画像内の子供を決定するとき、
各体の中心点に対応する位置オフセット情報に基づいて、各体とマッチングする顔の中心点の予測位置情報をそれぞれ決定することであって、同一人に属する体と顔は互いにマッチングし、
決定された予測位置情報及び各顔の中心点の位置情報に基づいて、各体とマッチングする顔を決定し、
マッチングに成功した体と顔について、マッチングに成功した体の中心点に対応する対象タイプ情報及び顔の中心点に対応する対象タイプ情報を用いて、前記マッチングに成功した体と顔が属する人が子供であるかどうかを決定するように構成される。

いくつかの実施例において、前記子供認識モジュール５２０は更に、
マッチングに成功しなかった体について、前記体の中心点に対応する対象タイプ情報を用いて前記体の中心点が属する人が子供であるかどうかを決定し、
マッチングに成功しなかった顔について、前記顔の中心点に対応する対象タイプ情報を用いて前記顔の中心点が属する人が子供であるかどうかを決定するように構成される。

いくつかの実施例において、前記状態特徴情報は、子供の睡眠状態特徴情報を含み、
前記子供認識モジュール５２０は、前記子供の状態特徴情報を認識するときに、
前記目標画像から子供の顔サブ画像を抽出し、
前記顔サブ画像に基づいて、子供の左目の開閉状態情報及び右目の開閉状態情報を決定し、
子供の左目の開閉状態情報及び右目の開閉状態情報に基づいて、子供の睡眠状態特徴情報を決定するように構成される。

いくつかの実施例において、前記子供認識モジュール５２０は、子供の左目の開閉状態情報及び右目の開閉状態情報に基づいて、子供の睡眠状態特徴情報を決定するときに、
連続する複数のフレームの前記目標画像に対応する左目の開閉状態情報及び右目の開閉状態情報に基づいて、前記子供が目を閉じた累積持続時間を決定し、
前記目を閉じた累積持続時間がプリセットされた閾値より大きい場合、前記睡眠状態特徴情報が睡眠状態であると決定し、
前記目を閉じた累積持続時間がプリセットされた閾値より小さいか等しい場合、前記睡眠状態特徴情報が非睡眠状態であると決定するように構成される。

いくつかの実施例において、前記状態特徴情報は、子供の気分状態特徴情報を含み、
前記子供認識モジュール５２０は、前記子供の状態特徴情報を認識するときに、
前記目標画像から子供の顔サブ画像を抽出し、
前記顔サブ画像によって表される顔の少なくとも２つの器官の各器官の動作を認識し、
認識された前記各器官の動作に基づいて、前記顔サブ画像によって表される顔の気分状態特徴情報を決定するように構成される。

いくつかの実施例において、顔の器官の動作は、
顔をしかめること、目を大きく開くこと、口角を上げること、上唇を上げること、口角を下げること、及び口を開くことを含む。

いくつかの実施例において、前記顔サブ画像によって表される顔の少なくとも２つの器官の各器官の動作を認識するステップは、動作認識用のニューラルネットワークによって実行され、前記動作認識用のニューラルネットワークは、バックボーンネットワーク及び少なくとも２つの分類ブランチネットワークを含み、各分類ブランチネットワークは、顔の１つの器官の動作を認識するために使用され、
前記顔サブ画像によって表される顔の少なくとも２つの器官の各器官の動作を認識することは、
バックボーンネットワークを用いて前記顔サブ画像に対して特徴抽出を実行して、前記顔サブ画像の特徴マップを取得することと、
各分類ブランチネットワークを用いて、前記顔サブ画像の特徴マップに従って動作認識をそれぞれ実行して、各分類ブランチネットワークによって認識できる動作の発生確率を取得することと、
発生確率がプリセットされた確率より大きい動作を前記顔サブ画像によって表される顔の器官の動作として決定することと、を含む。

本発明の実施例は、電子機器を開示し、図６に示されたように、電子機器は、プロセッサ６０１、メモリ６０２及びバス６０３を備え、前記メモリ６０２には、前記プロセッサ６０１によって実行可能な機械可読命令が記憶され、電子機器が動作するときに、前記プロセッサ６０１と前記メモリ６０２は、バス６０３を介して通信する。

前記機械可読命令が前記プロセッサ６０１によって実行されるときに、子供状態検出方法のステップを実行し、前記子供状態検出方法は、
キャビン内の目標画像を取得することと、
前記目標画像内の子供を認識することと、
前記子供の位置情報に基づいて、前記子供がキャビン内の後部座席にいるかどうかを決定することと、
前記子供がキャビン内の後部座席にいない場合、警告を発することと、を含む。

さらに、機械可読命令がプロセッサ６０１によって実行されるときに、上記の方法の任意の実施形態における方法を実行してもよく、ここでは繰り返して説明しない。

加えて、本発明の実施例は、コンピュータ可読記憶媒体を更に提供し、当該コンピュータ可読記憶媒体にはコンピュータプログラムが記憶され、当該コンピュータプログラムがプロセッサによって実行されるときに、上記の方法の実施例に記載の方法のステップを実行する。

本発明の実施例は、上記の方法及び装置に対応する、プログラムコードが記憶されているコンピュータプログラム製品を更に提供し、前記プログラムコードに含まれる命令は、上記の方法の実施例における方法のステップを実行するために使用でき、その実装については、方法の実施例を参照でき、ここでは繰り返して説明しない。

各実施例の上記の説明は、各実施例間の違いを強調する傾向があり、それらの同じまたは類似なところは互いに参照することができ、簡潔にするために、ここでは繰り返して説明しない。

当業者なら明確に理解できるが、説明の便宜上及び簡潔にするために、上記に説明されたシステム、装置の作業プロセスは、上記の方法の実施例における対応するプロセスを参照することができ、本発明では繰り返して説明しない。本発明で提供されたいくつかの実施例において、開示されたシステム、装置及び方法は、他の方式で実現できることを理解されたい。上記で説明された装置の実施例は例示的なものに過ぎず、例えば、前記モジュールの分割は、論理機能の分割に過ぎず、実際の実現では、他の分割方法があり、例えば、複数のモジュール又はコンポーネントを別のシステムに統合又は集積したり、又は一部の特徴を無視したり、又は実行しないことができる。なお、表示又は議論された相互結合又は直接結合又は通信接続は、電気的、機械的又は他の形態の一部の通信インターフェース、装置又はモジュールを介した間接的な結合又は通信接続であり得る。

前記分離部材として説明されたモジュールは、物理的に分離されている場合とされていない場合があり、ユニットとして表示された部材は、物理モジュールである場合もそうでない場合もあり、１箇所に配置される場合もあれば、複数のネットワークユニットに分散される場合もある。実際の必要に応じて、その中のユニットの一部又は全部を選択して本実施例の技術案の目的を実現することができる。

また、本発明の各実施例における各機能ユニットを１つの処理ユニットに統合してもよく、各ユニットを別々に１つのユニットとして使用してもよいし、２つ以上のユニットを１つのユニットに統合してもよい。

前記機能が、ソフトウェア機能ユニットの形で実現され、独立した製品として販売又は使用される場合、プロセッサによって実行可能な不揮発性コンピュータ読み取り可能な記憶媒体に記憶されることができる。このような理解に基づいて、本発明の技術的解決策の本質的な部分、すなわち、先行技術に貢献のある部分、又は前記技術的解決策の一部は、ソフトウェア製品の形で具現されることができ、当該コンピュータソフトウェア製品は、１つの記憶媒体に記憶され、コンピュータ機器（パーソナルコンピュータ、サーバ、又はネットワーク機器等であり得る）に、本開示の各実施例に記載の方法のステップの全部又は一部を実行させるためのいくつかの命令を含む。上記した記憶媒体は、Ｕディスク、モバイルハードディスク、ＲＯＭ、ＲＡＭ、磁気ディスクまたは光ディスクなどのプログラムコードを記憶することができる様々なメディアを含む。

上記の内容は、本発明の実施形態に過ぎず、本発明の保護範囲はこれに限定されない。当業者は、本発明に開示された技術的範囲内で容易に想到し得る変更又は置換は、すべて本開示の保護範囲内に含まれるべきである。したがって、本発明の保護範囲は、特許請求の範囲の保護範囲に従うものとする。

本発明は、キャビン内の子供及び子供位置を認識することにより、キャビン内の子供が後部座席にいるかどうかを判断し、子供が後部座席にいない場合、警告を発し、これにより、乗車中の子供の安全状態の認識の精度を向上させ、乗車中の子供の安全性を向上させるのに役に立つ。

本発明は、コンピュータプログラム製品を提供し、前記コンピュータプログラム製品はコンピュータ可読コードを含み、前記コンピュータ可読コードが電子機器によって実行されるときに、前記電子機器のプロセッサに、上記の１つまたは複数の実施例における方法を実行させる。
例えば、本願は以下の項目を提供する。
（項目１）
子供状態検出方法であって、
キャビン内の目標画像を取得することと、
前記目標画像内の子供を認識することと、
前記子供の位置情報に基づいて、前記子供がキャビン内の後部座席にいるかどうかを決定することと、
前記子供がキャビン内の後部座席にいない場合、警告を発することと、を含む、前記子供状態検出方法。
（項目２）
前記子供状態検出方法は、
前記子供の位置情報及び前記目標画像内のチャイルドシートの位置情報に基づいて、前記子供がチャイルドシートにいるかどうかを決定することと、
前記子供がチャイルドシートにいない場合、前記キャビンの移動速度がプリセットされた値より大きいことに応答して、警告を発することと、を更に含む、
項目１に記載の子供状態検出方法。
（項目３）
前記子供状態検出方法は、
前記目標画像内のチャイルドシートを認識することと、
キャビン内にチャイルドシートがないと決定した場合、前記キャビンの移動速度がプリセットされた値より大きいことに応答して、警告を発することと、を更に含む、
項目１に記載の子供状態検出方法。
（項目４）
前記目標画像内の子供を認識することは、
前記子供の状態特徴情報を認識することと、
前記状態特徴情報に基づいて、前記キャビン内のキャビン環境を調整することと、を更に含む、
項目１に記載の子供状態検出方法。
（項目５）
前記目標画像内の子供を認識することは、
前記目標画像に基づいて、前記目標画像内の各対象の対象情報を決定することであって、１つの対象の対象情報は、前記対象の中心点情報及び前記対象の中心点に対応する対象タイプ情報を含む、ことと、
決定された各対象の対象情報に基づいて、前記目標画像内の子供を決定することと、を含む、
項目１に記載の子供状態検出方法。
（項目６）
前記目標画像に基づいて、前記目標画像内の各対象の対象情報を決定することは、
前記目標画像に対して特徴抽出を実行して、前記目標画像に対応する第１特徴マップを取得することと、
前記第１特徴マップの第１プリセットされたチャネルから、前記第１特徴マップの各特徴点を対象の中心点の応答値として取得することと、
前記第１特徴マップを複数のサブ領域に分割し、各サブ領域の最大の応答値及び最大の応答値に対応する特徴点を決定することと、
最大の応答値がプリセットされた閾値より大きい目標特徴点を対象の中心点として使用し、第１特徴マップにおける前記目標特徴点の位置インデックスに基づいて、対象の中心点の位置情報を決定することと、を含む、
項目５に記載の子供状態検出方法。
（項目７）
前記対象の中心点情報は、対象の中心点の長さ情報及び幅情報を更に含み、前記目標画像に基づいて、前記目標画像内の各対象の対象情報を決定することは、
前記第１特徴マップの第２プリセットされたチャネルの、前記目標特徴点の位置インデックスに対応する位置から、前記目標特徴点に対応する対象の中心点の長さ情報を取得することと、
前記第１特徴マップ的第３プリセットされたチャネルの、前記目標特徴点の位置インデックスに対応する位置から、前記目標特徴点に対応する対象の中心点の幅情報を取得することと、を更に含む、
項目６に記載の子供状態検出方法。
（項目８）
前記目標画像に基づいて、前記目標画像内の各対象の対象情報を決定することは、
前記目標画像に対して特徴抽出を実行して、前記目標画像に対応する第２特徴マップを取得することと、
第１特徴マップにおける前記目標特徴点の位置インデックスに基づいて、前記第２特徴マップにおける前記目標特徴点の位置インデックスを決定することと、
前記第２特徴マップにおける前記目標特徴点の位置インデックスに対応する位置から、前記目標特徴点に対応する対象タイプ情報を取得することと、を更に含む、
項目６に記載の子供状態検出方法。
（項目９）
前記対象は顔及び体を含み、
前記決定された各対象の対象情報に基づいて、前記目標画像内の子供を決定することは、
各体の中心点に対応する位置オフセット情報に基づいて、各体とマッチングする顔の中心点の予測位置情報をそれぞれ決定することであって、同一人に属する体と顔は互いにマッチングする、ことと、
決定された予測位置情報及び各顔の中心点の位置情報に基づいて、各体とマッチングする顔を決定することと、
マッチングに成功した体と顔について、マッチングに成功した体の中心点に対応する対象タイプ情報及び顔の中心点に対応する対象タイプ情報を用いて、前記マッチングに成功した体と顔が属する人が子供であるかどうかを決定することと、を含む、
項目５ないし８のいずれか一項に記載の子供状態検出方法。
（項目１０）
前記子供状態検出方法は、
マッチングに成功しなかった体について、前記体の中心点に対応する対象タイプ情報を用いて前記体の中心点が属する人が子供であるかどうかを決定することと、
マッチングに成功しなかった顔について、前記顔の中心点に対応する対象タイプ情報を用いて前記顔の中心点が属する人が子供であるかどうかを決定することと、を更に含む、
項目９に記載の子供状態検出方法。
（項目１１）
前記状態特徴情報は、子供の睡眠状態特徴情報を含み、
前記子供の状態特徴情報を認識することは、
前記目標画像から子供の顔サブ画像を抽出することと、
前記顔サブ画像に基づいて、子供の左目の開閉状態情報及び右目の開閉状態情報を決定することと、
子供の左目の開閉状態情報及び右目の開閉状態情報に基づいて、子供の睡眠状態特徴情報を決定することと、を含む、
項目４に記載の子供状態検出方法。
（項目１２）
前記子供の左目の開閉状態情報及び右目の開閉状態情報に基づいて、子供の睡眠状態特徴情報を決定することは、
連続する複数のフレームの前記目標画像に対応する左目の開閉状態情報及び右目の開閉状態情報に基づいて、前記子供が目を閉じた累積持続時間を決定することと、
前記目を閉じた累積持続時間がプリセットされた閾値より大きい場合、前記睡眠状態特徴情報が睡眠状態であると決定することと、
前記目を閉じた累積持続時間がプリセットされた閾値より小さいか等しい場合、前記睡眠状態特徴情報が非睡眠状態であると決定することと、を含む、
項目１１に記載の子供状態検出方法。
（項目１３）
前記状態特徴情報は、子供の気分状態特徴情報を含み、
前記子供の状態特徴情報を認識することは、
前記目標画像から子供の顔サブ画像を抽出することと、
前記顔サブ画像によって表される顔上の少なくとも２つの器官の各器官の動作を認識することと、
認識された前記各器官の動作に基づいて、前記顔サブ画像によって表される顔上の気分状態特徴情報を決定することと、を含む、
項目４に記載の子供状態検出方法。
（項目１４）
顔上の器官の動作は、
顔をしかめること、目を大きく開くこと、口角を上げること、上唇を上げること、口角を下げること、及び口を開くことを含む。
項目１３に記載の子供状態検出方法。
（項目１５）
前記顔サブ画像によって表される顔上の少なくとも２つの器官の各器官の動作を認識するステップは、動作認識用のニューラルネットワークによって実行され、前記動作認識用のニューラルネットワークは、バックボーンネットワーク及び少なくとも２つの分類ブランチネットワークを含み、各分類ブランチネットワークは、顔上の１つの器官の動作を認識するために使用され、
前記顔サブ画像によって表される顔上の少なくとも２つの器官の各器官の動作を認識することは、
バックボーンネットワークを用いて前記顔サブ画像に対して特徴抽出を実行して、前記顔サブ画像の特徴マップを取得することと、
各分類ブランチネットワークを用いて、前記顔サブ画像の特徴マップに従って動作認識をそれぞれ実行して、各分類ブランチネットワークによって認識できる動作の発生確率を取得することと、
発生確率がプリセットされた確率より大きい動作を、前記顔サブ画像によって表される顔上の器官の動作として決定することと、を含む、
項目１１又は１２に記載の子供状態検出方法。
（項目１６）
子供状態検出装置であって、
キャビン内の目標画像を取得するように構成される画像取得モジュールと、
前記目標画像内の子供を認識するように構成される子供認識モジュールと、
前記子供の位置情報に基づいて、前記子供がキャビン内の後部座席にいるかどうかを決定するように構成される位置判定モジュールと、
前記子供がキャビン内の後部座席にいない場合、警告を発するように構成される早期警告モジュールと、を備える、前記子供状態検出装置。
（項目１７）
電子機器であって、
プロセッサ、記憶媒体及びバスを備え、前記記憶媒体には、前記プロセッサによって実行可能な機械可読命令が記憶され、電子機器が動作するときに、前記プロセッサと前記記憶媒体は、バスを介して通信し、前記プロセッサは、前記機械可読命令を実行することにより、項目１ないし１５のいずれか一項に記載の子供状態検出方法を実行する、前記電子機器。
（項目１８）
コンピュータプログラムが記憶されているコンピュータ可読記憶媒体であって、
前記コンピュータプログラムがプロセッサによって実行されるときに、項目１ないし１５のいずれか一項に記載の子供状態検出方法を実行する、前記コンピュータ可読記憶媒体。
（項目１９）
コンピュータ可読コードを含むコンピュータプログラム製品あって、
前記コンピュータ可読コードが電子機器で実行されるときに、前記電子機器のプロセッサに、項目１ないし１５のいずれか一項に記載の子供状態検出方法を実行させる、前記コンピュータプログラム製品。

Claims

子供状態検出方法であって、
キャビン内の目標画像を取得することと、
前記目標画像内の子供を認識することと、
前記子供の位置情報に基づいて、前記子供がキャビン内の後部座席にいるかどうかを決定することと、
前記子供がキャビン内の後部座席にいない場合、警告を発することと、を含む、前記子供状態検出方法。
前記子供状態検出方法は、
前記子供の位置情報及び前記目標画像内のチャイルドシートの位置情報に基づいて、前記子供がチャイルドシートにいるかどうかを決定することと、
前記子供がチャイルドシートにいない場合、前記キャビンの移動速度がプリセットされた値より大きいことに応答して、警告を発することと、を更に含む、
請求項１に記載の子供状態検出方法。
前記子供状態検出方法は、
前記目標画像内のチャイルドシートを認識することと、
キャビン内にチャイルドシートがないと決定した場合、前記キャビンの移動速度がプリセットされた値より大きいことに応答して、警告を発することと、を更に含む、
請求項１に記載の子供状態検出方法。
前記目標画像内の子供を認識することは、
前記子供の状態特徴情報を認識することと、
前記状態特徴情報に基づいて、前記キャビン内のキャビン環境を調整することと、を更に含む、
請求項１に記載の子供状態検出方法。
前記目標画像内の子供を認識することは、
前記目標画像に基づいて、前記目標画像内の各対象の対象情報を決定することであって、１つの対象の対象情報は、前記対象の中心点情報及び前記対象の中心点に対応する対象タイプ情報を含む、ことと、
決定された各対象の対象情報に基づいて、前記目標画像内の子供を決定することと、を含む、
請求項１に記載の子供状態検出方法。
前記目標画像に基づいて、前記目標画像内の各対象の対象情報を決定することは、
前記目標画像に対して特徴抽出を実行して、前記目標画像に対応する第１特徴マップを取得することと、
前記第１特徴マップの第１プリセットされたチャネルから、前記第１特徴マップの各特徴点を対象の中心点の応答値として取得することと、
前記第１特徴マップを複数のサブ領域に分割し、各サブ領域の最大の応答値及び最大の応答値に対応する特徴点を決定することと、
最大の応答値がプリセットされた閾値より大きい目標特徴点を対象の中心点として使用し、第１特徴マップにおける前記目標特徴点の位置インデックスに基づいて、対象の中心点の位置情報を決定することと、を含む、
請求項５に記載の子供状態検出方法。
前記対象の中心点情報は、対象の中心点の長さ情報及び幅情報を更に含み、前記目標画像に基づいて、前記目標画像内の各対象の対象情報を決定することは、
前記第１特徴マップの第２プリセットされたチャネルの、前記目標特徴点の位置インデックスに対応する位置から、前記目標特徴点に対応する対象の中心点の長さ情報を取得することと、
前記第１特徴マップ的第３プリセットされたチャネルの、前記目標特徴点の位置インデックスに対応する位置から、前記目標特徴点に対応する対象の中心点の幅情報を取得することと、を更に含む、
請求項６に記載の子供状態検出方法。
前記目標画像に基づいて、前記目標画像内の各対象の対象情報を決定することは、
前記目標画像に対して特徴抽出を実行して、前記目標画像に対応する第２特徴マップを取得することと、
第１特徴マップにおける前記目標特徴点の位置インデックスに基づいて、前記第２特徴マップにおける前記目標特徴点の位置インデックスを決定することと、
前記第２特徴マップにおける前記目標特徴点の位置インデックスに対応する位置から、前記目標特徴点に対応する対象タイプ情報を取得することと、を更に含む、
請求項６に記載の子供状態検出方法。
前記対象は顔及び体を含み、
前記決定された各対象の対象情報に基づいて、前記目標画像内の子供を決定することは、
各体の中心点に対応する位置オフセット情報に基づいて、各体とマッチングする顔の中心点の予測位置情報をそれぞれ決定することであって、同一人に属する体と顔は互いにマッチングする、ことと、
決定された予測位置情報及び各顔の中心点の位置情報に基づいて、各体とマッチングする顔を決定することと、
マッチングに成功した体と顔について、マッチングに成功した体の中心点に対応する対象タイプ情報及び顔の中心点に対応する対象タイプ情報を用いて、前記マッチングに成功した体と顔が属する人が子供であるかどうかを決定することと、を含む、
請求項５ないし８のいずれか一項に記載の子供状態検出方法。
前記子供状態検出方法は、
マッチングに成功しなかった体について、前記体の中心点に対応する対象タイプ情報を用いて前記体の中心点が属する人が子供であるかどうかを決定することと、
マッチングに成功しなかった顔について、前記顔の中心点に対応する対象タイプ情報を用いて前記顔の中心点が属する人が子供であるかどうかを決定することと、を更に含む、
請求項９に記載の子供状態検出方法。
前記状態特徴情報は、子供の睡眠状態特徴情報を含み、
前記子供の状態特徴情報を認識することは、
前記目標画像から子供の顔サブ画像を抽出することと、
前記顔サブ画像に基づいて、子供の左目の開閉状態情報及び右目の開閉状態情報を決定することと、
子供の左目の開閉状態情報及び右目の開閉状態情報に基づいて、子供の睡眠状態特徴情報を決定することと、を含む、
請求項４に記載の子供状態検出方法。
前記子供の左目の開閉状態情報及び右目の開閉状態情報に基づいて、子供の睡眠状態特徴情報を決定することは、
連続する複数のフレームの前記目標画像に対応する左目の開閉状態情報及び右目の開閉状態情報に基づいて、前記子供が目を閉じた累積持続時間を決定することと、
前記目を閉じた累積持続時間がプリセットされた閾値より大きい場合、前記睡眠状態特徴情報が睡眠状態であると決定することと、
前記目を閉じた累積持続時間がプリセットされた閾値より小さいか等しい場合、前記睡眠状態特徴情報が非睡眠状態であると決定することと、を含む、
請求項１１に記載の子供状態検出方法。
前記状態特徴情報は、子供の気分状態特徴情報を含み、
前記子供の状態特徴情報を認識することは、
前記目標画像から子供の顔サブ画像を抽出することと、
前記顔サブ画像によって表される顔上の少なくとも２つの器官の各器官の動作を認識することと、
認識された前記各器官の動作に基づいて、前記顔サブ画像によって表される顔上の気分状態特徴情報を決定することと、を含む、
請求項４に記載の子供状態検出方法。
顔上の器官の動作は、
顔をしかめること、目を大きく開くこと、口角を上げること、上唇を上げること、口角を下げること、及び口を開くことを含む。
請求項１３に記載の子供状態検出方法。
前記顔サブ画像によって表される顔上の少なくとも２つの器官の各器官の動作を認識するステップは、動作認識用のニューラルネットワークによって実行され、前記動作認識用のニューラルネットワークは、バックボーンネットワーク及び少なくとも２つの分類ブランチネットワークを含み、各分類ブランチネットワークは、顔上の１つの器官の動作を認識するために使用され、
前記顔サブ画像によって表される顔上の少なくとも２つの器官の各器官の動作を認識することは、
バックボーンネットワークを用いて前記顔サブ画像に対して特徴抽出を実行して、前記顔サブ画像の特徴マップを取得することと、
各分類ブランチネットワークを用いて、前記顔サブ画像の特徴マップに従って動作認識をそれぞれ実行して、各分類ブランチネットワークによって認識できる動作の発生確率を取得することと、
発生確率がプリセットされた確率より大きい動作を、前記顔サブ画像によって表される顔上の器官の動作として決定することと、を含む、
請求項１１又は１２に記載の子供状態検出方法。
子供状態検出装置であって、
キャビン内の目標画像を取得するように構成される画像取得モジュールと、
前記目標画像内の子供を認識するように構成される子供認識モジュールと、
前記子供の位置情報に基づいて、前記子供がキャビン内の後部座席にいるかどうかを決定するように構成される位置判定モジュールと、
前記子供がキャビン内の後部座席にいない場合、警告を発するように構成される早期警告モジュールと、を備える、前記子供状態検出装置。
電子機器であって、
プロセッサ、記憶媒体及びバスを備え、前記記憶媒体には、前記プロセッサによって実行可能な機械可読命令が記憶され、電子機器が動作するときに、前記プロセッサと前記記憶媒体は、バスを介して通信し、前記プロセッサは、前記機械可読命令を実行することにより、請求項１ないし１５のいずれか一項に記載の子供状態検出方法を実行する、前記電子機器。
コンピュータプログラムが記憶されているコンピュータ可読記憶媒体であって、
前記コンピュータプログラムがプロセッサによって実行されるときに、請求項１ないし１５のいずれか一項に記載の子供状態検出方法を実行する、前記コンピュータ可読記憶媒体。
コンピュータ可読コードを含むコンピュータプログラム製品あって、
前記コンピュータ可読コードが電子機器で実行されるときに、前記電子機器のプロセッサに、請求項１ないし１５のいずれか一項に記載の子供状態検出方法を実行させる、前記コンピュータプログラム製品。