JP7078803B2

JP7078803B2 - 顔写真に基づくリスク認識方法、装置、コンピュータ設備および記憶媒体

Info

Publication number: JP7078803B2
Application number: JP2021516611A
Authority: JP
Inventors: ▲藝▼▲飛▼ 胡; 国▲強▼ 徐; 寒邱
Original assignee: ワン・コネクト・スマート・テクノロジー・カンパニー・リミテッド・（シェンチェン）
Priority date: 2018-12-14
Filing date: 2019-11-26
Publication date: 2022-05-31
Anticipated expiration: 2039-11-26
Also published as: EP3896601A1; EP3896601A4; KR20210100602A; CN109711297A; WO2020119450A1; JP2022501729A; SG11202103323VA; PH12021551368A1

Description

関連出願への相互参照
本願は、２０１８年１２月１４日に提出された「顔写真に基づくリスク認識方法、装置、コンピュータ設備および記憶媒体」と題する中国発明出願第２０１８１１５３５３１２．７号に基づいており、その優先権を主張する。

本願は、知的意思決定の分野に関し、特に、顔写真に基づくリスク認識方法、装置、コンピュータ設備および記憶媒体に関する。

現在、通常、融資の面接審査過程では、顧客が質問に回答した時のビデオデータがリアルタイムで記録されており、ビデオデータ中の顧客の微表情をリスク認識モデルで分析することにより、顧客への資金供与のリスクがあるか否かを判断することができるが、面接審査過程では、過度の緊張などの行動により、顧客が手で顔を遮蔽することがあり、そのため、ビデオデータ中の微表情を認識してリスク認識モデルを分析することが不可能になり、分析結果が不正確になってしまう。

本願の実施例は、顔写真に基づくリスク認識方法、装置、コンピュータ設備および記憶媒体を提供することで、ビデオデータの分析中に、手が顔を遮蔽してしまうことによって引き起こされる不正確な認識の問題を解決する。

顔写真に基づくリスク認識方法であって、
顧客が予め設定された質問に回答した時のビデオデータを取得することと、
予め訓練された遮蔽認識モデルを用いて、前記ビデオデータに対して画像認識を実行することと、そのうち、認識結果には、手遮蔽のある顔画像と手遮蔽なし顔画像が含まれ、
各前記手遮蔽のある顔画像に対応する手による顔遮蔽位置を取得し、前記手遮蔽のある顔画像の全てに対応する手による顔遮蔽位置に基づいて、緊張程度認識結果を取得することと、
前記手遮蔽なし顔画像を予め訓練された安全判断モデルに入力し、リスクレベル認識結果を取得することと、
前記緊張程度認識結果と前記リスクレベル認識結果に基づき、リスク警告認識結果を決定し、前記リスク警告認識結果が第１の所定の閾値よりも大きい場合に、前記ビデオデータをリスク警告データとすることとのステップを実行する。

顔写真に基づくリスク認識装置であって、
顧客が予め設定された質問に回答した時のビデオデータを取得するためのビデオデータ取得モジュールと、
予め訓練された遮蔽認識モデルを用いて、前記ビデオデータに対して画像認識を実行するための画像認識モジュールと、そのうち、認識結果には、手遮蔽のある顔画像と手遮蔽なし顔画像が含まれ、
各前記手遮蔽のある顔画像に対応する手による顔遮蔽位置を取得し、前記手遮蔽のある顔画像の全てに対応する手による顔遮蔽位置に基づいて、緊張程度認識結果を取得するための第１の認識結果取得モジュールと、
前記手遮蔽なし顔画像を予め訓練された安全判断モデルに入力し、リスクレベル認識結果を取得するための第２の認識結果取得モジュールと、
前記緊張程度認識結果と前記リスクレベル認識結果に基づき、リスク警告認識結果を決定し、前記リスク警告認識結果が第１の所定の閾値よりも大きい場合に、前記ビデオデータをリスク警告データとするためのリスク判別モジュールと、を含む。

メモリ、プロセッサ、および前記メモリに記憶され、かつ前記プロセッサ上で実行可能なコンピュータ可読命令を含むコンピュータ設備であって、前記プロセッサは、前記コンピュータ可読命令を実行する時に、
顧客が予め設定された質問に回答した時のビデオデータを取得することと、
予め訓練された遮蔽認識モデルを用いて、前記ビデオデータに対して画像認識を実行することと、そのうち、認識結果には、手遮蔽のある顔画像と手遮蔽なし顔画像が含まれ、
各前記手遮蔽のある顔画像に対応する手による顔遮蔽位置を取得し、前記手遮蔽のある顔画像の全てに対応する手による顔遮蔽位置に基づいて、緊張程度認識結果を取得することと、
前記手遮蔽なし顔画像を予め訓練された安全判断モデルに入力し、リスクレベル認識結果を取得することと、
前記緊張程度認識結果と前記リスクレベル認識結果に基づき、リスク警告認識結果を決定し、前記リスク警告認識結果が第１の所定の閾値よりも大きい場合に、前記ビデオデータをリスク警告データとすることとのステップを実行する。

コンピュータ可読命令が記憶された1つ以上の可読記憶媒体であって、前記コンピュータ可読記憶媒体にはコンピュータ可読命令が記憶され、前記コンピュータ可読命令が1つ以上のプロセッサによって実行されると、前記1つ以上のプロセッサは、
顧客が予め設定された質問に回答した時のビデオデータを取得することと、
予め訓練された遮蔽認識モデルを用いて、前記ビデオデータに対して画像認識を実行することと、そのうち、認識結果には、手遮蔽のある顔画像と手遮蔽なし顔画像が含まれ、
各前記手遮蔽のある顔画像に対応する手による顔遮蔽位置を取得し、前記手遮蔽のある顔画像の全てに対応する手による顔遮蔽位置に基づいて、緊張程度認識結果を取得することと、
前記手遮蔽なし顔画像を予め訓練された安全判断モデルに入力し、リスクレベル認識結果を取得することと、
前記緊張程度認識結果と前記リスクレベル認識結果に基づき、リスク警告認識結果を決定し、前記リスク警告認識結果が第１の所定の閾値よりも大きい場合に、前記ビデオデータをリスク警告データとすることとのステップを実行する。

本願の1つ以上の実施例の詳細は、以下の添付図面および説明に示されている。本願の他の特徴および利点は、明細書、添付図面、および特許請求の範囲から明らかになる。

本願の実施例における技術的解決手段をより明確に説明するために、以下、本願の実施例の説明で使用される図面を簡単に紹介し、当然のことながら、以下の説明における図面は、本願のいくつかの実施例に過ぎず、当業者であれば、創造的労力を要することなく、これらの図面に基づく他の図面を得ることができる。

本願の一実施例における顔写真に基づくリスク認識方法の適用環境の概略図である。本願の一実施例における顔写真に基づくリスク認識方法のフローチャートである。本願の一実施例における顔写真に基づくリスク認識方法のフローチャートである。本願の一実施例における顔写真に基づくリスク認識方法のフローチャートである。本願の一実施例における顔写真に基づくリスク認識方法のフローチャートである。本願の一実施例における顔写真に基づくリスク認識方法のフローチャートである。本願の一実施例における顔写真に基づくリスク認識方法のフローチャートである。本願の一実施例における顔写真に基づくリスク認識装置の原理を示すブロック図である。本願の一実施例におけるコンピュータ設備の概略図である。

本願の実施例における図面と併せて、本願の実施例における技術的解決手段を以下に明確かつ完全に説明するが、説明された実施例は、本願の実施例の一部に過ぎず、その全てではないことは明らかである。本願の実施例に基づいて、当業者によって創造的労力なしに得られた他の全ての実施例は、本願の保護範囲に含まれる。

本願の実施例は、図１のような応用環境で適用可能な顔写真に基づくリスク認識方法を提供し、当該顔写真に基づくリスク認識方法は、クライアント側と通信的に接続されたサーバ側で適用される。サーバ側は、予め訓練された遮蔽認識モデルを用いて、面接審査中のビデオデータを分析し、ビデオデータにおける手遮蔽のある顔画像と手遮蔽なし顔画像を取得し、そして、手遮蔽のある顔画像と手遮蔽なし顔画像を分析し、それぞれ緊張程度認識結果とリスクレベル認識結果を取得し、かつ緊張程度認識結果とリスクレベル認識結果からリスク警告認識結果を決定し、これにより、リスク認識効率を向上させる。ここで、クライアント側は、様々なパーソナルコンピュータ、ラップトップ、スマートフォン、タブレットおよび携帯型ウェアラブルデバイスであってもよいが、これらに限定されない。サーバ側は、独立したサーバ側として実装されてもよいし、複数のサーバ側からなるサーバ側のクラスタとして実装されてもよい。

一実施例では、図２に示すように、顔写真に基づくリスク認識方法を提供し、当該方法が図１中のサーバ側に応用されることを例として説明すれば、具体的には、以下のステップを含む。

Ｓ１０：顧客が予め設定された質問に回答したビデオデータを取得する。

ここで、ビデオデータは、面接審査の過程で顧客が予め設定された質問に回答する時に録画したものである。当該ビデオデータは、少なくとも１フレームの認識対象画像を含み、当該認識対象画像は、面接審査の過程で顧客が予め設定された質問に回答する時の各フレームの画像であり、各フレームの認識対象画像から顧客が予め設定された質問に回答する時の微表情を収集する。

具体的には、サーバ側には、面接審査の過程で提出される質問（すなわち、予め設定された質問）が予め設定されており、ビデオ面接審査を行う際には、予め設定された質問が呼び出され、顧客は、予め設定された質問に基づいて回答することができ、かつ顧客が予め設定された質問に回答しているビデオデータがリアルタイムで取得される。理解されるように、顧客のプライバシー問題に対応するビデオデータ（例えば、プライバシー問題が「月給はいくらですか？」）のみを取得してもよく、非プライバシー問題とプライバシー問題に対応するビデオデータを取得してもよく、当該ビデオデータには、少なくとも１フレームの認識対象画像が含まれる。

Ｓ２０：予め訓練された遮蔽認識モデルを用いて、ビデオデータに対して画像認識を実行し、そのうち、認識結果には、手遮蔽のある顔画像と手遮蔽なし顔画像が含まれる。

ここで、遮蔽認識モデルは、大量の訓練画像データに基づいて分類訓練を予め行って得られる分類器である。理解されるように、予め訓練された訓練画像データは、手遮蔽訓練画像と手遮蔽なし訓練画像を含み、分類アルゴリズムによって手遮蔽訓練画像と手遮蔽なし訓練画像を訓練して遮蔽認識モデルを取得する。ここで、手遮蔽訓練画像は、遮蔽認識モデルを訓練するために予め収集された、手が顔の異なる位置を遮蔽する画像である。手遮蔽なし訓練画像は、遮蔽認識モデルを訓練するために予め収集された、手が顔を遮蔽しない画像の一部である。

具体的には、サーバ側は、ビデオデータを予め訓練された遮蔽認識モデルに入力し、遮蔽認識モデルによってビデオデータ中の認識対象画像の各フレームを認識し、認識対象画像を手遮蔽のある顔画像または手遮蔽なし顔画像として決定して、認識結果を取得し、認識結果には、手遮蔽のある顔画像と手遮蔽なし顔画像が含まれる。理解されるように、ビデオデータ中の認識対象画像の各フレームに対して、２値化処理などの処理を実行し、かつ認識対象画像に対応する顔領域を取得し、顔領域に対応する勾配ヒストグラム特徴を抽出し、認識対象画像の各フレームに対応する勾配ヒストグラム特徴を予め訓練された遮蔽認識モデルに入力し、当該遮蔽認識モデルによって当該勾配ヒストグラム特徴を分類し、かつ認識対象画像の各フレームに対応する認識確率値を判断し、所定の確率値よりも大きい場合、当該認識対象画像を手遮蔽のある顔画像とし、所定の確率値よりも小さい場合、当該認識対象画像を手遮蔽なし顔画像とする。ここで、認識確率値は、遮蔽認識モデルによって認識対象画像を認識し、当該認識画像が手遮蔽のある顔画像であるか否かを判断する確率値である。選択的に、所定の確率値は０．６であってもよく、遮蔽認識モデルによって認識対象画像の各フレームを認識し、ビデオデータ中の認識対象画像の各フレームを、手遮蔽のある顔画像または手遮蔽なし顔画像に分割し、それによって、続いて手遮蔽のある顔画像と手遮蔽なし顔画像をそれぞれ処理し、リスク認識効率を向上させる。

Ｓ３０：各手遮蔽のある顔画像に対応する手による顔遮蔽位置を取得し、手遮蔽のある顔画像の全てに対応する手による顔遮蔽位置に基づいて、緊張程度認識結果を取得する。

ここで、手による顔遮蔽位置は、顧客が手で顔を遮蔽する位置である。例えば、顧客は、手で顔の目、耳、口や鼻などの位置を遮蔽する。緊張程度認識結果は、手遮蔽のある顔画像の全てに対応する手による顔遮蔽位置に対応する認識結果である。ここで、緊張程度認識結果は、０～１の値を用いて表すことができ、値が大きいほど、その顧客の緊張程度が高く、逆に、値が小さいほど、その顧客の緊張程度が低くなる。

具体的には、サーバ側は、手遮蔽のある顔画像を取得した後、遮蔽認識モデルによって認識対象画像が手遮蔽のある顔画像であるか否かを認識することができ、ここで、遮蔽認識モデルを予め訓練する場合、遮蔽訓練画像中の顔部を、額、左目、右目、左頬、右頬、鼻、顎などの位置に予め分割し、かつ各位置に位置番号を付け、例えば、額に１、左目に２、．．．、鼻に６、顎に７を付けるため、遮蔽認識モデルによって、手が顔を遮蔽する位置の位置番号（すなわち、手による顔遮蔽位置）も取得することができる。ここで、各手遮蔽のある顔画像における手による顔遮蔽位置は少なくとも1つであり、遮蔽認識モデルによって各手遮蔽のある顔画像に対応する位置番号を出力し、各位置番号は、顔部の位置に対応し、位置番号によってデータベースを検索し、各手遮蔽のある顔画像に対応する手による顔遮蔽位置を取得する。その後、各手遮蔽のある顔画像に関しての全ての手による顔遮蔽位置に基づいて、緊張認識結果を取得する。本実施例では、サーバ側は、各手による顔遮蔽位置の遮蔽確率を算出し、最大遮蔽確率に対応する手遮蔽のある顔画像を緊張評価モデルに入力し、手による顔遮蔽位置の最大遮蔽確率に対応する緊張程度認識結果を取得し、その緊張程度認識結果の取得効率が高い。

さらに、遮蔽確率が高い手による顔遮蔽位置を、手遮蔽のある顔画像の全てに対応するキー遮蔽位置として取得し、キー遮蔽位置に基づいて緊張程度認識結果を決定し、リスク認識効率を向上させる。

Ｓ４０：手遮蔽なし顔画像を予め訓練された安全判断モデルに入力し、リスクレベル認識結果を取得する。

ここで、安全判断モデルは、顧客にリスクがあるか否かを認識するために予め訓練されたモデルであり、主にリスクが含まれる画像データとリスクが含まれない画像データを訓練することによって、得られた安全判断モデルである。リスクレベル認識結果は、安全判断モデルによって出力される、手遮蔽なし顔画像に対応する認識結果である。リスクレベル認識結果は、０～１の値を用いて表すことができ、値が大きいほど、その顧客に対応するリスクレベルが高く、逆に、値が小さいほど、その顧客に対応するリスクレベルが低くなる。

具体的には、サーバ側は、手遮蔽なし顔画像を取得した後、当該手遮蔽なし顔画像を予め訓練された安全判断モデルに入力し、安全判断モデルによって手遮蔽なし顔画像に対応するリスクレベルを出力する。理解されるように、先ず、全ての手遮蔽なし顔画像によって、キーフレーム画像を取得し、キーフレーム画像を予め訓練された安全判断モデルに入力し、安全判断モデルによってキーフレーム画像に対応する顔動作ユニットに対応する強度を判断し、かつ目標顔動作ユニットに対応する強度に基づいて分類し、キーフレーム画像に対応するリスク確率を出力し、当該リスク確率を手遮蔽なし顔画像の全てに対応するリスクレベル認識結果として使用する。リスクレベル認識結果が高いほど、当該顧客にリスクがある確率が高くなる。ここで、リスク確率は、安全判断モデルによってキーフレーム画像を認識し、当該キーフレーム画像がリスク画像であると判断する確率値である。なお、キーフレーム画像は、手遮蔽なし顔画像の各フレームに含まれる顔動作ユニット（ＡｃｔｉｏｎＵｎｉｔ、ＡＵ）の強度に応じて、全ての手遮蔽なし顔画像をクラスタリングし、クラスタリング中心に最も近い一部のスクリーニング対象画像を選択し、スクリーニング対象画像に含まれる顔動作ユニットの強度を予め設定された強度閾値と比較して、スクリーニング対象画像から、強度が予め設定された強度閾値よりも大きいスクリーニング対象画像を、キーフレームに対応する手遮蔽なし顔画像としてスクリーニングする。例えば、クラスタリング中心に対応するスクリーニング対象となる手遮蔽なし顔画像を選択し、スクリーニング対象となる手遮蔽なし顔画像によって指定された顔動作ユニットの強度が全て予め設定された強度閾値よりも大きい場合に、当該スクリーニング対象となる手遮蔽なし顔画像を、キーフレームに対応する手遮蔽なし顔画像として使用する。本実施例では、キーフレーム画像を予め訓練された安全判断モデルに入力し、リスクレベル認識結果を取得し、安全判断モデルによって認識対象画像を認識し、これにより、取得されたリスクレベル認識結果をより正確にする。

Ｓ５０：緊張程度認識結果とリスクレベル認識結果に基づき、リスク警告認識結果を決定し、リスク警告認識結果が第１の所定の閾値よりも大きい場合に、ビデオデータをリスク警告データとする。

ここで、リスク警告認識結果は、緊張程度認識結果とリスクレベル認識結果に基づいて決定された認識結果である。一実施形態では、サーバ側は、緊張程度認識結果に対応する総フレーム数、およびリスクレベル認識結果に対応する総フレーム数の大きさを判断することで認識結果を決定することができる。別の実施形態では、サーバ側は、予め設定された計算式に従って、緊張程度認識結果とリスクレベル認識結果を計算することで認識結果を決定することができる。

具体的には、サーバ側は、ビデオデータに対応する緊張程度認識結果とリスクレベル結果を取得した後、緊張程度認識結果とリスクレベル結果に基づき、対応するリスク警告認識結果を取得する。理解されるように、リスク警告認識結果は、緊張程度認識結果をリスク警告認識結果とするか、リスクレベル認識結果をリスク警告認識結果とするか、あるいは、緊張程度認識結果とリスクレベル認識結果とに重みを付け、緊張程度認識結果とリスクレベル認識結果に対して重み付け計算を行って、リスク警告認識結果を取得することができる。本実施例では、サーバ側は、リスク警告認識結果と第１の所定の閾値とを比較し、リスク警告認識結果が第１の所定の閾値よりも大きい場合に、ビデオデータをリスク警告データとし、リスク警告認識結果が第１の所定の閾値以下である場合に、当該ビデオデータをリスク警告データとしない。例えば、第１の所定の閾値が０．６であり、あるビデオデータに対応するリスク警告認識結果が０．７であり、リスク警告認識結果と所定の閾値とを比較し、当該リスク警告認識結果０．７が第１の所定の閾値０．６よりも大きいため、当該ビデオデータをリスク警告データとする。

ステップＳ１０－Ｓ５０では、顧客が予め設定された質問に回答した時のビデオデータを取得することで、続いてビデオデータに基づいてリスク認識を行う。予め訓練された遮蔽認識モデルを用いて、ビデオデータに対して画像認識を実行し、認識対象画像を手遮蔽のある顔画像または手遮蔽なし顔画像に分割し、認識対象画像の分類を実現し、それによって、続いて分類結果に基づいてそれぞれ処理し、リスク認識の精度を向上させるようになる。その後、各手遮蔽のある顔画像に対応する手による顔遮蔽位置を取得し、手遮蔽のある顔画像の全てに対応する手による顔遮蔽位置に基づいて、緊張程度認識結果を迅速に取得し、手遮蔽のある顔画像によるリスク認識を実現する。しかも、手遮蔽なし顔画像を予め訓練された安全判断モデルに入力することで、リスクレベル認識結果を迅速に取得し、取得過程が簡単で、手遮蔽なし顔画像によるリスク認識を実現する。最後に、緊張程度認識結果とリスクレベル認識結果に基づき、リスク警告認識結果を決定し、リスク警告認識結果が第１の所定の閾値よりも大きい場合に、ビデオデータをリスク警告データとし、ビデオデータへのリスク認識を実現する。ビデオデータにおける手遮蔽のある顔画像と手遮蔽なし顔画像に対してリスク認識をそれぞれ実行することで、リスク認識の精度を向上させる。

一実施例では、図３に示すように、ステップＳ２０の前、すなわち、予め訓練された遮蔽認識モデルを用いてビデオデータに対して画像認識を実行するステップの前に、顔写真に基づくリスク認識方法はさらに、以下のステップを含む。

Ｓ２０１：手遮蔽訓練画像と手遮蔽なし訓練画像を含む遮蔽訓練画像を取得する。

ここで、遮蔽訓練画像は、遮蔽認識モデルを訓練するための訓練画像であり、手遮蔽訓練画像と手遮蔽なし訓練画像を含む。

具体的には、予め収集された、手遮蔽訓練画像と手遮蔽なし訓練画像を含む約７２００００枚を、遮蔽訓練画像として使用する。手遮蔽訓練画像と手遮蔽なし訓練画像に属性ラベリングを行い、かつ各手遮蔽訓練画像に含まれる手による顔遮蔽位置に位置番号を付けて、遮蔽訓練画像を取得する。理解されるように、顔位置を予め分割して位置番号を付ける。例えば、顔を額、左目、右目、左頬、右頬、鼻や顎などの位置に分割し、分割した顔位置に従って、遮蔽訓練画像における各手遮蔽訓練画像中の遮蔽位置に位置番号を付ける。

Ｓ２０２：手遮蔽訓練画像と手遮蔽なし訓練画像を２値化画像に変換し、顔キーポイント認識アルゴリズムを用いて２値化画像の顔領域を決定する。

ここで、２値化（ＩｍａｇｅＢｉｎａｒｉｚａｔｉｏｎ）画像とは、画像上の画素点の階調値が０または２５５に設定される画像のことである。手遮蔽訓練画像と手遮蔽なし訓練画像を２値化画像に変換することにより、手遮蔽訓練画像と手遮蔽なし訓練画像のデータ量を減少することができ、それによって、手遮蔽訓練画像と手遮蔽なし訓練画像の輪郭を強調することができる。

具体的には、遮蔽訓練画像における手遮蔽訓練画像と手遮蔽なし訓練画像を２値化画像に変換し、かつ顔キーポイント認識アルゴリズムを用いて各２値化画像に対応する顔領域を決定する。ここで、顔キーポイント認識アルゴリズムは、ＣＬＮＦアルゴリズム＋ＬＮＦアルゴリズムを含むが、これらに限定されない。ＣＬＮＦ（ＣｏｎｓｔｒａｉｎｅｄＬｏｃａｌＮｅｕｒａｌＦｉｅｌｄ、制約付きローカルニューラルフィールド）とＬＮＦ（ｌｏｃａｌｎｅｕｒａｌｆｉｅｌｄ、ローカルニューラルフィールド）を組み合わせたｐａｔｃｈモデルは、フィッティングの過程で、元の均一な正則化ランドマーク平均シフト（ｒｅｇｕｌａｒｉｓｅｄｌａｎｄｍａｒｋｍｅａｎｓｈｉｆｔ、ＲＬＭＳ）の代わりに、不均一な正則化ランドマーク平均シフト方法を用いて人顔のフィッティングを実行し、フィッティングの速度がより速く、フィッティングの精度がより高く、顔領域をより正確に取得でき、ＣＬＮＦアルゴリズム＋ＬＮＦアルゴリズムにより、２値化画像の顔領域を取得することは、従来技術に属し、ここでは詳細に説明しない。

Ｓ２０３：顔領域に基づいて、顔領域に対応する勾配ヒストグラム特徴を取得する。

ここで、勾配ヒストグラム特徴（ＨｉｓｔｏｇｒａｍｏｆＯｒｉｅｎｔｅｄＧｒａｄｉｅｎｔ、ＨＯＧ特徴）は、コンピュータビジョンや画像処理で物体検出に用いられる特徴記述子であり、それは局所的な領域に亘る勾配ヒストグラムを計算して人体の特徴を構成し、人体のエッジを良好に記述することができる。ＨＯＧ特徴は、人体目標輪郭の境界情報だけでなく、人体輪郭の内部情報も抽出することができる。

具体的には、顔領域に対応する勾配ヒストグラム特徴を取得することは、以下のステップを含む。（１）先ず顔領域の画像を前処理し、前処理画像を取得する。例えば、顔領域に対してＧａｍｍａ補正を実行することで、顔領域の全体的な明るさを増減させ、その後の勾配ヒストグラム特徴（ＨＯＧ特徴）の抽出のために技術的なサポートを提供する。（２）顔領域を複数のセルユニットに分割する。例えば、ｎ×ｎ個の画素点は1つのセルユニットであり、隣接するセルユニットは大きなブロック（block）を形成することができ、例えば、h×h個のセルユニットは1つのブロックを形成し、ブロックの間は互いに重なってもよいし、重なっていなくてもよい。例えば、２１６*３０４の顔領域の場合、1つのセルユニットを８*８画素と仮定すると、２１６*３０４の顔領域を２７*３８個のセルユニットに分割することができ、もし２*２のセルユニットが1つのブロックを形成すれば、１４*１９個のブロックができる。（３）前処理された画像に対して勾配計算を実行し、各画素点の勾配方向と勾配振幅を取得する。具体的には、計算式

により勾配振幅を取得し、（ｘ、ｙ）を画素点とし、Ｇ(ｘ，ｙ)を画素点の勾配振幅とする。ここで、先ず、計算式Ｇ_ｘ(ｘ，ｙ)＝Ｉ(ｘ＋１，ｙ)－Ｉ(ｘ－１，ｙ)、Ｇ_ｙ(ｘ，ｙ)＝Ｉ(ｘ，ｙ＋１)－Ｉ(ｘ，ｙ－１)により、水平方向と垂直方向での画素点の勾配振幅を算出し、Ｇ_ｘ(ｘ，ｙ)は水平方向での画素点の勾配振幅であり、Ｇ_ｙ(ｘ，ｙ)は垂直方向での画素点の勾配振幅である。次に計算式

により、各画素点の勾配方向を計算し、ここで、θ(ｘ，ｙ)は勾配方向である。（４）各ユニット内の画素点の勾配方向範囲を複数の指定方向に等分し、画素点の勾配振幅および勾配方向に従って、各指定方向に対応する指定振幅を計算する。（５）各ユニットの全ての指定方向に対応する指定振幅を計算して当該ユニットの特徴ベクトルを形成する。（６）隣接する複数のユニットを1つのブロックに形成し、1つのブロック内の全てのユニットの特徴ベクトルを直列に接続し、当該ブロックの特徴ベクトルを形成する。（７）顔領域における全てのブロックの特徴ベクトルを直列に接続し、顔領域の特徴ベクトルを取得し、すなわち、顔領域に対応する勾配ヒストグラム特徴を取得する。

Ｓ２０４：主成分分析アルゴリズムを用いて、勾配ヒストグラム特徴に対して次元削減処理を実行し、目標勾配ヒストグラム特徴を取得する。

ここで、主成分分析（ＰｒｉｎｃｉｐａｌＣｏｍｐｏｎｅｎｔＡｎａｌｙｓｉｓ、ＰＣＡ）アルゴリズムは、最も一般的に使用されている線形次元削減法であり、その目的は、高次元のデータを、ある線形投影を介して低次元の空間にマッピングして表示し、かつ投影された次元におけるデータの最大分散を期待し、よって、より多くの元のデータ点の特性を保持しながら、より少ないデータ次元を使用することである。

具体的には、主成分分析アルゴリズムを用いて、勾配ヒストグラム特徴に対して次元削減処理を実行し、目標勾配ヒストグラム特徴を取得することは、以下のステップを含む。（１）勾配ヒストグラム特徴に基づいて、元の行列をXとして構築し、ここで、Ｘ_ｉ＝｛Ｘ_１,Ｘ_２,．．．．．．,Ｘ_ｎ｝,ｉ＝１,２．．．．．．ｎ、Ｘ_１は第１の特徴点行列（勾配ヒストグラムにおいて画素階調値で構成されるベクトルを１つの特徴点行列とする）であり、Ｘ_２は第２の特徴点行列であり、Ｘ_ｎは第ｎの特徴点行列であり、ｎは特徴点の総数である。（２）計算式

により共分散行列Ｃを取得し、次に、共分散行列Ｃの特徴分解を実行し、共分散行列Ｃに対応する特徴行列Ａ_ｉとＢ_ｉを取得し、ここで、Ｃは共分散行列（元の行列と特徴点行列の平均値から求められる）であり、

は特徴点行列の平均値（元の行列に対応する平均行列）であり、

（３）特徴行列Ａ_ｉとＢ_ｉを、特徴値の大きさに応じて降順にソートして、特徴行列Ａ_ｉとＢ_ｉの最初の１０次元ベクトルを目標勾配ヒストグラム特徴として取得する。

Ｓ２０５：ＳＶＭ分類アルゴリズムを用いて、目標勾配ヒストグラム特徴を訓練し、遮蔽認識モデルを取得する。

ここで、ＳＶＭ（サポートベクトルマシン、ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）とは、サポートベクトルマシンであり、一般的な判別方法である。機械学習の分野では、通常、パターン認識、分類、回帰分析に用いられる教師付き学習モデルである。

具体的には、ＳＶＭ分類アルゴリズムを用いて目標勾配ヒストグラム特徴を訓練して、遮蔽認識モデルを取得する。理解されるように、サポートベクトルマシン分類器のカーネル関数とサポートベクトルマシン分類器のペナルティパラメータを取得し、ここで、目標勾配ヒストグラム特徴は特徴ベクトルであり、以下の計算式によりラグランジュ乗数ａ_ｉ ^＊と決定閾値ｂを求め、計算式は

であり、

式中では、ｓ．ｔ．は数式中の制約条件の略称であり、miｎは制約条件の下で取られる代数方程式

の最小値であり、Ｋ(ｘ_ｉ,ｘ_ｊ)はサポートベクトルマシン分類器のカーネル関数であり、Ｃはサポートベクトルマシン分類器のペナルティパラメータであり、Ｃ＞０、ａ_ｉとラグランジュ乗数ａ_ｉ ^＊は共役関係であり、ｘ_ｉは遮蔽訓練画像の特徴ベクトルであり、ｌは遮蔽訓練画像の特徴ベクトルの（目標勾配ヒストグラム特徴に対応する）数であり、ｙ_ｉは遮蔽訓練画像のタグである。ここで、カーネル関数は、サポートベクトルマシン分類器を訓練する過程で入力された訓練サンプルの特徴ベクトルに対してカーネル関数演算を行うためのサポートベクトルマシン分類器中のカーネル関数であり、サポートベクトルマシン分類器のカーネル関数は、線形カーネル関数、多項式カーネル関数、ガウスカーネル関数、動径基底カーネル関数を含むが、これらに限定されなく、本実施例のサポートベクトルマシン分類器は線形分類可能であるため、好ましくは、本実施例ではサポートベクトルマシン分類器中のカーネル関数として線形カーネル関数を用い、従って、Ｋ(ｘ_ｉ,ｘ_ｊ)＝(ｘ_ｉ,ｘ_ｊ)、ｙ_ｉは遮蔽訓練画像のタグであり、サポートベクトルマシン分類器を用いた２値分類問題なので、ｙ_ｉは１または－１のいずれであり、手遮蔽訓練画像が正のサンプルであればｙ_ｉ＝１であり、手遮蔽なし訓練画像が負のサンプルであればｙ_ｉ＝－１である。ペナルティパラメータＣは、サポートベクトルマシン分類器を最適化するパラメータであり、決定された値である。理解されるように、適切なカーネル関数を用いて、適切なペナルティパラメータを設定し、計算式により遮蔽訓練画像の特徴ベクトルとカーネル関数に対してカーネル関数演算を行った後、最適問題を解いて、すなわち、ラグランジュ乗数ａ_ｉ ^＊の値を求め、カーネル関数演算後の結果

を最小にし、ａ_ｉ ^＊＝(ａ_１ ^＊,ａ_２ ^＊．．．ａ_ｌ ^＊)を得る。その後、開放区間（０，Ｃ）ａ_ｉ ^＊範囲内の成分ａ_１ ^＊,ａ_２ ^＊．．．ａ_ｌ ^＊を決定する。

に従ってb値を計算し、ラグランジュ乗数ａ_ｉ ^＊と決定閾値ｂに従って、

を用いて、サポートベクトルマシン分類器の臨界面ｇ(ｘ)を得て、かつ臨界面で遮蔽訓練画像を分類することで、モデルを頻繁に繰り返して訓練せずに遮蔽認識モデルを取得し、モデル訓練の効率を向上させる。ここで、臨界面とは、正のサンプルと負のサンプルを正確に分類し、かつ２種類のサンプルの距離を最大にする分類面である。

本実施例では、ＳＶＭ分類アルゴリズムを用いて目標勾配ヒストグラム特徴を訓練する時、さらに手遮蔽訓練画像における手による顔遮蔽位置を訓練し、位置により、対応する位置番号が異なり、同じ顔位置を遮蔽するものを分類し、分類が誤っている場合に、再訓練することで、その後、遮蔽認識モデルにより、認識対象画像が手による顔遮蔽位置画像であるか否かを判別し、かつ手が遮蔽する顔の位置の番号を取得することができ、位置番号と手による顔遮蔽位置との関係から、手による顔遮蔽位置を取得する。

ステップＳ２０１－Ｓ２０５では、遮蔽訓練画像を取得することで、その後、遮蔽訓練画像を訓練し、遮蔽認識モデルを取得する。手遮蔽訓練画像と手遮蔽なし訓練画像を２値化画像に変換し、顔キーポイント認識アルゴリズムを用いて２値化画像の顔領域を決定し、人顔キーポイントの取得を実現し、その後のモデル訓練に対して技術的サポートを提供する。顔領域に基づいて、顔領域に対応する勾配ヒストグラム特徴を取得して、人顔の特徴の提取を実現する。主成分分析アルゴリズムを用いて、勾配ヒストグラム特徴に対して次元削減処理を実行し、目標勾配ヒストグラム特徴を取得して次元削減処理を実現し、これにより、少ないデータ次元を使用して、多くの元の画像の特徴を保持し、遮蔽認識モデルの訓練に寄与する。ＳＶＭ分類アルゴリズムを用いて目標勾配ヒストグラム特徴を訓練して、遮蔽認識モデルを取得することで、その後、遮蔽認識モデルによって認識対象画像が手遮蔽のある顔画像であるか否かを決定する。ＣＬＮＦアルゴリズム＋ＬＮＦアルゴリズムによって顔領域をより正確に取得でき、かつ勾配ヒストグラム特徴で顔領域のエッジを記述し、かつ勾配ヒストグラム特徴に対して次元削減処理を実行し、その後の訓練の処理量を大幅に減少し、ＳＶＭ分類アルゴリズムによって次元削減された目標勾配ヒストグラム特徴量を訓練して、遮蔽認識モデルを取得し、その後の認識効率を向上させる。

一実施例では、図４に示すように、ステップＳ３０、すなわち、手遮蔽のある顔画像の全てに対応する手による顔遮蔽位置に基づいて、緊張程度認識結果を取得することは、具体的に、以下のステップを含む。

Ｓ３１：手遮蔽のある顔画像の全てに対応する手による顔遮蔽位置に基づいて、各手による顔遮蔽位置に対応する遮蔽確率を取得する。

ここで、遮蔽確率は、手による顔遮蔽位置に対応する確率である。

具体的には、サーバ側は、遮蔽認識モデルによってビデオデータにおける各手遮蔽のある顔画像を取得し、ここで、各手遮蔽のある顔画像には少なくとも１つの手による顔遮蔽位置が含まれる。各手遮蔽のある顔画像に基づいて、各手遮蔽のある顔画像に対応する手による顔遮蔽位置を取得し、各手遮蔽のある顔画像に対応する手による顔遮蔽位置に基づいて、確率の計算式により各手遮蔽のある顔画像における手による顔遮蔽位置に対応する遮蔽確率を取得する。ここで、確率の計算式は

であり、ｙは手による顔遮蔽位置に対応する遮蔽確率であり、ｘは各手による顔遮蔽位置に対応するフレーム数であり、ａはビデオデータにおける手遮蔽のある顔画像のフレーム数である。例えば、ビデオデータには、２０フレームの手遮蔽のある顔画像が含まれ、ここで、１０フレームは手による額の遮蔽であり、５フレームは手による鼻の遮蔽であり、５フレームは手による顎の遮蔽であり、確率の計算式により各手による顔遮蔽位置に対応する遮蔽確率を算出し、それぞれ５０％、２５％および２５％である。さらに、手遮蔽のある顔画像における対応する手による顔遮蔽位置が複数である場合に、各手遮蔽のある顔画像における手による顔遮蔽位置を決定し、確率の計算式により各手遮蔽のある顔画像における手による顔遮蔽位置に対応する遮蔽確率を取得する。例えば、ビデオデータには、２０フレームの手遮蔽のある顔画像が含まれ、ここで、１０フレームは手による額と右目の遮蔽であり、５フレームは手による鼻と顎の遮蔽であり、５フレームは手による顎の遮蔽であり、確率の計算式により、手による額と右目の遮蔽確率を５０％、手による鼻と顎の遮蔽確率を２５％、手による顎の遮蔽確率を２５％に算出する。

Ｓ３２：最大遮蔽確率の手遮蔽のある顔画像を、緊張評価モデルに入力し、最大遮蔽確率の手による顔遮蔽位置に対応する緊張程度を、緊張程度認識結果として取得する。

ここで、緊張評価モデルは、予め訓練して得られた参照基準であり、手による顔の遮蔽位置が異なると、対応する緊張程度も異なる。本実施例では、サーバ側は、緊張程度の異なる、手による顔遮蔽位置が含まれる緊張画像データを事前に取得し、かつ各緊張画像データに対応する緊張程度を標識し、分類アルゴリズムを用いて訓練し、例えば、ＳＶＭアルゴリズム，Ｋ－Ｍｅａｎｓアルゴリズムなどを用いて、緊張画像データを訓練し、訓練された緊張評価モデルを取得する。なお、訓練用の緊張画像データには、少なくとも1つの手による顔遮蔽位置が含まれ、すなわち、手が顔の異なる位置を遮蔽、または手が同時に顔の複数の位置を遮蔽する画像を緊張画像データとすることにより、その後、緊張評価モデルによって、手が顔の１位置を遮蔽する画像、または手が顔の複数の位置を遮蔽する画像を認識し、緊張程度を取得することができるようになる。

具体的には、サーバ側は、最大遮蔽確率の手による顔遮蔽位置に基づいて、当該手遮蔽のある顔画像を訓練された緊張評価モデルに入力し、緊張程度認識結果を取得し、当該緊張程度は０～１の値であってよく、値が大きいほど、顧客の緊張程度が高くなる。さらに、各手による顔遮蔽位置に対応する遮蔽確率に基づいて、最大遮蔽確率に対応する手による顔遮蔽位置に対応する手遮蔽のある顔画像を選択して緊張評価モデルに入力し、当該手による顔遮蔽位置に対応する緊張程度を取得する。ここで、最大遮蔽確率に対応する手による顔遮蔽位置が複数の手遮蔽のある顔画像である場合に、手による顔遮蔽位置が含まれる手遮蔽のある顔画像のいずれか１枚を任意に選択することができる。例えば、手が額を遮蔽する遮蔽確率は０．５であり、手が鼻を遮蔽する遮蔽確率は０．２５であり、手が顎を遮蔽する遮蔽確率は０．２５であり、最大遮蔽確率に対応する、手が額を遮蔽することが含まれる任意の手遮蔽のある顔画像を選択して緊張評価モデルに入力し、緊張評価モデルによって取得された、手が額を遮蔽することが含まれる手遮蔽のある顔画像に対応する緊張程度は０．７である場合に、手が額を遮蔽すると、顧客が比較的に緊張していることを示し、０．７を緊張程度認識結果とする。また、例えば、手が額と右目を遮蔽する遮蔽確率は０．５であり、手が鼻と顎を遮蔽する遮蔽確率は０．２５であり、手が顎を遮蔽する遮蔽確率は０．２５であり、最大遮蔽確率に対応する、手が額と右目を遮蔽することが含まれる手遮蔽のある顔画像を選択して緊張評価モデルに入力し、緊張評価モデルによって認識された、手が額と右目を遮蔽することが含まれる手遮蔽のある顔画像に対応する緊張程度は０．８である場合に、手が額と右目を遮蔽すると、顧客が非常に緊張していることを示し、０．８を緊張程度認識結果とする。

ステップＳ３１－Ｓ３２では、手遮蔽のある顔画像の全てに対応する手による顔遮蔽位置に基づいて、各手による顔遮蔽位置に対応する遮蔽確率を取得することにより、ビデオデータの中で顧客の手が顔のどの位置又は何箇所の位置を頻繁に遮蔽するかを決定し、最大遮蔽確率の手遮蔽のある顔画像を、緊張評価モデルに入力し、最大遮蔽確率の手遮蔽のある顔画像に対応する緊張程度を、緊張程度認識結果として取得することにより、顧客の手が遮蔽する顔の位置の最大遮蔽確率に対応する緊張程度を緊張程度認識結果とすることを実現し、顧客の手が誤って顔を遮蔽する状況が避けられる。

一実施例では、図５に示すように、ステップＳ４０では、手遮蔽なし顔画像を予め訓練された安全判断モデルに入力し、リスクレベル認識結果を取得することは、具体的に以下のステップを含む。

Ｓ４１：Ｋ－Ｍｅａｎｓアルゴリズムを用いて、手遮蔽なし顔画像に対してクラスタリング処理を実行し、キーフレームに対応する手遮蔽なし顔画像を決定する。

具体的には、融資の面接審査過程で顧客が複数の質問に回答する可能性があるため、プライバシー問題に対応するビデオデータを取得し、かつビデオデータにおける手遮蔽なし顔画像に対して微表情を分析して、リスクレベル認識結果を取得する。微表情は、１／２５～１／５秒程度しか持続しない非常に速い表情で、本当の感情を抑えたり隠したりしようとする時に見せる、自分でコントロールできない表情である。プライバシー問題に回答する顧客のビデオデータでは、通常、顧客の表情は無表情や一般的な表情であり、有用な情報は、それらの微小な表情にのみ表示されるので、Ｋ－Ｍｅａｎｓアルゴリズムを用いて手遮蔽なし顔画像の全てに対してクラスタリング処理を実行し、手遮蔽なし顔画像におけるキーフレームに対応する手遮蔽なし顔画像を取得し、リスク認識精度を向上させる。

具体的には、Ｋ－Ｍｅａｎｓアルゴリズムを用いて手遮蔽なし顔画像の全てに対してクラスタリング処理を実行し、手遮蔽なし顔画像におけるキーフレームに対応する手遮蔽なし顔画像を取得することは、具体的に以下のステップを含む。（１）手遮蔽なし顔画像の総数をｎ個のデータオブジェクト、クラスタリング数をｋとすると、ｎ個のデータオブジェクトの中から任意のk個のオブジェクトを初期クラスタリング中心として選択する。（２）各データオブジェクトから各中心までの距離を計算し、最小距離基準に従って分類する。（３）各クラスタ内の全てのオブジェクトの平均値（中心オブジェクト）に基づいて、サンプルセット内の各オブジェクトからこれらの中心オブジェクトまでの距離を計算し、ステップ（２）のように、再び分類する。（４）ステップ（２）とステップ（３）を、クラスタリング中心の変化がある所定の閾値よりも小さくなるまで繰り返し、演算を停止し、クラスタリング結果を取得し、クラスタリング結果はクラスタリング数とクラスタリング中心を含み、クラスタリング中心の手遮蔽なし顔画像をキーフレームに対応する手遮蔽なし顔画像として使用する。

さらに、各フレームの手遮蔽なし顔画像における顔動作ユニット（actioｎ uｎit）の強度に応じて、Ｋ－Ｍｅａｎｓクラスタリングアルゴリズムを用いて全ての手遮蔽なし顔画像を分類する。具体的には、微表情は、一連の顔動作ユニットからなり、顔動作ユニット番号マッピングテーブルを確立し、各動作ユニットは予め指定された番号で表される。例えば、驚いた表情には、眉の内側が上がっていること、眉の外側が上がっていること、上眼瞼が上がっていること、および下顎が開いていることが含まれ、動作ユニット番号マッピングテーブルから分かるように、これらの動作に対応する動作ユニット番号は、それぞれ１、２、５および２６である。各フレームの手遮蔽なし顔画像における顔動作ユニットによって、ビデオ内の全ての手遮蔽なし顔画像をクラスタリングし、所定数のクラスタリング中心に最も近い画像（例えば、眉の内側が上がっているクラスタリング中心、眉の外側が上がっているクラスタリング中心、上眼瞼が上がっているクラスタリング中心、および下顎が開いているクラスタリング中心が４つある場合、４枚の画像を選択する）をいくつか選択し、かつ統計結果から予め得られた動作ユニットの予め設定された強度閾値に基づいて、キーフレームに対応する手遮蔽なし顔画像をスクリーニングする。理解されるように、１フレームの手遮蔽なし顔画像について、指定された顔動作ユニットの強度がいずれも予め設定された強度閾値よりも大きい場合に、手遮蔽なし顔画像をキーフレームに対応する手遮蔽なし顔画像として使用する。

Ｓ４２：キーフレームに対応する手遮蔽なし顔画像を予め訓練された安全判断モデルに入力し、安全判断モデルから出力されるリスク確率を、リスクレベル認識結果として取得する。

具体的には、サーバ側は、キーフレームに対応する手遮蔽なし顔画像を予め訓練された安全判断モデルに入力し、安全判断モデルによって当該手遮蔽なし顔画像に対して微表情認識を実行し、当該手遮蔽なし顔画像に対応するリスク確率をリスクレベル認識結果として取得し、リスク確率が大きいほど、それに対応して当該顧客に存在するリスクの程度が高くなる。

ステップＳ４１－Ｓ４２では、Ｋ－Ｍｅａｎｓアルゴリズムを用いて、手遮蔽なし顔画像に対してクラスタリング処理を実行し、キーフレームに対応する手遮蔽なし顔画像を決定して、手遮蔽なし顔画像に対するクラスタリング処理を実現し、それによって、安全判断モデルによって認識された画像はキーフレームに対応する手遮蔽なし顔画像であり、リスク認識の精度とリスク認識の速度を向上させる。キーフレームに対応する手遮蔽なし顔画像を予め訓練された安全判断モデルに入力し、安全判断モデルから出力されたリスク確率を、リスクレベル認識結果として取得し、これにより、リスク認識を実現し、リスク認識の処理効率を向上させる。

一実施例では、図６に示すように、ステップＳ５０では、すなわち、緊張程度認識結果とリスクレベル認識結果に基づき、リスク警告認識結果を決定することは、具体的に以下のステップを含む。

Ｓ５１：手遮蔽のある顔画像に対応する第１の総フレーム数と、手遮蔽なし顔画像に対応する第２の総フレーム数とを取得する。

具体的には、ビデオデータには、少なくとも１フレームの認識対象画像が含まれ、遮蔽認識モデルによって認識対象画像を手遮蔽のある顔画像または手遮蔽なし顔画像に分割し、かつビデオデータにおける手遮蔽のある顔画像に対応する第１の総フレーム数、および手遮蔽なし顔画像に対応する第２の総フレーム数を統計することにより、その後、第１の総フレーム数と第２の総フレーム数に基づいてリスク警告認識結果を決定する。

Ｓ５２：第１の総フレーム数、第２の総フレーム数、緊張程度認識結果とリスクレベル認識結果に基づいて、リスク警告認識結果を決定する。

具体的には、ビデオデータにおける手遮蔽のある顔画像に対応する緊張程度認識結果、ビデオデータにおける手遮蔽なし顔画像に対応するリスクレベル認識結果、手遮蔽のある顔画像に対応する第１の総フレーム数、および手遮蔽なし顔画像に対応する第２の総フレーム数に基づいて、リスク警告認識結果を取得する。理解されるように、第１の総フレーム数と第２の総フレーム数に対応する大きさを判断し、大きな総フレーム数に対応する認識結果をリスク警告認識結果として使用することができ、さらに緊張程度認識結果とリスクレベル認識結果に対応する重みを予め設定し、かつ重み付け計算を行い、その重み付け計算によって得られた結果をリスク警告認識結果として使用することができる。

ステップＳ５１－Ｓ５２では、手遮蔽のある顔画像に対応する第１の総フレーム数、および手遮蔽なし顔画像に対応する第２の総フレーム数を取得することで、その後、リスク警告認識結果の決定に対して技術的サポートを提供する。第１の総フレーム数、第２の総フレーム数、緊張程度認識結果とリスクレベル認識結果に基づいて、リスク警告認識結果を決定し、手遮蔽のある顔画像と手遮蔽なし顔画像によってリスク警告認識結果を決定することで、リスク認識効率を向上させ、手で顔を遮蔽する時のリスク認識の不正確さを回避する。

一実施例では、図７に示すように、ステップＳ５２では、すなわち、第１の総フレーム数、第２の総フレーム数、緊張程度認識結果とリスクレベル認識結果に基づいて、リスク警告認識結果を決定することは、具体的に以下のステップを含む。

Ｓ５２１：第１の総フレーム数と第２の総フレーム数との差の絶対値を計算する。

具体的には、第１の総フレーム数と第２の総フレーム数に基づいて、第１の総フレーム数と第２の総フレーム数との差を求め、絶対値を取って、差の絶対値とする。例えば、ビデオデータには１００フレームの認識対象画像が含まれ、第１の総フレーム数は２０フレームであり、第２の総フレーム数は８０フレームである場合、第１の総フレーム数と第２の総フレーム数との差の絶対値は６０フレームである。

Ｓ５２２：差の絶対値が第２の所定の閾値よりも大きい場合に、第１の総フレーム数が第２の総フレーム数よりも大きくなると、緊張程度認識結果をリスク警告認識結果として使用し、第１の総フレーム数が第２の総フレーム数よりも小さくなると、リスクレベル認識結果をリスク警告認識結果として使用する。

具体的には、サーバ側には第２の所定の閾値が予め設定されており、差の絶対値と第２の所定の閾値を比較し、差の絶対値が第２の所定の閾値よりも大きくなり、かつ第１の総フレーム数が第２の総フレーム数よりも大きくなると、第１の総フレーム数に対応する緊張程度認識結果をリスク警告認識結果として使用する。差の絶対値が第２の所定の閾値よりも大きくなり、かつ第１の総フレーム数が第２の総フレーム数よりも小さくなると、第２の総フレーム数に対応するリスクレベル認識結果をリスク警告認識結果として使用する。例えば、差の絶対値６０フレームが第２の所定の閾値５０フレームよりも大きく、かつ第１の総フレーム数２０フレームが第２の総フレーム数８０フレームよりも小さい場合に、８０フレームに対応するリスクレベル認識結果をリスク警告認識結果として使用する。逆に、差の絶対値６０フレームが第２の所定の閾値５０フレームよりも大きく、かつ第１の総フレーム数８０フレームが第２の総フレーム数２０フレームよりも大きい場合に、８０フレームに対応する緊張程度認識結果作をリスク警告認識結果として使用する。

Ｓ５２３：差の絶対値が第２の所定の閾値以下である場合に、予め設定された結果計算式により、緊張程度認識結果とリスクレベル認識結果を計算し、リスク警告認識結果を取得する。

具体的には、サーバ側には第２の所定の閾値が予め設定されており、差の絶対値と第２の所定の閾値を比較し、差の絶対値が第２の所定の閾値以下である場合に、予め設定された結果計算式により緊張程度認識結果とリスクレベル認識結果を計算し、リスク警告認識結果を取得する。ここで、結果計算式は重み付け式であり、リスクレベル認識結果と緊張程度認識結果に重みを予め設定し、かつ緊張程度認識結果、緊張程度認識結果に対応する重み、リスクレベル認識結果、およびリスクレベル認識結果に対応する重みに基づいて重み付け計算を行い、リスク警告認識結果を取得する。例えば、緊張程度認識結果が０．３、緊張程度認識結果に対応する重みが０．６、リスクレベル認識結果が０．５、リスクレベル認識結果に対応する重みが０．４である場合に、リスク警告認識結果は０．３８である。その後、リスク警告認識結果に基づいてビデオデータがリスク警告データであるか否かを判断でき、理解されるように、第１の所定の閾値が予め設定されており、リスク警告認識結果と第１の所定の閾値とを比較し、リスク警告認識結果０．３８が第１の所定の閾値０．５よりも小さい場合に、ビデオデータをリスク警告データとしない。

ステップＳ５２１－Ｓ５２３では、第１の総フレーム数と第２の総フレーム数との差の絶対値を計算することで、差の絶対値に基づいてリスク警告認識結果を決定する。差の絶対値が第２の所定の閾値よりも大きい場合に、第１の総フレーム数が第２の総フレーム数よりも大きい場合、緊張程度認識結果をリスク警告認識結果として使用し、第１の総フレーム数が第２の総フレーム数よりも小さい場合、リスクレベル認識結果をリスク警告認識結果として使用し、これにより、リスク警告認識結果を決定し、顧客の手の遮蔽による警告認識結果の不正確さを回避することができる。差の絶対値が第２の所定の閾値以下である場合に、予め設定された結果計算式により、緊張程度認識結果とリスクレベル認識結果を計算することで、手遮蔽のある顔画像と手遮蔽なし顔画像に対応する認識結果に基づいてリスク警告認識結果を決定し、リスク認識の精度を向上させることができる。理解されるように、差の絶対値が第２の所定の閾値よりも大きい場合に、ビデオデータ中に顔が誤って遮蔽されているか、または大部分のフレームでは顔が遮蔽されていることを示し、顔が誤って遮蔽されている場合に、手遮蔽なし顔画像に対応するリスクレベル認識結果をリスク警告認識結果として直接使用し、誤遮蔽の状況を回避し、大部分のフレームでは手が顔を遮蔽している場合に、手遮蔽のある顔画像に対応する緊張程度認識結果をリスク警告認識結果として使用する。差の絶対値が第２の所定の閾値以下である場合に、ビデオデータに含まれる顧客の手による顔遮蔽のフレーム数と手が顔を遮蔽しないフレーム数との差が大きくないことを示し、手遮蔽のある顔画像に対応する緊張程度認識結果と、手遮蔽なし顔画像に対応するリスクレベル認識結果に基づいて重み付け計算を行い、これにより、より正確なリスク警告認識結果を取得できる。

理解されるように、上記実施例における各ステップの番号の大きさは、実行順序を意味するものではなく、各過程の実行順序はその機能および内部論理によって決定されるべきであり、本願の実施例の実施過程に対する何らかの限定を構成するものではない。

一実施例では、顔写真に基づくリスク認識装置を提供し、当該顔写真に基づくリスク認識装置は、上記実施例における顔写真に基づくリスク認識方法とは１対１に対応する。図８に示すように、当該顔写真に基づくリスク認識装置は、ビデオデータ取得モジュール１０、画像認識モジュール２０、第１の認識結果取得モジュール３０、第２の認識結果取得モジュール４０、およびリスク判別モジュール５０を含む。各機能モジュールの詳細な説明は以下の通りである。

ビデオデータ取得モジュール１０は、顧客が予め設定された質問に回答した時のビデオデータを取得するために使用される。

画像認識モジュール２０は、予め訓練された遮蔽認識モデルを用いて、ビデオデータに対して画像認識を実行するために使用され、認識結果には、手遮蔽のある顔画像と手遮蔽なし顔画像が含まれる。

第１の認識結果取得モジュール３０は、各手遮蔽のある顔画像に対応する手による顔遮蔽位置を取得し、手遮蔽のある顔画像の全てに対応する手による顔遮蔽位置に基づいて、緊張程度認識結果を取得するために使用される。

第２の認識結果取得モジュール４０は、手遮蔽なし顔画像を予め訓練された安全判断モデルに入力し、リスクレベル認識結果を取得するために使用される。

リスク判別モジュール５０は、緊張程度認識結果とリスクレベル認識結果に基づき、リスク警告認識結果を決定し、リスク警告認識結果が第１の所定の閾値よりも大きい場合に、ビデオデータをリスク警告データとするために使用される。

一実施例では、画像認識モジュール２０の前に、顔写真に基づくリスク認識装置はさらに、訓練データ取得ユニット、顔領域取得ユニット、勾配ヒストグラム特徴取得ユニット、目標勾配ヒストグラム特徴取得ユニット、および遮蔽認識モデル取得ユニットを含む。

訓練データ取得ユニットは、手遮蔽訓練画像と手遮蔽なし訓練画像を含む遮蔽訓練画像を取得するために使用される。

顔領域取得ユニットは、手遮蔽訓練画像と手遮蔽なし訓練画像を２値化画像に変換し、顔キーポイント認識アルゴリズムを用いて２値化画像の顔領域を決定するために使用される。

勾配ヒストグラム特徴取得ユニットは、顔領域に基づいて、顔領域に対応する勾配ヒストグラム特徴を取得するために使用される。

目標勾配ヒストグラム特徴取得ユニットは、主成分分析アルゴリズムを用いて、勾配ヒストグラム特徴に対して次元削減処理を実行し、目標勾配ヒストグラム特徴を取得するために使用される。

遮蔽認識モデル取得ユニットは、ＳＶＭ分類アルゴリズムを用いて、目標勾配ヒストグラム特徴を訓練し、遮蔽認識モデルを取得するために使用される。

一実施例では、第１の認識結果取得モジュール３０は、遮蔽確率取得ユニットと緊張程度認識結果取得ユニットを含む。

遮蔽確率取得ユニットは、手遮蔽のある顔画像の全てに対応する手による顔遮蔽位置に基づいて、各手による顔遮蔽位置に対応する遮蔽確率を取得するために使用される。

緊張程度認識結果取得ユニットは、最大遮蔽確率に対応する手遮蔽のある顔画像を、緊張評価モデルに入力し、最大遮蔽確率に対応する手遮蔽のある顔画像に対応する緊張程度を、緊張程度認識結果として取得するために使用される。

一実施例では、第２の認識結果取得モジュール４０は、キーフレーム決定ユニット４１とリスクレベル認識結果決定ユニット４２を含む。

キーフレーム決定ユニット４１は、Ｋ－Ｍｅａｎｓアルゴリズムを用いて、手遮蔽なし顔画像に対してクラスタリング処理を実行し、キーフレームに対応する手遮蔽なし顔画像を決定するために使用される。

リスクレベル認識結果決定ユニット４２は、キーフレームに対応する手遮蔽なし顔画像を予め訓練された安全判断モデルに入力し、安全判断モデルから出力されたリスク確率を、リスクレベル認識結果として取得するために使用される。

一実施例では、リスク判別モジュール５０は、総フレーム数決定ユニットと認識ユニットを含む。

総フレーム数決定ユニットは、手遮蔽のある顔画像に対応する第１の総フレーム数、および手遮蔽なし顔画像に対応する第２の総フレーム数を取得するために使用される。

認識ユニットは、第１の総フレーム数、第２の総フレーム数、緊張程度認識結果とリスクレベル認識結果に基づいて、リスク警告認識結果を決定するために使用される。

一実施例では、認識ユニットは、差の絶対値計算サブユニット、第１の決定サブユニット、および第２の決定サブユニットを含む。

差の絶対値計算サブユニットは、第１の総フレーム数と第２の総フレーム数との差の絶対値を計算するために使用される。

第１の決定サブユニットは、差の絶対値が第２の所定の閾値よりも大きい場合に、第１の総フレーム数が第２の総フレーム数よりも大きくなると、緊張程度認識結果をリスク警告認識結果とし、第１の総フレーム数が第２の総フレーム数よりも小さくなると、リスクレベル認識結果をリスク警告認識結果として使用する。

第２の決定サブユニットは、差の絶対値が第２の所定の閾値以下である場合に、予め設定された結果計算式により緊張程度認識結果とリスクレベル認識結果を計算し、リスク警告認識結果を取得するために使用される。

顔写真に基づくリスク認識装置の具体的な限定は、上記の顔写真に基づくリスク認識方法の限定を参照することができ、ここでは繰り返さない。上記の顔写真に基づくリスク認識装置における各モジュールの全部または一部はソフトウェア、ハードウェアおよびそれらの組み合わせによって達成され得る。上記各モジュールは、ハードウェアの形態でコンピュータ設備内のプロセッサに埋め込まれていてもよく、前記プロセッサから独立してもよく、ソフトウェアの形態でコンピュータ設備内のメモリに記憶されてもよく、それによって、プロセッサは、上記各モジュールに対応する操作を呼び出して実行できる。

一実施例では、コンピュータ設備を提供し、当該コンピュータ設備はサーバ側であってもよく、その内部構造図を図９に示す。当該コンピュータ設備は、システムバスを介して接続されたプロセッサ、メモリ、ネットワークインターフェース、およびデータベースを含む。ここで、当該コンピュータ設備のプロセッサは、計算と制御能力を提供するために使用される。当該コンピュータ設備のメモリは、不揮発性記憶媒体、内部メモリを含む。当該不揮発性記憶媒体には、オペレーティングシステム、コンピュータ可読命令、およびデータベースが記憶されている。当該内部メモリは、不揮発性記憶媒体のオペレーティングシステムとコンピュータ可読命令を動作させるための環境を提供する。当該コンピュータ設備のデータベースは、手による顔遮蔽位置、および位置番号の対応関係などを記憶するために用いられる。当該コンピュータ設備のネットワークインターフェースは、ネットワーク接続を介して外部端末と通信するために用いられる。当該コンピュータ可読命令は、プロセッサによって実行されると、顔写真に基づくリスク認識方法を実現する。

一実施例では、コンピュータ設備を提供し、メモリ、プロセッサ、およびメモリに記憶され、かつプロセッサ上で実行可能なコンピュータ可読命令を含み、プロセッサは、コンピュータ可読命令を実行する時、上記実施例における顔写真に基づくリスク認識方法のステップ、例えば、図２に示すステップＳ１０～ステップＳ５０を実現する。または、プロセッサは、コンピュータ可読命令を実行する時、上記実施例における顔写真に基づくリスク認識装置中の各モジュール／ユニットの機能、例えば、図８に示すモジュール１０～モジュール５０の機能を実現する。繰り返さないように、ここでは再び説明しない。

一実施例では、コンピュータ可読命令が記憶される1つ以上の可読記憶媒体を提供し、前記コンピュータ可読記憶媒体にはコンピュータ可読命令が記憶され、前記コンピュータ可読命令が1つ以上のプロセッサによって実行されると、上記方法実施例における顔写真に基づくリスク認識方法、例えば、図２に示すステップＳ１０～ステップＳ５０が実現される。または、当該コンピュータ可読命令がプロセッサによって実行されると、上記実施例における顔写真に基づくリスク認識装置中の各モジュール／ユニットの機能、例えば、図８に示すモジュール１０～モジュール５０の機能が実現される。繰り返さないように、ここでは再び説明しない。本実施例における可読記憶媒体は、不揮発性可読記憶媒体と揮発性可読記憶媒体を含む。

当業者であれば、コンピュータ可読命令によって関連するハードウェアに命令を出すことにより、上記実施例の方法における流れの全部または一部を実現することが可能であることが理解でき、当該コンピュータ可読命令は、不揮発性可読記憶媒体に記憶されてもよいし、揮発性可読記憶媒体に記憶されていてもよく、このコンピュータ可読命令の実行は、上記各方法の実施例のフローを含んでもよい。ここで、本願によって提供される各実施例で使用されるメモリ、記憶、データベース、または他の媒体への参照はいずれも、不揮発性および／または揮発性メモリを含んでもよい。不揮発性メモリは、読み出し専用メモリ（ＲＯＭ）、プログラマブルＲＯＭ（ＰＲＯＭ）、電気的プログラマブルＲＯＭ（ＥＰＲＯＭ）、電気的に消去可能なプログラマブルＲＯＭ（ＥＥＰＲＯＭ）またはフラッシュメモリを含んでもよい。揮発性メモリは、ランダムアクセスメモリ（ＲＡＭ）または外部キャッシュメモリを含んでもよい。限定ではなく説明として、ＲＡＭは、例えば、スタティックＲＡＭ（ＳＲＡＭ）、ダイナミックＲＡＭ（ＤＲＡＭ）、同期型ＤＲＡＭ（ＳＤＲＡＭ）、ダブルデータレートＳＤＲＡＭ（ＤＤＲＳＤＲＡＭ）、エンハンストＳＤＲＡＭ（ＥＳＤＲＡＭ）、同期リンク（Ｓｙｎｃｈｌｉｎｋ）ＤＲＡＭ（ＳＬＤＲＡＭ）、メモリバス（Ｒａｍｂｕｓ）ダイレクトＲＡＭ（ＲＤＲＡＭ）、ダイレクトメモリバスダイナミックＲＡＭ（ＤＲＤＲＡＭ）、およびメモリバスダイナミックＲＡＭ（ＲＤＲＡＭ）などの様々な形態で得られる。

当業者であれば、説明の容易さと簡潔さのために、上述した各機能ユニットとモジュールの分割のみを例に挙げて説明したが、実際の応用では、上記機能の割り当ては、必要に応じて異なる機能ユニットおよびモジュールによって達成され得、すなわち、装置の内部構造が上記機能の全部または一部を達成するために、異なる機能ユニットまたはモジュールに分割されることを明確に理解することができる。

上述した実施例は、本願の技術的解決手段を説明するためのものであり、これらを限定するためのものではない。前記実施例を参照しながら本願を詳細に説明したが、当業者であれば理解できるように、前記各実施例に記載された技術的解決手段を変更し、またはそれらの技術的特徴の一部を等価的に置き換えることができる。これらの変更や置き換えは、対応する技術的解決手段の本質が本願の各実施例の技術的解決手段の要旨および範囲から逸脱することなく、本願の保護の範囲に含まれる。

10 ビデオデータ取得モジュール
20 画像認識モジュール
30 第１の認識結果取得モジュール
40 第２の認識結果取得モジュール
41 キーフレーム決定ユニット
42 リスクレベル認識結果決定ユニット
50 リスク判別モジュール

Claims

顧客が予め設定された質問に回答した時のビデオデータを取得することと、
予め訓練された遮蔽認識モデルを用いて、前記ビデオデータに対して画像認識を実行することと、そのうち、認識結果には、手遮蔽のある顔画像と手遮蔽なし顔画像が含まれ、
各前記手遮蔽のある顔画像に対応する手による顔遮蔽位置を取得し、前記手遮蔽のある顔画像の全てに対応する手による顔遮蔽位置に基づいて、緊張程度認識結果を取得することと、
前記手遮蔽なし顔画像を予め訓練された安全判断モデルに入力し、リスクレベル認識結果を取得することと、
前記緊張程度認識結果と前記リスクレベル認識結果に基づき、リスク警告認識結果を決定し、前記リスク警告認識結果が第１の所定の閾値よりも大きい場合に、前記ビデオデータをリスク警告データとすることと、を含むことを特徴とする、顔写真に基づくリスク認識方法。
上述した予め訓練された遮蔽認識モデルを用いて、前記ビデオデータに対して画像認識を実行するステップの前、前記顔写真に基づくリスク認識方法は、さらに、
手遮蔽訓練画像と手遮蔽なし訓練画像を含む遮蔽訓練画像を取得することと、
前記手遮蔽訓練画像と前記手遮蔽なし訓練画像を２値化画像に変換し、顔キーポイント認識アルゴリズムを用いて、前記２値化画像の顔領域を決定することと、
前記顔領域に基づいて、前記顔領域に対応する勾配ヒストグラム特徴を取得することと、
主成分分析アルゴリズムを用いて、前記勾配ヒストグラム特徴に対して次元削減処理を実行し、目標勾配ヒストグラム特徴を取得することと、
ＳＶＭ分類アルゴリズムを用いて、前記目標勾配ヒストグラム特徴を訓練し、遮蔽認識モデルを取得することとを含むことを特徴とする、請求項１に記載の顔写真に基づくリスク認識方法。
前記手遮蔽のある顔画像の全てに対応する手による顔遮蔽位置に基づいて、緊張程度認識結果を取得することは、
前記手遮蔽のある顔画像の全てに対応する手による顔遮蔽位置に基づいて、各前記手による顔遮蔽位置に対応する遮蔽確率を取得することと、
最大遮蔽確率に対応する手遮蔽のある顔画像を、緊張評価モデルに入力し、前記最大遮蔽確率に対応する手遮蔽のある顔画像に対応する緊張程度を緊張程度認識結果として取得することとを含むことを特徴とする、請求項１に記載の顔写真に基づくリスク認識方法。
上述した前記手遮蔽なし顔画像を予め訓練された安全判断モデルに入力し、リスクレベル認識結果を取得することは、
Ｋ－Ｍｅａｎｓアルゴリズムを用いて、前記手遮蔽なし顔画像に対してクラスタリング処理を実行し、キーフレームに対応する手遮蔽なし顔画像を決定することと、
前記キーフレームに対応する手遮蔽なし顔画像を予め訓練された安全判断モデルに入力し、前記安全判断モデルから出力されたリスク確率を前記リスクレベル認識結果として取得することとを含むことを特徴とする、請求項１に記載の顔写真に基づくリスク認識方法。
上述した前記緊張程度認識結果と前記リスクレベル認識結果に基づき、リスク警告認識結果を決定することは、
前記手遮蔽のある顔画像に対応する第１の総フレーム数と、前記手遮蔽なし顔画像に対応する第２の総フレーム数とを取得することと、
前記第１の総フレーム数、前記第２の総フレーム数、前記緊張程度認識結果、および前記リスクレベル認識結果に基づいて、リスク警告認識結果を決定することとを含むことを特徴とする、請求項１に記載の顔写真に基づくリスク認識方法。
上述した前記第１の総フレーム数、前記第２の総フレーム数、前記緊張程度認識結果、および前記リスクレベル認識結果に基づいて、リスク警告認識結果を決定することは、
前記第１の総フレーム数と前記第２の総フレーム数との差の絶対値を計算することと、
前記差の絶対値が第２の所定の閾値よりも大きい場合に、前記第１の総フレーム数が前記第２の総フレーム数よりも大きくなると、前記緊張程度認識結果をリスク警告認識結果として使用し、前記第１の総フレーム数が前記第２の総フレーム数よりも小さくなると、前記リスクレベル認識結果をリスク警告認識結果として使用することと、
前記差の絶対値が第２の所定の閾値以下である場合に、予め設定された結果計算式により、前記緊張程度認識結果と前記リスクレベル認識結果を計算し、リスク警告認識結果を取得することとを含むことを特徴とする、請求項５に記載の顔写真に基づくリスク認識方法。
顧客が予め設定された質問に回答した時のビデオデータを取得するためのビデオデータ取得モジュールと、
予め訓練された遮蔽認識モデルを用いて、前記ビデオデータに対して画像認識を実行するための画像認識モジュールと、そのうち、認識結果には、手遮蔽のある顔画像と手遮蔽なし顔画像が含まれ、
各前記手遮蔽のある顔画像に対応する手による顔遮蔽位置を取得し、前記手遮蔽のある顔画像の全てに対応する手による顔遮蔽位置に基づいて、緊張程度認識結果を取得するための第１の認識結果取得モジュールと、
前記手遮蔽なし顔画像を予め訓練された安全判断モデルに入力し、リスクレベル認識結果を取得するための第２の認識結果取得モジュールと、
前記緊張程度認識結果と前記リスクレベル認識結果に基づき、リスク警告認識結果を決定し、前記リスク警告認識結果が第１の所定の閾値よりも大きい場合に、前記ビデオデータをリスク警告データとするためのリスク判別モジュールと、を含むことを特徴とする、顔写真に基づくリスク認識装置。
前記第２の認識結果取得モジュールは、
Ｋ－Ｍｅａｎｓアルゴリズムを用いて、前記手遮蔽なし顔画像に対してクラスタリング処理を実行し、キーフレームに対応する手遮蔽なし顔画像を決定するためのキーフレーム決定ユニットと、
前記キーフレームに対応する手遮蔽なし顔画像を予め訓練された安全判断モデルに入力し、前記安全判断モデルから出力されたリスク確率を前記リスクレベル認識結果として取得するためのリスクレベル認識結果決定ユニットとを含むことを特徴とする、請求項７に記載の顔写真に基づくリスク認識装置。
メモリ、プロセッサ、および前記メモリに記憶され、かつ前記プロセッサ上で実行可能なコンピュータ可読命令を含むコンピュータ設備であって、前記プロセッサは、前記コンピュータ可読命令を実行する時、
顧客が予め設定された質問に回答した時のビデオデータを取得することと、
予め訓練された遮蔽認識モデルを用いて、前記ビデオデータに対して画像認識を実行することと、そのうち、認識結果には、手遮蔽のある顔画像と手遮蔽なし顔画像が含まれ、
各前記手遮蔽のある顔画像に対応する手による顔遮蔽位置を取得し、前記手遮蔽のある顔画像の全てに対応する手による顔遮蔽位置に基づいて、緊張程度認識結果を取得することと、
前記手遮蔽なし顔画像を予め訓練された安全判断モデルに入力し、リスクレベル認識結果を取得することと、
前記緊張程度認識結果と前記リスクレベル認識結果に基づき、リスク警告認識結果を決定し、前記リスク警告認識結果が第１の所定の閾値よりも大きい場合に、前記ビデオデータをリスク警告データとすることとのステップを実現することを特徴とする、コンピュータ設備。
コンピュータ可読命令が記憶されるコンピュータ可読記憶媒体であって、前記コンピュータ可読命令が1つ以上のプロセッサによって実行されると、前記1つ以上のプロセッサは、
顧客が予め設定された質問に回答した時のビデオデータを取得することと、
予め訓練された遮蔽認識モデルを用いて、前記ビデオデータに対して画像認識を実行することと、そのうち、認識結果には、手遮蔽のある顔画像と手遮蔽なし顔画像が含まれ、
各前記手遮蔽のある顔画像に対応する手による顔遮蔽位置を取得し、前記手遮蔽のある顔画像の全てに対応する手による顔遮蔽位置に基づいて、緊張程度認識結果を取得することと、
前記手遮蔽なし顔画像を予め訓練された安全判断モデルに入力し、リスクレベル認識結果を取得することと、
前記緊張程度認識結果と前記リスクレベル認識結果に基づき、リスク警告認識結果を決定し、前記リスク警告認識結果が第１の所定の閾値よりも大きい場合に、前記ビデオデータをリスク警告データとすることとのステップを実行することを特徴とする、コンピュータ可読命令が記憶された一つ以上の可読記憶媒体。