JP2022531055A

JP2022531055A - インタラクティブ対象の駆動方法、装置、デバイス、及び記録媒体

Info

Publication number: JP2022531055A
Application number: JP2021549762A
Authority: JP
Inventors: 智▲輝▼ ▲陳▼
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2020-03-31
Filing date: 2020-11-18
Publication date: 2022-07-06
Also published as: TW202139064A; SG11202109202VA; WO2021196648A1; CN111428672A; KR20210124313A

Abstract

インタラクティブ対象の駆動方法、装置、デバイス、及び記録媒体を開示し、前記方法は、第１画像を取得することと、前記第１画像内の目標対象の口部を少なくとも含む顔領域画像を認識し、前記顔領域画像に含まれている口部のキーポイント情報を確定する；前記口部のキーポイント情報に基づいて、前記第１画像内の前記目標対象が発話状態にいるか否かを確定することと、前記第１画像内の前記目標対象が発話状態にいることが確定されたことに応答して、前記インタラクティブ対象が応答を実行するように駆動することと、を含む。【選択図】図２

Description

本発明は、コンピュータ技術分野に関し、具体的には、インタラクティブ対象の駆動方法、装置、デバイス、及び記録媒体に関する。

人間とコンピュータの相互作用の方法のほとんどは、ユーザがキーストローク、タッチ、音声によって入力し、デバイスがスクリーンに画像、テキスト、または仮想キャラクターを表示することによって応答する。現在、仮想キャラクターは主に音声アシスタントに基づいて改善されている。ユーザと仮想キャラクターのインタラクティブは、まだ表面上にある。

本発明の実施例は、インタラクティブ対象の駆動の技術的解決策を提供する。

本発明の１態様によると、提出インタラクティブ対象の駆動方法であって、前記方法は、第１画像を取得することと、前記第１画像内の目標対象の口部を少なくとも含む顔領域画像を認識し、前記顔領域画像に含まれている前記口部のキーポイント情報を確定することと、前記口部のキーポイント情報に基づいて、前記第１画像内の前記目標対象が発話状態にいるか否かを確定することと、前記第１画像内の前記目標対象が発話状態にいることが確定されたことに応答して、インタラクティブ対象が応答を実行するように駆動することと、を含む。

本発明によって提供される任意の実施形態に結合して、前記口部のキーポイント情報は、目標対象の口部に位置している複数のキーポイントの位置情報を含み、前記複数のキーポイントは、少なくとも１組のキーポイントペアを含み、各々の前記キーポイントペアは、それぞれ上唇および下唇に位置している２つのキーポイントを含み、前記口部のキーポイント情報に基づいて、前記目標対象が発話状態にいるか否かを確定することは、前記少なくとも１組のキーポイントペアの位置情報に基づいて、各々の前記キーポイントペア中のそれぞれ前記上唇および前記下唇に位置している２つのキーポイントの第１距離を確定することと、各組の前記キーポイントペアの前記第１距離に基づいて前記第１画像内の前記目標対象が発話状態にいるか否かを確定することと、を含む。

本発明によって提供される任意の実施形態に結合して、前記第１画像は、画像シーケンス中の１つのフレームであり、前記各組の前記キーポイントペアの前記第１距離に基づいて前記第１画像内の前記目標対象が発話状態にいるか否かを確定することは、前記画像シーケンス中から、前記第１画像および少なくとも１つのフレームの第２画像を含む、所定の数の処理待ち画像を、取得することと、各フレームの第２画像ごとに、前記第２画像内の各々の前記キーポイントペアの第１距離を取得し、前記第１画像内の各組の前記キーポイントペア間の第１距離、および各フレームの前記第２画像内の各組の前記キーポイントペア間の第１距離に基づいて、前記第１画像内の前記目標対象が発話状態にいるか否かを確定することと、を含む。

本発明によって提供される任意の実施形態に結合して、前記画像シーケンス中から所定の数の処理待ち画像を取得することは、所定の長さのウィンドウおよび所定のステップサイズで、前記画像シーケンス中でウィンドウスライディングを実行し、スライディングを実行するたびに、前記所定の数の処理待ち画像を取得することを含み、ここで、前記第１画像は、前記ウィンドウ内の最後の１つのフレーム画像である。

本発明によって提供される任意の実施形態に結合して、前記キーポイントペアの第１距離は、前記キーポイントペア中の２つのキーポイント間のユークリッド距離を含み、前記第１画像内の各組の前記キーポイントペア間の第１距離、および、各フレームの前記第２画像内の各組の前記キーポイントペア間の第１距離に基づいて、前記第１画像内の前記目標対象が発話状態にいるか否かを確定することは、前記処理待ち画像の中の目標画像を認識することと、前記処理待ち画像中に含まれている目標画像の数を確定し、前記目標画像の数と前記処理待ち画像の前記所定の数との間の比率が所定の比率よりも大きいことに応答して、前記第１画像内の目標対象が発話状態にいると確定することと、を含む。

本発明によって提供される任意の実施形態に結合して、前記処理待ち画像の中の目標画像を認識することは、前記各組のキーポイントペアのユークリッド距離の平均値が第１所定の閾値よりも大きい画像を前記目標画像として確定すること、または、前記各組のキーポイントペアのユークリッド距離の加重平均値が第２所定の閾値よりも大きい画像を前記目標画像として確定することを含む。

本発明によって提供される任意の実施形態に結合して、前記第１所定の閾値および前記第２所定の閾値は、前記処理待ち画像の解像度に基づいて確定されたものである。

本発明によって提供される任意の実施形態に結合して、前記目標対象が発話状態にいることに応答して、インタラクティブ対象が応答を実行するように駆動することは、前記インタラクティブ対象が待機状態にいる場合、初めで前記第１画像内の前記目標対象が発話状態にいることが確定されたことに応答して、前記インタラクティブ対象を前記目標対象とインタラクティブを実行する状態に駆動することを含む。

本発明の１態様によると、インタラクティブ対象の駆動装置を提供し、前記装置は、第１画像を取得するための取得ユニットと、前記第１画像内の目標対象の口部を少なくとも含む顔領域画像を認識し、前記顔領域画像に含まれている前記口部のキーポイント情報を確定するための認識ユニットと、前記口部のキーポイント情報に基づいて、前記第１画像内の前記目標対象が発話状態にいるか否かを確定するための確定ユニットと、前記第１画像内の前記目標対象が発話状態にいることが確定されたことに応答して、インタラクティブ対象が応答を実行するように駆動するための駆動ユニットと、を備える。

本発明によって提供される任意の実施形態に結合して、前記口部のキーポイント情報は、目標対象の口部に位置している複数のキーポイントの位置情報を含み、前記複数のキーポイントは、少なくとも１組のキーポイントペアを含み、各々の前記キーポイントペアは、それぞれ上唇および下唇に位置している２つのキーポイントを含み、前記確定モジュールは、前記口部のキーポイント情報に基づいて、前記目標対象が発話状態にいるか否かを確定するときに、さらに、前記少なくとも１組のキーポイントペアの位置情報に基づいて、各々の前記キーポイントペア中のそれぞれ前記上唇および前記下唇に位置している２つのキーポイントの第１距離を確定し、各組の前記キーポイントペアの前記第１距離に基づいて前記第１画像内の前記目標対象が発話状態にいるか否かを確定する。

本発明によって提供される任意の実施形態に結合して、前記第１画像は、画像シーケンス中の１つのフレームであり、前記確定ユニットは、各組の前記キーポイントペアの前記第１距離に基づいて前記第１画像内の前記目標対象が発話状態にいるか否かを確定するときに、前記画像シーケンス中から、前記第１画像および少なくとも１つのフレームの第２画像を含む、所定の数の処理待ち画像を、取得し、各フレームの第２画像ごとに、前記第２画像内の各々の前記キーポイントペアの第１距離を取得し、前記第１画像内の各組の前記キーポイントペア間の第１距離および各フレームの前記第２画像内の各組の前記キーポイントペア間の第１距離に基づいて、前記第１画像内の前記目標対象が発話状態にいるか否かを確定する。

本発明によって提供される任意の実施形態に結合して、前記確定ユニットは、前記画像シーケンス中から、所定の数の処理待ち画像を取得するときに、所定の長さのウィンドウおよび所定のステップサイズで、前記画像シーケンス中でウィンドウスライディングを実行し、スライディングを実行するたびに、所定の数の処理待ち画像を取得し、ここで、前記第１画像は、前記ウィンドウ内の最後の１つのフレーム画像である。

本発明によって提供される任意の実施形態に結合して、前記キーポイントペアの第１距離は、前記キーポイントペア中の２つのキーポイント間のユークリッド距離を含み、前記確定ユニットは、前記第１画像内の各組の前記キーポイントペア間の第１距離、および、各フレームの前記第２画像内の各組の前記キーポイントペア間の第１距離に基づいて、前記第１画像内の前記目標対象が発話状態にいるか否かを確定するときに、前記処理待ち画像の中の目標画像を認識し、前記処理待ち画像中に含まれている目標画像の数を確定し、前記目標画像の数と前記処理待ち画像の前記所定の数との間の比率が所定の比率よりも大きいことに応答して、前記第１画像内の目標対象が発話状態にいると確定する。

本発明によって提供される任意の実施形態に結合して、前記確定モジュール前記処理待ち画像内で前記目標画像を確定するときに、前記各組のキーポイントペアのユークリッド距離の平均値が第１所定の閾値よりも大きい画像を前記目標画像として確定し、または、前記各組のキーポイントペアのユークリッド距離の加重平均値が第２所定の閾値よりも大きい画像を前記目標画像として確定する。

本発明によって提供される任意の実施形態に結合して、前記駆動ユニットは、具体的に、前記インタラクティブ対象が待機状態にいる場合、初めで前記第１画像内の前記目標対象が発話状態にいることが確定されたことに応答して、前記インタラクティブ対象を前記目標対象とインタラクティブを実行する状態に駆動する。

本発明の１つまたは複数の実施例のインタラクティブ対象の駆動方法、装置、デバイス、及びコンピュータ可読記録媒体によると、第１画像を認識し、前記第１画像内の前記目標対象の口部を少なくとも含む顔領域画像を得、前記顔領域画像中の口部のキーポイント情報を確定し、前記口部のキーポイント情報に基づいて来前記第１画像内の前記目標対象が発話状態にいるか否かを確定することによって、前記インタラクティブ対象が応答を実行するように駆動するし、また、第１画像に基づいて目標対象が発話しているか否かをリアルタイムで判断することによって、目標対象がインタラクティブ対象を展示されている端末デバイスとタッチインタラクティブを実行していない場合に、インタラクティブ対象が目標対象の発話に対してタイムリーに応答を行って、インタラクティブ状態になるようにすることができ、目標対象のインタラクティブ体験を改善した。

上記の一般的な説明および以下の詳細な説明は、例示的かつ説明的なものにすぎず、本発明を限定することはできないことを理解されたい。

本明細書の図面は、本発明に組み込まれて、本発明に適合する実施例を示し、本発明とともに、本発明の原理を説明するために使用される。
本発明の実施例に係るインタラクティブ対象の駆動方法のディスプレイの模式図である。本発明の実施例に係るインタラクティブ対象の駆動方法のフローチャートである。本発明の実施例に係るインタラクティブ対象の駆動方法の口部キーポイントの模式図である。本発明の実施例に係るインタラクティブ対象の駆動装置の構成の模式図である。本発明の実施例に係る電子デバイスの構成の模式図である。

以下、例示的な実施例を詳細に説明し、その例を図面に示す。以下の説明が図面を言及している場合、特に明記しない限り、異なる図面における同一の数字は、同一または類似な要素を示す。以下の例示的な実施例で叙述される実施形態は、本発明と一致するすべての実施形態を代表しない。逆に、それらは、添付された特許請求の範囲に記載された、本発明のいくつかの態様と一致する装置及び方法の例に過ぎない。

本明細書における「および/または」という用語は、ただ関連対象の関連関係を説明するものであり、３つの関係が存在できることを示し、たとえば、Ａおよび/またはＢは、Ａが単独に存在すること、ＡとＢが同時に存在すること、および、Ｂが単独に存在することのような３つの関係が存在する。また、本明細書における「少なくとも１種」という用語は、複数種類の中の任意の１種または複数種類の中の少なくとも２種の任意の組み合わせを示し、たとえば、Ａ、Ｂ、Ｃの中の少なくとも１種を含むことは、Ａ、Ｂ、および、Ｃから構成されたセットから選択した任意の１つまたは複数の要素を含むことを示す。

本発明の少なくとも１つの実施例は、インタラクティブ対象の駆動方法を提供し、前記駆動方法は、端末デバイスまたはサーバなどの電子デバイスによって実行され得る。前記端末デバイスは、携帯電話、タブレットパソコン、ゲーム機、デスクトップパソコン、広告機、オールインワン機、車載端末などの、固定端末または移動端末であり得る。前記サーバは、ローカルサーバまたはクラウドサーバなどを含む。前記方法は、プロセッサによりメモリに記憶されているコンピュータ可読命令を呼び出す方法によって実現されることができる。

本発明の実施例において、インタラクティブ対象は、目標対象とインタラクティブを実行できる任意の仮想イメージであり得る。１実施例において、インタラクティブ対象は、仮想キャラクターであり得、さらに、仮想動物、仮想物品、漫画イメージなどの、インタラクティブ機能を実現できる他の仮想イメージであり得る。インタラクティブ対象の表示形式は、２Ｄまたは３Ｄであるが、本発明はこれに対して限定しない。前記目標対象は、ユーザ、ロボット、またはその他のスマートデバイスであり得る。前記インタラクティブ対象の前記目標対象とのインタラクティブ方法は、能動的インタラクティブ方法または受動的インタラクティブ方法であり得る。１例において、目標対象により、ジェスチャまたは肢体動作を行うことによって要求を発して、能動的インタラクティブ方法によってインタラクティブ対象をトリガしてインタラクティブを行うことができる。もう１例において、インタラクティブ対象により、能動的に挨拶して、目標対象が動作などを行うようにプロンプトする方法によって、目標対象が受動的方法によってインタラクティブ対象とインタラクティブを行うようにすることができる。

前記インタラクティブ対象は、端末デバイスを利用して展示することができ、前記端末デバイスは、テレビ、表示機能を有するオールインワン器、プロジェクター、仮想現実（ＶｉｒｔｕａｌＲｅａｌｉｔｙ、ＶＲ）デバイス、拡張現実（ＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ、ＡＲ）デバイスなどであり得、本発明は端末デバイスの具体的な形態に対して限定しない。

図１は、本発明の実施例に係る表示デバイスを示す。図１に示すように、当該表示デバイスは、表示スクリーンを有し、表示スクリーンに立体画像を表示することによって、立体効果を有する仮想シーンおよびインタラクティブ対象を現わすことができる。たとえば、図１の表示スクリーンに表示されたインタラクティブ対象は、仮想漫画人物を含む。

いくつかの実施例において、本発明に記載の電子デバイスは、内蔵されたディスプレイを含み、ディスプレイを利用して立体画像を表示して、仮想シーンおよびインタラクティブ対象を表現することができる。もういくつかの実施例において、本発明に記載の電子デバイスは、内蔵するディスプレイを含まないでもよく、表示する必要がある内容を有線または無線の接続を介して外部のディスプレイが仮想シーンおよびインタラクティブ対象を表示するように通知することができる。

いくつかの実施例において、電子デバイスによってインタラクティブ対象が音声を出力するように駆動するための音声駆動データが受信されたことに応答して、インタラクティブ対象は、目標対象に対して指定された音声を発することができる。端末デバイスは、端末デバイスの周辺の目標対象の動作、表情、身分、好みなどに基づいて、音声駆動データを生成することによって、インタラクティブ対象が指定された音声を発して交流または応答を行うように駆動することで、目標対象に対して擬人化サービスを提供することができる。これに鑑みて、本発明の少なくとも１つの実施例によると、インタラクティブ対象駆動方法は、目標対象のインタラクティブ対象とのインタラクティブの体験を向上させる。

図２は、本発明の実施例に係るインタラクティブ対象の駆動方法のフローチャートであり、図２に示すように、前記方法は、ステップ２０１～ステップ２０４を含む。

ステップ２０１において、第１画像を取得する。

前記第１画像は、インタラクティブ対象を展示されている電子デバイス（たとえば端末デバイス、サーバなどである）の周辺の画像であり得る。当該画像は、電子デバイスの画像収集モジュールを介して、たとえば内蔵カメラを介して得ることができる。電子デバイスの周辺の画像は、前記電子デバイスの特定の範囲内の任意の方向の画像を含み、たとえば前記電子デバイスの前、側面、後、上方向の１つまたは複数の方向の画像を含み得る。例示的に、当該範囲は、オーディオ信号を検出するための音声検出モジュールが受信できる所定の強さのオーディオ信号の範囲によって確定される。ここで、前記音声検出モジュールは、前記電子デバイスの内蔵モジュールとして電子デバイスに配置されてもよいし、外部デバイスとして電子デバイスと独立されてもよい。前記第１画像は、さらに、ネットワークを介して取得した、画像収集デバイスによって収集された画像であってもよい。前記画像収集デバイスは、端末デバイスとは独立されたカメラであり得、当該カメラは、有線または無線ネットワークを介して、収集して画像を、本方法を実行する電子デバイスに伝送することができる。前記画像収集デバイスの数は、１つまたは複数であり得る。たとえば、目標対象（たとえばユーザである）は、端末デバイスを使用して特定の操作を実行することができ、たとえば端末デバイスの特定のクライアントを使用してインタラクティブ対象とのインタラクティブに関するサービスを実行することができる。第１画像は、端末デバイスのカメラまたは外部カメラを利用して収集した画像であり得る。当該画像を、ネットワークを介してサーバにアップロードし、サーバにより、当該画像に対して解析を実行し、解析結果に基づいてインタラクティブ対象が応答を実行するように制御する必要がある否かを判断することができる。または、直接、当該端末デバイスにより、当該画像に対して解析を実行し、解析結果に基づいてインタラクティブ対象が応答を実行するように制御する必要がある否かを判断することができる。

ステップ２０２において、前記第１画像内の目標対象の口部を少なくとも含む顔領域画像を認識し、前記顔領域画像に含まれている前記口部のキーポイント情報を確定する。

１例において、第１画像内の前記目標対象の口部を含む顔領域画像をトリミングして、前記顔領域画像を独立した画像とし、前記顔領域画像に対して顔キーポイント検出を実行して、前記顔領域画像内の口部キーポイントを確定し、位置情報などの前記口部のキーポイント情報を得ることができる。

１例において、直接第１画像内の目標対象の口部を含む顔領域画像ブロックに対して顔キーポイント検出を実行して、前記第１画像中に含まれている前記口部のキーポイント情報を確定することができる。

ステップ２０３において、前記口部のキーポイント情報に基づいて、前記第１画像内の前記目標対象が発話状態にいるか否かを確定する。

目標対象の口部が開いている状態と閉じている状態で検出される口部のキーポイント情報（たとえば位置情報である）が異なる。たとえば、口部が開いている状態にいるときに、上唇に位置しているキーポイントと下唇に位置しているキーポイントとの間の距離は通常特定の程度よりも大きいし、口部が閉じている状態にいるときに、上唇に位置しているキーポイントと下唇に位置しているキーポイントとの間の距離は通常より小さい。口部が開いている状態または閉じている状態にいることを判断する距離の閾値は、選択した上唇キーポイントと下唇キーポイントが位置している口部位置に関連されている。たとえば、上唇の中心に位置しているキーポイントと下唇の中心に位置しているキーポイントとの間の距離の閾値は、通常、上唇の端に位置しているキーポイントと下唇の端に位置しているキーポイントとの間の距離の閾値よりも大きい。

１例において、所定の時間内で、複数枚の第１画像の中で、所定の比率を超える画像に対して、目標対象の口部が開いている状態にいることが検出されると、前記目標対象が発話状態にいると確定することができる。逆に、所定の時間内で、所定の比率を超えない画像に対して、目標対象の口部が閉じている状態にいることが検出されると、前記目標対象が発話していないと確定することができる。

ステップ２０４において、前記第１画像内の前記目標対象が発話状態にいることに応答して、前記インタラクティブ対象が応答を実行するように駆動する。

目標対象と前記インタラクティブ対象を展示する端末デバイスとの間にタッチインタラクティブがない可能性があるため、電子デバイスまたは画像収集デバイスの周辺の目標対象がより多い場合、または受信されたオーディオ信号がより多い場合、目標対象が発話し始めるときまたは音声命令を発するときに、電子デバイスは目標対象がインタラクティブ対象とインタラクティブを始めたことをタイムリーに判断できない場合がある。電子デバイスまたは画像収集デバイスの周辺の目標対象が発話状態にいるか否かを検出することによって、１つの目標対象が発話状態にいることが確定された場合、前記インタラクティブ対象が当該目標対象に対して応答を実行するようにタイムリーに駆動することができる。たとえば、目標対象を聞く姿態を行ったり、または前記目標対象に対して特定の応答を実行したりする。たとえば、前記目標対象が女性である場合、前記インタラクティブ対象が「マダム、どうすればあなたを助けることができますか？」という音声を発するように駆動することができる。

本発明の実施例において、第１画像に基づいて目標対象が発話しているか否かをリアルタイムで判断することによって、目標対象がインタラクティブ対象を展示されている端末デバイスとタッチインタラクティブを実行していない場合に、インタラクティブ対象が目標対象の発話に対してタイムリーに応答を行って、インタラクティブ状態になるようにすることができ、目標対象のインタラクティブ体験を改善した。

本発明の実施例において、前記口部のキーポイント情報は、目標対象の口部に位置している複数のキーポイントの位置情報を含み、前記複数のキーポイントは、少なくとも１組のキーポイントペアを含み、前記キーポイントペアは少なくともそれぞれ上唇および下唇に位置している２つのキーポイントを含む。

図３は、本発明の実施例によって提供されるインタラクティブ対象の駆動方法の口部キーポイントの模式図である。図３に示した口部キーポイントの中で、少なくとも１組のキーポイントペアを、たとえばキーポイントペア（９８、１０２）を取得することができ、ここで、キーポイント９８は上唇の中央に位置し、キーポイント１０２は下唇の中央に位置する。

口部の少なくとも１組のキーポイントペアの位置情報に基づいて、各々の前記キーポイントペア中のそれぞれ上唇および下唇に位置している２つのキーポイントの第１距離を確定することができる。たとえば、１組のキーポイントペア（９８、１０２）を取得した場合、キーポイント９８およびキーポイント１０２の位置情報に基づいて、キーポイント９８とキーポイント１０２との間の第１距離を確定することができる。

各組の前記キーポイントペアの前記第１距離に基づいて前記目標対象が発話状態にいるか否かを確定することができる。

口部の開いている状態と閉じている状態で、キーポイント９８とキーポイント１０２との間の第１距離が異なる。キーポイント９８とキーポイント１０２との間の第１距離が距離の所定の閾値よりも大きい場合、前記第１画像内の目標対象の口部が開いている状態にいると確定することができ、逆に、キーポイント９８とキーポイント１０２との間の第１距離が前記距離の所定の閾値未満である場合、前記目標対象の口部が閉じている状態にいると確定することができる。口部の閉じている状態または開いている状態に基づいて、前記目標が発話状態にいるか否かを確定することができ、つまり、前記目標対象が現在発話しているか否かを確定することができる。

当業者は、キーポイントペアの選択は、（９８、１０２）に限定されず、他の１つのキーポイントが上唇の領域に位置し、もう１つのキーポイントが下唇の領域に位置するキーポイントペアであってもよいことを理解すべきである。複数組のキーポイントペアを選択した場合、複数組のキーポイントペアに対応する第１距離の平均値または加重平均値に基づいて、前記第１画像内の、上唇キーポイントと下唇キーポイントとの間の平均距離を確定することができる。そして、口部が閉じているかまたは開いているかを判断するための距離の所定の閾値は、選択したキーポイントペアが位置する部位に基づいて確定することができる。

本発明の実施例において、前記第１画像は、画像シーケンス中の１つのフレームである。ここで、前記画像シーケンスは、画像収集デバイスを利用して取得したビデオストリーム、または、所定の頻度で撮影した複数のフレームの画像であり得る。前記第１画像が画像シーケンス中の１つのフレームである場合、前記画像シーケンス中から所定の数の処理待ち画像を取得し、各々の処理待ち画像内の前記キーポイントペアの第１距離に基づいて前記目標対象が発話状態にいるか否かを確定することができる。ここで、前記処理待ち画像は、前記第１画像、および、前記第１画像以外の少なくとも１つのフレームの第２画像を含み得る。各フレームの第２画像に対して、前記第２画像内の各々のキーポイントペアの第１距離を取得し、前記第１画像内の各組の前記キーポイントペア間の第１距離、および、各フレームの前記第２画像内の各組の前記キーポイントペア間の第１距離に基づいて、前記目標対象が発話状態にいるか否かを確定することができる。

たとえば、前記処理待ち画像中の２つのフレームの第２画像は、第１画像に隣接する連続する２つのフレームであってもよいし、第１画像と同じフレーム間隔を形成する２つのフレームの第２画像であってもよい。たとえば、前記第１画像が画像シーケンス中のＮ番目のフレームであると仮定すると、前記２つのフレームの第２画像はＮ－１番目のフレームおよび第Ｎ－２フレームであってもよいし、Ｎ－２番目のフレームおよびＮ－４番目のフレームであってもよい。

本実施例において、第１画像および各第２画像内の各キーポイントペアの第１距離に基づいて、所定の数の処理待ち画像内の目標対象の口部の開いている状態または閉じている状態を確定することができ、したがって、前記目標対象が発話状態にいるか否かを確定することができる。

いくつかの実施例において、所定の長さのウィンドウおよび所定のステップサイズで、前記画像シーケンス中でウィンドウスライディングを実行し、スライディングを実行するたびに、所定の数の処理待ち画像を取得することができ、ここで、前記第１画像は、前記ウィンドウ内の最後の１つのフレーム画像である。

本発明に記載の方法は目標対象が発話状態にいるか否かをリアルタイムで検出することができることを説明する必要がある。つまり、収集される第１画像は、常に増加する可能性がある。ウィンドウを設定すると、前記第１画像は最初に前記ウィンドウに追加された画像であり得、また、第１画像を増加する同時に最初に前記ウィンドウに追加した第１フレーム画像を破棄することができる。つまり、ウィンドウ内の収集時間が一番早い１つのフレーム画像を破棄することができる。したがって、ウィンドウ内の複数枚の画像の収集時間が比較的新しくなるように保証することができる。

１実施形態において、ウィンドウ内のすべての検出待ち画像に対して同時に処理を実行して、これら処理待ち画像内の目標対象の口部状態を確定して、目標対象が発話状態にいるか否かを判断することができる。もう１実施形態において、ウィンドウ内のすべての検出待ち画像に対してそれぞれ処理を実行することができ、つまり、ウィンドウ内に１つのフレーム検出待ち画像が新しく増加されるたびに、当該画像を検出し、当該画像内の目標対象の口部状態を確定して、当該口部状態を格納し、後続に目標対象が発話状態にいるか否かを判断するときに、ウィンドウ内に格納した現在の複数フレームの検出待ち画像の中の各フレームの検出待ち画像の口部状態を使用することができる。

ウィンドウの長さは、ウィンドウに含まれている処理待ち画像の数に関連しており、ウィンドウの長さが長いほど、含まれている処理待ち画像の数が多くなる。ウィンドウスライディングを実行するステップサイズは、処理待ち画像を取得する時間間隔（頻度）に関連しており、つまり、前記目標対象の発話状態を判断する時間間隔に関連している。ウィンドウの長さおよびステップサイズは、実際のインタラクティブのシーンに応じて設定することができる。たとえば、ウィンドウの長さが１０であり、ステップサイズが２である場合、前記ウィンドウが１０個の処理待ち画像を含むことができ、また、スライディングを実行するたびに、前記画像シーケンス中の２フレームの画像を移動することができる。

なお、ウィンドウ長さの設定は、検出の精度に関連しており。たとえば、１枚の処理待ち画像の検出結果に基づいて目標対象の状態を判断すると、判断精度がより低くなる可能性がある。複数枚の処理待ち画像の検出結果に基づいて目標対象の状態を判断すると、判断精度を向上させることができる。しかし、ウィンドウの長さが長過ぎると、判断のリアルタイム性がより低くなる。たとえば、目標対象はＮ番目のフレーム画像に対応するｔ１タイミングで発話し始めるが、ウィンドウ内の他のフレーム画像（たとえばＮ－１番目、Ｎ－２番目、…）の検出結果が依然として目標対象が発話していないことを示しているため、ｔ１タイミングで依然として目標対象が発話し始めていないと判断することになり、Ｎ+ｉ番目のフレーム画像を取得したｔ２タイミング、すなわち、ウィンドウ内の所定の比率を超える画像の検出結果が目標対象の口を開いている状態を示すと、目標対象が発話し始めたと判断できる。ここで、ｉは、少なくとも、ウィンドウの長さ、ステップサイズ、および、所定の比率に依存する。したがって、ウィンドウの長さが長いほど、ｔ２とｔ１との間の時間差が大きくなり、検出のリアルタイム性に影響をあたえることになる。

本発明の実施例において、第１画像および前記第１画像の前の第２画像内の目標対象の口部状態に基づいて、前記第１画像内の前記目標対象が発話状態にいるか否かを確定することができる。また、ウィンドウスライディングの方法によって、１つのフレームの新たな画像である第１画像が収集されるたびに、当該画像をウィンドウ内の最後の１つのフレーム画像とするため、目標対象が発話状態にいるか否かをリアルタイムで検出することができる。

本発明の実施例において、前記第１距離は、前記キーポイントペア中の２つのキーポイント間のユークリッド距離を含む。３次元の顔画像の場合、前記ユークリッド距離は、２つのキーポイント間の距離および位置関係をより正確に測定できる。

いくつかの実施例において、以下の方法によって、前記第１画像内の各組の前記キーポイントペア間の第１距離、および、各フレームの前記第２画像内の各組の前記キーポイントペア間の第１距離に基づいて、前記目標対象が発話状態にいるか否かを確定する。

まず、前記第１画像および各フレームの前記第２画像の中から、各キーポイントペアのユークリッド距離の平均値が第１所定の閾値よりも大きい画像を目標画像として確定し、または、各キーポイントペアのユークリッド距離の加重平均値が第２所定の閾値よりも大きい画像を目標画像として確定する。つまり、前記処理待ち画像の中から、前記目標対象の口部が開いている状態にいる画像を目標画像として確定する。

その後に、前記処理待ち画像中に含まれている目標画像の数を確定する。つまり、前記処理待ち画像の中の口部が開いている状態にいる画像（処理待ち画像の中の第１画像であってもよいし、処理待ち画像の中の第２画像）の数を確定する。

続いて、前記目標画像の数と前記処理待ち画像の前記所定の数との間の比率に基づいて、前記目標対象が発話状態にいるか否かを確定する。

前記比率が所定の比率よりも大きいことに応答して、前記第１画像内の前記目標対象が発話状態にいることが確定し、逆に、前記比率が所定の比率未満であることに応答して、前記目標対象が現在発話していないと確定する。

いくつかの実施例において、前記処理待ち画像の異なる解像度に応じて、異なるユークリッド距離の所定の閾値を設定することができる。つまり、前記第１所定の閾値および前記第２閾値は、前記処理待ち画像の解像度に基づいて確定されたものであり得る。

１例において、前記処理待ち画像の解像度が７２０*１０８０である場合、ユークリッド距離の所定の閾値を９（たとえば９個のピクセル点である）に設定することができる。ウィンドウの長さを１０に設定することができ、つまり、前記ウィンドウに１０個の処理待ち画像が含まれるようにし、ステップサイズである１でウィンドウを移動する。所定の比率が０.４である場合、前記ウィンドウが現在画像フレームまでにスライドしたときに、含まれている１０個の処理待ち画像に開口状態にいる４個の画像が含まれていると、前記目標対象正が発話状態にいると確定する。

もう１つの例において、処理待ち画像の解像度が７２０*１０８０ではないと、トリミング、ズームイン、またはズームアウトによって、処理待ち画像の解像度を７２０*１０８０に調整することができる。処理待ち画像の解像度に基づいて、当該解像度で対応するユークリッド距離の所定の閾値を算出することができる。

前記インタラクティブ対象が待機状態にいる場合、つまり、前記インタラクティブ対象が前記目標対象とインタラクティブを実行していない状態で、初めで前記第１画像内の目標対象が発話状態にいると確定したことに応答して、前記インタラクティブ対象を前記目標対象とインタラクティブを実行する状態に駆動することができる。

目標対象が前記インタラクティブ対象を展示する端末デバイスとタッチインタラクティブを実行していない場合、上記の方法によって、インタラクティブ対象が、目標対象が発話状態にいることに対してタイムリーに応答を行って、インタラクティブ状態になるようにすることができ、目標対象のインタラクティブ体験を改善した。

図４は、本発明の実施例に係るインタラクティブ対象の駆動装置の構成を示す模式図であり、図４に示すように、当該装置は、第１画像を取得するための取得ユニット４０１と、前記第１画像内の目標対象の口部を少なくとも含む顔領域画像を認識し、前記顔領域画像に含まれている前記口部のキーポイント情報を確定するための認識ユニット４０２と、前記口部のキーポイント情報に基づいて、前記第１画像内の前記目標対象が発話状態にいるか否かを確定するための確定ユニット４０３と、前記第１画像内の前記目標対象が発話状態にいることが確定されたことに応答して、前記インタラクティブ対象が応答を実行するように駆動するための駆動ユニット４０４と、を備え得る。

いくつかの実施例において、前記口部のキーポイント情報は、目標対象の口部に位置している複数のキーポイントの位置情報を含み、前記複数のキーポイントは、少なくとも１組のキーポイントペアを含み、各々の前記キーポイントペアは、それぞれ上唇および下唇に位置している２つのキーポイントを含み、前記確定モジュール４０３は、前記口部のキーポイント情報に基づいて、前記目標対象が発話状態にいるか否かを確定するときに、さらに、前記少なくとも１組のキーポイントペアの位置情報に基づいて、各々の前記キーポイントペア中のそれぞれ前記上唇および前記下唇に位置している２つのキーポイントの第１距離を確定し、各組の前記キーポイントペアの前記第１距離に基づいて前記第１画像内の前記目標対象が発話状態にいるか否かを確定する。

いくつかの実施例において、前記第１画像は、画像シーケンス中の１つのフレームであり、前記確定ユニット４０３は、各組の前記キーポイントペアの前記第１距離に基づいて前記第１画像内の前記目標対象が発話状態にいるか否かを確定するときに、前記画像シーケンス中から、前記第１画像および少なくとも１つのフレームの第２画像を含む、所定の数の処理待ち画像を、取得し、各フレームの第２画像ごとに、前記第２画像内の各々の前記キーポイントペアの第１距離を取得し、前記第１画像内の各組の前記キーポイントペア間の第１距離、および、各フレームの前記第２画像内の各組の前記キーポイントペア間の第１距離に基づいて、前記第１画像内の前記目標対象が発話状態にいるか否かを確定する。

いくつかの実施例において、前記確定ユニット４０３は、前記画像シーケンス中から所定の数の処理待ち画像を取得するときに、所定の長さのウィンドウおよび所定のステップサイズで、前記画像シーケンス中でウィンドウスライディングを実行し、スライディングを実行するたびに、所定の数の処理待ち画像を取得し、ここで、前記第１画像は、前記ウィンドウ内の最後の１つのフレーム画像である。

いくつかの実施例において、前記キーポイントペアの第１距離は、前記キーポイントペア中の２つのキーポイント間のユークリッド距離を含み、前記確定ユニット４０３は、前記第１画像内の各組の前記キーポイントペア間の第１距離、および、各フレームの前記第２画像内の各組の前記キーポイントペア間の第１距離に基づいて、前記第１画像内の前記目標対象が発話状態にいるか否かを確定するときに、前記処理待ち画像の中の目標画像を認識し、前記処理待ち画像中に含まれている目標画像の数を確定し、前記目標画像の数と前記処理待ち画像の前記所定の数との間の比率が所定の比率よりも大きいことに応答して、前記第１画像内の目標対象が発話状態にいると確定する。

いくつかの実施例において、前記確定モジュール４０３は、前記処理待ち画像内で前記目標画像を確定するときに、前記各組のキーポイントペアのユークリッド距離の平均値が第１所定の閾値よりも大きい画像を前記目標画像として確定し、または、前記各組のキーポイントペアのユークリッド距離の加重平均値が第２所定の閾値よりも大きい画像を前記目標画像として確定する。

いくつかの実施例において、前記第１所定の閾値および前記第２所定の閾値は、前記処理待ち画像の解像度に基づいて確定されたものである。

いくつかの実施例において、前記駆動ユニット４０４は、前記インタラクティブ対象が待機状態にいる場合、初めで前記第１画像内の前記目標対象が発話状態にいることが確定されたことに応答して、前記インタラクティブ対象を前記目標対象とインタラクティブを実行する状態に駆動する。

本発明の実施例は、電子デバイスをさらに提供し、図５に示すように、前記デバイスは、メモリとプロセッサとを備え、メモリは、プロセッサ上で運行可能なコンピュータ命令を記憶し、プロセッサは、前記コンピュータ命令が実行されるときに、本発明の任意の実施例に記載のインタラクティブ対象の駆動方法を実現する。

いくつかの実施例において、前記デバイスは、たとえばサーバまたは端末デバイスであり、前記サーバまたは端末デバイスは、第１画像中の口部のキーポイント情報に基づいて目標状態の発話状態を確定することによって、ディスプレイに展示されているインタラクティブ対象を制御する。前記端末デバイスがディスプレイを含む場合、前記ディスプレイは、インタラクティブ対象の動画を表示するための表示スクリーンまたは透明表示スクリーンをさらに含む。

本発明の実施例は、コンピュータプログラムが記憶されているコンピュータ可読記録媒体をさらに提供し、前記プログラムがプロセッサによって実行されるときに、本発明の任意の実施例に記載のインタラクティブ対象の駆動方法を実現する。

当業者は、本発明の１つまたは複数の実施例は、方法、システム、または、コンピュータプログラム製品として提供することができることを了解すべきである。したがって、本発明の１つまたは複数の実施例は、完全なハードウェアの実施例、完全なソフトウェアの実施例、または、ソフトウェアとハードウェアを組み合わせる実施例の形式を使用することができる。また、本発明の１つまたは複数の実施例は、コンピュータ利用可能なプログラムコードを含む１つまたは複数のコンピュータ利用可能な記憶媒体（ディスクメモリ、ＣＤ―ＲＯＭ、光学メモリなどを含むが、これらに限定されない）上で実施されるコンピュータプログラム製品の形式を使用することができる。

本発明における各実施例は、いずれも、漸進的な方式を使用して叙述され、各実施例同士の間の同一または類似な部分は互いに参照することができ、各々の実施例では他の実施例との異なるところに焦点を合わせて説明した。特に、データ処理デバイスの実施例の場合、基本的に方法の実施例と類似であるため、比較的に的に簡単に叙述したが、関連するところは方法の実施例の一部の説明を参照すればよい。

上記で本発明の特定の実施例を叙述した。他の実施例は、添付する「特許請求の範囲」の範囲内にいる。いくつかの場合、特許請求の範囲に記載の行為またはステップは、実施例と異なる順序に従って実行されることができ、このときにも依然として期待する結果が実現されることができる。また、図面で描かれた過程は、期待する結果するために、必ずとしても、示された特定の順序または連続的な順序を必要としない。いくつかの実施形態において、マルチタスク処理および並列処理も可能であるか、または、有益であり得る。

本発明における主題および機能操作の実施例は、デジタル電子回路、有形コンピュータソフトウェアまたはファームウェア、本発明に開示される構成およびその構造的同等物を含むコンピュータハードウェア、または、それらの１つまたは複数の組み合わせで、実現されることができる。本発明における主題の実施例は、１つまたは複数のコンピュータプログラムとして実現されることができ、すなわち、有形の非一時的プログラムキャリア上に符号化されて、データ処理装置によって実行されるか、または、データ処理装置の操作を制御するための、コンピュータプログラム命令中の１つまたは複数のモジュールとして実現されることができる。代替的または追加的に、プログラム命令は、手動で生成する伝播信号上に符号化されることができ、例えば、機械が生成する電気信号、光信号、または、電磁信号に符号化されることができる。当該信号は、情報を符号化して適切な受信機装置に伝送して、データ処理装置によって実行されるようにするために、生成される。コンピュータ記録媒体は、機械可読記憶デバイス、機械可読記憶基板、ランダムにまたはシリアルアクセスメモリデバイス、または、それらの１つまたは複数の組み合わせであり得る。

本発明における処理と論理フローは、１つまたは複数のコンピュータプログラムを実行する１つまたは複数のプログラム可能なコンピュータによって実行されることができ、入力データに基づいて操作を実行して出力を生成することによって該当する機能を実行する。前記処理と論理フローは、さらに、例えば、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）またはＡＳＩＣ（専用集積回路）などの専用論理回路によって実行されることができ、また、装置も専用論理回路として実現されることができる。

コンピュータプログラムの実行に適したコンピュータは、例えば、汎用、および／または、専用マイクロプロセッサ、または、いかなる他の種類の中央処理ユニットを含む。一般的に、中央処理ユニットは、読み取り専用メモリ、および／または、ランダムアクセスメモリから、命令とデータを受信することになる。コンピュータの基本コンポーネントは、命令を実施または実行するための中央処理ユニット、および、命令とデータを記憶するための１つまたは複数のメモリデバイスを含む。一般的に、コンピュータは、磁気ディスク、磁気光学ディスク、または、光学ディスクなどの、データを記憶するための１つまたは複数の大容量記憶デバイスをさらに含むか、または、操作可能に当該大容量記憶デバイスと結合されてデータを受信するかまたはデータを伝送するか、または、その両方を兼有する。しかしながら、コンピュータは、必ずとして、このようなデバイスを有するわけではない。なお、コンピュータは、もう１デバイスに埋め込まれることができ、例えば、携帯電話、パーソナルデジタルアシスタント（ＰＤＡ）、モバイルオーディオまたはビデオおプレーヤー、ゲームコンソール、グローバルポジショニングシステム（ＧＰＳ）レジーバー、または、汎用シリアルバス（ＵＳＢ）フラッシュドライブなどのポータブル記憶デバイスに埋め込まれることができ、これらデバイスはいくつかの例に過ぎない。

コンピュータプログラム命令とデータの記憶に適したコンピュータ可読媒体は、すべての形式の不揮発性メモリ、媒介、および、メモリデバイスを含み、例えば、半導体メモリデバイス（例えば、ＥＰＲＯＭ、ＥＥＰＲＯＭ、および、フラッシュデバイス）、磁気ディスク（例えば、内部ハードディスクまたは移動可能ディスク）、磁気光学ディスク、および、ＣＤＲＯＭ、および、ＤＶＤ－ＲＯＭディスクを含む。プロセッサとメモリは、専用論理回路によって補完されるかまたは専用論理回路に組み込まれることができる。

本発明は、多くの具体的な実施の細部を含むが、これらを本発明の範囲または保護しようとする範囲を限定するものとして解釈すべきではなく、主に本発明のいくつかの実施例の特徴を叙述するために使用される。本発明の複数の実施例中の特定の特徴は、単一の実施例に組み合わせて実施されることもできる。他方、単一の実施例中の各種の特徴は、複数の実施例で別々に実施されるかまたはいかなる適切なサブ組み合わせで実施されることもできる。なお、特徴が上記のように特定の組み合わせで役割を果たし、また最初からこのように保護すると主張したが、保護すると主張した組み合わせからの１つまたは複数の特徴は、場合によって当該組み合わせから除外されることができ、また保護すると主張した組み合わせはサブ組み合わせまたはサブ組み合わせの変形に向けることができる。

類似的に、図面で特定の順序に従って操作を描いたが、これはこれら操作を示した特定の順序にしたがって実行するかまたは順次に実行するように要求するか、または、例示したすべての操作が実行されることによって期待する結果が実現されると要求することであると理解すべきではない。場合によっては、マルチタスクおよび並列処理が有利である可能性がある。なお、上記の実施例中の各種のシステムモジュールとコンポーネントの分離は、すべての実施例でいずれもこのように分離されなければならないと理解すべきではないし、また、叙述したプログラムコンポーネントとシステムは、一般的に、一緒に単一のソフトウェア製品に統合されるか、または、複数のソフトウェア製品にパッケージされることができることを理解すべきである。

したがって、主題の特定の実施例がすでに叙述された。他の実施例は、添付する「特許請求の範囲」の範囲内にある。場合によっては、特許請求の範囲に記載されている動作は、異なる順序によって実行されても、依然として期待する結果が実現されることができる。なお、図面で描かれた処理は、期待する結果を実現するために、必ずとして、示めされた特定の順序または順次を必要としない。一部の実現において、マルチタスクおよび並列処理が有益である可能性がある。

上記は、本発明の１つまたは複数の実施例の好ましい実施例に過ぎず、本発明の１つまたは複数の実施例を限定するために使用されるものではない。本発明の１つまたは複数の実施例の精神と原則の範囲内で行われたいかなる修正、同等の置換、改良などは、いずれも本発明の１つまたは複数の実施例の範囲に含まれるべきである。

Claims

インタラクティブ対象の駆動方法であって、
第１画像を取得することと、
前記第１画像内の目標対象の口部を少なくとも含む顔領域画像を認識し、前記顔領域画像に含まれている前記口部のキーポイント情報を確定することと、
前記口部のキーポイント情報に基づいて、前記第１画像内の前記目標対象が発話状態にいるか否かを確定することと、
前記第１画像内の前記目標対象が発話状態にいることが確定されたことに応答して、インタラクティブ対象が応答を実行するように駆動することと、を含む
ことを特徴とインタラクティブ対象の駆動方法。
前記口部のキーポイント情報は、目標対象の口部に位置している複数のキーポイントの位置情報を含み、前記複数のキーポイントは、少なくとも１組のキーポイントペアを含み、各組の前記キーポイントペアは、それぞれ上唇および下唇に位置している２つのキーポイントを含み、
前記口部のキーポイント情報に基づいて、前記目標対象が発話状態にいるか否かを確定することは、
前記少なくとも１組のキーポイントペアの位置情報に基づいて、各組の前記キーポイントペア中のそれぞれ前記上唇および前記下唇に位置している２つのキーポイントの第１距離を確定することと、
各組の前記キーポイントペアの前記第１距離に基づいて、前記第１画像内の前記目標対象が発話状態にいるか否かを確定することと、を含む
ことを特徴とする請求項１に記載のインタラクティブ対象の駆動方法。
前記第１画像は、画像シーケンス中の１つのフレームであり、
前記各組の前記キーポイントペアの前記第１距離に基づいて、前記第１画像内の前記目標対象が発話状態にいるか否かを確定することは、
前記画像シーケンス中から、前記第１画像および少なくとも１つのフレームの第２画像を含む、所定の数の処理待ち画像を、取得することと、
各フレームの第２画像ごとに、前記第２画像内の各組の前記キーポイントペアの前記第１距離を取得することと、
前記第１画像内の各組の前記キーポイントペアの前記第１距離、および、各フレームの前記第２画像内の各組の前記キーポイントペアの前記第１距離に基づいて、前記第１画像内の前記目標対象が発話状態にいるか否かを確定することと、を含む
ことを特徴とする請求項２に記載のインタラクティブ対象の駆動方法。
前記画像シーケンス中から所定の数の処理待ち画像を取得することは、
所定の長さのウィンドウおよび所定のステップサイズで、前記画像シーケンス中でウィンドウスライディングを実行し、スライディングを実行するたびに、前記所定の数の処理待ち画像を取得することを含み、
前記第１画像は、前記ウィンドウ内の最後の１つのフレーム画像である
ことを特徴とする請求項３に記載のインタラクティブ対象の駆動方法。
前記キーポイントペアの第１距離は、前記キーポイントペア中の２つのキーポイント間のユークリッド距離を含み、
前記第１画像内の各組の前記キーポイントペア間の第１距離、および、各フレームの前記第２画像内の各組の前記キーポイントペア間の第１距離に基づいて、前記第１画像内の前記目標対象が発話状態にいるか否かを確定することは、
前記処理待ち画像の中の目標画像を認識することと、
前記処理待ち画像中に含まれている前記目標画像の数を確定することと、
前記目標画像の数と前記処理待ち画像の前記所定の数との間の比率が所定の比率よりも大きいことに応答して、前記第１画像内の目標対象が発話状態にいると確定することと、を含む
ことを特徴とする請求項３または４に記載のインタラクティブ対象の駆動方法。
前記処理待ち画像の中の目標画像を認識することは、
前記各組のキーポイントペアのユークリッド距離の平均値が第１所定の閾値よりも大きい画像を前記目標画像として確定すること、または、
前記各組のキーポイントペアのユークリッド距離の加重平均値が第２所定の閾値よりも大きい画像を前記目標画像として確定することを含む
ことを特徴とする請求項５に記載のインタラクティブ対象の駆動方法。
前記第１所定の閾値および前記第２所定の閾値は、前記処理待ち画像の解像度に基づいて確定されたものである
ことを特徴とする請求項６に記載のインタラクティブ対象の駆動方法。
前記目標対象が発話状態にいることに応答して、インタラクティブ対象が応答を実行するように駆動することは、
前記インタラクティブ対象が待機状態にいる場合、初めで前記第１画像内の前記目標対象が発話状態にいることが確定されたことに応答して、前記インタラクティブ対象を前記目標対象とインタラクティブを実行する状態に駆動することを含む
ことを特徴とする請求項１から７のいずれか１項に記載のインタラクティブ対象の駆動方法。
インタラクティブ対象の駆動装置であって、
第１画像を取得するための取得ユニットと、
前記第１画像内の目標対象の口部を少なくとも含む顔領域画像を認識し、前記顔領域画像に含まれている口部のキーポイント情報を確定するための認識ユニットと、
前記口部のキーポイント情報に基づいて、前記第１画像内の前記目標対象が発話状態にいるか否かを確定するための確定ユニットと、
前記第１画像内の前記目標対象が発話状態にいることが確定されたことに応答して、インタラクティブ対象が応答を実行するように駆動するための駆動ユニットと、を備える
ことを特徴とするインタラクティブ対象の駆動装置。
前記口部のキーポイント情報は、目標対象の口部に位置している複数のキーポイントの位置情報を含み、前記複数のキーポイントは、少なくとも１組のキーポイントペアを含み、各々の前記キーポイントペアは、それぞれ上唇および下唇に位置している２つのキーポイントを含み、
前記確定ユニットは、
前記少なくとも１組のキーポイントペアの位置情報に基づいて、各々の前記キーポイントペア中のそれぞれ前記上唇および前記下唇に位置している２つのキーポイントの第１距離を確定し、および、
各組の前記キーポイントペアの前記第１距離に基づいて前記第１画像内の前記目標対象が発話状態にいるか否かを確定する
ことを特徴とする請求項９に記載のインタラクティブ対象の駆動装置。
前記第１画像は、画像シーケンス中の１つのフレームであり、
前記確定ユニットは、各組の前記キーポイントペアの前記第１距離に基づいて前記第１画像内の前記目標対象が発話状態にいるか否かを確定するときに、
前記画像シーケンス中から、前記第１画像および少なくとも１つのフレームの第２画像を含む、所定の数の処理待ち画像を、取得、
各フレームの第２画像ごとに、
前記第２画像内の各々の前記キーポイントペアの第１距離を取得し、
前記第１画像内の各組の前記キーポイントペア間の第１距離、および、各フレームの前記第２画像内の各組の前記キーポイントペア間の第１距離に基づいて、前記第１画像内の前記目標対象が発話状態にいるか否かを確定する
ことを特徴とする請求項１０に記載のインタラクティブ対象の駆動装置。
前記確定ユニットは、前記画像シーケンス中から、所定の数の処理待ち画像を取得するときに、具体的に、
所定の長さのウィンドウおよび所定のステップサイズで、前記画像シーケンス中でウィンドウスライディングを実行し、スライディングを実行するたびに、前記所定の数の処理待ち画像を取得し、ここで、前記第１画像は、前記ウィンドウ内の最後の１つのフレーム画像である
ことを特徴とする請求項１１に記載のインタラクティブ対象の駆動装置。
前記キーポイントペアの第１距離は、前記キーポイントペア中の２つのキーポイント間のユークリッド距離を含み、
前記確定ユニットは、前記第１画像内の各組の前記キーポイントペア間の第１距離、および、各フレームの前記第２画像内の各組の前記キーポイントペア間の第１距離に基づいて、前記第１画像内の前記目標対象が発話状態にいるか否かを確定するときに、
前記処理待ち画像の中の目標画像を認識し、
前記処理待ち画像中に含まれている目標画像の数を確定し、
前記目標画像の数と前記処理待ち画像の前記所定の数との間の比率が所定の比率よりも大きいことに応答して、前記第１画像内の目標対象が発話状態にいると確定する
ことを特徴とする請求項１１または１２に記載のインタラクティブ対象の駆動装置。
前記確定ユニットは、前記処理待ち画像の中の目標画像を認識するときに、
前記各組のキーポイントペアのユークリッド距離の平均値が第１所定の閾値よりも大きい画像を前記目標画像として確定し、または、
前記各組のキーポイントペアのユークリッド距離の加重平均値が第２所定の閾値よりも大きい画像を前記目標画像として確定する
ことを特徴とする請求項１３に記載のインタラクティブ対象の駆動装置。
前記第１所定の閾値および前記第２所定の閾値は、前記処理待ち画像の解像度に基づいて確定されたものである
ことを特徴とする請求項１４に記載のインタラクティブ対象の駆動装置。
前記駆動ユニットは、具体的に、
前記インタラクティブ対象が待機状態にいる場合、初めで前記第１画像内の前記目標対象が発話状態にいることが確定されたことに応答して、前記インタラクティブ対象を前記目標対象とインタラクティブを実行する状態に駆動する
ことを特徴とする請求項１０から１５のいずれか１項に記載のインタラクティブ対象の駆動装置。
電子デバイスであって、
メモリとプロセッサとを備え、
前記メモリは、プロセッサ上で運行可能なコンピュータ命令を記憶し、
前記プロセッサは、前記コンピュータ命令が実行されるときに、請求項１から８のいずれか１項に記載の方法が実現される
ことを特徴とする電子デバイス。
コンピュータプログラムが記憶されているコンピュータ可読記録媒体であって、
前記プログラムがプロセッサによって実行されるときに、請求項１から８のいずれか１項に記載の方法が実現される
ことを特徴とするコンピュータ可読記録媒体。