JP2022531055A - インタラクティブ対象の駆動方法、装置、デバイス、及び記録媒体 - Google Patents

インタラクティブ対象の駆動方法、装置、デバイス、及び記録媒体 Download PDF

Info

Publication number
JP2022531055A
JP2022531055A JP2021549762A JP2021549762A JP2022531055A JP 2022531055 A JP2022531055 A JP 2022531055A JP 2021549762 A JP2021549762 A JP 2021549762A JP 2021549762 A JP2021549762 A JP 2021549762A JP 2022531055 A JP2022531055 A JP 2022531055A
Authority
JP
Japan
Prior art keywords
image
target
key point
interactive
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021549762A
Other languages
English (en)
Inventor
智▲輝▼ ▲陳▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sensetime Technology Development Co Ltd
Original Assignee
Beijing Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sensetime Technology Development Co Ltd filed Critical Beijing Sensetime Technology Development Co Ltd
Publication of JP2022531055A publication Critical patent/JP2022531055A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships

Abstract

インタラクティブ対象の駆動方法、装置、デバイス、及び記録媒体を開示し、前記方法は、第1画像を取得することと、前記第1画像内の目標対象の口部を少なくとも含む顔領域画像を認識し、前記顔領域画像に含まれている口部のキーポイント情報を確定する;前記口部のキーポイント情報に基づいて、前記第1画像内の前記目標対象が発話状態にいるか否かを確定することと、前記第1画像内の前記目標対象が発話状態にいることが確定されたことに応答して、前記インタラクティブ対象が応答を実行するように駆動することと、を含む。【選択図】図2

Description

本発明は、コンピュータ技術分野に関し、具体的には、インタラクティブ対象の駆動方法、装置、デバイス、及び記録媒体に関する。
人間とコンピュータの相互作用の方法のほとんどは、ユーザがキーストローク、タッチ、音声によって入力し、デバイスがスクリーンに画像、テキスト、または仮想キャラクターを表示することによって応答する。現在、仮想キャラクターは主に音声アシスタントに基づいて改善されている。ユーザと仮想キャラクターのインタラクティブは、まだ表面上にある。
本発明の実施例は、インタラクティブ対象の駆動の技術的解決策を提供する。
本発明の1態様によると、提出インタラクティブ対象の駆動方法であって、前記方法は、第1画像を取得することと、前記第1画像内の目標対象の口部を少なくとも含む顔領域画像を認識し、前記顔領域画像に含まれている前記口部のキーポイント情報を確定することと、前記口部のキーポイント情報に基づいて、前記第1画像内の前記目標対象が発話状態にいるか否かを確定することと、前記第1画像内の前記目標対象が発話状態にいることが確定されたことに応答して、インタラクティブ対象が応答を実行するように駆動することと、を含む。
本発明によって提供される任意の実施形態に結合して、前記口部のキーポイント情報は、目標対象の口部に位置している複数のキーポイントの位置情報を含み、前記複数のキーポイントは、少なくとも1組のキーポイントペアを含み、各々の前記キーポイントペアは、それぞれ上唇および下唇に位置している2つのキーポイントを含み、前記口部のキーポイント情報に基づいて、前記目標対象が発話状態にいるか否かを確定することは、前記少なくとも1組のキーポイントペアの位置情報に基づいて、各々の前記キーポイントペア中のそれぞれ前記上唇および前記下唇に位置している2つのキーポイントの第1距離を確定することと、各組の前記キーポイントペアの前記第1距離に基づいて前記第1画像内の前記目標対象が発話状態にいるか否かを確定することと、を含む。
本発明によって提供される任意の実施形態に結合して、前記第1画像は、画像シーケンス中の1つのフレームであり、前記各組の前記キーポイントペアの前記第1距離に基づいて前記第1画像内の前記目標対象が発話状態にいるか否かを確定することは、前記画像シーケンス中から、前記第1画像および少なくとも1つのフレームの第2画像を含む、所定の数の処理待ち画像を、取得することと、各フレームの第2画像ごとに、前記第2画像内の各々の前記キーポイントペアの第1距離を取得し、前記第1画像内の各組の前記キーポイントペア間の第1距離、および各フレームの前記第2画像内の各組の前記キーポイントペア間の第1距離に基づいて、前記第1画像内の前記目標対象が発話状態にいるか否かを確定することと、を含む。
本発明によって提供される任意の実施形態に結合して、前記画像シーケンス中から所定の数の処理待ち画像を取得することは、所定の長さのウィンドウおよび所定のステップサイズで、前記画像シーケンス中でウィンドウスライディングを実行し、スライディングを実行するたびに、前記所定の数の処理待ち画像を取得することを含み、ここで、前記第1画像は、前記ウィンドウ内の最後の1つのフレーム画像である。
本発明によって提供される任意の実施形態に結合して、前記キーポイントペアの第1距離は、前記キーポイントペア中の2つのキーポイント間のユークリッド距離を含み、前記第1画像内の各組の前記キーポイントペア間の第1距離、および、各フレームの前記第2画像内の各組の前記キーポイントペア間の第1距離に基づいて、前記第1画像内の前記目標対象が発話状態にいるか否かを確定することは、前記処理待ち画像の中の目標画像を認識することと、前記処理待ち画像中に含まれている目標画像の数を確定し、前記目標画像の数と前記処理待ち画像の前記所定の数との間の比率が所定の比率よりも大きいことに応答して、前記第1画像内の目標対象が発話状態にいると確定することと、を含む。
本発明によって提供される任意の実施形態に結合して、前記処理待ち画像の中の目標画像を認識することは、前記各組のキーポイントペアのユークリッド距離の平均値が第1所定の閾値よりも大きい画像を前記目標画像として確定すること、または、前記各組のキーポイントペアのユークリッド距離の加重平均値が第2所定の閾値よりも大きい画像を前記目標画像として確定することを含む。
本発明によって提供される任意の実施形態に結合して、前記第1所定の閾値および前記第2所定の閾値は、前記処理待ち画像の解像度に基づいて確定されたものである。
本発明によって提供される任意の実施形態に結合して、前記第1所定の閾値および前記第2所定の閾値は、前記処理待ち画像の解像度に基づいて確定されたものである。
本発明によって提供される任意の実施形態に結合して、前記目標対象が発話状態にいることに応答して、インタラクティブ対象が応答を実行するように駆動することは、前記インタラクティブ対象が待機状態にいる場合、初めで前記第1画像内の前記目標対象が発話状態にいることが確定されたことに応答して、前記インタラクティブ対象を前記目標対象とインタラクティブを実行する状態に駆動することを含む。
本発明の1態様によると、インタラクティブ対象の駆動装置を提供し、前記装置は、第1画像を取得するための取得ユニットと、前記第1画像内の目標対象の口部を少なくとも含む顔領域画像を認識し、前記顔領域画像に含まれている前記口部のキーポイント情報を確定するための認識ユニットと、前記口部のキーポイント情報に基づいて、前記第1画像内の前記目標対象が発話状態にいるか否かを確定するための確定ユニットと、前記第1画像内の前記目標対象が発話状態にいることが確定されたことに応答して、インタラクティブ対象が応答を実行するように駆動するための駆動ユニットと、を備える。
本発明によって提供される任意の実施形態に結合して、前記口部のキーポイント情報は、目標対象の口部に位置している複数のキーポイントの位置情報を含み、前記複数のキーポイントは、少なくとも1組のキーポイントペアを含み、各々の前記キーポイントペアは、それぞれ上唇および下唇に位置している2つのキーポイントを含み、前記確定モジュールは、前記口部のキーポイント情報に基づいて、前記目標対象が発話状態にいるか否かを確定するときに、さらに、前記少なくとも1組のキーポイントペアの位置情報に基づいて、各々の前記キーポイントペア中のそれぞれ前記上唇および前記下唇に位置している2つのキーポイントの第1距離を確定し、各組の前記キーポイントペアの前記第1距離に基づいて前記第1画像内の前記目標対象が発話状態にいるか否かを確定する。
本発明によって提供される任意の実施形態に結合して、前記第1画像は、画像シーケンス中の1つのフレームであり、前記確定ユニットは、各組の前記キーポイントペアの前記第1距離に基づいて前記第1画像内の前記目標対象が発話状態にいるか否かを確定するときに、前記画像シーケンス中から、前記第1画像および少なくとも1つのフレームの第2画像を含む、所定の数の処理待ち画像を、取得し、各フレームの第2画像ごとに、前記第2画像内の各々の前記キーポイントペアの第1距離を取得し、前記第1画像内の各組の前記キーポイントペア間の第1距離および各フレームの前記第2画像内の各組の前記キーポイントペア間の第1距離に基づいて、前記第1画像内の前記目標対象が発話状態にいるか否かを確定する。
本発明によって提供される任意の実施形態に結合して、前記確定ユニットは、前記画像シーケンス中から、所定の数の処理待ち画像を取得するときに、所定の長さのウィンドウおよび所定のステップサイズで、前記画像シーケンス中でウィンドウスライディングを実行し、スライディングを実行するたびに、所定の数の処理待ち画像を取得し、ここで、前記第1画像は、前記ウィンドウ内の最後の1つのフレーム画像である。
本発明によって提供される任意の実施形態に結合して、前記キーポイントペアの第1距離は、前記キーポイントペア中の2つのキーポイント間のユークリッド距離を含み、前記確定ユニットは、前記第1画像内の各組の前記キーポイントペア間の第1距離、および、各フレームの前記第2画像内の各組の前記キーポイントペア間の第1距離に基づいて、前記第1画像内の前記目標対象が発話状態にいるか否かを確定するときに、前記処理待ち画像の中の目標画像を認識し、前記処理待ち画像中に含まれている目標画像の数を確定し、前記目標画像の数と前記処理待ち画像の前記所定の数との間の比率が所定の比率よりも大きいことに応答して、前記第1画像内の目標対象が発話状態にいると確定する。
本発明によって提供される任意の実施形態に結合して、前記確定モジュール前記処理待ち画像内で前記目標画像を確定するときに、前記各組のキーポイントペアのユークリッド距離の平均値が第1所定の閾値よりも大きい画像を前記目標画像として確定し、または、前記各組のキーポイントペアのユークリッド距離の加重平均値が第2所定の閾値よりも大きい画像を前記目標画像として確定する。
本発明によって提供される任意の実施形態に結合して、前記第1所定の閾値および前記第2所定の閾値は、前記処理待ち画像の解像度に基づいて確定されたものである。
本発明によって提供される任意の実施形態に結合して、前記駆動ユニットは、具体的に、前記インタラクティブ対象が待機状態にいる場合、初めで前記第1画像内の前記目標対象が発話状態にいることが確定されたことに応答して、前記インタラクティブ対象を前記目標対象とインタラクティブを実行する状態に駆動する。
本発明の1つまたは複数の実施例のインタラクティブ対象の駆動方法、装置、デバイス、及びコンピュータ可読記録媒体によると、第1画像を認識し、前記第1画像内の前記目標対象の口部を少なくとも含む顔領域画像を得、前記顔領域画像中の口部のキーポイント情報を確定し、前記口部のキーポイント情報に基づいて来前記第1画像内の前記目標対象が発話状態にいるか否かを確定することによって、前記インタラクティブ対象が応答を実行するように駆動するし、また、第1画像に基づいて目標対象が発話しているか否かをリアルタイムで判断することによって、目標対象がインタラクティブ対象を展示されている端末デバイスとタッチインタラクティブを実行していない場合に、インタラクティブ対象が目標対象の発話に対してタイムリーに応答を行って、インタラクティブ状態になるようにすることができ、目標対象のインタラクティブ体験を改善した。
上記の一般的な説明および以下の詳細な説明は、例示的かつ説明的なものにすぎず、本発明を限定することはできないことを理解されたい。
本明細書の図面は、本発明に組み込まれて、本発明に適合する実施例を示し、本発明とともに、本発明の原理を説明するために使用される。
本発明の実施例に係るインタラクティブ対象の駆動方法のディスプレイの模式図である。 本発明の実施例に係るインタラクティブ対象の駆動方法のフローチャートである。 本発明の実施例に係るインタラクティブ対象の駆動方法の口部キーポイントの模式図である。 本発明の実施例に係るインタラクティブ対象の駆動装置の構成の模式図である。 本発明の実施例に係る電子デバイスの構成の模式図である。
以下、例示的な実施例を詳細に説明し、その例を図面に示す。以下の説明が図面を言及している場合、特に明記しない限り、異なる図面における同一の数字は、同一または類似な要素を示す。以下の例示的な実施例で叙述される実施形態は、本発明と一致するすべての実施形態を代表しない。逆に、それらは、添付された特許請求の範囲に記載された、本発明のいくつかの態様と一致する装置及び方法の例に過ぎない。
本明細書における「および/または」という用語は、ただ関連対象の関連関係を説明するものであり、3つの関係が存在できることを示し、たとえば、Aおよび/またはBは、Aが単独に存在すること、AとBが同時に存在すること、および、Bが単独に存在することのような3つの関係が存在する。また、本明細書における「少なくとも1種」という用語は、複数種類の中の任意の1種または複数種類の中の少なくとも2種の任意の組み合わせを示し、たとえば、A、B、Cの中の少なくとも1種を含むことは、A、B、および、Cから構成されたセットから選択した任意の1つまたは複数の要素を含むことを示す。
本発明の少なくとも1つの実施例は、インタラクティブ対象の駆動方法を提供し、前記駆動方法は、端末デバイスまたはサーバなどの電子デバイスによって実行され得る。前記端末デバイスは、携帯電話、タブレットパソコン、ゲーム機、デスクトップパソコン、広告機、オールインワン機、車載端末などの、固定端末または移動端末であり得る。前記サーバは、ローカルサーバまたはクラウドサーバなどを含む。前記方法は、プロセッサによりメモリに記憶されているコンピュータ可読命令を呼び出す方法によって実現されることができる。
本発明の実施例において、インタラクティブ対象は、目標対象とインタラクティブを実行できる任意の仮想イメージであり得る。1実施例において、インタラクティブ対象は、仮想キャラクターであり得、さらに、仮想動物、仮想物品、漫画イメージなどの、インタラクティブ機能を実現できる他の仮想イメージであり得る。インタラクティブ対象の表示形式は、2Dまたは3Dであるが、本発明はこれに対して限定しない。前記目標対象は、ユーザ、ロボット、またはその他のスマートデバイスであり得る。前記インタラクティブ対象の前記目標対象とのインタラクティブ方法は、能動的インタラクティブ方法または受動的インタラクティブ方法であり得る。1例において、目標対象により、ジェスチャまたは肢体動作を行うことによって要求を発して、能動的インタラクティブ方法によってインタラクティブ対象をトリガしてインタラクティブを行うことができる。もう1例において、インタラクティブ対象により、能動的に挨拶して、目標対象が動作などを行うようにプロンプトする方法によって、目標対象が受動的方法によってインタラクティブ対象とインタラクティブを行うようにすることができる。
前記インタラクティブ対象は、端末デバイスを利用して展示することができ、前記端末デバイスは、テレビ、表示機能を有するオールインワン器、プロジェクター、仮想現実(Virtual Reality、VR)デバイス、拡張現実(Augmented Reality、AR)デバイスなどであり得、本発明は端末デバイスの具体的な形態に対して限定しない。
図1は、本発明の実施例に係る表示デバイスを示す。図1に示すように、当該表示デバイスは、表示スクリーンを有し、表示スクリーンに立体画像を表示することによって、立体効果を有する仮想シーンおよびインタラクティブ対象を現わすことができる。たとえば、図1の表示スクリーンに表示されたインタラクティブ対象は、仮想漫画人物を含む。
いくつかの実施例において、本発明に記載の電子デバイスは、内蔵されたディスプレイを含み、ディスプレイを利用して立体画像を表示して、仮想シーンおよびインタラクティブ対象を表現することができる。もういくつかの実施例において、本発明に記載の電子デバイスは、内蔵するディスプレイを含まないでもよく、表示する必要がある内容を有線または無線の接続を介して外部のディスプレイが仮想シーンおよびインタラクティブ対象を表示するように通知することができる。
いくつかの実施例において、電子デバイスによってインタラクティブ対象が音声を出力するように駆動するための音声駆動データが受信されたことに応答して、インタラクティブ対象は、目標対象に対して指定された音声を発することができる。端末デバイスは、端末デバイスの周辺の目標対象の動作、表情、身分、好みなどに基づいて、音声駆動データを生成することによって、インタラクティブ対象が指定された音声を発して交流または応答を行うように駆動することで、目標対象に対して擬人化サービスを提供することができる。これに鑑みて、本発明の少なくとも1つの実施例によると、インタラクティブ対象駆動方法は、目標対象のインタラクティブ対象とのインタラクティブの体験を向上させる。
図2は、本発明の実施例に係るインタラクティブ対象の駆動方法のフローチャートであり、図2に示すように、前記方法は、ステップ201~ステップ204を含む。
ステップ201において、第1画像を取得する。
前記第1画像は、インタラクティブ対象を展示されている電子デバイス(たとえば端末デバイス、サーバなどである)の周辺の画像であり得る。当該画像は、電子デバイスの画像収集モジュールを介して、たとえば内蔵カメラを介して得ることができる。電子デバイスの周辺の画像は、前記電子デバイスの特定の範囲内の任意の方向の画像を含み、たとえば前記電子デバイスの前、側面、後、上方向の1つまたは複数の方向の画像を含み得る。例示的に、当該範囲は、オーディオ信号を検出するための音声検出モジュールが受信できる所定の強さのオーディオ信号の範囲によって確定される。ここで、前記音声検出モジュールは、前記電子デバイスの内蔵モジュールとして電子デバイスに配置されてもよいし、外部デバイスとして電子デバイスと独立されてもよい。前記第1画像は、さらに、ネットワークを介して取得した、画像収集デバイスによって収集された画像であってもよい。前記画像収集デバイスは、端末デバイスとは独立されたカメラであり得、当該カメラは、有線または無線ネットワークを介して、収集して画像を、本方法を実行する電子デバイスに伝送することができる。前記画像収集デバイスの数は、1つまたは複数であり得る。たとえば、目標対象(たとえばユーザである)は、端末デバイスを使用して特定の操作を実行することができ、たとえば端末デバイスの特定のクライアントを使用してインタラクティブ対象とのインタラクティブに関するサービスを実行することができる。第1画像は、端末デバイスのカメラまたは外部カメラを利用して収集した画像であり得る。当該画像を、ネットワークを介してサーバにアップロードし、サーバにより、当該画像に対して解析を実行し、解析結果に基づいてインタラクティブ対象が応答を実行するように制御する必要がある否かを判断することができる。または、直接、当該端末デバイスにより、当該画像に対して解析を実行し、解析結果に基づいてインタラクティブ対象が応答を実行するように制御する必要がある否かを判断することができる。
ステップ202において、前記第1画像内の目標対象の口部を少なくとも含む顔領域画像を認識し、前記顔領域画像に含まれている前記口部のキーポイント情報を確定する。
1例において、第1画像内の前記目標対象の口部を含む顔領域画像をトリミングして、前記顔領域画像を独立した画像とし、前記顔領域画像に対して顔キーポイント検出を実行して、前記顔領域画像内の口部キーポイントを確定し、位置情報などの前記口部のキーポイント情報を得ることができる。
1例において、直接第1画像内の目標対象の口部を含む顔領域画像ブロックに対して顔キーポイント検出を実行して、前記第1画像中に含まれている前記口部のキーポイント情報を確定することができる。
ステップ203において、前記口部のキーポイント情報に基づいて、前記第1画像内の前記目標対象が発話状態にいるか否かを確定する。
目標対象の口部が開いている状態と閉じている状態で検出される口部のキーポイント情報(たとえば位置情報である)が異なる。たとえば、口部が開いている状態にいるときに、上唇に位置しているキーポイントと下唇に位置しているキーポイントとの間の距離は通常特定の程度よりも大きいし、口部が閉じている状態にいるときに、上唇に位置しているキーポイントと下唇に位置しているキーポイントとの間の距離は通常より小さい。口部が開いている状態または閉じている状態にいることを判断する距離の閾値は、選択した上唇キーポイントと下唇キーポイントが位置している口部位置に関連されている。たとえば、上唇の中心に位置しているキーポイントと下唇の中心に位置しているキーポイントとの間の距離の閾値は、通常、上唇の端に位置しているキーポイントと下唇の端に位置しているキーポイントとの間の距離の閾値よりも大きい。
1例において、所定の時間内で、複数枚の第1画像の中で、所定の比率を超える画像に対して、目標対象の口部が開いている状態にいることが検出されると、前記目標対象が発話状態にいると確定することができる。逆に、所定の時間内で、所定の比率を超えない画像に対して、目標対象の口部が閉じている状態にいることが検出されると、前記目標対象が発話していないと確定することができる。
ステップ204において、前記第1画像内の前記目標対象が発話状態にいることに応答して、前記インタラクティブ対象が応答を実行するように駆動する。
目標対象と前記インタラクティブ対象を展示する端末デバイスとの間にタッチインタラクティブがない可能性があるため、電子デバイスまたは画像収集デバイスの周辺の目標対象がより多い場合、または受信されたオーディオ信号がより多い場合、目標対象が発話し始めるときまたは音声命令を発するときに、電子デバイスは目標対象がインタラクティブ対象とインタラクティブを始めたことをタイムリーに判断できない場合がある。電子デバイスまたは画像収集デバイスの周辺の目標対象が発話状態にいるか否かを検出することによって、1つの目標対象が発話状態にいることが確定された場合、前記インタラクティブ対象が当該目標対象に対して応答を実行するようにタイムリーに駆動することができる。たとえば、目標対象を聞く姿態を行ったり、または前記目標対象に対して特定の応答を実行したりする。たとえば、前記目標対象が女性である場合、前記インタラクティブ対象が「マダム、どうすればあなたを助けることができますか?」という音声を発するように駆動することができる。
本発明の実施例において、第1画像に基づいて目標対象が発話しているか否かをリアルタイムで判断することによって、目標対象がインタラクティブ対象を展示されている端末デバイスとタッチインタラクティブを実行していない場合に、インタラクティブ対象が目標対象の発話に対してタイムリーに応答を行って、インタラクティブ状態になるようにすることができ、目標対象のインタラクティブ体験を改善した。
本発明の実施例において、前記口部のキーポイント情報は、目標対象の口部に位置している複数のキーポイントの位置情報を含み、前記複数のキーポイントは、少なくとも1組のキーポイントペアを含み、前記キーポイントペアは少なくともそれぞれ上唇および下唇に位置している2つのキーポイントを含む。
図3は、本発明の実施例によって提供されるインタラクティブ対象の駆動方法の口部キーポイントの模式図である。図3に示した口部キーポイントの中で、少なくとも1組のキーポイントペアを、たとえばキーポイントペア(98、102)を取得することができ、ここで、キーポイント98は上唇の中央に位置し、キーポイント102は下唇の中央に位置する。
口部の少なくとも1組のキーポイントペアの位置情報に基づいて、各々の前記キーポイントペア中のそれぞれ上唇および下唇に位置している2つのキーポイントの第1距離を確定することができる。たとえば、1組のキーポイントペア(98、102)を取得した場合、キーポイント98およびキーポイント102の位置情報に基づいて、キーポイント98とキーポイント102との間の第1距離を確定することができる。
各組の前記キーポイントペアの前記第1距離に基づいて前記目標対象が発話状態にいるか否かを確定することができる。
口部の開いている状態と閉じている状態で、キーポイント98とキーポイント102との間の第1距離が異なる。キーポイント98とキーポイント102との間の第1距離が距離の所定の閾値よりも大きい場合、前記第1画像内の目標対象の口部が開いている状態にいると確定することができ、逆に、キーポイント98とキーポイント102との間の第1距離が前記距離の所定の閾値未満である場合、前記目標対象の口部が閉じている状態にいると確定することができる。口部の閉じている状態または開いている状態に基づいて、前記目標が発話状態にいるか否かを確定することができ、つまり、前記目標対象が現在発話しているか否かを確定することができる。
当業者は、キーポイントペアの選択は、(98、102)に限定されず、他の1つのキーポイントが上唇の領域に位置し、もう1つのキーポイントが下唇の領域に位置するキーポイントペアであってもよいことを理解すべきである。複数組のキーポイントペアを選択した場合、複数組のキーポイントペアに対応する第1距離の平均値または加重平均値に基づいて、前記第1画像内の、上唇キーポイントと下唇キーポイントとの間の平均距離を確定することができる。そして、口部が閉じているかまたは開いているかを判断するための距離の所定の閾値は、選択したキーポイントペアが位置する部位に基づいて確定することができる。
本発明の実施例において、前記第1画像は、画像シーケンス中の1つのフレームである。ここで、前記画像シーケンスは、画像収集デバイスを利用して取得したビデオストリーム、または、所定の頻度で撮影した複数のフレームの画像であり得る。前記第1画像が画像シーケンス中の1つのフレームである場合、前記画像シーケンス中から所定の数の処理待ち画像を取得し、各々の処理待ち画像内の前記キーポイントペアの第1距離に基づいて前記目標対象が発話状態にいるか否かを確定することができる。ここで、前記処理待ち画像は、前記第1画像、および、前記第1画像以外の少なくとも1つのフレームの第2画像を含み得る。各フレームの第2画像に対して、前記第2画像内の各々のキーポイントペアの第1距離を取得し、前記第1画像内の各組の前記キーポイントペア間の第1距離、および、各フレームの前記第2画像内の各組の前記キーポイントペア間の第1距離に基づいて、前記目標対象が発話状態にいるか否かを確定することができる。
たとえば、前記処理待ち画像中の2つのフレームの第2画像は、第1画像に隣接する連続する2つのフレームであってもよいし、第1画像と同じフレーム間隔を形成する2つのフレームの第2画像であってもよい。たとえば、前記第1画像が画像シーケンス中のN番目のフレームであると仮定すると、前記2つのフレームの第2画像はN-1番目のフレームおよび第N-2フレームであってもよいし、N-2番目のフレームおよびN-4番目のフレームであってもよい。
本実施例において、第1画像および各第2画像内の各キーポイントペアの第1距離に基づいて、所定の数の処理待ち画像内の目標対象の口部の開いている状態または閉じている状態を確定することができ、したがって、前記目標対象が発話状態にいるか否かを確定することができる。
いくつかの実施例において、所定の長さのウィンドウおよび所定のステップサイズで、前記画像シーケンス中でウィンドウスライディングを実行し、スライディングを実行するたびに、所定の数の処理待ち画像を取得することができ、ここで、前記第1画像は、前記ウィンドウ内の最後の1つのフレーム画像である。
本発明に記載の方法は目標対象が発話状態にいるか否かをリアルタイムで検出することができることを説明する必要がある。つまり、収集される第1画像は、常に増加する可能性がある。ウィンドウを設定すると、前記第1画像は最初に前記ウィンドウに追加された画像であり得、また、第1画像を増加する同時に最初に前記ウィンドウに追加した第1フレーム画像を破棄することができる。つまり、ウィンドウ内の収集時間が一番早い1つのフレーム画像を破棄することができる。したがって、ウィンドウ内の複数枚の画像の収集時間が比較的新しくなるように保証することができる。
1実施形態において、ウィンドウ内のすべての検出待ち画像に対して同時に処理を実行して、これら処理待ち画像内の目標対象の口部状態を確定して、目標対象が発話状態にいるか否かを判断することができる。もう1実施形態において、ウィンドウ内のすべての検出待ち画像に対してそれぞれ処理を実行することができ、つまり、ウィンドウ内に1つのフレーム検出待ち画像が新しく増加されるたびに、当該画像を検出し、当該画像内の目標対象の口部状態を確定して、当該口部状態を格納し、後続に目標対象が発話状態にいるか否かを判断するときに、ウィンドウ内に格納した現在の複数フレームの検出待ち画像の中の各フレームの検出待ち画像の口部状態を使用することができる。
ウィンドウの長さは、ウィンドウに含まれている処理待ち画像の数に関連しており、ウィンドウの長さが長いほど、含まれている処理待ち画像の数が多くなる。ウィンドウスライディングを実行するステップサイズは、処理待ち画像を取得する時間間隔(頻度)に関連しており、つまり、前記目標対象の発話状態を判断する時間間隔に関連している。ウィンドウの長さおよびステップサイズは、実際のインタラクティブのシーンに応じて設定することができる。たとえば、ウィンドウの長さが10であり、ステップサイズが2である場合、前記ウィンドウが10個の処理待ち画像を含むことができ、また、スライディングを実行するたびに、前記画像シーケンス中の2フレームの画像を移動することができる。
なお、ウィンドウ長さの設定は、検出の精度に関連しており。たとえば、1枚の処理待ち画像の検出結果に基づいて目標対象の状態を判断すると、判断精度がより低くなる可能性がある。複数枚の処理待ち画像の検出結果に基づいて目標対象の状態を判断すると、判断精度を向上させることができる。しかし、ウィンドウの長さが長過ぎると、判断のリアルタイム性がより低くなる。たとえば、目標対象はN番目のフレーム画像に対応するt1タイミングで発話し始めるが、ウィンドウ内の他のフレーム画像(たとえばN-1番目、N-2番目、…)の検出結果が依然として目標対象が発話していないことを示しているため、t1タイミングで依然として目標対象が発話し始めていないと判断することになり、N+i番目のフレーム画像を取得したt2タイミング、すなわち、ウィンドウ内の所定の比率を超える画像の検出結果が目標対象の口を開いている状態を示すと、目標対象が発話し始めたと判断できる。ここで、iは、少なくとも、ウィンドウの長さ、ステップサイズ、および、所定の比率に依存する。したがって、ウィンドウの長さが長いほど、t2とt1との間の時間差が大きくなり、検出のリアルタイム性に影響をあたえることになる。
本発明の実施例において、第1画像および前記第1画像の前の第2画像内の目標対象の口部状態に基づいて、前記第1画像内の前記目標対象が発話状態にいるか否かを確定することができる。また、ウィンドウスライディングの方法によって、1つのフレームの新たな画像である第1画像が収集されるたびに、当該画像をウィンドウ内の最後の1つのフレーム画像とするため、目標対象が発話状態にいるか否かをリアルタイムで検出することができる。
本発明の実施例において、前記第1距離は、前記キーポイントペア中の2つのキーポイント間のユークリッド距離を含む。3次元の顔画像の場合、前記ユークリッド距離は、2つのキーポイント間の距離および位置関係をより正確に測定できる。
いくつかの実施例において、以下の方法によって、前記第1画像内の各組の前記キーポイントペア間の第1距離、および、各フレームの前記第2画像内の各組の前記キーポイントペア間の第1距離に基づいて、前記目標対象が発話状態にいるか否かを確定する。
まず、前記第1画像および各フレームの前記第2画像の中から、各キーポイントペアのユークリッド距離の平均値が第1所定の閾値よりも大きい画像を目標画像として確定し、または、各キーポイントペアのユークリッド距離の加重平均値が第2所定の閾値よりも大きい画像を目標画像として確定する。つまり、前記処理待ち画像の中から、前記目標対象の口部が開いている状態にいる画像を目標画像として確定する。
その後に、前記処理待ち画像中に含まれている目標画像の数を確定する。つまり、前記処理待ち画像の中の口部が開いている状態にいる画像(処理待ち画像の中の第1画像であってもよいし、処理待ち画像の中の第2画像)の数を確定する。
続いて、前記目標画像の数と前記処理待ち画像の前記所定の数との間の比率に基づいて、前記目標対象が発話状態にいるか否かを確定する。
前記比率が所定の比率よりも大きいことに応答して、前記第1画像内の前記目標対象が発話状態にいることが確定し、逆に、前記比率が所定の比率未満であることに応答して、前記目標対象が現在発話していないと確定する。
いくつかの実施例において、前記処理待ち画像の異なる解像度に応じて、異なるユークリッド距離の所定の閾値を設定することができる。つまり、前記第1所定の閾値および前記第2閾値は、前記処理待ち画像の解像度に基づいて確定されたものであり得る。
1例において、前記処理待ち画像の解像度が720*1080である場合、ユークリッド距離の所定の閾値を9(たとえば9個のピクセル点である)に設定することができる。ウィンドウの長さを10に設定することができ、つまり、前記ウィンドウに10個の処理待ち画像が含まれるようにし、ステップサイズである1でウィンドウを移動する。所定の比率が0.4である場合、前記ウィンドウが現在画像フレームまでにスライドしたときに、含まれている10個の処理待ち画像に開口状態にいる4個の画像が含まれていると、前記目標対象正が発話状態にいると確定する。
もう1つの例において、処理待ち画像の解像度が720*1080ではないと、トリミング、ズームイン、またはズームアウトによって、処理待ち画像の解像度を720*1080に調整することができる。処理待ち画像の解像度に基づいて、当該解像度で対応するユークリッド距離の所定の閾値を算出することができる。
前記インタラクティブ対象が待機状態にいる場合、つまり、前記インタラクティブ対象が前記目標対象とインタラクティブを実行していない状態で、初めで前記第1画像内の目標対象が発話状態にいると確定したことに応答して、前記インタラクティブ対象を前記目標対象とインタラクティブを実行する状態に駆動することができる。
目標対象が前記インタラクティブ対象を展示する端末デバイスとタッチインタラクティブを実行していない場合、上記の方法によって、インタラクティブ対象が、目標対象が発話状態にいることに対してタイムリーに応答を行って、インタラクティブ状態になるようにすることができ、目標対象のインタラクティブ体験を改善した。
図4は、本発明の実施例に係るインタラクティブ対象の駆動装置の構成を示す模式図であり、図4に示すように、当該装置は、第1画像を取得するための取得ユニット401と、前記第1画像内の目標対象の口部を少なくとも含む顔領域画像を認識し、前記顔領域画像に含まれている前記口部のキーポイント情報を確定するための認識ユニット402と、前記口部のキーポイント情報に基づいて、前記第1画像内の前記目標対象が発話状態にいるか否かを確定するための確定ユニット403と、前記第1画像内の前記目標対象が発話状態にいることが確定されたことに応答して、前記インタラクティブ対象が応答を実行するように駆動するための駆動ユニット404と、を備え得る。
いくつかの実施例において、前記口部のキーポイント情報は、目標対象の口部に位置している複数のキーポイントの位置情報を含み、前記複数のキーポイントは、少なくとも1組のキーポイントペアを含み、各々の前記キーポイントペアは、それぞれ上唇および下唇に位置している2つのキーポイントを含み、前記確定モジュール403は、前記口部のキーポイント情報に基づいて、前記目標対象が発話状態にいるか否かを確定するときに、さらに、前記少なくとも1組のキーポイントペアの位置情報に基づいて、各々の前記キーポイントペア中のそれぞれ前記上唇および前記下唇に位置している2つのキーポイントの第1距離を確定し、各組の前記キーポイントペアの前記第1距離に基づいて前記第1画像内の前記目標対象が発話状態にいるか否かを確定する。
いくつかの実施例において、前記第1画像は、画像シーケンス中の1つのフレームであり、前記確定ユニット403は、各組の前記キーポイントペアの前記第1距離に基づいて前記第1画像内の前記目標対象が発話状態にいるか否かを確定するときに、前記画像シーケンス中から、前記第1画像および少なくとも1つのフレームの第2画像を含む、所定の数の処理待ち画像を、取得し、各フレームの第2画像ごとに、前記第2画像内の各々の前記キーポイントペアの第1距離を取得し、前記第1画像内の各組の前記キーポイントペア間の第1距離、および、各フレームの前記第2画像内の各組の前記キーポイントペア間の第1距離に基づいて、前記第1画像内の前記目標対象が発話状態にいるか否かを確定する。
いくつかの実施例において、前記確定ユニット403は、前記画像シーケンス中から所定の数の処理待ち画像を取得するときに、所定の長さのウィンドウおよび所定のステップサイズで、前記画像シーケンス中でウィンドウスライディングを実行し、スライディングを実行するたびに、所定の数の処理待ち画像を取得し、ここで、前記第1画像は、前記ウィンドウ内の最後の1つのフレーム画像である。
いくつかの実施例において、前記キーポイントペアの第1距離は、前記キーポイントペア中の2つのキーポイント間のユークリッド距離を含み、前記確定ユニット403は、前記第1画像内の各組の前記キーポイントペア間の第1距離、および、各フレームの前記第2画像内の各組の前記キーポイントペア間の第1距離に基づいて、前記第1画像内の前記目標対象が発話状態にいるか否かを確定するときに、前記処理待ち画像の中の目標画像を認識し、前記処理待ち画像中に含まれている目標画像の数を確定し、前記目標画像の数と前記処理待ち画像の前記所定の数との間の比率が所定の比率よりも大きいことに応答して、前記第1画像内の目標対象が発話状態にいると確定する。
いくつかの実施例において、前記確定モジュール403は、前記処理待ち画像内で前記目標画像を確定するときに、前記各組のキーポイントペアのユークリッド距離の平均値が第1所定の閾値よりも大きい画像を前記目標画像として確定し、または、前記各組のキーポイントペアのユークリッド距離の加重平均値が第2所定の閾値よりも大きい画像を前記目標画像として確定する。
いくつかの実施例において、前記第1所定の閾値および前記第2所定の閾値は、前記処理待ち画像の解像度に基づいて確定されたものである。
いくつかの実施例において、前記駆動ユニット404は、前記インタラクティブ対象が待機状態にいる場合、初めで前記第1画像内の前記目標対象が発話状態にいることが確定されたことに応答して、前記インタラクティブ対象を前記目標対象とインタラクティブを実行する状態に駆動する。
本発明の実施例は、電子デバイスをさらに提供し、図5に示すように、前記デバイスは、メモリとプロセッサとを備え、メモリは、プロセッサ上で運行可能なコンピュータ命令を記憶し、プロセッサは、前記コンピュータ命令が実行されるときに、本発明の任意の実施例に記載のインタラクティブ対象の駆動方法を実現する。
いくつかの実施例において、前記デバイスは、たとえばサーバまたは端末デバイスであり、前記サーバまたは端末デバイスは、第1画像中の口部のキーポイント情報に基づいて目標状態の発話状態を確定することによって、ディスプレイに展示されているインタラクティブ対象を制御する。前記端末デバイスがディスプレイを含む場合、前記ディスプレイは、インタラクティブ対象の動画を表示するための表示スクリーンまたは透明表示スクリーンをさらに含む。
本発明の実施例は、コンピュータプログラムが記憶されているコンピュータ可読記録媒体をさらに提供し、前記プログラムがプロセッサによって実行されるときに、本発明の任意の実施例に記載のインタラクティブ対象の駆動方法を実現する。
当業者は、本発明の1つまたは複数の実施例は、方法、システム、または、コンピュータプログラム製品として提供することができることを了解すべきである。したがって、本発明の1つまたは複数の実施例は、完全なハードウェアの実施例、完全なソフトウェアの実施例、または、ソフトウェアとハードウェアを組み合わせる実施例の形式を使用することができる。また、本発明の1つまたは複数の実施例は、コンピュータ利用可能なプログラムコードを含む1つまたは複数のコンピュータ利用可能な記憶媒体(ディスクメモリ、CD―ROM、光学メモリなどを含むが、これらに限定されない)上で実施されるコンピュータプログラム製品の形式を使用することができる。
本発明における各実施例は、いずれも、漸進的な方式を使用して叙述され、各実施例同士の間の同一または類似な部分は互いに参照することができ、各々の実施例では他の実施例との異なるところに焦点を合わせて説明した。特に、データ処理デバイスの実施例の場合、基本的に方法の実施例と類似であるため、比較的に的に簡単に叙述したが、関連するところは方法の実施例の一部の説明を参照すればよい。
上記で本発明の特定の実施例を叙述した。他の実施例は、添付する「特許請求の範囲」の範囲内にいる。いくつかの場合、特許請求の範囲に記載の行為またはステップは、実施例と異なる順序に従って実行されることができ、このときにも依然として期待する結果が実現されることができる。また、図面で描かれた過程は、期待する結果するために、必ずとしても、示された特定の順序または連続的な順序を必要としない。いくつかの実施形態において、マルチタスク処理および並列処理も可能であるか、または、有益であり得る。
本発明における主題および機能操作の実施例は、デジタル電子回路、有形コンピュータソフトウェアまたはファームウェア、本発明に開示される構成およびその構造的同等物を含むコンピュータハードウェア、または、それらの1つまたは複数の組み合わせで、実現されることができる。本発明における主題の実施例は、1つまたは複数のコンピュータプログラムとして実現されることができ、すなわち、有形の非一時的プログラムキャリア上に符号化されて、データ処理装置によって実行されるか、または、データ処理装置の操作を制御するための、コンピュータプログラム命令中の1つまたは複数のモジュールとして実現されることができる。代替的または追加的に、プログラム命令は、手動で生成する伝播信号上に符号化されることができ、例えば、機械が生成する電気信号、光信号、または、電磁信号に符号化されることができる。当該信号は、情報を符号化して適切な受信機装置に伝送して、データ処理装置によって実行されるようにするために、生成される。コンピュータ記録媒体は、機械可読記憶デバイス、機械可読記憶基板、ランダムにまたはシリアルアクセスメモリデバイス、または、それらの1つまたは複数の組み合わせであり得る。
本発明における処理と論理フローは、1つまたは複数のコンピュータプログラムを実行する1つまたは複数のプログラム可能なコンピュータによって実行されることができ、入力データに基づいて操作を実行して出力を生成することによって該当する機能を実行する。前記処理と論理フローは、さらに、例えば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(専用集積回路)などの専用論理回路によって実行されることができ、また、装置も専用論理回路として実現されることができる。
コンピュータプログラムの実行に適したコンピュータは、例えば、汎用、および/または、専用マイクロプロセッサ、または、いかなる他の種類の中央処理ユニットを含む。一般的に、中央処理ユニットは、読み取り専用メモリ、および/または、ランダムアクセスメモリから、命令とデータを受信することになる。コンピュータの基本コンポーネントは、命令を実施または実行するための中央処理ユニット、および、命令とデータを記憶するための1つまたは複数のメモリデバイスを含む。一般的に、コンピュータは、磁気ディスク、磁気光学ディスク、または、光学ディスクなどの、データを記憶するための1つまたは複数の大容量記憶デバイスをさらに含むか、または、操作可能に当該大容量記憶デバイスと結合されてデータを受信するかまたはデータを伝送するか、または、その両方を兼有する。しかしながら、コンピュータは、必ずとして、このようなデバイスを有するわけではない。なお、コンピュータは、もう1デバイスに埋め込まれることができ、例えば、携帯電話、パーソナルデジタルアシスタント(PDA)、モバイルオーディオまたはビデオおプレーヤー、ゲームコンソール、グローバルポジショニングシステム(GPS)レジーバー、または、汎用シリアルバス(USB)フラッシュドライブなどのポータブル記憶デバイスに埋め込まれることができ、これらデバイスはいくつかの例に過ぎない。
コンピュータプログラム命令とデータの記憶に適したコンピュータ可読媒体は、すべての形式の不揮発性メモリ、媒介、および、メモリデバイスを含み、例えば、半導体メモリデバイス(例えば、EPROM、EEPROM、および、フラッシュデバイス)、磁気ディスク(例えば、内部ハードディスクまたは移動可能ディスク)、磁気光学ディスク、および、CD ROM、および、DVD-ROMディスクを含む。プロセッサとメモリは、専用論理回路によって補完されるかまたは専用論理回路に組み込まれることができる。
本発明は、多くの具体的な実施の細部を含むが、これらを本発明の範囲または保護しようとする範囲を限定するものとして解釈すべきではなく、主に本発明のいくつかの実施例の特徴を叙述するために使用される。本発明の複数の実施例中の特定の特徴は、単一の実施例に組み合わせて実施されることもできる。他方、単一の実施例中の各種の特徴は、複数の実施例で別々に実施されるかまたはいかなる適切なサブ組み合わせで実施されることもできる。なお、特徴が上記のように特定の組み合わせで役割を果たし、また最初からこのように保護すると主張したが、保護すると主張した組み合わせからの1つまたは複数の特徴は、場合によって当該組み合わせから除外されることができ、また保護すると主張した組み合わせはサブ組み合わせまたはサブ組み合わせの変形に向けることができる。
類似的に、図面で特定の順序に従って操作を描いたが、これはこれら操作を示した特定の順序にしたがって実行するかまたは順次に実行するように要求するか、または、例示したすべての操作が実行されることによって期待する結果が実現されると要求することであると理解すべきではない。場合によっては、マルチタスクおよび並列処理が有利である可能性がある。なお、上記の実施例中の各種のシステムモジュールとコンポーネントの分離は、すべての実施例でいずれもこのように分離されなければならないと理解すべきではないし、また、叙述したプログラムコンポーネントとシステムは、一般的に、一緒に単一のソフトウェア製品に統合されるか、または、複数のソフトウェア製品にパッケージされることができることを理解すべきである。
したがって、主題の特定の実施例がすでに叙述された。他の実施例は、添付する「特許請求の範囲」の範囲内にある。場合によっては、特許請求の範囲に記載されている動作は、異なる順序によって実行されても、依然として期待する結果が実現されることができる。なお、図面で描かれた処理は、期待する結果を実現するために、必ずとして、示めされた特定の順序または順次を必要としない。一部の実現において、マルチタスクおよび並列処理が有益である可能性がある。
上記は、本発明の1つまたは複数の実施例の好ましい実施例に過ぎず、本発明の1つまたは複数の実施例を限定するために使用されるものではない。本発明の1つまたは複数の実施例の精神と原則の範囲内で行われたいかなる修正、同等の置換、改良などは、いずれも本発明の1つまたは複数の実施例の範囲に含まれるべきである。

Claims (18)

  1. インタラクティブ対象の駆動方法であって、
    第1画像を取得することと、
    前記第1画像内の目標対象の口部を少なくとも含む顔領域画像を認識し、前記顔領域画像に含まれている前記口部のキーポイント情報を確定することと、
    前記口部のキーポイント情報に基づいて、前記第1画像内の前記目標対象が発話状態にいるか否かを確定することと、
    前記第1画像内の前記目標対象が発話状態にいることが確定されたことに応答して、インタラクティブ対象が応答を実行するように駆動することと、を含む
    ことを特徴とインタラクティブ対象の駆動方法。
  2. 前記口部のキーポイント情報は、目標対象の口部に位置している複数のキーポイントの位置情報を含み、前記複数のキーポイントは、少なくとも1組のキーポイントペアを含み、各組の前記キーポイントペアは、それぞれ上唇および下唇に位置している2つのキーポイントを含み、
    前記口部のキーポイント情報に基づいて、前記目標対象が発話状態にいるか否かを確定することは、
    前記少なくとも1組のキーポイントペアの位置情報に基づいて、各組の前記キーポイントペア中のそれぞれ前記上唇および前記下唇に位置している2つのキーポイントの第1距離を確定することと、
    各組の前記キーポイントペアの前記第1距離に基づいて、前記第1画像内の前記目標対象が発話状態にいるか否かを確定することと、を含む
    ことを特徴とする請求項1に記載のインタラクティブ対象の駆動方法。
  3. 前記第1画像は、画像シーケンス中の1つのフレームであり、
    前記各組の前記キーポイントペアの前記第1距離に基づいて、前記第1画像内の前記目標対象が発話状態にいるか否かを確定することは、
    前記画像シーケンス中から、前記第1画像および少なくとも1つのフレームの第2画像を含む、所定の数の処理待ち画像を、取得することと、
    各フレームの第2画像ごとに、前記第2画像内の各組の前記キーポイントペアの前記第1距離を取得することと、
    前記第1画像内の各組の前記キーポイントペアの前記第1距離、および、各フレームの前記第2画像内の各組の前記キーポイントペアの前記第1距離に基づいて、前記第1画像内の前記目標対象が発話状態にいるか否かを確定することと、を含む
    ことを特徴とする請求項2に記載のインタラクティブ対象の駆動方法。
  4. 前記画像シーケンス中から所定の数の処理待ち画像を取得することは、
    所定の長さのウィンドウおよび所定のステップサイズで、前記画像シーケンス中でウィンドウスライディングを実行し、スライディングを実行するたびに、前記所定の数の処理待ち画像を取得することを含み、
    前記第1画像は、前記ウィンドウ内の最後の1つのフレーム画像である
    ことを特徴とする請求項3に記載のインタラクティブ対象の駆動方法。
  5. 前記キーポイントペアの第1距離は、前記キーポイントペア中の2つのキーポイント間のユークリッド距離を含み、
    前記第1画像内の各組の前記キーポイントペア間の第1距離、および、各フレームの前記第2画像内の各組の前記キーポイントペア間の第1距離に基づいて、前記第1画像内の前記目標対象が発話状態にいるか否かを確定することは、
    前記処理待ち画像の中の目標画像を認識することと、
    前記処理待ち画像中に含まれている前記目標画像の数を確定することと、
    前記目標画像の数と前記処理待ち画像の前記所定の数との間の比率が所定の比率よりも大きいことに応答して、前記第1画像内の目標対象が発話状態にいると確定することと、を含む
    ことを特徴とする請求項3または4に記載のインタラクティブ対象の駆動方法。
  6. 前記処理待ち画像の中の目標画像を認識することは、
    前記各組のキーポイントペアのユークリッド距離の平均値が第1所定の閾値よりも大きい画像を前記目標画像として確定すること、または、
    前記各組のキーポイントペアのユークリッド距離の加重平均値が第2所定の閾値よりも大きい画像を前記目標画像として確定することを含む
    ことを特徴とする請求項5に記載のインタラクティブ対象の駆動方法。
  7. 前記第1所定の閾値および前記第2所定の閾値は、前記処理待ち画像の解像度に基づいて確定されたものである
    ことを特徴とする請求項6に記載のインタラクティブ対象の駆動方法。
  8. 前記目標対象が発話状態にいることに応答して、インタラクティブ対象が応答を実行するように駆動することは、
    前記インタラクティブ対象が待機状態にいる場合、初めで前記第1画像内の前記目標対象が発話状態にいることが確定されたことに応答して、前記インタラクティブ対象を前記目標対象とインタラクティブを実行する状態に駆動することを含む
    ことを特徴とする請求項1から7のいずれか1項に記載のインタラクティブ対象の駆動方法。
  9. インタラクティブ対象の駆動装置であって、
    第1画像を取得するための取得ユニットと、
    前記第1画像内の目標対象の口部を少なくとも含む顔領域画像を認識し、前記顔領域画像に含まれている口部のキーポイント情報を確定するための認識ユニットと、
    前記口部のキーポイント情報に基づいて、前記第1画像内の前記目標対象が発話状態にいるか否かを確定するための確定ユニットと、
    前記第1画像内の前記目標対象が発話状態にいることが確定されたことに応答して、インタラクティブ対象が応答を実行するように駆動するための駆動ユニットと、を備える
    ことを特徴とするインタラクティブ対象の駆動装置。
  10. 前記口部のキーポイント情報は、目標対象の口部に位置している複数のキーポイントの位置情報を含み、前記複数のキーポイントは、少なくとも1組のキーポイントペアを含み、各々の前記キーポイントペアは、それぞれ上唇および下唇に位置している2つのキーポイントを含み、
    前記確定ユニットは、
    前記少なくとも1組のキーポイントペアの位置情報に基づいて、各々の前記キーポイントペア中のそれぞれ前記上唇および前記下唇に位置している2つのキーポイントの第1距離を確定し、および、
    各組の前記キーポイントペアの前記第1距離に基づいて前記第1画像内の前記目標対象が発話状態にいるか否かを確定する
    ことを特徴とする請求項9に記載のインタラクティブ対象の駆動装置。
  11. 前記第1画像は、画像シーケンス中の1つのフレームであり、
    前記確定ユニットは、各組の前記キーポイントペアの前記第1距離に基づいて前記第1画像内の前記目標対象が発話状態にいるか否かを確定するときに、
    前記画像シーケンス中から、前記第1画像および少なくとも1つのフレームの第2画像を含む、所定の数の処理待ち画像を、取得、
    各フレームの第2画像ごとに、
    前記第2画像内の各々の前記キーポイントペアの第1距離を取得し、
    前記第1画像内の各組の前記キーポイントペア間の第1距離、および、各フレームの前記第2画像内の各組の前記キーポイントペア間の第1距離に基づいて、前記第1画像内の前記目標対象が発話状態にいるか否かを確定する
    ことを特徴とする請求項10に記載のインタラクティブ対象の駆動装置。
  12. 前記確定ユニットは、前記画像シーケンス中から、所定の数の処理待ち画像を取得するときに、具体的に、
    所定の長さのウィンドウおよび所定のステップサイズで、前記画像シーケンス中でウィンドウスライディングを実行し、スライディングを実行するたびに、前記所定の数の処理待ち画像を取得し、ここで、前記第1画像は、前記ウィンドウ内の最後の1つのフレーム画像である
    ことを特徴とする請求項11に記載のインタラクティブ対象の駆動装置。
  13. 前記キーポイントペアの第1距離は、前記キーポイントペア中の2つのキーポイント間のユークリッド距離を含み、
    前記確定ユニットは、前記第1画像内の各組の前記キーポイントペア間の第1距離、および、各フレームの前記第2画像内の各組の前記キーポイントペア間の第1距離に基づいて、前記第1画像内の前記目標対象が発話状態にいるか否かを確定するときに、
    前記処理待ち画像の中の目標画像を認識し、
    前記処理待ち画像中に含まれている目標画像の数を確定し、
    前記目標画像の数と前記処理待ち画像の前記所定の数との間の比率が所定の比率よりも大きいことに応答して、前記第1画像内の目標対象が発話状態にいると確定する
    ことを特徴とする請求項11または12に記載のインタラクティブ対象の駆動装置。
  14. 前記確定ユニットは、前記処理待ち画像の中の目標画像を認識するときに、
    前記各組のキーポイントペアのユークリッド距離の平均値が第1所定の閾値よりも大きい画像を前記目標画像として確定し、または、
    前記各組のキーポイントペアのユークリッド距離の加重平均値が第2所定の閾値よりも大きい画像を前記目標画像として確定する
    ことを特徴とする請求項13に記載のインタラクティブ対象の駆動装置。
  15. 前記第1所定の閾値および前記第2所定の閾値は、前記処理待ち画像の解像度に基づいて確定されたものである
    ことを特徴とする請求項14に記載のインタラクティブ対象の駆動装置。
  16. 前記駆動ユニットは、具体的に、
    前記インタラクティブ対象が待機状態にいる場合、初めで前記第1画像内の前記目標対象が発話状態にいることが確定されたことに応答して、前記インタラクティブ対象を前記目標対象とインタラクティブを実行する状態に駆動する
    ことを特徴とする請求項10から15のいずれか1項に記載のインタラクティブ対象の駆動装置。
  17. 電子デバイスであって、
    メモリとプロセッサとを備え、
    前記メモリは、プロセッサ上で運行可能なコンピュータ命令を記憶し、
    前記プロセッサは、前記コンピュータ命令が実行されるときに、請求項1から8のいずれか1項に記載の方法が実現される
    ことを特徴とする電子デバイス。
  18. コンピュータプログラムが記憶されているコンピュータ可読記録媒体であって、
    前記プログラムがプロセッサによって実行されるときに、請求項1から8のいずれか1項に記載の方法が実現される
    ことを特徴とするコンピュータ可読記録媒体。
JP2021549762A 2020-03-31 2020-11-18 インタラクティブ対象の駆動方法、装置、デバイス、及び記録媒体 Pending JP2022531055A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010247255.3 2020-03-31
CN202010247255.3A CN111428672A (zh) 2020-03-31 2020-03-31 交互对象的驱动方法、装置、设备以及存储介质
PCT/CN2020/129855 WO2021196648A1 (zh) 2020-03-31 2020-11-18 交互对象的驱动方法、装置、设备以及存储介质

Publications (1)

Publication Number Publication Date
JP2022531055A true JP2022531055A (ja) 2022-07-06

Family

ID=71550226

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021549762A Pending JP2022531055A (ja) 2020-03-31 2020-11-18 インタラクティブ対象の駆動方法、装置、デバイス、及び記録媒体

Country Status (6)

Country Link
JP (1) JP2022531055A (ja)
KR (1) KR20210124313A (ja)
CN (1) CN111428672A (ja)
SG (1) SG11202109202VA (ja)
TW (1) TW202139064A (ja)
WO (1) WO2021196648A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111428672A (zh) * 2020-03-31 2020-07-17 北京市商汤科技开发有限公司 交互对象的驱动方法、装置、设备以及存储介质
CN113018858B (zh) * 2021-04-12 2023-07-25 深圳市腾讯计算机系统有限公司 一种虚拟角色检测方法、计算机设备以及可读存储介质
CN113139491A (zh) * 2021-04-30 2021-07-20 厦门盈趣科技股份有限公司 视频会议控制方法、系统、移动终端及存储介质
CN113822205A (zh) * 2021-09-26 2021-12-21 北京市商汤科技开发有限公司 会议记录生成方法、装置、电子设备以及存储介质
CN115063867A (zh) * 2022-06-30 2022-09-16 上海商汤临港智能科技有限公司 说话状态识别方法及模型训练方法、装置、车辆、介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108492350A (zh) * 2018-04-02 2018-09-04 吉林动画学院 基于唇读技术的角色口型动画制作方法
CN109977811A (zh) * 2019-03-12 2019-07-05 四川长虹电器股份有限公司 基于嘴部关键位置特征检测实现免语音唤醒的系统及方法
US20190392625A1 (en) * 2018-11-06 2019-12-26 Beijing Baidu Netcom Science and Technology Co., Ltd Method and apparatus for generating animation
CN110620884A (zh) * 2019-09-19 2019-12-27 平安科技(深圳)有限公司 基于表情驱动的虚拟视频合成方法、装置及存储介质
CN110647865A (zh) * 2019-09-30 2020-01-03 腾讯科技(深圳)有限公司 人脸姿态的识别方法、装置、设备及存储介质
CN110750152A (zh) * 2019-09-11 2020-02-04 云知声智能科技股份有限公司 一种基于唇部动作的人机交互方法和系统
CN110826441A (zh) * 2019-10-25 2020-02-21 深圳追一科技有限公司 交互方法、装置、终端设备及存储介质
US20200082635A1 (en) * 2017-12-13 2020-03-12 Tencent Technology (Shenzhen) Company Limited Augmented reality processing method, object recognition method, and related device

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106709400A (zh) * 2015-11-12 2017-05-24 阿里巴巴集团控股有限公司 一种感官张闭状态的识别方法、装置及客户端
CN107122697B (zh) * 2016-02-24 2020-12-18 北京小米移动软件有限公司 照片的自动获取方法及装置、电子设备
CN108646920A (zh) * 2018-05-16 2018-10-12 Oppo广东移动通信有限公司 识别交互方法、装置、存储介质及终端设备
CN109241907A (zh) * 2018-09-03 2019-01-18 北京旷视科技有限公司 标注方法、装置及电子设备
CN110309799B (zh) * 2019-07-05 2022-02-08 四川长虹电器股份有限公司 基于摄像头的说话判断方法
CN111428672A (zh) * 2020-03-31 2020-07-17 北京市商汤科技开发有限公司 交互对象的驱动方法、装置、设备以及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200082635A1 (en) * 2017-12-13 2020-03-12 Tencent Technology (Shenzhen) Company Limited Augmented reality processing method, object recognition method, and related device
CN108492350A (zh) * 2018-04-02 2018-09-04 吉林动画学院 基于唇读技术的角色口型动画制作方法
US20190392625A1 (en) * 2018-11-06 2019-12-26 Beijing Baidu Netcom Science and Technology Co., Ltd Method and apparatus for generating animation
CN109977811A (zh) * 2019-03-12 2019-07-05 四川长虹电器股份有限公司 基于嘴部关键位置特征检测实现免语音唤醒的系统及方法
CN110750152A (zh) * 2019-09-11 2020-02-04 云知声智能科技股份有限公司 一种基于唇部动作的人机交互方法和系统
CN110620884A (zh) * 2019-09-19 2019-12-27 平安科技(深圳)有限公司 基于表情驱动的虚拟视频合成方法、装置及存储介质
CN110647865A (zh) * 2019-09-30 2020-01-03 腾讯科技(深圳)有限公司 人脸姿态的识别方法、装置、设备及存储介质
CN110826441A (zh) * 2019-10-25 2020-02-21 深圳追一科技有限公司 交互方法、装置、终端设备及存储介质

Also Published As

Publication number Publication date
TW202139064A (zh) 2021-10-16
SG11202109202VA (en) 2021-11-29
WO2021196648A1 (zh) 2021-10-07
CN111428672A (zh) 2020-07-17
KR20210124313A (ko) 2021-10-14

Similar Documents

Publication Publication Date Title
JP2022531055A (ja) インタラクティブ対象の駆動方法、装置、デバイス、及び記録媒体
US11354825B2 (en) Method, apparatus for generating special effect based on face, and electronic device
US9349218B2 (en) Method and apparatus for controlling augmented reality
CN105324811B (zh) 语音到文本转换
EP2912659B1 (en) Augmenting speech recognition with depth imaging
CN106664376B (zh) 增强现实设备和方法
EP3341851B1 (en) Gesture based annotations
US20140173440A1 (en) Systems and methods for natural interaction with operating systems and application graphical user interfaces using gestural and vocal input
US10922536B2 (en) Age classification of humans based on image depth and human pose
JP6932206B2 (ja) 空間オーディオの提示のための装置および関連する方法
TWI775134B (zh) 互動方法、裝置、設備以及記錄媒體
JP2016512632A (ja) 音声およびジェスチャー・コマンド領域を割り当てるためのシステムおよび方法
US11935294B2 (en) Real time object surface identification for augmented reality environments
US20160232894A1 (en) Method and apparatus for performing voice recognition on basis of device information
US20240104744A1 (en) Real-time multi-view detection of objects in multi-camera environments
US20210135892A1 (en) Automatic Detection Of Presentation Surface and Generation of Associated Data Stream
WO2021036622A1 (zh) 交互方法、装置、设备以及存储介质
KR20210124306A (ko) 인터랙티브 대상의 구동 방법, 장치, 디바이스 및 기록 매체

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210825

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210825

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220830

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230322