JP2023511239A

JP2023511239A - 操作イベント認識方法、及び装置

Info

Publication number: JP2023511239A
Application number: JP2021536256A
Authority: JP
Inventors: 金易 ▲呉▼
Original assignee: Sensetime International Pte Ltd
Current assignee: Sensetime International Pte Ltd
Priority date: 2020-12-31
Filing date: 2021-04-28
Publication date: 2023-03-17
Also published as: PH12021551258A1; KR20220098311A; AU2021203742B2; CN113544740A; US20220207273A1; CN113544740B; AU2021203742A1

Abstract

本発明の実施例は、操作イベント認識方法、及び装置を提供し、その中で、当該方法は、ビデオの少なくとも２つの画像フレームに対して対象検出と追跡を実行して、前記少なくとも２つの画像フレーム内に含まれた対象の対象変化情報を得ることと、前記対象変化情報に基づいて発生した対象操作イベントを確定することと、を含み得、そのうち、前記対象は、操作可能対象である。本発明の実施例は、イベントの自動的な認識を実現した。【選択図】図１

Description

本発明は、画像処理技術に関し、具体的には、操作イベント認識方法、及び装置に関する。

＜関連出願の互いに引用＞
本発明は、出願日が２０２０年１２月３１日であり、出願番号が１０２０２０１３２６０Ｑであり、発明名称が「操作イベント認識方法、及び装置」であるシンガポール特許出願の優先権を主張し、当該シンガポール特許出願の全ての内容が参照として本願に組み入れられる。

技術の発展に伴い、ますます多くの場面でより多いインテリジェントな要求が存在する。たとえば、そのうちの１つの要求は、場面（たとえば、当該場面はゲーム場であり得る）で発生したイベントを自動的に認識して記録することであり、前記場面で発生したイベントは操作イベントであり得る。当該操作イベントは、場面での参加者の場面での特定の物体に対する移動や取りなどの操作であり得る。これら操作イベントの発生をどのように自動的に収集して認識するかは、場面インテリジェンスの構築において解決されるべき課題である。

これに鑑みて、本発明の実施例は、少なくとも操作イベント認識方法、及び装置を提供する。

第１態様によると、操作イベント認識方法を提供し、前記方法は、ビデオの少なくとも２つの画像フレームに対して対象検出と追跡を実行して、前記少なくとも２つの画像フレーム内に含まれた対象の対象変化情報を得ることと、前記対象の対象変化情報に基づいて、発生した対象操作イベントを確定することと、を含み、そのうち、前記対象は、操作可能対象である。

第２態様によると、操作イベント認識装置を提供し、前記装置は、ビデオの少なくとも２つの画像フレームに対して対象検出と追跡を実行して、前記少なくとも２つの画像フレーム内に含まれた対象の対象変化情報を得るための検出処理モジュールと、前記対象の対象変化情報に基づいて、発生した対象操作イベントを確定するためのイベント確定モジュールと、を備え、その中で、前記対象は、操作可能対象である。

第３態様によると、電子デバイスを提供し、前記電子デバイスは、メモリとプロセッサとを備え、前記メモリは、コンピュータ可読命令を格納し、前記プロセッサは、前記コンピュータ命令を呼び出して、本発明の任意の実施例の操作イベント認識方法を実装する。

第４態様によると、コンピュータプログラムが格納されているコンピュータ可読記録媒体を提供し、前記プログラムがプロセッサによって実行されると、本発明の任意の実施例の操作イベント認識方法が実現される。

第５態様によると、コンピュータ可読コードを含むコンピュータプログラムを提供し、前記コードが電子デバイスで実行されるときに、前記電子デバイスのプロセッサが本発明の任意の実施例の操作イベント認識方法を実行するようにする。

本発明の実施例によって提供される操作イベント認識方法、及び装置によると、ビデオ中の画像フレーム対象に対して検出と追跡を実行することによって、ビデオ中の対象の対象変化情報を得ることができ、当該対象変化情報に基づいて該当する対象操作イベントを自動的に認識することができ、イベントの自動的な認識を実現した。

以下、本発明の１つまたは複数の実施例の技術的解決策をより明確に説明するために、実施例の説明に必要な図面を簡単に紹介する。明らかに、以下の説明における図面は、本発明の１つまたは複数の実施例に記載のいくつかの実施例に過ぎず、当業者は創造的な作業なしにこれら図面に基づいて他の図面を得ることができる。
本発明の少なくとも１つの実施例によって提供される操作イベント認識方法を示すフローを示す模式図である。本発明の少なくとも１つの実施例によって提供されるもう１操作イベント認識方法のフローを示す模式図である。本発明の少なくとも１つの実施例によって提供されるゲームテーブルの場面を示す模式図である。本発明の少なくとも１つの実施例によって提供されるゲームコインの操作イベント認識を示す模式図である本発明の少なくとも１つの実施例によって提供される操作イベント認識装置の構成を示す模式図である。

以下、当業者が本発明の１つまたは複数の実施例における技術的解決策をよりよく理解できるようにするために、本発明の１つまたは複数の実施例における図面と併せて、本発明の１つまたは複数の実施例における技術的解決策を明確かつ完全に説明する。明らかに、説明される実施例は、すべての実施例ではなく、本発明の一部の実施例に過ぎない。本発明の１つまたは複数の実施例に基づいて、当業者が創造的な作業なしに得た他のすべての実施形態は、本開示の保護範囲内に入るはずである。

本発明の実施例は、操作イベント認識方法を提供し、当該方法は、場面内の操作イベントに対する自動的な認識に適用され得る。その中で、場面に含まれた物体は、対象と呼ばれ得、対象操作物（たとえば、人手または他の対象保持具であり、当該対象保持具はたとえばクリップであり得る）を通じて当該対象に対して取りや移動などのいろんなタイプの操作を実行することができる。当該方法は、インテリジェントな場面に装着された収集デバイス（たとえば、カメラ）を利用して、場面で発生した操作イベントに対してビデオを収集し、当該ビデオの分析に基づいて、上記の対象操作物が対象を操作する対象操作イベント（たとえば、人手が特定の物体を取って行ったなど）を自動的に認識することができる。

図１に示すように、本発明の少なくとも１つの実施例によって提供される操作イベント認識方法を示すフローチャートである。図１に示すように、当該方法は、以下のステップを含み得る。

ステップ１００において、ビデオの少なくとも２つの画像フレームに対して対象検出と追跡を実行して、前記少なくとも２つの画像フレーム内に含まれた対象の対象変化情報を得、そのうち、当該対象は、操作可能対象である。

本ステップにおいて、ビデオは、イベント発生場面に装着したカメラを通じて収集して得られた当該場面のビデオである。その中で、前記のイベント発生場面は、人物または事物を含み、また人物または事物の状態などに変化が発生する場面であり得る。例示的に、当該場面は、１つのゲームテーブルであり得る。当該ビデオ中は、複数の画像フレームを含み得る。

ビデオの少なくとも２つの画像フレームは、ビデオ中の連続的な少なくとも２つの画像フレームであり得、または、ビデオ中のすべての画像フレームに対してサンプリングした後に時系列に順に選択した少なくとも２つの画像フレームであり得る。

前記ビデオ中の各画像フレーム内には、「対象」が含まれ得る。対象は、イベント発生場面中の人、動物、物体などの実体を示す。例示的に、上記のゲームテーブルの場面の例をとると、ゲームテーブル上のゲームコインが「対象」と呼ばれ得る。また、たとえば、１つの対象は、ゲームテーブル上に積み上げられた１重ねのゲームコインであり得る。カメラによって収集されたビデオ中の画像フレーム内は、当該対象を含み得、当然ながら、画像フレーム内の対象は２つ以上であり得る。

場面中の対象は、操作可能対象である。ここでの操作可能対象とは、対象が操作性を持つことを意味し、たとえば、当該対象が外力の作用下で対象の一部の属性が変更されることを意味する。当該属性は、対象中コンポーネントの数、対象の立ち／広げなどの状態などを含むがこれらに限定されない。

少なくとも２つの画像フレーム対象に対して検出と追跡を実行することによって、時系列の異なる画像フレーム内で各対象にどのような変化が発生したかを得ることができ、すなわち、対象の対象変化情報を得ることができる。たとえば、前の画像フレーム内で検出された特定の対象が後の画像フレーム内で現れないか、または、特定の対象の状態に変化が発生される（たとえば、立ち状態が広げ状態に変更される）。

ステップ１０２において、対象の対象変化情報に基づいて発生した対象操作イベントを確定する。

対象の対象変化情報が検出されると、当該対象を変化させた対象操作イベントが発生したと見なすことができる。当該対象操作イベントの発生によって、前記対象が変化され、したがって、前記対象の対象変化情報を得ることになる。これに基づいて、本ステップでは、対象の対象変化情報に基づいてどのような対象操作イベントが発生したかを確定することができる。例示的に、検出された対象の対象変化情報が、対象の状態を立ちから広げに変化されたことであると、対応的に発生した対象操作イベントは「対象を広げた」である。

１つの例において、いくつかのイベント発生条件を事前に定義することができ、当該イベント発生条件は、予め設定された、特定の対象操作イベントによって引き起こされた対象の状態、位置、数量、他の対象間の関係などの属性の中の少なくとも１つの変化情報であり得る。

たとえば、対象操作イベントが「対象を取る」である例をとると、対象を取ったイベントが発生した場合、収集ビデオ中の画像フレーム内で当該対象が最初には検出できたが、その後に検出できないと（すなわち消えた）、当該対象を取るイベントに対応するイベント発生条件は、「対象の対象変化情報に基づいて当該対象がビデオ中で消えたことが検出されたと確定される」ことである。

発生し得る対象操作イベントが複数種類あり得るため、たとえば、「対象を取る」、「対象を置く」、「対象を立ち状態から広げ状態に変化する」などがあり得るため、これに応じて、各種類の対象操作イベントに対していずれも対応するイベント変化条件を設定することができる。ステップ１００で対象の対象変化情報を検出した後に、引き続き、当該対象変化情報に基づいて対象にどんな変化が発生したかを確認することができ、当該変化が所定のイベント変化条件を満たすかを確認することができる。対象の対象変化情報が所定のイベント変化条件を満たす場合、さらに、ビデオの少なくとも２つの画像フレーム内での少なくとも一部の画像フレーム内で対象操作物が検出され、また当該対象操作物の位置と前記対象の位置との間の距離が所定の距離閾値未満であると、前記対象操作物を介して前記対象に対して操作を実行することで前記イベント変化条件に対応する対象操作イベントが発生したと確定することができる。

前記の対象操作物は、前記対象に対して操作を実行するための物体であり得、たとえば、人手、対象保持具などであり得る。通常の場合には、対象操作イベントの発生は、当該対象操作物が操作を実行し、また、対象を操作するときに当該対象操作物が前記対象と接触するためである。したがって、画像フレーム内で検出された対象操作物と前記対象との間の距離が離れすぎず、通常は前記対象の位置範囲内で当該対象操作物の存在を検出することができる。ここでの対象の位置範囲内は、当該対象の一定の占有領域を含む範囲であり、言い換えると、前記対象から一定の距離閾値の範囲であり得る。たとえば、前記対象を中心として前記対象から約５ｃｍの範囲であり得る。人手が対象を取る例をとると、人手が当該対象を取る対象操作イベントが発生した場合、当該人手は対象と接触してから当該対象を取ることになり、収集したビデオの少なくとも一部の画像フレーム内で撮影された対象の位置範囲内に人手が同時に存在することになる。当然ながら、一部の画像フレーム内では、人手が対象と直接接触していないが、対象との距離が非常に接近されており、人手が対象の位置範囲内にある。このような非常に接近する距離は人手と対象とにより大の接触確率および操作確率が存在することを示す。つまり、対象操作イベントが発生すると、少なくとも一部の画像フレーム内で対象操作物の存在が検出され、また対象操作物と対象との間の距離が距離閾値未満であることが検出されることになり、当該距離閾値は対象操作物と対象との間の距離が十分に近いことを限定する。

なお、ビデオの画像フレームのうち、対象に変化が発生したことが検出された画像フレームと対象操作物が検出された画像フレームとの間は、通常、画像フレームの収集時間がより近いことをさらに説明する必要がある。例示的に、画像フレームＦ１からＦ３に基づいて「対象が消えた」の変化が発生したと確定されたと仮定する。たとえば画像フレームＦ１に前記対象が存在し、画像フレームＦ３に対象が存在しなく、また画像フレームＦ２で対象操作物である「人手」の存在が検出され、その中で、画像フレームＦ２は時系列上で画像フレームＦ１とＦ３との間に位置する。分かるように、対象操作物が現れた時間が、対象に変化が発生した時間とちょうどマッチングされる。

本実施例の操作イベント認識方法によると、ビデオ中の画像フレーム対象に対して検出と追跡を実行することによって、ビデオ中の対象の対象変化情報を得ることができ、当該対象変化情報に基づいて該当する対象操作イベントを自動的に認識することができ、イベントの自動的な認識を実現した。

図２は、本発明のもう１実施例の操作イベント認識方法を提供し、図２に示すように、当該実施例の方法は対象操作イベントの認識を詳細に説明する。当該方法は、以下の処理を含み得る。

ステップ２００において、第１画像フレーム内で検出して得られた少なくとも１つの第１対象フレームに基づいて、前記第１画像フレーム内で少なくとも１つの対象が検出されたと確定する。

その中で、ビデオ中は、複数の画像フレームが含み得、たとえば第１画像フレームおよび第２画像フレームを含み得、前記第２画像フレームは時系列上で第１画像フレームの後に位置する。

本ステップにおいて、第１画像フレーム内で少なくとも１つの対象フレームを検出することができると仮定し、他の画像フレーム内の対象フレームと区分して説明を容易にするために、当該第１画像フレーム内の対象フレームを第１対象フレームと呼ぶことができる。たとえば、ゲームコインの例をとると、１つの前記対象フレームは、１重ねの積み上げられたゲームコインであり得る。ゲームテーブルに３重ねのゲームコインが積み上げられていると、３つの対象フレームを検出することができる。

その中の各第１対象フレームは、１つの対象を対応し、たとえば、１重ねの積み上げられたゲームコインが１つの対象である。当該第１画像フレームがビデオ中の１番目の画像フレームであると、当該第１画像フレームで検出された前記少なくとも１つの対象を保存することができ、また各対象の対象位置、対象認識結果、および、対象状態を取得することができる。

たとえば、前記の対象位置は、当該対象の第１画像フレームにおける位置情報であり得る。

たとえば、対象は、複数の積み重ね可能な対象コンポーネントを含み得、各対象コンポーネントは、対応するコンポーネント属性を有する。この場合、前記の対象認識結果は、対象コンポーネントの数または対象コンポーネントのコンポーネント属性の中の少なくとも１つを含み得る。例示的に、１つの対象が１重ねのゲームコインである例をとると、当該対象は５つのゲームコインを含み、各ゲームコインが１つの対象コンポーネントである。その中の対象コンポーネントのコンポーネント属性は、たとえば、コンポーネントの種類、コンポーネントの額面価格などであり得、たとえば上記のゲームコインの種類／額面価格であり得る。

たとえば、対象は、少なくとも２つの対象状態を有し、その中で、各画像フレーム内の対象は、その中の１つの対象状態にあることができる。例示的に、対象が積み重ね可能な対象コンポーネントを含む場合、当該対象状態は、対象コンポーネントの積み重ね状態情報であり得、たとえば、対象を構成したこれら対象コンポーネントは、立ち積み重ね状態または広げ状態にある。

上記の各対象の対象位置は、第１画像フレームに基づいて処理を実行して得ることができ、対象認識結果および対象状態は、他のビデオの情報を総合して得ることができる。たとえば、本実施例のビデオは、イベント発生場面の上方の頂部に設置されたカメラによって収集されることができ、また、当該イベント発生場面の側面（たとえば、左側または右側）に少なくとも２つのカメラを設置して他のビデオを収集することができる。当該他のビデオ中の画像フレームは、事前にトレーニングした機械学習モデルを通じて場面中の対象の対象認識結果および対象状態を認識し、当該対象認識結果および対象状態をビデオの画像フレーム内に含まれた対象にマッピングすることができる。

ステップ２０２において、前記第２画像フレーム内で少なくとも１つの第２対象フレームを検出して得、各前記第２対象フレームにそれぞれに対応する対象位置、対象認識結果、および、対象状態を取得する。

その中で、当該第２画像フレームは、時系列上で第１画像フレームの後に位置し、同様に、当該第２画像フレーム内でも少なくとも１つの対象フレームを検出して得ることができ、当該対象フレームを第２対象フレームと呼ぶ。各第２対象フレームも１つの対象に対応される。なお、同様の方式に従って、当該第２対象フレームに対応する各対象の対象位置、対象認識結果、および、対象状態を取得することができる。

ステップ２０４において、対象位置および対象認識結果に基づいて、前記少なくとも１つの対象フレームに対応する各第１対象と既に検出して保存した第２対象との間を比較して、対象間の対応関係を構築する。

本実施例において、第２画像フレーム内で検出された対象と第１画像フレーム内で検出された対象とをマッチングして、２つの画像フレーム内の各対象間の対応関係を構築することができる。その中で、第１画像フレーム内で対象を検出した後に、まず、これら対象の対象位置および対象認識結果を保存し、第１画像フレーム内の対象を第１対象と呼ぶ。第２画像フレーム内で対象が検出された後に、当該対象を第２対象と呼ぶ。

まず、対象位置に基づいて、前記第１対象と第２対象との間の位置類似度マトリックスを構築し、前記対象認識結果に基づいて、前記第１対象と第２対象との間の認識結果類似度マトリックスを構築する。たとえば、位置類似度マトリックスの構築の例をとると、カルマンフィルター（ＫａｌｍａｎＦｉｌｔｅｒ）アルゴリズムを使用して当該位置類似度マトリックスを構築することができる。各第１対象に対して、第１対象の対象位置に基づいて前記第２画像フレームに対応する予測対象位置（すなわち当該第２画像フレームのフレーム時点ｔに対応する予測対象位置）を予測し、さらに、各第１対象の予測対象位置および第２対象の対象位置（実際の対象位置に相当する）に基づいて、位置類似度マトリックスを計算して得る。また、たとえば、各第１対象と第２対象の対象認識結果中の最長共通部分列に基づいて両者間の認識結果類似度マトリックスを構築することができる。

次に、前記位置類似度マトリックスおよび認識結果類似度マトリックスに基づいて、対象類似度マトリックスを得る。たとえば、位置類似度マトリックスおよび認識結果類似度マトリックスのような２つのマトリックスを要素ごとに乗算して１つの新たなマトリックスを、最終の類似度マトリックスとして得、対象類似度マトリックスと呼ぶ。

最後に、前記対象類似度マトリックスに基づいて、各第１対象と第２対象との間に対して最大二部グラスマッチングを実行して、各第１対象に対応する第２対象を確定することができる。

たとえば、特定の第１対象Ｄ１が第２対象Ｄ２に対応すると、第１画像フレーム内の第１対象Ｄ１が第２画像フレーム内では第２対象Ｄ２であることを意味し、この２つの対象は同じ対象である。

また、たとえば、第１画像フレーム内の特定の第１対象が、第２画像フレーム内で対応する第２対象が見つからないと、当該第１対象が第２画像フレームで消えたことを意味する。

また、たとえば、第２画像フレーム内の特定の第２対象が、第１画像フレーム内で対応する第１対象が見つからないと、当該第２対象が第２画像フレーム内に新しく現れた対象であることを意味する。

ステップ２０６において、第１画像フレーム内の対象と第２画像フレーム内の対象とを比較することによって、対象の対象変化情報を確定する。

前記の変化情報は、対象にどんな変化が発生されたかであり得る。たとえば、上記に言及したこのような対象の変化は、対象が消えたかまたは新たな対象が現れたことであり得、さらに、当該対象が２つの画像フレーム内にいずれも存在しているが、対象自身の情報に変化が発生されたことであり得、たとえば、対象状態が立ちから広げに変化されるかまたは対象に含まれた対象コンポーネントの数が増加または減少されたことであり得る。

なお、上記のステップはいずれも第１画像フレームと第２画像フレームの例とって説明したが、実際の実施において、１つの「対象ライブラリ」を保存することができ、たとえば、第１画像フレーム内で対象を検出した後に、対象を当該対象ライブラリに記録し、たとえば、当該第１画像フレーム内の各対象の対象位置、対象認識結果、および、対象状態を記録する。後続の画像フレームで検出された対象に対して、当該対象ライブラリ中の各対象と追跡処理を実行して、対象ライブラリ中の対応する対象を検索することができる。

例示的に、１つの対象ライブラリがあり、第１画像フレーム内で検出された３つの対象が当該対象ライブラリに保存されており、隣接する第２画像フレーム内で４つの対象が検出され、また２つの画像フレーム同士の間の対象を比較して、その中の３つの対象が対象ライブラリ中で対応する対象を検索されると、もう１つの対象は新たに増加されたものであり、この場合、当該新たに増加された対象の位置、対象認識結果、および、対象状態を対象ライブラリに増加することができ、このときに対象ライブラリに４つの対象が存在している。続いて、第２画像フレームに隣接する第３画像フレーム内で２つの対象が検出され、同様に当該２つの対象を対象ライブラリ中の各対象と比較し、対象ライブラリ中で対応する２つの対象が検索されると、対象ライブラリ中のもう２つの対象が当該第３画像フレーム内で検出されなく、すなわち、第３画像フレーム内で消えたので、当該消えた２つの対象を対象ライブラリから削除することができる。上記のように、すなわち、各画像フレーム内で検出された対象を、いずれも対象ライブラリ内の既に検出して保存した各対象と比較し、また現在の画像フレームにおける対象に基づいて対象ライブラリ中の対象を更新し、当該更新は、新たな対象の増加または消えた対象の削除、または、既存の対象の対象認識結果および／または対象状態の更新を含む。

なお、一方では、確定する対象の対象変化情報は、通常、特定の時間帯内の変化であり、たとえば、時点ｔ１から時点ｔ２の時間間隔内の変化であり、また、時点ｔ１で１つの画像フレームを対応的に収集し、時点ｔ２でもう１つの画像フレームを対応的に収集し、本実施例は当該時間間隔内の画像フレームの数量に対して限定しない。したがって、特定の時間帯内の対象の対象変化情報を確定することができ、たとえば、どの対象が増加されたか、どの対象が減少されたか、または、特定の対象の対象状態にどのような変化が発生したかを、確定することができる。

もう一方では、確定する対象の対象変化情報は、通常、対象比較を実行してから得られたものである。たとえば、特定の画像フレーム内の対象を検出した後に、まず、対象ライブラリ中の各対象と比較して、対応する対象を発見し、その後に、対象ライブラリ中のどの対象が増加または減少されたかを確定する。または、対応する対象を発見した後に、当該対象自身の対象状態または対象認識結果に変化が発生したか否かを比較する。

別の一方では、対象に変化が発生したことが検出された場合、対象の増加／減少／状態変化などに関わらず、誤検出が発生される可能性があり、判断の正確性を向上させるために、連続して検出する所定の数の画像フレームに当該変化がすべて常に存在する場合、当該対象の対象変化情報の発生を確認するように設定することができる。

対象変化情報が対象の現れまたは消えである例をとる。

前記少なくとも２つの画像フレームの中の一部の画像フレーム内で特定の対象が検出されないし、また前記一部の画像フレームの後の連続した所定の数の画像フレーム内で、第１目標領域内で前記対象が検出されると、当該対象が第１目標領域に現れた新たな対象であると確認する。

前記少なくとも２つの画像フレームの中の一部の画像フレーム内で、第２目標領域で特定の対象が検出され、また前記一部の画像フレームの後の連続した所定の数の画像フレーム内で、前記第２目標領域内で対象がいずれも検出されないと、当該対象がイベント発生場面中の第２目標領域で消えたとして確認する。

他の例において、対象の対象変化情報は、対象の対象認識結果に変化が発生したことを含み、たとえば、対象内に含まれた対象コンポーネントの数に増加または減少が発生したことを含む。また、たとえば、対象の対象状態に変化が発生した場合、１つの対象が少なくとも２つの対象状態を含み得、各画像フレーム内の対象は、その中の１つの対象状態にある。例示的に、対象状態は、広げ／立ちを含み得、収集した特定の画像フレーム内の対象は、立ち状態または広げ状態にある。

ステップ２０８において、前記対象の対象変化情報が所定のイベント変化条件を満たす場合、さらに前記少なくとも２つの画像フレームの中の少なくとも一部の画像フレーム内で対象操作物が検出され、また前記対象操作物の位置と前記対象の位置との間の距離が所定の距離閾値未満であると、前記対象操作物を介して前記対象に対して操作を実行することで前記イベント変化条件に対応する対象操作イベントが発生したとして確定する。

たとえば、対象の対象変化情報は、時点ｔ１から時点ｔ２のような時間間隔内の変化であり得、また、当該時間間隔内で、前記対象の位置範囲内で対象操作物の存在（たとえば、人手）が検索され、すなわち、対象操作物と対象との距離が所定の距離閾値未満であると、前記対象操作物を介して前記対象に対して操作を実行することでイベント発生条件に対応する対象操作イベントが発生したとして確認することができる。

例示的に、ビデオの少なくとも２つの画像フレーム内で１つの対象が新しく現れたことが検出されると、当該対象を第１対象と呼び、また当該第１対象の前記画像フレームにおける対象位置が当該画像フレーム内の第１目標領域であると確定されると、発生した対象操作イベントが前記第１対象の前記第１目標領域への移動であると確定することができる。また、たとえば、上記の第１目標領域で第１対象が新しく現れたことが検出された上で、さらに、当該時間内に人手が現れたことも検出され、また人手と第１対象の距離が所定の距離閾値未満であると、前記第１対象を前記第１目標領域へ移動するイベントが発生されたと確定することができる。

また、たとえば、対象の対象変化情報が、前記少なくとも２つの画像フレーム内で検出された１つの対象が前記第２目標領域で消えると、当該対象を第２対象と呼ぶことができ、すなわち、第２対象が消える前に前記少なくとも２つの画像フレームの第２目標領域に存在すると、発生した対象操作イベントが、前記第２対象の前記第２目標領域からの移動であると確定することができる。また、たとえば、上記の第２対象の第２目標領域からの移動が検出された上で、さらに、当該セグメント時間内に人手が現れたことも検出され、また人手と第２対象の距離が所定の距離閾値未満であると、前記第２対象を前記第２目標領域から移動するイベントが発生したと確定することができる。

画像内で第１対象の第１目標領域への移動または第２対象の第２目標領域からの移動が検出されると、イベントが発生した位置を自動的に検出することができ、ゲームなどの場面で、対象操作物（たとえば人手など）の場面内での自由的操作を許可し、柔軟なイベント認識を実現することができる。

また、たとえば、再びビデオの少なくとも２つの画像フレーム内で第３対象が検出された例を挙げると、当該第３対象の対象認識結果に変化が発生されたことが検出されると、前記対象認識結果の変化に対応する対象操作イベントが発生したと確定することができる。

例示的に、第３対象の対象認識結果に発生した変化は、第３対象内に含まれた対象コンポーネントの数に変化が発生し、また変化前後の前記第３対象にコンポーネント属性が同一である対象コンポーネントが存在することを含む。第３対象に含まれた対象コンポーネントの数に変化が発生し、また変化前後の第３対象にコンポーネント属性が同一である対象コンポーネントが存在すると、対象認識結果の変化に対応する対象操作イベントが、前記対象の対象コンポーネントの増加または前記対象の対象コンポーネントの減少であると確定することができる。

たとえば、依然としてゲームコインの例をとると、１重ねのゲームコインが２つの額面価格が５０であるゲームコインを含み、この後に位置する画像フレームで検出された当該１重ねのゲームコインが４つの額面価格が５０であるゲームコインを含むと、一方では、当該４つの額面価格が５０であるゲームコインは前述した「２つの額面価格が５０であるゲームコイン」と同じ対象コンポーネントを含み、すなわち、いずれも２つの額面価格が５０であるゲームコインを有し、もう一方では、ゲームコインの数に変化が発生され、すなわちコインの数が増加されたため、当該１重ねのゲームコインにコインの数が増加されたイベントが発生されたと確認することができる。そして、この後の画像フレームで当該１重ねのゲームコインが３つの額面価格が１００であるゲームコインが検出されると、すなわち、当該対象の「３つの額面価格が１００であるゲームコイン」と前述した対象の「２つの額面価格が５０であるゲームコイン」との間に、いかなる同じ種類および額面価格のゲームコインがなく、すなわち、コンポーネント属性が同一である対象コンポーネントが存在しないため、ゲームコインの数の増加と関わらず、ゲームコインが増加されたイベントが発生したと確認しない。このようなゲームコインの数量／属性を総合する認識方式は、イベント認識がより正確にする。

さらに、たとえば、検出された対象の対象変化情報が当該対象の対象状態変化情報を含むと、発生した対象操作イベントを、前記対象状態変化を制御する操作イベントとして確定する。たとえば、対象が積み重ね可能な対象コンポーネントを含む場合、対象状態変化情報は、対象コンポーネントの積み重ね状態情報を含み得、たとえば１重ねのゲームコインが元の積み重ね立ち状態から広げ状態に変化されると、当該１重ねのゲームコインを広げる操作イベントが発生したと確定することができる。

本実施例の操作イベント認識方法によると、ビデオ中の画像フレーム対象に対して検出と追跡を実行することによって、ビデオ中の対象の対象変化情報を得ることができ、当該対象変化情報に基づいて該当する対象操作イベントを自動的に認識することができ、イベントの自動的な認識を実現した。また、対象認識結果と対象位置とを組み合わせて追跡することによって、当該対象をより正確に追跡することができる。

人工知能技術の継続的な発展に伴い、多くの場所で知能の構築を試しており、たとえば、そのうちの１つの課題は、スマートゲーム場の構築である。この場合、スマートゲーム場の構築の中の１つの要件は、ゲーム場で発生する操作イベントを自動的に認識することであり、たとえば、プレイヤーがゲームコインに対してどのような操作を実行したかを自動的に認識することであり、たとえば、ゲームコインを増加したか、ゲームコインを広げたかなどであり得る。本発明の実施例によって提供される操作イベント認識方法は、スマートゲーム場での操作イベントを認識することができる。

例示的な卓上ゲームの場面において、複数の人が１つのゲームテーブルの周りに座ることができ、当該ゲームテーブルは複数のゲーム領域を含み得、異なるゲーム領域は異なるゲーム定義を含み得、これらゲーム領域は以下の説明で異なる積み重ね領域であり得る。また、マルチプレイヤーゲームでは、ユーザがゲームコインを使ってゲームをプレイできる。

たとえば、ユーザは、自分に属するある物品を当該ゲームコインと交換し、ゲームコインをゲームテーブルの異なる積み重ね領域に置いてゲームをプレイできる。例を挙げて言えば、第１ユーザは、自分が持っている複数の水彩ペンをゲームで使用するゲームコインと交換し、ゲームコインを利用してゲームテーブルの異なる積み重ね領域間でゲームルールに従ってゲームを実行することができ、第２ユーザがゲームで第１ユーザに勝った場合、当該第１ユーザの水彩ペンを第２ユーザに属される。たとえば、上記の当該ゲームは、休日などの余暇に、複数の家族でレクリエーションを行うのに適している。

次に、図３に示すゲームテーブルの例をとると、図３に示すように、ゲームの場面では、ゲームテーブル２０を利用してゲームを行うことができる。両側のカメラ２１１および２１２を利用してゲームテーブル上の各積み重ね領域に置いたゲームコインの画像を収集する。ゲームに参加したユーザ２２１、ユーザ２２２、および、ユーザ２２３は、ゲームテーブル２０の一側に位置し、当該ユーザ２２１、ユーザ２２２、および、ユーザ２２３を第１ユーザとよぶことができる。ゲームに参加したもう１つのユーザ２３は、ゲームテーブル２０のも一側に位置し、当該ユーザ２３を第２ユーザと呼ぶことができる。第２ユーザは、ゲームの進行を制御する責任を負うユーザであり得る。

ゲームの開始段階で、各第１ユーザは、自分の交換物（たとえば、水彩ペン、または他のユーザが興味を持ちそうなその他の物品）を使用して第２ユーザとゲームコインを好感し、第２ユーザは、ゲームコインの収納領域２７内のゲームコインを第１ユーザに渡す。その後に、第１ユーザは、ゲームコインをゲームテーブルの所定の操作領域に置き、たとえば第１ユーザ２２２は所定の操作領域２４１に置き、第１ユーザ２２３は所定の操作領域２４２に置く。ゲームの実行段階で、カードディーラー２５がゲーム実行領域２６にカードを配り、ゲームを進行させる。ゲームが完了した後、第２ユーザは、ゲーム実行領域２６のカードの状況に従って、ゲーム結果を確定し、また、ゲームに勝った第１ユーザにゲームコインを増加する。上記の収納領域２７、所定の操作領域２４１、所定の操作領域２４２などをすべて積み重ね領域と呼ぶことができる。

なお、図３からさらに分かるように、ゲームテーブルは、複数の所定の操作領域を含み、ユーザ（ゲームプレイヤー）は、これら所定の操作領域内でゲームコインの出し入れを行う。たとえば、所定の操作領域２４１および所定の操作領域２４２の場合、当該所定の操作領域のゲームコインは、複数のゲームコインをゲームテーブルに垂直に上から下に向かって積み重ねられてもよい。

本実施例において、ゲームテーブルの上方に配置した俯瞰カメラにより撮影されたビデオを利用して、ゲームテーブルで実行されている動作すなわち操作イベントを判断することができる。その中で、当該ゲームテーブルをイベント発生場面と呼ぶことができ、当該場面中の対象はゲームコインであり得、たとえば、所定の操作領域に積み上げられた１重ねのゲームコインを１つの対象と呼ぶことができる。当該場面での対象操作物は、ゲーム参加者の人手であり得、当該場面で発生する可能性がある対象操作イベントは、ゲームコインの取り／ゲームコインの増加／ゲームコインの広げなどであり得る。

なお、俯瞰カメラで撮影したビデオを利用して場面でのイベントを自動的に認識する場合、ゲームテーブルの両側に設置されたカメラ２１１および２１２で収集した対象の側面画像を利用して補助することができる。たとえば、側面カメラが撮影した対象側面画像に対して、事前にトレーニングした機械学習モデルを利用して、対象状態または対象認識結果を認識して得、認識したこれら対象情報を俯瞰カメラが撮影した対象に割り当てる。たとえば、俯瞰カメラが撮影した画像フレームに基づいて、対象位置、対象数量などの情報を得、さらに、側面カメラによって得られた対象状態／対象認識結果を組み合わせて、一緒に対象ライブラリに保存する。ビデオ中の各画像フレームに対する継続的な追跡と検出につれて、最新に検出された対象変化情報に基づいて対象ライブラリ中の対象情報を継続的な更新することができることをさらに説明する必要がある。たとえば、対象ライブラリ中のある対象が５つの対象コンポーネントを含み、現在画像フレームで当該対象が７つの対象コンポーネントを含んだことが検出されると、これに基づいて対象ライブラリに保存した当該対象に含まれた対象コンポーネントの数を７つに更新する。後続の画像フレーム検出結果を当該対象ライブラリと比較するときに、最新な対象コンポーネントの数と比較する。

以下のように、ゲームコインの例を取って、図４を参照してゲームコインに対する操作イベントをどのように認識するかを説明する。

対象追跡：
たとえば、ゲームテーブルの上方の俯瞰カメラによって撮影されたビデオ中の各々の画像フレームに対してすべて以下の処理を実行する。

ステップ４００において、現在画像フレームに対して対象検出を実行して、少なくとも１つの画像フレームを検出し、その中で、各々の対象フレームは、１つの対象に対応し、各々の対象は、少なくとも１つのゲームコインを含み得る。たとえば、特定の画像フレーム内で３つの対象を検出することができ、この３つの対象は３重ねのゲームコインであり得る。

ステップ４０２において、その中の各々の対象の対象位置および対象認識結果を得る。

たとえば、対象位置は、当該対象の画像フレームにおける位置であり得、対象認識結果は、対象に含まれたゲームコインの数であり得る。

ステップ４０４において、現在の画像フレーム内の各対象と対象ライブラリ中の各対象との間を、前記対象位置および対象認識結果に基づいて類似度マトリックスを構築する。

たとえば、前記対象位置に基づいて、現在画像フレーム内で検出した各対象と対象ライブラリ中の各対象との間の位置類似度マトリックスを構築することができる。対象認識結果に基づいて、現在画像フレーム内で検出した各対象と対象ライブラリ中の各対象との間の認識結果類似度マトリックスを構築することができる。たとえば、対象ライブラリにｍ個の対象が存在し、現在画像フレームにｎ個の対象が存在すると仮定すると、１つのｍ＊ｎの類似度マトリックス（位置類似度マトリックスまたは認識結果類似度マトリックス）を構築することができ、その中で、ｍおよびｎは、正の整数である。

ステップ４０６において、前記位置類似度マトリックスおよび認識結果類似度マトリックスに基づいて対象類似度マトリックスを得る。

ステップ４０８において、前記対象類似度マトリックスに基づいて、現在画像フレーム内で検出した各対象と対象ライブラリ中の各対象との間に対して最大二部グラスマッチングを実行して、現在の画像フレーム内の各対象に対応する対象ライブラリ中の対象を確定する。

ステップ４１０において、対象の追跡結果に基づいて対象の対象変化情報を確定する。

たとえば、ある１重なりのゲームコインが第１画像フレームの特定の目標領域で検出され、その後の第２画像フレームで検出されないと仮定すると、すなわち、対象ライブラリ中の当該１重ねのゲームコインが第２画像フレーム内で対応する対象がないと、対象変化情報が、当該１重ねのゲームコインが目標領域から消えたことであると確定することができる。

また、たとえば、ある重なりのゲームコインが常に存在しており、対象ライブラリ中の当該対象に含まれたゲームコイン数が５つであるが、現在画像フレームで検出されたゲームコイン数が７つであると、対象変化情報がゲームコインの数量の増加であると確定することができる。

イベント認識：
対象変化が発生したと確定した後に、たとえば、ある重なりのゲームコイン中のゲームコインの数が増加されたかまたはある重なりのゲームコインが消えた場合、引き続き、ゲームコインの操作イベントに対する認識を実行することができる。

たとえば、検出された対象変化情報が、時間帯Ｔ内で、ゲームテーブルの第１目標領域の１重ねのゲームコインが消えたことであり、また、当該時間帯内で、画像フレーム内で当該１重ねのゲームコインとの距離閾値範囲の領域で人手が現れたことが同時に検出されると、「当該１重ねのゲームコインの第１目標領域から移動」の対象操作イベントが発生したと確認することができる。

また、たとえば、検出された対象変化情報が、時間帯Ｔ内で、ゲームテーブルの第２目標領域で新しく現れた１重ねのゲームコインを検出されたことであり、また、当該時間帯内で、画像フレーム内で当該１重ねのゲームコインの距離閾値範囲の領域で人手が現れたことが同時に検出されると、「当該１重ねのゲームコインの前記第２目標領域への移動」の対象操作イベントが発生したと確認することができる。

また、たとえば、検出された対象変化情報が、ゲームテーブルのある領域の１重ねのゲームコインが元の基準で１つまたは複数のゲームコインが増加／減少されたことが検出されたことであり、また、変化前後の当該１重ねのゲームコインに属性が同一であるゲームコインが存在し、当該時間帯内で、画像フレーム内で当該ゲームコイン距離閾値範囲の領域で人手が現れたことが同時に検出されると、「当該１重ねのゲームコインへのゲームコインの増加／減少」の操作イベントが発生したと確認することができる。

さらに、たとえば、検出された対象変化情報が、ゲームテーブルのある領域の１重ねのゲームコインの状態が立ちから広げに変化されたことまたは広げから立ちに変更されたことが検出されたことであり、また、当該時間帯内で、画像フレーム内で当該ゲームコイン距離閾値範囲の領域で人手が現れたことが同時に検出されると、「当該１重ねのゲームコインの広げ／当該１重ねのゲームコインの立ち」の操作イベントが発生したと確認することができる。

本発明の実施例は、操作イベント認識方法を提供することによって、イベント発生場面の操作イベントの自動的な認識を実現することができ、また、異なる対象変化情報に対して、対応する操作イベントを認識することができ、細かな操作イベント認識を実現した。

操作イベントの認識結果に基づいて他の操作をさらに実行することができる。依然としてゲーム場面の例をとると、図３中の第２ユーザ２３がゲームで勝った第１ユーザにゲームコインを増加するときに、通常、第１ユーザに割り当てようとするゲームコインを収納領域２７に広げて、これら割り当て待ちのゲームコインの数が正確であるか否かを確認する。スマートゲーム場面での要件は、これら勝った第１ユーザに割り当てようとするゲームコインが正確であるか否かを自動的に認識することであり、その前提はまずゲームテーブル上のどの１重ねのゲームコインが割り当て待ちのゲームコインであるかを確定することである。本発明の実施例の方法に従って、どの１重ねのゲームコインに「当該１重ねのゲームコインを広げる」のイベントが発生したかを検出することができ、ある重なりのゲームコインが広げられたことが検出されると、この１重なりのゲームコインが勝った第１ユーザに割り当てようとするゲームコインであると確認することができ、引き続き、ゲームコインの金額が正確か否かを判断することができる。また、たとえば、本発明の実施例の方法を利用して新しく現れたある重なりのゲームコインが検出されたときに、プレイヤーが新たなゲームコインを投入したかを確認することができ、引き続きプレイヤーが投入したゲームコインの一時金を判断することができる。

また、たとえば、本実施例の方法によって、さらに、ゲームテーブルの特定の領域に新しく現れた１重ねのゲームコインを自動的に認識することができ、すなわち、当該領域に新しく投入したゲームコインがあるときに、画像フレーム内の人手がどのプレイヤーの手であるかを認識して、この１重なりのゲームコインがどのプレイヤーが投入したかを確認することができる。その中で、人手を認識するときに、ゲームテーブルの側面のカメラが撮影した画像を組み合わせて共同で認識することができる。たとえば、ゲームテーブルの側面のカメラが撮影した画像に対して、深層学習モデルを使用して人手と人顔との関連関係を検出し、さらに、マルチカメラフュージョンアルゴリズムによって、俯瞰カメラが収集した画像フレーム内にマッピングすることによって、どのユーザがゲームコインを投入したかを知ることができる。

また、たとえば、本実施例の方法によって、プレイヤーのゲームテーブルの特定のマーカーを操作したイベントが自動的に検出されたときに、ゲーム段階の切り替えを確認することができる。

図５は、本発明の実施例の操作イベント認識装置の構成を示す模式図であり、当該装置は、本発明の任意の実施例の操作イベント認識方法に適用され得る。図５に示すように、当該装置は、検出処理モジュール５１とイベント確定モジュール５２とを備え得る。

検出処理モジュール５１は、ビデオの少なくとも２つの画像フレームに対して対象検出と追跡を実行して、少なくとも２つの画像フレーム内に含まれた対象の対象変化情報を得、その中で、前記対象は、操作可能対象である。

イベント確定モジュール５２は、対象の対象変化情報に基づいて発生した対象操作イベントを確定する。

１例において、イベント確定モジュール５２は、前記対象の対象変化情報に基づいて発生した対象操作イベントを確定するときに、前記対象の対象変化情報が所定のイベント発生条件を満たす場合、さらに前記少なくとも２つの画像フレームの中の少なくとも一部の画像フレーム内で対象操作物が検出され、また前記対象操作物の位置と前記対象の位置との間の距離が所定の距離閾値未満であると、前記対象操作物を介して前記対象に対して操作を実行することで前記イベント発生条件に対応する対象操作イベントが発生したと確定する。

１例において、検出処理モジュール５１は、ビデオの少なくとも２つの画像フレームに対して対象検出と追跡を実行して、前記少なくとも２つの画像フレーム内に含まれた対象の対象変化情報を得るときに、前記少なくとも２つの画像フレーム内に新しく現れた第１対象を検出し、前記第１対象の前記少なくとも２つの画像フレーム内で現れた対象位置を第１目標領域として確定し、
前記イベント確定モジュール５２は、具体的に、発生した対象操作イベントが前記第１対象の前記第１目標領域への移動であると確定する。

１例において、検出処理モジュール５１は、ビデオの少なくとも２つの画像フレームに対して対象検出と追跡を実行して、前記少なくとも２つの画像フレーム内に含まれた対象の対象変化情報を得るときに、前記少なくとも２つの画像フレーム内から消えた第２対象を検出し、前記第２対象の前記少なくとも２つの画像フレーム内で消える前の対象位置を第２目標領域として確定し、
前記イベント確定モジュール５２は、具体的に、発生した対象操作イベントが前記第２対象の前記第２目標領域からの移動であると確定する。

１例において、検出処理モジュール５１は、ビデオの少なくとも２つの画像フレームに対して対象検出と追跡を実行して、前記少なくとも２つの画像フレーム内に含まれた対象の対象変化情報を得るときに、前記少なくとも２つの画像フレーム内の第３対象の対象認識結果に発生した変化を検出し、
前記イベント確定モジュール５２は、具体的に、前記対象認識結果の変化に対応する対象操作イベントが発生したと確定する。

１例において、検出処理モジュール５１は、前記少なくとも２つの画像フレーム内の第３対象の対象認識結果に発生した変化を検出するときに、前記第３対象内に含まれた対象コンポーネントの数に発生した変化を検出し、また変化前後の前記第３対象にコンポーネント属性が同一である対象コンポーネントが存在するか否かを検出し、その中で、前記第３対象は、複数の積み重ね可能な対象コンポーネントを含み、各対象コンポーネントは、対応するコンポーネント属性を有し、前記対象認識結果は、対象コンポーネントの数、および、対象コンポーネントのコンポーネント属性の中の少なくとも１つを含む。

前記イベント確定モジュール５２は、前記対象認識結果の変化に対応する対象操作イベントが発生したと確定するこきに、前記第３対象内に含まれた対象コンポーネントの数に変化が発生し、また変化前後の前記第３対象にコンポーネント属性が同一である対象コンポーネントが存在することが検出された場合、発生した対象操作イベントを、前記第３対象の対象コンポーネントの数が増加または減少されたこととして確定する。

１例において、イベント確定モジュール５２は、前記対象変化情報に基づいて対応する対象操作イベントが発生したと確定するときに、対象状態変化情報に基づいて発生した対象操作イベントが対象状態変化を制御する操作イベントであると確定し、その中で、前記対象は、少なくとも２つの対象状態を有し、各画像フレーム内の対象は、その中の１つの対象状態にあり、前記対象変化情報は、前記対象の対象状態変化情報を含む。

１例において、検出処理モジュール５１は、具体的に、ビデオの少なくとも２つの画像フレーム内でそれぞれ対象の対象位置を検出し、前記少なくとも２つの画像フレーム内で検出された対象をそれぞれ認識して対象認識結果を得、異なる画像フレーム内で検出された対象のそれぞれの対象位置および対象認識結果に基づいて、異なる画像フレーム内で検出された対象をマッチングして、前記少なくとも２つの画像フレーム内に含まれた対象の対象変化情報を得る。

いくつかの実施例において、上記装置は、上記に記載の対応される任意の方法を実行することができ、簡素化のために、ここでは繰り返して説明しない。

本発明の実施例は、電子デバイスをさらに提供し、当該電子デバイスは、メモリとプロセッサとを備え、前記メモリは、コンピュータ可読命令を格納し、前記プロセッサは、前記コンピュータ命令を呼び出して、本明細書の任意の実施例の方法を実装する。

本発明の実施例は、コンピュータプログラムが格納されているコンピュータ可読記録媒体をさらに提供し、前記プログラムがプロセッサによって実行されると、本明細書の任意の実施例の方法が実現される。

本発明の実施例は、コンピュータ可読コードを含むコンピュータプログラムをさらに提供し、前記コードが電子デバイスで実行されるときに、前記電子デバイスのプロセッサが本明細書の任意の実施例の方法を実行するようにする。

当業者は、本発明の１つまたは複数の実施例は、方法、システム、または、コンピュータプログラム製品として提供することができることを了解すべきである。したがって、本発明の１つまたは複数の実施例は、完全なハードウェアの実施例、完全なソフトウェアの実施例、または、ソフトウェアとハードウェアを組み合わせる実施例の形式を使用することができる。また、本発明の１つまたは複数の実施例は、コンピュータ利用可能なプログラムコードを含む１つまたは複数のコンピュータ利用可能な記憶媒体（ディスクメモリ、ＣＤ―ＲＯＭ、光学メモリなどを含むが、これらに限定されない）上で実施されるコンピュータプログラム製品の形式を使用することができる。

本発明の実施例は、コンピュータ可読記録媒体をさらに提供し、当該記録媒体には、コンピュータプログラムが格納されており、前記プログラムがプロセッサによって実行されると、本発明の任意の実施例に説明された本発明の任意の実施例に説明された操作イベント認識方法のステップを実現する。

本明細書に記載の「および／または」は、少なくとも両者の中の１つを有することを示し、たとえば、「Ａおよび／またはＢ」は、Ａ、Ｂ、および、「ＡおよびＢ」のような３つの解決策を含む。

本発明における各実施例は、いずれも、漸進的な方式を使用して叙述され、各実施例同士の間の同一または類似な部分は互いに参照することができ、各々の実施例では他の実施例との異なるところに焦点を合わせて説明した。特に、データ処理デバイスの実施例の場合、基本的に方法の実施例と類似であるため、比較的に的に簡単に叙述したが、関連するところは方法の実施例の部分の説明を参照すればよい。

上記で本発明の特定の実施例を叙述した。他の実施例は、添付する「特許請求の範囲」の範囲内にいる。いくつかの場合、特許請求の範囲に記載の行為またはステップは、実施例と異なる順序に従って実行されることができ、このときにも依然として期待する結果が実現されることができる。また、図面で描かれた過程は、期待する結果を得るために、必ずとしても、示された特定の順序または連続的な順序を必要としない。いくつかの実施形態において、マルチタスク処理および並列処理も可能であるか、または、有益であり得る。

本発明における主題および機能操作の実施例は、デジタル電子回路、有形コンピュータソフトウェアまたはファームウェア、本発明に開示される構成およびその構造的同等物を含むコンピュータハードウェア、または、それらの１つまたは複数の組み合わせで、実現されることができる。本発明における主題の実施例は、１つまたは複数のコンピュータプログラムとして実現されることができ、すなわち、有形の非一時的プログラムキャリア上に符号化されて、データ処理装置によって実行されるか、または、データ処理装置の操作を制御するための、コンピュータプログラム命令中の１つまたは複数のモジュールとして実現されることができる。代替的または追加的に、プログラム命令は、手動で生成する伝播信号上に符号化されることができ、例えば、機械が生成する電気信号、光信号、または、電磁信号に符号化されることができる。当該信号は、情報を符号化して適切な受信機装置に伝送して、データ処理装置によって実行されるようにするために、生成される。コンピュータ記憶媒体は、機械可読記憶デバイス、機械可読記憶基板、ランダムにまたはシリアルアクセスメモリデバイス、または、それらの１つまたは複数の組み合わせであり得る。

本発明における処理と論理フローは、１つまたは複数のコンピュータプログラムを実行する１つまたは複数のプログラム可能なコンピュータによって実行されることができ、入力データに基づいて操作を実行して出力を生成することによって該当する機能を実行する。前記処理と論理フローは、さらに、例えば、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）またはＡＳＩＣ（専用集積回路）などの専用論理回路によって実行されることができ、また、装置も専用論理回路として実現されることができる。

コンピュータプログラムの実行に適したコンピュータは、例えば、汎用、および／または、専用マイクロプロセッサ、または、いかなる他の種類の中央処理ユニットを含む。一般的に、中央処理ユニットは、読み取り専用メモリ、および／または、ランダムアクセスメモリから、命令とデータを受信することになる。コンピュータの基本コンポーネントは、命令を実施または実行するための中央処理ユニット、および、命令とデータを記憶するための１つまたは複数のメモリデバイスを含む。一般的に、コンピュータは、磁気ディスク、磁気光学ディスク、または、光学ディスクなどの、データを記憶するための１つまたは複数の大容量記憶デバイスをさらに含むか、または、操作可能に当該大容量記憶デバイスと結合されてデータを受信するかまたはデータを伝送するか、または、その両方を兼有する。しかしながら、コンピュータは、必ずとして、このようなデバイスを有するわけではない。なお、コンピュータは、もう１デバイスに埋め込まれることができ、例えば、携帯電話、パーソナルデジタルアシスタント（ＰＤＡ）、モバイルオーディオまたはビデオおプレイヤー、ゲームコンソール、グローバルポジショニングシステム（ＧＰＳ）レジーバー、または、汎用シリアルバス（ＵＳＢ）フラッシュドライブなどのポータブル記憶デバイスに埋め込まれることができ、これらデバイスはいくつかの例に過ぎない。

コンピュータプログラム命令とデータの記憶に適したコンピュータ可読媒体は、すべての形式の不揮発性メモリ、媒介、および、メモリデバイスを含み、例えば、半導体メモリデバイス（例えば、ＥＰＲＯＭ、ＥＥＰＲＯＭ、および、フラッシュデバイス）、磁気ディスク（例えば、内部ハードディスクまたは移動可能ディスク）、磁気光学ディスク、および、ＣＤＲＯＭ、および、ＤＶＤ―ＲＯＭディスクを含む。プロセッサとメモリは、専用論理回路によって補完されるかまたは専用論理回路に組み込まれることができる。

本発明は、多くの具体的な実施の細部を含むが、これらを本発明の範囲または保護しようとする範囲を限定するものとして解釈すべきではなく、主に本発明のいくつかの実施例の特徴を叙述するために使用される。本発明の複数の実施例中の特定の特徴は、単一の実施例に組み合わせて実施されることもできる。他方、単一の実施例中の各種の特徴は、複数の実施例で別々に実施されるかまたはいかなる適切なサブ組み合わせで実施されることもできる。なお、特徴が上記のように特定の組み合わせで役割を果たし、また最初からこのように保護すると主張したが、保護すると主張した組み合わせからの１つまたは複数の特徴は、場合によって当該組み合わせから除外されることができ、また保護すると主張した組み合わせはサブ組み合わせるまたはサブ組み合わせる変形に向けることができる。

同様に、図面では操作が特定の順序で描かれているが、これは、これらの操作を示されている特定の順序で実行されるか順次に実行される必要があり、または、例示したすべての操作を全部実行して期待する結果を実装する必要があると、解釈してはならない。場合によっては、マルチタスクと並列処理が有利な場合がある。なお、上記の実施例における様々なシステムモジュールおよびコンポーネントの分離は、すべての実施例においてそのような分離を必要とするものとして理解されるべきではなく、説明されたプログラムコンポーネントおよびシステムは、一般的に、単一のソフトウェア製品に一緒に統合できることを理解されたい。複数のソフトウェア製品で、または複数のソフトウェア製品にパッケージ化されている。

上記で本発明の特定の実施例を叙述した。他の実施例は、添付する「特許請求の範囲」の範囲内にいる。いくつかの場合、特許請求の範囲に記載の行為またはステップは、実施例と異なる順序に従って実行されることができ、このときにも依然として期待する結果が実現されることができる。いくつかの実施形態において、マルチタスク処理および並列処理も可能であるか、または、有益であり得る。

上記は、本発明の１つまたは複数の実施例の好ましい実施例に過ぎず、本発明の１つまたは複数の実施例を限定するために使用されるものではない。本発明の１つまたは複数の実施例の精神と原則の範囲内で行われたいかなる修正、同等の置換、改良などは、いずれも本発明の１つまたは複数の実施例の範囲に含まれるべきである。

Claims

操作イベント認識方法であって、
ビデオの少なくとも２つの画像フレームに対して対象検出と追跡を実行して、前記少なくとも２つの画像フレーム内に含まれた対象の対象変化情報を得ることと、
前記対象変化情報に基づいて発生した対象操作イベントを確定することと、を含み、
前記対象は、操作可能対象である
ことを特徴とする操作イベント認識方法。
前記対象変化情報に基づいて発生した対象操作イベントを確定することは、
前記対象変化情報が所定のイベント発生条件を満たす場合、さらに前記少なくとも２つの画像フレームの中の少なくとも一部の画像フレーム内で対象操作物が検出され、また前記対象操作物の位置と前記対象の位置との間の距離が所定の距離閾値未満であると、前記対象操作物を介して前記対象に対して操作を実行することで前記イベント発生条件に対応する対象操作イベントが発生したと確定することを含む
ことを特徴とする請求項１に記載の操作イベント認識方法。
前記対象操作物は、手または対象保持具を含む
ことを特徴とする請求項２に記載の操作イベント認識方法。
前記ビデオの少なくとも２つの画像フレームに対して対象検出と追跡を実行して、前記少なくとも２つの画像フレーム内に含まれた対象の対象変化情報を得ることは、
前記少なくとも２つの画像フレーム内に新しく現れた第１対象を検出することと、
前記第１対象の前記少なくとも２つの画像フレーム内で現れた対象位置を第１目標領域として確定することと、を含み、
前記対象変化情報に基づいて発生した対象操作イベントを確定することは、
発生した対象操作イベントが前記第１対象の前記第１目標領域への移動であると確定することを含む
ことを特徴とする請求項１に記載の操作イベント認識方法。
前記ビデオの少なくとも２つの画像フレームに対して対象検出と追跡を実行して、前記少なくとも２つの画像フレーム内に含まれた対象の対象変化情報を得ることは、
前記少なくとも２つの画像フレーム内から消えた第２対象を検出することと、
前記第２対象の前記少なくとも２つの画像フレーム内で消える前の対象位置を第２目標領域として確定することと、を含み、
前記対象変化情報に基づいて発生した対象操作イベントを確定することは、
発生した対象操作イベントが前記第２対象の前記第２目標領域からの移動であると確定することを含む
ことを特徴とする請求項１に記載の操作イベント認識方法。
前記ビデオの少なくとも２つの画像フレームに対して対象検出と追跡を実行して、前記少なくとも２つの画像フレーム内に含まれた対象の対象変化情報を得ることは、
前記少なくとも２つの画像フレーム内の第３対象の対象認識結果に発生した変化を検出することを含み、
前記対象変化情報に基づいて発生した対象操作イベントを確定することは、
前記対象認識結果の変化に対応する対象操作イベントが発生したと確定することを含む
ことを特徴とする請求項１に記載の操作イベント認識方法。
前記第３対象は、複数の積み重ね可能な対象コンポーネントを含み、各対象コンポーネントは、対応するコンポーネント属性を有し、
前記対象認識結果は、対象コンポーネントの数、および、対象コンポーネントのコンポーネント属性の中の少なくとも１つを含み、
前記少なくとも２つの画像フレーム内の第３対象の対象認識結果に発生した変化を検出することは、
前記第３対象内に含まれた対象コンポーネントの数に発生した変化を検出することと、
変化前後の前記第３対象にコンポーネント属性が同一である対象コンポーネントが存在するか否かを検出することを含み、
前記対象認識結果の変化に対応する対象操作イベントが発生したと確定することは、
前記第３対象内に含まれた対象コンポーネントの数に変化が発生し、また変化前後の前記第３対象にコンポーネント属性が同一である対象コンポーネントが存在することが検出された場合、発生した対象操作イベントを、前記第３対象の対象コンポーネントの数が増加または減少されたこととして確定することを含む
ことを特徴とする請求項６に記載の操作イベント認識方法。
前記対象は、少なくとも２つの対象状態を有し、各画像フレーム内の対象は、その中の１つの対象状態にあり、
前記対象変化情報は、前記対象の対象状態変化情報を含み、
前記対象変化情報に基づいて発生した対象操作イベントを確定することは、
前記対象状態変化情報に基づいて発生した対象操作イベントを、前記対象状態変化を制御する操作イベントとして確定することを含む
ことを特徴とする請求項１に記載の操作イベント認識方法。
前記対象は、積み重ね可能な対象コンポーネントを含み、
前記対象変化情報は、対象コンポーネントの積み重ね状態情報を含む
ことを特徴とする請求項８に記載の操作イベント認識方法。
前記ビデオの少なくとも２つの画像フレームに対して対象検出と追跡を実行して、前記少なくとも２つの画像フレーム内に含まれた対象の対象変化情報を得ることは、
ビデオの少なくとも２つの画像フレーム内でそれぞれ対象の対象位置を検出することと、
前記少なくとも２つの画像フレーム内で検出された対象をそれぞれ認識して該当する対象認識結果を得ることと、
異なる画像フレーム内で検出された対象のそれぞれの対象位置および対象認識結果に基づいて、異なる画像フレーム内で検出された対象をマッチングして、前記少なくとも２つの画像フレーム内に含まれた対象の対象変化情報を得ることと、を含む
ことを特徴とする請求項１～８のいずれか１項に記載の操作イベント認識方法。
操作イベント認識装置であって、
ビデオの少なくとも２つの画像フレームに対して対象検出と追跡を実行して、前記少なくとも２つの画像フレーム内に含まれた対象の対象変化情報を得るための検出処理モジュールと、
前記対象変化情報に基づいて発生した対象操作イベントを確定するためのイベント確定モジュールと、を備え、
前記対象は、操作可能対象である
ことを特徴とする操作イベント認識装置。
前記イベント確定モジュールは、前記対象変化情報に基づいて発生した対象操作イベントを確定するときに、前記対象変化情報が所定のイベント発生条件を満たす場合、さらに前記少なくとも２つの画像フレームの中の少なくとも一部の画像フレーム内で対象操作物が検出され、また前記対象操作物の位置と前記対象の位置との間の距離が所定の距離閾値未満であると、前記対象操作物を介して前記対象に対して操作を実行することで前記イベント発生条件に対応する対象操作イベントが発生したと確定する
ことを特徴とする請求項１１に記載の操作イベント認識装置。
前記検出処理モジュールは、ビデオの少なくとも２つの画像フレームに対して対象検出と追跡を実行して、前記少なくとも２つの画像フレーム内に含まれた対象の対象変化情報を得るときに、前記少なくとも２つの画像フレーム内に新しく現れた第１対象を検出し、前記第１対象の前記少なくとも２つの画像フレーム内で現れた対象位置を第１目標領域として確定し、
前記イベント確定モジュールは、具体的に、発生した対象操作イベントが前記第１対象の前記第１目標領域への移動であると確定する
ことを特徴とする請求項１１に記載の操作イベント認識装置。
前記検出処理モジュールは、ビデオの少なくとも２つの画像フレームに対して対象検出と追跡を実行して、前記少なくとも２つの画像フレーム内に含まれた対象の対象変化情報を得るときに、前記少なくとも２つの画像フレーム内から消えた第２対象を検出し、前記第２対象の前記少なくとも２つの画像フレーム内で消える前の対象位置を第２目標領域として確定し、
前記イベント確定モジュールは、具体的に、発生した対象操作イベントが前記第２対象の前記第２目標領域からの移動であると確定する
ことを特徴とする請求項１１に記載の操作イベント認識装置。
前記検出処理モジュールは、ビデオの少なくとも２つの画像フレームに対して対象検出と追跡を実行して、前記少なくとも２つの画像フレーム内に含まれた対象の対象変化情報を得るときに、前記少なくとも２つの画像フレーム内の第３対象の対象認識結果に発生した変化を検出し、
前記イベント確定モジュールは、具体的に、前記対象認識結果の変化に対応する対象操作イベントが発生したと確定する
ことを特徴とする請求項１１に記載の操作イベント認識装置。
前記検出処理モジュールは、前記少なくとも２つの画像フレーム内の第３対象の対象認識結果に発生した変化を検出するときに、前記第３対象内に含まれた対象コンポーネントの数に発生した変化を検出し、また変化前後の前記第３対象にコンポーネント属性が同一である対象コンポーネントが存在するか否かを検出し、その中で、前記第３対象は、複数の積み重ね可能な対象コンポーネントを含み、各対象コンポーネントは、対応するコンポーネント属性を有し、前記対象認識結果は、対象コンポーネントの数、および、対象コンポーネントのコンポーネント属性の中の少なくとも１つを含み、
前記イベント確定モジュールは、前記対象認識結果の変化に対応する対象操作イベントが発生したと確定するときに、前記第３対象内に含まれた対象コンポーネントの数に変化が発生し、また変化前後の前記第３対象にコンポーネント属性が同一である対象コンポーネントが存在することが検出された場合、発生した対象操作イベントを、前記第３対象の対象コンポーネントの数が増加または減少されたこととして確定する
ことを特徴とする請求項１５に記載の操作イベント認識装置。
前記イベント確定モジュールは、前記対象変化情報に基づいて対応する対象操作イベントが発生したと確定するときに、対象状態変化情報に基づいて発生した対象操作イベントが対象状態変化を制御する操作イベントであると確定し、その中で、前記対象は、少なくとも２つの対象状態を有し、各画像フレーム内の対象は、その中の１つの対象状態にあり、前記対象変化情報は、前記対象の対象状態変化情報を含む
ことを特徴とする請求項１１に記載の操作イベント認識装置。
前記検出処理モジュールは、具体的に、ビデオの少なくとも２つの画像フレーム内でそれぞれ対象の対象位置を検出し、前記少なくとも２つの画像フレーム内で検出された対象をそれぞれ認識して対象認識結果を得、異なる画像フレーム内で検出された対象のそれぞれの対象位置および対象認識結果に基づいて、異なる画像フレーム内で検出された対象をマッチングして、前記少なくとも２つの画像フレーム内に含まれた対象の対象変化情報を得る
ことを特徴とする請求項１１～１７のいずれか１項に記載の操作イベント認識装置。
電子デバイスであって、
メモリとプロセッサとを備え、
前記メモリは、コンピュータ可読命令を格納し、
前記プロセッサは、前記コンピュータ命令を呼び出して、請求項１から１０のいずれか１項に記載の方法を実現する
ことを特徴とする電子デバイス。
コンピュータプログラムが格納されているコンピュータ可読記録媒体であって、
前記プログラムがプロセッサによって実行されると、請求項１から１０のいずれか１項に記載の方法が実現される
ことを特徴とするコンピュータ可読記録媒体。
コンピュータ可読コードを含むコンピュータプログラムであって、
前記コードが電子デバイスで実行されるときに、前記電子デバイスのプロセッサが、請求項１から１０のいずれか１項に記載の方法を実行するようにする
ことを特徴とするコンピュータプログラム。