JP6789402B2 - 画像内の物体の姿の確定方法、装置、設備及び記憶媒体 - Google Patents

画像内の物体の姿の確定方法、装置、設備及び記憶媒体 Download PDF

Info

Publication number
JP6789402B2
JP6789402B2 JP2019541339A JP2019541339A JP6789402B2 JP 6789402 B2 JP6789402 B2 JP 6789402B2 JP 2019541339 A JP2019541339 A JP 2019541339A JP 2019541339 A JP2019541339 A JP 2019541339A JP 6789402 B2 JP6789402 B2 JP 6789402B2
Authority
JP
Japan
Prior art keywords
image
image block
block
neural network
affine transformation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019541339A
Other languages
English (en)
Other versions
JP2020507850A (ja
Inventor
佳 李
佳 李
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Publication of JP2020507850A publication Critical patent/JP2020507850A/ja
Application granted granted Critical
Publication of JP6789402B2 publication Critical patent/JP6789402B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/17Image acquisition using hand-held instruments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Description

〔関連出願の相互参照〕
本願は、2017年7月14日に中国国家知識産権局に提出した中国特許出願第201710573908.5号、発明の名称「画像内の物体の姿の確定方法、クライアント及びサーバ」の優先権を主張し、その全内容が本願の一部として援用される。
本願の実施例は画像処理技術分野に関し、特に画像内の物体の姿の確定方法、装置、設備及び記憶媒体に関する。
コンピュータグラフィックス技術の急速な発展に伴い、拡張現実技術は、コンピュータにより生成されたグラフィックス、文字等の仮想情報を、ユーザーの見えたリアルなシーンに有機的に統合し、人間の視覚系に対してシーンの強化又は拡張を行う。拡張現実技術の基礎は、リアルなシーンの観察角度を取得できることである。例えば、ビデオカメラでリアルなシーンの画像を取得するとき、二次元の観察画像によって三次元物体の姿を推定する必要があり、更に三次元物体の姿によってリアルなシーンに仮想コンテンツを追加して表示する。
関連技術において、よく用いられる方法としては、人工的に設計された特徴に対して検出を行い、そして異なる画像の間で比較する。しかしながら、このような方法は、正確なスケールの選択、回転の補正、密度正規化等の付加的なステップを必要とするため、計算の複雑さが極めて大きく、処理時間が長い。拡張現実技術を移動装置又はウェアラブルデバイス等の端末装置に適用するとき、このような端末装置はリソースが限られ、限られた情報入力及び計算能力しか待たないため、上記方法が適用できなくなる。
これに鑑みて、本願の実施例は画像処理の時間効率を向上させ、より少ないメモリリソースを消費し、端末装置のリソース使用率を向上させることのできる画像内の物体の姿の確定方法、装置、設備及び記憶媒体を提供する。
一態様では、本願は画像内の物体の姿の確定方法を提供し、前記方法が端末装置に適用され、前記方法は、
サーバから目標物体の畳み込みニューラルネットワークのトレーニングモデルパラメータを取得することと、
前記目標物体のリアルタイム画像を取得し、前記リアルタイム画像から少なくとも1つの第1画像ブロックを識別し、前記第1画像ブロックが前記リアルタイム画像の部分画像であることと、
前記トレーニングモデルパラメータに基づき、前記畳み込みニューラルネットワークによって各前記第1画像ブロックにマッチングするラベル画像ブロックを確定し、前記ラベル画像ブロックが前記目標物体の標準画像の部分画像であることと、
前記各第1画像ブロック及び前記各第1画像ブロックにマッチングするラベル画像ブロックに基づき、前記目標物体の姿を確定することと、を含む。
一態様では、本願は画像内の物体の姿の確定方法を提供し、前記方法がサーバに適用され、前記方法は、
目標物体の標準画像及び前記目標物体の複数枚の歪曲画像を取得することと、
前記標準画像と前記複数枚の歪曲画像を畳み込みニューラルネットワークに入力してトレーニングして、トレーニングモデルパラメータを得ることと、
前記トレーニングモデルパラメータを端末装置に送信することにより、前記端末装置が前記目標物体のリアルタイム画像を取得し、前記リアルタイム画像から少なくとも1つの第1画像ブロックを識別し、前記第1画像ブロックが前記リアルタイム画像の部分画像であり、前記トレーニングモデルパラメータに基づき、前記畳み込みニューラルネットワークによって各前記第1画像ブロックにマッチングするラベル画像ブロックを確定し、前記ラベル画像ブロックが前記標準画像の部分画像であり、前記各第1画像ブロック及びそれぞれのマッチングするラベル画像ブロックに基づき、前記目標物体の姿を確定し、前記姿に基づいて前記リアルタイム画像に仮想コンテンツを追加することと、を含む。
一態様では、本願は画像内の物体の姿の確定装置を提供し、前記装置は、
サーバから目標物体の畳み込みニューラルネットワークのトレーニングモデルパラメータを取得するためのオフライン受信モジュールと、
前記目標物体のリアルタイム画像を取得するためのオンライン受信モジュールと、
前記リアルタイム画像から少なくとも1つの第1画像ブロックを識別することに用いられ、前記第1画像ブロックが前記リアルタイム画像の部分画像である識別モジュールと、
前記トレーニングモデルパラメータに基づき、前記畳み込みニューラルネットワークによって各前記第1画像ブロックにマッチングするラベル画像ブロックを確定することに用いられ、前記ラベル画像ブロックが前記目標物体の標準画像の部分画像であるマッチングモジュールと、
前記各第1画像ブロック及び前記各第1画像ブロックにマッチングするラベル画像ブロックに基づき、前記目標物体の姿を確定するための姿確定モジュールと、を備える。
一態様では、本願は画像内の物体の姿の確定装置を提供し、前記装置は、
目標物体の標準画像及び前記目標物体の複数枚の歪曲画像を取得するための取得モジュールと、
前記標準画像と前記複数枚の歪曲画像を畳み込みニューラルネットワークに入力してトレーニングして、トレーニングモデルパラメータを得るためのトレーニングモジュールと、
前記トレーニングモデルパラメータを端末装置に送信することにより、前記端末装置が前記目標物体のリアルタイム画像を取得し、前記リアルタイム画像から少なくとも1つの第1画像ブロックを識別し、前記第1画像ブロックが前記リアルタイム画像の部分画像であり、前記トレーニングモデルパラメータに基づき、前記畳み込みニューラルネットワークによって各前記第1画像ブロックにマッチングするラベル画像ブロックを確定し、前記ラベル画像ブロックが前記標準画像の部分画像であり、前記各第1画像ブロック及び前記各第1画像ブロックにマッチングするラベル画像ブロックに基づき、前記目標物体の姿を確定するための送信モジュールと、を備える。
一態様では、本願は端末装置を提供し、前記端末装置はプロセッサ及びメモリを備え、前記メモリに少なくとも1つの命令が記憶され、前記命令が前記プロセッサによりロードし実行されることで以上に記載の端末装置に適用される画像内の物体の姿の確定方法を実現する。
一態様では、本願はサーバを提供し、前記サーバはプロセッサ及びメモリを備え、前記メモリに少なくとも1つの命令が記憶され、前記命令が前記プロセッサによりロードし実行されることで以上に記載のサーバに適用される画像内の物体の姿の確定方法を実現する。
一態様では、本願はコンピュータ可読記憶媒体を提供し、前記記憶媒体に少なくとも1つの命令、少なくとも1段落のプログラム、コードセット又は命令セットが記憶され、前記少なくとも1つの命令、前記少なくとも1段落のプログラム、前記コードセット又は命令セットが前記プロセッサによりロードし実行されることで以上に記載の画像内の物体の姿の確定方法を実現する。
上記技術案によれば、本願の実施例に係る方法は、畳み込みニューラルネットワークを用いてオフライントレーニングを行い、その後、物体の姿をオンラインで確定する際に、トレーニング後のトレーニングモデルパラメータを用いることにより、画像処理の計算の複雑さを大幅に低減させ、時間効率が高まり、占有したメモリリソースが少ないとともに、確定方法の精度も確保でき、該方法は、特に限られるリソースの設備に拡張現実サービスの応用時に適用され、端末装置のリソース使用率を向上させる。
図1は本願の一実施例に係る実施環境の模式図である。 図2は本願の一実施例における画像内の物体の姿の確定方法のフローチャートである。 図3aは本願の一実施例における目標物体の標準画像の模式図である。 図3bは本願の一実施例における目標物体の歪曲画像の模式図である。 図4aは本願の他の実施例における目標物体の標準画像の模式図である。 図4bは本願の他の実施例における目標物体の歪曲画像の模式図である。 図5は本願の他の実施例における画像内の物体の姿の確定方法のフローチャートである。 図6は本願の一実施例における画像内の物体の姿の確定方法のフローチャートである。 図7は本願の一実施例の畳み込みニューラルネットワークの構造模式図である。 図8は本願の一実施例のクライアントの構造模式図である。 図9は本願の他の実施例のクライアントの構造模式図である。 図10は本願の一実施例のサーバの構造模式図である。 図11は本願の他の実施例のサーバの構造模式図である。
本発明の実施例の技術案をより明確に説明するために、以下に実施例の記述において必要な図面を用いて簡単に説明を行うが、当然ながら、以下に記載する図面は単に本発明の実施例の一例であって、当業者であれば、創造的な労力を要することなく、これらの図面に基づいて他の図面に想到しうる。
本願の目的、技術案及び利点をより明確にするために、以下に図面を参照しながら実施例によって本願を更に詳しく説明する。
図1は本願の一実施例に係る拡張現実実施環境の模式図である。図1に示すように、拡張現実アプリケーションシステム100は、目標物体101、端末装置102及びサーバ103を備える。端末装置102に撮影装置1021、スクリーン1023、及び本願の実施例における物体の姿を確定するクライアントが取り付けられ、しかも拡張現実アプリケーションプログラムが実行されている。
例えば、ユーザーは撮影装置1021を用いて目標物体101に関連する画像1022をリアルタイムに撮影して、スクリーン1023に表示する。本願の実施例に記載の方法によれば、撮影された画像1022から目標物体101の姿を推定し、該姿によって目標物体101が撮影された画像1022に所在する位置を確定でき、次に該姿に基づいて仮想コンテンツ1024を同じ位置に重ね合わせ、それにより実世界と仮想情報とを同じ画面に重ね合わせる。
本願の実施例によれば、端末装置でリアルタイム画像に対してオンライン検出を行う前に、端末装置102はまずサーバ103から目標物体101に対するオフライントレーニング結果を取得する。サーバ103内のデータベース1031に目標物体101の大量の画像サンプルが保存されており、次にオフライントレーニングサブサーバ1032は畳み込みニューラルネットワークを用いてこれらの画像サンプルに対してオフライントレーニングを行い、トレーニングを完了した後、トレーニングモデルパラメータを確定し、そしてから、リアルタイム画像に対してオンライン検出を行うために、それを端末装置102に送信する。
ここで、上記端末装置102は画像撮影及び処理機能を持つ端末装置を指し、スマートフォン、携帯情報端末、タブレットPC等を含むが、それらに限らない。これらの端末装置にいずれもオペレーティングシステムがインストールされ、それはAndroidオペレーティングシステム、Symbianオペレーティングシステム、Windows mobileオペレーティングシステム及びアップルiPhone(登録商標) OSオペレーティングシステム等を含むが、それらに限らない。端末装置102とサーバ103とが無線ネットワーク経由で通信できる。
図2は本願の一実施例における画像内の物体の姿の確定方法のフローチャートである。該方法は、独立したクライアント又は拡張現実機能を持つクライアントに適用されてもよく、該クライアントが図1における実施例の端末装置102にインストールされてもよい。該方法は以下のステップを含むが、それらに限らない。
ステップ201において、サーバから、目標物体の畳み込みニューラルネットワークトレーニングモデルパラメータを取得する。
例えば、サーバは、あるシーンにおける目標物体の標準画像及び複数枚の歪曲画像を取得し、標準画像と複数枚の歪曲画像を畳み込みニューラルネットワークに入力してトレーニングして、トレーニングモデルパラメータを得る。次に、サーバはトレーニングモデルパラメータをクライアントに送信し、該クライアントがインストールされる端末装置は、クライアントによって該トレーニングモデルパラメータを受信する。
本願の実施例において、トレーニング後のトレーニングモデルパラメータが特定のシーンに関連付けられており、単一の目標物体に対するものである。標準画像とは、ある特定のシーンにおいて1つの目標物体を撮影して取得したはっきりした画像を指す。それに対して、歪曲画像は、該標準画像を基にして様々な歪みを導入して取得したものである。
図3aには、ある都市シーンにおける1つの目標物体に対する標準画像が示され、図3bには、対応する3枚の歪曲画像が示されている。図3aにおける楕円に示されるように、該シーンは川辺の都市の建築群であり、目標物体はその中の一番高いビルである。3枚の歪曲画像は図3aにおける標準画像を回転、シフトして得られたものであり、全ての歪曲画像の中からいずれも目標物体−ビルが見えるが、背景部分にいくつかのランダム部分で充填されている。
図4a及び図4bには、別のシーンにおける目標物体に対する標準画像及び3枚の歪曲画像をそれぞれ示されている。図4aにおける四角の枠に示されるように、目標物体は川上の橋である。3枚の歪曲画像は標準画像を回転、シフトして得られたものであり、各枚の歪曲画像の中でいずれも目標物体−橋の全部又はその一部が見える。
クライアントに取得されたトレーニングモデルパラメータを予め記憶するために、このステップはユーザーが拡張現実サービスを用いる前に実行される。ユーザーは、拡張現実サービスを使用するとき、該トレーニングモデルパラメータを読み取って目標物体の姿の確定に用いられる。
ステップ202において、目標物体のリアルタイム画像を取得し、リアルタイム画像から少なくとも1つの第1画像ブロックを識別する。
このステップにおいて、ユーザーは上記シーンの中に位置し、拡張現実サービスを使用しようとしている。まずクライアントの所在する端末装置における撮影装置によって撮影して目標物体のリアルタイム画像を得て、リアルタイム画像をクライアントに送る。次に、クライアントは、リアルタイム画像から少なくとも1つの第1画像ブロックを識別し、第1画像ブロックがリアルタイム画像の部分画像であり、識別方法は以下のステップを含むが、それらに限らない。
ステップ2021において、リアルタイム画像に対して特徴検出を行って、複数の局部特徴を取得する。
局部特徴とは、画像内の周囲と相違している幾つかの箇所であり、高い区別度を有する領域である。
ステップ2022において、各局部特徴に対して、該局部特徴の画像コントラストが予め設定されたコントラスト閾値より大きく、且つ該局部特徴が画像エッジではないと判断した場合、該局部特徴を第1画像ブロックとして確定する。
例えば、コントラストとは、1枚の画像における明暗領域の最も明るい白と最も暗い黒との間の異なる輝度レベルの測定、つまり1枚の画像のグレースケールのコントラストの大きさを指す。このように、識別された第1画像ブロックは周囲環境からはっきりと見え、位置のあいまいさを低減する。例えば、リアルタイム画像が1つの顔画像であり、第1画像ブロックが顔の鼻の先、目頭等である。
例えば、スケール不変特徴変換(SIFT)、頑健な特徴量の高速化(SURF)識別アルゴリズム、加速化断片試験による特徴抽出(FAST)等の方法を用いてもよい。これらの方法で検出する精度と速度がそれぞれ異なる。実際に応用するとき、端末装置のハードウェア能力に基づいて処理の複雑さと時間効率を折衷して選択してもよい。
他の実施例において、単一の判断結果に基づいて局部特徴を確定してもよい。例えば、該局部特徴の画像コントラストが予め設定されたコントラスト閾値より大きいと判断した場合、該局部特徴を第1画像ブロックとして確定する。又は、該局部特徴が画像エッジではない場合、該局部特徴を第1画像ブロックとして確定する。ここで、局部特徴の識別精度は、後続のマッチング及び確定される姿の結果に影響する。
ステップ203において、トレーニングモデルパラメータに基づき、畳み込みニューラルネットワークによって該第1画像ブロックにマッチングするラベル画像ブロックを確定する。
端末装置は、各第1画像ブロックを畳み込みニューラルネットワークに入力し、畳み込みニューラルネットワークは、トレーニングモデルパラメータに基づいて各第1画像ブロックにマッチングするラベル画像ブロックを出力する。ラベル画像ブロックは、第1画像ブロックにマッチングする標準画像の部分画像である。
好ましくは、トレーニングモデルパラメータは、重み及び標準画像から識別された第2画像ブロックを含み、第2画像ブロックが標準画像の部分画像である。畳み込みニューラルネットワークは複数の畳み込み層を含み、重みは各畳み込み層に使用される畳み込み行列における各要素値を指す。
このステップにおいて、マッチング方法は以下のステップを含むが、それらに限らない。
ステップ2031において、該第1画像ブロックを畳み込みニューラルネットワークに入力し、重みに基づいて該第1画像ブロックと各第2画像ブロックとのマッチング確率を出力する。
畳み込みニューラルネットワークは、第1画像ブロックを分類することができ、各第2画像ブロックがカテゴリラベルを表し、重みによって第1画像ブロックを処理し、出力された結果は第1画像ブロックと各第2画像ブロックとのマッチング確率である。この確率値は第1画像ブロックと第2画像ブロックの類似度を表す。
ステップ2032において、最大確率値に対応する第2画像ブロックをラベル画像ブロックとして確定する。
例えば、クライアント及びサーバ側に、目標物体の識別子を予め設定し、トレーニングモデルパラメータに該識別子が含まれる。これにより、クライアントが該トレーニングモデルパラメータを受信した後に、上記識別子が分かるようになる。ステップ202を実行するとき、取得されたリアルタイム画像又は端末の現在の測位情報に基づき、該リアルタイム画像がどの目標物体に対応しているかを判断することができ、これにより、該目標物体の識別子に基づいてステップ203を実行する際にどのトレーニングモデルパラメータを用いてマッチングするかを把握できる。
ステップ204において、各第1画像ブロック及び各第1画像ブロックにマッチングするラベル画像ブロックに基づき、目標物体の姿を確定する。
好ましくは、目標物体の姿はアフィン変換で示され、つまり、各ラベル画像ブロックは、アフィン変換を介して第1画像ブロックにマッチングする。アフィン変換はアフィン変換行列の形式で示されてもよく、各第1画像ブロックとそれにマッチングするラベル画像ブロックとの間の対応するアフィン変換行列により、アフィン変換グループを構成する。第1画像ブロックがqiであり、i=1・・・N、Nが第1画像ブロックの総数であり、qiにマッチングするラベル画像ブロックがpiであり、アフィン変換が行列Aで示される場合、
qi=Api (1)、
アフィン変換は、目標物体が撮影レンズに対するシフト及び回転量を表すことができ、3D空間における目標物体から2D平面画像までのイメージング過程を表すことが可能である。アフィン変換は線形変換に属し、つまり、平行線を平行線に変換し、有限点を有限点にマッピングする一般的な特性を有する。二次元ユークリッド空間におけるアフィン変換は、
と示されてもよく、
ここで、(x,y)と(x’,y’)がそれぞれ標準画像とリアルタイム画像における2つの点(すなわち、画素)の座標を指し、
が回転、伸縮、剪断の合成変換の行列表現であり、(a0,a5)Tがシフトベクトルであり、aiがいずれも実数である。6つのパラメータで構成されるベクトルa=(a0,a1,a2,a3,a4,a5)Tがアフィン変換を表し、2つの点の間の座標変換関係を決定することができ、三次元の回転及びシフトを含む。
以上により、アフィン変換は6つの自由度を有し、アフィン変換に基づいて推定した姿もよく6D姿と呼ばれる。ベクトルにおけるパラメータの具体値に基づくシフト、回転、拡大縮小、反射及び剪断等は、いずれもアフィン変換の1つのケースである。
目標物体の姿を確定するとき、最小二乗原則に従ってアフィン変換行列セットからアフィン変換行列セットの行列推定値を確定することができ、ここで、行列推定値は、アフィン変換行列セットに対応する逆変換の偏角である。例えば、行列推定値
は、下記の式で演算することができる。
ここで、||・||が・のモジュラス値の平方を示し、Gがアフィン変換行列セットである。
で表れる姿を確定した後、リアルタイム画像に追加しようとする任意の仮想コンテンツが、いずれも
によって変換することがにでき、リアルタイム画像に一致する観察角度を保つことができ、それにより、ユーザーに拡張現実後の混合画像効果を見せるために、リアルタイム画像に仮想コンテンツを追加することを実現することができる。
本実施例において、サーバからトレーニング後の畳み込みニューラルネットワークトレーニングモデルパラメータを受信することにより、ユーザーの目標物体を撮影して得られたリアルタイム画像を受信し、リアルタイム画像から少なくとも1つの第1画像ブロックを識別し、画像ブロックを畳み込みニューラルネットワークの入力とし、その利点としては、画像全体に比べて、このような画像ブロックの耐変換能力、特に耐シフト変換能力が高く、且つ、分割又は他の任意の事前の画像の語義解釈を必要としないことにある。
次に、各第1画像ブロックに対して、トレーニングモデルパラメータに基づいて該第1画像ブロックにマッチングするラベル画像ブロックを確定し、各第1画像ブロック及びそれぞれのマッチングするラベル画像ブロックに基づき、目標物体の姿を確定し、姿に基づいてリアルタイム画像に仮想コンテンツを追加する。畳み込みニューラルネットワークを姿の確定に用いる利点は、このようなネットワークにおいて重みデータが複数の結合の中で共有できるため、上記方法の計算の複雑さが低く、時間効率が高く、占有したメモリリソースが少なく、特にリソースが限られる設備、例えばバッテリー容量が限られるモバイル端末、ウェアラブルデバイス等に拡張現実サービスを応用する時に適用されることにある。
図5は本願の他の実施例における画像内の物体の姿の確定方法のフローチャートである。図5に示すように、該方法は以下のステップを含むが、それらに限らない。
ステップ501において、サーバからトレーニング後の畳み込みニューラルネットワークのトレーニングモデルパラメータを受信し記憶する。
サーバはある特定のシーンにおける目標物体に対してオフライントレーニングを行い、トレーニングを完了した後、トレーニングモデルパラメータをクライアントに送信して、クライアントに記憶され、次にクライアントがリアルタイムにモニタリングする際に該トレーニングモデルパラメータを使用する。
ステップ502において、目標物体のリアルタイム画像を取得する。
例えば、リアルタイム画像はユーザーが撮影した静止画像又はビデオにおける1フレームの画像であってもよい。受信したのがビデオストリームである場合、一定の間隔毎に、ビデオストリームから1フレームの画像を処理対象のリアルタイム画像として抽出する。例えば、ビデオストリームは1秒あたりに24フレームの画像を含み、1秒おきに1フレームの画像を抽出してもよい。
ステップ503において、リアルタイム画像から少なくとも1つの第1画像ブロックを識別し、各第1画像ブロックを畳み込みニューラルネットワークに入力する。
ステップ504において、各第1画像ブロックに対して、重みに基づいて該第1画像ブロックと各第2画像ブロックとのマッチング確率を出力し、最大確率値に対応する第2画像ブロックをラベル画像ブロックとして確定する。
上記ステップ202、203の説明を参照し、ここで詳細な説明は省略する。
ステップ505において、各第1画像ブロック及びそれぞれにマッチングするラベル画像ブロックに基づき、アフィン変換の行列推定値を確定し、それで目標物体の幾何上の姿を表す。
本ステップにおいて、第1画像ブロック及びそれにマッチングするラベル画像ブロックが1つのマッチングペア、即ち(qi,pi)を構成する。姿を確定する前に、更にマッチングペアに対して取捨することを含んでもよい。各第1画像ブロックに対して、以下のステップを含むが、それらに限らない。
ステップ5051において、該第1画像ブロックを畳み込みニューラルネットワークに入力し、重みに基づいて該第1画像ブロックと各第2画像ブロックとのマッチング確率を出力する。
例えば、第2画像ブロックの総数がMである場合、畳み込みニューラルネットワークの出力層が1つの1×M次元の分類ベクトルを出力し、ベクトルにおける要素の値が[0、1]であって、上記確率を表す。
ステップ5052において、確率が予め設定された確率閾値より大きな第2画像ブロックの総数が、予め設定された個数閾値より大きい場合、該第1画像ブロック及びそれにマッチングするラベル画像ブロックを目標物体の姿の確定に用いる。
例えば、予め設定された確率閾値が0.6であって、予め設定された個数閾値が200である場合、数値が0.6より大きな要素の個数は200個より大きければ、該マッチングペアを使用して、姿の確定に用いられる。このように選択したマッチングペアは大多数の姿に適応できる。
ここで、確率が予め設定された確率閾値より大きな第2画像ブロックの総数が予め設定された個数閾値より大きい第1画像ブロックは目標画像ブロックと称され、端末装置は目標画像ブロック及び目標画像に対応するラベル画像ブロックに基づき、目標物体の姿を確定する。
例えば、ランダムサンプリングコンセンサスのポリシーを用いて、誤ったマッチングペアを除外してもよい。
ステップ506において、行列推定値に基づいて仮想コンテンツをリアルタイム画像に追加する。
標準画像によってアフィン変換の行列推定値を確定した後、逆プロセスを実行してもよく、仮想コンテンツをアフィン変換を介してリアルタイム画像の参照系に変換し、それによりそれらを重ね合わせして、拡張現実の機能を実現できる。
上記実施例において、マッチングペア(第1画像ブロック、ラベル画像ブロック)に対する取捨によって、公式(3)によれば、Nの有効値が減少され、従って、計算の複雑さを低減させるとともに、更に姿確定の精度を向上させることができる。なお、アフィン変換の行列推定値によって目標物体の幾何上の姿を表し、処理が簡易化され、計算しやすく、アルゴリズムの時間効率を更に向上させる。
図6は本願の一実施例における画像内の物体の姿の確定方法のフローチャートである。該方法は図1におけるサーバ103に適用されることができる。該方法は以下のステップを含むが、それらに限らない。
ステップ601において、目標物体の標準画像及び目標物体の複数枚の歪曲画像を取得する。
サーバ側は、オフライントレーニングを実行するとき、まず大量のトレーニングサンプルを取得する必要がある。標準画像が必須であり、分類時に使用される複数のラベル画像ブロックを確定することに用いられる。それに対して、歪曲画像の取得方式は様々あってもよく、例えば、撮影装置を用いて同じ目標物体に対してランダムに撮影して複数の歪曲画像を取得し、又は、標準画像から様々な歪み処理を行って複数の歪曲画像を取得する。後者に対して、一実施例において、画像の歪みがアフィン変換によって導入されてもよい。標準画像に基づいて歪曲画像を取得する方法は以下のステップを含むが、それらに限らない。
ステップ6011において、複数のアフィン変換行列をランダムに生成する。
行列
を定義してアフィン変換を示し、下記の式で複数のアフィン変換行列をランダムに生成する。
ここで、パラメータφとθが(-π, π]から均一に生成されたものであり、パラメータtxとfxが[0,w]から均一に生成されたものであり、wが標準画像の幅であり、パラメータtyとfyが[0,h]から均一に生成されたものであり、hが標準画像の高さであり、パラメータλ1とλ2が[0.5,1.5]から均一に生成されたものである。
ステップ6012において、各々のアフィン変換行列に対して、該アフィン変換行列を用いて標準画像をアフィン変換して、1枚の歪曲画像を得る。
実行変換の表現式は下記の通りである。
I’=A(I)+N (5)
ここで、Iが入力した標準画像であり、I’が生成された歪曲画像であり、Nがガウス型白色雑音であり、平均値がμであり、分散がσであり、且つ、下記の関係を満たす。
f(μ)=1/5、0≦μ≦5である場合 (6)
σ=0.3×(μ/2-1)+0.8 (7)
ステップ602において、標準画像と複数枚の歪曲画像を畳み込みニューラルネットワークに入力してトレーニングして、トレーニングモデルパラメータを得る。
ステップ603において、トレーニングモデルパラメータをクライアントに送信する。
このように、端末装置はクライアントによってユーザーが目標物体を撮影して取得したリアルタイム画像を受信し、リアルタイム画像から少なくとも1つの第1画像ブロックを識別し、各第1画像ブロックに対して、トレーニングモデルパラメータに基づいて該第1画像ブロックにマッチングするラベル画像ブロックを確定し、各第1画像ブロック及びそれぞれのマッチングするラベル画像ブロックに基づき、目標物体の姿を確定し、姿に基づいてリアルタイム画像に仮想コンテンツを追加する。
上記ステップ602において、サーバが畳み込みニューラルネットワークを構築し、そしてからトレーニングする。畳み込みニューラルネットワークが畳み込み操作によって特徴抽出を行い、その後、特徴マッピングを行う。畳み込みニューラルネットワークの各計算層は複数の特徴マッピングで構成され、各特徴マッピングが1つの平面であり、平面におけるすべてのニューラルの重みが等しく、このため、ネットワークにおける自由パラメータの個数を減少させることができる。
図7は本願の一実施例の畳み込みニューラルネットワークの構造模式図である。図7に示すように、畳み込みニューラルネットワークは複数層の処理を含み、それらはそれぞれ以下のとおりである。
畳み込み層701:1つの畳み込み行列をフィルタとし、フィルタが画像ブロック700を畳み込んで入力するとき、フィルタ内の重みを、画像ブロック内の対応する画素値と乗算し、すべての結果を足し算し、1つの加算値を得る。その後、この過程を繰り返し、左から右へ、上から下へ、画像ブロックの各領域を畳み込み、各ステップで1つの値を得ることができ、最後の行列が特徴画像である。
プーリング層702:プーリング層が一般的に畳み込み層の後で使用され、その役割は畳み込み層から出力した情報を簡略化し、データの次元を減少させ、計算オーバーヘッドを低減し、オーバーフィッティングを抑えることである。
例えば、畳み込んだ後の特徴画像が「静的」属性を有し、それは、1つの画像領域の有用な特徴が別の領域においても同様に適用される可能性が高いことを示す。従って、1枚の大きな画像を記述するために、異なる位置の特徴に対して集約統計、即ちプーリングプロセスを行う。例えば、画像のある領域におけるある特定の特徴の平均値又は最大値を計算する。すべての抽出して取得した特徴を用いることに比べて、これらの統計特徴は遥かに低い次元を有するだけでなく、結果も改善し、オーバーフィッティングになりにくい。
全結合層703:取得されたこれらの特徴画像がどのカテゴリに類似するかを検出する。ここで、カテゴリがM個の第2画像ブロックで代表される様々な可能なラベルである。
出力層704:1×M次元の分類ベクトルを出力し、ベクトルにおける要素の値が[0,1]であり、出力した各次元はいずれも該画像ブロックが該カテゴリに属する確率を指す。
実際に応用するとき、一般的に複数層の畳み込みを使用し、その後、全結合層を用いてトレーニングする。つまり、図7において、畳み込み層701とプーリング層702を1つの組み合わせとして使用され、複数の該組み合わせを順に実行し、このようなネットワークは深層畳み込みニューラルネットワークと称される。複数層の畳み込みの目的は、一層の畳み込みでラーニングした特徴が偏っており、層数が高いほど、ラーニングした特徴が全面的である。
畳み込みニューラルネットワークが複数の畳み込み層を含む場合、畳み込み層の個数の確定方法は、画像ブロックの個数と畳み込み層の個数との対応関係を予め設定することと、標準画像から少なくとも1つの第2画像ブロックを識別することと、第2画像ブロックの個数及び対応関係に基づいて畳み込みニューラルネットワークにおける畳み込み層の個数を確定することと、を含むが、それらに限らない。
例えば、表1に示す実施例において、第2画像ブロックの総数が400であり、ネットワーク全体が13層を含む。4つの畳み込み層があり、第1層、第4層、第7層、第10層が畳み込み層であり、第1層の畳み込み層の直後に最大プーリング層及び正規化線形ユニット(ReLU:Rectified Linear Unit)活性化層の処理を行い、第4層の畳み込み層の直後にReLU活性化層及び平均プーリング層の処理を行い、第7層の畳み込み層の直後にReLU活性化層及び平均プーリング層の処理を行い、第10層の畳み込み層の直後にReLU活性化層の処理を行い、最後に全結合層及びソフト最大値(英語:soft−max)出力層を行う。
活性化層において活性化関数を呼び出して非線形因子を追加することにより、線形分離不可能の問題を解決する。表1に示すように、選択された励振関数方式はReLUと称され、その表現式:
f(x)=max(0,x) (8)
つまり、ゼロより小さな値を0に設定し、このように、畳み込みニューラルネットワークのトレーニング速度がより速くなり、消失勾配が減少するという問題が生じる。
なお、畳み込みニューラルネットワークは、トレーニング中において、入力サンプル及び理想的な出力サンプルを確定する必要があり、その後、重みの調整を繰り返し行う。一実施例において、標準画像から少なくとも1つの第2画像ブロックを識別し、各枚の歪曲画像をそれぞれ識別して、少なくとも1つの第3画像ブロックを取得し、畳み込みニューラルネットワークがトレーニングするとき、第3画像ブロックを入力サンプル、各第2画像ブロックを理想的な出力サンプルとして、トレーニングして重みを得る。
畳み込みニューラルネットワークがトレーニングするとき、逆伝播アルゴリズムによって重みを調整する。逆伝播アルゴリズムは4つの異なる部分、すなわち順伝播、損失関数、逆伝播、重みの更新に分けられてもよい。
順伝播過程において、画像ブロックを入力し、畳み込みニューラルネットワークによって伝播する。最初に、すべての重みが、ランダム値[0.3、0.1、0.4、0.2、0.3・・・]のようにランダムに初期化される。畳み込みニューラルネットワークが初期化された重みによって正確な特徴画像を抽出できないため、画像がどのカテゴリに属するかのようないかなる合理的な結論を出すことができない。この時、逆伝播中の損失関数によって畳み込みニューラルネットワークに重みを更新させて、所望の特徴画像を見つける。損失関数の定義方式は様々あり、例えば平均二乗誤差(MSE:mean squared error)がある。畳み込みニューラルネットワークがトレーニングし始めたばかりのとき、全ての重みがランダムに初期化されたものであるため、この時の損失値が大きいである可能性がある。トレーニングの目的は予測値が実際の値と同じであるように望まれることである。このため、損失値をできる限り減少させる必要があり、損失値が小さいほど予測結果が接近すると説明される。この過程において、重みを継続的に調整することにより、どの重みでネットワークの損失を減少できるかを見つける。例えば、勾配降下アルゴリズムを用いる。
トレーニングするたびに、順伝播、損失関数、逆伝播及びパラメータ更新を複数回で行う。トレーニングが終了した後、トレーニング後のいくつかの重みを取得する。
本願の上記実施例の物体の姿確定方法及び関連技術においてランダムファーンズ(英語:Radom Ferns)方法を用いて姿を確定することに比べて、表2には2つの方法の精度及び占有したメモリの値を示す。
まず、実験データは下記のように設定され、即ち、本願の実施例の方法において、表1に示す畳み込みニューラルネットワークアーキテクチャを用い、画像ブロックのサイズが27×27であり、合計して27行27列の画素があり、該画像ブロックを前処理して、その平均値を0、分散を1にする。オフライントレーニング時、公式(4)に基づいて2000個のアフィン変換行列をランダムに生成し、歪曲画像の生成に用いられる。第2画像ブロックの個数が400であり、出力ベクトルが1×400次元の分類ベクトルである。Ferns方法において、Fernの個数が30であり、各Fernにおける特徴の個数が12である。
表2に示すように、図3a、図3bに示す画像に対して、本願の実施例の方法の精度が86%であるが、Ferns方法の精度が88%であり、図4a、図4bに示す画像に対して、本願の実施例の方法の精度が87%であるが、Ferns方法の精度が88%である。これにより、本願の実施例の方法はFerns方法の精度と略同じである。しかしながら、占有したメモリから見れば、本願の実施例の方法は畳み込みニューラルネットワークを用いるため、占有したメモリが0.5557Mのみであるが、Ferns方法は占有したメモリが93.75Mであり、これにより、本願の実施例の方法はメモリリソースの消費量が極めて少ない。
図8は本願の一実施例のクライアント800の構造模式図である。図8に示すように、クライアント800は図2及び図5の実施例における画像内の物体の姿の確定方法を実行する仮想装置であってもよく、該装置は、
サーバから目標物体の畳み込みニューラルネットワークのトレーニングモデルパラメータを取得するためのオフライン受信モジュール810と、
目標物体のリアルタイム画像を取得するためのオンライン受信モジュール820と、
リアルタイム画像から少なくとも1つの第1画像ブロックを識別するための識別モジュール830と、
トレーニングモデルパラメータに基づき、畳み込みニューラルネットワークによって各第1画像ブロックにマッチングするラベル画像ブロックを確定するためのマッチングモジュール840と、
各第1画像ブロック及び各第1画像ブロックにマッチングするラベル画像ブロックに基づき、目標物体の姿を確定するための姿確定モジュール850と、
該姿に基づいてリアルタイム画像に仮想コンテンツを追加することに用いられ、追加モジュール860が任意のモジュールである追加モジュール860と、を備える。
1つの代替実施例において、識別モジュール830は、
リアルタイム画像に対して特徴検出を行って、複数の局部特徴を取得するための検出ユニット831と、
複数の局部特徴のうちの画像コントラストが予め設定されたコントラスト閾値より大きい、かつ画像エッジではない局部特徴を第1画像ブロックとして確定するための判断ユニット832と、を備える。
1つの代替実施例において、トレーニングモデルパラメータは重み及び標準画像から識別された第2画像ブロックを含み、マッチングモジュール840は、更に、各第1画像ブロックを畳み込みニューラルネットワークに入力し、重みに基づいて各第1画像ブロックと各第2画像ブロックとのマッチング確率を出力し、各第1画像ブロックに対応する確率のうちの確率閾値より大きな確率の数を取得し、数が予め設定された個数より大きな第1画像ブロックを目標画像ブロックとして確定し、目標画像ブロック及び目標画像ブロックにマッチングするラベル画像ブロックに基づき、姿を確定することに用いられる。
1つの代替実施例において、マッチングモジュール840は、更に、目標画像ブロックが各第2画像ブロックにマッチングする確率を取得し、確率のうちの最大確率に対応する第2画像ブロックを目標画像ブロックにマッチングするラベル画像ブロックとして確定し、目標画像ブロック及び目標画像ブロックにマッチングするラベル画像ブロックに基づき、姿を確定することに用いられる。
1つの代替実施例において、各第1画像ブロックは、各第1画像ブロックにマッチングするラベル画像ブロックを、アフィン変換行列を用いてアフィン変換して得られるものであり、各アフィン変換行列がアフィン変換行列セットを構成し、
姿確定モジュール850は、更に、最小二乗原則に従ってアフィン変換行列セットからアフィン変換行列セットの行列推定値を確定することに用いられる。
1つの代替実施例において、姿確定モジュール850は、更に、
によって行列推定値を計算することに用いられ、
ここで、
が行列推定値であり、qiが第1画像ブロックであり、i=1・・・N、Nが第1画像ブロックの総数であり、piがqiにマッチングするラベル画像ブロックであり、Aがアフィン変換行列であり、||・||が・のモジュラス値の平方を示し、Gがアフィン変換行列セットである。
図9は本願の他の実施例のクライアント900の構造模式図であり、該クライアント900は図1に示す端末装置102であってもよい。図9に示すように、サーバ900はプロセッサ910、メモリ920、ポート930及びバス940を備える。プロセッサ910とメモリ920がバス940を介して互いに接続される。プロセッサ910がポート930を介してデータを送受信できる。
プロセッサ910はメモリ920に記憶される機械可読命令モジュールを実行することに用いられる。
メモリ920にはプロセッサ910が実行できる機械可読命令モジュールが記憶される。プロセッサ910が実行できる命令モジュールはオフライン受信モジュール921、オンライン受信モジュール922、識別モジュール923、マッチングモジュール924、姿確定モジュール925及び追加モジュール926を備える。
オフライン受信モジュール921がプロセッサ910により実行されるとき、サーバから目標物体の畳み込みニューラルネットワークのトレーニングモデルパラメータを取得してもよく、
オンライン受信モジュール922がプロセッサ910により実行されるとき、目標物体のリアルタイム画像を取得してもよく、
識別モジュール923がプロセッサ910により実行されるとき、リアルタイム画像から少なくとも1つの第1画像ブロックを識別してもよく、
マッチングモジュール924がプロセッサ910により実行されるとき、トレーニングモデルパラメータに基づき、畳み込みニューラルネットワークによって各第1画像ブロックにマッチングするラベル画像ブロックを確定してもよく、
姿確定モジュール925がプロセッサ910により実行されるとき、各第1画像ブロック及び各第1画像ブロックにマッチングするラベル画像ブロックに基づき、目標物体の姿を確定してもよく、
追加モジュール926がプロセッサ910により実行されるとき、姿に基づいてリアルタイム画像に仮想コンテンツを追加してもよい。追加モジュール926が任意のモジュールである。
これにより、メモリ920に記憶される命令モジュールがプロセッサ910により実行されるとき、上記各実施例におけるオフライン受信モジュール、オンライン受信モジュール、識別モジュール、マッチングモジュール、姿確定モジュール及び追加モジュールの様々な機能を実現できる。
図10は本願の一実施例のサーバ1000の構造模式図である。図10に示すように、サーバ1000は図6の実施例における画像内の物体の姿の確定方法を実行する仮想装置を備え、該装置は、
目標物体の標準画像及び目標物体の複数枚の歪曲画像を取得するための取得モジュール1010と、
標準画像と複数枚の歪曲画像を畳み込みニューラルネットワークに入力してトレーニングして、畳み込みニューラルネットワークのトレーニングモデルパラメータを取得するためのトレーニングモジュール1020と、
トレーニングモデルパラメータをクライアントに送信することにより、端末装置がクライアントによって目標物体のリアルタイム画像を取得し、リアルタイム画像から少なくとも1つの第1画像ブロックを識別し、トレーニングモデルパラメータに基づき、畳み込みニューラルネットワークによって各第1画像ブロックにマッチングするラベル画像ブロックを確定し、各第1画像ブロック及び各第1画像ブロックにマッチングするラベル画像ブロックに基づき、目標物体の姿を確定するための送信モジュール1030と、を備える。
1つの代替実施例において、取得モジュール1010は、更に、複数のアフィン変換行列をランダムに生成し、各アフィン変換行列を用いて標準画像をアフィン変換して、各枚の歪曲画像を取得することに用いられる。
1つの代替実施例において、畳み込みニューラルネットワークは複数の畳み込み層を含み、トレーニングモジュール1020は、更に、標準画像から少なくとも1つの第2画像ブロックを識別し、第2画像ブロックの個数及び予め設定された第2画像ブロックと畳み込み層の個数との対応関係に基づき、畳み込みニューラルネットワークにおける畳み込み層の個数を確定することに用いられる。
1つの代替実施例において、トレーニングモジュール1010は、更に、標準画像から少なくとも1つの第2画像ブロックを識別し、それぞれ各枚の歪曲画像を識別して、少なくとも1つの第3画像ブロックを取得し、畳み込みニューラルネットワークがトレーニングするとき、第3画像ブロックを入力サンプル、第2画像ブロックを理想的な出力サンプルとしてトレーニングして重みを取得することに用いられる。
図11は本願の他の実施例のサーバ1100の構造模式図である。図11に示すように、サーバ1100はプロセッサ1110、メモリ1120、ポート1130及びバス1140を備える。プロセッサ1110とメモリ1120がバス1140を介して互いに接続される。プロセッサ1110がポート1130を介してデータを送受信できる。
プロセッサ1110はメモリ1120に記憶される機械可読命令モジュールを実行することに用いられる。
メモリ1120にはプロセッサ1110が実行できる機械可読命令モジュールが記憶される。プロセッサ1110が実行できる命令モジュールは取得モジュール1121、トレーニングモジュール1122及び送信モジュール1123を備える。
取得モジュール1121がプロセッサ1110により実行されるとき、目標物体の標準画像及び複数枚の歪曲画像を取得してもよく、
トレーニングモジュール1122がプロセッサ1110により実行されるとき、標準画像と複数枚の歪曲画像を畳み込みニューラルネットワークに入力してトレーニングして、トレーニングモデルパラメータを取得してもよく、
送信モジュール1123がプロセッサ1110により実行されるとき、トレーニングモデルパラメータをクライアントに送信することにより、端末装置がクライアントによって目標物体のリアルタイム画像を取得し、リアルタイム画像から少なくとも1つの第1画像ブロックを識別し、トレーニングモデルパラメータに基づき、畳み込みニューラルネットワークによって各第1画像ブロックにマッチングするラベル画像ブロックを確定し、各第1画像ブロック及び各第1画像ブロックにマッチングするラベル画像ブロックに基づき、目標物体の姿を確定してもよい。
これにより、メモリ1120に記憶される命令モジュールがプロセッサ1110により実行されるとき、上記各実施例における取得モジュール、トレーニングモジュール及び送信モジュールの様々な機能を実現できる。
上記装置実施例において、各モジュール及びユニットがその機能を実現する例示的な方法は方法実施例において説明されたため、ここで詳細な説明は省略する。
また、本願の各実施例において、各機能モジュールは1つの処理ユニットに統合されてもよく、各モジュールは独立して物理的に存在してもよく、2つ又は2つ以上のモジュールは1つのユニットに統合されてもよい。上記統合されたユニットはハードウェアの形式で実現されてもよいし、ソフトウェア機能ユニットの形式で実現されてもよい。
また、本願の各実施例はデータ処理装置、例えばコンピュータにより実行されるデータ処理プログラムによって実現されてもよい。明らかに、データ処理プログラムが本願を構成する。なお、一般的に、1つの記憶媒体に記憶されるデータ処理プログラムがプログラムを記憶媒体から直接読み取り又はプログラムをデータ処理装置の記憶装置(例えば、ハードディスク及び/又はメモリ)にインストール又はコピーすることで実行される。従って、このような記憶媒体も本願を構成する。記憶媒体はいかなるカテゴリの記録方式、例えば紙記憶媒体(例えば、紙テープ等)、磁気記憶媒体(例えば、フロッピーディスク、ハードディスク、フラッシュメモリ等)、光記憶媒体(例えば、CD−ROM等)、光磁気記憶媒体(例えば、MO等)等を用いてもよい。
従って、本願は更に記憶媒体を開示し、少なくとも1段落のデータ処理プログラムが記憶され、該データ処理プログラムは本願に記載の方法のいずれか1つの実施例を実行することに用いられる。好ましくは、該記憶媒体に少なくとも1つの命令、コードセット又は命令セットがあり、該少なくとも1つの命令、コードセット又は命令セットがプロセッサによりロードし実行されることで本願に記載の方法のいずれか1つの実施例を実現する。
当業者であれば、上記実施例の全部又は一部のステップの実現はハードウェアにより完了してもよいし、プログラムが関連するハードウェアを命令することで完了してもよく、前記プログラムがコンピュータ可読記憶媒体に記憶されてもよく、上記言及した記憶媒体は読み出し専用メモリ、磁気ディスク又は光ディスク等であってもよいと理解される。
以上の説明は本願の好適な実施例に過ぎず、本願を制限するためのものではなく、本願の趣旨及び原則内に行ったいかなる修正、等価置換、改良等は、いずれも本願の保護範囲内に含まれるべきである。
101 目標物体
102 端末装置
103 サーバ
700 入力画像ブロック
701 畳み込み層
702 プーリング層
703 全結合層
704 出力層
800 クライアント
810 オフライン受信モジュール
820 オンライン受信モジュール
830 識別モジュール
831 検出ユニット
832 判断ユニット
840 マッチングモジュール
850 姿確定モジュール
860 追加モジュール
900 クライアント
910 プロセッサ
920 メモリ
921 オフライン受信モジュール
922 オンライン受信モジュール
923 識別モジュール
924 マッチングモジュール
925 姿確定モジュール
926 追加モジュール
930 ポート
940 バス
1000 サーバ
1010 取得モジュール
1020 トレーニングモジュール
1021 撮影装置
1022 画像
1023 スクリーン
1024 仮想コンテンツ
1030 送信モジュール
1100 サーバ
1110 プロセッサ
1120 メモリ
1121 取得モジュール
1122 トレーニングモジュール
1123 送信モジュール
1130 ポート

Claims (25)

  1. 画像内の物体の姿の確定方法であって、端末装置に適用され、前記方法は、
    サーバから目標物体の畳み込みニューラルネットワークのトレーニングモデルパラメータを取得することと、
    前記目標物体のリアルタイム画像を取得し、前記リアルタイム画像から少なくとも1つの第1画像ブロックを識別し、前記第1画像ブロックが前記リアルタイム画像の部分画像であることと、
    前記トレーニングモデルパラメータに基づき、前記畳み込みニューラルネットワークによって各前記第1画像ブロックにマッチングするラベル画像ブロックを確定し、前記ラベル画像ブロックが前記目標物体の標準画像の部分画像であることと、
    前記各第1画像ブロック及び前記各第1画像ブロックにマッチングするラベル画像ブロックに基づき、前記目標物体の姿を確定することと、を含むことを特徴とする、前記画像内の物体の姿の確定方法。
  2. 前記リアルタイム画像から少なくとも1つの第1画像ブロックを識別することは、
    前記リアルタイム画像に対して特徴検出を行って、複数の局部特徴を取得することと、
    前記複数の局部特徴のうちの画像コントラストが予め設定されたコントラスト閾値より大きい、かつ画像エッジではない局部特徴を前記第1画像ブロックとして確定することと、を含むことを特徴とする
    請求項1に記載の方法。
  3. 前記トレーニングモデルパラメータは重み及び前記標準画像から識別された第2画像ブロックを含み、前記第2画像ブロックが前記標準画像の部分画像であり、各前記第1画像ブロック及び前記第1画像ブロックにマッチングするラベル画像ブロックに基づいて前記目標物体の姿を確定することは、
    各前記第1画像ブロックを前記畳み込みニューラルネットワークに入力し、前記重みに基づいて前記各第1画像ブロックが各前記第2画像ブロックにマッチングする確率を出力することと、
    前記各第1画像ブロックに対応する確率のうちの確率閾値より大きな確率の数を取得することと、
    前記数が予め設定された個数より大きな第1画像ブロックを目標画像ブロックとして確定することと、
    前記目標画像ブロック及び前記目標画像ブロックにマッチングするラベル画像ブロックに基づき、前記姿を確定することと、を含むことを特徴とする
    請求項1に記載の方法。
  4. 前記目標画像ブロック及び前記目標画像ブロックにマッチングするラベル画像ブロックに基づいて前記姿を確定することは、
    前記目標画像ブロックが前記各第2画像ブロックにマッチングする確率を取得することと、
    前記確率のうちの最大確率に対応する第2画像ブロックを前記目標画像ブロックのラベル画像ブロックとして確定することと、
    前記目標画像ブロック及び前記目標画像ブロックにマッチングするラベル画像ブロックに基づき、前記姿を確定することと、を含むことを特徴とする
    請求項3に記載の方法。
  5. 前記各第1画像ブロックは、前記各第1画像ブロックにマッチングするラベル画像ブロックを、アフィン変換行列を用いてアフィン変換して得られるものであり、各前記アフィン変換行列がアフィン変換行列セットを構成し、
    前記各第1画像ブロック及び前記各第1画像ブロックにマッチングするラベル画像ブロックに基づいて前記目標物体の姿を確定することは、
    最小二乗原則に従って前記アフィン変換行列セットから前記アフィン変換行列セットの行列推定値を確定し、前記行列推定値が前記アフィン変換行列に対応する逆変換の偏角であることを含むことを特徴とする
    請求項1〜4のいずれか1項に記載の方法。
  6. 最小二乗原則に従って前記アフィン変換行列セットから前記アフィン変換の行列推定値を確定することは、
    によって前記行列推定値を計算し、
    ここで、
    が前記行列推定値であり、qiが前記第1画像ブロックであり、i=1・・・N、Nが前記第1画像ブロックの総数であり、piがqiにマッチングするラベル画像ブロックであり、Aが前記アフィン変換行列であり、||・||が・のモジュラス値の平方を示し、Gが前記アフィン変換行列セットであることを含むことを特徴とする
    請求項5に記載の方法。
  7. 前記方法は、更に、
    前記姿に基づいて前記リアルタイム画像に仮想コンテンツを追加して表示することを含むことを特徴とする
    請求項1〜4のいずれか1項に記載の方法。
  8. 画像内の物体の姿の確定方法であって、サーバに適用され、前記方法は、
    目標物体の標準画像及び複数枚の前記目標物体の歪曲画像を取得することと、
    前記標準画像と前記複数枚の歪曲画像を畳み込みニューラルネットワークに入力してトレーニングして、前記畳み込みニューラルネットワークのトレーニングモデルパラメータを取得することと、
    前記トレーニングモデルパラメータを端末装置に送信することにより、前記端末装置が前記目標物体のリアルタイム画像を取得し、前記リアルタイム画像から少なくとも1つの第1画像ブロックを識別し、前記第1画像ブロックが前記リアルタイム画像の部分画像であり、前記トレーニングモデルパラメータに基づき、前記畳み込みニューラルネットワークによって各前記第1画像ブロックにマッチングするラベル画像ブロックを確定し、前記ラベル画像ブロックが前記標準画像の部分画像であり、前記各第1画像ブロック及び前記各第1画像ブロックにマッチングするラベル画像ブロックに基づき、前記目標物体の姿を確定することと、を含むことを特徴とする、前記画像内の物体の姿の確定方法。
  9. 目標物体の標準画像及び複数枚の前記目標物体の歪曲画像を取得することは、
    複数のアフィン変換行列をランダムに生成することと、
    各前記アフィン変換行列を用いて前記標準画像をアフィン変換して、前記複数の歪曲画像を得ることと、を含むことを特徴とする
    請求項8に記載の方法。
  10. 前記畳み込みニューラルネットワークは複数の畳み込み層を含み、前記方法は、更に、
    前記標準画像から少なくとも1つの第2画像ブロックを識別し、前記第2画像ブロックが前記標準画像の部分画像であることと、前記第2画像ブロックの個数及び予め設定された第2画像ブロックと畳み込み層の個数との対応関係に基づき、前記畳み込みニューラルネットワークにおける畳み込み層の個数を確定することと、を含むことを特徴とする
    請求項8に記載の方法。
  11. 前記標準画像と前記複数枚の歪曲画像を前記畳み込みニューラルネットワークに入力してトレーニングすることは、
    前記標準画像から少なくとも1つの第2画像ブロックを識別し、前記第2画像ブロックが前記標準画像の部分画像であることと、
    前記複数枚の歪曲画像をそれぞれ識別して、少なくとも1つの第3画像ブロックを取得し、前記第3画像ブロックが前記歪曲画像の部分画像であることと、
    前記畳み込みニューラルネットワークがトレーニングするとき、前記第3画像ブロックを入力サンプルとして、前記第2画像ブロックを理想的な出力サンプルとしてトレーニングして前記ニューラルネットワークの重みを得ることと、を含むことを特徴とする
    請求項8〜10のいずれか1項に記載の方法。
  12. 画像内の物体の姿の確定装置であって、
    サーバから目標物体の畳み込みニューラルネットワークのトレーニングモデルパラメータを取得するためのオフライン受信モジュールと、
    前記目標物体のリアルタイム画像を取得するためのオンライン受信モジュールと、
    前記リアルタイム画像から少なくとも1つの第1画像ブロックを識別することに用いられ、前記第1画像ブロックが前記リアルタイム画像の部分画像である識別モジュールと、
    前記トレーニングモデルパラメータに基づき、前記畳み込みニューラルネットワークによって各前記第1画像ブロックにマッチングするラベル画像ブロックを確定することに用いられ、前記ラベル画像ブロックが前記目標物体の標準画像の部分画像であるマッチングモジュールと、
    前記各第1画像ブロック及び前記各第1画像ブロックにマッチングするラベル画像ブロックに基づき、前記目標物体の姿を確定するための姿確定モジュールと、を備えることを特徴とする、前記画像内の物体の姿の確定装置。
  13. 前記識別モジュールは、更に、前記リアルタイム画像に対して特徴検出を行って、複数の局部特徴を取得し、前記複数の局部特徴のうちの画像コントラストが予め設定されたコントラスト閾値より大きい、かつ画像エッジではない局部特徴を前記第1画像ブロックとして確定することに用いられることを特徴とする
    請求項12に記載の装置。
  14. 前記トレーニングモデルパラメータは重み及び前記標準画像から識別された第2画像ブロックを含み、前記第2画像ブロックが前記標準画像の部分画像であり、前記マッチングモジュールは、更に、各前記第1画像ブロックを前記畳み込みニューラルネットワークに入力し、前記重みに基づいて前記各第1画像ブロックが各前記第2画像ブロックにマッチングする確率を出力し、前記各第1画像ブロックに対応する確率のうちの確率閾値より大きな確率の数を取得し、前記数が予め設定された個数より大きな第1画像ブロックを目標画像ブロックとして確定し、前記目標画像ブロック及び前記目標画像ブロックにマッチングするラベル画像ブロックに基づいて前記姿を確定することに用いられることを特徴とする
    請求項12に記載の装置。
  15. 前記マッチングモジュールは、更に、前記目標画像ブロックが前記各第2画像ブロックにマッチングする確率を取得し、前記確率のうちの最大確率に対応する第2画像ブロックを前記目標画像ブロックにマッチングするラベル画像ブロックとして確定し、前記目標画像ブロック及び前記目標画像ブロックにマッチングするラベル画像ブロックに基づいて前記姿を確定することに用いられることを特徴とする
    請求項14に記載の装置。
  16. 前記各第1画像ブロックは前記各第1画像ブロックにマッチングするラベル画像ブロックを、アフィン変換行列を用いてアフィン変換して得られるものであり、各前記アフィン変換行列がアフィン変換行列セットを構成し、
    前記姿確定モジュールは、更に、最小二乗原則に従って前記アフィン変換行列セットから前記アフィン変換行列セットの行列推定値を確定することに用いられ、前記行列推定値が前記アフィン変換行列に対応する逆変換の偏角であることを特徴とする
    請求項12〜15のいずれか1項に記載の装置。
  17. 前記姿確定モジュールは、更に、
    によって前記行列推定値を計算することに用いられ、
    ここで、
    が前記行列推定値であり、qiが前記第1画像ブロックであり、i=1・・・N、Nが前記第1画像ブロックの総数であり、piがqiにマッチングするラベル画像ブロックであり、Aが前記アフィン変換行列であり、||・||が・のモジュラス値の平方を示し、Gが前記アフィン変換行列セットであることを特徴とする
    請求項16に記載の装置。
  18. 前記装置は更に追加モジュールを備え、
    前記追加モジュールは前記姿に基づいて前記リアルタイム画像に仮想コンテンツを追加して表示することに用いられることを特徴とする
    請求項12〜15のいずれか1項に記載の装置。
  19. 画像内の物体の姿の確定装置であって、
    目標物体の標準画像及び前記目標物体の複数枚の歪曲画像を取得するための取得モジュールと、
    前記標準画像と前記複数枚の歪曲画像を畳み込みニューラルネットワークに入力してトレーニングして、前記畳み込みニューラルネットワークのトレーニングモデルパラメータを取得するためのトレーニングモジュールと、
    前記トレーニングモデルパラメータを端末装置に送信することにより、前記端末装置が前記目標物体のリアルタイム画像を取得し、前記リアルタイム画像から少なくとも1つの第1画像ブロックを識別し、前記第1画像ブロックが前記リアルタイム画像の部分画像であり、前記トレーニングモデルパラメータに基づき、前記畳み込みニューラルネットワークによって各前記第1画像ブロックにマッチングするラベル画像ブロックを確定し、前記ラベル画像ブロックが前記標準画像の部分画像であり、前記各第1画像ブロック及び前記各第1画像ブロックにマッチングするラベル画像ブロックに基づき、前記目標物体の姿を確定するための送信モジュールと、を備えることを特徴とする、前記画像内の物体の姿の確定装置。
  20. 前記取得モジュールは、更に、複数のアフィン変換行列をランダムに生成し、各前記アフィン変換行列を用いて前記標準画像をアフィン変換して、前記複数の歪曲画像を得ることに用いられることを特徴とする
    請求項19に記載の装置。
  21. 前記畳み込みニューラルネットワークは複数の畳み込み層を含み、前記トレーニングモジュールは、更に、前記標準画像から少なくとも1つの第2画像ブロックを識別し、前記第2画像ブロックが前記標準画像の部分画像であり、前記第2画像ブロックの個数及び予め設定された第2画像ブロックと畳み込み層の個数との対応関係に基づき、前記畳み込みニューラルネットワークにおける畳み込み層の個数を確定することに用いられることを特徴とする
    請求項19に記載の装置。
  22. 前記トレーニングモジュールは、更に、前記標準画像から少なくとも1つの第2画像ブロックを識別し、前記第2画像ブロックが前記標準画像の部分画像であり、前記複数枚の歪曲画像をそれぞれ識別して、少なくとも1つの第3画像ブロックを取得し、前記第3画像ブロックが前記歪曲画像の部分画像であり、前記畳み込みニューラルネットワークがトレーニングするとき、前記第3画像ブロックを入力サンプルとして、前記第2画像ブロックを理想的な出力サンプルとしてトレーニングして前記ニューラルネットワークの重みを得ることに用いられることを特徴とする
    請求項19〜21のいずれか1項に記載の装置。
  23. 端末装置であって、
    プロセッサ及びメモリを備え、前記メモリに少なくとも1つの命令が記憶され、前記命令が前記プロセッサによりロードし実行されることで請求項1〜7のいずれか1項に記載の画像内の物体の姿の確定方法を実現することを特徴とする、前記端末装置。
  24. サーバであって、
    プロセッサ及びメモリを備え、前記メモリに少なくとも1つの命令が記憶され、前記命令が前記プロセッサによりロードし実行されることで請求項8〜11のいずれか1項に記載の画像内の物体の姿の確定方法を実現することを特徴とする、前記サーバ。
  25. コンピュータ可読記憶媒体であって、
    少なくとも1つの命令、少なくとも1組のプログラム、コードセット又は命令セットが記憶され、前記少なくとも1つの命令、前記少なくとも1組のプログラム、前記コードセット又は命令セットがプロセッサによりロードし実行されることで請求項1〜9のいずれか1項に記載の画像内の物体の姿の確定方法を実現することを特徴とする、前記コンピュータ可読記憶媒体。
JP2019541339A 2017-07-14 2018-07-10 画像内の物体の姿の確定方法、装置、設備及び記憶媒体 Active JP6789402B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201710573908.5 2017-07-14
CN201710573908.5A CN107330439B (zh) 2017-07-14 2017-07-14 一种图像中物体姿态的确定方法、客户端及服务器
PCT/CN2018/095191 WO2019011249A1 (zh) 2017-07-14 2018-07-10 一种图像中物体姿态的确定方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
JP2020507850A JP2020507850A (ja) 2020-03-12
JP6789402B2 true JP6789402B2 (ja) 2020-11-25

Family

ID=60227213

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019541339A Active JP6789402B2 (ja) 2017-07-14 2018-07-10 画像内の物体の姿の確定方法、装置、設備及び記憶媒体

Country Status (6)

Country Link
US (1) US11107232B2 (ja)
EP (1) EP3576017B1 (ja)
JP (1) JP6789402B2 (ja)
KR (1) KR102319177B1 (ja)
CN (1) CN107330439B (ja)
WO (1) WO2019011249A1 (ja)

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10586111B2 (en) * 2017-01-13 2020-03-10 Google Llc Using machine learning to detect which part of the screen includes embedded frames of an uploaded video
CN107330439B (zh) 2017-07-14 2022-11-04 腾讯科技(深圳)有限公司 一种图像中物体姿态的确定方法、客户端及服务器
CN108012156B (zh) * 2017-11-17 2020-09-25 深圳市华尊科技股份有限公司 一种视频处理方法及控制平台
US10977755B2 (en) * 2017-11-21 2021-04-13 International Business Machines Corporation Cognitive screening for prohibited items across multiple checkpoints by using context aware spatio-temporal analysis
EP3714397A4 (en) * 2017-11-24 2021-01-13 Truemed Oy METHOD AND SYSTEM FOR IDENTIFYING THE AUTHENTICITY OF AN OBJECT
CN108449489B (zh) * 2018-01-31 2020-10-23 维沃移动通信有限公司 一种柔性屏控制方法、移动终端及服务器
DE102018207977B4 (de) * 2018-05-22 2023-11-02 Zf Friedrichshafen Ag Innenüberwachung für Sicherheitsgurteinstellung
US10789696B2 (en) * 2018-05-24 2020-09-29 Tfi Digital Media Limited Patch selection for neural network based no-reference image quality assessment
CN109561210A (zh) * 2018-11-26 2019-04-02 努比亚技术有限公司 一种交互调控方法、设备及计算机可读存储介质
CN109903332A (zh) * 2019-01-08 2019-06-18 杭州电子科技大学 一种基于深度学习的目标姿态估计方法
CN109903375B (zh) * 2019-02-21 2023-06-06 Oppo广东移动通信有限公司 模型生成方法、装置、存储介质及电子设备
CN110097087B (zh) * 2019-04-04 2021-06-11 浙江科技学院 一种自动钢筋捆扎位置识别方法
CN110232411B (zh) * 2019-05-30 2022-08-23 北京百度网讯科技有限公司 模型蒸馏实现方法、装置、系统、计算机设备及存储介质
CN110263918A (zh) * 2019-06-17 2019-09-20 北京字节跳动网络技术有限公司 训练卷积神经网络的方法、装置、电子设备和计算机可读存储介质
US10922877B2 (en) * 2019-07-01 2021-02-16 Samsung Electronics Co., Ltd. Higher-order function networks for learning composable three-dimensional (3D) object and operating method thereof
US11576794B2 (en) 2019-07-02 2023-02-14 Wuhan United Imaging Healthcare Co., Ltd. Systems and methods for orthosis design
CN110327146A (zh) * 2019-07-02 2019-10-15 武汉联影医疗科技有限公司 一种矫形器设计方法、装置和服务器
CN110443149A (zh) * 2019-07-10 2019-11-12 安徽万维美思信息科技有限公司 目标物体搜索方法、系统及存储介质
CN112308103B (zh) * 2019-08-02 2023-10-20 杭州海康威视数字技术股份有限公司 生成训练样本的方法和装置
CN110610173A (zh) * 2019-10-16 2019-12-24 电子科技大学 基于Mobilenet的羽毛球动作分析系统及方法
CN110751223B (zh) * 2019-10-25 2022-09-30 北京达佳互联信息技术有限公司 一种图像匹配方法、装置、电子设备及存储介质
CN110909794B (zh) * 2019-11-22 2022-09-13 乐鑫信息科技(上海)股份有限公司 一种适用于嵌入式设备的目标检测系统
CN111194000B (zh) * 2020-01-07 2021-01-26 东南大学 基于蓝牙融合混合滤波与神经网络的测距方法与系统
CN111734974B (zh) * 2020-01-22 2022-06-03 中山明易智能家居科技有限公司 一种具有坐姿提醒功能的智能台灯
CN111402399B (zh) * 2020-03-10 2024-03-05 广州虎牙科技有限公司 人脸驱动和直播方法、装置、电子设备及存储介质
CN111507908B (zh) * 2020-03-11 2023-10-20 平安科技(深圳)有限公司 图像矫正处理方法、装置、存储介质及计算机设备
CN113468929A (zh) * 2020-03-31 2021-10-01 华为技术有限公司 运动状态识别方法、装置、电子设备和存储介质
CN111462239B (zh) * 2020-04-03 2023-04-14 清华大学 姿态编码器训练及姿态估计方法及装置
KR102466978B1 (ko) 2020-04-23 2022-11-14 엔에이치엔클라우드 주식회사 딥러닝 기반 가상 이미지 생성방법 및 시스템
CN111553420B (zh) * 2020-04-28 2023-08-15 北京邮电大学 一种基于神经网络的x线影像识别方法及装置
CN111553419B (zh) * 2020-04-28 2022-09-09 腾讯科技(深圳)有限公司 一种图像识别方法、装置、设备以及可读存储介质
CN111638797A (zh) * 2020-06-07 2020-09-08 浙江商汤科技开发有限公司 一种展示控制方法及装置
CN112288816B (zh) * 2020-11-16 2024-05-17 Oppo广东移动通信有限公司 位姿优化方法、位姿优化装置、存储介质与电子设备
CN112446433A (zh) * 2020-11-30 2021-03-05 北京数码视讯技术有限公司 训练姿势的准确度确定方法、装置及电子设备
CN112200862B (zh) * 2020-12-01 2021-04-13 北京达佳互联信息技术有限公司 目标检测模型的训练方法、目标检测方法及装置
CN113034439B (zh) * 2021-03-03 2021-11-23 北京交通大学 一种高速铁路声屏障缺损检测方法及装置
CN114037740B (zh) * 2021-11-09 2024-07-19 北京字节跳动网络技术有限公司 图像数据流的处理方法、装置及电子设备
CN114819149B (zh) * 2022-06-28 2022-09-13 深圳比特微电子科技有限公司 基于变换神经网络的数据处理方法、装置和介质
CN116051486B (zh) * 2022-12-29 2024-07-02 抖音视界有限公司 内窥镜图像识别模型的训练方法、图像识别方法及装置

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4126541B2 (ja) * 2002-11-28 2008-07-30 富士ゼロックス株式会社 画像処理装置及び画像処理方法、画像処理プログラム、記憶媒体
JP4196302B2 (ja) * 2006-06-19 2008-12-17 ソニー株式会社 情報処理装置および方法、並びにプログラム
US9396539B2 (en) * 2010-04-02 2016-07-19 Nokia Technologies Oy Methods and apparatuses for face detection
CN102324043B (zh) * 2011-09-07 2013-12-18 北京邮电大学 基于dct的特征描述算子及优化空间量化的图像匹配方法
AU2011253779A1 (en) * 2011-12-01 2013-06-20 Canon Kabushiki Kaisha Estimation of shift and small image distortion
US9235780B2 (en) * 2013-01-02 2016-01-12 Samsung Electronics Co., Ltd. Robust keypoint feature selection for visual search with self matching score
US20140204013A1 (en) * 2013-01-18 2014-07-24 Microsoft Corporation Part and state detection for gesture recognition
KR102221152B1 (ko) * 2014-03-18 2021-02-26 에스케이플래닛 주식회사 객체 자세 기반 연출 효과 제공 장치 및 방법, 그리고 이를 위한 컴퓨터 프로그램이 기록된 기록매체
CN103927534B (zh) * 2014-04-26 2017-12-26 无锡信捷电气股份有限公司 一种基于卷积神经网络的喷码字符在线视觉检测方法
CN104268538A (zh) * 2014-10-13 2015-01-07 江南大学 一种易拉罐点阵喷码字符在线视觉检测方法
US9575566B2 (en) 2014-12-15 2017-02-21 Intel Corporation Technologies for robust two-dimensional gesture recognition
KR102449533B1 (ko) * 2015-05-28 2022-10-04 삼성전자주식회사 전자 장치 및 전자 장치에서 어플리케이션의 실행을 제어하는 방법
JP2017059207A (ja) * 2015-09-18 2017-03-23 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 画像認識方法
CN105512676A (zh) * 2015-11-30 2016-04-20 华南理工大学 一种智能终端上的食物识别方法
CN105718960B (zh) * 2016-01-27 2019-01-04 北京工业大学 基于卷积神经网络和空间金字塔匹配的图像排序模型
CN106683091B (zh) * 2017-01-06 2019-09-24 北京理工大学 一种基于深度卷积神经网络的目标分类及姿态检测方法
CN106845440B (zh) * 2017-02-13 2020-04-10 山东万腾电子科技有限公司 一种增强现实图像处理方法及系统
CN107038681B (zh) * 2017-05-31 2020-01-10 Oppo广东移动通信有限公司 图像虚化方法、装置、计算机可读存储介质和计算机设备
CN107330439B (zh) * 2017-07-14 2022-11-04 腾讯科技(深圳)有限公司 一种图像中物体姿态的确定方法、客户端及服务器
US10706535B2 (en) * 2017-09-08 2020-07-07 International Business Machines Corporation Tissue staining quality determination

Also Published As

Publication number Publication date
US20190355147A1 (en) 2019-11-21
EP3576017A1 (en) 2019-12-04
EP3576017A4 (en) 2020-12-30
CN107330439B (zh) 2022-11-04
KR102319177B1 (ko) 2021-10-28
CN107330439A (zh) 2017-11-07
EP3576017B1 (en) 2024-08-28
US11107232B2 (en) 2021-08-31
WO2019011249A1 (zh) 2019-01-17
KR20190128686A (ko) 2019-11-18
JP2020507850A (ja) 2020-03-12

Similar Documents

Publication Publication Date Title
JP6789402B2 (ja) 画像内の物体の姿の確定方法、装置、設備及び記憶媒体
CN109683699B (zh) 基于深度学习实现增强现实的方法、装置及移动终端
US20220222776A1 (en) Multi-Stage Multi-Reference Bootstrapping for Video Super-Resolution
US20110148868A1 (en) Apparatus and method for reconstructing three-dimensional face avatar through stereo vision and face detection
WO2020134818A1 (zh) 图像处理方法及相关产品
CN111008935B (zh) 一种人脸图像增强方法、装置、系统及存储介质
CN111985281B (zh) 图像生成模型的生成方法、装置及图像生成方法、装置
CN108388889B (zh) 用于分析人脸图像的方法和装置
CN113688907B (zh) 模型训练、视频处理方法,装置,设备以及存储介质
EP3791356B1 (en) Perspective distortion correction on faces
CN110111364B (zh) 运动检测方法、装置、电子设备及存储介质
CN108492284B (zh) 用于确定图像的透视形状的方法和装置
CN112766215A (zh) 人脸融合方法、装置、电子设备及存储介质
CN113724391A (zh) 三维模型构建方法、装置、电子设备和计算机可读介质
CN113920023B (zh) 图像处理方法及装置、计算机可读介质和电子设备
CN111192308A (zh) 图像处理方法及装置、电子设备和计算机存储介质
CN113436251A (zh) 一种基于改进的yolo6d算法的位姿估计系统及方法
CN109166176B (zh) 三维人脸图像的生成方法与装置
CN112785651A (zh) 用于确定相对位姿参数的方法和装置
CN116686006A (zh) 基于可变形模型的三维扫描配准
CN109493349B (zh) 一种图像特征处理模块、增强现实设备和角点检测方法
CN115205325A (zh) 目标追踪方法及装置
US9361540B2 (en) Fast image processing for recognition objectives system
CN116152345B (zh) 一种嵌入式系统实时物体6d位姿和距离估计方法
CN118379586B (zh) 关键点预测模型的训练方法、装置、设备、介质及产品

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190730

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200706

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200925

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201012

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201102

R150 Certificate of patent or registration of utility model

Ref document number: 6789402

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250