JP2019061642A - 映像処理装置及びその方法 - Google Patents
映像処理装置及びその方法 Download PDFInfo
- Publication number
- JP2019061642A JP2019061642A JP2018010594A JP2018010594A JP2019061642A JP 2019061642 A JP2019061642 A JP 2019061642A JP 2018010594 A JP2018010594 A JP 2018010594A JP 2018010594 A JP2018010594 A JP 2018010594A JP 2019061642 A JP2019061642 A JP 2019061642A
- Authority
- JP
- Japan
- Prior art keywords
- video
- image
- divided
- additional
- object cut
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 174
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000013528 artificial neural network Methods 0.000 claims abstract description 66
- 238000004458 analytical method Methods 0.000 claims abstract description 33
- 238000012790 confirmation Methods 0.000 claims description 23
- 238000012937 correction Methods 0.000 claims description 22
- 238000003672 processing method Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 6
- 230000004044 response Effects 0.000 claims description 5
- 230000003014 reinforcing effect Effects 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 32
- 238000004891 communication Methods 0.000 description 30
- 238000005516 engineering process Methods 0.000 description 20
- 238000004364 calculation method Methods 0.000 description 12
- 238000010801 machine learning Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 239000000284 extract Substances 0.000 description 6
- 230000011218 segmentation Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 239000003086 colorant Substances 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000003709 image segmentation Methods 0.000 description 3
- 238000010295 mobile communication Methods 0.000 description 3
- 210000004556 brain Anatomy 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000002567 autonomic effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
【課題】ニューラルネットワークを利用した学習結果を利用して、原本映像から客体カットを抽出する、映像処理装置及びその方法を提供する。【解決手段】映像処理装置の人口知能処理部160は、原本映像に対して特徴が類似した複数個の領域に分割した映像分割情報を獲得する第1分析部と、ニューラルネットワークを利用した学習結果に基づいて、原本映像から客体を識別し、映像分割情報を利用して、原本映像から抽出した客体を、第1領域ないし第3領域に区分した区分映像を生成し、区分映像のうちいずれか1つの領域を明確に補正した補正映像を出力する学習部と、原本映像及び補正映像を演算して生成した客体カットを出力し、原本映像及び区分映像をニューラルネットワークを利用した学習に含める処理部と、を含む。【選択図】図3
Description
本発明は、ニューラルネットワーク(neural network)学習アルゴリズムを活用し、人間頭脳の認知、判断などの機能を模写する人工知能技術を利用して、原本映像から客体カットを抽出する映像処理装置及びその方法に関する。
コンピュータ技術の発達と共に、データトラフィックが指数関数状に増大しながら、人工知能は、未来革新を主導する重要なトレンドとなっている。人工知能は、人間の考え方を模倣する方式であるために、事実上、全産業に無限に応用が可能である。
人工知能の代表的な技術としては、パターン認識、機械学習、エキスパートシステム、ニューラルネットワーク、自然語処理などがある。人工知能は、ビックデータを、自らの学習を介して、確率的に認識率を高めさせる機械学習と人工神経網との技術を介して、デバイスが合理的な意思決定を行うことを目標に発展した。
1950年代半ばから開化を始めた人工知能分野は、2000年まで人間知能を超える汎用人工知能の開発を目標にしたが、その楽観性は、だんだんと下り坂の情勢である。しかし、1990年代以降に入り、大量のデータが持続的に蓄積されており、CPU(central processing unit)など関連ハードウェアの性能が改善したということ、ディープラーニング(deep learning)のように、自己学習が可能なアルゴリズムの発展により、機械学習及び人工神経網を利用するデバイスへの関心が高まっている。
前述の背景技術は、発明者が本発明の導出のために保有していたり、本発明の導出過程で習得したりした技術情報であり、必ずしも本発明の出願前に一般公衆に公開された公知技術とするものではない。
本発明が解決しようとする課題は、前述の問題点及び/または限界を解決するために案出されたものであり、ニューラルネットワークを利用した学習結果を利用して、原本映像から客体カットを抽出するところに一目的がある。
本発明の一実施形態による映像処理装置は、原本映像に対して特徴が類似した複数個の領域に分割した映像分割情報を獲得する第1分析部と、ニューラルネットワークを利用した学習結果に基づいて、前記原本映像から客体を識別し、前記映像分割情報を利用して、前記原本映像から抽出した前記客体を第1領域ないし第3領域に区分した区分映像を生成し、前記区分映像のうちいずれか1つの領域を明確に補正した補正映像を出力する学習部と、前記原本映像及び前記補正映像を演算して生成した客体カットを出力し、前記原本映像及び前記区分映像を、前記ニューラルネットワークを利用した学習に含める処理部と、を含んでもよい。
前記映像処理装置は、前記客体カットに対する不可信号受信に対応し、前記客体カットから、第1ユーザ入力情報及び第2ユーザ入力情報を受信する受信部と、前記客体カットに係わる前記区分映像の一部を、前記第1ユーザ入力情報及び前記第2ユーザ入力情報に対応する前記映像分割情報を基に補強して追加区分映像を生成し、前記追加区分映像のうちいずれか1つの領域を明確に補正した追加補正映像を出力する第2分析部と、をさらに含んでもよい。
前記処理部は、前記原本映像及び前記追加補正映像を演算して生成した追加客体カットを出力し、前記原本映像及び前記追加区分映像を、前記ニューラルネットワークを利用した学習に含めてもよい。
前記映像処理装置は、前記追加客体カットに係わる確認信号が受信されるまで、前記受信部、前記第2分析部及び前記処理部の動作を反復遂行することができる。
前記受信部は、前記客体カットに含まれる前景領域に係わって、前記第1ユーザ入力情報を受信し、前記客体カットに含まれる背景領域に係わって、前記第2ユーザ入力情報を受信することができる。
本発明の一実施形態による映像処理方法は、原本映像に対して特徴が類似した複数個の領域に分割した映像分割情報を獲得する段階と、ニューラルネットワークを利用した学習結果に基づいて、前記原本映像から客体を識別し、前記映像分割情報を利用して、前記原本映像から抽出した前記客体を第1領域ないし第3領域に区分した区分映像を生成し、前記区分映像のうちいずれか1つの領域を明確に補正した補正映像を出力する段階と、前記原本映像及び前記補正映像を演算して生成した客体カットを出力し、前記原本映像及び前記区分映像を、前記ニューラルネットワークを利用した学習に含める段階と、を含んでもよい。
前記映像処理方法は、前記客体カットに係わる不可信号受信に対応し、前記客体カットから、第1ユーザ入力情報及び第2ユーザ入力情報を受信する段階と、前記客体カットに係わる前記区分映像の一部を、前記第1ユーザ入力情報及び前記第2ユーザ入力情報に対応する前記映像分割情報を基に補強して追加区分映像を生成し、前記追加区分映像のうちいずれか1つの領域を明確に補正した追加補正映像を出力する段階と、をさらに含んでもよい。
前記映像処理方法は、前記原本映像及び前記追加補正映像を演算して生成した追加客体カットを出力し、前記原本映像及び前記追加区分映像を、前記ニューラルネットワークを利用した学習に含める段階をさらに含んでもよい。
前記映像処理方法は、前記追加客体カットに係わる確認信号が受信されるまで、前記受信する段階、前記出力する段階、及び前記含める段階の動作を反復遂行することができる。
前記受信する段階は、前記客体カットに含まれる前景領域に係わって、前記第1ユーザ入力情報を受信する段階と、前記客体カットに含まれる背景領域に係わって、前記第2ユーザ入力情報を受信する段階と、を含んでもよい。
それ以外にも、本発明を具現するための他の方法、他のシステム、及び前記方法を実行するためのコンピュータプログラムがさらに提供されもする。
前述のところ以外の他の側面、特徴、利点は、以下の図面、特許請求の範囲、及び発明の詳細な説明から明確になるであろう。
本実施形態によれば、既存のユーザ入力情報を手動で入力して客体カットが抽出されたが、本実施形態においては、ニューラルネットワークを利用した学習結果を利用して、原本映像から客体カットを自動的に抽出して提供することにより、ユーザ介入なしに、便利に客体カットを抽出することができて便利である。
また、ニューラルネットワークを利用した学習結果を利用して、原本映像から客体カットを自動的に抽出して提供し、抽出した客体カットに対してユーザの満足度が低下する場合、ユーザが介入して追加客体カットを抽出して提供することにより、抽出した客体カットに係わるユーザ満足度を向上させることができる。
本発明の効果は、以上で言及されたものに限定されるものではなく、言及されていない他の効果は、以下の記載から当業者に明確に理解されるであろう。
本発明の利点、特徴、及びそれらを達成する方法は、添付される図面と共に詳細に説明される実施形態を参照すれば、明確になるであろう。しかし、本発明は、以下で提示される実施例に限定されるものではなく、互いに異なる多様な形態に具現され、本発明の思想及び技術範囲に含まれる全ての変換、均等物ないし代替物を含むと理解されなければならない。以下に提示される実施形態は、本発明の開示を完全なものにし、本発明が属する技術分野で当業者に、発明の範疇を完全に知らせるために提供されるのである。本発明についての説明において、関連公知技術に係わる具体的な説明が、本発明の要旨を不明確にすると判断される場合、その詳細な説明を省略する。
本出願で使用した用語は、ただ特定の実施形態についての説明に使用されたものであり、本発明を限定する意図ではない。単数の表現は、文脈上明白に異なって意味しない限り、複数の表現を含む。本出願において、「含む」または「有する」というような用語は、明細書上にに記載された特徴、数、段階、動作、構成要素、部品、またはそれらの組み合わせが存在するということを指定するものであり、一つ、またはそれ以上の他の特徴、数、段階、動作、構成要素、部品、またはそれらの組み合わせの存在または付加の可能性をあらかじめ排除するものではないとに理解されなければならない。第1、第2のような用語は、多様な構成要素についての説明に使用されるが、該構成要素は、前記用語によって限定されるものではない。前記用語は、1つの構成要素を他の構成要素から区別する目的のみに使用される。
以下、本発明による実施形態について、添付された図面を参照し、詳細に説明するが、添付図面を参照しての説明において、同一であるか、あるいは対応する構成要素は、同一図面番号を付し、それに係わる重複説明は省略する。
図1は、本発明の一実施形態による映像処理システムについて概略的に説明するために図示した図面である。図1を参照すれば、映像処理システム1は、映像処理装置100、ユーザ端末機200及び通信網300を含んでもよい。
本発明の一実施形態による映像処理装置100は、原本映像に対して特徴が類似した複数個の領域に分割した映像分割情報を獲得し、ニューラルネットワークを利用した学習結果に基づいて、原本映像から客体を識別し、映像分割情報を利用して、原本映像から抽出した客体を、第1領域ないし第3領域に区分した区分映像を生成し、該区分映像のうちいずれか1つの領域を明確に補正した補正映像を出力し、原本映像及び補正映像を演算して生成した客体カットを出力し、生成した客体カットに係わる確認信号受信に対応し、原本映像、区分映像及び客体カットを、ニューラルネットワークを利用した学習に含めてもよい。ここで、該ニューラルネットワークを利用した学習に含めるというのは、原本映像及び区分映像を、ニューラルネットワークを利用した学習データとして利用することを含んでもよい。
一実施形態よって、映像処理装置100は、生成した客体カットに係わる不可信号が、受信に対応し、客体カットから、第1ユーザ入力情報及び第2ユーザ入力情報を受信し、客体カットに係わる前記区分映像の一部を、第1ユーザ入力情報及び第2ユーザ入力情報に対応する映像分割情報を基に補強し、追加区分映像を生成し、追加区分映像のうちいずれか1つの領域を明確に補正した追加補正映像を出力し、原本映像及び追加補正映像を演算して生成した追加客体カットを出力し、生成した追加客体カットに係わる確認信号受信に対応し、原本映像及び追加区分映像をニューラルネットワークを利用した学習に含めてもよい。ここで、映像処理装置100は、追加客体カットに係わる確認信号が受信されるまで、第1ユーザ入力情報及び第2ユーザ入力情報を受信する過程、前景領域に対する追加区分映像の生成、及び追加補正映像の出力を行う過程、追加客体カットを出力する過程を反復的に遂行し、原本映像及び追加区分映像をニューラルネットワークを利用した学習に含めてもよい。
ユーザ端末機200は、映像処理装置100が提供する映像処理ウェブページ及び/または映像処理アプリケーションを表示することができる。そのために、映像処理装置100は、通信網300を介して、映像表示装置としてのユーザ端末機200に、映像処理ウェブページ及び/または映像処理アプリケーションを伝送することができる。ユーザ端末機200を介して、ユーザの接続識別情報(ID)及びパスワードを受信した映像処理装置100は、映像処理ウェブページ及び/または映像処理アプリケーションに、ユーザ認証を行うことができる。
ユーザ端末機200は、映像処理装置100に原本映像を送信することができる。ユーザ端末機200は、内部に保存された映像を原本映像として選択し、映像処理装置100に送信することができる。例えば、ユーザ端末機200は、アルバムアプリケーションなどを実行し、既保存の映像を原本映像として選択することができる。また、ユーザ端末機200は、外部サーバから映像を受信し、原本映像として選択することができる。例えば、ユーザ端末機200は、ソーシャルネットワークサーバ(social network server)、クラウドサーバ(cloud server)またはコンデンツ提供サーバなどにアクセスし、映像をダウンロードできる。また、ユーザ端末機200は、内部に具備されたカメラを利用して映像をキャプチャし、キャプチャした映像を原本映像として選択することができる。このとき、ユーザ端末機200は、カメラアプリケーションを実行し、映像をキャプチャすることができる。
ユーザ端末機200は、映像処理装置100から受信した客体カットに対して、確認信号及び/または不可信号を送信することができる。ユーザ端末機200が、映像処理装置100に不可信号を送信する場合、映像処理装置100の要請により、第1ユーザ入力情報及び第2ユーザ入力情報を送信することができる。ユーザ端末機200が、客体カットに対して、確認信号を映像処理装置100に送信するまで、第1ユーザ入力情報及び第2ユーザ入力情報の送信は、反復される。
そのようなユーザ端末機200は、ユーザが操作するデスクトップコンピュータ201、スマートフォン202、ノート型パソコン203、タブレットPC(personal computer)、スマートTV(television)、携帯電話、PDA(personal digital assistant)、ラップトップ、メディアプレーヤ、マイクロサーバ、GPS(global position system)装置、電子書籍端末機、デジタル放送用端末機、ナビゲーション、キオスク、MP3プレーヤ、デジタルカメラ、家電機器、及びその他のモバイルまたは非モバイルのコンピュータ装置でもあるが、それらに制限されるものではない。また、ユーザ端末機200は、通信機能及びデータプロセッシング機能を具備した時計、めがね、ヘアバンド及び指輪などのウェアラブル端末機でもある。ユーザ端末機200は、前述の内容に制限されるものではなく、前述のように、ウェブブラウジング可能な端末機であるならば、制限なしに借用される。
一方、通信網300は、ユーザ端末機200を、映像処理装置100と連結する役割を行う。すなわち、通信網300は、ユーザ端末機200が映像処理装置100に接続した後、所定情報を送受信することができるように、接続経路を提供する通信網を意味する。通信網300は、例えば、LANs(local area networks)、WANs(wide area networks)、MANs(metropolitan area networks)、ISDNs(integrated service digital networks)などの有線ネットワーク;無線LANs、CDMA(code division multiple access)、ブルートゥース(Bluetooth)、衛星通信などの無線ネットワークを網羅することができるが、本発明の範囲は、それらに限定されるものではない。
図2は、図1の映像処理システム1中映像処理装置100の詳細構成について概略的に説明するために図示した図面である。図2を参照すれば、映像処理装置100は、通信部110、記録媒体120、プログラム保存部130、制御部140、データベース(DB)150及び人工知能処理部160を含んでもよい。
通信部110は、通信網300と連動し、映像処理装置100とユーザ端末機200との送受信信号を、パッケージデータ形態で提供するのに必要な通信インターフェースを提供することができる。さらに通信部110は、ユーザ端末機200から、所定情報要請信号を受信する役割を行い、人工知能処理部160が処理した情報を、ユーザ端末機200に伝送する役割を行うことができる。ここで、通信網とは、映像処理装置100とユーザ端末機200とを連結する役割を行う媒介体であり、ユーザ端末機200が映像処理装置100に接続した後、情報を送受信することができるように、接続経路を提供する経路を含んでもよい。また、通信部110は、他のネットワーク装置と、有無線連結を介して、制御信号またはデータ信号のような信号を送受信するために必要なハードウェア及びソフトウェアを含む装置でもある。
記録媒体120は、制御部140が処理するデータを、一時的または永久に保存する機能を遂行する。ここで、記録媒体120は、磁気記録媒体(magnetic storage media)またはフラッシュ記録媒体(flash storage media)を含んでもよいが、本発明の範囲は、それらに限定されるものではない。かような記録媒体120は、内蔵メモリ及び/または外装メモリを含んでもよく、DRAM(dynamic random access memory)、SRAM(static random access memory)またはSDRAM(synchronous dynamic random access memory)のような揮発性メモリ;OTPROM(one time programmable read-only memory)、PROM(programmable read-only memory)、EPROM(electrically programmable read-only memory)、EEPROM(electrically erasable programmable read-only memory)、mask ROM、flash ROM、NANDフラッシュメモリまたはNORフラッシュメモリのような非揮発性メモリ;SSD(solid state drive)、CF(compact flash)カード、SDカード、Micro−SDカード、Mini−SDカード、Xdカードまたはメモリスティック(memory stick)のようなフラッシュドライブ、またはHDD(hard disk drive)のような保存装置を含んでもよい。本実施形態において、記録媒体120には、ニューラルネットワークを構成する1以上のインストラクション、ニューラルネットワークを制御する1以上のインストラクションを含んでもよい。
プログラム保存部130は、ユーザ端末機200から受信した原本映像に対して特徴が類似した複数個の領域に分割した映像分割情報を獲得する作業、ニューラルネットワークを利用した学習結果に基づいて、原本映像から客体を識別する作業、映像分割情報を利用して、原本映像から抽出した前記客体を、第1領域ないし第3領域に区分した区分映像を生成する作業、区分映像のうちいずれか1つの領域を明確に補正した補正映像を生成及び出力する作業、原本映像及び補正映像を演算して生成した客体カットを出力する作業、原本映像及び区分映像をニューラルネットワークを利用した学習に含める作業、客体カットに係わる不可信号受信に対応し、ユーザ端末機200に、第1ユーザ入力情報及び第2ユーザ入力情報を要請して受信する作業、第1ユーザ入力情報、第2ユーザ入力情報及び映像分割情報を利用して、客体カットの区分映像の一部分を明確に補正した追加区分映像を生成する作業などを遂行する制御ソフトウェアを搭載している。
データベース150は、ユーザ端末機200から受信した原本映像と、映像処理装置100の人工知能処理で生成した各種映像及び/または情報、例えば、原本映像に係わる映像分割情報、区分映像、補正映像、客体カットを、ニューラルネットワークのための学習データとして保存することができる。また、データベース150には、客体カットに係わる不可信号受信に対応し、ユーザから受信した第1ユーザ入力情報及び第2ユーザ入力情報を基に、追加客体カットを生成する一連の処理過程情報(例えば、追加区分映像、追加補正映像、追加客体カット)を、ニューラルネットワークのための学習データとして保存することができる。
さらに、データベース150は、ユーザ情報を保存するユーザデータベースをさらに含んでもよい。ここで、該ユーザデータベースは、原本映像から客体カットを抽出するサービスを利用するユーザに係わるユーザ情報を保存することができる。ここで、該ユーザ情報には、ユーザの氏名、所属、人的事項、性別、年齢、連絡先、電子メール、住所などユーザに係わる基本的な情報;ID(identification)(または、電子メール)及びパスワード(password)など認証(ログイン)についての情報;接続国家、接続位置、接続に利用した装置についての情報;接続されたネットワーク環境など接続と係わる情報などを含んでもよい。
人工知能処理部160は、ニューラルネットワークを利用した学習結果に基づいて、原本映像から客体カットを抽出して提供し、客体カット抽出のために生成した情報及び/または映像を、ニューラルネットワークを利用した学習に含めてもよい。人工知能処理部160は、抽出した客体カットに対してユーザから不可信号を受信する場合、ユーザから受信した第1ユーザ入力情報及び第2ユーザ入力情報を利用して、追加客体カットを抽出して提供し、追加カット抽出のために生成した情報及び/または映像を、ニューラルネットワークを利用した学習に含めてもよく、ユーザから確認信号を受信するまで、客体カット抽出過程が反復される。
人工知能(AI:artificial intelligence)技術は、人間レベルの知能を具現するコンピュータ処理技術であり、既存Rule基盤スマート技術と異なり、機械が自ら学習して判断し、聡明になる技術である。該人工知能技術は、使用するほど認識率が向上し、ユーザ趣向をさらに正確に理解し、既存Rule基盤スマートシステムは、徐々にディープラーニング基盤人工知能システムで代替されている。
該人工知能技術は、機械学習(ディープラーニング)、及び機械学習を活用した要素技術によって構成される。該機械学習は、入力データの特徴を自ら分類/学習するアルゴリズム技術であり、該要素技術は、ディープラーニングなどの機械学習アルゴリズムを活用し、人間頭脳の認知、判断などの機能を模写する技術であり、言語的理解、視覚的理解、推論/予測、知識表現、動作制御などの技術分野でも構成される。
該人工知能技術が応用される多様な分野は、次の通りである。該言語的理解は、人間の言語/文字を認識して応用/処理する技術であり、自然語処理、機械翻訳、対話システム、質疑応答、音声認識/合成などを含んでもよい。該視覚的理解は、事物を人間の視覚のように認識して処理する技術であり、客体識別、客体追跡、映像検索、人認識、場面理解、空間理解、映像改善などを含んでもよい。該推論予測は、情報を判断し、論理的に推論して予測する技術であり、知識/確率基盤推論、最適化予測、選好基盤計画、推薦などを含む。該知識表現は、人間の経験情報を知識データに自動化処理する技術であり、知識構築(データ生成/分類)、知識管理(データ活用)などを含んでもよい。該動作制御は、車両の自律走行、ロボットの動きを制御する技術であり、動き制御(航法、衝突、走行)、操作制御(行動制御)などを含んでもよい。
一般的に、原本映像から客体カットを抽出するためには、ユーザの手動介入が必須であったが、本実施形態では、人工知能を基盤としたニューラルネットワークを利用した学習結果を利用して、原本映像から客体カットを自動的に抽出して提供することにより、ユーザ介入なしに、便利に客体カットを抽出することができる。
また、ニューラルネットワークを利用した学習結果を利用して、原本映像から客体カットを自動的に抽出して提供し、抽出した客体カットに対してユーザの満足度が低下する場合、ユーザが介入し、追加客体カットを抽出して提供することにより、抽出した客体カットに係わるユーザ満足度を向上させることができる。
図3は、図2の映像処理装置100のうち、一実施形態による人工知能処理部160の詳細構成について概略的に説明するために図示した図面である。図3を参照すれば、人工知能処理部160は、第1分析部161、学習部162及び処理部163を含んでもよい。
第1分析部161は、原本映像に対して特徴が類似した複数個の領域に分割した映像分割情報を獲得することができる。第1分析部161は、原本映像内の任意位置をシード(seed)にし、該シードを中心に、明るさ値、エッジ、カラーなどが類似した特徴を有する1以上の領域を探し出し、処理されている領域と、それに隣接した領域とが互いに同一特徴を有している場合、各領域を1つの領域に統合し、結局、該特徴が同一である領域を徐々に成長させ、最終的に原本映像全体を、特徴が類似した複数個の領域に分割するといえる。第1分析部161は、獲得した映像分割情報をデータベース150に保存することができる。
図4は、図3の人工知能処理部160において、第1分析部161の詳細構成について概略的に説明するために図示した図面である。図4を参照すれば、第1分析部161は、設定部161−1、算出部161−2、クラスタリング部161−3、第1生成部161−4及び第2生成部161−5を含んでもよい。
設定部161−1は、原本映像(図8A)から、映像分割情報獲得のために、第1パラメータ及び第2パラメータを設定することができる。ここで、該第1パラメータは、シードの個数を含んでもよく、該第1パラメータは、ユーザ端末機200から受信して設定されるか、原本映像の大きさを領域内の画素個数に分けて算出して設定されるか、あるいは動作時ごとにランダム値に設定されもする。また、該第2パラメータは、各シードにおいて、全体画素それぞれまでの距離算出に係わる反復回数を含んでもよい。該反復回数を指定せずに、距離算出が続けて反復されれば、処理量が多くなり、記録媒体120の容量不足現象が発生するので、適切な反復回数設定が要求される。該第2パラメータは、ユーザ端末機200から受信して設定するか、あるいはデフォルト値として設定される。
算出部161−2は、各シードにおいて、全体画素それぞれまでの距離算出を行い、該距離算出結果を、Labカラーで表現することができる。算出部161−2の距離算出反復回数は、設定された第2パラメータほど反復遂行することができる。
クラスタリング部161−3は、第2パラメータほど反復遂行された各シードにおいて、全体画素それぞれまでの距離算出結果をクラスタリングし、原本映像内において、Labカラー(距離算出結果)が類似した画素を1つの領域に含めてもよい。それにより、該原本映像は、Labカラーが類似した複数個の領域に分割される。
第1生成部161−4は、Labカラーが類似した複数個の領域それぞれに、インデックスを付けた映像分割インデックス情報を生成することができる。図8Bは、原本映像(図8A)から生成した映像分割インデックス情報映像を、色相で表現した例を図示している。第1生成部161−4は、生成した映像分割インデックス情報を、データベース150に保存することができる。
第2生成部161−5は、Labカラーが類似した複数個の領域それぞれから算出した平均画素値と、ある1つの基準領域を中心に探索した周辺4方位の領域の映像分割インデックス情報を連結させた連結情報と、第1生成部161−4で生成した映像分割インデックス情報を含んでいる映像分割情報と、を生成することができる。図8Cは、原本映像(図8A)及び映像分割インデックス情報映像(図8B)を利用して生成した映像分割情報映像を表現した例を図示している。第2生成部161−5は、生成した映像分割情報を、データベース150に保存することができる。
図3に戻り、学習部162は、ニューラルネットワークを利用した学習結果に基づいて、原本映像から客体を識別することができる。そのために、学習部162は、ニューラルネットワークモジュール(図示せず)をさらに含んでもよい。ここで、該ニューラルネットワークは、統計学的機械学習の結果を利用して、原本映像内の多様な属性を抽出して利用することにより、原本映像内の客体を、識別及び/または判断するアルゴリズム集合でもある。該ニューラルネットワークは、該ニューラルネットワークに入力された原本映像内に含まれた多様な属性を抽象化することにより、原本映像内の客体を識別することができる。その場合、原本映像内属性の抽象化は、原本映像から属性を検出し、検出された属性のうち核心属性を判断することでもある。
例えば、学習部162は、原本映像及び/または区分映像(追加区分映像ももいう)をニューラルネットワークに入力し、原本映像内に含まれた客体の位置、及び/または客体のカテゴリー(category)をニューラルネットワークから出力される。
具体的には、学習部162は、ニューラルネットワークを利用した学習結果により、原本映像内及び/または区分映像内において、既設定の映像属性を検出し、検出された映像属性に基づいて、原本映像内において、客体の位置及び/または客体のカテゴリーを決定することができる。ここで、該映像属性は、映像を構成する色相、エッジ(edge)、ポリゴン(polygon)、彩度(saturation)、明度(brightness)などを含んでもよいが、該映像属性は、それらに限定されるものではない。
一方、学習部162は、ニューラルネットワークを利用するために、原本映像及び/または区分映像から、1以上の客体を識別するように、ニューラルネットワークを学習することができる。例えば、学習部162は、ニューラルネットワーク内において、客体別に、映像属性に対して、指導学習及び/または非指導学習(または、自律学習または能動学習)された結果を、分析及び/または評価する動作を反復遂行することにより、ニューラルネットワークを学習することができる。学習部162は、ニューラルネットワーク学習時、原本映像及び区分映像を、学習データとして利用して、客体識別に活用することができる。ここで、該区分映像は、最終区分映像でもあり、最終区分映像とは、後述する確認信号が受信された客体カットに係わる区分映像及び/または追加区分映像を含んでもよい。
学習部162は、ニューラルネットワークを利用して識別された客体、及び第1分析部161で獲得した映像分割情報を利用して、客体を、第1領域ないし第3領域に区分した区分映像を生成することができる。ここで、該第1領域は、識別された客体のうち前景領域を含んでもよく、第1値(例えば、白)で表示することができる。また、第2領域は、識別された客体のうち背景領域を含んでもよく、第2値(例えば、黒色)で表示することができる。また、第3領域は、識別された客体のうち第1領域であるか、あるいは第2領域であるか不明確である不明確領域を含んでもよく、第3値(例えば、灰色)で表示することができる。
学習部162は、第1領域ないし第3領域に区分された区分映像のうちいずれか1つの領域を明確に補正した補正映像を生成して出力することができる。ここで、ある1つの領域というのは、第3領域を含んでもよく、該補正映像は、第3領域の一部が第1領域に含まれる場合、第3領域の一部を第1領域に補正し、第3領域の他の一部が第2領域に含まれる場合、第3領域の他の一部を第2領域に補正した映像であるといえる。学習部162は、原本映像及び区分映像の相関関係を利用して、区分映像から補正映像を生成することができる。
他の実施形態において、学習部162は、ニューラルネットワークを利用した学習結果に基づいて、シメンティックセグメンテーション(semantic segmentation)を介して原本映像から識別した客体、及び客体に係わる映像分割情報を比較して区分映像を生成し、該区分映像のうちいずれか1つの領域を明確に補正した補正映像を生成して出力することもできる。
本実施形態において、第1分析部161及び学習部162のうち少なくとも一つは、少なくとも1つのハードウェアチップ形態によって製作され、電子装置にも搭載される。例えば、第1分析部161及び学習部162のうち少なくとも一つは、人工知能のための専用ハードウェアチップ形態によって製作され、または既存の汎用プロセッサ(例:CPU(central processing unit)またはアプリケーションプロセッサ)またはグラフィック専用プロセッサ(例:GPU(graphics processing unit))の一部として製作され、各種電子アーチにも搭載される。
処理部163は、原本映像及び補正映像を論理積演算し、演算結果として生成した客体カットをユーザ端末機200に出力することができる。処理部163は、原本映像及び区分映像をデータベース150に保存し、ニューラルネットワークを利用した学習に含めてもよい。また、処理部163は、生成した客体カットを、データベース150に保存することができる。
図5は、図2の映像処理装置100において、他の実施形態による人工知能処理部160の詳細構成について概略的に説明するために図示した図面である。図5を参照すれば、人工知能処理部160は、第1分析部161、学習部162、処理部163、受信部164及び第2分析部165を含んでもよい。
第1分析部161は、原本映像に対して特徴が類似した複数個の領域に分割した映像分割情報を獲得することができる。
学習部162は、ニューラルネットワークを利用した学習結果に基づいて、原本映像から客体を識別し、映像分割情報を利用して、原本映像から抽出した客体に対して区分映像を生成し、区分映像のうちいずれか1つの領域を明確に補正した補正映像を生成して出力することができる。
以下、第1分析部161及び学習部162の動作は、前述の図3と同一であるので、省略する。
処理部163は、原本映像及び補正映像を論理積演算して生成した客体カットを、ユーザ端末機200に出力し、原本映像、補正映像及び客体カットをデータベース150に保存することができる。
受信部164は、ユーザ端末機200に出力された客体カットに対して、確認信号または不可信号を受信することができる。また、受信部164は、ユーザ端末機200から、第1ユーザ入力情報及び第2ユーザ入力情報を受信することができる。
受信部164が、ユーザ端末機200から確認信号を受信する場合、処理部163は、原本映像及び区分映像をデータベース150に保存し、ニューラルネットワークを利用した学習に含めてもよい。図8Dは、ユーザ端末機200から確認信号を受信した客体カットの一例を図示している。
受信部164が、ユーザ端末機200から不可信号を受信する場合、第2分析部165が動作を開始し、それと共に、処理部163は、ユーザ端末機200に、第1ユーザ入力情報及び第2ユーザ入力情報入力を要請することができる。
第2分析部165は、処理部163を介してデータベース150から抽出した客体カットの区分映像と、受信部164から受信した第1ユーザ入力情報及び第2ユーザ入力情報と、第1分析部161から受信した映像分割情報と、を利用して、区分映像に含まれた客体の一部分を補強した追加区分映像を生成し、追加区分映像のうちいずれか1つの領域を明確に補正した追加補正映像を出力することができる。
図8Eは、ユーザ端末機200から不可信号を受信した客体カットの一例を図示している。ここで、第1ユーザ入力情報は、図8Fに図示されているように、ユーザ端末機200に出力された不可信号を受信した客体カットから、前景領域を指定するユーザ入力例えば、第1ドラッグ810を含んでもよい。また、第2ユーザ入力情報は、図8Fに図示されているように、ユーザ端末機200に出力された不可信号を受信した客体カットから前景領域を指定した後、背景領域を指定するユーザ入力、例えば、第2ドラッグ820を含んでもよい。また、第1ユーザ入力情報及び第2ユーザ入力情報は、互いに異なる色にも表現される。
図6は、図5の人工知能処理部160のうち、第2分析部165の詳細構成について概略的に説明するために図示した図面である。図6を参照すれば、第2分析部165は、第3生成部165−1及び第4生成部165−2を含んでもよく、第2分析部165は、学習部162にも含まれる。
第3生成部165−1は、処理部163を介してデータベース150から抽出した客体カットの区分映像と、受信部164から受信した第1ユーザ入力情報及び第2ユーザ入力情報と、第1分析部161から受信した映像分割情報と、を利用して、区分映像に含まれた客体の一部分を補強した追加区分映像を生成することができる。
図8Fに図示されているように、ユーザ端末機200に出力された不可信号を受信した客体カットは、客体領域の一部分が出力されていない。第3生成部165−1は、その客体カットの区分映像に係わる第1ユーザ入力情報から客体カットの前景領域を抽出し、第2ユーザ入力情報から、客体カットの背景領域を抽出することができる。第3生成部165−1は、客体カットの前景領域(一部分の出力が抜け落ちた客体)の位置及び画素値を、分割された領域それぞれの平均画素値、連結情報及び映像分割インデックス情報を含んでいる映像分割情報から検索し、一部分の出力を補強した追加区分映像を生成することができる。図8Gは、不可信号を受信した客体カットに対して、一部分の出力を補強した追加区分映像の一例を図示している。
また、該追加区分映像は第1領域ないし第3領域に区分されており、ここで、第1領域は、客体のうち前景領域を含んでもよく、第1値(例えば、白)で表示することができる。また、第2領域は、客体のうち背景領域を含んでもよく、第2値(例えば、黒色)で表示することができる。また、第3領域は、客体のうち第1領域であるか、または第2領域であるか不明確な不明確領域を含んでもよく、第3値(例えば、灰色)で表示することができる。
第4生成部165−2は、第1領域ないし第3領域に区分された追加区分映像のうちいずれか1つの領域を明確に補正した補正映像を生成し、処理部163に出力することができる。ここで、ある1つの領域というのは、第3領域を含んでもよく、追加補正映像は、第3領域の一部が第1領域に含まれる場合、第3領域の一部を第1領域に補正し、第3領域の他の一部が、第2領域に含まれる場合、第3領域の他の一部を第2領域に補正した映像といえる。第4生成部165−2は、原本映像及び追加区分映像の相関関係を利用して、追加区分映像から補正映像を生成することができる。図8Hは、追加区分映像(図8G)に対して生成した補正映像の一例を図示している。
本実施形態において、第1分析部161、学習部162及び第2分析部165のうち少なくとも一つは、少なくとも1つのハードウェアチップ形態によって製作されて電子装置にも搭載される。例えば、第1分析部161、学習部162及び第2分析部165のうち少なくとも一つは、人工知能のための専用ハードウェアチップ形態によって製作され、または既存の汎用プロセッサ(例:CPUまたはアプリケーションプロセッサ)またはグラフィック専用プロセッサ(例:GPU)の一部として製作され、各種電子アーチにも搭載される。
図5に戻り、処理部163は、原本映像及び追加補正映像を論理積演算し、演算結果として生成した追加客体カットを、ユーザ端末機200に出力することができる。その後、受信部164が、ユーザ端末機200から確認信号を受信する場合、処理部163は、原本映像及び追加区分映像をデータベース150に保存し、ニューラルネットワークを利用した学習に含めてもよい。ここで、追加客体カットに係わる確認信号が受信されるまで、第1ユーザ入力情報及び第2ユーザ入力情報を受信する過程、前景領域に係わる追加区分映像の生成、及び追加補正映像の出力を行う過程、追加客体カットを出力する過程を反復的に遂行し、原本映像及び追加区分映像をニューラルネットワークを利用した学習結果に含めてもよい。
図7は、図1の映像処理システム1において、ユーザ端末機200の詳細構成について概略的に説明するために図示した図面である。図7を参照すれば、ユーザ端末機200は、通信部210、メモリ220、入出力部230、プログラム保存部240、制御部250及び表示部260を含んでもよい。
通信部210は、映像処理装置100のような他のネットワーク装置と、有無線連結を介して、制御信号またはデータ信号のような信号を送受信するために必要なハードウェア及びソフトウェアを含む装置でもある。例えば、通信部210は、近距離通信部(short-range wireless communication unit)または移動通信部を含んでもよい。該近距離通信部は、ブルートゥース(Bluetooth)通信部、BLE(Bluetooth low energy)通信部、近距離無線通信部(near field communication unit)、WLAN(wireless local area network)(Wi−Fi(wireless fidelity))通信部、ジグビー(Zigbee)通信部、赤外線(IrDA:infrared data association)通信部、WFD(Wi−Fi direct)通信部、UWB(ultra wideband)通信部、Ant+通信部などでもあるが、それらに限定されるものではない。該移動通信部は、移動通信網上において、基地局、外部の端末、サーバのうち少なくとも一つと無線信号を送受信する。ここで、該無線信号は、音声コール信号、画像通話コール信号、または文字/マルチメディアメッセージ送受信による多様な形態のデータを含んでもよい。
メモリ220は、制御部250が処理するデータを一時的または領域的に保存するか、あるいはユーザ端末機200に伝送されたデータを一時的または領域的に保存することができる。ここで、メモリ220は、磁気記録媒体(magnetic storage media)またはフラッシュ記録媒体(flash storage media)を含んでもよいが、本発明の範囲は、それらに限定されるものではない。
入出力部230は、タッチ認識ディスプレイ制御器、またはそれ以外の多様な入出力制御器によっても構成される。一例として、タッチ認識ディスプレイ制御器は、装置とユーザとの間において、出力インターフェース及び入力インターフェースを提供することができる。該タッチ認識ディスプレイ制御器は、電気信号を制御部250と送受信することができる。また、該タッチ認識ディスプレイ制御器は、ユーザに視覚的な出力を表示し、該視覚的出力は、テキスト、グラフィック、イメージ、ビデオ、及びそれらの組み合わせを含んでもよい。かような入出力部230は、例えば、タッチ認識が可能なOLED(organic light emitting display)またはLCD(liquid crystal display)のような所定ディスプレイ部材でもある。
プログラム保存部240は、原本映像を選択し、映像処理装置100に送信する作業、映像処理装置100から客体カットまたは/及び追加客体カットを受信して表示する作業、客体カットまたは/及び追加客体カットに係わる確認信号または不可信号を送信する作業、客体カットまたは/及び追加客体カットに、第1ユーザ入力情報及び第2ユーザ入力情報の入力を受信し、映像処理装置100に送信する作業などを遂行する制御ソフトウェアを搭載することができる。
制御部250は、一種の中央処理装置であり、プログラム保存部240に搭載された制御ソフトウェアを駆動し、表示部260を制御して所定情報を表示するというような多様な機能を提供することができる。ここで、制御部250は、プロセッサ(processor)のように、データを処理することができる全種の装置を含んでもよい。ここで、「プロセッサ」は、例えば、プログラム内に含まれたコードまたは命令によって表現された機能を遂行するために、物理的に構造化された回路を有する、ハードウェアに内蔵されたデータ処理装置を意味する。かように、ハードウェアに内蔵されたデータ処理装置の一例として、マイクロプロセッサ(microprocessor)、中央処理装置(CPU)、プロセッサコア(processor core)、マルチプロセッサ(multiprocessor)、ASIC(application-specific integrated circuit)、FPGA(field programmable gate array)などの処理装置を網羅することができるが、本発明の範囲は、それらに限定されるものではない。
表示部260は、制御部250の制御下、映像処理装置100から受信した各種情報、例えば、映像処理装置100が提供する映像処理ウェブページ及び/または映像処理アプリケーション関連情報、映像処理装置100に送信する原本映像、映像処理装置100から受信した客体カットまたは/及び追加客体カット、客体カットまたは/及び追加客体カット上において、第1ユーザ入力情報及び第2ユーザ入力情報を入力する過程などを表示することができる。
表示部260は、制御部250の制御下、映像処理装置100から受信した各種情報、例えば、映像処理装置100が提供する映像処理ウェブページ及び/または映像処理アプリケーション関連情報、映像処理装置100に送信する原本映像、映像処理装置100から受信した客体カットまたは/及び追加客体カット、客体カットまたは/及び追加客体カット上において、第1ユーザ入力情報及び第2ユーザ入力情報を入力する過程などを表示することができる。
図8Aないし図8Hは、映像処理装置で処理する映像の例示図である。図8Aは、原本映像の一例を図示しており、図8Bは原本映像(図8A)から生成した映像分割インデックス情報映像を色相で表現した例を図示しており、図8Cは、原本映像(図8A)及び映像分割インデックス情報映像(図8B)を利用して生成した映像分割情報映像を表現した例を図示している。図8Dは、ユーザ端末機200から確認信号を受信した客体カットの一例を図示しており、図8Eは、ユーザ端末機200から不可信号を受信した客体カットの一例を図示している。図8Fは、不可信号を受信した客体カットに、第1ユーザ入力情報810及び第2ユーザ入力情報820を入力する例を図示している。図8Gは、不可信号を受信した客体カットに対して、一部分の出力を補強した追加区分映像の一例を図示しており、図8Hは、追加区分映像(図8G)に対して生成した補正映像の一例を図示している。
図9は、本発明の一実施形態による映像処理方法について説明するためのフローチャートである。以下の説明において、図1ないし図8に係わる説明と重複する部分は、その説明を省略する。
段階S910において、映像処理装置100は、原本映像に対して特徴が類似した複数個の領域に分割した映像分割情報を獲得する。映像処理装置100は、映像分割情報獲得のために、次のような処理を遂行することができる。映像処理装置100は、シードの個数を含む第1パラメータ、及び各シードにおいて、全体画素それぞれまでの距離算出に係わる反復回数を含む第2パラメータを設定することができる。映像処理装置100は、各シードにおいて、全体画素それぞれまでの距離算出を行い、該距離算出結果をLabカラーで表現することができる。映像処理装置100は、第2パラメータほど反復遂行された各シードにおいて、全体画素それぞれまでの距離算出結果をクラスタリングし、原本映像内において、Labカラー(距離算出結果)が類似した画素を1つの領域に含めてもよい。映像処理装置100は、Labカラーが類似した複数個の領域それぞれにインデックスを付けた映像分割インデックス情報を生成することができる。映像処理装置100は、Labカラーが類似した複数個の領域それぞれから算出した平均画素値と、ある1つの基準領域を中心に探索した周辺4方位の領域の映像分割インデックス情報を連結させた連結情報と、映像分割インデックス情報を含んでいる映像分割情報と、を生成することができる。
段階S920において、映像処理装置100は、ニューラルネットワークを利用した学習結果に基づいて、原本映像から客体を識別し、映像分割情報を利用して、原本映像から抽出した客体を、前景領域を含む第1領域、背景領域を含む第2領域、及び不確かな領域を含む第3領域に区分した区分映像を生成し、区分映像のうち第3領域を明確に補正した補正映像を生成する。
段階S930において、映像処理装置100は、原本映像及び補正映像を論理積演算して生成した客体カットを、ユーザ端末機200に出力し、原本映像及び区分映像をニューラルネットワークを利用した学習に含める。
図10は、本発明の他の実施形態による映像処理方法について説明するためのフローチャートである。以下の説明において、図1ないし図9に係わる説明と重複する部分は、その説明を省略する。
段階S1010において、映像処理装置100は、原本映像に対して特徴が類似した複数個の領域に分割した映像分割情報を獲得する。
段階S1020において、映像処理装置100は、ニューラルネットワークを利用した学習結果に基づいて、原本映像から客体を識別し、映像分割情報を利用して、原本映像から抽出した客体を、前景領域を含む第1領域、背景領域を含む第2領域、及び不確かな領域を含む第3領域に区分した区分映像を生成し、区分映像のうち第3領域を明確に補正した補正映像を生成する。
段階S1030において、映像処理装置100は、原本映像及び補正映像を論理積演算して生成した客体カットを、ユーザ端末機200に出力する。
段階S1040において、映像処理装置100は、客体カットに係わる不可信号を受信したか否かということを判断する。
段階S1050において、映像処理装置100が、客体カットに係わる確認信号を受信した場合、原本映像及び区分映像をニューラルネットワークを利用した学習に含める。
段階S1060において、映像処理装置100が客体カットに係わる不可信号を受信した場合、客体カットからユーザ端末機200に出力された不可信号を受信した客体カットから前景領域を指定する第1ユーザ入力情報、及びユーザ端末機200に出力された不可信号を受信した客体カットから背景領域を指定する第2ユーザ入力情報を受信する。
段階S1070において、映像処理装置100は、客体カットの区分映像と、第1ユーザ入力情報及び第2ユーザ入力情報と、映像分割情報を利用して区分映像に含まれた客体の一部分を補強した追加区分映像と、を生成し、追加区分映像のうちいずれか1つの領域を明確に補正した追加補正映像を生成する。映像処理装置100は、客体カットの前景領域(一部分の出力が抜け落ちた客体)の位置及び画素値を、分割された領域それぞれの平均画素値、連結情報及び映像分割インデックス情報を含んでいる映像分割情報から検索し、一部分の出力を補強した追加区分映像を生成することができる。
段階S1080において、映像処理装置100は、原本映像及び追加補正映像を論理積演算し、演算結果として生成した追加客体カットをユーザ端末機200に出力する。ここで、追加客体カットに係わる確認信号が受信されるまで、段階S1040ないし段階S1080を反復的に遂行する。
図11は、本発明のさらに他の実施形態による映像処理方法について説明するためのフローチャートである。以下の説明において、図1ないし図10に係わる説明と重複する部分は、その説明を省略する。
段階S1110において、ユーザ端末機200は、映像処理装置100が提供する映像処理ウェブページに接続するか、あるいは映像処理装置100が提供する映像処理アプリケーションを実行する。
段階S1120において、ユーザ端末機200は、原本映像を選択し、映像処理装置100に送信する。ユーザ端末機200は、アルバムアプリケーションなどを実行し、既保存の映像を原本映像として選択することができる。また、ユーザ端末機200は、外部サーバから映像を受信し、原本映像として選択することができる。また、ユーザ端末機200は、内部に具備されたカメラを利用して映像をキャプチャし、キャプチャした映像を原本映像として選択することができる。
段階S1130において、原本映像を受信した映像処理装置100は、原本映像に対して特徴が類似した複数個の領域に分割した映像分割情報を獲得する。
段階S1140において、映像処理装置100は、ニューラルネットワークを利用した学習結果に基づいて、原本映像から客体を識別する。
段階1150において、映像処理装置100は、映像分割情報を利用して、原本映像から抽出した客体を、前景領域を含む第1領域、背景領域を含む第2領域、及び不確かな領域を含む第3領域に区分した区分映像を生成し、区分映像のうち第3領域を明確に補正した補正映像を生成する。
段階S1060において、映像処理装置100は、原本映像及び補正映像を論理積演算して生成する。
段階1070において、映像処理装置100は、生成した客体カットをユーザ端末機200に送信する。
段階1080において、ユーザ端末機200は、客体カットに係わる確認信号を伝送する。
段階1090において、映像処理装置100は、原本映像及び区分映像をニューラルネットワークを利用した学習に含める。
図12は、本発明のさらに他の実施形態による映像処理方法について説明するためのフローチャートである。以下の説明において、図1ないし図11に係わる説明と重複する部分は、その説明を省略する。
段階S1211において、ユーザ端末機200は、映像処理装置100が提供する映像処理ウェブページに接続するか、あるいは映像処理装置100が提供する映像処理アプリケーションを実行する。
段階S1213において、ユーザ端末機200は、原本映像を選択し、映像処理装置100に送信する。
段階S1215において、原本映像を受信した映像処理装置100は、原本映像に対して特徴が類似した複数個の領域に分割した映像分割情報(例えば、スーパーピクセルマップ情報)を獲得する。
段階S1217において、映像処理装置100は、ニューラルネットワークを利用した学習結果に基づいて、原本映像から客体を識別する。ここで、映像処理装置100は、識別した客体を含むバウンダリボックスを表示し、客体のアウトラインを検出し、バウンダリボックスとアウトラインとを比較し、バウンダリボックスにアウトラインが含まれるように、バウンダリボックスの大きさを調整することができ、映像処理装置100は、映像分割情報を利用して、バウンダリボックスにカッティングを行う作業をさらに遂行することができる。
段階1219において、映像処理装置100は、映像分割情報を利用して、原本映像から抽出した客体を、前景領域を含む第1領域、背景領域を含む第2領域、及び不確かな領域を含む第3領域に区分した区分映像(例えばトライメブ映像)を生成し、区分映像のうち第3領域を明確に補正した補正映像(例えばメティング映像)を生成する。ここで、映像処理装置100は、カッティングを行ったバウンダリボックス内の映像に対して、区分映像及び補正映像を生成するといえる。
段階S1221において、映像処理装置100は、原本映像及び補正映像を論理積演算して客体カットを生成する。
段階1223において、映像処理装置100は、生成した客体カットをユーザ端末機200に送信する。
段階1225において、ユーザ端末機200は、客体カットに係わる不可信号を伝送する。
段階S127において、映像処理装置100は、ユーザ端末機200に、第1ユーザ入力情報及び第2ユーザ入力情報の送信を要請する。
段階1229において、ユーザ端末機200は、映像処理装置100に、第1ユーザ入力情報及び第2ユーザ入力情報を送信する。
段階1231において、映像処理装置100は、第1ユーザ入力情報を利用して、不可信号を受信した客体カットの区分映像から前景領域を抽出し、第2ユーザ入力情報を利用して不可信号を受信した客体カットの区分映像から、背景領域を抽出する。
段階1233において、映像処理装置100は、客体カットの前景領域(一部分の出力が抜け落ちた客体)の位置及び画素値を、分割された領域それぞれの平均画素値、連結情報及び映像分割インデックス情報を含んでいる映像分割情報から検索し、一部分の出力を補強した追加区分映像を生成し、追加区分映像のうち第3領域を明確に補正した追加補正映像を生成する。
段階S1235において、映像処理装置100は、原本映像及び追加補正映像を論理倍演算し、追加客体カットを生成する。
段階S1237において、映像処理装置100は、生成した追加客体カットをユーザ端末機200に送信する。
段階S1239において、映像処理装置100は、ユーザ端末機200から追加客体カットに係わる確認信号が受信されるまで、段階S1227ないし段階S1237を反復的に遂行し、ユーザ端末機200から確認信号が受信されれば、原本映像及び追加区分映像をニューラルネットワークを利用した学習に含める。
前述の本発明による実施形態は、コンピュータ上で多様な構成要素を介して実行されるコンピュータプログラムの形態によって具現され、かようなコンピュータプログラムは、コンピュータで判読可能な媒体にも記録される。このとき、該媒体は、ハードディスク、フロッピィーディスク及び磁気テープのような磁気媒体;CD−ROM(compact disc read only memory)及びDVD(digital versatile disc)のような光記録媒体;フロプティカルディスク(floptical disk)のような磁気・光媒体(magneto-optical medium);及びROM(read-only memory)、RAM(random access memory)、フラッシュメモリのような、プログラム命令語を保存して実行するように特別に構成されたハードウェア装置を含んでもよい。
一方、前記コンピュータプログラムは、本発明のために特別に設計されて構成されたものでもあり、コンピュータソフトウェア分野の当業者に公知されて使用可能なものでもある。該コンピュータプログラムの例としては、コンパイラによって作われるような機械語コードだけではなく、インタープリタなどを使用して、コンピュータによって実行される高級言語コードも含まれる。
本発明の明細書(特に、特許請求の範囲)において、「前記」の用語、及びそれと類似した指示用語の使用は、単数及び複数のいずれにも該当する。また、本発明において範囲(range)を記載した場合、前記範囲に属する個別的な値を適用した発明を含み(それに反する記載がなければ)、発明の詳細な説明に、前記範囲を構成する各個別的な値を記載した通りである。
本発明による方法を構成する段階について、明白に順序を記載するか、あるいはそれに反する記載がなければ、前記段階は、適する順序で行われる。必ずしも前記段階の記載順序によって、本発明が限定されるものではない。本発明において、全ての例、または例示的な用語(例えば、など)の使用は、単に本発明について詳細に説明するためのものであり、特許請求の範囲によって限定されない以上、前記例、または例示的な用語によって、本発明の範囲が限定されるものではない。また、当業者は、多様な修正、組み合わせ及び変更が付加された特許請求の範囲内、またはその均等物の範疇内において、設計条件及びファクタによっても構成されるということが分かるであろう。
従って、本発明の思想は、前述の実施形態に限って決められるものではなく、特許請求の範囲だけではなく、該特許請求の範囲と均等、またはそれと等価的に変更された全ての範囲は、本発明の思想の範疇に属するものとするのである。
本発明の、映像処理装置及びその方法は、例えば、映像処理関連の技術分野に効果的に適用可能である。
100 映像処理装置
200 ユーザ端末機
201 デスクトップコンピュータ
202 スマートフォン
203 ノート型パソコン
300 通信網
200 ユーザ端末機
201 デスクトップコンピュータ
202 スマートフォン
203 ノート型パソコン
300 通信網
Claims (11)
- 原本映像に対して特徴が類似した複数個の領域に分割した映像分割情報を獲得する第1分析部と、
ニューラルネットワークを利用した学習結果に基づいて、前記原本映像から客体を識別し、前記映像分割情報を利用して、前記原本映像から抽出した前記客体を、第1領域ないし第3領域に区分した区分映像を生成し、前記区分映像のうちいずれか1つの領域を明確に補正した補正映像を出力する学習部と、
前記原本映像及び前記補正映像を演算して生成した客体カットを出力し、前記原本映像及び前記区分映像を、前記ニューラルネットワークを利用した学習に含める処理部と、を含むことを特徴とする映像処理装置。 - 前記客体カットに係わる不可信号受信に対応し、前記客体カットから、第1ユーザ入力情報及び第2ユーザ入力情報を受信する受信部と、
前記客体カットに係わる前記区分映像の一部を、前記第1ユーザ入力情報及び前記第2ユーザ入力情報に対応する前記映像分割情報を基に補強して追加区分映像を生成し、前記追加区分映像のうちいずれか1つの領域を明確に補正した追加補正映像を出力する第2分析部と、をさらに含むことを特徴とする請求項1に記載の映像処理装置。 - 前記処理部は、
前記原本映像及び前記追加補正映像を演算して生成した追加客体カットを出力し、前記原本映像及び前記追加区分映像を、前記ニューラルネットワークを利用した学習に含めることを特徴とする請求項2に記載の映像処理装置。 - 前記追加客体カットに係わる確認信号が受信されるまで、前記受信部、前記第2分析部及び前記処理部の動作を反復遂行することを特徴とする請求項3に記載の映像処理装置。
- 前記受信部は、
前記客体カットに含まれる前景領域に係わり、前記第1ユーザ入力情報を受信し、前記客体カットに含まれる背景領域に係わり、前記第2ユーザ入力情報を受信することを特徴とする請求項2に記載の映像処理装置。 - 原本映像に対して特徴が類似した複数個の領域に分割した映像分割情報を獲得する段階と、
ニューラルネットワークを利用した学習結果に基づいて、前記原本映像から客体を識別し、前記映像分割情報を利用して、前記原本映像から抽出した前記客体を、第1領域ないし第3領域に区分した区分映像を生成し、前記区分映像のうちいずれか1つの領域を明確に補正した補正映像を出力する段階と、
前記原本映像及び前記補正映像を演算して生成した客体カットを出力し、前記原本映像及び前記区分映像を、前記ニューラルネットワークを利用した学習に含める段階と、を含むことを特徴とする映像処理方法。 - 前記客体カットに係わる不可信号受信に対応し、前記客体カットから、第1ユーザ入力情報及び第2ユーザ入力情報を受信する段階と、
前記客体カットに係わる前記区分映像の一部を、前記第1ユーザ入力情報及び前記第2ユーザ入力情報に対応する前記映像分割情報を基に補強して追加区分映像を生成し、前記追加区分映像のうちいずれか1つの領域を明確に補正した追加補正映像を出力する段階と、をさらに含むことを特徴とする請求項6に記載の映像処理方法。 - 前記原本映像及び前記追加補正映像を演算して生成した追加客体カットを出力し、前記原本映像及び前記追加区分映像を、前記ニューラルネットワークを利用した学習に含める段階をさらに含むことを特徴とする請求項7に記載の映像処理方法。
- 前記追加客体カットに係わる確認信号が受信されるまで、前記受信する段階、前記出力する段階、及び前記含める段階の動作を反復遂行することを特徴とする請求項8に記載の映像処理方法。
- 前記受信する段階は、
前記客体カットに含まれる前景領域に係わり、前記第1ユーザ入力情報を受信する段階と、
前記客体カットに含まれる背景領域に係わり、前記第2ユーザ入力情報を受信する段階と、を含むことを特徴とする請求項7に記載の映像処理方法。 - コンピュータを利用して、請求項6ないし10のうちいずれか1項に記載の方法を実行させるために、前記コンピュータで判読可能な記録媒体に保存されたコンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2017-0122877 | 2017-09-22 | ||
KR1020170122877A KR101867586B1 (ko) | 2017-09-22 | 2017-09-22 | 영상 처리 장치 및 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019061642A true JP2019061642A (ja) | 2019-04-18 |
Family
ID=62628831
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018010594A Pending JP2019061642A (ja) | 2017-09-22 | 2018-01-25 | 映像処理装置及びその方法 |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP2019061642A (ja) |
KR (1) | KR101867586B1 (ja) |
WO (1) | WO2019059460A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113727085B (zh) * | 2021-05-31 | 2022-09-16 | 荣耀终端有限公司 | 一种白平衡处理方法、电子设备、芯片系统和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120023456A1 (en) * | 2010-07-21 | 2012-01-26 | Microsoft Corporation | Interactive image matting |
US20150254868A1 (en) * | 2014-03-07 | 2015-09-10 | Pelican Imaging Corporation | System and methods for depth regularization and semiautomatic interactive matting using rgb-d images |
US20150294476A1 (en) * | 2012-10-30 | 2015-10-15 | Hewlett-Packard Development Company, L.P. | Object Segmentation |
US20170091951A1 (en) * | 2015-09-30 | 2017-03-30 | Samsung Electronics Co., Ltd. | Apparatus and method to segment object from image |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100442835B1 (ko) * | 2002-08-13 | 2004-08-02 | 삼성전자주식회사 | 인공 신경망을 이용한 얼굴 인식 방법 및 장치 |
WO2010013171A1 (en) * | 2008-07-28 | 2010-02-04 | Koninklijke Philips Electronics N.V. | Use of inpainting techniques for image correction |
KR101169339B1 (ko) | 2010-12-28 | 2012-07-30 | 경북대학교 산학협력단 | 영상검출장치 및 그 영상검출방법 |
KR102238672B1 (ko) * | 2014-03-03 | 2021-04-09 | 에스케이플래닛 주식회사 | 멀티클래스 분류 장치, 그 방법 및 컴퓨터 프로그램이 기록된 기록매체 |
KR102338372B1 (ko) * | 2015-09-30 | 2021-12-13 | 삼성전자주식회사 | 영상으로부터 객체를 분할하는 방법 및 장치 |
-
2017
- 2017-09-22 KR KR1020170122877A patent/KR101867586B1/ko active IP Right Grant
- 2017-12-26 WO PCT/KR2017/015476 patent/WO2019059460A1/ko active Application Filing
-
2018
- 2018-01-25 JP JP2018010594A patent/JP2019061642A/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120023456A1 (en) * | 2010-07-21 | 2012-01-26 | Microsoft Corporation | Interactive image matting |
US20150294476A1 (en) * | 2012-10-30 | 2015-10-15 | Hewlett-Packard Development Company, L.P. | Object Segmentation |
US20150254868A1 (en) * | 2014-03-07 | 2015-09-10 | Pelican Imaging Corporation | System and methods for depth regularization and semiautomatic interactive matting using rgb-d images |
US20170091951A1 (en) * | 2015-09-30 | 2017-03-30 | Samsung Electronics Co., Ltd. | Apparatus and method to segment object from image |
Also Published As
Publication number | Publication date |
---|---|
KR101867586B1 (ko) | 2018-06-15 |
WO2019059460A1 (ko) | 2019-03-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10635979B2 (en) | Category learning neural networks | |
US11216694B2 (en) | Method and apparatus for recognizing object | |
KR102453169B1 (ko) | 디바이스가 이미지를 보정하는 방법 및 그 디바이스 | |
KR102359391B1 (ko) | 디바이스가 이미지를 보정하는 방법 및 그 디바이스 | |
US11887215B2 (en) | Image processing apparatus and method for style transformation | |
WO2023185785A1 (zh) | 一种图像处理方法、模型训练方法及相关装置 | |
EP3690644B1 (en) | Electronic device and operation method therefor | |
EP3779888B1 (en) | Generating candidate images appropriate for image synthesis with an input image | |
KR102607208B1 (ko) | 뉴럴 네트워크 학습 방법 및 디바이스 | |
US20200285965A1 (en) | Neural network learning method and device | |
CN112215171B (zh) | 目标检测方法、装置、设备及计算机可读存储介质 | |
CN114787844A (zh) | 模型训练方法、视频处理方法、装置、存储介质及电子设备 | |
US11640650B2 (en) | Computing apparatus and operation method of the same | |
CN110298850B (zh) | 眼底图像的分割方法和装置 | |
KR20210048272A (ko) | 음성 및 영상 자동 포커싱 방법 및 장치 | |
US11468571B2 (en) | Apparatus and method for generating image | |
CN115131604A (zh) | 一种多标签图像分类方法、装置、电子设备及存储介质 | |
US11145088B2 (en) | Electronic apparatus and method for controlling thereof | |
KR20200080387A (ko) | 디스플레이 장치 및 그 제어 방법 | |
US10917721B1 (en) | Device and method of performing automatic audio focusing on multiple objects | |
JP2019061642A (ja) | 映像処理装置及びその方法 | |
CN116957678A (zh) | 一种数据处理方法和相关装置 | |
CN116958729A (zh) | 对象分类模型的训练、对象分类方法、装置及存储介质 | |
KR101910083B1 (ko) | 영상 처리 장치 및 방법 | |
KR20230135964A (ko) | 광고 대상 결정 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180125 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190312 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20190606 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20191111 |