JP2019061642A

JP2019061642A - 映像処理装置及びその方法

Info

Publication number: JP2019061642A
Application number: JP2018010594A
Authority: JP
Inventors: 崔承▲カク▼; Seung-Kwak Choi
Original assignee: Enumnet Co Ltd
Current assignee: Enumnet Co Ltd
Priority date: 2017-09-22
Filing date: 2018-01-25
Publication date: 2019-04-18
Also published as: KR101867586B1; WO2019059460A1

Abstract

【課題】ニューラルネットワークを利用した学習結果を利用して、原本映像から客体カットを抽出する、映像処理装置及びその方法を提供する。【解決手段】映像処理装置の人口知能処理部１６０は、原本映像に対して特徴が類似した複数個の領域に分割した映像分割情報を獲得する第１分析部と、ニューラルネットワークを利用した学習結果に基づいて、原本映像から客体を識別し、映像分割情報を利用して、原本映像から抽出した客体を、第１領域ないし第３領域に区分した区分映像を生成し、区分映像のうちいずれか１つの領域を明確に補正した補正映像を出力する学習部と、原本映像及び補正映像を演算して生成した客体カットを出力し、原本映像及び区分映像をニューラルネットワークを利用した学習に含める処理部と、を含む。【選択図】図３

Description

本発明は、ニューラルネットワーク（neural network）学習アルゴリズムを活用し、人間頭脳の認知、判断などの機能を模写する人工知能技術を利用して、原本映像から客体カットを抽出する映像処理装置及びその方法に関する。

コンピュータ技術の発達と共に、データトラフィックが指数関数状に増大しながら、人工知能は、未来革新を主導する重要なトレンドとなっている。人工知能は、人間の考え方を模倣する方式であるために、事実上、全産業に無限に応用が可能である。

人工知能の代表的な技術としては、パターン認識、機械学習、エキスパートシステム、ニューラルネットワーク、自然語処理などがある。人工知能は、ビックデータを、自らの学習を介して、確率的に認識率を高めさせる機械学習と人工神経網との技術を介して、デバイスが合理的な意思決定を行うことを目標に発展した。

１９５０年代半ばから開化を始めた人工知能分野は、２０００年まで人間知能を超える汎用人工知能の開発を目標にしたが、その楽観性は、だんだんと下り坂の情勢である。しかし、１９９０年代以降に入り、大量のデータが持続的に蓄積されており、ＣＰＵ（central processing unit）など関連ハードウェアの性能が改善したということ、ディープラーニング（deep learning）のように、自己学習が可能なアルゴリズムの発展により、機械学習及び人工神経網を利用するデバイスへの関心が高まっている。

前述の背景技術は、発明者が本発明の導出のために保有していたり、本発明の導出過程で習得したりした技術情報であり、必ずしも本発明の出願前に一般公衆に公開された公知技術とするものではない。

韓国公開特許公報第２０１２−００７４９２４号

本発明が解決しようとする課題は、前述の問題点及び／または限界を解決するために案出されたものであり、ニューラルネットワークを利用した学習結果を利用して、原本映像から客体カットを抽出するところに一目的がある。

本発明の一実施形態による映像処理装置は、原本映像に対して特徴が類似した複数個の領域に分割した映像分割情報を獲得する第１分析部と、ニューラルネットワークを利用した学習結果に基づいて、前記原本映像から客体を識別し、前記映像分割情報を利用して、前記原本映像から抽出した前記客体を第１領域ないし第３領域に区分した区分映像を生成し、前記区分映像のうちいずれか１つの領域を明確に補正した補正映像を出力する学習部と、前記原本映像及び前記補正映像を演算して生成した客体カットを出力し、前記原本映像及び前記区分映像を、前記ニューラルネットワークを利用した学習に含める処理部と、を含んでもよい。

前記映像処理装置は、前記客体カットに対する不可信号受信に対応し、前記客体カットから、第１ユーザ入力情報及び第２ユーザ入力情報を受信する受信部と、前記客体カットに係わる前記区分映像の一部を、前記第１ユーザ入力情報及び前記第２ユーザ入力情報に対応する前記映像分割情報を基に補強して追加区分映像を生成し、前記追加区分映像のうちいずれか１つの領域を明確に補正した追加補正映像を出力する第２分析部と、をさらに含んでもよい。

前記処理部は、前記原本映像及び前記追加補正映像を演算して生成した追加客体カットを出力し、前記原本映像及び前記追加区分映像を、前記ニューラルネットワークを利用した学習に含めてもよい。

前記映像処理装置は、前記追加客体カットに係わる確認信号が受信されるまで、前記受信部、前記第２分析部及び前記処理部の動作を反復遂行することができる。

前記受信部は、前記客体カットに含まれる前景領域に係わって、前記第１ユーザ入力情報を受信し、前記客体カットに含まれる背景領域に係わって、前記第２ユーザ入力情報を受信することができる。

本発明の一実施形態による映像処理方法は、原本映像に対して特徴が類似した複数個の領域に分割した映像分割情報を獲得する段階と、ニューラルネットワークを利用した学習結果に基づいて、前記原本映像から客体を識別し、前記映像分割情報を利用して、前記原本映像から抽出した前記客体を第１領域ないし第３領域に区分した区分映像を生成し、前記区分映像のうちいずれか１つの領域を明確に補正した補正映像を出力する段階と、前記原本映像及び前記補正映像を演算して生成した客体カットを出力し、前記原本映像及び前記区分映像を、前記ニューラルネットワークを利用した学習に含める段階と、を含んでもよい。

前記映像処理方法は、前記客体カットに係わる不可信号受信に対応し、前記客体カットから、第１ユーザ入力情報及び第２ユーザ入力情報を受信する段階と、前記客体カットに係わる前記区分映像の一部を、前記第１ユーザ入力情報及び前記第２ユーザ入力情報に対応する前記映像分割情報を基に補強して追加区分映像を生成し、前記追加区分映像のうちいずれか１つの領域を明確に補正した追加補正映像を出力する段階と、をさらに含んでもよい。

前記映像処理方法は、前記原本映像及び前記追加補正映像を演算して生成した追加客体カットを出力し、前記原本映像及び前記追加区分映像を、前記ニューラルネットワークを利用した学習に含める段階をさらに含んでもよい。

前記映像処理方法は、前記追加客体カットに係わる確認信号が受信されるまで、前記受信する段階、前記出力する段階、及び前記含める段階の動作を反復遂行することができる。

前記受信する段階は、前記客体カットに含まれる前景領域に係わって、前記第１ユーザ入力情報を受信する段階と、前記客体カットに含まれる背景領域に係わって、前記第２ユーザ入力情報を受信する段階と、を含んでもよい。

それ以外にも、本発明を具現するための他の方法、他のシステム、及び前記方法を実行するためのコンピュータプログラムがさらに提供されもする。

前述のところ以外の他の側面、特徴、利点は、以下の図面、特許請求の範囲、及び発明の詳細な説明から明確になるであろう。

本実施形態によれば、既存のユーザ入力情報を手動で入力して客体カットが抽出されたが、本実施形態においては、ニューラルネットワークを利用した学習結果を利用して、原本映像から客体カットを自動的に抽出して提供することにより、ユーザ介入なしに、便利に客体カットを抽出することができて便利である。

また、ニューラルネットワークを利用した学習結果を利用して、原本映像から客体カットを自動的に抽出して提供し、抽出した客体カットに対してユーザの満足度が低下する場合、ユーザが介入して追加客体カットを抽出して提供することにより、抽出した客体カットに係わるユーザ満足度を向上させることができる。

本発明の効果は、以上で言及されたものに限定されるものではなく、言及されていない他の効果は、以下の記載から当業者に明確に理解されるであろう。

本発明の一実施形態による映像処理システムについて概略的に説明するために図示した図面である。図１の映像処理システムにおいて、映像処理装置の詳細構成について概略的に説明するために図示した図面である。映像処理装置において、一実施形態による人工知能処理部の詳細構成について概略的に説明するために図示した図面である。図３の人工知能処理部において、第１分析部の詳細構成について概略的に説明するために図示した図面である。図２の映像処理装置において、他の実施形態による人工知能処理部の詳細構成について概略的に説明するために図示した図面である。図５の人工知能処理部において、第２分析部の詳細構成について概略的に説明するために図示した図面である。図１の映像処理システムにおいて、ユーザ端末機の詳細構成について概略的に説明するために図示した図面である。映像処理装置で処理する映像の例示図である。映像処理装置で処理する映像の例示図である。映像処理装置で処理する映像の例示図である。映像処理装置で処理する映像の例示図である。映像処理装置で処理する映像の例示図である。映像処理装置で処理する映像の例示図である。映像処理装置で処理する映像の例示図である。映像処理装置で処理する映像の例示図である。本発明の一実施形態による映像処理方法について説明するためのフローチャートである。本発明の一実施形態による映像処理方法について説明するためのフローチャートである。本発明の一実施形態による映像処理方法について説明するためのフローチャートである。本発明の一実施形態による映像処理方法について説明するためのフローチャートである。

本発明の利点、特徴、及びそれらを達成する方法は、添付される図面と共に詳細に説明される実施形態を参照すれば、明確になるであろう。しかし、本発明は、以下で提示される実施例に限定されるものではなく、互いに異なる多様な形態に具現され、本発明の思想及び技術範囲に含まれる全ての変換、均等物ないし代替物を含むと理解されなければならない。以下に提示される実施形態は、本発明の開示を完全なものにし、本発明が属する技術分野で当業者に、発明の範疇を完全に知らせるために提供されるのである。本発明についての説明において、関連公知技術に係わる具体的な説明が、本発明の要旨を不明確にすると判断される場合、その詳細な説明を省略する。

本出願で使用した用語は、ただ特定の実施形態についての説明に使用されたものであり、本発明を限定する意図ではない。単数の表現は、文脈上明白に異なって意味しない限り、複数の表現を含む。本出願において、「含む」または「有する」というような用語は、明細書上にに記載された特徴、数、段階、動作、構成要素、部品、またはそれらの組み合わせが存在するということを指定するものであり、一つ、またはそれ以上の他の特徴、数、段階、動作、構成要素、部品、またはそれらの組み合わせの存在または付加の可能性をあらかじめ排除するものではないとに理解されなければならない。第１、第２のような用語は、多様な構成要素についての説明に使用されるが、該構成要素は、前記用語によって限定されるものではない。前記用語は、１つの構成要素を他の構成要素から区別する目的のみに使用される。

以下、本発明による実施形態について、添付された図面を参照し、詳細に説明するが、添付図面を参照しての説明において、同一であるか、あるいは対応する構成要素は、同一図面番号を付し、それに係わる重複説明は省略する。

図１は、本発明の一実施形態による映像処理システムについて概略的に説明するために図示した図面である。図１を参照すれば、映像処理システム１は、映像処理装置１００、ユーザ端末機２００及び通信網３００を含んでもよい。

本発明の一実施形態による映像処理装置１００は、原本映像に対して特徴が類似した複数個の領域に分割した映像分割情報を獲得し、ニューラルネットワークを利用した学習結果に基づいて、原本映像から客体を識別し、映像分割情報を利用して、原本映像から抽出した客体を、第１領域ないし第３領域に区分した区分映像を生成し、該区分映像のうちいずれか１つの領域を明確に補正した補正映像を出力し、原本映像及び補正映像を演算して生成した客体カットを出力し、生成した客体カットに係わる確認信号受信に対応し、原本映像、区分映像及び客体カットを、ニューラルネットワークを利用した学習に含めてもよい。ここで、該ニューラルネットワークを利用した学習に含めるというのは、原本映像及び区分映像を、ニューラルネットワークを利用した学習データとして利用することを含んでもよい。

一実施形態よって、映像処理装置１００は、生成した客体カットに係わる不可信号が、受信に対応し、客体カットから、第１ユーザ入力情報及び第２ユーザ入力情報を受信し、客体カットに係わる前記区分映像の一部を、第１ユーザ入力情報及び第２ユーザ入力情報に対応する映像分割情報を基に補強し、追加区分映像を生成し、追加区分映像のうちいずれか１つの領域を明確に補正した追加補正映像を出力し、原本映像及び追加補正映像を演算して生成した追加客体カットを出力し、生成した追加客体カットに係わる確認信号受信に対応し、原本映像及び追加区分映像をニューラルネットワークを利用した学習に含めてもよい。ここで、映像処理装置１００は、追加客体カットに係わる確認信号が受信されるまで、第１ユーザ入力情報及び第２ユーザ入力情報を受信する過程、前景領域に対する追加区分映像の生成、及び追加補正映像の出力を行う過程、追加客体カットを出力する過程を反復的に遂行し、原本映像及び追加区分映像をニューラルネットワークを利用した学習に含めてもよい。

ユーザ端末機２００は、映像処理装置１００が提供する映像処理ウェブページ及び／または映像処理アプリケーションを表示することができる。そのために、映像処理装置１００は、通信網３００を介して、映像表示装置としてのユーザ端末機２００に、映像処理ウェブページ及び／または映像処理アプリケーションを伝送することができる。ユーザ端末機２００を介して、ユーザの接続識別情報（ＩＤ）及びパスワードを受信した映像処理装置１００は、映像処理ウェブページ及び／または映像処理アプリケーションに、ユーザ認証を行うことができる。

ユーザ端末機２００は、映像処理装置１００に原本映像を送信することができる。ユーザ端末機２００は、内部に保存された映像を原本映像として選択し、映像処理装置１００に送信することができる。例えば、ユーザ端末機２００は、アルバムアプリケーションなどを実行し、既保存の映像を原本映像として選択することができる。また、ユーザ端末機２００は、外部サーバから映像を受信し、原本映像として選択することができる。例えば、ユーザ端末機２００は、ソーシャルネットワークサーバ（social network server）、クラウドサーバ（cloud server）またはコンデンツ提供サーバなどにアクセスし、映像をダウンロードできる。また、ユーザ端末機２００は、内部に具備されたカメラを利用して映像をキャプチャし、キャプチャした映像を原本映像として選択することができる。このとき、ユーザ端末機２００は、カメラアプリケーションを実行し、映像をキャプチャすることができる。

ユーザ端末機２００は、映像処理装置１００から受信した客体カットに対して、確認信号及び／または不可信号を送信することができる。ユーザ端末機２００が、映像処理装置１００に不可信号を送信する場合、映像処理装置１００の要請により、第１ユーザ入力情報及び第２ユーザ入力情報を送信することができる。ユーザ端末機２００が、客体カットに対して、確認信号を映像処理装置１００に送信するまで、第１ユーザ入力情報及び第２ユーザ入力情報の送信は、反復される。

そのようなユーザ端末機２００は、ユーザが操作するデスクトップコンピュータ２０１、スマートフォン２０２、ノート型パソコン２０３、タブレットＰＣ（personal computer）、スマートＴＶ（television）、携帯電話、ＰＤＡ（personal digital assistant）、ラップトップ、メディアプレーヤ、マイクロサーバ、ＧＰＳ（global position system）装置、電子書籍端末機、デジタル放送用端末機、ナビゲーション、キオスク、ＭＰ３プレーヤ、デジタルカメラ、家電機器、及びその他のモバイルまたは非モバイルのコンピュータ装置でもあるが、それらに制限されるものではない。また、ユーザ端末機２００は、通信機能及びデータプロセッシング機能を具備した時計、めがね、ヘアバンド及び指輪などのウェアラブル端末機でもある。ユーザ端末機２００は、前述の内容に制限されるものではなく、前述のように、ウェブブラウジング可能な端末機であるならば、制限なしに借用される。

一方、通信網３００は、ユーザ端末機２００を、映像処理装置１００と連結する役割を行う。すなわち、通信網３００は、ユーザ端末機２００が映像処理装置１００に接続した後、所定情報を送受信することができるように、接続経路を提供する通信網を意味する。通信網３００は、例えば、ＬＡＮｓ（local area networks）、ＷＡＮｓ（wide area networks）、ＭＡＮｓ（metropolitan area networks）、ＩＳＤＮｓ（integrated service digital networks）などの有線ネットワーク；無線ＬＡＮｓ、ＣＤＭＡ（code division multiple access）、ブルートゥース（Bluetooth）、衛星通信などの無線ネットワークを網羅することができるが、本発明の範囲は、それらに限定されるものではない。

図２は、図１の映像処理システム１中映像処理装置１００の詳細構成について概略的に説明するために図示した図面である。図２を参照すれば、映像処理装置１００は、通信部１１０、記録媒体１２０、プログラム保存部１３０、制御部１４０、データベース（ＤＢ）１５０及び人工知能処理部１６０を含んでもよい。

通信部１１０は、通信網３００と連動し、映像処理装置１００とユーザ端末機２００との送受信信号を、パッケージデータ形態で提供するのに必要な通信インターフェースを提供することができる。さらに通信部１１０は、ユーザ端末機２００から、所定情報要請信号を受信する役割を行い、人工知能処理部１６０が処理した情報を、ユーザ端末機２００に伝送する役割を行うことができる。ここで、通信網とは、映像処理装置１００とユーザ端末機２００とを連結する役割を行う媒介体であり、ユーザ端末機２００が映像処理装置１００に接続した後、情報を送受信することができるように、接続経路を提供する経路を含んでもよい。また、通信部１１０は、他のネットワーク装置と、有無線連結を介して、制御信号またはデータ信号のような信号を送受信するために必要なハードウェア及びソフトウェアを含む装置でもある。

記録媒体１２０は、制御部１４０が処理するデータを、一時的または永久に保存する機能を遂行する。ここで、記録媒体１２０は、磁気記録媒体（magnetic storage media）またはフラッシュ記録媒体（flash storage media）を含んでもよいが、本発明の範囲は、それらに限定されるものではない。かような記録媒体１２０は、内蔵メモリ及び／または外装メモリを含んでもよく、ＤＲＡＭ（dynamic random access memory）、ＳＲＡＭ（static random access memory）またはＳＤＲＡＭ（synchronous dynamic random access memory）のような揮発性メモリ；ＯＴＰＲＯＭ（one time programmable read-only memory）、ＰＲＯＭ（programmable read-only memory）、ＥＰＲＯＭ（electrically programmable read-only memory）、ＥＥＰＲＯＭ（electrically erasable programmable read-only memory）、mask ＲＯＭ、flash ＲＯＭ、ＮＡＮＤフラッシュメモリまたはＮＯＲフラッシュメモリのような非揮発性メモリ；ＳＳＤ（solid state drive）、ＣＦ（compact flash）カード、ＳＤカード、Micro−ＳＤカード、Mini−ＳＤカード、Ｘｄカードまたはメモリスティック（memory stick）のようなフラッシュドライブ、またはＨＤＤ（hard disk drive）のような保存装置を含んでもよい。本実施形態において、記録媒体１２０には、ニューラルネットワークを構成する１以上のインストラクション、ニューラルネットワークを制御する１以上のインストラクションを含んでもよい。

プログラム保存部１３０は、ユーザ端末機２００から受信した原本映像に対して特徴が類似した複数個の領域に分割した映像分割情報を獲得する作業、ニューラルネットワークを利用した学習結果に基づいて、原本映像から客体を識別する作業、映像分割情報を利用して、原本映像から抽出した前記客体を、第１領域ないし第３領域に区分した区分映像を生成する作業、区分映像のうちいずれか１つの領域を明確に補正した補正映像を生成及び出力する作業、原本映像及び補正映像を演算して生成した客体カットを出力する作業、原本映像及び区分映像をニューラルネットワークを利用した学習に含める作業、客体カットに係わる不可信号受信に対応し、ユーザ端末機２００に、第１ユーザ入力情報及び第２ユーザ入力情報を要請して受信する作業、第１ユーザ入力情報、第２ユーザ入力情報及び映像分割情報を利用して、客体カットの区分映像の一部分を明確に補正した追加区分映像を生成する作業などを遂行する制御ソフトウェアを搭載している。

データベース１５０は、ユーザ端末機２００から受信した原本映像と、映像処理装置１００の人工知能処理で生成した各種映像及び／または情報、例えば、原本映像に係わる映像分割情報、区分映像、補正映像、客体カットを、ニューラルネットワークのための学習データとして保存することができる。また、データベース１５０には、客体カットに係わる不可信号受信に対応し、ユーザから受信した第１ユーザ入力情報及び第２ユーザ入力情報を基に、追加客体カットを生成する一連の処理過程情報（例えば、追加区分映像、追加補正映像、追加客体カット）を、ニューラルネットワークのための学習データとして保存することができる。

さらに、データベース１５０は、ユーザ情報を保存するユーザデータベースをさらに含んでもよい。ここで、該ユーザデータベースは、原本映像から客体カットを抽出するサービスを利用するユーザに係わるユーザ情報を保存することができる。ここで、該ユーザ情報には、ユーザの氏名、所属、人的事項、性別、年齢、連絡先、電子メール、住所などユーザに係わる基本的な情報；ＩＤ（identification）（または、電子メール）及びパスワード（password）など認証（ログイン）についての情報；接続国家、接続位置、接続に利用した装置についての情報；接続されたネットワーク環境など接続と係わる情報などを含んでもよい。

人工知能処理部１６０は、ニューラルネットワークを利用した学習結果に基づいて、原本映像から客体カットを抽出して提供し、客体カット抽出のために生成した情報及び／または映像を、ニューラルネットワークを利用した学習に含めてもよい。人工知能処理部１６０は、抽出した客体カットに対してユーザから不可信号を受信する場合、ユーザから受信した第１ユーザ入力情報及び第２ユーザ入力情報を利用して、追加客体カットを抽出して提供し、追加カット抽出のために生成した情報及び／または映像を、ニューラルネットワークを利用した学習に含めてもよく、ユーザから確認信号を受信するまで、客体カット抽出過程が反復される。

人工知能（ＡＩ：artificial intelligence）技術は、人間レベルの知能を具現するコンピュータ処理技術であり、既存Rule基盤スマート技術と異なり、機械が自ら学習して判断し、聡明になる技術である。該人工知能技術は、使用するほど認識率が向上し、ユーザ趣向をさらに正確に理解し、既存Rule基盤スマートシステムは、徐々にディープラーニング基盤人工知能システムで代替されている。

該人工知能技術は、機械学習（ディープラーニング）、及び機械学習を活用した要素技術によって構成される。該機械学習は、入力データの特徴を自ら分類／学習するアルゴリズム技術であり、該要素技術は、ディープラーニングなどの機械学習アルゴリズムを活用し、人間頭脳の認知、判断などの機能を模写する技術であり、言語的理解、視覚的理解、推論／予測、知識表現、動作制御などの技術分野でも構成される。

該人工知能技術が応用される多様な分野は、次の通りである。該言語的理解は、人間の言語／文字を認識して応用／処理する技術であり、自然語処理、機械翻訳、対話システム、質疑応答、音声認識／合成などを含んでもよい。該視覚的理解は、事物を人間の視覚のように認識して処理する技術であり、客体識別、客体追跡、映像検索、人認識、場面理解、空間理解、映像改善などを含んでもよい。該推論予測は、情報を判断し、論理的に推論して予測する技術であり、知識／確率基盤推論、最適化予測、選好基盤計画、推薦などを含む。該知識表現は、人間の経験情報を知識データに自動化処理する技術であり、知識構築（データ生成／分類）、知識管理（データ活用）などを含んでもよい。該動作制御は、車両の自律走行、ロボットの動きを制御する技術であり、動き制御（航法、衝突、走行）、操作制御（行動制御）などを含んでもよい。

一般的に、原本映像から客体カットを抽出するためには、ユーザの手動介入が必須であったが、本実施形態では、人工知能を基盤としたニューラルネットワークを利用した学習結果を利用して、原本映像から客体カットを自動的に抽出して提供することにより、ユーザ介入なしに、便利に客体カットを抽出することができる。

また、ニューラルネットワークを利用した学習結果を利用して、原本映像から客体カットを自動的に抽出して提供し、抽出した客体カットに対してユーザの満足度が低下する場合、ユーザが介入し、追加客体カットを抽出して提供することにより、抽出した客体カットに係わるユーザ満足度を向上させることができる。

図３は、図２の映像処理装置１００のうち、一実施形態による人工知能処理部１６０の詳細構成について概略的に説明するために図示した図面である。図３を参照すれば、人工知能処理部１６０は、第１分析部１６１、学習部１６２及び処理部１６３を含んでもよい。

第１分析部１６１は、原本映像に対して特徴が類似した複数個の領域に分割した映像分割情報を獲得することができる。第１分析部１６１は、原本映像内の任意位置をシード（seed）にし、該シードを中心に、明るさ値、エッジ、カラーなどが類似した特徴を有する１以上の領域を探し出し、処理されている領域と、それに隣接した領域とが互いに同一特徴を有している場合、各領域を１つの領域に統合し、結局、該特徴が同一である領域を徐々に成長させ、最終的に原本映像全体を、特徴が類似した複数個の領域に分割するといえる。第１分析部１６１は、獲得した映像分割情報をデータベース１５０に保存することができる。

図４は、図３の人工知能処理部１６０において、第１分析部１６１の詳細構成について概略的に説明するために図示した図面である。図４を参照すれば、第１分析部１６１は、設定部１６１−１、算出部１６１−２、クラスタリング部１６１−３、第１生成部１６１−４及び第２生成部１６１−５を含んでもよい。

設定部１６１−１は、原本映像（図８Ａ）から、映像分割情報獲得のために、第１パラメータ及び第２パラメータを設定することができる。ここで、該第１パラメータは、シードの個数を含んでもよく、該第１パラメータは、ユーザ端末機２００から受信して設定されるか、原本映像の大きさを領域内の画素個数に分けて算出して設定されるか、あるいは動作時ごとにランダム値に設定されもする。また、該第２パラメータは、各シードにおいて、全体画素それぞれまでの距離算出に係わる反復回数を含んでもよい。該反復回数を指定せずに、距離算出が続けて反復されれば、処理量が多くなり、記録媒体１２０の容量不足現象が発生するので、適切な反復回数設定が要求される。該第２パラメータは、ユーザ端末機２００から受信して設定するか、あるいはデフォルト値として設定される。

算出部１６１−２は、各シードにおいて、全体画素それぞれまでの距離算出を行い、該距離算出結果を、Ｌａｂカラーで表現することができる。算出部１６１−２の距離算出反復回数は、設定された第２パラメータほど反復遂行することができる。

クラスタリング部１６１−３は、第２パラメータほど反復遂行された各シードにおいて、全体画素それぞれまでの距離算出結果をクラスタリングし、原本映像内において、Ｌａｂカラー（距離算出結果）が類似した画素を１つの領域に含めてもよい。それにより、該原本映像は、Ｌａｂカラーが類似した複数個の領域に分割される。

第１生成部１６１−４は、Ｌａｂカラーが類似した複数個の領域それぞれに、インデックスを付けた映像分割インデックス情報を生成することができる。図８Ｂは、原本映像（図８Ａ）から生成した映像分割インデックス情報映像を、色相で表現した例を図示している。第１生成部１６１−４は、生成した映像分割インデックス情報を、データベース１５０に保存することができる。

第２生成部１６１−５は、Ｌａｂカラーが類似した複数個の領域それぞれから算出した平均画素値と、ある１つの基準領域を中心に探索した周辺４方位の領域の映像分割インデックス情報を連結させた連結情報と、第１生成部１６１−４で生成した映像分割インデックス情報を含んでいる映像分割情報と、を生成することができる。図８Ｃは、原本映像（図８Ａ）及び映像分割インデックス情報映像（図８Ｂ）を利用して生成した映像分割情報映像を表現した例を図示している。第２生成部１６１−５は、生成した映像分割情報を、データベース１５０に保存することができる。

図３に戻り、学習部１６２は、ニューラルネットワークを利用した学習結果に基づいて、原本映像から客体を識別することができる。そのために、学習部１６２は、ニューラルネットワークモジュール（図示せず）をさらに含んでもよい。ここで、該ニューラルネットワークは、統計学的機械学習の結果を利用して、原本映像内の多様な属性を抽出して利用することにより、原本映像内の客体を、識別及び／または判断するアルゴリズム集合でもある。該ニューラルネットワークは、該ニューラルネットワークに入力された原本映像内に含まれた多様な属性を抽象化することにより、原本映像内の客体を識別することができる。その場合、原本映像内属性の抽象化は、原本映像から属性を検出し、検出された属性のうち核心属性を判断することでもある。

例えば、学習部１６２は、原本映像及び／または区分映像（追加区分映像ももいう）をニューラルネットワークに入力し、原本映像内に含まれた客体の位置、及び／または客体のカテゴリー（category）をニューラルネットワークから出力される。

具体的には、学習部１６２は、ニューラルネットワークを利用した学習結果により、原本映像内及び／または区分映像内において、既設定の映像属性を検出し、検出された映像属性に基づいて、原本映像内において、客体の位置及び／または客体のカテゴリーを決定することができる。ここで、該映像属性は、映像を構成する色相、エッジ（edge）、ポリゴン（polygon）、彩度（saturation）、明度（brightness）などを含んでもよいが、該映像属性は、それらに限定されるものではない。

一方、学習部１６２は、ニューラルネットワークを利用するために、原本映像及び／または区分映像から、１以上の客体を識別するように、ニューラルネットワークを学習することができる。例えば、学習部１６２は、ニューラルネットワーク内において、客体別に、映像属性に対して、指導学習及び／または非指導学習（または、自律学習または能動学習）された結果を、分析及び／または評価する動作を反復遂行することにより、ニューラルネットワークを学習することができる。学習部１６２は、ニューラルネットワーク学習時、原本映像及び区分映像を、学習データとして利用して、客体識別に活用することができる。ここで、該区分映像は、最終区分映像でもあり、最終区分映像とは、後述する確認信号が受信された客体カットに係わる区分映像及び／または追加区分映像を含んでもよい。

学習部１６２は、ニューラルネットワークを利用して識別された客体、及び第１分析部１６１で獲得した映像分割情報を利用して、客体を、第１領域ないし第３領域に区分した区分映像を生成することができる。ここで、該第１領域は、識別された客体のうち前景領域を含んでもよく、第１値（例えば、白）で表示することができる。また、第２領域は、識別された客体のうち背景領域を含んでもよく、第２値（例えば、黒色）で表示することができる。また、第３領域は、識別された客体のうち第１領域であるか、あるいは第２領域であるか不明確である不明確領域を含んでもよく、第３値（例えば、灰色）で表示することができる。

学習部１６２は、第１領域ないし第３領域に区分された区分映像のうちいずれか１つの領域を明確に補正した補正映像を生成して出力することができる。ここで、ある１つの領域というのは、第３領域を含んでもよく、該補正映像は、第３領域の一部が第１領域に含まれる場合、第３領域の一部を第１領域に補正し、第３領域の他の一部が第２領域に含まれる場合、第３領域の他の一部を第２領域に補正した映像であるといえる。学習部１６２は、原本映像及び区分映像の相関関係を利用して、区分映像から補正映像を生成することができる。

他の実施形態において、学習部１６２は、ニューラルネットワークを利用した学習結果に基づいて、シメンティックセグメンテーション（semantic segmentation）を介して原本映像から識別した客体、及び客体に係わる映像分割情報を比較して区分映像を生成し、該区分映像のうちいずれか１つの領域を明確に補正した補正映像を生成して出力することもできる。

本実施形態において、第１分析部１６１及び学習部１６２のうち少なくとも一つは、少なくとも１つのハードウェアチップ形態によって製作され、電子装置にも搭載される。例えば、第１分析部１６１及び学習部１６２のうち少なくとも一つは、人工知能のための専用ハードウェアチップ形態によって製作され、または既存の汎用プロセッサ（例：ＣＰＵ（central processing unit）またはアプリケーションプロセッサ）またはグラフィック専用プロセッサ（例：ＧＰＵ（graphics processing unit））の一部として製作され、各種電子アーチにも搭載される。

処理部１６３は、原本映像及び補正映像を論理積演算し、演算結果として生成した客体カットをユーザ端末機２００に出力することができる。処理部１６３は、原本映像及び区分映像をデータベース１５０に保存し、ニューラルネットワークを利用した学習に含めてもよい。また、処理部１６３は、生成した客体カットを、データベース１５０に保存することができる。

図５は、図２の映像処理装置１００において、他の実施形態による人工知能処理部１６０の詳細構成について概略的に説明するために図示した図面である。図５を参照すれば、人工知能処理部１６０は、第１分析部１６１、学習部１６２、処理部１６３、受信部１６４及び第２分析部１６５を含んでもよい。

第１分析部１６１は、原本映像に対して特徴が類似した複数個の領域に分割した映像分割情報を獲得することができる。

学習部１６２は、ニューラルネットワークを利用した学習結果に基づいて、原本映像から客体を識別し、映像分割情報を利用して、原本映像から抽出した客体に対して区分映像を生成し、区分映像のうちいずれか１つの領域を明確に補正した補正映像を生成して出力することができる。

以下、第１分析部１６１及び学習部１６２の動作は、前述の図３と同一であるので、省略する。

処理部１６３は、原本映像及び補正映像を論理積演算して生成した客体カットを、ユーザ端末機２００に出力し、原本映像、補正映像及び客体カットをデータベース１５０に保存することができる。

受信部１６４は、ユーザ端末機２００に出力された客体カットに対して、確認信号または不可信号を受信することができる。また、受信部１６４は、ユーザ端末機２００から、第１ユーザ入力情報及び第２ユーザ入力情報を受信することができる。

受信部１６４が、ユーザ端末機２００から確認信号を受信する場合、処理部１６３は、原本映像及び区分映像をデータベース１５０に保存し、ニューラルネットワークを利用した学習に含めてもよい。図８Ｄは、ユーザ端末機２００から確認信号を受信した客体カットの一例を図示している。

受信部１６４が、ユーザ端末機２００から不可信号を受信する場合、第２分析部１６５が動作を開始し、それと共に、処理部１６３は、ユーザ端末機２００に、第１ユーザ入力情報及び第２ユーザ入力情報入力を要請することができる。

第２分析部１６５は、処理部１６３を介してデータベース１５０から抽出した客体カットの区分映像と、受信部１６４から受信した第１ユーザ入力情報及び第２ユーザ入力情報と、第１分析部１６１から受信した映像分割情報と、を利用して、区分映像に含まれた客体の一部分を補強した追加区分映像を生成し、追加区分映像のうちいずれか１つの領域を明確に補正した追加補正映像を出力することができる。

図８Ｅは、ユーザ端末機２００から不可信号を受信した客体カットの一例を図示している。ここで、第１ユーザ入力情報は、図８Ｆに図示されているように、ユーザ端末機２００に出力された不可信号を受信した客体カットから、前景領域を指定するユーザ入力例えば、第１ドラッグ８１０を含んでもよい。また、第２ユーザ入力情報は、図８Ｆに図示されているように、ユーザ端末機２００に出力された不可信号を受信した客体カットから前景領域を指定した後、背景領域を指定するユーザ入力、例えば、第２ドラッグ８２０を含んでもよい。また、第１ユーザ入力情報及び第２ユーザ入力情報は、互いに異なる色にも表現される。

図６は、図５の人工知能処理部１６０のうち、第２分析部１６５の詳細構成について概略的に説明するために図示した図面である。図６を参照すれば、第２分析部１６５は、第３生成部１６５−１及び第４生成部１６５−２を含んでもよく、第２分析部１６５は、学習部１６２にも含まれる。

第３生成部１６５−１は、処理部１６３を介してデータベース１５０から抽出した客体カットの区分映像と、受信部１６４から受信した第１ユーザ入力情報及び第２ユーザ入力情報と、第１分析部１６１から受信した映像分割情報と、を利用して、区分映像に含まれた客体の一部分を補強した追加区分映像を生成することができる。

図８Ｆに図示されているように、ユーザ端末機２００に出力された不可信号を受信した客体カットは、客体領域の一部分が出力されていない。第３生成部１６５−１は、その客体カットの区分映像に係わる第１ユーザ入力情報から客体カットの前景領域を抽出し、第２ユーザ入力情報から、客体カットの背景領域を抽出することができる。第３生成部１６５−１は、客体カットの前景領域（一部分の出力が抜け落ちた客体）の位置及び画素値を、分割された領域それぞれの平均画素値、連結情報及び映像分割インデックス情報を含んでいる映像分割情報から検索し、一部分の出力を補強した追加区分映像を生成することができる。図８Ｇは、不可信号を受信した客体カットに対して、一部分の出力を補強した追加区分映像の一例を図示している。

また、該追加区分映像は第１領域ないし第３領域に区分されており、ここで、第１領域は、客体のうち前景領域を含んでもよく、第１値（例えば、白）で表示することができる。また、第２領域は、客体のうち背景領域を含んでもよく、第２値（例えば、黒色）で表示することができる。また、第３領域は、客体のうち第１領域であるか、または第２領域であるか不明確な不明確領域を含んでもよく、第３値（例えば、灰色）で表示することができる。

第４生成部１６５−２は、第１領域ないし第３領域に区分された追加区分映像のうちいずれか１つの領域を明確に補正した補正映像を生成し、処理部１６３に出力することができる。ここで、ある１つの領域というのは、第３領域を含んでもよく、追加補正映像は、第３領域の一部が第１領域に含まれる場合、第３領域の一部を第１領域に補正し、第３領域の他の一部が、第２領域に含まれる場合、第３領域の他の一部を第２領域に補正した映像といえる。第４生成部１６５−２は、原本映像及び追加区分映像の相関関係を利用して、追加区分映像から補正映像を生成することができる。図８Ｈは、追加区分映像（図８Ｇ）に対して生成した補正映像の一例を図示している。

本実施形態において、第１分析部１６１、学習部１６２及び第２分析部１６５のうち少なくとも一つは、少なくとも１つのハードウェアチップ形態によって製作されて電子装置にも搭載される。例えば、第１分析部１６１、学習部１６２及び第２分析部１６５のうち少なくとも一つは、人工知能のための専用ハードウェアチップ形態によって製作され、または既存の汎用プロセッサ（例：ＣＰＵまたはアプリケーションプロセッサ）またはグラフィック専用プロセッサ（例：ＧＰＵ）の一部として製作され、各種電子アーチにも搭載される。

図５に戻り、処理部１６３は、原本映像及び追加補正映像を論理積演算し、演算結果として生成した追加客体カットを、ユーザ端末機２００に出力することができる。その後、受信部１６４が、ユーザ端末機２００から確認信号を受信する場合、処理部１６３は、原本映像及び追加区分映像をデータベース１５０に保存し、ニューラルネットワークを利用した学習に含めてもよい。ここで、追加客体カットに係わる確認信号が受信されるまで、第１ユーザ入力情報及び第２ユーザ入力情報を受信する過程、前景領域に係わる追加区分映像の生成、及び追加補正映像の出力を行う過程、追加客体カットを出力する過程を反復的に遂行し、原本映像及び追加区分映像をニューラルネットワークを利用した学習結果に含めてもよい。

図７は、図１の映像処理システム１において、ユーザ端末機２００の詳細構成について概略的に説明するために図示した図面である。図７を参照すれば、ユーザ端末機２００は、通信部２１０、メモリ２２０、入出力部２３０、プログラム保存部２４０、制御部２５０及び表示部２６０を含んでもよい。

通信部２１０は、映像処理装置１００のような他のネットワーク装置と、有無線連結を介して、制御信号またはデータ信号のような信号を送受信するために必要なハードウェア及びソフトウェアを含む装置でもある。例えば、通信部２１０は、近距離通信部（short-range wireless communication unit）または移動通信部を含んでもよい。該近距離通信部は、ブルートゥース（Bluetooth）通信部、ＢＬＥ（Bluetooth low energy）通信部、近距離無線通信部（near field communication unit）、ＷＬＡＮ（wireless local area network）（Ｗｉ−Ｆｉ（wireless fidelity））通信部、ジグビー（Zigbee）通信部、赤外線（ＩｒＤＡ：infrared data association）通信部、ＷＦＤ（Ｗｉ−Ｆｉ direct）通信部、ＵＷＢ（ultra wideband）通信部、Ａｎｔ＋通信部などでもあるが、それらに限定されるものではない。該移動通信部は、移動通信網上において、基地局、外部の端末、サーバのうち少なくとも一つと無線信号を送受信する。ここで、該無線信号は、音声コール信号、画像通話コール信号、または文字／マルチメディアメッセージ送受信による多様な形態のデータを含んでもよい。

メモリ２２０は、制御部２５０が処理するデータを一時的または領域的に保存するか、あるいはユーザ端末機２００に伝送されたデータを一時的または領域的に保存することができる。ここで、メモリ２２０は、磁気記録媒体（magnetic storage media）またはフラッシュ記録媒体（flash storage media）を含んでもよいが、本発明の範囲は、それらに限定されるものではない。

入出力部２３０は、タッチ認識ディスプレイ制御器、またはそれ以外の多様な入出力制御器によっても構成される。一例として、タッチ認識ディスプレイ制御器は、装置とユーザとの間において、出力インターフェース及び入力インターフェースを提供することができる。該タッチ認識ディスプレイ制御器は、電気信号を制御部２５０と送受信することができる。また、該タッチ認識ディスプレイ制御器は、ユーザに視覚的な出力を表示し、該視覚的出力は、テキスト、グラフィック、イメージ、ビデオ、及びそれらの組み合わせを含んでもよい。かような入出力部２３０は、例えば、タッチ認識が可能なＯＬＥＤ（organic light emitting display）またはＬＣＤ（liquid crystal display）のような所定ディスプレイ部材でもある。

プログラム保存部２４０は、原本映像を選択し、映像処理装置１００に送信する作業、映像処理装置１００から客体カットまたは／及び追加客体カットを受信して表示する作業、客体カットまたは／及び追加客体カットに係わる確認信号または不可信号を送信する作業、客体カットまたは／及び追加客体カットに、第１ユーザ入力情報及び第２ユーザ入力情報の入力を受信し、映像処理装置１００に送信する作業などを遂行する制御ソフトウェアを搭載することができる。

制御部２５０は、一種の中央処理装置であり、プログラム保存部２４０に搭載された制御ソフトウェアを駆動し、表示部２６０を制御して所定情報を表示するというような多様な機能を提供することができる。ここで、制御部２５０は、プロセッサ（processor）のように、データを処理することができる全種の装置を含んでもよい。ここで、「プロセッサ」は、例えば、プログラム内に含まれたコードまたは命令によって表現された機能を遂行するために、物理的に構造化された回路を有する、ハードウェアに内蔵されたデータ処理装置を意味する。かように、ハードウェアに内蔵されたデータ処理装置の一例として、マイクロプロセッサ（microprocessor）、中央処理装置（ＣＰＵ）、プロセッサコア（processor core）、マルチプロセッサ（multiprocessor）、ＡＳＩＣ（application-specific integrated circuit）、ＦＰＧＡ（field programmable gate array）などの処理装置を網羅することができるが、本発明の範囲は、それらに限定されるものではない。
表示部２６０は、制御部２５０の制御下、映像処理装置１００から受信した各種情報、例えば、映像処理装置１００が提供する映像処理ウェブページ及び／または映像処理アプリケーション関連情報、映像処理装置１００に送信する原本映像、映像処理装置１００から受信した客体カットまたは／及び追加客体カット、客体カットまたは／及び追加客体カット上において、第１ユーザ入力情報及び第２ユーザ入力情報を入力する過程などを表示することができる。

図８Ａないし図８Ｈは、映像処理装置で処理する映像の例示図である。図８Ａは、原本映像の一例を図示しており、図８Ｂは原本映像（図８Ａ）から生成した映像分割インデックス情報映像を色相で表現した例を図示しており、図８Ｃは、原本映像（図８Ａ）及び映像分割インデックス情報映像（図８Ｂ）を利用して生成した映像分割情報映像を表現した例を図示している。図８Ｄは、ユーザ端末機２００から確認信号を受信した客体カットの一例を図示しており、図８Ｅは、ユーザ端末機２００から不可信号を受信した客体カットの一例を図示している。図８Ｆは、不可信号を受信した客体カットに、第１ユーザ入力情報８１０及び第２ユーザ入力情報８２０を入力する例を図示している。図８Ｇは、不可信号を受信した客体カットに対して、一部分の出力を補強した追加区分映像の一例を図示しており、図８Ｈは、追加区分映像（図８Ｇ）に対して生成した補正映像の一例を図示している。

図９は、本発明の一実施形態による映像処理方法について説明するためのフローチャートである。以下の説明において、図１ないし図８に係わる説明と重複する部分は、その説明を省略する。

段階Ｓ９１０において、映像処理装置１００は、原本映像に対して特徴が類似した複数個の領域に分割した映像分割情報を獲得する。映像処理装置１００は、映像分割情報獲得のために、次のような処理を遂行することができる。映像処理装置１００は、シードの個数を含む第１パラメータ、及び各シードにおいて、全体画素それぞれまでの距離算出に係わる反復回数を含む第２パラメータを設定することができる。映像処理装置１００は、各シードにおいて、全体画素それぞれまでの距離算出を行い、該距離算出結果をＬａｂカラーで表現することができる。映像処理装置１００は、第２パラメータほど反復遂行された各シードにおいて、全体画素それぞれまでの距離算出結果をクラスタリングし、原本映像内において、Ｌａｂカラー（距離算出結果）が類似した画素を１つの領域に含めてもよい。映像処理装置１００は、Ｌａｂカラーが類似した複数個の領域それぞれにインデックスを付けた映像分割インデックス情報を生成することができる。映像処理装置１００は、Ｌａｂカラーが類似した複数個の領域それぞれから算出した平均画素値と、ある１つの基準領域を中心に探索した周辺４方位の領域の映像分割インデックス情報を連結させた連結情報と、映像分割インデックス情報を含んでいる映像分割情報と、を生成することができる。

段階Ｓ９２０において、映像処理装置１００は、ニューラルネットワークを利用した学習結果に基づいて、原本映像から客体を識別し、映像分割情報を利用して、原本映像から抽出した客体を、前景領域を含む第１領域、背景領域を含む第２領域、及び不確かな領域を含む第３領域に区分した区分映像を生成し、区分映像のうち第３領域を明確に補正した補正映像を生成する。

段階Ｓ９３０において、映像処理装置１００は、原本映像及び補正映像を論理積演算して生成した客体カットを、ユーザ端末機２００に出力し、原本映像及び区分映像をニューラルネットワークを利用した学習に含める。

図１０は、本発明の他の実施形態による映像処理方法について説明するためのフローチャートである。以下の説明において、図１ないし図９に係わる説明と重複する部分は、その説明を省略する。

段階Ｓ１０１０において、映像処理装置１００は、原本映像に対して特徴が類似した複数個の領域に分割した映像分割情報を獲得する。

段階Ｓ１０２０において、映像処理装置１００は、ニューラルネットワークを利用した学習結果に基づいて、原本映像から客体を識別し、映像分割情報を利用して、原本映像から抽出した客体を、前景領域を含む第１領域、背景領域を含む第２領域、及び不確かな領域を含む第３領域に区分した区分映像を生成し、区分映像のうち第３領域を明確に補正した補正映像を生成する。

段階Ｓ１０３０において、映像処理装置１００は、原本映像及び補正映像を論理積演算して生成した客体カットを、ユーザ端末機２００に出力する。

段階Ｓ１０４０において、映像処理装置１００は、客体カットに係わる不可信号を受信したか否かということを判断する。

段階Ｓ１０５０において、映像処理装置１００が、客体カットに係わる確認信号を受信した場合、原本映像及び区分映像をニューラルネットワークを利用した学習に含める。

段階Ｓ１０６０において、映像処理装置１００が客体カットに係わる不可信号を受信した場合、客体カットからユーザ端末機２００に出力された不可信号を受信した客体カットから前景領域を指定する第１ユーザ入力情報、及びユーザ端末機２００に出力された不可信号を受信した客体カットから背景領域を指定する第２ユーザ入力情報を受信する。

段階Ｓ１０７０において、映像処理装置１００は、客体カットの区分映像と、第１ユーザ入力情報及び第２ユーザ入力情報と、映像分割情報を利用して区分映像に含まれた客体の一部分を補強した追加区分映像と、を生成し、追加区分映像のうちいずれか１つの領域を明確に補正した追加補正映像を生成する。映像処理装置１００は、客体カットの前景領域（一部分の出力が抜け落ちた客体）の位置及び画素値を、分割された領域それぞれの平均画素値、連結情報及び映像分割インデックス情報を含んでいる映像分割情報から検索し、一部分の出力を補強した追加区分映像を生成することができる。

段階Ｓ１０８０において、映像処理装置１００は、原本映像及び追加補正映像を論理積演算し、演算結果として生成した追加客体カットをユーザ端末機２００に出力する。ここで、追加客体カットに係わる確認信号が受信されるまで、段階Ｓ１０４０ないし段階Ｓ１０８０を反復的に遂行する。

図１１は、本発明のさらに他の実施形態による映像処理方法について説明するためのフローチャートである。以下の説明において、図１ないし図１０に係わる説明と重複する部分は、その説明を省略する。

段階Ｓ１１１０において、ユーザ端末機２００は、映像処理装置１００が提供する映像処理ウェブページに接続するか、あるいは映像処理装置１００が提供する映像処理アプリケーションを実行する。

段階Ｓ１１２０において、ユーザ端末機２００は、原本映像を選択し、映像処理装置１００に送信する。ユーザ端末機２００は、アルバムアプリケーションなどを実行し、既保存の映像を原本映像として選択することができる。また、ユーザ端末機２００は、外部サーバから映像を受信し、原本映像として選択することができる。また、ユーザ端末機２００は、内部に具備されたカメラを利用して映像をキャプチャし、キャプチャした映像を原本映像として選択することができる。

段階Ｓ１１３０において、原本映像を受信した映像処理装置１００は、原本映像に対して特徴が類似した複数個の領域に分割した映像分割情報を獲得する。

段階Ｓ１１４０において、映像処理装置１００は、ニューラルネットワークを利用した学習結果に基づいて、原本映像から客体を識別する。

段階１１５０において、映像処理装置１００は、映像分割情報を利用して、原本映像から抽出した客体を、前景領域を含む第１領域、背景領域を含む第２領域、及び不確かな領域を含む第３領域に区分した区分映像を生成し、区分映像のうち第３領域を明確に補正した補正映像を生成する。

段階Ｓ１０６０において、映像処理装置１００は、原本映像及び補正映像を論理積演算して生成する。

段階１０７０において、映像処理装置１００は、生成した客体カットをユーザ端末機２００に送信する。

段階１０８０において、ユーザ端末機２００は、客体カットに係わる確認信号を伝送する。

段階１０９０において、映像処理装置１００は、原本映像及び区分映像をニューラルネットワークを利用した学習に含める。

図１２は、本発明のさらに他の実施形態による映像処理方法について説明するためのフローチャートである。以下の説明において、図１ないし図１１に係わる説明と重複する部分は、その説明を省略する。

段階Ｓ１２１１において、ユーザ端末機２００は、映像処理装置１００が提供する映像処理ウェブページに接続するか、あるいは映像処理装置１００が提供する映像処理アプリケーションを実行する。

段階Ｓ１２１３において、ユーザ端末機２００は、原本映像を選択し、映像処理装置１００に送信する。

段階Ｓ１２１５において、原本映像を受信した映像処理装置１００は、原本映像に対して特徴が類似した複数個の領域に分割した映像分割情報（例えば、スーパーピクセルマップ情報）を獲得する。

段階Ｓ１２１７において、映像処理装置１００は、ニューラルネットワークを利用した学習結果に基づいて、原本映像から客体を識別する。ここで、映像処理装置１００は、識別した客体を含むバウンダリボックスを表示し、客体のアウトラインを検出し、バウンダリボックスとアウトラインとを比較し、バウンダリボックスにアウトラインが含まれるように、バウンダリボックスの大きさを調整することができ、映像処理装置１００は、映像分割情報を利用して、バウンダリボックスにカッティングを行う作業をさらに遂行することができる。

段階１２１９において、映像処理装置１００は、映像分割情報を利用して、原本映像から抽出した客体を、前景領域を含む第１領域、背景領域を含む第２領域、及び不確かな領域を含む第３領域に区分した区分映像（例えばトライメブ映像）を生成し、区分映像のうち第３領域を明確に補正した補正映像（例えばメティング映像）を生成する。ここで、映像処理装置１００は、カッティングを行ったバウンダリボックス内の映像に対して、区分映像及び補正映像を生成するといえる。

段階Ｓ１２２１において、映像処理装置１００は、原本映像及び補正映像を論理積演算して客体カットを生成する。

段階１２２３において、映像処理装置１００は、生成した客体カットをユーザ端末機２００に送信する。

段階１２２５において、ユーザ端末機２００は、客体カットに係わる不可信号を伝送する。

段階Ｓ１２７において、映像処理装置１００は、ユーザ端末機２００に、第１ユーザ入力情報及び第２ユーザ入力情報の送信を要請する。

段階１２２９において、ユーザ端末機２００は、映像処理装置１００に、第１ユーザ入力情報及び第２ユーザ入力情報を送信する。

段階１２３１において、映像処理装置１００は、第１ユーザ入力情報を利用して、不可信号を受信した客体カットの区分映像から前景領域を抽出し、第２ユーザ入力情報を利用して不可信号を受信した客体カットの区分映像から、背景領域を抽出する。

段階１２３３において、映像処理装置１００は、客体カットの前景領域（一部分の出力が抜け落ちた客体）の位置及び画素値を、分割された領域それぞれの平均画素値、連結情報及び映像分割インデックス情報を含んでいる映像分割情報から検索し、一部分の出力を補強した追加区分映像を生成し、追加区分映像のうち第３領域を明確に補正した追加補正映像を生成する。

段階Ｓ１２３５において、映像処理装置１００は、原本映像及び追加補正映像を論理倍演算し、追加客体カットを生成する。

段階Ｓ１２３７において、映像処理装置１００は、生成した追加客体カットをユーザ端末機２００に送信する。

段階Ｓ１２３９において、映像処理装置１００は、ユーザ端末機２００から追加客体カットに係わる確認信号が受信されるまで、段階Ｓ１２２７ないし段階Ｓ１２３７を反復的に遂行し、ユーザ端末機２００から確認信号が受信されれば、原本映像及び追加区分映像をニューラルネットワークを利用した学習に含める。

前述の本発明による実施形態は、コンピュータ上で多様な構成要素を介して実行されるコンピュータプログラムの形態によって具現され、かようなコンピュータプログラムは、コンピュータで判読可能な媒体にも記録される。このとき、該媒体は、ハードディスク、フロッピィーディスク及び磁気テープのような磁気媒体；ＣＤ−ＲＯＭ（compact disc read only memory）及びＤＶＤ（digital versatile disc）のような光記録媒体；フロプティカルディスク（floptical disk）のような磁気・光媒体（magneto-optical medium）；及びＲＯＭ（read-only memory）、ＲＡＭ（random access memory）、フラッシュメモリのような、プログラム命令語を保存して実行するように特別に構成されたハードウェア装置を含んでもよい。

一方、前記コンピュータプログラムは、本発明のために特別に設計されて構成されたものでもあり、コンピュータソフトウェア分野の当業者に公知されて使用可能なものでもある。該コンピュータプログラムの例としては、コンパイラによって作われるような機械語コードだけではなく、インタープリタなどを使用して、コンピュータによって実行される高級言語コードも含まれる。

本発明の明細書（特に、特許請求の範囲）において、「前記」の用語、及びそれと類似した指示用語の使用は、単数及び複数のいずれにも該当する。また、本発明において範囲（range）を記載した場合、前記範囲に属する個別的な値を適用した発明を含み（それに反する記載がなければ）、発明の詳細な説明に、前記範囲を構成する各個別的な値を記載した通りである。

本発明による方法を構成する段階について、明白に順序を記載するか、あるいはそれに反する記載がなければ、前記段階は、適する順序で行われる。必ずしも前記段階の記載順序によって、本発明が限定されるものではない。本発明において、全ての例、または例示的な用語（例えば、など）の使用は、単に本発明について詳細に説明するためのものであり、特許請求の範囲によって限定されない以上、前記例、または例示的な用語によって、本発明の範囲が限定されるものではない。また、当業者は、多様な修正、組み合わせ及び変更が付加された特許請求の範囲内、またはその均等物の範疇内において、設計条件及びファクタによっても構成されるということが分かるであろう。

従って、本発明の思想は、前述の実施形態に限って決められるものではなく、特許請求の範囲だけではなく、該特許請求の範囲と均等、またはそれと等価的に変更された全ての範囲は、本発明の思想の範疇に属するものとするのである。

本発明の、映像処理装置及びその方法は、例えば、映像処理関連の技術分野に効果的に適用可能である。

１００映像処理装置
２００ユーザ端末機
２０１デスクトップコンピュータ
２０２スマートフォン
２０３ノート型パソコン
３００通信網

Claims

原本映像に対して特徴が類似した複数個の領域に分割した映像分割情報を獲得する第１分析部と、
ニューラルネットワークを利用した学習結果に基づいて、前記原本映像から客体を識別し、前記映像分割情報を利用して、前記原本映像から抽出した前記客体を、第１領域ないし第３領域に区分した区分映像を生成し、前記区分映像のうちいずれか１つの領域を明確に補正した補正映像を出力する学習部と、
前記原本映像及び前記補正映像を演算して生成した客体カットを出力し、前記原本映像及び前記区分映像を、前記ニューラルネットワークを利用した学習に含める処理部と、を含むことを特徴とする映像処理装置。
前記客体カットに係わる不可信号受信に対応し、前記客体カットから、第１ユーザ入力情報及び第２ユーザ入力情報を受信する受信部と、
前記客体カットに係わる前記区分映像の一部を、前記第１ユーザ入力情報及び前記第２ユーザ入力情報に対応する前記映像分割情報を基に補強して追加区分映像を生成し、前記追加区分映像のうちいずれか１つの領域を明確に補正した追加補正映像を出力する第２分析部と、をさらに含むことを特徴とする請求項１に記載の映像処理装置。
前記処理部は、
前記原本映像及び前記追加補正映像を演算して生成した追加客体カットを出力し、前記原本映像及び前記追加区分映像を、前記ニューラルネットワークを利用した学習に含めることを特徴とする請求項２に記載の映像処理装置。
前記追加客体カットに係わる確認信号が受信されるまで、前記受信部、前記第２分析部及び前記処理部の動作を反復遂行することを特徴とする請求項３に記載の映像処理装置。
前記受信部は、
前記客体カットに含まれる前景領域に係わり、前記第１ユーザ入力情報を受信し、前記客体カットに含まれる背景領域に係わり、前記第２ユーザ入力情報を受信することを特徴とする請求項２に記載の映像処理装置。
原本映像に対して特徴が類似した複数個の領域に分割した映像分割情報を獲得する段階と、
ニューラルネットワークを利用した学習結果に基づいて、前記原本映像から客体を識別し、前記映像分割情報を利用して、前記原本映像から抽出した前記客体を、第１領域ないし第３領域に区分した区分映像を生成し、前記区分映像のうちいずれか１つの領域を明確に補正した補正映像を出力する段階と、
前記原本映像及び前記補正映像を演算して生成した客体カットを出力し、前記原本映像及び前記区分映像を、前記ニューラルネットワークを利用した学習に含める段階と、を含むことを特徴とする映像処理方法。
前記客体カットに係わる不可信号受信に対応し、前記客体カットから、第１ユーザ入力情報及び第２ユーザ入力情報を受信する段階と、
前記客体カットに係わる前記区分映像の一部を、前記第１ユーザ入力情報及び前記第２ユーザ入力情報に対応する前記映像分割情報を基に補強して追加区分映像を生成し、前記追加区分映像のうちいずれか１つの領域を明確に補正した追加補正映像を出力する段階と、をさらに含むことを特徴とする請求項６に記載の映像処理方法。
前記原本映像及び前記追加補正映像を演算して生成した追加客体カットを出力し、前記原本映像及び前記追加区分映像を、前記ニューラルネットワークを利用した学習に含める段階をさらに含むことを特徴とする請求項７に記載の映像処理方法。
前記追加客体カットに係わる確認信号が受信されるまで、前記受信する段階、前記出力する段階、及び前記含める段階の動作を反復遂行することを特徴とする請求項８に記載の映像処理方法。
前記受信する段階は、
前記客体カットに含まれる前景領域に係わり、前記第１ユーザ入力情報を受信する段階と、
前記客体カットに含まれる背景領域に係わり、前記第２ユーザ入力情報を受信する段階と、を含むことを特徴とする請求項７に記載の映像処理方法。
コンピュータを利用して、請求項６ないし１０のうちいずれか１項に記載の方法を実行させるために、前記コンピュータで判読可能な記録媒体に保存されたコンピュータプログラム。