JP2018137639A - Moving image processing system, encoder and program, decoder and program - Google Patents
Moving image processing system, encoder and program, decoder and program Download PDFInfo
- Publication number
- JP2018137639A JP2018137639A JP2017031341A JP2017031341A JP2018137639A JP 2018137639 A JP2018137639 A JP 2018137639A JP 2017031341 A JP2017031341 A JP 2017031341A JP 2017031341 A JP2017031341 A JP 2017031341A JP 2018137639 A JP2018137639 A JP 2018137639A
- Authority
- JP
- Japan
- Prior art keywords
- face
- moving image
- data
- encoding
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Studio Devices (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
Description
この発明は、動画像処理システム、並びに、符号化装置及びプログラム、並びに、復号装置及びプログラムに関し、例えば、カメラで撮影した映像(動画像)のデータを圧縮符号化(符号化)して伝送するシステムに適用し得る。 The present invention relates to a moving image processing system, an encoding device and a program, and a decoding device and a program. For example, video (moving image) data captured by a camera is compressed and encoded (encoded) and transmitted. Applicable to the system.
従来、カメラで撮影した映像の映像データを圧縮する技術としては、例えば、特許文献1の記載技術がある。特許文献1の記載技術では、映像の各フレームについて顔検出処理を行うことにより顔が映った領域(以下、「顔領域」とも呼ぶ)を求め、顔以外の領域(以下、「非顔領域」とも呼ぶ)よりも顔領域に多くの符号量を割り当てることで、顔領域を高画質にした圧縮符号化を行う。また、特許文献1の記載技術は、ビデオカメラにも適用できる。
Conventionally, as a technique for compressing video data of a video taken by a camera, for example, there is a technique described in
しかしながら、特許文献1に記載の技術では、圧縮符号化されたデータから特定の特徴の人物(例えば、ある特定の人物、あるいは「20代・女性」等の特定の属性の人物)が写っている映像シーンを検索表示する場合、いったん圧縮符号化された動画像をすべて復号して改めて顔検出を行い、検出された顔に対して認識処理(例えば、個人識別や性別年齢推定等)を行う必要がある。
However, in the technique described in
そのため、効率的に特定の特徴の顔が映った映像を復号することができる動画像処理システム、並びに、符号化装置及びプログラム、並びに、復号装置及びプログラムが望まれている。 Therefore, there is a demand for a moving image processing system, an encoding device and a program, and a decoding device and a program that can efficiently decode a video showing a face having a specific feature.
第1の本発明は、符号化部と復号部を備える動画像処理システムにおいて、(1)前記符号化部は、(1−1)動画像の各フレームについて人物の顔を含む顔領域を検出し、その検出結果を示す顔検出結果データを生成する顔領域処理手段と、(1−2)前記動画像を符号化して動画像符号化データを生成する符号化処理手段と、(1−3)前記顔検出結果データと、前記動画像符号化データとを含むデータを出力する符号化側出力手段とを有し、(2)前記復号部は、(2−1)前記符号化部が出力したデータを取得するデータ取得手段と、(2−2)少なくとも前記顔検出結果データを利用して、前記動画像符号化データから、一部のフレームを抽出して復号し、復号動画像を取得する復号処理手段とを有することを特徴とする。 1st this invention is a moving image processing system provided with an encoding part and a decoding part, (1) The said encoding part detects the face area | region containing a human face about each frame of (1-1) moving images. A face area processing means for generating face detection result data indicating the detection result, (1-2) an encoding processing means for encoding the moving image to generate moving image encoded data, and (1-3 ) Encoding side output means for outputting data including the face detection result data and the moving image encoded data; (2) the decoding unit is (2-1) the encoding unit outputs And (2-2) using at least the face detection result data to extract and decode a part of the frames from the moving image encoded data to obtain a decoded moving image. And a decoding processing means.
第2の本発明の符号化装置は、(1)動画像の各フレームについて人物の顔を含む顔領域を検出し、その検出結果を示す顔検出結果データを生成する顔領域処理手段と、(2)前記動画像を符号化して動画像符号化データを生成する符号化処理手段と、(3)前記顔検出結果データと、前記動画像符号化データとを含むデータを出力する符号化側出力手段とを有することを特徴とする。 The encoding apparatus according to the second aspect of the present invention includes: (1) a face area processing unit that detects a face area including a human face for each frame of a moving image and generates face detection result data indicating the detection result; 2) An encoding processing unit that encodes the moving image to generate moving image encoded data; and (3) an encoding side output that outputs data including the face detection result data and the moving image encoded data. Means.
第3の本発明の符号化プログラムは、コンピュータを、(1)動画像の各フレームについて人物の顔を含む顔領域を検出し、その検出結果を示す顔検出結果データを生成する顔領域処理手段と、(2)前記動画像を符号化して動画像符号化データを生成する符号化処理手段と、(3)前記顔検出結果データと、前記動画像符号化データとを含むデータを出力する符号化側出力手段として機能させることを特徴とする。 According to a third aspect of the present invention, there is provided an encoding program comprising: (1) a face area processing unit that detects a face area including a person's face for each frame of a moving image and generates face detection result data indicating the detection result; And (2) an encoding processing unit that encodes the moving image to generate moving image encoded data, and (3) a code that outputs data including the face detection result data and the moving image encoded data. It is made to function as a production-side output means.
第4の本発明の復号装置は、(1)動画像を符号化した動画像符号化データと、前記動画像で人物の顔を含む顔領域を検出した検出結果を示す顔検出結果データとを含むデータを取得するデータ取得手段と、(2)少なくとも前記顔検出結果データを利用して、前記動画像符号化データから、一部のフレームを抽出して復号し、復号動画像を取得する復号処理手段とを有することを特徴とする。 A decoding device according to a fourth aspect of the present invention provides (1) moving image encoded data obtained by encoding a moving image, and face detection result data indicating a detection result of detecting a face area including a human face in the moving image. (2) decoding that extracts and decodes a part of the frame from the moving image encoded data using at least the face detection result data and acquires the decoded moving image. And a processing means.
第5の本発明の復号プログラムは、コンピュータを、(1)動画像を符号化した動画像符号化データと、前記動画像で人物の顔を含む顔領域を検出した検出結果を示す顔検出結果データとを含むデータを取得するデータ取得手段と、(2)少なくとも前記顔検出結果データを利用して、前記動画像符号化データから、一部のフレームを抽出して復号し、復号動画像を取得する復号処理手段として機能させることを特徴とする。 A decoding program according to a fifth aspect of the present invention provides a computer, (1) moving image encoded data obtained by encoding a moving image, and a face detection result indicating a detection result of detecting a face area including a human face in the moving image. Data acquisition means for acquiring data including data, and (2) using at least the face detection result data, extracting and decoding a part of the frame from the moving image encoded data, and decoding the decoded moving image It is made to function as a decoding processing means to acquire.
本発明によれば、効率的に特定の特徴の顔が映った映像を復号する動画像処理システムを提供することができる。 ADVANTAGE OF THE INVENTION According to this invention, the moving image processing system which decodes the image | video in which the face of the specific characteristic was reflected efficiently can be provided.
(A)第1の実施形態
以下、本発明による動画像処理システム、並びに、符号化装置及びプログラム、並びに、復号装置及びプログラムの第1の実施形態を、図面を参照しながら詳述する。以下では、本発明の映像処理システム、符号化装置、復号装置を、それぞれカメラシステム、符号化部、及び復号部に適用した例について説明する。
(A) First Embodiment Hereinafter, a moving image processing system, an encoding device and a program, and a decoding device and a program according to a first embodiment of the present invention will be described in detail with reference to the drawings. Below, the example which applied the video processing system of this invention, the encoding apparatus, and the decoding apparatus to the camera system, the encoding part, and the decoding part, respectively is demonstrated.
(A−1)第1の実施形態の構成
図1は、第1の実施形態に係るカメラシステム1の全体構成について示したブロック図である。
(A-1) Configuration of First Embodiment FIG. 1 is a block diagram showing an overall configuration of a
カメラシステム1には、カメラ300、符号化部100(撮影側の装置)、及び復号部200(検索側の装置)が配置されている。
In the
カメラ300は、撮像(撮影)した映像(動画像)の映像データ(映像信号)を符号化部100に供給する。なお、この実施形態では、カメラ300で撮影された映像の映像データがリアルタイムに符号化部100に供給されるものとして説明するが、ハードディスクドライブやメモリカード等のデータ記録媒体に記録された映像データをオフラインで符号化部100に供給するようにしてもよい。カメラ300としては、デジタルカメラ、監視カメラ等の種々のカメラを適用することができる。
The
この実施形態では、カメラシステム1は、符号化部100、復号部200、及びカメラ300の3つの装置で構成されている例について説明するが、カメラシステム1を構成する装置の数や各装置に搭載する機能の組み合わせは限定されないものである。例えば、図1に示すカメラシステム1の構成をすべて1つの装置で構成するようにしてもよい。
In this embodiment, an example in which the
カメラシステム1の用途は限定されないものではあるが、例えば、カメラ300で銀行やコンビニエンスストア等の店舗で撮影した映像(動画像)から、特定の人物や特定の属性の人物が写ったシーンのフレームを抽出して出力することに用いることができる。
Although the usage of the
符号化部100は、カメラ300等により入力された映像を圧縮符号化(符号化)した圧縮データD10を生成して出力するものである。符号化部100が圧縮データD10を出力する出力形式については限定されないものである。符号化部100は、例えば、ハードディスクドライブやメモリカード等のデータ記録媒体に圧縮データD10を書き込むようにしてもよいし、通信により復号部200側にデータ送信(伝送)するようにしてもよい。また、符号化部100は、通信により復号部200へ圧縮データD10を送信する場合、リアルタイムに(例えば、フレームごとに)、復号部200へ圧縮データD10を送信するようにしてもよいし、復号部200へ一括したファイルで圧縮データD10を送信するようにしてもよい。符号化部100及び圧縮データD10の詳細構成については後述する。
The
復号部200は、圧縮データD10が供給されると、圧縮データD10を復号した映像に基づく出力を行う。具体的には、復号部200は、圧縮データD10を復号した映像に基づくデータ(以下、「出力データD20」と呼ぶ)又は、圧縮データD10を復号した映像(復号映像)の信号(例えば、ディスプレイに直接供給可能な形式の信号)を出力する。復号部200に圧縮データD10を入力(供給)する方式、及び復号部200が出力データ20又は映像信号を出力する方式については限定されないものである。復号部200は、例えば、ハードディスクドライブやメモリカード等のデータ記録媒体を用いて、データの入出力(圧縮データD10の入力及び出力データ20の出力)を行うようにしてもよいし、通信によりデータの入出力を行うようにしてもよい。
When the compressed data D10 is supplied, the
次に、符号化部100の内部構成について説明する。
Next, the internal configuration of the
符号化部100は、顔検出部101、映像圧縮部102、及びデータ出力部103を有している。
The
符号化部100は、例えば、プロセッサ及びメモリを有するプログラムの実施構成(コンピュータ)にプログラム(実施形態に係る符号化プログラムを含む)をインストールすることにより構成してもよい。
For example, the
顔検出部101は、カメラ300から供給された映像の各フレームから人物の顔を検出する処理(以下、「顔検出処理」と呼ぶ)を行い、その結果を示すデータ(以下、「顔認識結果データ」と呼ぶ)を生成する。顔検出部101は、顔認識結果データとして、顔検出処理の結果として顔検出がされたフレーム(以下、「顔映像フレーム」と呼ぶ)を特定するための時刻情報と、当該顔映像フレームにおいて顔映像が検出された位置(顔領域)を特定する位置情報とを含むデータを生成する。顔検出結果データを構成する時刻情報は、顔映像フレームを特定可能(例えば、時間軸上やフレーム列上で特定可能)な情報であればよく、例えば、先頭からの時刻情報や先頭からのフレーム順序を示す情報としてもよい。顔検出データを構成する位置情報は、フレーム内で顔領域の位置(範囲)を特定することができればよく、例えば、顔領域を特定するための座標やベクタ形式の情報を適用することができる。なお、1つの顔映像フレームに複数の顔領域が存在する場合もあり得る。
The
映像圧縮部102は、顔検出部101による顔検出処理結果(顔検出結果データ)を利用して、カメラ300から供給されるフレームについて圧縮符号化(符号化)を行って、圧縮映像データを生成する。映像圧縮部102は、顔映像フレームについては、例えば、特許文献1に記載されるように、顔領域と非顔領域とで異なる圧縮符号化処理(符号化処理)を行う。具体的には、例えば、映像圧縮部102は、特許文献1に記載されるように、顔領域と非顔領域で異なる符号量を割り当てる(異なるレートで符号化処理を行う)など、目的に応じた圧縮符号化処理を行うようにしてもよい。
The
データ出力部103は、映像圧縮部102で生成された圧縮映像データと顔検出部101で生成された顔検出結果データとを含む所定の形式の圧縮データD10を出力する。例えば、データ出力部103が、動画像の標準符号化方式であるH.264形式で圧縮データD10を出力する場合には、圧縮映像データの付加情報としてその他の情報(この実施形態では顔検出結果データ)を一体化させることが可能である。また、映像圧縮データと顔検出結果データを個別のデータ(ファイル)として出力するようにしてもよい。
The
次に、復号部200の内部構成について説明する。
Next, the internal configuration of the
復号部200は、顔検出結果読み取り部201、顔映像復号部202、顔認識部203、及び結果出力部204を有している。
The
復号部200は、例えば、プロセッサ及びメモリを有するプログラムの実施構成(コンピュータ)にプログラム(実施形態に係る復号プログラムを含む)をインストールすることにより構成してもよい。
For example, the
顔検出結果読み取り部201は、供給された圧縮データD10から、圧縮映像データと顔検出結果データを読み込む。
The face detection
顔映像復号部202は、顔検出結果データに含まれる顔映像フレームの時刻情報に基づき、顔映像フレームのみ圧縮映像データから復号した映像(以下、「第1の復号映像」と呼ぶ)を取得し、顔認識部203に供給する。
The face
顔認識部203は、第1の復号映像の顔領域について、設定された検索条件情報203aに該当するか否かを認識する処理を行う。また、顔認識部203は、顔検出結果データで示された位置情報(顔領域を示した位置情報)に基づき、顔映像フレームの顔領域のみを抽出して顔認識を行い、検索条件情報203aの条件と照合する。顔認識部203が顔認識処理(検索処理)する際の具体的な処理方式については限定されず、種々の顔認識の処理を適用することができる。
The
検索条件情報203aは、顔映像フレームの顔映像の特徴について認識(分析)する内容を定義した情報である。例えば、検索条件情報203aとしては、「特性の人物の顔の特徴と照合して閾値以上の一致度となること」や、「女性で、かつ、20代であること」等を示す情報が設定される。検索条件情報203aを定義する具体的な形式については限定されないものであるが、例えば、上述のような検索条件を表す論理式や、プログラム言語で記述した内容を設定するようにしてもよい。 The search condition information 203a is information defining the contents to be recognized (analyzed) about the features of the face image of the face image frame. For example, as the search condition information 203a, information indicating “matching degree equal to or higher than a threshold value by matching with the characteristics of a person's face of a characteristic”, “being a woman and being in his twenties”, or the like is set. Is done. Although the specific format for defining the search condition information 203a is not limited, for example, a logical expression representing the search condition as described above or contents described in a programming language may be set.
図2は、検索条件情報203aの構成例について示した説明図である。 FIG. 2 is an explanatory diagram showing a configuration example of the search condition information 203a.
図2に示すように、検索条件情報203aは、例えば、検索条件種別を表すコードと、付加情報の組み合わせで構成することができる。検索条件情報203aにおいて、検索条件種別に対応する付加情報を複数付加することもできる。各付加情報は可変長であることを考慮して、データ長を示す「バイト数」と、付加情報自体の組み合わせで構成するものとする。各付加情報の意味は、検索条件種別に対応する条件で規定(定義)されるものとする。 As shown in FIG. 2, the search condition information 203a can be composed of, for example, a combination of a code representing the search condition type and additional information. In the search condition information 203a, a plurality of additional information corresponding to the search condition type can be added. Considering that each additional information has a variable length, it is configured by a combination of “number of bytes” indicating the data length and the additional information itself. The meaning of each additional information is defined (defined) by the condition corresponding to the search condition type.
例えば、「特定の人物の顔の特徴と照合して閾値以上の一致度となること」を表す検索条件情報203aは、図2(a)、図2(b)のような内容となる。 For example, the search condition information 203a indicating “matching degree equal to or higher than a threshold value by collating with a facial feature of a specific person” has contents as shown in FIGS. 2 (a) and 2 (b).
図2(a)に示す検索条件情報203aでは、検索条件種別として、「付加情報1に設定された顔特徴との一致度が付加情報2に設定された閾値以上であること」を示す「1」が設定され、付加情報1として顔特徴情報(3400バイト)が設定され、付加情報2として一致度閾値(4バイト)が設定されている。図7(a)に示す検索条件情報203aが設定されている場合、顔認識部203は、検索条件種別「1」の規定に従って、付加情報1に設定された顔特徴情報(3400バイト)と、顔映像フレームから取得した顔領域に映った顔の特徴量との一致度が、付加情報2の一致度閾値以上であるか否かを判断する処理を行うことになる。
In the search condition information 203a shown in FIG. 2A, “1” indicating that the degree of matching with the face feature set in the
なお、図2(b)に示すように、検索条件情報203aにおいて、付加情報1の顔特徴情報については、顔特徴情報自体ではなく、照合する顔特徴が格納されたデータベースのインデックス(4バイト)で示すようにしてもよい。この場合、顔特徴を格納するデータベースの場所について限定されないものであるが、復号部200自体でもよいし、他のコンピュータ(例えば、図示しないファイルサーバやクラウド上等)としてもよい。
As shown in FIG. 2B, in the search condition information 203a, the face feature information of the
また、例えば、「性別・年齢を認識(推定)すること」を表す検索条件情報203aは、図2(c)のような内容となる。図2(c)に示す検索条件情報203aでは、検索条件種別として、「年齢範囲および性別が付加情報1〜3に設定された指定条件に合致すること」を示す「3」が設定され、付加情報1として性別(4バイト)が設定され、付加情報2として年齢範囲下限値(4バイト)が設定され、付加情報3として年齢上限値(4バイト)が設定されている。図2(c)に示す認識内容情報103aが設定されている場合、顔認識部203は、検索条件種別「3」の規定に従って、顔映像フレームから取得した顔領域に映った顔の特徴量が、付加情報1に設定された性別(女性)で、かつ、付加情報2、3に設定された年齢範囲(20才〜29才)に合致するか否かを判断する処理を行うことになる。
Further, for example, the search condition information 203a indicating “recognizing (estimating) gender / age” has the contents as shown in FIG. In the search condition information 203a shown in FIG. 2 (c), “3” indicating that “the age range and gender match the specified conditions set in the
そして、顔認識部203は、検索条件情報203aに合致した顔のみが映っているフレームで構成された映像(以下、「第2の復号映像」と呼ぶ)を取得してデータ出力部103に供給する。
Then, the
顔認識部203において、検索条件情報203aはユーザの操作等により任意の情報を設定することが可能である。顔認識部203において、検索条件情報203aの入力をユーザから受け付ける方式は限定されないものである。顔認識部203では、例えば、テキストファイル等の所定の形式のファイル受信により検索条件情報203aの入力を受け付けるようにしてもよいし、GUI等の操作画面(例えば、Web画面)を用いて入力を受け付けるようにしてもよい。
In the
そして、データ出力部103は、第2の復号映像に基づく出力データD20又は第2の復号映像の映像信号を出力する。
Then, the
(A−2)第1の実施形態の動作
次に、本発明の第1の実施例におけるカメラシステム1の動作について説明する。
(A-2) Operation of First Embodiment Next, the operation of the
まず、第1の実施形態のカメラシステム1における画像処理の流れについて説明する。
First, the flow of image processing in the
図3は、カメラシステム1における画像処理の遷移について示した説明図である。
FIG. 3 is an explanatory diagram showing transition of image processing in the
図3(a)は、カメラ300で撮影した映像のフレームの例について示している。図3(a)には人物の顔が映ったフレームF101が図示されている。
FIG. 3A shows an example of a frame of a video shot by the
図3(b)は、フレームF101について顔検出部101で行った顔検出結果の例を示す図である。図3(b)では、フレームF101において顔を検出した顔領域を点線で囲って図示している。
FIG. 3B is a diagram illustrating an example of a face detection result performed by the
図3(c)は、フレームF101について映像圧縮部102で圧縮符号化処理(符号化処理)した処理結果(圧縮映像データ)の例について示している。図3(c)では、顔領域の部分を点線で囲み、非顔領域(顔領域以外)の部分にハッチ(斜線)を付して図示している。映像圧縮部102は、顔領域の部分(点線で囲まれた部分)と非顔領域の部分(ハッチを付した部分)とで異なる圧縮符号化処理(符号化処理)を行うようにしてもよい。具体的には、映像圧縮部102では、フレームF101を圧縮符号化処理(符号化処理)する際に、顔領域の部分(点線で囲まれた部分)よりも顔領域以外の領域(ハッチを付した部分)についてデータ量が小さくなる圧縮処理(符号量が少なくなる圧縮処理)を行うようにしてもよい。言い換えると、映像圧縮部102では、フレームF101を圧縮符号化処理(符号化処理)する際に、顔領域の部分(点線で囲まれた部分)について、顔領域以外の領域(ハッチを付した部分)よりも多くの符号量を割り当てた圧縮処理(より画質の劣化の少ないレートの高い符号化処理)を行うようにしてもよい。
FIG. 3C illustrates an example of a processing result (compressed video data) obtained by compressing and encoding (encoding processing) the frame F101 by the
図3(d)は、顔映像復号部202で、顔検出結果データ(時刻情報)に基づいて、圧縮映像データから顔映像フレームであるフレームF101を特定し、圧縮映像データからフレームF101を復号する処理(第1の復号映像を生成する処理の例)について示している。顔映像復号部202では、顔映像フレーム(フレームF101)を復号する際に、顔領域の部分(点線で囲まれた部分)と、非顔領域(ハッチを付した部分)について、それぞれ対応する復号処理で復号処理を行う。これは、映像圧縮部102で、顔領域の部分と非顔領域の部分とで異なる圧縮処理(符号化処理)がなされているためである。
In FIG. 3D, the face
図3(e)は、顔認識部203で、第1の復号映像を構成するフレームF101(図3(d)の画像)から、顔検出結果データ(顔映像フレーム内における顔領域の位置情報)に基づき、顔認識処理を行う顔領域のみ(図3(d)の顔領域のみ)を抽出した状態を表した図である。
FIG. 3E shows the
次に、符号化部100の動作の例について図4のフローチャートを用いて説明する。
Next, an example of the operation of the
まず、カメラ300で撮像された映像のフレームが符号化部100に供給されたものとする(S101)。
First, it is assumed that a frame of an image captured by the
次に、顔検出部101が、カメラ300から供給されたフレーム(以下、このフレームを「注目フレーム」と呼ぶ)について顔検出処理を行い、顔映像(顔領域)が含まれているか否か(顔が映っているか否か)を判定する(S102)。このとき、顔検出部101は、顔の大きさや向きも考慮し、注目フレームに正面から所定以上の大きさで撮影された顔であるか否かを判定するようにしてもよい。顔検出部101は、注目フレームに顔映像(顔領域)が含まれている場合には後述するステップS103から動作し、そうでない場合には後述するステップS106から動作する。
Next, the
上述のステップS102で、注目フレームに顔映像が含まれている判定された場合、顔検出部101は、当該注目フレームを特定する時刻情報と、当該注目フレーム内の顔領域を特定する位置情報とを含む顔検出結果データを生成する(S103)。
When it is determined in step S102 described above that a face image is included in the target frame, the
次に、映像圧縮部102は、顔検出結果データの位置情報に基づいて、注目フレームの顔領域と非顔領域とで異なる圧縮符号化処理(符号化処理)を行い、注目フレームの圧縮映像データを生成する(S104)。
Next, the
一方、上述のステップS102で、注目フレームに顔映像(顔領域)が含まれていないと判定された場合、映像圧縮部102は、注目フレームについて、特に区別せずに(顔領域も非顔領域も同じ方式で)、全体を圧縮符号化処理(符号化処理)して、注目フレームの圧縮映像データを生成する(S106)。
On the other hand, if it is determined in step S102 described above that the face image (face area) is not included in the attention frame, the
上述のステップS104又はステップS106で注目フレームの圧縮映像データが生成されると、データ出力部103は、当該映像圧縮データを含むデータ(顔検出結果データが生成されていた場合当該顔検出結果データを付加したデータ)を圧縮データD10として出力する(S105)。データ出力部103は、所定の方式により圧縮データD10を蓄積(例えば、データ記録媒体に蓄積)又は伝送(例えば、復号部200に送信)する処理を行う。なお、データ出力部103は、圧縮映像データと、顔検出結果データとを別個のデータ(ファイル)として出力するようにしてもよい。
When the compressed video data of the frame of interest is generated in step S104 or step S106 described above, the
次に、復号部200の動作の例について図5のフローチャートを用いて説明する。
Next, an example of the operation of the
復号部200では、符号化部100で生成された圧縮データD10が供給されると、顔検出結果読み取り部201により当該圧縮データD10の顔検出結果データの時刻情報が読み取られ、顔映像復号部202により圧縮データD10の圧縮映像データにおける顔映像フレームが特定される(S201)。
In the
顔映像復号部202は、復号部200で顔映像フレームと特定されたフレームについてのみ圧縮映像データから復号して第1の復号映像を得る(S202)。
The face
次に、顔認識部203が第1の復号映像の各フレームについて、検索条件情報203aの条件に該当する顔映像が含まれているか否かを確認する顔認識処理を行い、該当する顔映像を含むフレームのみを抽出し、第2の復号映像として取得する(S203)。このとき、顔認識部203は、顔検出結果データで示された位置情報(顔領域を示した位置情報)に基づき、顔映像フレームの顔領域のみを抽出して顔認識を行い、検索条件情報203aの条件と照合する。
Next, the
次に、結果出力部204は、第2の復号映像に基づく出力データD20(又は、第2の復号映像に基づく映像信号)を出力する(S204)。
Next, the
その後、復号部200は、ユーザから顔認識部203に設定する検索条件情報203aの内容変更を受け付け、繰り返しステップS201の処理を実行することが可能である。ユーザは、所望の結果(所望の映像の出力データD20又は映像信号)が得られるまで、繰り返し復号部200に処理を実行させることができる。
Thereafter, the
(A−3)第1の実施形態の効果
第1の実施形態によれば、以下のような効果を奏することができる。
(A-3) Effects of First Embodiment According to the first embodiment, the following effects can be achieved.
第1の実施形態のカメラシステム1では、符号化部100(撮影側)で、カメラ300で撮影した映像(動画像)の顔検出処理を行い、顔検出結果データを生成している。そして、復号部200で顔検出結果データを読み取ることで、顔映像フレーム(顔が写っている映像)のみを復号して顔認識処理を行い、検索条件情報203aに基づいた検索を行うことができる。例えば、復号部200において、撮影・蓄積された圧縮映像データから特定の人物(あるいは所定の属性の人物)が写っているシーンを検索表示する場合、すべてのフレームを復号して顔検出することなく、効率的に顔認識処理を行い検索することが可能となる。すなわち、第1の実施形態のカメラシステム1では、符号化部100で顔検出結果データを生成して、復号部200で読み取ることで、撮影した映像から所定の映像シーンを効率的に検索表示することを可能とする。
In the
(B)第2の実施形態
以下、本発明による動画像処理システム、並びに、符号化装置及びプログラム、並びに、復号装置及びプログラムの第2の実施形態を、図面を参照しながら詳述する。以下では、本発明の映像処理システム、符号化装置、復号装置を、それぞれカメラシステム、符号化部、及び復号部に適用した例について説明する。
(B) Second Embodiment Hereinafter, a moving image processing system, a coding apparatus and a program, and a decoding apparatus and a program according to a second embodiment of the present invention will be described in detail with reference to the drawings. Below, the example which applied the video processing system of this invention, the encoding apparatus, and the decoding apparatus to the camera system, the encoding part, and the decoding part, respectively is demonstrated.
(B−1)第2の実施形態の構成
図6は、第2の実施形態のカメラシステム1Aの全体構成について示した説明図である。
(B-1) Configuration of Second Embodiment FIG. 6 is an explanatory diagram showing the overall configuration of a camera system 1A of the second embodiment.
カメラシステム1Aでは、符号化部100と復号部200が、それぞれ符号化部100A及び復号部200Aに置き換わっている。
In the camera system 1A, the
次に、符号化部100Aの構成について説明する。 Next, the configuration of the encoding unit 100A will be described.
符号化部100Aでは、顔検出部101が顔検出/認識部104に置き換わっている点で第1の実施形態と異なっている。
The encoding unit 100A is different from the first embodiment in that the
顔検出/認識部104は、カメラ300から供給された映像の各フレームについて、顔検出処理を行い、顔映像(顔領域)を含むフレーム(顔映像フレーム)であるか否かを判断する。そして、顔検出/認識部104は、顔映像フレームの顔映像を、保持している認識内容情報104aに従って認識処理する。認識内容情報104aは、顔映像フレームの顔映像について認識(分析)する内容を定義した情報である。例えば、認識内容情報104aとしては、「特性の人物の顔の特徴と照合して一致度を認識すること」や、「性別・年齢を認識(推定)すること」等を示す情報が設定される。認識内容情報104aを定義する具体的な形式については限定されないものであるが、例えば、上述のような検索条件を論理式や、プログラム言語で記述した内容を設定するようにしてもよい。
The face detection /
図7は、認識内容情報104aの構成例について示した説明図である。 FIG. 7 is an explanatory diagram showing a configuration example of the recognition content information 104a.
図7に示すように、認識内容情報104aは、例えば、認識条件種別を表すコードと、付加情報の組み合わせで構成することができる。また、認識内容情報104aにおいて、認識条件種別に対応する付加情報を複数付加するようにしてもよいし、付加情報を付加せずに設定するようにしてもよい。各付加情報は可変長であることを考慮して、データ長を示す「バイト数」と、付加情報自体の組み合わせで構成するものとする。各付加情報の意味は、認識条件種別に対応する条件で規定(定義)されるものとする。 As shown in FIG. 7, the recognition content information 104a can be composed of, for example, a combination of a code representing a recognition condition type and additional information. Further, in the recognition content information 104a, a plurality of additional information corresponding to the recognition condition type may be added, or may be set without adding the additional information. Considering that each additional information has a variable length, it is configured by a combination of “number of bytes” indicating the data length and the additional information itself. The meaning of each additional information is defined (defined) by the condition corresponding to the recognition condition type.
例えば、「特定の人物の顔の特徴と照合して一致度を認識すること」を表す検索条件情報203aは、図7(a)のような内容となる。 For example, the search condition information 203a representing “recognizing the degree of coincidence by collating with the facial features of a specific person” has the contents as shown in FIG.
図7(a)に示す認識内容情報104aでは、認識条件種別として、「付加情報1に設定された顔特徴との一致度を顔認識結果データとして生成すること」を示す「1」が設定され、付加情報1として顔特徴情報(3400バイト)が設定されている。図7(a)に示す認識内容情報104aが設定されている場合、顔認識部203は、認識条件種別「1」の規定に従って、付加情報1に設定された顔特徴情報(3400バイト)と、顔映像フレームから取得した顔領域に映った顔の特徴量との一致度を算出して顔認識結果データとして生成する処理を行うことになる。なお、上述の図2(b)と同様に、認識内容情報104aにおいて、付加情報1の顔特徴情報については、顔特徴情報自体ではなく、照合する顔特徴が格納されたデータベースのインデックス(4バイト)で示すようにしてもよい。
In the recognition content information 104a shown in FIG. 7A, “1” indicating that “a degree of coincidence with the face feature set in the
また、例えば、「性別・年齢を認識(推定)すること」を表す検索条件情報203aは、図7(b)のような内容となる。図7(b)に示す検索条件情報203aでは、認識条件種別として、「性別・年齢の認識(推定)結果を顔認識結果データとして生成すること」を示す「3」が設定され、付加情報は設定されていない。図7(b)に示す認識内容情報104aが設定されている場合、顔認識部203は、認識条件種別「3」の規定に従って、顔映像フレームから取得した顔領域に映った顔の特徴量から、性別及び年齢を認識し、その認識結果を顔認識結果データとして生成する処理を行うことになる。そして、顔検出/認識部104は、顔検出処理の結果として顔映像(顔領域)が検出された顔映像フレームについては、第1の実施形態と同様に顔検出結果データを生成する。
Further, for example, the search condition information 203a indicating “recognizing (estimating) gender / age” has the contents as shown in FIG. In the search condition information 203a shown in FIG. 7B, “3” indicating “Generate gender / age recognition (estimation) result as face recognition result data” is set as the recognition condition type, and the additional information is Not set. When the recognition content information 104a shown in FIG. 7B is set, the
また、顔検出/認識部104は、顔映像フレームについては、認識内容情報104bに基づく認識結果を記述した顔認識結果データを生成する。
The face detection /
例えば、認識内容情報104bが「特性の人物の顔の特徴と照合して一致度を認識すること」という内容だった場合、検索条件情報206aに記述された顔の特徴量と、顔映像フレームから取得した顔映像から取得した特徴量とを比較して、その一致度合の情報(例えば、一致度合示す数値)を顔認識結果データとして生成する。また、例えば、検索条件情報206aが「性別・年齢を認識(推定)すること」だった場合、「女性・20代」等の認識結果(推定結果)を、顔認識結果データとして生成する。顔検出/認識部104において、顔映像に基づく特徴量抽出や、特徴量に基づく認識処理の具体的方式については種々の顔認識方式を適用することができる。
For example, when the recognition content information 104b is “recognizing the degree of coincidence by collating with the characteristics of the face of the characteristic person”, the facial feature amount described in the search condition information 206a and the face video frame are used. The feature amount acquired from the acquired face image is compared, and information on the matching level (for example, a numerical value indicating the matching level) is generated as face recognition result data. For example, if the search condition information 206a is “recognize (estimate) gender / age”, a recognition result (estimation result) such as “female / 20s” is generated as face recognition result data. In the face detection /
映像圧縮部102は、顔検出/認識部104による顔検出結果データ(時刻情報)を利用して、カメラ300から供給されるフレームの圧縮符号化(符号化)を行って、圧縮映像データを生成する。また、映像圧縮部102は、第1の実施形態と同様に、顔映像フレームについて圧縮符号化(符号化)を行う際に、顔領域と非顔領域で異なる符号化処理を行うようにしてもよい。
The
データ出力部103は、映像圧縮部102で生成された圧縮映像データと、顔検出/認識部104で生成された顔検出結果データと、顔認識結果データとを含むデータに基づく所定の形式の圧縮データD11を出力する。データ出力部103が圧縮データD11を出力する方式や手段は第1の実施形態と同様であるため詳しい説明は省略する。
The
次に、復号部200Aの構成について説明する。 Next, the configuration of the decoding unit 200A will be described.
第2の実施形態の復号部200Aでは、顔検出結果読み取り部201が顔検出/認識データ読み取り部205に置き換わっている。また、第2の実施形態の復号部200Aでは、顔映像復号部202が対象映像復号部206に置き換わっている。さらに、第2の実施形態の復号部200Aでは、顔認識部203が除外されている。
In the decoding unit 200A of the second embodiment, the face detection
顔検出/認識データ読み取り部205は、供給された圧縮データD11から、圧縮映像データ、顔検出結果データ、及び顔認識結果データを読み込む。
The face detection / recognition
対象映像復号部206は、顔検出結果データに含まれる顔映像フレームの時刻情報、及び顔認識結果データに基づいて、保持している検索条件情報206aに該当する顔映像を含む顔映像フレーム(以下、「対象フレーム」と呼ぶ)を検索(特定)する。そして、対象映像復号部206は、圧縮映像データから、対象フレームのみを復号した映像(以下、「第3の復号映像」と呼ぶ)を生成する。
The target
検索条件情報206aには、認識内容情報104bに基づく顔認識結果データと対応する情報(比較可能な情報)が記述される。 The search condition information 206a describes information (comparable information) corresponding to face recognition result data based on the recognition content information 104b.
例えば、認識内容情報104bが「特性の人物の顔の特徴と照合して一致度を認識すること」だった場合、顔認識結果データにはその一致度の数値が入力されるため、検索条件情報206aには一致度に対応する閾値を設定することができる。この場合、対象映像復号部206は、顔認識結果データに入力された一致度が閾値(認識内容情報104bとして設定された閾値)以上の顔映像フレームを対象フレームとして検出する。
For example, when the recognition content information 104b is “recognizing the matching degree by collating with the characteristics of the face of the characteristic person”, the numerical value of the matching degree is input to the face recognition result data. A threshold corresponding to the degree of coincidence can be set in 206a. In this case, the target
また、例えば、認識内容情報104bが「性別・年齢を認識(推定)すること」だった場合、顔認識結果データには認識した性別・年齢が入力されるため、検索条件情報206aには「女性・20代」等の具体的な性別・年齢(年齢の範囲)を設定することができる。この場合、対象映像復号部206は、顔認識結果データに入力された年齢・性別が認識内容情報104bに設定された「女性・20代」に該当する顔映像フレームを対象フレームとして検出する。
Further, for example, when the recognition content information 104b is “recognize (estimate) gender / age”, the recognized gender / age is input to the face recognition result data, so the search condition information 206a includes “female・ Specific gender and age (age range) such as “20s” can be set. In this case, the target
図8は、検索条件情報206aの構成例について示した説明図である。 FIG. 8 is an explanatory diagram showing a configuration example of the search condition information 206a.
図8に示すように、検索条件情報206aは、例えば、検索条件種別を表すコードと、付加情報の組み合わせで構成することができる。また、検索条件情報206aにおいて、検索条件種別に対応する付加情報を複数付加するようにしてもよい。各付加情報は可変長であることを考慮して、データ長を示す「バイト数」と、付加情報自体の組み合わせで構成するものとする。各付加情報の意味は、検索条件種別に対応する条件で規定(定義)されるものとする。 As shown in FIG. 8, the search condition information 206a can be composed of, for example, a combination of a code representing the search condition type and additional information. Further, in the search condition information 206a, a plurality of additional information corresponding to the search condition type may be added. Considering that each additional information has a variable length, it is configured by a combination of “number of bytes” indicating the data length and the additional information itself. The meaning of each additional information is defined (defined) by the condition corresponding to the search condition type.
例えば、「特定の人物の顔の特徴と照合して一致度が閾値以上であること」を表す検索条件情報203aは、図8(a)のような内容となる。 For example, the search condition information 203a indicating that “the matching degree is equal to or higher than a threshold value by collating with the facial features of a specific person” has the content as shown in FIG.
図8(a)に示す検索条件情報206aでは、検索条件種別として、「認識結果データにおける顔特徴との一致度が付加情報1に設定された閾値以上であること」を示す「1」が設定され、付加情報1として一致度閾値(4バイト)が設定されている。図8(a)に示す検索条件情報206aが設定されている場合、対象映像復号部206は、は、検索条件種別「1」の規定に従って、取得した顔認識結果データの一致度が付加情報1に設定された一致度閾値を超えるか否かを判定する処理を行うことになる。
In the search condition information 206a shown in FIG. 8A, “1” indicating that “the degree of coincidence with the facial feature in the recognition result data is equal to or greater than the threshold set in the
また、例えば、「女性でかつ20代(20才〜29才)であること」を表す検索条件情報203aは、図8(b)のような内容となる。図8(b)に示す検索条件情報203aでは、検索条件種別として、「認識結果データにおける年齢及び性別が、付加情報1〜3に設定された指定条件に合致すること」を示す「3」が設定され、付加情報1として性別(4バイト)が設定され、付加情報2として年齢範囲下限値(4バイト)が設定され、付加情報3として年齢上限値(4バイト)が設定されている。図8(b)に示す検索条件情報206aが設定されている場合、対象映像復号部206は、検索条件種別「3」の規定に従って、顔認識結果データから性別、及び、年齢範囲が付加情報1〜3(女性・20代)に合致するか否かを判断する処理を行うことになる。
Further, for example, the search condition information 203a indicating “being a woman and being in his twenties (20 to 29 years old)” has the contents as shown in FIG. In the search condition information 203a shown in FIG. 8B, “3” indicating that the age and sex in the recognition result data match the specified conditions set in the
データ出力部103は、対象映像復号部206が生成した第3の復号映像に基づく出力データD21、又は第3の復号映像の映像信号を出力する。
The
以上のように、第2の実施形態では、符号化部100A(撮影側)の顔検出/認識部104で、認識内容情報104aに基づく顔認識処理(分析処理)を行い、顔検出結果データを生成している。そして、復号部200A(検索側)の顔検出/認識データ読み取り部205で、顔検出結果データを読み取り、対象映像復号部206で検索条件情報206aに該当する対象フレームだけを復号している。
As described above, in the second embodiment, the face detection /
符号化部100A(顔検出/認識部104)及び復号部200A(対象映像復号部206)において、設定する情報(認識内容情報104b/検索条件情報206a)は、ユーザの操作等により任意の情報を設定することが可能である。顔検出/認識部104及び対象映像復号部206において、設定する情報の入力をユーザから受け付ける方式は限定されないものである。顔検出/認識部104及び対象映像復号部206では、例えば、テキストファイル等の所定の形式のファイル受信により情報の入力を受け付けるようにしてもよいし、GUI等の操作画面(例えば、Web画面)を用いて入力を受け付けるようにしてもよい。
In the encoding unit 100A (face detection / recognition unit 104) and decoding unit 200A (target video decoding unit 206), the information to be set (recognition content information 104b / search condition information 206a) is arbitrary information by a user operation or the like. It is possible to set. In the face detection /
(B−2)第2の実施形態の動作
次に、本発明の第2の実施例におけるカメラシステム1Aの動作について説明する。
(B-2) Operation of the Second Embodiment Next, the operation of the camera system 1A in the second example of the present invention will be described.
まず、第2の実施形態のカメラシステム1Aにおける画像処理の流れについて説明する。 First, the flow of image processing in the camera system 1A of the second embodiment will be described.
図9は、カメラシステム1における画像処理の遷移について示した説明図である。
FIG. 9 is an explanatory diagram showing transition of image processing in the
図9(a)は、カメラ300で撮影した映像のフレームの例について示している。図9(a)には人物の顔が映ったフレームF201が図示されている。
FIG. 9A shows an example of a frame of a video shot by the
図9(b)は、フレームF201について顔検出/認識部104で行った顔検出結果の例を示す図である。図9(b)では、フレームF201において顔を検出した顔領域を点線で囲って図示している。また、図9(b)では、顔検出/認識部104で行った認識結果(認識内容情報104aに基づく認識結果)として、性別・年齢の推定結果(図9(b)では「女性・20代」)も図示している。
FIG. 9B is a diagram illustrating an example of a face detection result performed by the face detection /
図9(c)は、フレームF201について映像圧縮部102で圧縮符号化処理(符号化処理)した処理結果(圧縮映像データ)の例について示している。図9(c)では、顔領域の部分を点線で囲み、顔領域以外の部分にハッチ(斜線)を付して図示している。映像圧縮部102では、第1の実施形態と同様に、フレームF201を映像圧縮(符号化)する際に、顔領域の部分(点線で囲まれた部分)について顔領域以外の領域(ハッチを付した部分)と異なる圧縮符号化処理(符号化処理)を行う。
FIG. 9C illustrates an example of a processing result (compressed video data) obtained by compressing and encoding (encoding processing) the frame F201 by the
図9(d)は、顔映像復号部202で、顔認識結果データに基づいて、圧縮映像データから検索対象となる顔映像を含むフレームF201(検索条件情報206aに該当するフレームF201)を特定し、圧縮映像データからフレームF201を復号する処理を行う処理(第3の復号映像を生成する処理)について示している。顔映像復号部202では、第1の実施形態と同様に、顔の映像を含むフレームF201を復号する際に、顔領域の部分(点線で囲まれた部分)と、顔領域以外の領域(ハッチを付した部分)について、それぞれ対応する復号処理を行う。
In FIG. 9D, the face
次に、符号化部100Aの動作の例について図10のフローチャートを用いて説明する。 Next, an example of the operation of the encoding unit 100A will be described using the flowchart of FIG.
まず、カメラ300で撮像された映像のフレームが符号化部100Aに供給されたものとする(S301)。
First, it is assumed that a frame of a video captured by the
次に、顔検出/認識部104が、カメラ300から供給されたフレーム(注目フレーム)について顔検出処理を行い、顔映像(顔領域)が含まれているか否かを判定する(S302)。このとき、顔検出/認識部104は、顔の大きさや向きも考慮し、注目フレームに正面から所定以上の大きさで撮影された顔の有無を判定するようにしてもよい。顔検出/認識部104は、注目フレームに顔映像(顔領域)が含まれている場合には後述するステップS303から動作し、そうでない場合には後述するステップS306から動作する。
Next, the face detection /
上述のステップS302で、注目フレームに顔映像が含まれている判定された場合、顔検出/認識部104は、当該注目フレームで検出された顔映像を認識内容情報104aに従って認識し、その認識結果を顔認識結果データとして取得する。そして、顔検出/認識部104は、当該注目フレームを特定する時刻情報と、当該注目フレーム内の顔領域を特定する位置情報を含む顔検出結果データを生成して取得する(S303)。
When it is determined in step S302 described above that the face image is included in the attention frame, the face detection /
次に、映像圧縮部102は、第1の実施形態と同様に顔検出結果データの位置情報に基づいて、注目フレームの顔領域と非顔領域とで異なる圧縮符号化処理(符号化処理)を行い、注目フレームの圧縮映像データを生成する(S304)。
Next, the
一方、上述のステップS302で、注目フレームに顔が映っていないと判定された場合、映像圧縮部102は、注目フレームについて、特に区別せずに、全体を圧縮符号化処理(符号化処理)して、注目フレームの圧縮映像データを生成する(S306)。
On the other hand, when it is determined in step S302 described above that the face is not shown in the frame of interest, the
上述のステップS304又はステップS306で注目フレームの圧縮映像データが生成されると、データ出力部103は、当該映像圧縮データを含むデータを、注目フレームの圧縮データD11として出力する(S305)。なお、上述のステップS303で顔検出結果データ及び顔認識結果データが生成されていた場合、データ出力部103は、注目フレームの圧縮データに当該顔検出結果データ及び顔認識結果データも付加する。なお、第2の実施形態において、データ出力部103によるデータ出力の方式や手段は第1の実施形態と同様であるため詳しい説明を省略する。
When the compressed video data of the frame of interest is generated in the above-described step S304 or step S306, the
次に、復号部200Aの動作の例について図11のフローチャートを用いて説明する。 Next, an example of the operation of the decoding unit 200A will be described using the flowchart of FIG.
復号部200Aでは、符号化部100Aで生成された圧縮データD11が供給されると、顔検出/認識データ読み取り部205により、当該圧縮データの顔検出結果データ、及び顔検出結果データが読み取られる(S401)。
In the decoding unit 200A, when the compressed data D11 generated by the encoding unit 100A is supplied, the face detection / recognition
そして、対象映像復号部206は、顔検出結果データ及び顔認識結果データに基づいて、検索条件情報206aに該当する対象フレームを特定し、特定された対処フレームについてのみ圧縮映像データから復号して第3の復号映像を得る(S402)。
Then, the target
次に、結果出力部204は、第3の復号映像に基づく出力データD21(又は、第3の復号映像に基づく映像信号)を出力する(S403)。
Next, the
その後、復号部200Aは、ユーザから対象映像復号部206に設定する検索条件情報206aの内容変更を受け付け、繰り返しステップS401〜S403の処理を実行することが可能である。ユーザは、所望の結果(所望の映像)が得られるまで、繰り返し検索条件情報206aを変更して復号部200Aに処理を実行させることができる。
Thereafter, the decoding unit 200A can receive a change in the content of the search condition information 206a set in the target
(B−3)第2の実施形態の効果
第2の実施形態によれば、第1の実施形態と比較して以下のような効果を奏することができる。
(B-3) Effects of Second Embodiment According to the second embodiment, the following effects can be achieved as compared with the first embodiment.
第2の実施形態では、映像圧縮部102で、認識内容情報104bに従った顔認識処理を行って顔認識結果データを生成し、復号部200Aで復号時に読み取らせている。これにより、復号部200Aでは、検索条件情報206aと顔映像フレームごとの顔認識結果データとを比較するだけで、検索対象の顔(検索条件情報206aに該当する顔)が映っている対象フレームを特定し、対象フレームだけを復号して出力することができる。例えば、復号部200Aにおいて、撮影・蓄積された圧縮映像データから特定の人物(あるいは所定の属性の人物)が写っているシーンを検索表示する場合、すべての映像を復号して顔検出処理や顔認識処理を行うことなく、効率的に検索表示することが可能となる。
In the second embodiment, the
言い換えると、第2の実施形態では、符号化部100A(撮影側)で顔検出を行う際に顔認識処理まで行っているため、復号部200A(検索側)で顔認識処理を行うことなく必要な映像を効率的に検索することができる。 In other words, in the second embodiment, since face recognition processing is performed when face detection is performed by the encoding unit 100A (shooting side), it is necessary without performing face recognition processing by the decoding unit 200A (search side). Efficient video search.
(C)他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。
(C) Other Embodiments The present invention is not limited to the above-described embodiments, and may include modified embodiments as exemplified below.
(C−1)上記の各実施形態のカメラシステム1、1Aでは、顔検出処理を用いて、顔が写っているフレーム(顔映像フレーム)から特定の人物や所定の属性の人物が写っているフレームを検索表示する場合について説明したが、単に顔が映っているだけでなく、例えば正面から撮影された顔だけが写っている映像(正面顔映像)や、サングラスやマスクなど顔以外の物体が無い顔や、表情が真顔である顔だけを顔映像として検出することで、その後に行う顔認識処理がより正確に行われ、検索表示をさらに効率的に行うことができるようになる。例えば、第1の実施形態の顔検出部101や、第2の実施形態の顔検出/認識部104で行われる顔検出処理において、上述のように、正面から撮影された顔だけが写っている映像(正面顔映像)や、サングラスやマスクなど顔以外の物体が無い顔や、表情が真顔である顔が含まれるフレームだけを検出するようにしてもよい。
(C-1) In the
(C−2)上記の各実施形態では、圧縮データD10、D11の顔検出結果データに顔映像フレームを特定するための時刻情報が含まれているが、圧縮データD10、D11において、フレーム単位に顔検出結果データが紐づいたデータ形式とすることをもって、時刻情報を付加(顔検出結果データの一部を付加)するようにしてもよい。フレーム単位に顔検出結果データが紐づいたデータ形式となっていれば、復号部200、200A側で顔映像フレームを特定することができる。
(C-2) In each of the above embodiments, time information for specifying a face video frame is included in the face detection result data of the compressed data D10 and D11. Time information may be added (part of the face detection result data is added) by using a data format in which face detection result data is linked. If the face detection result data is in a data format linked to each frame, the face video frame can be specified on the
(C−3)第2の実施形態において、符号化部100Aが出力する圧縮データD11において、顔検出結果データに顔領域の位置情報が含まれている旨を説明したが、第2の実施形態の復号部200Aでは、顔認識処理を行わないため圧縮データD11の顔検出結果データからは顔領域の位置情報を除外するようにしてもよい。 (C-3) In the second embodiment, it has been described that the face detection result data includes the position information of the face area in the compressed data D11 output from the encoding unit 100A. The second embodiment In the decoding unit 200A, since face recognition processing is not performed, the position information of the face area may be excluded from the face detection result data of the compressed data D11.
1…カメラシステム、100…符号化部、101…顔検出部、102…映像圧縮部、103…データ出力部、200…復号部、201…顔検出結果読み取り部、202…顔映像復号部、203…顔認識部、203a…検索条件情報、204…結果出力部、300…カメラ。
DESCRIPTION OF
Claims (10)
前記符号化部は、
動画像の各フレームについて人物の顔を含む顔領域を検出し、その検出結果を示す顔検出結果データを生成する顔領域処理手段と、
前記動画像を符号化して動画像符号化データを生成する符号化処理手段と、
前記顔検出結果データと、前記動画像符号化データとを含むデータを出力する符号化側出力手段とを有し、
前記復号部は、
前記符号化部が出力したデータを取得するデータ取得手段と、
少なくとも前記顔検出結果データを利用して、前記動画像符号化データから、一部のフレームを抽出して復号し、復号動画像を取得する復号処理手段とを有する
ことを特徴とする動画像処理システム。 In a moving image processing system including an encoding unit and a decoding unit,
The encoding unit includes:
Face area processing means for detecting a face area including a human face for each frame of a moving image and generating face detection result data indicating the detection result;
Encoding processing means for encoding the moving image to generate moving image encoded data;
Encoding side output means for outputting data including the face detection result data and the moving image encoded data;
The decoding unit
Data acquisition means for acquiring data output by the encoding unit;
A moving image processing comprising: decoding processing means for extracting and decoding a part of the frame from the moving image encoded data using at least the face detection result data and obtaining a decoded moving image system.
前記顔検出結果データには、顔領域を含むフレーム内の顔領域の位置情報が含まれており、
前記復号処理手段は、前記顔検出結果データの位置情報を利用して顔領域を含むフレームの顔領域を抽出して認識処理を行う
ことを特徴とする請求項4に記載の動画像処理システム。 When the face area processing unit detects a frame including a face area in each frame of the moving image, the face area processing unit acquires position information of the face area in the frame,
The face detection result data includes position information of the face area in the frame including the face area,
The moving image processing system according to claim 4, wherein the decoding processing unit extracts a face area of a frame including the face area by using position information of the face detection result data, and performs a recognition process.
前記符号化側出力手段が出力するデータには、さらに前記顔認識結果データも含まれており、
前記復号処理手段は、前記顔検出結果データ及び前記顔認識結果データに基づき、設定された検索条件に該当する顔領域を含むフレームを抽出し、抽出したフレームのみを復号して前記復号動画像を生成する
ことを特徴とする請求項1又は2に記載の動画像処理システム。 The face area processing means performs a content recognition process according to the set recognition content for the face area of the frame in which the face area is detected, and generates face recognition result data indicating the recognition process result,
The data output by the encoding side output means further includes the face recognition result data,
The decoding processing means extracts a frame including a face area corresponding to a set search condition based on the face detection result data and the face recognition result data, decodes only the extracted frame, and extracts the decoded moving image. The moving image processing system according to claim 1, wherein the moving image processing system is generated.
前記動画像を符号化して動画像符号化データを生成する符号化処理手段と、
前記顔検出結果データと、前記動画像符号化データとを含むデータを出力する符号化側出力手段と
を有することを特徴とする符号化装置。 Face area processing means for detecting a face area including a human face for each frame of a moving image and generating face detection result data indicating the detection result;
Encoding processing means for encoding the moving image to generate moving image encoded data;
An encoding apparatus comprising: encoding side output means for outputting data including the face detection result data and the moving image encoded data.
動画像の各フレームについて人物の顔を含む顔領域を検出し、その検出結果を示す顔検出結果データを生成する顔領域処理手段と、
前記動画像を符号化して動画像符号化データを生成する符号化処理手段と、
前記顔検出結果データと、前記動画像符号化データとを含むデータを出力する符号化側出力手段と
して機能させることを特徴とする符号化プログラム。 Computer
Face area processing means for detecting a face area including a human face for each frame of a moving image and generating face detection result data indicating the detection result;
Encoding processing means for encoding the moving image to generate moving image encoded data;
An encoding program that functions as an encoding-side output unit that outputs data including the face detection result data and the moving image encoded data.
少なくとも前記顔検出結果データを利用して、前記動画像符号化データから、一部のフレームを抽出して復号し、復号動画像を取得する復号処理手段と
を有することを特徴とする復号装置。 Data acquisition means for acquiring data including moving image encoded data obtained by encoding a moving image and face detection result data indicating a detection result obtained by detecting a face area including a human face in the moving image;
A decoding apparatus comprising: decoding processing means for extracting and decoding a part of frames from the moving image encoded data using at least the face detection result data and obtaining a decoded moving image.
動画像を符号化した動画像符号化データと、前記動画像で人物の顔を含む顔領域を検出した検出結果を示す顔検出結果データとを含むデータを取得するデータ取得手段と、
少なくとも前記顔検出結果データを利用して、前記動画像符号化データから、一部のフレームを抽出して復号し、復号動画像を取得する復号処理手段と
して機能させることを特徴とする復号プログラム。 Computer
Data acquisition means for acquiring data including moving image encoded data obtained by encoding a moving image and face detection result data indicating a detection result obtained by detecting a face area including a human face in the moving image;
Decoding characterized in that at least the face detection result data is used to extract and decode a part of the frames from the moving image encoded data and to function as decoding processing means for obtaining a decoded moving image program.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017031341A JP2018137639A (en) | 2017-02-22 | 2017-02-22 | Moving image processing system, encoder and program, decoder and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017031341A JP2018137639A (en) | 2017-02-22 | 2017-02-22 | Moving image processing system, encoder and program, decoder and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2018137639A true JP2018137639A (en) | 2018-08-30 |
Family
ID=63367120
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017031341A Pending JP2018137639A (en) | 2017-02-22 | 2017-02-22 | Moving image processing system, encoder and program, decoder and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2018137639A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112883783A (en) * | 2021-01-12 | 2021-06-01 | 普联国际有限公司 | Video concentration method and device, terminal equipment and storage medium |
WO2022070572A1 (en) * | 2020-10-02 | 2022-04-07 | 住友電気工業株式会社 | Image compression device, image compression method, computer program, image compression system, and image processing system |
-
2017
- 2017-02-22 JP JP2017031341A patent/JP2018137639A/en active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022070572A1 (en) * | 2020-10-02 | 2022-04-07 | 住友電気工業株式会社 | Image compression device, image compression method, computer program, image compression system, and image processing system |
CN112883783A (en) * | 2021-01-12 | 2021-06-01 | 普联国际有限公司 | Video concentration method and device, terminal equipment and storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7317919B2 (en) | Appearance search system and method | |
CN109858371B (en) | Face recognition method and device | |
CN107545241B (en) | Neural network model training and living body detection method, device and storage medium | |
CN110675433A (en) | Video processing method and device, electronic equipment and storage medium | |
WO2021008032A1 (en) | Surveillance video processing method and apparatus, computer device and storage medium | |
CN110853033B (en) | Video detection method and device based on inter-frame similarity | |
JP5361524B2 (en) | Pattern recognition system and pattern recognition method | |
CN109063611B (en) | Face recognition result processing method and device based on video semantics | |
KR102087882B1 (en) | Device and method for media stream recognition based on visual image matching | |
EP3239896B1 (en) | Data structure for describing an image sequence, and methods for extracting and matching these data structures | |
US11176679B2 (en) | Person segmentations for background replacements | |
CN111914775B (en) | Living body detection method, living body detection device, electronic equipment and storage medium | |
CN105095853B (en) | Image processing apparatus and image processing method | |
WO2014065033A1 (en) | Similar image retrieval device | |
CN111881740A (en) | Face recognition method, face recognition device, electronic equipment and medium | |
CN113689527B (en) | Training method of face conversion model and face image conversion method | |
US9286707B1 (en) | Removing transient objects to synthesize an unobstructed image | |
JP2018137639A (en) | Moving image processing system, encoder and program, decoder and program | |
CN113837006A (en) | Face recognition method and device, storage medium and electronic equipment | |
US11087121B2 (en) | High accuracy and volume facial recognition on mobile platforms | |
CN112069331A (en) | Data processing method, data retrieval method, data processing device, data retrieval device, data processing equipment and storage medium | |
CN113128277A (en) | Generation method of face key point detection model and related equipment | |
CN112287723A (en) | In-vivo detection method and device based on deep learning and storage medium | |
JP2019185349A (en) | Search device, search method, and program | |
US20230377188A1 (en) | Group specification apparatus, group specification method, and computer-readable recording medium |