JP2010161740A - Image coding device and image coding method - Google Patents

Image coding device and image coding method Download PDF

Info

Publication number
JP2010161740A
JP2010161740A JP2009003971A JP2009003971A JP2010161740A JP 2010161740 A JP2010161740 A JP 2010161740A JP 2009003971 A JP2009003971 A JP 2009003971A JP 2009003971 A JP2009003971 A JP 2009003971A JP 2010161740 A JP2010161740 A JP 2010161740A
Authority
JP
Japan
Prior art keywords
face
encoding
frame
facial expression
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009003971A
Other languages
Japanese (ja)
Other versions
JP2010161740A5 (en
JP5100667B2 (en
Inventor
Satoru Kobayashi
悟 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2009003971A priority Critical patent/JP5100667B2/en
Publication of JP2010161740A publication Critical patent/JP2010161740A/en
Publication of JP2010161740A5 publication Critical patent/JP2010161740A5/ja
Application granted granted Critical
Publication of JP5100667B2 publication Critical patent/JP5100667B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To perform speedy playback and easy editing by creating a scene with an expression such as a smiling face or a tear-stained face as a reference frame while suppressing reduction in the efficiency of coding. <P>SOLUTION: An image coding device includes: a face information creating means for creating face information for identifying a face by analyzing an input image signal consisting of a plurality of frames; a coding means for performing compression coding on the input image signal utilizing an inter-frame prediction scheme; a prohibition decision means for determining whether to prohibit reference jumping over frames when performing inter-frame prediction in the coding means on the basis of the face information created by the face information creating means; and a setting means for setting a reference frame to prohibit the jumping reference when the prohibition decision means determines that the face information meets a prohibition condition to prohibit the reference jumping over frames. Coding is performed in accordance with a random access enabled picture type (IDR picture). <P>COPYRIGHT: (C)2010,JPO&INPIT

Description

本発明は画像符号化装置及び画像符号化方法に関し、特に、フレーム間予測を行って画像を圧縮符号化するために用いて好適な技術に関する。   The present invention relates to an image encoding device and an image encoding method, and more particularly to a technique suitable for use in compression encoding an image by performing inter-frame prediction.

画像を高能率符号化するための技術として、JPEG方式の圧縮技術や動き予測・動き補償技術を用いたMPEG1、2といった符号化方式が確立されている。各メーカーは、これらの符号化方式を利用して画像を記録媒体に記録可能としたディジタルカメラやディジタルビデオカメラといった撮像装置、或いはDVDレコーダーなどの記録装置を開発し製品化している。   As techniques for high-efficiency encoding of images, encoding systems such as MPEG1 and MPEG2 using JPEG compression techniques and motion prediction / compensation techniques have been established. Each manufacturer has developed and commercialized an imaging device such as a digital camera or a digital video camera, or a recording device such as a DVD recorder, which can record an image on a recording medium using these encoding methods.

一方、ユーザは、これらの撮像装置や記録装置、或いはパーソナルコンピュータやDVDプレーヤーなどを用いて画像を簡単に視聴することが可能となっている。   On the other hand, the user can easily view images using these imaging devices, recording devices, personal computers, DVD players, and the like.

ところで、ディジタル化された動画像は膨大なデータ量となる。そこで、MPEG1,2などよりも更なる高圧縮が望める動画像の符号化方式が研究され続けてきている。近年、ITU−T(国際電気通信連合 電気通信標準化部門)とISO(国際標準化機構)により、H.264/MPEG−4 part10という符号化方式(以下、「H.264」と称す。)が標準化された。   By the way, the digitized moving image has a huge amount of data. Therefore, research has been continued on a moving picture encoding method that can achieve higher compression than MPEG 1 and 2 and the like. In recent years, ITU-T (International Telecommunication Union Telecommunication Standardization Sector) and ISO (International Organization for Standardization) An encoding method called H.264 / MPEG-4 part 10 (hereinafter referred to as “H.264”) has been standardized.

ここで、H.264におけるピクチャタイプ及びフレーム間予測に用いる参照画像の選択について、図12及び図13を参照して説明する。なお、図12(a)〜(c)及び図13(a)〜(b)は、入力画像シーケンス及びそのピクチャタイプを表しており、上段が表示順序(左から順に表示)、下段が符号化順序(左から順に符号化)で示している。   Here, H. Selection of a reference image used for picture type and inter-frame prediction in H.264 will be described with reference to FIGS. 12 (a) to 12 (c) and 13 (a) to 13 (b) show the input image sequence and its picture type. The upper row is the display order (displayed in order from the left), and the lower row is encoded. It is shown in order (encoded in order from the left).

例えば、図12(a)において、P8ピクチャは9番目に表示されるPピクチャのフレームであることを示している。また、図12中の矢印は参照関係を示しており、例えば、図12(a)に示した例では、P8ピクチャがB0ピクチャを参照していることを示す。また、図12(b)に示した例では、B0ピクチャがP2ピクチャとB7ピクチャとを参照していることを示す。   For example, in FIG. 12A, the P8 picture is the ninth P picture frame displayed. Also, the arrows in FIG. 12 indicate the reference relationship. For example, in the example illustrated in FIG. 12A, the P8 picture refers to the B0 picture. In the example shown in FIG. 12B, the B0 picture refers to the P2 picture and the B7 picture.

H.264における画像フレームのピクチャタイプは3種類である。すなわち、同一フレーム内の情報のみから符号化するIピクチャと、時間的に前のフレームとの差分を利用して符号化するPピクチャと、さらに時間的に前のフレームとの差分に加えて時間的に後のフレームとの差分も利用できるBピクチャがある。   H. There are three picture types of image frames in H.264. That is, in addition to the difference between the I picture that is encoded only from the information in the same frame, the P picture that is encoded using the difference between the temporally previous frame, and the temporally previous frame, the time In particular, there is a B picture that can use a difference from a later frame.

H.264においては、フレーム間予測を行う際に、画像シーケンス中の任意のフレーム及びピクチャタイプを参照画像として利用することが可能である。例えば、図12(a)に示したようにPピクチャ(P8)は、Iピクチャだけでなく、Iピクチャを飛び越してのフレームの参照が可能となる。同様に、図12(b)に示したように、Bピクチャ(B0)もIピクチャだけでなく、Iピクチャを飛び越してのフレームの参照が可能となる。   H. In H.264, when performing inter-frame prediction, any frame and picture type in an image sequence can be used as a reference image. For example, as shown in FIG. 12A, the P picture (P8) can refer to not only the I picture but also the frame by skipping the I picture. Similarly, as shown in FIG. 12B, the B picture (B0) can be referred to not only the I picture but also the I picture.

このように、H.264では柔軟な参照を許容している。これにより、MPEG2のようにPピクチャであれば当該Pピクチャの直前のIピクチャもしくはPピクチャしか参照できないような方式と比較して、H.264は、フレーム間予測精度が向上し、符号化効率を向上させることができる。   In this way, H.C. H.264 allows flexible references. As a result, as compared with a method in which only the I picture or the P picture immediately before the P picture can be referred to in the case of a P picture like MPEG2, the H. H.264 improves inter-frame prediction accuracy and improves coding efficiency.

一方、前述したような柔軟な参照を許容したために、H.264においてはランダムアクセスが迅速に行えなくなる場合がある。その一例として、図12(c)において、ランダムアクセスにより画像シーケンスの途中のフレームであるI5ピクチャより再生する場合について説明する。   On the other hand, since the flexible reference as described above is allowed, In H.264, random access may not be performed quickly. As an example, a case where playback is performed from an I5 picture that is a frame in the middle of an image sequence by random access in FIG.

画像シーケンス中のI5ピクチャから再生を開始して、P8ピクチャを復号する場合には、P8ピクチャがB0ピクチャを参照しているので、このB0ピクチャを前以って復号しておく必要がある。さらに、B0ピクチャはP2ピクチャとB7ピクチャとを参照しているので、B0ピクチャを復号するには、これらP2ピクチャ及びB7ピクチャを前以って復号しておく必要がある。   When decoding is started from the I5 picture in the image sequence and the P8 picture is decoded, since the P8 picture refers to the B0 picture, it is necessary to decode the B0 picture in advance. Furthermore, since the B0 picture refers to the P2 picture and the B7 picture, it is necessary to decode the P2 picture and the B7 picture in advance in order to decode the B0 picture.

同様に、図示していないが、P2ピクチャ及びB7ピクチャもそれぞれ他のピクチャを参照しているので、P2ピクチャ及びB7ピクチャを復号するには、他のピクチャを前以って復号しておく必要がある。このように、I5ピクチャから再生を開始したい場合であっても、I5ピクチャを飛び越しての参照を許容しているために、I5ピクチャ以前のデータに遡って復号を開始する必要が生じ、I5ピクチャから迅速に再生を開始することが困難になる。   Similarly, although not shown, since the P2 picture and the B7 picture also refer to other pictures, respectively, in order to decode the P2 picture and the B7 picture, it is necessary to decode the other pictures in advance. There is. As described above, even when it is desired to start reproduction from the I5 picture, since the reference is allowed to skip the I5 picture, it is necessary to start decoding retroactively to the data before the I5 picture. It becomes difficult to start playback quickly.

そこで、この問題を解消し迅速なランダムアクセスを実現可能とするために、定期的にIピクチャに制限を設ける方法が提案されている(特許文献1参照)。この制限付きのIピクチャは、H.264ではIDRピクチャと呼ばれている。   Therefore, in order to solve this problem and realize quick random access, a method of periodically limiting I pictures has been proposed (see Patent Document 1). This restricted I picture is H.264. In H.264, this is called an IDR picture.

ここで、図13(a)及び(b)を参照して、IDRピクチャについて説明する。
図13(a)及び(b)に示した画像シーケンスは、図12(a)及び(b)と同様の画像シーケンスに対して、I5ピクチャをIDRピクチャに設定した画像シーケンスである。
Here, the IDR picture will be described with reference to FIGS. 13 (a) and 13 (b).
The image sequence shown in FIGS. 13A and 13B is an image sequence in which the I5 picture is set as the IDR picture with respect to the image sequence similar to FIGS. 12A and 12B.

I5ピクチャをIDRピクチャに設定すると、該ピクチャを符号化するときに参照画像を記録しているフレームメモリがクリアされる。したがって、IDRピクチャ以降に符号化されるピクチャが、そのIDRピクチャ以前に符号化されたピクチャを参照することができない。同様に、IDRピクチャ以前に符号化されたピクチャが、そのIDRピクチャ以降に符号化されるピクチャを参照することができない。   When the I5 picture is set as the IDR picture, the frame memory in which the reference image is recorded is cleared when the picture is encoded. Therefore, pictures encoded after the IDR picture cannot refer to pictures encoded before the IDR picture. Similarly, a picture encoded before an IDR picture cannot refer to a picture encoded after the IDR picture.

図13(a)に示した例では、IDR(IDR5)ピクチャ以降に符号化されるPピクチャ(P8など)やBピクチャ(B6など)は、そのIDRピクチャ以前に符号化されたPピクチャ(P2など)やBピクチャ(B0など)を参照することができない。   In the example shown in FIG. 13A, a P picture (such as P8) or a B picture (such as B6) encoded after an IDR (IDR5) picture is a P picture (P2) encoded before the IDR picture. Etc.) and B picture (B0 etc.) cannot be referred to.

逆に、図13(b)に示した例では、IDR(IDR5)ピクチャ以前に符号化されるPピクチャ(P2など)やBピクチャ(B0など)は、そのIDRピクチャ以降に符号化されたPピクチャ(P8など)やBピクチャ(B6など)を参照することができない。   Conversely, in the example shown in FIG. 13B, a P picture (such as P2) or a B picture (such as B0) encoded before an IDR (IDR5) picture is a P picture encoded after the IDR picture. A picture (such as P8) or a B picture (such as B6) cannot be referenced.

これにより、IDRピクチャから再生を開始すれば、IDRピクチャ以前の画像データまで遡って復号する必要がないので、迅速なランダムアクセスを実現して再生することができる。   As a result, if playback is started from the IDR picture, it is not necessary to decode back to the image data before the IDR picture, so that it is possible to realize playback with quick random access.

また、IDRピクチャを飛び越しての参照が禁止されるので、例えば、IDRピクチャをカットフレームとしたカット編集が再符号化処理をせずに可能となる。このようなIDRピクチャを利用して編集を行うために、画像の動きの変化に応じて撮影者にとって重要と思われるシーンを判定し、IDRピクチャを設定する方法が提案されている(特許文献2参照)。   In addition, since the reference skipping the IDR picture is prohibited, for example, cut editing using the IDR picture as a cut frame becomes possible without performing re-encoding processing. In order to perform editing using such an IDR picture, a method is proposed in which a scene that is considered to be important for a photographer is determined in accordance with a change in image motion, and an IDR picture is set (Patent Document 2). reference).

特開2003−199112号公報JP 2003-199112 A 特開2006−157893号公報JP 2006-157893 A

前述のようにH.264符号化方式では、フレーム間予測の参照関係を制限するIDRピクチャを利用することでランダムアクセスを迅速に行うことができる。そのため、画像シーケンスの任意の場所から迅速な再生及び容易な編集を行うには数多くのIDRピクチャが設定されている必要がある。   As described above, H.P. In the H.264 coding scheme, random access can be quickly performed by using an IDR picture that restricts the reference relationship of inter-frame prediction. Therefore, a large number of IDR pictures need to be set in order to perform quick reproduction and easy editing from any place in the image sequence.

しかし、IDRピクチャを設定することにより、前述のように参照関係が制限される。このために、数多くのIDRピクチャを設定すると符号化効率は低化する可能性がある。すなわち、符号化効率を考慮するならば、IDRピクチャの設定は必要最低限にすることが望ましい。   However, by setting an IDR picture, the reference relationship is limited as described above. For this reason, if a large number of IDR pictures are set, the coding efficiency may be lowered. That is, it is desirable to set the IDR picture to the minimum necessary in consideration of encoding efficiency.

特許文献1のように、定期的にIDRピクチャを設定する場合は、ランダムアクセスに必要のないフレームもIDRピクチャに設定され、符号化効率は低化してしまう可能性がある。また、特許文献2のように、画像の動きの変化に応じて撮影者にとって重要と思われるシーンを判定してIDRピクチャを設定する方法では、撮影者にとって重要と思われるシーンの全てについて判定することは困難である。   When an IDR picture is set periodically as in Patent Document 1, a frame that is not required for random access is also set as an IDR picture, which may reduce the coding efficiency. Further, as in Patent Document 2, in the method of setting an IDR picture by determining a scene that seems to be important for a photographer according to a change in image motion, all scenes that are considered important for the photographer are determined. It is difficult.

例えば、人が笑ったり、泣いたりするシーンは重要なシーンであると考えられるが、特許文献2のように画像の動きの変化に基いて重要なシーンを判定する方法では、笑顔や泣き顔のシーンを検出するのは困難である。   For example, a scene in which a person laughs or crys is considered an important scene. However, in the method of determining an important scene based on a change in image movement as in Patent Document 2, a scene of a smile or a crying face Is difficult to detect.

本発明は前述の問題点に鑑みてなされたものであり、符号化効率の低化を抑えながら、笑顔や泣き顔等の表情であるシーンから迅速な再生及び容易な編集を行うことができるようにすることを目的としている。   The present invention has been made in view of the above-described problems, so that rapid reproduction and easy editing can be performed from a scene having a facial expression such as a smile or a crying face while suppressing a decrease in encoding efficiency. The purpose is to do.

本発明の画像符号化装置は、複数のフレームから成る入力画像信号を圧縮符号化する画像符号化装置において、前記入力画像信号を解析して顔を識別するための顔情報を作成する顔情報作成手段と、前記入力画像信号を、フレーム間予測方式を利用して圧縮符号化する符号化手段と、前記符号化手段における符号化対象フレームに対して前記顔情報作成手段により作成された顔情報に基づき、当該符号化対象フレームを飛び越したフレーム間予測での参照を禁止するか否かを判定する禁止判定手段と、前記禁止判定手段により、前記符号化対象フレームを飛び越した参照を禁止すると判定された場合に、前記符号化対象フレームを飛び越し参照を禁止する基準フレームに設定する設定手段とを備えることを特徴とする。   An image encoding apparatus according to the present invention is an image encoding apparatus that compresses and encodes an input image signal composed of a plurality of frames, and generates face information for analyzing the input image signal and generating face information for identifying a face. Means, encoding means for compressing and encoding the input image signal using an inter-frame prediction method, and face information generated by the face information generating means for the encoding target frame in the encoding means. Based on the prohibition determination means for determining whether to prohibit reference in inter-frame prediction that skips the encoding target frame and the prohibition determination means, it is determined to prohibit reference that skips the encoding target frame. Setting means for setting the frame to be encoded to a reference frame that prohibits interlaced reference.

本発明の画像符号化方法は、複数のフレームから成る入力画像信号を圧縮符号化する画像符号化方法において、前記入力画像信号を解析して顔を識別するための顔情報を作成する顔情報作成工程と、前記入力画像信号を、フレーム間予測方式を利用して圧縮符号化する符号化工程と、前記符号化工程における符号化対象フレームに対して前記顔情報作成工程において作成された顔情報に基づき、当該符号化対象フレームを飛び越したフレーム間予測での参照を禁止するか否かを判定する禁止判定工程と、前記禁止判定工程において、前記符号化対象フレームを飛び越した参照を禁止すると判定された場合に、前記符号化対象フレームを飛び越し参照を禁止する基準フレームに設定する設定工程とを備えることを特徴とする画像符号化方法。   An image encoding method of the present invention is an image encoding method for compressing and encoding an input image signal composed of a plurality of frames, and generating face information for analyzing the input image signal and generating face information for identifying a face A step of compressing and encoding the input image signal using an inter-frame prediction method, and the face information created in the face information creation step for the encoding target frame in the encoding step. Based on the prohibition determination step for determining whether to prohibit reference in inter-frame prediction that skips the encoding target frame, and in the prohibition determination step, it is determined that reference that skips the encoding target frame is prohibited. And a setting step of setting the encoding target frame to a reference frame that prohibits interlaced reference.

本発明のコンピュータプログラムは、複数のフレームから成る入力画像信号を圧縮符号化する処理をコンピュータに実行させるコンピュータプログラムにおいて、前記入力画像信号を解析して顔を識別するための顔情報を作成する顔情報作成工程と、前記入力画像信号を、フレーム間予測方式を利用して圧縮符号化する符号化工程と、前記符号化工程における符号化対象フレームに対して前記顔情報作成工程において作成された顔情報に基づき、当該符号化対象フレームを飛び越したフレーム間予測での参照を禁止するか否かを判定する禁止判定工程と、前記禁止判定工程において、前記符号化対象フレームを飛び越した参照を禁止すると判定された場合に、前記符号化対象フレームを飛び越し参照を禁止する基準フレームに設定する設定工程とをコンピュータに実行させることを特徴とする。   The computer program of the present invention is a computer program for causing a computer to execute a process of compressing and encoding an input image signal composed of a plurality of frames, and generating face information for identifying the face by analyzing the input image signal An information creating step, a coding step for compressing and coding the input image signal using an inter-frame prediction method, and a face created in the face information creating step for a frame to be coded in the coding step Based on the information, in a prohibition determination step for determining whether or not reference in inter-frame prediction that skips the encoding target frame is prohibited, and prohibiting reference that skips the encoding target frame in the prohibition determination step If it is determined, a setting process for setting the encoding target frame to a reference frame that prohibits interlaced reference. Characterized in that to execute the door to the computer.

本発明によれば、表情の度合いに応じて、必要最低限の画像フレームを基準フレームに設定して符号化を行うようにしたので、符号化効率の低化を抑えながら表情の度合いが高いシーンからの迅速な再生及び容易な編集を行うことが可能となる。これにより、例えば、笑顔フレームから頭出しを行うようにしたり、笑顔フレームを起点とした編集を行うようにしたりすることが容易にできる。   According to the present invention, encoding is performed by setting the minimum necessary image frame as a reference frame according to the degree of facial expression, so a scene with a high degree of facial expression while suppressing a decrease in encoding efficiency. Can be quickly reproduced and easily edited. Thereby, for example, it is possible to easily start from the smile frame, or to perform editing with the smile frame as a starting point.

(第1の実施形態)
図1は、本発明の実施形態を示し、画像符号化装置の構成例を示すブロック図である。本実施形態における画像符号化装置は、表情の度合いに応じて基準フレームを設定し、符号化を行う装置である。以下、本実施形態の画像符号化装置の構成例について図1を参照して説明する。
(First embodiment)
FIG. 1 is a block diagram illustrating an embodiment of the present invention and a configuration example of an image encoding device. The image encoding apparatus according to the present embodiment is an apparatus that performs encoding by setting a reference frame according to the degree of facial expression. Hereinafter, a configuration example of the image encoding device of the present embodiment will be described with reference to FIG.

本実施形態における画像符号化装置は、符号化部101、顔判定部102及び基準フレーム設定判定部103を有する。符号化部101は、入力される映像信号(入力画像信号)の圧縮符号化を行い、符号化ストリームを生成して出力する。本実施形態における符号化方式は、H.264符号化方式やMPEG2符号化方式などのフレーム間予測方式を利用した符号化方式であり、以下は、H.264符号化方式を例として説明する。   The image encoding apparatus according to the present embodiment includes an encoding unit 101, a face determination unit 102, and a reference frame setting determination unit 103. The encoding unit 101 performs compression encoding of an input video signal (input image signal), generates an encoded stream, and outputs the encoded stream. The encoding method in this embodiment is H.264. H.264 encoding scheme and MPEG2 encoding scheme, and other encoding schemes using inter-frame prediction schemes. The H.264 encoding method will be described as an example.

顔判定部102は、入力される映像信号を解析し、被写体の顔を解析して顔を識別するための顔情報作成を行い、作成した顔情報を出力する。顔情報の詳細については後述する。基準フレーム設定判定部103は、顔判定部102から出力された顔情報に応じて、符号化部101で符号化する符号化対象フレームを基準フレームとして符号化すると判定した場合に、基準フレーム設定情報を符号化部101に出力する。   The face determination unit 102 analyzes the input video signal, analyzes the face of the subject, creates face information for identifying the face, and outputs the created face information. Details of the face information will be described later. When the reference frame setting determination unit 103 determines that the encoding target frame to be encoded by the encoding unit 101 is to be encoded as the reference frame according to the face information output from the face determination unit 102, the reference frame setting information Is output to the encoding unit 101.

ここで、基準フレームとは、該基準フレームを飛び越したフレーム間予測での参照を禁止することにより、迅速にランダムアクセスが可能なピクチャタイプを設定されたフレームである。H.264符号化方式においては、基準フレームとは、IDRピクチャのフレームである。MPEG符号化方式においては、基準フレームとはIピクチャのフレームである。   Here, the reference frame is a frame in which a picture type capable of quick random access is set by prohibiting reference in inter-frame prediction that skips the reference frame. H. In the H.264 encoding method, the reference frame is an IDR picture frame. In the MPEG encoding method, the reference frame is an I picture frame.

次に、符号化部101、顔判定部102、基準フレーム設定判定部103の動作について詳しく説明する。
まず、符号化部101の構成例について、図2を参照して詳しく説明する。
図2は、符号化部101の構成例を示すブロック図である。図2に示すように、符号化部101は、フレーム並び替え部201、減算器202、整数変換部203、量子化部204、エントロピー符号化部205、逆量子化部206、逆整数変換部207等を有する。また、加算器208、第1のフレームメモリ209及び第2のフレームメモリ213、イントラ予測部210、第1のスイッチ211及び第2のスイッチ217を有する。さらに、デブロッキングフィルタ212、インター予測部214、動き検出部215、ピクチャタイプ決定部216を有する。
Next, operations of the encoding unit 101, the face determination unit 102, and the reference frame setting determination unit 103 will be described in detail.
First, a configuration example of the encoding unit 101 will be described in detail with reference to FIG.
FIG. 2 is a block diagram illustrating a configuration example of the encoding unit 101. As shown in FIG. 2, the encoding unit 101 includes a frame rearrangement unit 201, a subtracter 202, an integer conversion unit 203, a quantization unit 204, an entropy encoding unit 205, an inverse quantization unit 206, and an inverse integer conversion unit 207. Etc. The adder 208 includes a first frame memory 209 and a second frame memory 213, an intra prediction unit 210, a first switch 211, and a second switch 217. Furthermore, a deblocking filter 212, an inter prediction unit 214, a motion detection unit 215, and a picture type determination unit 216 are included.

このように構成された本実施形態の画像符号化装置における符号化部101は、入力された映像信号を分割することによりブロックを構成し、ブロック単位に符号化処理を行って符号化ストリームを出力する。   The encoding unit 101 in the image encoding apparatus of the present embodiment configured as described above configures a block by dividing an input video signal, performs an encoding process on a block basis, and outputs an encoded stream To do.

続いて、符号化部101で行われる符号化処理について説明する。
まず、フレーム並び替え部201は、表示順で入力された映像信号を符号化順に並び替える。減算器202は、入力画像データから予測画像データを減算して画像残差データを整数変換部203に出力する。なお、予測画像データの生成については後述する。
Next, the encoding process performed by the encoding unit 101 will be described.
First, the frame rearrangement unit 201 rearranges the video signals input in the display order in the encoding order. The subtracter 202 subtracts the predicted image data from the input image data and outputs the image residual data to the integer conversion unit 203. The generation of predicted image data will be described later.

整数変換部203は、減算器202から出力された画像残差データを直交変換処理して変換係数を量子化部204に出力する。量子化部204は、整数変換部203より出力された変換係数を所定の量子化パラメータを用いて量子化する。エントロピー符号化部205は、量子化部204で量子化された変換係数を入力し、これをエントロピー符号化して符号化ストリームとして出力する。   The integer transform unit 203 performs orthogonal transform processing on the image residual data output from the subtracter 202 and outputs transform coefficients to the quantization unit 204. The quantization unit 204 quantizes the transform coefficient output from the integer transform unit 203 using a predetermined quantization parameter. The entropy encoding unit 205 receives the transform coefficient quantized by the quantization unit 204, entropy encodes it, and outputs it as an encoded stream.

一方、量子化部204で量子化された変換係数は、前述した予測画像データの生成にも使われる。逆量子化部206は、量子化部204で量子化された変換係数を逆量子化する。逆整数変換部207は、逆量子化部206で逆量子化された変換係数を逆整数変換し、復号画像残差データとして出力する。   On the other hand, the transform coefficient quantized by the quantization unit 204 is also used for generating the predicted image data described above. The inverse quantization unit 206 inversely quantizes the transform coefficient quantized by the quantization unit 204. The inverse integer transform unit 207 performs inverse integer transform on the transform coefficient inversely quantized by the inverse quantization unit 206 and outputs it as decoded image residual data.

加算器208は、逆整数変換部207より出力された復号画像残差データと、予測画像データとを加算して、再構成画像データとして出力する。加算器208から出力された再構成画像データは、フレームメモリ209に記録される。それとともに、再構成画像データに対してデブロッキングフィルタ処理を施す場合にはデブロッキングフィルタ212を介して第2のフレームメモリ213に記録される。また、デブロッキングフィルタ処理を施さない場合にはデブロッキングフィルタ212を介さずに第2のフレームメモリ213に記録される。   The adder 208 adds the decoded image residual data output from the inverse integer transform unit 207 and the predicted image data, and outputs the result as reconstructed image data. The reconstructed image data output from the adder 208 is recorded in the frame memory 209. At the same time, when the deblocking filter process is performed on the reconstructed image data, it is recorded in the second frame memory 213 via the deblocking filter 212. Further, when the deblocking filter process is not performed, it is recorded in the second frame memory 213 without going through the deblocking filter 212.

第1のスイッチ211は、加算器208から出力された再構成画像データに対してデブロッキングフィルタ処理を施すか否かを選択する選択部である。再構成画像データの中で、以降の予測で参照される可能性があるデータは、第1のフレームメモリ209または第2のフレームメモリ213に暫くの期間保存される。   The first switch 211 is a selection unit that selects whether to perform deblocking filter processing on the reconstructed image data output from the adder 208. Among the reconstructed image data, data that may be referred to in the subsequent prediction is stored in the first frame memory 209 or the second frame memory 213 for a while.

イントラ予測部210は、第1のフレームメモリ209に記録された再構成画像データを用いてフレーム内予測処理を行い、予測画像データを生成する。また、インター予測部214は、第2のフレームメモリ213に記録された再構成画像データを用いて動き検出部215により検出された動きベクトル情報に基づくフレーム間予測処理を行い、予測画像データを生成する。ここで、動き検出部215は、入力画像データにおける動きベクトルを検出して、検出した動きベクトル情報をエントロピー符号化部205及びインター予測部214にそれぞれ出力する。   The intra prediction unit 210 performs intra-frame prediction processing using the reconstructed image data recorded in the first frame memory 209, and generates predicted image data. Also, the inter prediction unit 214 performs inter-frame prediction processing based on the motion vector information detected by the motion detection unit 215 using the reconstructed image data recorded in the second frame memory 213, and generates predicted image data To do. Here, the motion detection unit 215 detects a motion vector in the input image data, and outputs the detected motion vector information to the entropy encoding unit 205 and the inter prediction unit 214, respectively.

ピクチャタイプ決定部216は、符号化を行うピクチャタイプをイントラ予測部210、インター予測部214及び第2のスイッチ217に出力する。ピクチャタイプの決定方法は、基準フレーム設定判定部103により符号化フレームを基準フレームにすると判定された場合には、該フレームを基準フレームとする。また、そうでない場合には、フレームのピクチャタイプを符号化方式に準拠したピクチャタイプに決定する。   The picture type determination unit 216 outputs the picture type to be encoded to the intra prediction unit 210, the inter prediction unit 214, and the second switch 217. When the reference frame setting determination unit 103 determines that the encoded frame is to be a reference frame, the picture type is determined as the reference frame. Otherwise, the picture type of the frame is determined as a picture type that conforms to the encoding method.

なお、符号化フレームが基準フレームと判定された場合には、そのフレームのピクチャタイプをIピクチャと決定すると共に、そのフレームに飛び越し参照禁止フラグを付加する。そして、飛び越し参照禁止フラグの有無に基づいて禁止判定を行い、インター予測部214によりIピクチャを飛び越さないような参照関係を決定させるようにしてもよい。   When it is determined that the encoded frame is a reference frame, the picture type of the frame is determined to be an I picture, and a jump reference prohibition flag is added to the frame. Then, the prohibition determination may be performed based on the presence or absence of the skip reference prohibition flag, and the inter prediction unit 214 may determine a reference relationship that does not skip the I picture.

第2のスイッチ217は、予測画像データとしてイントラ予測部210で生成された予測画像データ又はインター予測部214で生成された予測画像データのどちらを用いるかを選択するための選択部である。すなわち、イントラ予測又はインター予測のどちらを用いるか選択するための機能を有する。   The second switch 217 is a selection unit for selecting whether to use predicted image data generated by the intra prediction unit 210 or predicted image data generated by the inter prediction unit 214 as predicted image data. That is, it has a function for selecting whether to use intra prediction or inter prediction.

ピクチャタイプ決定部216によって決定されたピクチャタイプに応じて第2のスイッチ217を制御する。これにより、イントラ予測部210からの出力とインター予測部214からの出力のどちらか一方を選択し、選択された予測画像データを減算器202、加算器208に出力する。以上が符号化部101に関する説明である。   The second switch 217 is controlled according to the picture type determined by the picture type determination unit 216. As a result, either the output from the intra prediction unit 210 or the output from the inter prediction unit 214 is selected, and the selected predicted image data is output to the subtracter 202 and the adder 208. The above is the description regarding the encoding unit 101.

次に、顔判定部102について、図3、図4及び図5を参照して詳細に説明する。
図3は、顔判定部102の構成例を示すブロック図である。図3に示すように、顔判定部102は、顔検出部301、顔認識履歴データ記録部302、顔認識部303、表情判定部304、及びスイッチ305から構成される。
Next, the face determination unit 102 will be described in detail with reference to FIG. 3, FIG. 4, and FIG.
FIG. 3 is a block diagram illustrating a configuration example of the face determination unit 102. As shown in FIG. 3, the face determination unit 102 includes a face detection unit 301, a face recognition history data recording unit 302, a face recognition unit 303, a facial expression determination unit 304, and a switch 305.

続いて、顔判定部102で行われる顔判定処理について説明する。
まず、顔検出部301は、入力される映像信号のフレーム、すなわち符号化対象フレームに含まれる被写体の少なくとも1つの顔を検出し、フレーム内における顔の中心座標を顔の基準座標とし、大きさ及び方向を表す情報を、顔ごとに検出及び算出して出力する。
Next, face determination processing performed by the face determination unit 102 will be described.
First, the face detection unit 301 detects at least one face of a subject included in a frame of an input video signal, that is, an encoding target frame, and uses the center coordinates of the face in the frame as the reference coordinates of the face, And direction information are detected and calculated for each face and output.

顔認識履歴データ記録部302は、顔検出部301により検出された顔の画像データと、後述の顔認識部303により設定された「顔ID」を記録する。顔認識部303は、顔検出部301から出力された顔の中心座標、大きさ及び方向を表す情報を基に、入力した映像信号の被写体の顔が、顔認識履歴データ記録部302に記録されている顔と一致するか判定する。そして、顔を識別するための情報である「顔ID」を顔情報として顔ごとに出力すると共に、顔認識処理のために必要な顔の画像と、その顔に対応する「顔ID」を顔認識履歴データ記録部302に出力する。   The face recognition history data recording unit 302 records the face image data detected by the face detection unit 301 and “face ID” set by the face recognition unit 303 described later. The face recognition unit 303 records the face of the subject of the input video signal in the face recognition history data recording unit 302 based on the information indicating the center coordinates, size, and direction of the face output from the face detection unit 301. It is determined whether the face matches the face. Then, “face ID”, which is information for identifying the face, is output as face information for each face, and the face image necessary for face recognition processing and the “face ID” corresponding to the face are output to the face. The data is output to the recognition history data recording unit 302.

入力された映像信号の被写体の顔が、顔認識履歴データ記録部302に記録されている顔と一致しないと判定された場合は、判定された顔に対して新規の「顔ID」を設定する。一方、入力した映像信号の被写体の顔が、顔認識履歴データ記録部302に記録されている顔と一致すると判定された場合は、顔認識履歴データ記録部302に記録されている顔と同じ「顔ID」を算定された顔に設定する。   If it is determined that the face of the subject of the input video signal does not match the face recorded in the face recognition history data recording unit 302, a new “face ID” is set for the determined face. . On the other hand, if it is determined that the face of the subject of the input video signal matches the face recorded in the face recognition history data recording unit 302, the same as the face recorded in the face recognition history data recording unit 302 “ “Face ID” is set to the calculated face.

顔認識履歴データ記録部302に記録されている顔認識履歴データはストリーム毎にクリアされるようにしてもよい。表情判定部304は、顔検出部301から出力された顔の中心座標、大きさ及び方向を表す情報を基に、映像信号に含まれる被写体の顔の表情を判定し、表情の種類と表情指数を出力する。   The face recognition history data recorded in the face recognition history data recording unit 302 may be cleared for each stream. The facial expression determination unit 304 determines the facial expression of the subject included in the video signal based on the information indicating the center coordinates, size, and direction of the face output from the face detection unit 301, and determines the facial expression type and facial expression index. Is output.

表情の種類とは、例えば、笑顔、怒り顔、泣き顔等がある。表情指数とは、表情の度合いを表す指標であり、本実施形態では、複数段階の表情の度合いを表す表情指数を算出し、例えば、値0〜10までの範囲で変化する値とする。例えば、笑顔の表情指数0の場合は、笑っていない顔であり、いわゆる真顔である。反対に、笑顔の表情指数10の場合は、大笑いしている顔である。スイッチ305は、顔認識部303から出力される「顔ID」情報を顔情報に含めるか選択する選択部である。   Examples of facial expressions include a smile, an angry face, and a crying face. The facial expression index is an index representing the degree of facial expression. In the present embodiment, a facial expression index representing the degree of facial expression in a plurality of stages is calculated, for example, a value that varies in the range of 0 to 10. For example, a smile expression index of 0 is a face that is not laughing and is a so-called true face. On the other hand, a smile expression index of 10 is a laughing face. The switch 305 is a selection unit that selects whether to include the “face ID” information output from the face recognition unit 303 in the face information.

なお、顔検出部301により行われる顔検出の方法は、例えば、オブジェクト検出等の既知の方式を用いることができるので、本実施形態においては詳細な説明を省略する。また、顔認識部303により行われる顔認識の方法は、例えば、オブジェクト認識等の既知の方式を用いることができるので、本実施形態においては詳細な説明を省略する。表情判定部304による表情の判定は、例えば、顔領域内の顔の各パーツ(目や鼻や口等)の相対位置や形等に応じて判定する既知の表情判定方式を用いるものとし詳細は省略する。   Note that a known method such as object detection can be used as the face detection method performed by the face detection unit 301, and thus detailed description thereof is omitted in the present embodiment. Further, as the face recognition method performed by the face recognition unit 303, for example, a known method such as object recognition can be used, and thus detailed description thereof is omitted in the present embodiment. The facial expression determination by the facial expression determination unit 304 uses, for example, a known facial expression determination method that is determined according to the relative position or shape of each part (eyes, nose, mouth, etc.) of the face in the face area. Omitted.

以上のような方法で、顔検出部301、顔認識部303及び表情判定部304から出力された顔情報を図4及び図5を参照して説明する。
図4は、フレーム番号0の映像信号を示した図であり、図5は、フレーム毎に顔判定部102から出力された顔情報を示した図であり、フレーム番号0及び1から得られた顔情報を示している。図4及び図5の例では、簡単のため、フレーム内に1つの顔が含まれている場合を説明するが、フレーム内に複数の顔が含まれていてもよい。
The face information output from the face detection unit 301, the face recognition unit 303, and the facial expression determination unit 304 by the above method will be described with reference to FIGS.
FIG. 4 is a diagram showing a video signal of frame number 0, and FIG. 5 is a diagram showing face information output from the face determination unit 102 for each frame, obtained from frame numbers 0 and 1. The face information is shown. In the example of FIGS. 4 and 5, the case where one face is included in the frame will be described for the sake of simplicity. However, a plurality of faces may be included in the frame.

図4のようなフレーム番号0の映像信号において、顔検出部301は、点線内に顔を検出し、顔の中心座標として(x,y)=(960,540)、大きさとして(x_size,y_size)=(370,370)、方向として「右」という顔情報を出力する。   In the video signal of frame number 0 as shown in FIG. 4, the face detection unit 301 detects the face within the dotted line, (x, y) = (960, 540) as the center coordinate of the face, and (x_size, y_size) = (370, 370), and the face information “right” is output as the direction.

表情判定部304は、例えば、図4の点線内の顔は口角が上がっているため、表情の種類として「笑顔」、表情指数として「5」という顔情報を出力する。顔認識部303は、フレーム番号0においては、顔認識履歴データに顔情報は記録されていないので、顔検出部301によって検出された顔に対し新規の「顔ID」を設定し、「顔ID0」という顔情報を出力する。図5の例では、フレーム番号1においても、フレーム番号0と同じ顔の被写体が含まれていたために、フレーム番号0と同じ「顔ID0」という「顔ID」がフレーム番号1の顔情報として出力されている。   The facial expression determination unit 304 outputs facial information of “smile” as the facial expression type and “5” as the facial expression index because the face in the dotted line in FIG. The face recognition unit 303 sets a new “face ID” for the face detected by the face detection unit 301 because no face information is recorded in the face recognition history data at frame number 0, and “face ID 0 ”Is output. In the example of FIG. 5, since the subject having the same face as frame number 0 is included in frame number 1, the same “face ID” “face ID 0” as frame number 0 is output as face information of frame number 1. Has been.

以上のように、顔判定部102から出力される顔情報により、映像信号に含まれる複数の顔に関する情報をフレーム毎に知ることが可能である。さらに、顔認識部303から出力される「顔ID」により、過去に検出された顔と一致するか否かを判定することが可能である。すなわち、現フレームの第1の顔が過去フレームの第2の顔と一致するか否かを判定する顔認識を行うことにより、フレームを飛び越した参照を禁止する禁止条件に適合すると判定する。この場合には、第2の顔のフレームから所定期間内において、第2の顔と一致すると判定された第1の顔に対してはフレームを飛び越した参照を禁止する禁止条件に適合すると判定しないようにする。   As described above, it is possible to know information about a plurality of faces included in the video signal for each frame from the face information output from the face determination unit 102. Furthermore, it is possible to determine whether or not a face detected in the past matches with the “face ID” output from the face recognition unit 303. That is, by performing face recognition for determining whether or not the first face of the current frame matches the second face of the past frame, it is determined that the prohibition condition prohibiting the reference that skips the frame is satisfied. In this case, it is not determined that the first face determined to match the second face within the predetermined period from the second face frame satisfies the prohibition condition for prohibiting reference that skips the frame. Like that.

次に、基準フレーム設定判定部103について、図6、図7、図8、図9及び図10を参照して詳しく説明する。基準フレーム設定判定部103は、顔判定部102から出力される顔情報に応じて、基準フレームを設定して符号化を行うか判定し、基準フレーム設定情報を出力する。   Next, the reference frame setting determination unit 103 will be described in detail with reference to FIG. 6, FIG. 7, FIG. 8, FIG. The reference frame setting determination unit 103 determines whether to perform encoding by setting a reference frame according to the face information output from the face determination unit 102, and outputs the reference frame setting information.

まず、1フレーム内に存在する顔が1つの場合の基準フレーム設定について、図6を参照して説明する。なお、図6の場合では、スイッチ305はOFFの状態であり、基準フレーム設定判定部103は、顔認識部303から出力される「顔ID」は使用していない。   First, reference frame setting when there is one face in one frame will be described with reference to FIG. In the case of FIG. 6, the switch 305 is in an OFF state, and the reference frame setting determination unit 103 does not use the “face ID” output from the face recognition unit 303.

図6は、表情指数の時間的変化と基準フレーム設定を示した図である。図6の例では、ユーザが表情指数閾値を設定し、表情指数が表情指数閾値を超えた場合に基準フレーム設定判定部103は、基準フレーム設定情報を出力する。   FIG. 6 is a diagram showing temporal changes in facial expression index and reference frame setting. In the example of FIG. 6, when the user sets a facial expression index threshold and the facial expression index exceeds the facial expression index threshold, the reference frame setting determination unit 103 outputs reference frame setting information.

表情指数閾値は、図6の例では、「8」に設定されているものとする。時刻t0において、符号化部101及び顔判定部102に映像信号が入力されると、符号化処理及び顔情報の出力が開始される。   It is assumed that the facial expression index threshold is set to “8” in the example of FIG. When a video signal is input to the encoding unit 101 and the face determination unit 102 at time t0, encoding processing and face information output are started.

そして、時刻t1において、表情指数が表情指数閾値を超え、さらに時刻t2において、所定期間(t2−t1期間)表情指数が表情指数閾値を超えている状態を維持している。このため、基準フレーム設定判定部103は、基準フレームを設定すると判定し、符号化部101に対して基準フレーム設定情報を出力する。また、時刻t3から時刻t4の期間においては、表情指数が表情指数閾値を越えていないので、基準フレーム設定判定部103は、基準フレーム設定情報を出力しない。   Then, at time t1, the facial expression index exceeds the facial expression index threshold, and at time t2, the facial expression index maintains a state where it exceeds the facial expression index threshold for a predetermined period (t2-t1 period). Therefore, the reference frame setting determination unit 103 determines to set a reference frame, and outputs the reference frame setting information to the encoding unit 101. In addition, during the period from time t3 to time t4, since the expression index does not exceed the expression index threshold, the reference frame setting determination unit 103 does not output the reference frame setting information.

時刻t4において、表情指数が表情指数閾値を超えているが、所定期間表情指数が表情指数閾値を超えている状態を所定期間維持せずに、時刻t5において、表情指数が表情指数閾値よりも小さくなってしまっている。このため、このような場合には、基準フレーム設定判定部103は、基準フレーム設定情報を出力しない。   At time t4, the facial expression index exceeds the facial expression index threshold, but the facial expression index is smaller than the facial expression index threshold at time t5 without maintaining the state where the facial expression index exceeds the facial expression index threshold for a predetermined period. It has become. For this reason, in such a case, the reference frame setting determination unit 103 does not output the reference frame setting information.

このように、表情指数が表情指数閾値を超える期間が短期間である場合は、基準フレームを設定しないことにより、必要最低限のフレームを基準フレームに設定することができる。ただし、言うまでもないが、表情指数が表情指数閾値を超える期間が短期間である場合でも基準フレームを設定してもよい。この場合は、表情指数が表情指数閾値を超えたら基準フレーム設定判定部103は、基準フレームを設定すると即座に判定し、符号化部101に対して基準フレーム設定情報を出力する。   As described above, when the period during which the facial expression index exceeds the facial expression index threshold is a short period, the minimum necessary frame can be set as the reference frame by not setting the reference frame. Needless to say, however, the reference frame may be set even when the period during which the facial expression index exceeds the facial expression index threshold is short. In this case, when the facial expression index exceeds the facial expression index threshold, the reference frame setting determination unit 103 immediately determines that the reference frame is set, and outputs the reference frame setting information to the encoding unit 101.

次に、顔情報として、1フレーム内に存在する顔が複数の場合の基準フレーム設定について、図7を参照して説明する。なお、図7の場合では、スイッチ305はOFFの状態であり、基準フレーム設定判定部103は、顔認識部303から出力される「顔ID」は使用していない。   Next, reference frame setting when there are a plurality of faces present in one frame as face information will be described with reference to FIG. In the case of FIG. 7, the switch 305 is in an OFF state, and the reference frame setting determination unit 103 does not use the “face ID” output from the face recognition unit 303.

図7は、3つの顔における表情指数の時間的変化と基準フレーム設定を示した図である。図7の例では、ユーザが表情指数の表情指数閾値と顔の数の顔数閾値を設定し、表情指数が表情指数閾値を超えた顔の数が顔数閾値を超えた場合に基準フレーム設定判定部103は、基準フレーム設定情報を出力する。   FIG. 7 is a diagram showing temporal changes in expression indices and reference frame settings for three faces. In the example of FIG. 7, the user sets the expression index threshold of the expression index and the face number threshold of the number of faces, and the reference frame is set when the number of faces whose expression index exceeds the expression index threshold exceeds the face number threshold. The determination unit 103 outputs reference frame setting information.

図7の例では、表情指数閾値は、第1の閾値として「8」を設定する第1の閾値設定を行う。また、顔の数の顔数閾値は、第2の閾値として「3」を設定する第2の閾値設定を行う。時刻t0において、符号化部101及び顔判定部102に映像信号が入力されると、符号化処理及び顔情報の出力が開始される。   In the example of FIG. 7, the facial expression index threshold is set to a first threshold that sets “8” as the first threshold. The face number threshold of the number of faces is set to a second threshold value that sets “3” as the second threshold value. When a video signal is input to the encoding unit 101 and the face determination unit 102 at time t0, encoding processing and face information output are started.

時刻t1から時刻t2の期間において、1つの顔の表情指数が表情指数閾値を超えているが、顔数閾値「3」に達していないために基準フレーム設定判定部103は、基準フレーム設定情報を出力しない。   In the period from time t1 to time t2, since the facial expression index of one face exceeds the facial expression index threshold, but does not reach the face number threshold “3”, the reference frame setting determination unit 103 stores the reference frame setting information. Do not output.

時刻t3において、3つの顔の表情指数が同時に表情指数閾値を超え、さらに時刻t4において、所定期間(t4−t3期間)3つの顔の表情指数が表情指数閾値を超えている状態を維持している。このため、基準フレーム設定判定部103は、時刻t4において基準フレームを設定すると判定し、符号化部101に対して基準フレーム設定情報を出力する。   At time t3, the facial expression indexes of the three faces simultaneously exceed the facial expression index threshold, and at time t4, the state where the facial expression indexes of the three faces exceed the facial expression index threshold for a predetermined period (t4-t3 period) is maintained. Yes. For this reason, the reference frame setting determination unit 103 determines to set a reference frame at time t4, and outputs the reference frame setting information to the encoding unit 101.

次に、1フレーム内に存在する顔が複数の場合において、顔の方向に応じた基準フレーム設定について、図8を参照して説明する。なお、図8の場合では、スイッチ305はOFFの状態であり、基準フレーム設定判定部103は、顔認識部303から出力される「顔ID」は使用していない。   Next, reference frame setting according to the face direction when there are a plurality of faces in one frame will be described with reference to FIG. In the case of FIG. 8, the switch 305 is in the OFF state, and the reference frame setting determination unit 103 does not use the “face ID” output from the face recognition unit 303.

図8は、3つの顔における表情指数及び方向の時間的変化と基準フレーム設定を示した図である。図8の例では、ユーザが表情指数の表情指数閾値と顔の数の顔数閾値を設定する。そして、表情指数が表情指数閾値を超えた顔のうち、同じ方向を向いている顔の合計数が顔数閾値、すなわち、第2の閾値を超えた場合に基準フレーム設定判定部103は、基準フレーム設定情報を出力する。   FIG. 8 is a diagram showing temporal changes in expression indices and directions and reference frame settings for three faces. In the example of FIG. 8, the user sets a facial expression index threshold for the facial expression index and a face number threshold for the number of faces. When the total number of faces facing in the same direction among the faces whose facial expression index exceeds the facial expression index threshold exceeds the face number threshold, that is, the second threshold, the reference frame setting determination unit 103 Output frame setting information.

図8の例では、表情指数閾値は、「8」に設定され、顔数閾値は、「3」に設定されていることとする。時刻t0において、符号化部101及び顔判定部102に映像信号が入力されると、符号化処理及び顔情報の出力が開始される。時刻t1から時刻t2の期間において、3つの顔の表情指数が表情指数閾値を超えている。しかし、本実施形態の基準フレーム設定判定部103は、顔の方向毎に顔個数を検出する顔方向検出を行っている。したがって、顔の方向が「右」、「正面」、「左」と異なる方向を向いている場合には、フレームを飛び越した参照を禁止する禁止条件に適合すると判定し、飛び越し参照を禁止する基準フレームを設定する。   In the example of FIG. 8, it is assumed that the facial expression index threshold is set to “8” and the face number threshold is set to “3”. When a video signal is input to the encoding unit 101 and the face determination unit 102 at time t0, encoding processing and face information output are started. In the period from time t1 to time t2, the facial expression indexes of the three faces exceed the facial expression index threshold. However, the reference frame setting determination unit 103 of the present embodiment performs face direction detection that detects the number of faces for each face direction. Therefore, when the face direction is different from “right”, “front”, and “left”, it is determined that the prohibition condition prohibiting the reference that skips the frame is satisfied, and the reference that prohibits the jump reference is determined. Set the frame.

時刻t3において、2つの顔の向きが変更され、3つの顔の方向が全て「右」となる。そして、時刻t4において、同じ「右」方向を向いた3つの顔の表情指数が同時に表情指数閾値を超え、さらに時刻t5において、所定期間(t5−t4期間)同じ「右」方向を向いた3つの顔の表情指数が表情指数閾値を超えている状態を維持している。このため、基準フレーム設定判定部103は、基準フレームを設定すると判定し、符号化部101に対して基準フレーム設定情報を出力する。   At time t3, the orientations of the two faces are changed, and the directions of the three faces are all “right”. At the time t4, the facial expression indices of the three faces facing the same “right” direction simultaneously exceed the facial expression index threshold, and at the time t5, the facial expression indices 3 are directed to the same “right” direction for a predetermined period (t5-t4 period). The facial expression index of one face is over the expression index threshold. Therefore, the reference frame setting determination unit 103 determines to set a reference frame, and outputs the reference frame setting information to the encoding unit 101.

次に、図9を参照しながら、顔情報から判定した主顔情報に応じた基準フレーム設定について説明する。なお、図9の場合では、スイッチ305はOFFの状態であり、基準フレーム設定判定部103は、顔認識部303から出力される「顔ID」は使用していない。   Next, reference frame setting according to main face information determined from face information will be described with reference to FIG. In the case of FIG. 9, the switch 305 is in an OFF state, and the reference frame setting determination unit 103 does not use the “face ID” output from the face recognition unit 303.

図9は、3つの顔における表情指数及び主顔情報の時間的変化と基準フレーム設定を示した図である。図9の例では、ユーザが表情指数の表情指数閾値を設定し、主顔の表情指数が表情指数閾値を超えた場合に基準フレーム設定判定部103は、基準フレーム設定情報を出力する。   FIG. 9 is a diagram showing temporal changes in facial expression indices and main face information and reference frame settings for three faces. In the example of FIG. 9, when the user sets a facial expression index threshold for the facial expression index, and the facial expression index exceeds the facial expression index threshold, the reference frame setting determination unit 103 outputs the reference frame setting information.

図9の例では、表情指数閾値は、「8」に設定されていることとする。なお、主顔とは、視聴者(ユーザ)が注目する顔のことである。本実施形態では、基準フレーム設定判定部103が顔情報に含まれる顔の中心座標、大きさ、方向から主顔判定を行う例について説明するが、主顔判定はこれに限ったものではない。例えば、本実施形態では、基準フレーム設定判定部103は顔の中心座標がフレーム中央に近く、顔の大きさが大きく、顔の方向が正面を向いている顔を主顔と判定をする。   In the example of FIG. 9, it is assumed that the facial expression index threshold is set to “8”. The main face is a face that the viewer (user) pays attention to. In the present embodiment, an example in which the reference frame setting determination unit 103 performs main face determination from the center coordinates, size, and direction of the face included in the face information will be described, but the main face determination is not limited to this. For example, in this embodiment, the reference frame setting determination unit 103 determines a face whose face center coordinates are close to the center of the frame, the face size is large, and the face direction is the front, as the main face.

時刻t0において、符号化部101及び顔判定部102に映像信号が入力されると、符号化処理及び顔情報の出力が開始される。そして、時刻t1から時刻t2の期間において、1つの顔の表情指数が表情指数閾値を超えているが、主顔と判定されていないために基準フレーム設定判定部103は、基準フレーム設定情報を出力しない。   When a video signal is input to the encoding unit 101 and the face determination unit 102 at time t0, encoding processing and face information output are started. In the period from time t1 to time t2, the facial expression index of one face exceeds the facial expression index threshold value, but since it is not determined to be the main face, the reference frame setting determination unit 103 outputs the reference frame setting information. do not do.

また、時刻t3から時刻t4の期間において、1つの顔が主顔と判定されているが、表情指数が表情指数閾値を超えていないために基準フレーム設定判定部103は、基準フレーム設定情報を出力しない。   Also, in the period from time t3 to time t4, one face is determined to be the main face, but since the expression index does not exceed the expression index threshold, the reference frame setting determination unit 103 outputs the reference frame setting information. do not do.

時刻t5において、1つの顔が主顔と判定され、さらに主顔と判定された顔の表情指数が所定期間(t6―t5期間)に亘って表情指数閾値を超えている状態を維持している。このため、基準フレーム設定判定部103は、基準フレームを設定すると判定し、符号化部101に対して基準フレーム設定情報を出力する。   At time t5, one face is determined as the main face, and the expression index of the face determined as the main face is maintained in a state where it exceeds the expression index threshold for a predetermined period (t6-t5 period). . Therefore, the reference frame setting determination unit 103 determines to set a reference frame, and outputs the reference frame setting information to the encoding unit 101.

次に、図10を参照しながら、顔情報に含まれる「顔ID」に応じた基準フレーム設定について説明する。なお、図10の場合では、スイッチ305はONの状態であり、基準フレーム設定判定部103は、顔認識部303から出力される「顔ID」を使用している。   Next, reference frame setting according to the “face ID” included in the face information will be described with reference to FIG. In the case of FIG. 10, the switch 305 is in the ON state, and the reference frame setting determination unit 103 uses the “face ID” output from the face recognition unit 303.

図10は、「顔ID」により識別可能な3つの顔における表情指数の時間的変化と基準フレーム設定を示した図である。図10の例では、ユーザは表情指数の表情指数閾値を設定し、表情指数が表情指数閾値を超えた場合に基準フレーム設定判定部103は、基準フレーム設定情報を出力する。図10の例では、表情指数閾値は、「8」に設定されていることとする。   FIG. 10 is a diagram showing temporal changes in expression indices and reference frame settings for three faces that can be identified by “face ID”. In the example of FIG. 10, the user sets a facial expression index threshold for the facial expression index, and when the facial expression index exceeds the facial expression index threshold, the reference frame setting determination unit 103 outputs the reference frame setting information. In the example of FIG. 10, it is assumed that the facial expression index threshold is set to “8”.

時刻t0において、符号化部101及び顔判定部102に映像信号が入力されると、符号化処理及び顔情報の出力が開始される。そして、時刻t1において、「顔ID0」の表情指数が表情指数閾値を超え、さらに時刻t2において、所定期間(t2−t1期間)顔ID0の表情指数が表情指数閾値を超えている状態を維持している。このため、基準フレーム設定判定部103は、基準フレームを設定すると判定し、符号化部101に対して基準フレーム設定情報を出力する。   When a video signal is input to the encoding unit 101 and the face determination unit 102 at time t0, encoding processing and face information output are started. At time t1, the facial expression index of “face ID 0” exceeds the facial expression index threshold, and at time t2, the facial expression index of face ID 0 exceeds the facial expression index threshold for a predetermined period (t2-t1 period). ing. Therefore, the reference frame setting determination unit 103 determines to set a reference frame, and outputs the reference frame setting information to the encoding unit 101.

また、時刻t3において、「顔ID1」の表情指数が表情指数閾値を超え、さらに時刻t4において、所定期間(t4−t3期間)「顔ID1」の表情指数が表情指数閾値を超えている状態を維持している。このため、基準フレーム設定判定部103は、基準フレームを設定すると判定し、符号化部101に対して基準フレーム設定情報を出力する。   At time t3, the expression index of “Face ID1” exceeds the expression index threshold, and at time t4, the expression index of “Face ID1” exceeds the expression index threshold for a predetermined period (t4-t3 period). Is maintained. Therefore, the reference frame setting determination unit 103 determines to set a reference frame, and outputs the reference frame setting information to the encoding unit 101.

時刻t5において、「顔ID0」の表情指数が表情指数閾値を超え、さらに時刻t6において、所定期間内(t6−t5期間)について「顔ID0」の表情指数が表情指数閾値を超えている状態を維持している。しかし、前回の時刻t2における基準フレーム設定から所定期間経過していないため、基準フレーム設定判定部103は、基準フレームを設定しないと禁止判定を行い、符号化部101に対して基準フレーム設定情報を出力しない。   At time t5, the expression index of “face ID 0” exceeds the expression index threshold, and at time t6, the expression index of “face ID 0” exceeds the expression index threshold within a predetermined period (t6 to t5 period). Is maintained. However, since the predetermined period has not elapsed since the reference frame setting at the previous time t2, the reference frame setting determination unit 103 determines prohibition unless the reference frame is set, and the reference frame setting information is sent to the encoding unit 101. Do not output.

このように、同一顔において、前回の基準フレーム設定から所定期間以内であれば、基準フレーム設定判定部103は、基準フレーム設定情報を出力しないことにより、必要最低限のフレームを基準フレームに設定することができる。   Thus, if the same face is within a predetermined period from the previous reference frame setting, the reference frame setting determination unit 103 sets the minimum necessary frame as the reference frame by not outputting the reference frame setting information. be able to.

なお、基準フレーム設定判定部103は、顔情報に含まれる「表情の種類」応じて、基準フレームを設定すると判定してもよい。例えば、笑顔の表情指数が表情指数閾値を超えた場合のみ基準フレームを設定すると判定し、泣き顔の表情指数が表情指数閾値を超えたとしても基準フレームを設定すると判定しないようにしてもよい。   Note that the reference frame setting determination unit 103 may determine to set a reference frame in accordance with the “expression type” included in the face information. For example, it may be determined that the reference frame is set only when the facial expression index of the smile exceeds the expression index threshold, and it is not determined that the reference frame is set even if the facial expression index of the crying face exceeds the expression index threshold.

次に、図11を参照して、顔情報に応じて基準フレームを設定する処理について説明する。
まず、ステップS1101において、ユーザにより選択された基準フレーム設定方法が決定される。基準フレーム設定方法とは、基準フレーム設定判定部103が基準フレームの設定判定に用いる方法のことである。
Next, a process for setting a reference frame according to face information will be described with reference to FIG.
First, in step S1101, the reference frame setting method selected by the user is determined. The reference frame setting method is a method used by the reference frame setting determination unit 103 for setting determination of a reference frame.

本実施形態では、図6、図7、図8、図9及び図10を用いて説明した基準フレーム設定方法がある。次に、ステップS1102において、符号化部101及び顔判定部102に映像信号が入力される。次に、ステップS1103において、顔判定部102は、映像信号を解析することにより顔判定処理を行い、処理結果を顔情報として出力する。   In the present embodiment, there is a reference frame setting method described with reference to FIGS. 6, 7, 8, 9, and 10. In step S <b> 1102, the video signal is input to the encoding unit 101 and the face determination unit 102. In step S1103, the face determination unit 102 performs face determination processing by analyzing the video signal, and outputs the processing result as face information.

次に、ステップS1104において、基準フレーム設定判定部103が顔情報及びユーザにより選択された基準フレーム設定方法に基いて、基準フレームを設定するか否かを判定する。この判定の結果、基準フレームを設定すると判定した場合は、ステップS1105に進み、符号化部101は、基準フレームを設定する。   In step S1104, the reference frame setting determination unit 103 determines whether to set a reference frame based on the face information and the reference frame setting method selected by the user. If it is determined that the reference frame is set as a result of the determination, the process proceeds to step S1105, and the encoding unit 101 sets the reference frame.

一方、ステップS1104の判定の結果、基準フレーム設定判定部103が、顔情報及びユーザにより選択された基準フレーム設定方法に基いて、基準フレームを設定しないと判定した場合はステップS1106に進む。ステップS1106においては、符号化部101は、符号化方式に準拠したピクチャタイプを設定する。   On the other hand, as a result of the determination in step S1104, if the reference frame setting determination unit 103 determines not to set a reference frame based on the face information and the reference frame setting method selected by the user, the process proceeds to step S1106. In step S1106, the encoding unit 101 sets a picture type conforming to the encoding method.

なお、符号化部101は発生する符号量を制御する符号量制御部を有し、基準フレーム設定情報に応じて設定した基準フレーム対する符号量制御を行うとよい。このとき、符号化方式に準拠して設定されるような、他の条件に基づく基準フレームよりも、顔情報に基づいて設定した基準フレームの符号量を多くするとよい。これにより、例えば、笑顔シーンで設定した基準フレームの画質が通常の基準フレームと比較して向上する。   Note that the encoding unit 101 may include a code amount control unit that controls a generated code amount, and may perform code amount control for a reference frame set according to reference frame setting information. At this time, the code amount of the reference frame set based on the face information may be larger than the reference frame based on other conditions such as set in accordance with the encoding method. Thereby, for example, the image quality of the reference frame set in the smile scene is improved as compared with the normal reference frame.

前述した実施形態においては、入力画像信号をH.264符号化方式に準拠して圧縮符号化し、基準フレームのピクチャタイプをIDRピクチャに設定するようにした。そして、顔情報がフレームを飛び越した参照を禁止する禁止条件に適合すると判定された場合に、飛び越し参照を禁止する基準フレームを設定する。しかし、入力画像信号をMPEG符号化方式に準拠して圧縮符号化し、基準フレームのピクチャタイプをIピクチャに設定するようにしてもよい。   In the embodiment described above, the input image signal is H.264. The picture type of the reference frame is set to the IDR picture by compressing and coding in accordance with the H.264 coding system. Then, when it is determined that the face information meets the prohibition condition for prohibiting the reference that skips frames, a reference frame that prohibits the jump reference is set. However, the input image signal may be compressed and encoded in accordance with the MPEG encoding method, and the picture type of the reference frame may be set to I picture.

本実施形態によれば、表情の度合いに応じて、必要最低限の画像フレームを基準フレームに設定し符号化を行うようにした。これにより、従来に比べ、符号化効率の低化を抑えながら表情の度合いが高いシーンからの迅速な再生及び容易な編集が可能な符号化ストリームを得ることができる効果が得られる。   According to the present embodiment, encoding is performed by setting the minimum necessary image frame as a reference frame in accordance with the degree of facial expression. As a result, it is possible to obtain an encoded stream that can be quickly reproduced and easily edited from a scene with a high degree of facial expression while suppressing a decrease in encoding efficiency as compared with the related art.

(本発明に係る他の実施形態)
前述した本発明の実施形態における画像符号化装置を構成する各手段は、コンピュータのRAMやROMなどに記憶されたプログラムが動作することによって実現できる。このプログラム及び前記プログラムを記録したコンピュータ読み取り可能な記録媒体は本発明に含まれる。
(Other embodiments according to the present invention)
Each means constituting the image coding apparatus according to the above-described embodiment of the present invention can be realized by operating a program stored in a RAM or ROM of a computer. This program and a computer-readable recording medium recording the program are included in the present invention.

また、本発明は、例えば、システム、装置、方法、プログラムもしくは記憶媒体等としての実施形態も可能であり、具体的には、複数の機器から構成されるシステムに適用してもよいし、また、一つの機器からなる装置に適用してもよい。   In addition, the present invention can be implemented as, for example, a system, apparatus, method, program, storage medium, or the like. Specifically, the present invention may be applied to a system including a plurality of devices. The present invention may be applied to an apparatus composed of a single device.

なお、本発明は、前述した画像符号化方法における各工程を実行するソフトウェアのプログラム(実施形態では図11に示すフローチャートに対応したプログラム)を、システムあるいは装置に直接、あるいは遠隔から供給する。そして、そのシステムあるいは装置のコンピュータが前記供給されたプログラムコードを読み出して実行することによっても達成される場合を含む。   In the present invention, a software program (in the embodiment, a program corresponding to the flowchart shown in FIG. 11) for executing each step in the above-described image encoding method is directly or remotely supplied to a system or apparatus. In addition, this includes a case where the system or the computer of the apparatus is also achieved by reading and executing the supplied program code.

したがって、本発明の機能処理をコンピュータで実現するために、前記コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明は、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。   Accordingly, since the functions of the present invention are implemented by computer, the program code installed in the computer also implements the present invention. In other words, the present invention includes a computer program itself for realizing the functional processing of the present invention.

その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等の形態であってもよい。   In that case, as long as it has the function of a program, it may be in the form of object code, a program executed by an interpreter, script data supplied to the OS, and the like.

プログラムを供給するための記録媒体としては種々の記録媒体を使用することができる。例えば、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、MO、CD−ROM、CD−R、CD−RW、磁気テープ、不揮発性のメモリカード、ROM、DVD(DVD−ROM,DVD−R)などがある。   Various recording media can be used as a recording medium for supplying the program. For example, floppy (registered trademark) disk, hard disk, optical disk, magneto-optical disk, MO, CD-ROM, CD-R, CD-RW, magnetic tape, nonvolatile memory card, ROM, DVD (DVD-ROM, DVD- R).

その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続する。そして、前記ホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記録媒体にダウンロードすることによっても供給できる。   As another program supply method, a browser on a client computer is used to connect to an Internet home page. The computer program itself of the present invention or a compressed file including an automatic installation function can be downloaded from the homepage by downloading it to a recording medium such as a hard disk.

また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるWWWサーバも、本発明に含まれるものである。   It can also be realized by dividing the program code constituting the program of the present invention into a plurality of files and downloading each file from a different homepage. That is, a WWW server that allows a plurality of users to download a program file for realizing the functional processing of the present invention on a computer is also included in the present invention.

また、本発明のプログラムを暗号化してCD−ROM等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせる。そして、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。   In addition, the program of the present invention is encrypted, stored in a storage medium such as a CD-ROM, distributed to users, and key information for decryption is downloaded from a homepage via the Internet to users who have cleared predetermined conditions. Let It is also possible to execute the encrypted program by using the key information and install the program on a computer.

また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、コンピュータ上で稼動しているOSなどが、実際の処理の一部または全部を行うことによっても前述した実施形態の機能が実現され得る。   In addition to the functions of the above-described embodiments being realized by the computer executing the read program, the OS running on the computer may perform part or all of the actual processing. The functions of the above-described embodiments can be realized.

さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれる。その後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現される。   Further, the program read from the recording medium is written in a memory provided in a function expansion board inserted into the computer or a function expansion unit connected to the computer. Thereafter, the CPU of the function expansion board or function expansion unit performs part or all of the actual processing based on the instructions of the program, and the functions of the above-described embodiments are realized by the processing.

本発明の実施形態を示し、画像符号化装置の構成例を示すブロック図である。1 is a block diagram illustrating an exemplary configuration of an image encoding device according to an embodiment of the present invention. 本発明の実施形態を示し、符号化部の構成例を示すブロック図である。It is a block diagram which shows embodiment of this invention and shows the structural example of an encoding part. 本発明の実施形態を示し、顔判定部の構成例を示すブロック図である。It is a block diagram which shows embodiment of this invention and shows the structural example of a face determination part. 本発明の実施形態を示し、映像信号から顔情報を出力する様子を説明する図である。It is a figure which shows embodiment of this invention and demonstrates a mode that face information is output from a video signal. 本発明の実施形態を示し、顔情報の内容の一例を説明する図である。It is a figure which shows embodiment of this invention and demonstrates an example of the content of face information. 本発明の実施形態を示し、基準フレーム設定方法の第1の例を説明する図である。It is a figure which shows embodiment of this invention and demonstrates the 1st example of the reference | standard frame setting method. 本発明の実施形態を示し、基準フレーム設定方法の第2の例を説明する図である。It is a figure which shows embodiment of this invention and demonstrates the 2nd example of the reference | standard frame setting method. 本発明の実施形態を示し、基準フレーム設定方法の第3の例を説明する図である。It is a figure which shows embodiment of this invention and demonstrates the 3rd example of the reference | standard frame setting method. 本発明の実施形態を示し、基準フレーム設定方法の第4の例を説明する図である。It is a figure which shows embodiment of this invention and demonstrates the 4th example of the reference | standard frame setting method. 本発明の実施形態を示し、基準フレーム設定方法の第5の例を説明する図である。It is a figure which shows embodiment of this invention and demonstrates the 5th example of the reference | standard frame setting method. 本発明の実施形態を示し、本発明の制御手順説明するフローチャートである。It is a flowchart which shows embodiment of this invention and demonstrates the control procedure of this invention. 従来例を示し、H.264におけるピクチャタイプ及びフレーム間予測に用いる参照画像の選択について説明する図である。A conventional example is shown. 2 is a diagram illustrating selection of a reference image used for picture type and inter-frame prediction in H.264. 従来例を示し、IDRピクチャについて説明する図である。It is a figure which shows a prior art example and demonstrates an IDR picture.

101 符号化部
102 顔判定部
103 基準フレーム設定判定部
201 フレーム並び替え部
202 減算器
203 整数変換部
204 量子化部
205 エントロピー符号化部
206 逆量子化部
207 逆整数変換部
208 加算器
209 第1のフレームメモリ
213 第2のフレームメモリ
210 イントラ予測部
211 第1のスイッチ
217 第2のスイッチ
212 デブロッキングフィルタ
214 インター予測部
215 動き検出部
216 ピクチャタイプ決定部
301 顔検出部
302 顔認識履歴データ記録部
303 顔認識部
304 表情判定部
305 スイッチ
DESCRIPTION OF SYMBOLS 101 Encoding part 102 Face determination part 103 Reference | standard frame setting determination part 201 Frame rearrangement part 202 Subtractor 203 Integer conversion part 204 Quantization part 205 Entropy encoding part 206 Inverse quantization part 207 Inverse integer conversion part 208 Adder 209 1st 1 frame memory 213 2nd frame memory 210 intra prediction unit 211 first switch 217 second switch 212 deblocking filter 214 inter prediction unit 215 motion detection unit 216 picture type determination unit 301 face detection unit 302 face recognition history data Recording unit 303 Face recognition unit 304 Expression determination unit 305 Switch

Claims (17)

複数のフレームから成る入力画像信号を圧縮符号化する画像符号化装置において、
前記入力画像信号を解析して顔を識別するための顔情報を作成する顔情報作成手段と、
前記入力画像信号を、フレーム間予測方式を利用して圧縮符号化する符号化手段と、
前記符号化手段における符号化対象フレームに対して前記顔情報作成手段により作成された顔情報に基づき、当該符号化対象フレームを飛び越したフレーム間予測での参照を禁止するか否かを判定する禁止判定手段と、
前記禁止判定手段により、前記符号化対象フレームを飛び越した参照を禁止すると判定された場合に、前記符号化対象フレームを飛び越し参照を禁止する基準フレームに設定する設定手段とを備えることを特徴とする画像符号化装置。
In an image encoding device that compresses and encodes an input image signal composed of a plurality of frames,
Face information creating means for analyzing the input image signal and creating face information for identifying a face;
Encoding means for compressing and encoding the input image signal using an inter-frame prediction method;
Prohibition to determine whether to prohibit reference in inter-frame prediction that skips over the encoding target frame based on the face information generated by the face information generation unit with respect to the encoding target frame in the encoding unit A determination means;
A setting unit configured to set the encoding target frame as a reference frame that prohibits jumping reference when it is determined by the prohibition determination unit that the reference skipping the encoding target frame is prohibited. Image encoding device.
前記入力画像信号に含まれるフレームから顔を検出する顔検出手段と、
前記顔検出手段によって検出された顔の表情を判定する表情判定手段とを備え、
前記禁止判定手段は、前記表情判定手段によって判定された表情の度合いに応じて前記符号化対象フレームを飛び越した参照を禁止するか否かを判定することを特徴とする請求項1に記載の画像符号化装置。
Face detection means for detecting a face from a frame included in the input image signal;
Facial expression determination means for determining facial expression detected by the face detection means,
2. The image according to claim 1, wherein the prohibition determination unit determines whether or not to prohibit the reference skipping the encoding target frame according to the degree of the facial expression determined by the facial expression determination unit. Encoding device.
前記顔検出手段は、少なくとも顔の基準座標及び顔の大きさを算出することを特徴とする請求項2に記載の画像符号化装置。   The image coding apparatus according to claim 2, wherein the face detection unit calculates at least a reference coordinate of the face and a size of the face. 前記表情判定手段は、複数段階の表情の度合いを表す表情指数を算出し、前記表情指数に基いて前記顔の表情を判定することを特徴とする請求項2に記載の画像符号化装置。   3. The image coding apparatus according to claim 2, wherein the facial expression determination unit calculates a facial expression index representing the degree of facial expression in a plurality of stages, and determines the facial expression based on the facial expression index. 前記表情判定手段は、前記表情指数に関する第1の閾値を設定する第1の閾値設定手段を備え、
前記禁止判定手段は、前記表情指数が前記第1の閾値を超えた場合に前記符号化対象フレームを飛び越した参照を禁止すると判定することを特徴とする請求項4に記載の画像符号化装置。
The facial expression determination means includes first threshold value setting means for setting a first threshold value related to the facial expression index,
The image encoding device according to claim 4, wherein the prohibition determination unit determines that reference that skips the encoding target frame is prohibited when the facial expression index exceeds the first threshold.
前記表情判定手段は、前記入力画像信号に含まれるフレームにおける顔の数に関する第2の閾値を設定する第2の閾値設定手段を備え、
前記禁止判定手段は、前記表情指数が前記第1の閾値を超えた顔の合計数が前記第2の閾値を超えた場合に前記符号化対象フレームを飛び越した参照を禁止すると判定することを特徴とする請求項5に記載の画像符号化装置。
The facial expression determination means includes second threshold setting means for setting a second threshold relating to the number of faces in a frame included in the input image signal,
The prohibition determination unit determines that reference that skips the encoding target frame is prohibited when the total number of faces whose facial expression index exceeds the first threshold exceeds the second threshold. The image encoding device according to claim 5.
前記顔検出手段は、顔の方向毎に顔個数を検出する顔方向検出手段を備えることを特徴とする請求項4〜6の何れか1項に記載の画像符号化装置。   The image coding apparatus according to claim 4, wherein the face detection unit includes a face direction detection unit that detects the number of faces for each face direction. 前記禁止判定手段は、前記表情指数が前記第1の閾値を超えた顔のうち、前記顔方向検出手段により検出された同じ方向を向いている顔の数が予め設定された閾値を超えた場合に前記符号化対象フレームを飛び越した参照を禁止すると判定することを特徴とする請求項7に記載の画像符号化装置。   The prohibition determination unit is configured such that, among faces whose facial expression index exceeds the first threshold, the number of faces facing the same direction detected by the face direction detection unit exceeds a preset threshold. The image encoding apparatus according to claim 7, wherein it is determined that reference that skips the encoding target frame is prohibited. 視聴者が注目する顔である主顔を判定する主顔判定手段を備え、
前記禁止判定手段は、前記主顔判定手段により判定された主顔の表情指数が前記第1の閾値を超えた場合に前記符号化対象フレームを飛び越した参照を禁止すると判定することを特徴とする請求項5に記載の画像符号化装置。
A main face determination means for determining a main face that is a face that is viewed by the viewer;
The prohibition determining means determines that reference that skips the encoding target frame is prohibited when the facial expression index of the main face determined by the main face determination means exceeds the first threshold. The image encoding device according to claim 5.
前記禁止判定手段は、前記表情指数が前記第1の閾値を超えている状態を所定期間維持した場合に前記符号化対象フレームを飛び越した参照を禁止すると判定することを特徴とする請求項5に記載の画像符号化装置。   The said prohibition determination means determines to prohibit the reference which skipped the said encoding object frame, when the state where the said facial expression index exceeds the said 1st threshold value is maintained for a predetermined period. The image encoding device described. 前記顔検出手段によって検出された顔を識別し、現フレームの第1の顔が過去フレームの第2の顔と一致するか否かを判定する顔認識手段を備え、
前記禁止判定手段によって前記符号化対象フレームを飛び越した参照を禁止すると判定された前記第2の顔のフレームから所定期間内において、前記禁止判定手段は、前記顔認識手段によって前記第2の顔と一致すると判定された前記第1の顔に対しては飛び越し参照を禁止する判定を行わないことを特徴とする請求項2に記載の画像符号化装置。
Face recognition means for identifying the face detected by the face detection means and determining whether or not the first face of the current frame matches the second face of the past frame;
Within a predetermined period from the frame of the second face determined to prohibit the reference that skipped the encoding target frame by the prohibition determination unit, the prohibition determination unit determines that the face recognition unit and the second face are The image coding apparatus according to claim 2, wherein the first face determined to match is not determined to prohibit interlaced reference.
前記表情判定手段は、笑顔、泣き顔及び怒り顔のうち、少なくとも1つの表情を判定することを特徴とする請求項2に記載の画像符号化装置。   The image coding apparatus according to claim 2, wherein the facial expression determination means determines at least one facial expression among a smile, a crying face, and an angry face. 前記符号化手段は、発生する符号量を制御する符号量制御手段を備え、
前記符号量制御手段は、前記禁止判定手段により前記符号化対象フレームを飛び越した参照を禁止すると判定された場合に設定する前記基準フレームに対する符号量を、他の条件に基づいて設定する基準フレームよりも多くすることを特徴とする請求項1に記載の画像符号化装置。
The encoding means includes code amount control means for controlling the amount of code generated,
The code amount control unit is configured to set a code amount for the reference frame to be set based on other conditions when the prohibition determining unit determines that the reference that skips the encoding target frame is prohibited. The image encoding device according to claim 1, wherein the image encoding device is also increased.
前記符号化手段は、前記入力画像信号をH.264符号化方式に準拠して圧縮符号化し、
前記基準フレームのピクチャタイプをIDRピクチャに設定することを特徴とする請求項1に記載の画像符号化装置。
The encoding means converts the input image signal to H.264. H.264 encoding and compression encoding,
2. The image encoding apparatus according to claim 1, wherein the picture type of the reference frame is set to an IDR picture.
前記符号化手段は、前記入力画像信号をMPEG符号化方式に準拠して圧縮符号化し、
前記基準フレームのピクチャタイプをIピクチャに設定することを特徴とする請求項1に記載の画像符号化装置。
The encoding means compresses and encodes the input image signal in accordance with an MPEG encoding method,
The picture coding apparatus according to claim 1, wherein the picture type of the reference frame is set to I picture.
複数のフレームから成る入力画像信号を圧縮符号化する画像符号化方法において、
前記入力画像信号を解析して顔を識別するための顔情報を作成する顔情報作成工程と、
前記入力画像信号を、フレーム間予測方式を利用して圧縮符号化する符号化工程と、
前記符号化工程における符号化対象フレームに対して前記顔情報作成工程において作成された顔情報に基づき、当該符号化対象フレームを飛び越したフレーム間予測での参照を禁止するか否かを判定する禁止判定工程と、
前記禁止判定工程において、前記符号化対象フレームを飛び越した参照を禁止すると判定された場合に、前記符号化対象フレームを飛び越し参照を禁止する基準フレームに設定する設定工程とを備えることを特徴とする画像符号化方法。
In an image encoding method for compressing and encoding an input image signal composed of a plurality of frames,
A face information creation step of analyzing the input image signal and creating face information for identifying a face;
An encoding step of compressing and encoding the input image signal using an inter-frame prediction method;
Prohibition of determining whether to prohibit reference in inter-frame prediction that skips over the encoding target frame based on the face information generated in the face information generation step with respect to the encoding target frame in the encoding step A determination process;
And a setting step of setting the encoding target frame to a reference frame that prohibits jumping reference when it is determined in the prohibition determination step that the reference skipping the encoding target frame is prohibited. Image coding method.
複数のフレームから成る入力画像信号を圧縮符号化する処理をコンピュータに実行させるコンピュータプログラムにおいて、
前記入力画像信号を解析して顔を識別するための顔情報を作成する顔情報作成工程と、
前記入力画像信号を、フレーム間予測方式を利用して圧縮符号化する符号化工程と、
前記符号化工程における符号化対象フレームに対して前記顔情報作成工程において作成された顔情報に基づき、当該符号化対象フレームを飛び越したフレーム間予測での参照を禁止するか否かを判定する禁止判定工程と、
前記禁止判定工程において、前記符号化対象フレームを飛び越した参照を禁止すると判定された場合に、前記符号化対象フレームを飛び越し参照を禁止する基準フレームに設定する設定工程とをコンピュータに実行させることを特徴とするコンピュータプログラム。
In a computer program for causing a computer to execute a process of compressing and encoding an input image signal composed of a plurality of frames,
A face information creation step of analyzing the input image signal and creating face information for identifying a face;
An encoding step of compressing and encoding the input image signal using an inter-frame prediction method;
Prohibition of determining whether to prohibit reference in inter-frame prediction that skips over the encoding target frame based on the face information generated in the face information generation step with respect to the encoding target frame in the encoding step A determination process;
Causing the computer to execute a setting step of setting the encoding target frame to a reference frame that prohibits jumping reference when it is determined in the prohibition determination step that the reference skipping the encoding target frame is prohibited. A featured computer program.
JP2009003971A 2009-01-09 2009-01-09 Image coding apparatus and image coding method Active JP5100667B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009003971A JP5100667B2 (en) 2009-01-09 2009-01-09 Image coding apparatus and image coding method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009003971A JP5100667B2 (en) 2009-01-09 2009-01-09 Image coding apparatus and image coding method

Publications (3)

Publication Number Publication Date
JP2010161740A true JP2010161740A (en) 2010-07-22
JP2010161740A5 JP2010161740A5 (en) 2012-02-16
JP5100667B2 JP5100667B2 (en) 2012-12-19

Family

ID=42578539

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009003971A Active JP5100667B2 (en) 2009-01-09 2009-01-09 Image coding apparatus and image coding method

Country Status (1)

Country Link
JP (1) JP5100667B2 (en)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017123579A (en) * 2016-01-07 2017-07-13 株式会社見果てぬ夢 Neo medium generation device, neo medium generation method, and neo medium generation program
US10841645B1 (en) 2019-12-09 2020-11-17 Western Digital Technologies, Inc. Storage system and method for video frame segregation to optimize storage
US10897627B2 (en) 2019-01-11 2021-01-19 Western Digital Technologies, Inc. Non-volatile memory system including a partial decoder and event detector for video streams
US11064194B2 (en) 2019-10-31 2021-07-13 Western Digital Technologies, Inc. Encoding digital videos using controllers of data storage devices
CN113286147A (en) * 2020-02-20 2021-08-20 夏普株式会社 Image encoding device and image encoding method
US11328511B2 (en) 2020-03-13 2022-05-10 Western Digital Technologies, Inc. Storage system and method for improved playback analysis
US11523145B2 (en) 2021-01-04 2022-12-06 Western Digital Technologies, Inc. Data storage device and method for real-time data locking in surveillance storage
US11526435B2 (en) 2020-02-04 2022-12-13 Western Digital Technologies, Inc. Storage system and method for automatic data phasing
US11562018B2 (en) 2020-02-04 2023-01-24 Western Digital Technologies, Inc. Storage system and method for optimized surveillance search

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006157893A (en) * 2004-10-27 2006-06-15 Matsushita Electric Ind Co Ltd Imaging device
JP2008005349A (en) * 2006-06-23 2008-01-10 Yamaha Corp Video encoder, video transmission apparatus, video encoding method, and video transmission method
JP2008276707A (en) * 2007-04-04 2008-11-13 Sony Corp Image storage device, reproduction device, imaging device, image reproduction system, processing method for them, and program
JP2009268032A (en) * 2008-04-30 2009-11-12 Canon Inc Imaging apparatus

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006157893A (en) * 2004-10-27 2006-06-15 Matsushita Electric Ind Co Ltd Imaging device
JP2008005349A (en) * 2006-06-23 2008-01-10 Yamaha Corp Video encoder, video transmission apparatus, video encoding method, and video transmission method
JP2008276707A (en) * 2007-04-04 2008-11-13 Sony Corp Image storage device, reproduction device, imaging device, image reproduction system, processing method for them, and program
JP2009268032A (en) * 2008-04-30 2009-11-12 Canon Inc Imaging apparatus

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017123579A (en) * 2016-01-07 2017-07-13 株式会社見果てぬ夢 Neo medium generation device, neo medium generation method, and neo medium generation program
US10897627B2 (en) 2019-01-11 2021-01-19 Western Digital Technologies, Inc. Non-volatile memory system including a partial decoder and event detector for video streams
US11064194B2 (en) 2019-10-31 2021-07-13 Western Digital Technologies, Inc. Encoding digital videos using controllers of data storage devices
US11503285B2 (en) 2019-10-31 2022-11-15 Western Digital Technologies, Inc. Encoding digital videos using controllers of data storage devices
US10841645B1 (en) 2019-12-09 2020-11-17 Western Digital Technologies, Inc. Storage system and method for video frame segregation to optimize storage
US11526435B2 (en) 2020-02-04 2022-12-13 Western Digital Technologies, Inc. Storage system and method for automatic data phasing
US11562018B2 (en) 2020-02-04 2023-01-24 Western Digital Technologies, Inc. Storage system and method for optimized surveillance search
CN113286147A (en) * 2020-02-20 2021-08-20 夏普株式会社 Image encoding device and image encoding method
US11328511B2 (en) 2020-03-13 2022-05-10 Western Digital Technologies, Inc. Storage system and method for improved playback analysis
US11523145B2 (en) 2021-01-04 2022-12-06 Western Digital Technologies, Inc. Data storage device and method for real-time data locking in surveillance storage

Also Published As

Publication number Publication date
JP5100667B2 (en) 2012-12-19

Similar Documents

Publication Publication Date Title
JP5100667B2 (en) Image coding apparatus and image coding method
WO2009113280A1 (en) Image processing device and imaging device equipped with same
JP2004187161A (en) Moving video data processing equipment and moving video data processing method
US20110317761A1 (en) Image coding apparatus and image coding method
US8165217B2 (en) Image decoding apparatus and method for decoding prediction encoded image data
JP2005109606A (en) Signal processing method, signal processing apparatus, recording apparatus, and reproducing apparatus
US8155185B2 (en) Image coding apparatus and method
JP4284370B2 (en) Video server and video editing system
JPWO2005088964A1 (en) Recording / playback editing device
JP4585919B2 (en) Image coding apparatus and image coding method
US8594195B2 (en) Method and apparatus for encoding and decoding at least one image frame that is artificially inserted into image sequence
JP2009302755A (en) Storage reproducer, storage device, reproducer, and storage reproduction method
TW571588B (en) Modifying video signals by converting non-intra pictures
JP4795211B2 (en) Image encoding apparatus, image encoding apparatus control method, program, and storage medium
JP3951152B2 (en) Image coding apparatus and method
JP4574530B2 (en) Image coding apparatus and image coding method
JP4154799B2 (en) Compressed video editing apparatus and storage medium
JP2010050616A (en) Recording device and recording method, reproduction device and reproduction method, program, and recording/reproducing device
JP4399744B2 (en) Program, information processing apparatus, information processing method, and recording medium
JPWO2008129648A1 (en) Frame rate conversion apparatus, frame rate conversion method, and moving picture encoding apparatus
JP5094750B2 (en) Moving picture coding apparatus and moving picture coding method
JP2007129489A (en) Picture reproducer and picture reproduction method
JP2009272929A (en) Video encoder, and video encoding method
JP5859100B2 (en) Image recording device
JP3645254B2 (en) Image data recording system and image data recording method

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111228

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120828

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120829

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120925

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151005

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 5100667

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151005

Year of fee payment: 3