JP2006332882A - Moving picture coding apparatus - Google Patents
Moving picture coding apparatus Download PDFInfo
- Publication number
- JP2006332882A JP2006332882A JP2005151219A JP2005151219A JP2006332882A JP 2006332882 A JP2006332882 A JP 2006332882A JP 2005151219 A JP2005151219 A JP 2005151219A JP 2005151219 A JP2005151219 A JP 2005151219A JP 2006332882 A JP2006332882 A JP 2006332882A
- Authority
- JP
- Japan
- Prior art keywords
- line
- sight
- unit
- information
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Compression Or Coding Systems Of Tv Signals (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
この発明は、動画像を圧縮符号化する動画像符号化装置に関するものである。 The present invention relates to a moving image encoding apparatus for compressing and encoding a moving image.
従来の動画像符号化装置としては、視線入力装置と注目領域検出装置と映像符号化制御装置を設けることにより、実時間で注目領域の品質を重視した受信映像を見ることが可能な映像通信システムが提供されている(例えば、特許文献1参照)。 As a conventional video encoding device, a video communication system capable of viewing received video that emphasizes the quality of a region of interest in real time by providing a line-of-sight input device, a region of interest detection device, and a video encoding control device Is provided (for example, refer to Patent Document 1).
従来の動画像符号化装置は、以上のように構成されていたので、注目領域を検出する際に、ある時刻における視線位置データから注目領域を検出しているため、同一映像が続いた時に、視線が頻繁に動いた場合には、映像が歪んで見えるという課題があった。
また、従来の画像符号化装置は一人の人を対象としており、複数の人の視線情報を利用することができないという課題があった。
Since the conventional video encoding device is configured as described above, when detecting the attention area, the attention area is detected from the line-of-sight position data at a certain time, so when the same video continues, When the line of sight moves frequently, there is a problem that the image looks distorted.
Further, the conventional image encoding device is intended for one person, and there is a problem that it is impossible to use the line-of-sight information of a plurality of persons.
この発明は上記のような課題を解消するためになされたもので、ある期間内の視線位置データを分析することによって、時間方向の視線情報を考慮して注目領域を検出することで、高画質な映像を実現する動画像符号化装置を得ることを目的とする。
また、画像の特徴情報(色検出、人物検出、文字検出等)を利用することで、特徴のある画像の画質改善を図ることを目的とする。
更に、複数の人の視線情報を利用して注目領域を検出することで、高画質な映像を実現することを目的とする。
The present invention has been made to solve the above-described problems. By analyzing the line-of-sight position data within a certain period and detecting the attention area in consideration of the line-of-sight information in the time direction, the image quality can be improved. An object of the present invention is to obtain a moving picture coding apparatus that realizes a simple video.
Another object of the present invention is to improve the image quality of a characteristic image by using image feature information (color detection, person detection, character detection, etc.).
It is another object of the present invention to realize a high-quality video by detecting a region of interest using gaze information of a plurality of people.
この発明に係る動画像符号化装置は、映像の入力信号を複数の画素からなるブロックに分割した分割信号を出力するブロック化部と、前記入力信号に同期して、前記映像を観察する少なくとも1人以上の観察者の視線を検出した視線情報を出力する視線検出部と、前記視線情報を解析した視線解析情報を出力する視線情報解析部と、前記視線解析情報に基づいて符号化パラメータを設定する符号化パラメータ設定部と、前記符号化パラメータに基づいて前記分割信号を符号化するビデオ符号化部とを備えている。 The moving image encoding apparatus according to the present invention includes a blocking unit that outputs a divided signal obtained by dividing a video input signal into blocks composed of a plurality of pixels, and at least one for observing the video in synchronization with the input signal. A line-of-sight detection unit that outputs line-of-sight information that detects the line of sight of more than one observer, a line-of-sight information analysis unit that outputs line-of-sight analysis information obtained by analyzing the line-of-sight information, and sets encoding parameters based on the line-of-sight analysis information An encoding parameter setting unit that performs encoding, and a video encoding unit that encodes the divided signal based on the encoding parameter.
この発明によれば、ある期間内の視線情報を解析することによって、一時的に視線が乱れた場合の視線情報を注目領域から除くことができ、視線が十分集中している領域に対して目標情報量を多く割り当てることができる。これにより、視線が注がれている領域の画質を改善することができる。 According to the present invention, by analyzing the line-of-sight information within a certain period, it is possible to remove the line-of-sight information when the line of sight is temporarily disturbed from the attention area, and target the area where the line of sight is sufficiently concentrated. A large amount of information can be allocated. Thereby, the image quality of the region where the line of sight is poured can be improved.
実施の形態1.
以下、この発明の実施の形態1について説明する。図1は、この発明の実施の形態1に係る動画像符号化装置の構成を示すブロック図である。図1において、本動画像符号化装置は、画像表示部101と、視線検出部106と、視線情報解析部107と、符号化パラメータ設定部103と、ブロック化部104と、ビデオ符号化部105を備えている。
次に、動作について説明する。画像表示部101は入力信号201に基づいて映像を表示する。ここで、入力信号201は入力画像信号または予測誤差信号であり、復号されているものとする。画像表示部101に表示された映像を観察者100が観察する。視線検出部106は、観察者100が観察している視線202を検出して、視線位置データの集合である視線情報203を出力する。視線検出部106が観察者100の視線を検出する際に入力信号201との同期をとるために、入力信号201が視線検出部106にも入力されている。
Next, the operation will be described. The
それと並行して、ブロック化部104は、入力信号201を複数の画素からなるブロックに分割して分割信号206を出力する。
In parallel with this, the
視線情報解析部107は、ビデオ符号化部105から出力された符号化データ207を基に、視線検出部106から出力された視線情報203を解析して注目領域の判定を行い、視線解析データ204を出力する。ここで、判定に用いる符号化データ207は、時間的に現在より前のフレームの符号化データ(以下、前符号化データ)である。
The line-of-sight
以下、視線情報解析部107の動作について詳細に説明する。図2は、実施の形態1において、時刻T1〜T3間の視線位置データを示した図である。図2(a)は時刻T1〜T2間の視線位置データを、図2(b)は時刻T2〜T3間の視線位置データを示している。図2において、視線位置データの分布を解析する際に、視線情報解析部107が画面を一例として64分割している。また、黒丸が観察者100の視線202の位置、即ち視線位置データを示しており、時間が経過するにつれて視線202が広がっていく様子を示している。
Hereinafter, the operation of the line-of-sight
図3は、図1中の視線情報解析部107が注目領域を判定する処理フローを示すフローチャートである。視線情報解析部107は、視線検出部106からの視線情報203を一定期間分蓄積しておき、同期間分の視線情報203を解析する。
FIG. 3 is a flowchart illustrating a processing flow in which the line-of-sight
先ず、ステップST1において、図2で分割したブロックのうち、対象ブロック内の視線位置データをカウントする。そして、同ブロック内の視線位置データの累算値(以下、ブロック内累算値)を算出する。 First, in step ST1, the line-of-sight position data in the target block among the blocks divided in FIG. 2 is counted. Then, an accumulated value of the line-of-sight position data in the block (hereinafter, an accumulated value in the block) is calculated.
次に、ステップST2において、ブロック内累算値が1より大きいかどうかを判定する。対象ブロックのブロック内累算値が1より大きければST3へ移行し、1以下であればステップST5へ移行する。 Next, in step ST2, it is determined whether or not the intra-block accumulated value is greater than one. If the in-block accumulated value of the target block is greater than 1, the process proceeds to ST3, and if it is 1 or less, the process proceeds to step ST5.
ステップST3へ移行した場合、ステップST3において、「割合=ブロック内累算値/総視線位置データ数」を算出する。そして、ブロック内累算値が、1ピクチャ当たりの総視線位置データ数に占める割合(以下、ブロック内割合)を求める。 When the process proceeds to step ST3, “ratio = accumulated value in block / total number of line-of-sight position data” is calculated in step ST3. Then, the ratio of the accumulated value in the block to the total number of line-of-sight position data per picture (hereinafter referred to as the ratio in the block) is obtained.
次に、ステップST4においてブロック内割合を任意の値Xと比較する。ブロック内割合がXよりも大きい場合は、対象ブロックを第1注目領域と判定する。一方、ブロック内割合がX以下の場合には、対象ブロックを第2注目領域と判定してステップST7へ移行する。ステップST7については後述する。 Next, the in-block ratio is compared with an arbitrary value X in step ST4. When the in-block ratio is larger than X, the target block is determined as the first attention area. On the other hand, if the in-block ratio is equal to or less than X, the target block is determined as the second region of interest, and the process proceeds to step ST7. Step ST7 will be described later.
前述のステップST2からステップST5へ移行した場合、ブロック内累算値が1と等しいかどうか判定する。ブロック内累算値が1と等しい場合はステップST6へ移行する。一方、ブロック内累算値が1と等しくない場合(即ち、ブロック内累算値が0の場合)には、対象ブロックを非注目領域と判定する。 When the process proceeds from step ST2 to step ST5, it is determined whether or not the accumulated value in the block is equal to 1. If the accumulated value in the block is equal to 1, the process proceeds to step ST6. On the other hand, when the intra-block accumulated value is not equal to 1 (that is, when the intra-block accumulated value is 0), the target block is determined as a non-attention area.
ステップST6へ移行した場合、対象ブロックに隣接するブロック内の視線位置データの累算値(以下、隣接ブロックの累算値)が0かどうか判定する。隣接ブロックの累算値が0の場合は、対象ブロックを非注目領域と判定する。一方、隣接ブロックの累算値が0でない場合には、対象ブロックを第2注目領域と判定し、ステップST7へ移行する。 When the process proceeds to step ST6, it is determined whether the accumulated value of the line-of-sight position data in the block adjacent to the target block (hereinafter, the accumulated value of the adjacent block) is zero. When the accumulated value of the adjacent block is 0, the target block is determined as a non-target area. On the other hand, if the accumulated value of the adjacent block is not 0, the target block is determined as the second region of interest, and the process proceeds to step ST7.
次に、ステップST7において、隣接ブロックが非注目領域であるかどうかの判定を行う。隣接ブロックが非注目領域であれば、対象ブロックを第2注目領域のままとする。一方、隣接ブロックが非注目領域ではない場合、即ち注目領域である場合には、対象ブロックを第1注目領域に変更する。 Next, in step ST7, it is determined whether or not the adjacent block is a non-target area. If the adjacent block is a non-attention area, the target block remains as the second attention area. On the other hand, if the adjacent block is not a non-attention area, that is, if it is an attention area, the target block is changed to the first attention area.
図3において、注目領域を第1注目領域と第2注目領域の2種類としているが、より多くの注目領域に分類してもよい。また、視線位置データの累算値を元に注目領域の判定を行っているが、視線位置データに注視時間を乗じた値を累算値として注目領域の判定を行ってもよい。 In FIG. 3, the attention areas are two types of the first attention area and the second attention area, but the attention areas may be classified into more attention areas. Further, although the attention area is determined based on the accumulated value of the line-of-sight position data, the attention area may be determined using a value obtained by multiplying the line-of-sight position data by the gaze time as an accumulated value.
ブロック化部104で分割されたブロックの中で、視線情報解析部107により決定された注目領域を含むブロックの目標情報量を多くすることで、注目領域の画質を改善する。図2においては、注目領域が広がっていくので、目標情報量を多くするブロック数が時間の経過と共に増える。そして、注目領域以外の領域(非注目領域)は目標情報量を削減し、1ピクチャ内の総目標情報量は変わらないようにする。
The image quality of the attention area is improved by increasing the target information amount of the block including the attention area determined by the line-of-sight
図4は、実施の形態1において、目標情報量の設定変更例を示した図である。図4では、例として1ピクチャを64分割している。図4(a)は目標情報量の初期値であり、1ピクチャ分の目標情報量(6400bit)を総ブロック数(64個)で割った、各ブロックの目標情報量は同一値(100bit)となる。 FIG. 4 is a diagram illustrating a setting change example of the target information amount in the first embodiment. In FIG. 4, one picture is divided into 64 as an example. FIG. 4A shows an initial value of the target information amount. The target information amount of each block obtained by dividing the target information amount for one picture (6400 bits) by the total number of blocks (64) is the same value (100 bits). Become.
図4(b)は、図2(a)の視線位置データから注目領域を指定した図である。図4(b)中の斜線ブロックが注目領域である。図2(a)のB1、B2、B3、B4ブロックは、視線位置データが集中しているため、第1注目領域と判定される。B5、B6、B7ブロックは、視線位置データが1つしか存在せず、隣接ブロックにも視線位置データが存在しないため、非注目領域と判定される。そして、注目領域の周辺は、視覚的に認識されやすいため、目標情報量を削減しない第2注目領域とする。図4(b)において、一例として、第1注目領域(斜線ブロック)の目標情報量を2.20倍、第2注目領域の(横線ブロック)の目標情報量を1.00倍(初期設定のまま)、非注目領域(空白ブロック)の目標情報量を0.90倍している。1ピクチャの総目標情報量は図4(a)、図4(b)共に同じである。 FIG. 4B is a diagram in which a region of interest is designated from the line-of-sight position data of FIG. A hatched block in FIG. 4B is a region of interest. The blocks B1, B2, B3, and B4 in FIG. 2A are determined as the first region of interest because the line-of-sight position data is concentrated. The B5, B6, and B7 blocks have only one line-of-sight position data, and the line-of-sight position data also does not exist in adjacent blocks, so that they are determined as non-attention areas. Since the periphery of the attention area is easily visually recognized, the second attention area that does not reduce the target information amount is set. In FIG. 4B, as an example, the target information amount of the first region of interest (hatched block) is 2.20 times, and the target information amount of the second region of interest (horizontal line block) is 1.00 times (initial setting). The target information amount of the non-attention area (blank block) is multiplied by 0.90. The total target information amount of one picture is the same in both FIG. 4 (a) and FIG. 4 (b).
再び図1において、符号化パラメータ設定部103は、視線解析データ204と符号化データ207とを入力して符号化パラメータ205を設定して出力する。ここで入力される符号化データ207は、視線情報解析部107と同様に、前符号化データである。
In FIG. 1 again, the encoding
ビデオ符号化部105は、符号化パラメータ205に基づいて分割信号206を符号化して、符号化データ207を出力する。この符号化データ207は、次フレーム以降を符号化する際に、視線情報解析部107で注目領域を判定するために用いられる。
The
以上のように、この実施の形態1によれば、一定期間内の視線情報203を解析することによって、一時的に視線が乱れた場合の視線情報203を注目領域から除くことができ、視線が十分集中している領域に対して目標情報量を多く割り当てることができる。その結果、視線が注がれている領域の画質を改善することができる。
As described above, according to the first embodiment, by analyzing the line-of-
実施の形態2.
以下、この発明の実施の形態2について説明する。図5は、この発明の実施の形態2に係る動画像符号化装置の構成を示すブロック図である。実施の形態2に係る動画像符号化装置は、実施の形態1に係る動画像符号化装置(図1)に画像特徴抽出部102を追加した構成である。その他の構成は実施の形態1と同様であるので説明を省略する。
Embodiment 2. FIG.
The second embodiment of the present invention will be described below. FIG. 5 is a block diagram showing the configuration of the moving picture coding apparatus according to Embodiment 2 of the present invention. The moving picture coding apparatus according to Embodiment 2 has a configuration in which an image
次に、動作について説明する。画像特徴抽出部102は、入力信号201を入力し、画像に含まれる特徴を抽出して、画像特徴信号208を出力する。符号化パラメータ設定部103は、画像特徴信号208と視線解析データ204と前符号化データ207から符号化パラメータの設定を行う。ブロック化部104は、入力信号201を複数の画素からなるブロックに分割して分割信号206を出力する。ビデオ符号化部105は、符号化パラメータ205に基づいて分割信号206を符号化して、符号化データ207を出力する。その他の動作は実施の形態1と同様であるので説明を省略する。
Next, the operation will be described. The image
以下、画像特徴抽出部102の動作について詳細に説明する。図6は、実施の形態2において、ある期間内の視線位置データを示した図である。例として、画面を64分割している。視線位置データは画面中央付近の楕円内に集中しているが、楕円外にも視線位置データは点在している。ここで、画像特徴抽出部102が、同画面内に人物と文字が映っていることを検出することにより、楕円外に点在した視線位置データが、人物と文字が映っている領域(以下、特徴領域)に含まれていることがわかる。
Hereinafter, the operation of the image
ブロック化部104で分割されたブロックの中で、視線情報解析部107により決定された注目領域を含むブロックの目標情報量を多くすることで、注目領域の画質を改善する。また、画像特徴抽出部102で検出された特徴領域に視線が向いていた場合も、該当ブロックの目標情報量を多くすることで、画質の改善を図る。そして、注目領域及び特徴領域以外の領域は目標情報量を削減し、1ピクチャ内の総目標情報量は変わらないようにする。
The image quality of the attention area is improved by increasing the target information amount of the block including the attention area determined by the line-of-sight
図7は、実施の形態2において、目標情報量の設定変更例を示した図である。例として、画面を64分割している。図7(a)は目標情報量の初期値であり、1ピクチャ分の目標情報量を総ブロック数で割ったものであり、各ブロックは同一値となる。図7(b)は図6の視線位置データから注目領域及び特徴量域を指定した図である。図7(b)において、注目領域(斜線ブロック)の目標情報量を2.00倍、特徴領域(波線ブロック)の目標情報量を1.60倍、注目領域及び特徴領域の周辺(横線ブロック)の目標情報量を1.00倍(初期設定のまま)、非注目領域(空白ブロック)の目標情報量を0.80倍している。1ピクチャの総目標情報量は図7(a)、図7(b)共に同じである。 FIG. 7 is a diagram illustrating a setting change example of the target information amount in the second embodiment. As an example, the screen is divided into 64 parts. FIG. 7A shows an initial value of the target information amount, which is obtained by dividing the target information amount for one picture by the total number of blocks, and each block has the same value. FIG. 7B is a diagram in which a region of interest and a feature amount region are designated from the line-of-sight position data of FIG. In FIG. 7B, the target information amount of the attention area (shaded block) is 2.00 times, the target information amount of the feature area (wavy line block) is 1.60 times, and the periphery of the attention area and the feature area (horizontal line block). The target information amount of the non-target area (blank block) is multiplied by 0.80 times. The total target information amount of one picture is the same in both FIG. 7 (a) and FIG. 7 (b).
以上のように、この実施の形態2によれば、ある期間内の視線情報203を解析し、更に画像の特徴を考慮することによって、視線が十分集中している領域と、視線が集中していなくても画像に特徴がある領域に対して目標情報量を多く割り当てることができる。これにより、視線が注がれている領域と特徴のある領域の画質を改善することができる。
As described above, according to the second embodiment, by analyzing the line-of-
実施形態3.
以下、この発明の実施の形態3について説明する。図8は、この発明の実施の形態3に係る動画像符号化装置の構成を示すブロック図である。実施の形態3に係る動画像符号化装置は、実施の形態2に係る動画像符号化装置(図5)に注目領域演算部109と注目領域蓄積部110を追加した構成である。なお、図8の上段と下段は注目領域蓄積部110を接続点として連続しているが、上段と下段それぞれが別に動作する。その他の構成は実施の形態2と同様であるので説明を省略する。
Embodiment 3. FIG.
The third embodiment of the present invention will be described below. FIG. 8 is a block diagram showing the configuration of the moving picture coding apparatus according to Embodiment 3 of the present invention. The moving picture coding apparatus according to Embodiment 3 has a configuration in which attention
次に、動作について説明する。入力画像データ108は、映像を格納した媒体である。画像表示部101は、入力画像データ108の入力信号201に基づいて映像を表示する。画像表示部101に表示された映像を観察者100が観察する。視線検出部106は、観察者100が観察している視線202を検出して、視線情報203を出力する。視線情報解析部107は、視線情報203を解析して視線解析データ204を出力する。画像特徴抽出部102は、画像に含まれる特徴を抽出して画像特徴信号208を出力する。
Next, the operation will be described. The
注目領域演算部109は、入力された視線解析データ204と画像特徴信号208に基づいて、画像の注目領域を算出して注目領域特定信号209を出力する。注目領域蓄積部110には、注目領域特定信号209が入力され、どのような画像に視線が注がれているのか、映像全体の情報が保存される。
The attention
符号化パラメータ設定部103は注目領域蓄積部110から出力される注目領域蓄積データ210(映像全体の情報が保存されている)に基づいて、符号化パラメータ205を設定して出力する。注目領域蓄積部110には映像全体の情報が保存されているため、符号化済みの過去の情報だけでなく、未だ符号化していない未来の情報も利用することができる。例えば、視線が集中する領域が広がることがわかっている場合には、予め目標情報量を多く割り当てる領域を広く設定することにより、画質改善を図ることができる。
The encoding
また、あるブロックに対する視線の注視時間が長いことがわかっている場合には、視線が注視し始めた時から当該ブロックの情報量を多く割り当てることにより、画質改善を図ることができる。 When it is known that the gaze time of a line of sight for a certain block is long, the image quality can be improved by assigning a large amount of information of the block from the time when the line of sight begins to gaze.
ブロック化部104は、入力信号201を複数の画素からなるブロックに分割して分割信号206を出力する。ここで、入力信号211は入力信号201と同じ信号である。ビデオ符号化部105は、符号化パラメータ205に基づいて分割信号206を符号化して、符号化データ207を出力する。
The blocking
以上のように、この実施の形態3によれば、注目領域蓄積部110に映像全体の視線解析データ204と画像特徴信号208を蓄積しているので、符号化の際には、過去の情報だけでなく、未来の情報も利用できる。これにより、視線が今後注がれる領域に、前もって情報量を配分することが可能となり、画質改善を図ることができる。
As described above, according to the third embodiment, since the line-of-
実施の形態4.
以下、この発明の実施の形態4について説明する。図9は、この発明の実施の形態4に係る動画像符号化装置の構成を示すブロック図である。実施の形態4に係る動画像符号化装置は、実施の形態2に係る動画像符号化装置(図5)に学習データ演算部111と学習データ蓄積部112を追加した構成である。その他の構成は実施の形態2と同様であるので説明を省略する。
Embodiment 4 FIG.
The fourth embodiment of the present invention will be described below. FIG. 9 is a block diagram showing the configuration of the moving picture coding apparatus according to Embodiment 4 of the present invention. The moving picture coding apparatus according to Embodiment 4 has a configuration in which learning
次に、動作について説明する。画像表示部101は入力信号201に基づいて映像を表示する。画像表示部101に表示された映像を観察者100が観察する。視線検出部106は、観察者100が観察している視線202を検出して、視線情報203を出力する。視線情報解析部107は、前符号化データ207を基に視線情報203を解析して、視線解析データ204を出力する。画像特徴抽出部102は、画像に含まれる特徴を抽出して画像特徴信号208を出力する。
Next, the operation will be described. The
学習データ演算部111は、視線解析データ204と画像特徴信号208に基づいて、注目領域を算出して学習データ信号212を出力する。学習データ蓄積部112は、観察者100が注目することが多い画像の特徴を学習データ(学習データ信号212)として蓄積する。そして、学習データ信号212を蓄積した蓄積学習データ213を出力する。
The learning
符号化パラメータ設定部103は、視線解析データ204と画像特徴信号208と蓄積学習データ213、及び前符号化データ207に基づいて、符号化パラメータ205を設定して出力する。学習データ蓄積部112には、観察者100が注目することが多い画像の特徴(蓄積学習データ213)が保存されているので、現在の入力画像の特徴と蓄積学習データ213とを比べて、観察者100が注目する領域であれば、符号化パラメータ設定部103は目標情報量を多くするように符号化パラメータ105の設定を行う。
The encoding
以下、符号化パラメータ設定部105での符号化パラメータ205の設定例を示す。例えば、学習データによって、観察者100が赤色の映像に注目する傾向があることがわかっている場合には、入力信号201の中に赤色を検出した際には、該当ブロックの目標情報量を多く設定することによって、画質改善を図る。
Hereinafter, a setting example of the
例えば、学習データによって、観察者100が静止した映像(背景)よりも動きのある映像に注目する傾向があることがわかっている場合には、入力信号201の中に動きのある領域を検出した際には、該当ブロックの目標情報量を多く設定することによって、画質改善を図る。
For example, if the learning data indicates that the
例えば、学習データによって、観察者100の視線が動き易い傾向にあることがわかっている場合には、注目領域に割り当てる目標情報量の増加分を抑制することによって、特定領域に情報量が集中するのを避け、画面全体に情報量が配分されるようにすることで、画質改善を図る。
For example, when it is known from the learning data that the line of sight of the
例えば、学習データによって、観察者100の視線が画面中央付近に集中する傾向があることがわかっている場合には、画面中央付近の目標情報量を多く設定することによって、画質改善を図る。
For example, when it is known from the learning data that the line of sight of the
再び図9において、ブロック化部104は、入力信号201を複数の画素からなるブロックに分割して分割信号206を出力する。ビデオ符号化部105は、符号化パラメータ205に基づいて分割信号206を符号化して、符号化データ207を出力する。
In FIG. 9 again, the blocking
以上のように、この実施の形態4によれば、観察者100が注目する傾向にある画像の特徴を学習データとして学習データ蓄積部112に蓄積しているので、観察者100に特化した符号化を行うことが可能となり、画質改善を図ることができる。
As described above, according to the fourth embodiment, since the features of the image that the
実施の形態5.
以下、この発明の実施の形態5について説明する。図10は、この発明の実施の形態5に係る動画像符号化装置の構成を示すブロック図である。実施の形態5に係る動画像符号化装置は、実施の形態3に係る動画像符号化装置(図8)と同構成であるので説明を省略する。但し、複数人の観察者100が存在することが相違する。
The fifth embodiment of the present invention will be described below. FIG. 10 is a block diagram showing the configuration of the moving picture coding apparatus according to
次に、動作について説明する。動作についても、実施の形態3との相違点のみ説明する。図11は、実施の形態5において、時刻T1〜T2間の3人の観察者100の視線位置データを示したものである。例として、画面を64分割している。図11中で、黒丸、ひし形、バツは、3人の観察者100それぞれの視線位置データを表す。観察者100が複数人の場合、特定の観察者100に対して、視線位置データのカウントの際に重み付けを行うことを可能とする。即ち、特定の観察者100の視線情報203を重視する場合には、特定の観察者100の視線位置データをα(>1.0)倍させてカウントする。
Next, the operation will be described. Only the differences from the third embodiment will be described. FIG. 11 shows line-of-sight position data of three
図12は、実施の形態5において、目標情報量の設定変更例を示した図である。例として、画面を64分割している。図12(a)は目標情報量の初期値であり、1ピクチャ分の目標情報量を総ブロック数で割ったものであり、各ブロック同一値となる。図12(b)は、図11の視線位置データから注目領域及び特徴領域を指定した図である。図12(b)において、注目領域1(斜線ブロック)の目標情報量を2.05倍、注目領域2(波線ブロック)の目標情報量を1.55倍、注目領域の周辺(横線ブロック)の目標情報量を1.00倍(初期設定のまま)、非注目領域(空白ブロック)の目標情報量を0.80倍している。1ピクチャの総目標情報量は図12(a)、図12(b)共に同じである。 FIG. 12 is a diagram illustrating a setting change example of the target information amount in the fifth embodiment. As an example, the screen is divided into 64 parts. FIG. 12A shows an initial value of the target information amount, which is obtained by dividing the target information amount for one picture by the total number of blocks, and has the same value for each block. FIG. 12B is a diagram in which a region of interest and a feature region are designated from the line-of-sight position data of FIG. In FIG. 12B, the target information amount of the attention area 1 (hatched block) is 2.05 times, the target information amount of the attention area 2 (dashed block) is 1.55 times, and the area around the attention area (horizontal line block) is increased. The target information amount is increased by 1.00 (initially set), and the target information amount of the non-attention area (blank block) is increased by 0.80. The total target information amount of one picture is the same in both FIG. 12 (a) and FIG. 12 (b).
以上のように、この実施の形態5によれば、複数の人の映像全体の視線情報を蓄積しているので、観察者100の個人特性の影響を少なくし、より一般的な視線情報を利用することができる。また、視線情報と画像特徴情報を蓄積しているので、符号化の際には、過去の情報だけでなく、未来の情報も利用できる。これにより、視線が今後注がれる領域に、前もって情報量を配分することが可能となり、画質改善を図ることができる。
As described above, according to the fifth embodiment, since the line-of-sight information of the entire images of a plurality of people is accumulated, the influence of the personal characteristics of the
実施の形態5は、実施の形態3の観察者100を複数人にしたものであるが、他の実施の形態においても観察者100を複数人としてもよい。
In the fifth embodiment, a plurality of
実施の形態1、2、5において、図2、4、6、7、11、12は画面を64分割しているが、分割数は64に限定する必要はない。
In
本発明は、システムや装置にプログラムを供給することによって達成される場合にも適用できることは言うまでもない。 Needless to say, the present invention can also be applied to a case where the present invention is achieved by supplying a program to a system or apparatus.
100 観察者、101 画像表示部、102 画像特徴抽出部、103 符号化パラメータ設定部、104 ブロック化部、105 ビデオ符号化部、106 視線検出部、107 視線情報解析部、108 入力画像データ、109 注目領域演算部、110 注目領域蓄積部、111 学習データ演算部、112 学習データ蓄積部、201 入力信号、202 視線、203 視線情報、204 視線解析データ、205 符号化パラメータ、206 分割信号、207 符号化データ、208 画像特徴信号、209 注目領域特定信号、210 注目領域蓄積データ、211 入力信号、212 学習データ信号、213 蓄積学習データ。
100 observer, 101 image display unit, 102 image feature extraction unit, 103 coding parameter setting unit, 104 blocking unit, 105 video coding unit, 106 gaze detection unit, 107 gaze information analysis unit, 108 input image data, 109 Region-of-
Claims (7)
前記入力信号に同期して、前記映像を観察する少なくとも1人以上の観察者の視線を検出した視線情報を出力する視線検出部と、
前記視線情報を解析した視線解析情報を出力する視線情報解析部と、
前記視線解析情報に基づいて符号化パラメータを設定する符号化パラメータ設定部と、
前記符号化パラメータに基づいて前記分割信号を符号化するビデオ符号化部とを備えた動画像符号化装置。 A blocking unit that outputs a divided signal obtained by dividing a video input signal into blocks composed of a plurality of pixels;
A line-of-sight detection unit that outputs line-of-sight information obtained by detecting the line of sight of at least one observer who observes the video in synchronization with the input signal;
A line-of-sight information analysis unit that outputs line-of-sight analysis information obtained by analyzing the line-of-sight information;
An encoding parameter setting unit that sets an encoding parameter based on the line-of-sight analysis information;
A video encoding apparatus comprising: a video encoding unit that encodes the divided signal based on the encoding parameter.
前記符号化パラメータ設定部が、前記視線解析情報と前記画像特徴信号とに基づいて前記符号化パラメータを設定することを特徴とする請求項1から請求項3のうちのいずれか1項記載の動画像符号化装置。 An image feature extraction unit for outputting an image feature signal obtained by extracting an image feature from the input signal;
4. The moving image according to claim 1, wherein the encoding parameter setting unit sets the encoding parameter based on the line-of-sight analysis information and the image feature signal. 5. Image encoding device.
前記映像全体に関する前記注目領域特定信号を蓄積した注目領域蓄積データを出力する注目領域蓄積部とを備え、
前記符号化パラメータ設定部が、前記注目領域蓄積データに基づいて前記符号化パラメータを設定することを特徴とする請求項4記載の動画像符号化装置。 A region-of-interest calculator that outputs a region-of-interest specifying signal that calculates the region of interest of the image from the line-of-sight analysis data and the image feature signal;
A region-of-interest storage unit that outputs region-of-interest storage data that stores the region-of-interest specifying signal for the entire video;
5. The moving image encoding apparatus according to claim 4, wherein the encoding parameter setting unit sets the encoding parameter based on the attention area accumulation data.
前記学習データ信号を蓄積した蓄積学習データを出力する学習データ蓄積部とを備え、
前記符号化パラメータ設定部が、前記視線解析情報と前記画像特徴信号と前記蓄積学習データとに基づいて前記符号化パラメータを設定することを特徴とする請求項4記載の動画像符号化装置。 A learning data calculation unit that outputs a learning data signal obtained by learning the line-of-sight information based on the line-of-sight analysis data and the image feature signal;
A learning data accumulation unit that outputs accumulated learning data in which the learning data signal is accumulated;
5. The moving image encoding apparatus according to claim 4, wherein the encoding parameter setting unit sets the encoding parameter based on the line-of-sight analysis information, the image feature signal, and the accumulated learning data.
The moving image encoding apparatus according to claim 6, wherein the learning data calculation unit learns a tendency of the observer's line of sight and outputs the learning data signal.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005151219A JP2006332882A (en) | 2005-05-24 | 2005-05-24 | Moving picture coding apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005151219A JP2006332882A (en) | 2005-05-24 | 2005-05-24 | Moving picture coding apparatus |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006332882A true JP2006332882A (en) | 2006-12-07 |
Family
ID=37554123
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005151219A Pending JP2006332882A (en) | 2005-05-24 | 2005-05-24 | Moving picture coding apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006332882A (en) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012239085A (en) * | 2011-05-12 | 2012-12-06 | Canon Inc | Image processor, and image processing method |
CN104954798A (en) * | 2015-06-24 | 2015-09-30 | 福州瑞芯微电子有限公司 | Direct displaying method and device for video decoding |
JP2018110398A (en) * | 2016-12-30 | 2018-07-12 | アクシス アーベー | Method and computer system |
WO2019172179A1 (en) * | 2018-03-06 | 2019-09-12 | 日本電信電話株式会社 | Code amount estimation device, code amount estimation method, and code amount estimation program |
JP2020504959A (en) * | 2016-12-29 | 2020-02-13 | 株式会社ソニー・インタラクティブエンタテインメント | Forbidden video link for VR, low-latency, wireless HMD video streaming using gaze tracking |
WO2020241269A1 (en) * | 2019-05-29 | 2020-12-03 | 住友電気工業株式会社 | Video delivery system, video transmission device, video reception device, video distribution method, video transmission method, video reception method, and computer program |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04282129A (en) * | 1991-03-08 | 1992-10-07 | Fujitsu Ltd | Gaze point analyzing device |
JPH07322246A (en) * | 1994-05-27 | 1995-12-08 | Sanyo Electric Co Ltd | Moving image compression coder and method therefor |
JPH09307868A (en) * | 1996-03-15 | 1997-11-28 | Toshiba Corp | Communication equipment and communication method |
JP2004179997A (en) * | 2002-11-27 | 2004-06-24 | Sony Corp | Interactive communication system, video image communication device, and image data distribution method for the same |
-
2005
- 2005-05-24 JP JP2005151219A patent/JP2006332882A/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04282129A (en) * | 1991-03-08 | 1992-10-07 | Fujitsu Ltd | Gaze point analyzing device |
JPH07322246A (en) * | 1994-05-27 | 1995-12-08 | Sanyo Electric Co Ltd | Moving image compression coder and method therefor |
JPH09307868A (en) * | 1996-03-15 | 1997-11-28 | Toshiba Corp | Communication equipment and communication method |
JP2004179997A (en) * | 2002-11-27 | 2004-06-24 | Sony Corp | Interactive communication system, video image communication device, and image data distribution method for the same |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012239085A (en) * | 2011-05-12 | 2012-12-06 | Canon Inc | Image processor, and image processing method |
CN104954798A (en) * | 2015-06-24 | 2015-09-30 | 福州瑞芯微电子有限公司 | Direct displaying method and device for video decoding |
CN104954798B (en) * | 2015-06-24 | 2018-03-27 | 福州瑞芯微电子股份有限公司 | The straight-through display methods of video decoding and device |
JP2020504959A (en) * | 2016-12-29 | 2020-02-13 | 株式会社ソニー・インタラクティブエンタテインメント | Forbidden video link for VR, low-latency, wireless HMD video streaming using gaze tracking |
JP2021192508A (en) * | 2016-12-29 | 2021-12-16 | 株式会社ソニー・インタラクティブエンタテインメント | Vr with gaze tracking, and forbidden video link for low latency, and wireless hmd video streaming |
JP7244584B2 (en) | 2016-12-29 | 2023-03-22 | 株式会社ソニー・インタラクティブエンタテインメント | Foveated video link for VR with eye-tracking |
JP2018110398A (en) * | 2016-12-30 | 2018-07-12 | アクシス アーベー | Method and computer system |
JP7041379B2 (en) | 2018-03-06 | 2022-03-24 | 日本電信電話株式会社 | Code amount estimation device, code amount estimation method and code amount estimation program |
WO2019172179A1 (en) * | 2018-03-06 | 2019-09-12 | 日本電信電話株式会社 | Code amount estimation device, code amount estimation method, and code amount estimation program |
JPWO2019172179A1 (en) * | 2018-03-06 | 2021-02-04 | 日本電信電話株式会社 | Code amount estimation device, code amount estimation method and code amount estimation program |
WO2020241269A1 (en) * | 2019-05-29 | 2020-12-03 | 住友電気工業株式会社 | Video delivery system, video transmission device, video reception device, video distribution method, video transmission method, video reception method, and computer program |
CN113906748A (en) * | 2019-05-29 | 2022-01-07 | 住友电气工业株式会社 | Video transmission system, transmission device, reception device, distribution method, transmission method, reception method, and computer program |
JP7468518B2 (en) | 2019-05-29 | 2024-04-16 | 住友電気工業株式会社 | Video transmission system, video transmitting device, video receiving device, video distribution method, video transmitting method, video receiving method, and computer program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102092846B1 (en) | Image process apparatus and method for processing three-dimensional image zoom | |
US8570359B2 (en) | Video region of interest features | |
US8654131B2 (en) | Video image processing apparatus and video image processing method | |
US20130235153A1 (en) | Method and apparatus for generating depth information of an image | |
US20100060783A1 (en) | Processing method and device with video temporal up-conversion | |
CN101535941B (en) | Method and device for adaptive video presentation | |
WO2017141454A1 (en) | Congestion analysis device, congestion analysis method, and congestion analysis program | |
JP2006332882A (en) | Moving picture coding apparatus | |
CA2920834A1 (en) | Legibility enhancement for a logo, text or other region of interest in video | |
KR20190077428A (en) | Video frame rate conversion using streamed metadata | |
CN110268712A (en) | Method and apparatus for handling image attributes figure | |
CN101917557A (en) | Method for dynamically adding subtitles based on video content | |
JP2008118608A (en) | Video signal processor and video display device | |
CN105408838A (en) | Dynamic GPU feature adjustment based on user-observed screen area | |
CN110166796B (en) | Video frame processing method and device, computer readable medium and electronic equipment | |
EP3298578B1 (en) | Method and apparatus for determining a depth map for an image | |
CN104105006A (en) | Video image processing method and system | |
CN110868547A (en) | Photographing control method, photographing control device, electronic equipment and storage medium | |
US20140254688A1 (en) | Perceptual Quality Of Content In Video Collaboration | |
CN114827662A (en) | Video resolution self-adaptive adjusting method, device, equipment and storage medium | |
JP2006270301A (en) | Scene change detecting apparatus and scene change detection program | |
JP5950605B2 (en) | Image processing system and image processing method | |
CN109191398B (en) | Image processing method, image processing device, computer-readable storage medium and electronic equipment | |
CN112468806B (en) | Panoramic video transmission optimization method for cloud VR platform | |
JP2007312271A (en) | Surveillance system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20071009 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080313 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20080728 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20091214 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091222 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100511 |