CN109644284B

CN109644284B - 发送设备、发送方法、接收设备与接收方法

Info

Publication number: CN109644284B
Application number: CN201780050996.9A
Authority: CN
Inventors: 塚越郁夫
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2016-08-30
Filing date: 2017-08-17
Publication date: 2022-02-15
Anticipated expiration: 2037-08-17
Also published as: JPWO2018043143A1; EP3509309A4; JP7040448B2; WO2018043143A1; CN109644284A; US10924784B2; US20190174151A1; EP3509309A1

Abstract

本发明使得可以在接收侧令人满意地执行基于与对象有关的信息的交互式处理。对图像数据进行编码，以获得包括编码图像数据的视频流。视频流在被附加有基于图像数据而检测的与对象有关的信息的状态下被发送。与对象有关的信息包括例如通过对指示对象的形状的1位数据进行编码而获得的编码数据、与作为包围对象的矩形区的区域有关的信息、区域的显示优先级信息和描述对象的文本信息。不管接收侧的性能如何，在不需要对图像数据进行处理来检测对象的情况下能够在接收侧上获取与对象有关的信息，并且由此能够基于与对象有关的信息令人满意地执行交互式处理。

Description

发送设备、发送方法、接收设备与接收方法

技术领域

本技术涉及一种发送设备、发送方法、接收设备以及接收方法，并且具体地，涉及一种发送视频图像中所包括的对象的信息的发送设备等。

背景技术

例如，专利文献1等描述了一种通过分割处理从视频图像中检测人及其他对象的技术。

引用列表

专利文献

专利文献1：日本专利申请特开号2015-046089

发明内容

发明要解决的问题

本技术的目标是允许接收侧在接收侧上通过良好的方式执行基于对象的信息的交互式处理。

问题的解决方案

本技术的构思在于，一种发送设备，包括：

图像编码单元，被配置为对图像数据进行编码，以获得具有编码图像数据的视频流；和

发送单元，被配置为在添加有基于图像数据而检测的对象的信息的状态下发送视频流。

在本技术中，图像编码单元对图像数据进行编码，以获得具有编码图像数据的视频流。发送单元在添加有基于图像数据而检测的对象的信息的状态下发送视频流。此处，通过应用于图像数据的常规和熟知的分割处理对对象进行检测。

例如，对象的信息可包括通过对表示对象的形状的一位数据进行编码而获得的编码数据。此外，例如，对象信息可包括作为包括对象的矩形区的区域(语义区域)的信息。在这种情况下，例如，对象信息可进一步包括区域的显示优先级信息。此外，例如，对象信息可包括对对象进行说明的文本信息。

如上所述，在本技术中，与具有通过对图像数据进行编码而获得的编码图像数据的视频流一起发送基于图像数据而检测的对象的信息。因此，接收侧能够获取对象的信息，而不需要通过对图像数据进行处理而检测对象并且不依赖于自身性能，并且允许接收侧通过良好的方式基于对象的信息执行交互式处理。

应注意，在本技术中，例如，对象的信息可通过被插入到视频流中来发送。例如，在这种情况下，对象信息至少包括通过对表示对象的形状的一位数据进行编码而获得的编码数据和作为包围对象的矩形区的区域的信息，并且编码数据可插入到视频流的第一区中，并且区域的信息可插入到视频流的与第一区不同的第二区中。如上所述，通过将对象的信息插入到视频流中，便于将视频流与对象的信息相关联。

此外，本技术的另一构思在于一种接收设备，接收设备包括被配置为接收具有通过对图像数据进行编码而获得的编码图像数据的视频流的接收单元，其中，

视频流添加有基于图像数据而检测的对象的信息。

接收设备进一步包括控制单元，控制单元被配置为控制基于对象的信息而执行的交互式处理。

在本技术中，接收单元接收具有通过对图像数据进行编码而获得的编码图像数据的视频流。将基于图像数据而检测的对象的信息添加到视频流中。控制单元控制基于对象的信息而执行的交互式处理。

例如，交互式处理可以是突出显示基于对象的信息而选择的预定对象的处理。进一步地，例如，交互式处理可以是通过对基于对象的信息而选择的预定对象的图像进行分析来获取预定信息的处理。进一步地，例如，交互式处理可以是显示与基于对象的信息而选择的预定对象有关的信息的处理。

如上所述，在本技术中，基于通过被添加至视频流而发送的对象的信息执行交互式处理。因此，能够获取对象的信息，而不需要通过对图像数据进行处理来检测对象并且与自身性能无关，并且可以通过良好的方式基于对象的信息执行交互式处理。

进一步地，本技术的另一构思在于，一种接收设备，包括：

接收单元，被配置为接收具有通过对图像数据进行编码而获得的编码图像数据的视频流；和

控制单元，被配置为控制基于通过对编码图像数据进行解码而获得的图像数据来检测对象的信息的处理和基于对象的信息执行的交互式处理。

在本技术中，接收单元接收具有通过对图像数据进行编码而获得的编码图像数据的视频流。控制单元控制基于通过对编码图像数据进行解码而获得的图像数据来检测对象的信息的处理和基于对象的信息执行的交互式处理。

如上所述，在本技术中，基于通过对编码图像数据进行解码而获得的图像数据来检测对象的信息，和基于对象的信息执行交互式处理。因此，即使不传输对象的信息，也可以通过良好的方式基于对象的信息执行交互式处理。

发明效果

根据本技术，允许接收侧通过良好的方式基于对象的信息执行交互式处理。应注意，此处描述的效果始终不受限制并且可以是本公开中描述的任意效果。

附图说明

[图1]是示出根据实施方式的发送接收系统的配置例的框图。

[图2]是示出发送设备的配置例的框图。

[图3]是示出区域设置的实施例的示图。

[图4]是用于对示出显示优先度的“区域层优先级指数”和示出对象的形状的一位数据进行说明的示图。

[图5]是示出区域编码单元的配置例的示图。

[图6]是示出布置在新定义的切片的NAL单元的有效载荷中的语义区域数据的结构例的示图。

[图7]是示出语义区域定位的结构例和结构例中的主要信息的内容的示图。

[图8]是示出语义区域编码数据的结构例的示图。

[图9]是示出语义区域编码数据的结构例中的主要信息的内容的示图。

[图10]是示出布置在新定义的SEI的NAL单元的有效载荷中的语义区域信息的结构例的示图。

[图11]是示出语义区域信息的结构例中的主要信息的内容的示图。

[图12]是示出接收设备的配置例的框图。

[图13]是示出区域解码单元的配置例的示图。

[图14]是用于对交互式处理1(对象突出显示)进行说明的示图。

[图15]是用于对交互式处理1(对象突出显示)进行说明的示图。

[图16]是用于对交互式处理2(通过对象进行的检索+特征点的提取)进行说明的示图。

[图17]是用于对交互式处理3(通过点击显示属性)进行说明的示图。

[图18]是用于对交互式处理4(对象在多个显示单元上的分割显示)进行说明的示图。

[图19]是示出接收设备的另一配置例的框图。

具体实施方式

在下文中，将描述用于执行本发明的模式(以下称之为“实施方式”)。应注意，将按照下述顺序展开描述。

1.实施方式

2.变形

<1.实施方式>

[发送接收系统]

图1示出了根据实施方式的发送接收系统10的配置例。发送接收系统10配置有发送设备100和接收设备200。

发送设备100通过广播波发送作为容器的传送流TS。传送流TS包括具有编码图像数据的视频流。基于图像数据而检测的人及其他对象的信息添加至视频流。例如，通过应用于图像数据的常规熟知的分割处理，对对象进行检测。

对象的信息包括通过对表示对象的形状的一位数据进行编码而获得的一位编码数据、作为包围对象的矩形区的语义区域(根据需要，以下被称之为“区域”)的信息、区域的显示优先级信息、对对象进行说明的文本信息等。

还能够将对象的信息视为通过除了视频流之外的流进行传输。在本实施方式中，对象的信息通过被插入到视频流中而传输。具体地，通过使用新定义的切片的NAL单元插入一位编码数据，并且通过使用新定义的SEI的NAL单元插入其他信息。

接收设备200接收上述通过广播波从发送设备100发送的传送流TS。如上所述，传送流TS包括具有编码图像数据的视频流。然后，基于图像数据而检测的对象的信息插入到视频流中。

接收设备200基于对象的信息控制交互式处理。此处，例如，交互式处理是突出显示基于对象的信息而选择的预定对象的处理、通过对基于对象的信息而选择的预定对象的图像进行分析而获取预定信息的处理、显示与基于对象信息而选择的预定对象有关的信息的处理等。

“发送设备的配置”

图2示出了发送设备100的配置例。发送设备100包括中央处理单元(CPU)101、用户操作单元102、编码器103、编码画面缓冲器(cpb)104、TS格式器105以及发送单元106。

CPU 101是控制单元并且控制发送设备100中的每个单元的操作。用户能够在用户操作单元102上执行各种输入操作。例如，用于对通过如后面描述的对象识别处理单元132识别的对象进行说明的文本信息，能够从用户操作单元102输入。

编码器103接收视频数据VD的输入并且对视频数据VD进行编码，以获得编码图像数据。进一步地，编码器103基于视频数据VD获得对象的信息。然后，编码器103生成具有编码图像数据和对象的信息的视频流。对象的信息包括通过对表示对象的形状的一位数据进行编码而获得的一位编码数据、作为包围对象的矩形区的区域的信息、区域的显示优先级信息、对对象进行说明的文本信息等。

编码器103包括图像编码单元131、对象识别处理单元132、区域编码单元133、参数集/SEI编码单元134以及NAL封包单元135。图像编码单元131对视频数据进行编码，以获得编码图像数据。

对象识别处理单元132对视频数据VD应用常规熟知的分割处理(segmentationprocessing)，以对对象进行检测。对象是图像(画面)内有意义的部分以及人或其他事物。应注意，通过对象识别处理单元132要检测哪一对象可通过用户操作单元102的输入操作指定。

对象识别处理单元132在图像上设定作为包围检测对象的矩形区的区域。该区域包括位于其领域内的一个对象。通过始点坐标(左上方坐标)和终点坐标(右下方坐标)表达区域的领域。

图3示出了区域设置的实施例。该实施例示出了在图像中检测两个对象(对象1和2)的情况。应注意，各个正方形表示编码块。

设定作为包围对象1的矩形区的区域1。区域1的区域ID(region_id)是“1”。此外，设定作为包围对象2的矩形区的区域2。区域2的区域ID(region_id)是“2”。

每个区域能够以部分重叠的方式存在。对象识别处理单元132设置表示各个区域的显示优先度的“区域层优先级指数”。具有较小值的“区域层优先级指数”的区域定位靠前，并且被分类为优先。图4(a)示出了其中三个区域以部分重叠的方式存在的实施例。

此外，对于每个对象，对象识别处理单元132基于从用户操作单元102输入的文本信息，设置用于对对象进行说明的文本信息。

此外，对于每个对象，对象识别处理单元132输出表示对象的形状的一位数据。在这种情况下，如图4(b)中所示，与对象对应的像素的像素值是“1”，并且其他像素的像素值是“0”。

区域编码单元133对从对象识别处理单元132针对每个对象而输出的表示对象的形状的一位数据进行编码，以获得一位编码数据。此处，区域编码单元133对包括针对每个对象的区域的数据的编码块执行编码，以获得编码数据。

例如，在图3所示的实施例的情况下，对包括针对对象1的区域1的数据的编码块(2,3)、(2,4)、(2,5)、(3,3)、(3,4)、(3,5)、(4,3)、(4,4)、(4,5)、(5,3)、(5,4)以及(5,5)执行编码。另一方面，对包括针对对象2的区域2的数据的编码块(5,4)、(5,5)、(5,6)、(6,4)、(6,5)以及(6,6)执行编码。应注意，此处，(a,b)表示第a行和第b列。

图5示出了区域编码单元133的配置例。区域编码单元133包括减法电路141、运动预测/运动补偿电路142、整数转换/量化电路143、逆量化/逆整数转换电路144、加法电路145、环路滤波器146、存储器147以及熵编码电路148。

对于每个块，将待编码的块数据顺次供应至减法电路122。在运动预测/运动补偿电路142中，基于存储在存储器147中的参考画面的图像数据获得针对每个块的运动补偿预测参考块数据。

对于每个块，将通过运动预测/运动补偿电路142获得的预测参考块数据顺次供应至减法电路141。在减法电路141中，对于每个块，在待编码的块数据与运动补偿预测参考块数据之间执行减法处理，并且获得预测误差。对于每个块，在整数转换/量化电路143中对该预测误差应用整数转换(例如，DCT转换)，并且然后，进行量化。

将在整数转换/量化电路143中获得的每个块的量化后数据供应至逆量化/逆整数转换电路144。在逆量化/逆整数转换电路144中，对量化后数据应用逆量化，并且还应用逆整数转换，使得获得预测残差。将该预测误差供应至加法电路145。

在加法电路145中，将运动补偿预测参考块数据与预测残差相加，因此，获得块数据。在通过环路滤波器146移除量化噪音之后，将该块数据存储在存储器147中。

此外，将在整数转换/量化电路143中获得的每个块的量化后数据供应至熵编码电路148，并且对量化后数据应用熵编码，因此，获得一位编码数据。应注意，将诸如每个块中的运动矢量等信息，作为MB报头信息添加至该一位编码数据，以在接收侧上用于解码。

返回图2，参数集/SEI编码单元134生成SEI和每个画面的诸如VPS、SPS、以及PPS等的参数集。此处，也将从对象识别处理单元132针对每个对象而输出的对象的信息(作为包围对象的矩形区的区域的信息、区域的显示优先级信息以及对对象进行说明的文本信息)供应至参数集/SEI编码单元134。然后，参数集/SEI编码单元134还生成包括每个对象的信息的SEI。应注意，如上所述，因为一个区域包括一个对象，所以每个对象与每个区域一致。

NAL封包单元135基于通过参数集/SEI编码单元134生成的参数集和SEI、通过图像编码单元131生成的编码图像数据以及通过区域编码单元133生成的一位编码数据生成构成每个画面的编码图像数据的预定数目的NAL单元，并且生成由每个画面的编码图像数据构成的视频流。

在这种情况下，构成每个画面的编码图像数据的预定数目的NAL单元包括：具有通过图像编码单元131生成的编码图像数据作为切片数据的常规熟知切片的NAL单元以及新定义的具有通过区域编码单元133生成的一位编码数据作为切片数据的切片的NAL单元。此外，预定数目的NAL单元包括新定义的具有对象的信息(作为包围对象的矩形区的区域的信息、区域的显示优先级信息以及对对象进行说明的文本信息)的SEI的NAL单元。应注意，不要求总是包括新定义的具有一位编码数据作为切片数据的切片的NAL单元和新定义的具有对象的信息的SEI的NAL单元，可以包括NAL单元中的任一个。

图6示出了布置在新定义的切片的NAL单元的有效载荷中的语义区域数据(Semantic_region_data)的结构例(Syntax)。八位字段的“information_id”表示布置有语义区域数据。十六位字段的“semantic_region_length”表示作为语义区域数据的长度(大小)的后续字节的数目。

语义区域定位的字段(Semantic_region_positioning())和语义区域编码数据的字段(Semantic_region_coded_data())存在于“semantic_region_length”字段之后。

图7(a)示出了语义区域定位的结构例，并且图7(b)示出了结构例中的主要信息的内容(语义)。八位字段“number_of_semantic_regions”表示区域的数目。然后，十六位字段“region_id”、十六位字段“region first blockposition”、十六位字段“region_block_horizontal_width”以及十六位字段“region_block_vertical_height”存在的数目同区域的数目一样多。

“region_id”字段表示区域的标识号。“region first blockposition”字段表示画面中包括区域的始点的编码块的位置。在图3的实施例中，关于区域1，被分配有自左上方起第二行和第三列的块编号的块是区域1的起始块，并且被分配有自左上方起第四行和第四列的块编号的块是区域2的起始块。字段“region_block_horizontal_width”表示以块为单位的水平方向上的大小。字段“region_block_vertical_height”表示以块为单位的竖直方向上的大小。

图8示出了语义区域编码数据的结构例，并且图9示出了结构例中的主要信息的内容(Semantics)。八位字段的“number_of_semantic_regions”表示区域的数目。然后，存在与区域的数目一样多的十六位字段“region_id”、十六位字段“number_of_coded_blocks”、四位字段“number_of_smallblock_per_coded_block”、两位字段“luma_bitdepth”等。

字段“region_id”表示区域的标识号。字段“number_of_coded_blocks”表示编码块的数目。编码块表示画面之间执行运动预测的单元并且相当于“预测块”。字段“number_of_smallblock_per_coded_block”表示“smallblock_per_coded_block”的数目。“smallblock_per_coded_block”表示执行整数转换的单元并且相当于转换块。字段“luma_bitdepth”表示由0至3表示的亮度数据的位长度，其中，0表示一位，并且在表现对象的形状的情况下，设置该模式。

存在与由字段“number_of_coded_blocks”表示的编码块的数目一样多的表示运动矢量的两个字段：十六位字段“mv1(ref_pic_id)”和十六位字段“mv2(ref_pic_id)”)。应注意，“ref_pic_id”是由运动矢量指示的参考画面的ID。在字段“data_coding(luma_bitdepth)”中，布置有已经被量化的差分数据的转换编码数据。

图10示出了布置在新定义的SEI的NAL单元的有效载荷中的语义区域信息(Semantic_region_information)的结构例(Syntax)。图11示出了结构例中的主要信息的内容(Semantics)。八位字段“information_id”表示布置有语义区域信息。十六位字段“semantic_region_length”表示作为语义区域信息的长度(大小)的后续字节的数目。

八位字段“number_of_semantic_regions”表示区域的数目。后续字段重复存在的数目与区域的数目一样多。八位字段“region_id”表示区域的标识号。八位字段“region_layer_priority_index”是表示区域之间的显示优先级信息的正值。当值较小时，设置较高的优先级。

十六位字段“tL_x”表示区域的左上方的x坐标(以图像的左上方作为始点，以像素为单位的坐标值)。十六位字段“tL_y”表示区域的左上方的y坐标(以图像的左上方为始点，以像素为单位的坐标值)。十六位字段“bR_x”表示区域的右下方的x坐标(以图像的左上方为始点，以像素为单位的坐标值)。十六位字段“bR_y”表示区域的右下方的y坐标(以图像的左上方为始点，以像素为单位的坐标值)。

八位字段“text_length”以字节数目表示示出文本信息的字符代码长度(大小)。将字符代码布置在字段“text_byte”中。在这种情况下，文本信息是对对象进行说明的文本信息。

返回图2，并且编码画面缓冲器(cpb)104临时存储通过编码器103生成的视频流。TS格式器105读出在编码画面缓冲器104中存储的视频流，对视频流进行PES封包并且将视频流进一步传送封包(transport-packetizes)以进行多路复用，并且获得传送流TS作为多路复用流。发送单元106通过广播波或网络上的数据包将通过TS格式器105所获得的传送流TS传输至接收设备200。

将对图2中所示的发送设备100的操作进行简要描述。将视频数据VD输入至编码器103。编码器103执行视频数据VD的编码，因此，获得编码图像数据。进一步地，编码器103基于视频数据VD获得对象的信息。然后，编码器103生成具有编码图像数据和对象的信息的视频流。

在这种情况下，对象的信息包括：通过对表示对象的形状的一位数据进行编码而获得的一位编码数据、作为包围对象的矩形区的区域的信息、区域的显示优先级信息、对对象进行说明的文本信息等。

此处，通过区域编码单元133生成的一位编码数据，作为切片数据而被包括在新定义的切片的NAL单元中(参考图6至图9)。对象的信息(作为包围对象的矩形区的区域的信息、区域的显示优先级信息以及对对象进行明的文本信息)，包括在新定义的SEI的NAL单元(参考图10和图11)中。

将通过编码器103生成的视频流临时存储在编码画面缓冲器(cpb)104中。TS格式器105读出在编码画面缓冲器104中存储的视频流，对视频流进行PES封包，并且将视频流进一步传送封包用于进行多路复用，并且获得传送流TS作为多路复用流。

将通过TS格式器105获得的传送流TS发送至发送单元106。发送单元106通过广播波或网络上的数据包，将通过TS格式器105获得的传送流TS传输至接收设备200。

“接收设备的配置”

图12示出了接收设备200的配置例。接收设备200包括中央处理单元(CPU)201、用户操作单元202、接收单元203、TS分析单元204、编码画面缓冲器(cpb)205、解码器206以及显示单元207。CPU 201构成控制单元并且控制接收设备200的各个单元的操作。用户能够在用户操作单元202上执行各种输入操作。例如，用户能够在用户操作单元202上执行与后面描述的交互式处理有关的操作。

接收单元203接收通过广播波或网络上的数据包从发送设备100发送的传送流TS。TS分析单元204取出传送流TS中包括的视频流并且将视频流发送至编码画面缓冲器205。该视频流包括对象信息以及各个画面的编码图像数据。编码画面缓冲器(cpb)205临时存储从TS分析单元204发送的视频流。

解码器206在由画面的解码时间戳(DTS)提供的解码定时，读出并且解码在编码画面缓冲器205中存储的各个画面的编码图像数据，以获得用于显示的图像数据。此外，解码器206根据用户操作，基于对象的信息执行交互式处理，以适应性地修改和改变用于显示的图像数据。显示单元207基于来自解码器206的用于显示的图像数据而显示图像。例如，该显示单元207配置有液晶显示器(LCD)、有机电致发光面板等。应注意，该显示单元207可以是连接至接收设备200的外部装备。

解码器206具有NAL开包单元261、图像解码单元262、区域解码单元263、语义区域SEI分析单元264以及图像处理单元(浏览器单元)265。

NAL开包单元261从构成各个画面的编码图像数据的预定数目的NAL单元中取出切片数据、参数集、SEL等，并且将其发送至必要的位置。

此处，NAL开包单元261从常规熟知的切片的NAL单元中取出画面的编码图像数据并且将数据发送至图像解码单元262。进一步地，NAL开包单元261从新定义的切片的NAL单元中取出一位编码数据并且将数据发送至区域解码单元263。进一步地，NAL开包单元261将新定义的SEI的NAL单元发送至语义区域SEI分析单元264。

对于每个画面，图像解码单元262对从NAL开包单元261发送的编码图像数据进行解码，以获得用于显示的图像数据。区域解码单元263对从NAL开包单元261针对每个画面而发送的每个对象的一位编码数据进行解码，以获得表示每个对象的形状的一位数据。

图13示出了区域解码单元263的配置例。区域解码单元263包括熵解码电路271、逆量化/逆整数转换电路272、运动补偿电路273、加法电路274、环路滤波器275以及存储器276。

熵解码电路271对各个对象的一位编码数据应用熵解码，以获得各个块的量化后数据。将该量化后数据供应至逆量化/逆整数转换电路272。在逆量化/逆整数转换电路272中，对量化后数据应用逆量化，并且还应用逆整数转换，因此，获得预测残差。将各个块的该预测误差供应至加法电路274。

在运动补偿电路273中，基于存储在存储器276中的参考画面的图像数据，获得应用运动补偿的补偿参考块数据。此处，通过使用作为MB报头信息而包括的运动矢量执行运动补偿。在加法电路274中，将补偿参考块数据与预测残差相加，因此，获得块数据。在通过环路滤波器275移除量化噪音之后，将该块数据存储在存储器276中。然后，通过从存储器276中读出所存储的数据，获得表示各个对象的形状的一位数据。

返回图12，语义区域SEI分析单元264对从NAL开包单元261针对各个画面发送的新定义的SEI的NAL单元进行分析，以获得各个对象的信息(作为包围对象的矩形区的区域的信息、区域的显示优先级信息以及对对象进行说明的文本信息)。

图像处理单元265基于通过图像解码单元262获得的用于显示的图像数据、通过区域解码单元263获得的表示每个对象的形状的一位数据以及通过语义区域SEI分析单元264获得的每个对象的信息，执行图像处理并且输出用于显示的图像数据。

在这种情况下，在标准时间，从图像处理单元265输出的用于显示的图像数据是通过图像解码单元262获得的用于显示的图像数据。进一步地，当执行基于用户的交互式操作的交互式处理时，通过适应性地修改和改变由图像解码单元262获得的用于显示的图像数据，获得从图像处理单元265输出的用于显示的图像数据。

通过CPU 201控制在图像处理单元265中执行的交互式处理。基于安装在CPU中的应用，执行该控制。此处，将描述交互式处理的具体实施例。

“1.对象突出显示(背景遮罩)”

在该交互式处理1的情况下，即，“1.对象突出显示(背景遮罩)”，当根据用户操作设置交互式处理1的操作模式时，在如图14所示的显示单元207上显示的图像中，显示以虚线表示的区域框。基于通过语义区域SEI分析单元264获得的区域的信息来显示该区域框。在示出的实施例中，显示从区域1至区域6的六个区域的框。

在这种状态下，当通过用户操作选择一个或多个区域时，显示单元207上所显示的图像处于所选择区域中所包括的对象被突出显示(highlighted)的状态中。在这种情况下，做出修改和改变，使得在通过图像解码单元262获得的用于显示的图像数据中遮罩所选择区域领域之外的领域，并且获得用于显示的最终图像数据。

图15(a)示出了选择区域4的情况下的遮罩处理。图15(b)示出了从图像处理单元265输出的用于显示的图像数据中所显示的图像的实施例。应注意，可以存在不显示“区域4”的字符的情况。

“2.通过对象进行的检索(云、本地储存器)+特征点的提取”

图16(a)示出了交互式处理2的概要，即，“2.通过对象进行的检索(云、本地储存器)+特征点的提取”。在这种情况下，如果根据用户操作设置交互式处理的操作模式，则在显示单元207上所显示的图像中，显示区域框(参考图14)。在这种状态下，当通过用户操作选择一个或多个区域时，显示单元207上所显示的图像处于在所选择区域中所包括的对象被突出显示的状态下。目前为止所执行的处理与上述交互式处理1中的处理相同。

之后，在该交互式处理的情况下，对所选择区域中包括的对象的图像数据应用智能处理，对结果信息执行检索等，并且执行进一步修改和改变用于显示的图像数据的处理，以使得检索结果被显示。例如，在网络的云、或本地储存器中执行智能处理。应注意，在图12的配置例中，省去了用于与网络中的云和本地储存器执行通信的通信接口的图示。

例如，如图16(b)所示，在对象是人的情况下，智能处理包括识别面部图像的对象识别处理、通过从所识别的面部图像中提取特征点而判断人(性别、年龄、人物推定)的处理等。

“3.通过点击显示属性”

在交互式处理3的情况下，即，“3.通过点击显示属性”，如果根据用户操作设置交互式处理3的操作模式，则在显示单元207中所显示的图像中显示区域框(参考图14)。

在这种状态下，当通过用户操作选择一个或多个区域时，在如图17所示的显示单元207上所显示的图像中，显示所选择区域中包括的对象的属性。示出的实施例示出了其中选择除区域3之外的全部区域的情况。基于通过语义区域SEI分析单元264获得的对对象进行说明的文本信息执行属性的这种显示。

“4.对象在多个显示单元上的分割显示”

在交互式处理4的情况下，即，“4.对象在多个显示单元上的分割显示”，显示单元207由从用户的近视点向远视点在彼此顶部上布置的多个显示单元构成。

例如，如果根据用户操作设置交互式处理4的操作模式，则在最近视点的显示单元上所显示的图像中，显示区域框(参考图14)。在这种状态下，当通过用户操作选择一个或多个区域时，获得各个显示单元的用于显示的图像数据，以使得所选择区域中所包括的每个对象，基于通过语义区域SEI分析单元264获得的区域的显示优先级信息，在与其优先度对应的位置处的显示单元中显示。

图18示出了在图14示出的实施例中选择区域1、区域6以及区域4的情况下的显示例。在这种情况下，优先度的值的关系为区域1<区域6<区域4。因此，在最靠近于视点的显示单元1中显示区域1中包括的对象OB1，在次靠近于视点的显示单元2上显示区域6中包括的对象OB6，并且在距视点最远的显示单元3上显示区域4中包括的对象OB4。在这种情况下，各个显示单元的对象显示领域之外的领域处于透明状态，并且用户能够从立体图视点，观察各个显示单元上所显示的对象。

将对图12中所示的接收设备200的操作进行简要描述。接收单元203接收通过广播波或网络上的数据包从发送设备100发送的传送流TS。将传送流TS供应至TS分析单元204。TS分析单元204取出传送流TS中包括的视频流并且将视频流发送至编码画面缓冲器205。该视频流包括对象的信息以及各个画面的编码图像数据。

编码画面缓冲器(cpb)205临时存储从TS分析单元204发送的视频流。解码器206在由画面的解码时间戳(DTS)提供的解码定时，读出并且解码存储在编码画面缓冲器205中的每个画面的编码图像数据，以获得用于显示的图像数据。进一步地，解码器206根据用户操作，基于对象信息执行交互式处理，以适应性地修改并且改变用于显示的图像数据。

显示单元207基于来自解码器206的用于显示的图像数据来显示图像。在这种情况下，在标准时间，从图像处理单元265输出的用于显示的图像数据是通过图像解码单元262获得的用于显示的图像数据。进一步地，当执行基于用户的交互式操作的交互式处理时，通过适应性地修改和改变由图像解码单元262获得的用于显示的图像数据而获得从图像处理单元265输出的用于显示的图像数据。

如上所述，在图1所示的发送接收系统10中，基于图像数据检测的对象的信息与具有编码图像数据的视频流一起传输。因此，接收侧能够获取对象的信息，而不需要通过对图像数据进行处理而检测对象并且不依赖于其自身性能，并且接收侧能够通过良好的方式基于对象的信息执行交互式处理。

进一步地，在图1所示的发送接收系统10中，通过被插入到视频流中而传输对象的信息。因此，便于将视频流与对象的信息相关联。

<2.变形>

应注意，上述实施方式示出了其中将对象的信息从传输侧发送至接收侧的实施例。然而，可以存在接收侧从所接收的图像数据检测对象的信息并且基于对象的信息执行交互式处理的情况。

图19示出了上述情况下的接收设备200A的配置例。在图19中，与图12中的那些单元对应的单元附有相同的参考标号，并且根据需要，省去该些单元的细节描述。接收设备200A包括CPU 201、用户操作单元202、接收单元203、TS分析单元204、编码画面缓冲器(cpb)205、解码器206A、以及显示单元207。

解码器206A在由画面的解码时间戳(DTS)提供的解码定时，读出并且解码存储在编码画面缓冲器205中的各个画面的编码图像数据，以获得用于显示的图像数据。进一步地，解码器206A基于用于显示的图像数据检测对象的信息。然后，解码器206A根据用户操作，基于对象的信息执行交互式处理，以适应性地修改并且改变用于显示的图像数据，并且解码器206A将数据发送至显示单元207。

解码器206A具有NAL开包单元261、图像解码单元262、对象识别处理单元266以及图像处理单元(浏览器单元)265。NAL开包单元261从构成各个画面的编码图像数据的预定数目的NAL单元中取出切片数据、参数集、SEI等并且将其发送至必要的位置。

此处，NAL开包单元261从常规熟知的切片的NAL单元中取出画面的编码图像数据并且将数据发送至图像解码单元262。图像解码单元262对从NAL开包单元261发送的针对各个画面的编码图像数据进行解码，以获得用于显示的图像数据。

与上述图2中所示的发送设备100的编码器103中的对象识别处理单元266相似，对象识别处理单元266对通过图像解码单元262获得的用于显示的图像数据应用常规熟知的分割处理，以检测对象，使得获得对象的信息(指示对象的形状的信息、作为包围对象的矩形区的区域的信息、区域的显示优先级信息等)。

图像处理单元265基于通过图像解码单元262获得的用于显示的图像数据和通过对象识别处理单元266获得的各个对象的信息执行图像处理，并且输出用于显示的图像数据。在这种情况下，在标准时间，从图像处理单元265输出的用于显示的图像数据是通过图像解码单元262获得的用于显示的图像数据。进一步地，当执行基于用户的交互式操作的交互式处理时，通过适应性地修改和改变由图像解码单元262获得的用于显示的图像数据而获得从图像处理单元265输出的用于显示的图像数据。

此外，上述实施方式示出了包括发送设备100和接收设备200的发送接收系统10。然而，本技术可以应用的发送接收系统的配置并不局限于上述实施方式。例如，接收设备200的部件可以是通过诸如高清晰度多媒体接口(HDMI)等数字接口连接的机顶盒与监视器的配置等。应注意，“HDMI”是注册商标。

此外，上述实施方式示出了容器是传送流(MPEG-2TS)的实施例。然而，本技术同样能够应用于具有的配置使用诸如互联网等网络而分布至接收侧的系统。在通过互联网进行分发时，通常通过MP4及其他格式的容器执行分发。即，容器是诸如数字广播标准中采用的传送流(MPEG-2TS)和互联网分发中使用的MP4等的各种格式的容器。

此外，本技术能够采用下述配置。

(1)一种发送设备，包括：

(2)根据上述(1)所述的发送设备，其中，

对象信息包括通过对表示对象的形状的一位数据进行编码而获得的编码数据。

(3)根据上述(1)或(2)所述的发送设备，其中，

对象信息包括作为包围对象的矩形区的区域的信息。

(4)根据上述(3)所述的发送设备，其中，

对象信息进一步包括区域的显示优先级信息。

(5)根据上述(1)至(4)中任一项所述的发送设备，其中，

对象信息包括对对象进行说明的文本信息。

(6)根据上述(1)至(5)中任一项所述的发送设备，其中，

对象信息通过被插入到视频流中传输。

(7)根据上述(6)所述的发送设备，其中，

对象信息至少包括通过对表示对象的形状的一位数据进行编码而获得的编码数据和作为包围对象的矩形区的区域的信息，并且

将编码数据插入到视频流的第一区中，并且将区域的信息插入到视频流的与第一区不同的第二区中。

(8)一种发送方法，包括：

图像编码步骤，使图像编码单元对图像数据进行编码，以获得具有编码图像数据的视频流；和

发送步骤，使发送单元在添加有基于图像数据检测的对象的信息的状态下传输视频流。

(9)一种接收设备，包括接收单元，被配置为接收具有通过对图像数据进行编码而获得的编码图像数据的视频流，其中，

视频流添加有基于图像数据而检测的对象的信息；

(10)根据上述(9)所述的接收设备，其中，

交互式处理是突出显示基于对象的信息而选择的预定对象的处理。

(11)根据上述(9)或(10)所述的接收设备，其中，

交互式处理是通过对基于对象的信息而选择的预定对象的图像进行分析而获取预定信息的处理。

(12)根据上述(9)至(11)中任一项所述的接收设备，其中，

交互式处理是显示与基于对象信息而选择的预定对象有关的信息的处理。

(13)一种接收方法，包括使接收单元接收具有通过对图像数据进行编码而获得的编码图像数据的视频流的接收步骤，其中，

视频流添加有基于图像数据而检测的对象的信息；

接收方法进一步包括控制步骤，控制步骤使控制单元控制基于对象信息而执行的交互式处理。

(14)一种接收设备，包括：

控制单元，被配置为控制基于通过对编码图像数据进行解码而获得的图像数据来检测对象的信息的处理以及基于对象的信息执行的交互式处理。

(15)一种接收方法，包括：

接收步骤，使接收单元接收具有通过对图像数据进行编码而获得的编码图像数据的视频流；和

控制步骤，使控制单元控制基于通过对编码图像数据进行解码而获得的图像数据来检测对象的信息的处理以及基于对象的信息执行的交互式处理。

本技术的主要特征在于与具有通过对图像数据进行编码而获得的编码图像数据的视频流一起发送基于图像数据而检测的对象的信息。这样，接收侧能够获得对象的信息，而不需要通过对图像数据进行处理以检测对象并且与其自身性能无关，并且接收侧可以通过良好的方式基于对象的信息执行交互式处理(参考图2)。

符号说明

10 发送接收系统

100 发送设备

101 CPU

102 用户操作单元

103 编码器

104 编码画面缓冲器

105 TS格式器

106 发送单元

131 图像编码单元

132 对象识别处理单元

133 区域编码单元

134 参数集/SEI编码单元

135 NAL封包单元

141 减法电路

142 运动预测/运动补偿电路

143 整数转换/量化电路

144 逆量化/逆整数转换电路

145 加法电路

146 环路滤波器

147 存储器

148 熵编码电路

200 接收设备

201 CPU

202 用户操作单元

203 接收单元

204 TS分析单元

205 编码画面缓冲器

206 解码器

207 显示单元

261 NAL开包单元

262 图像解码单元

263 区域解码单元

264 语义区域SEI分析单元

265 图像处理单元

271 熵解码电路

272 逆量化/逆整数转换电路

273 运动补偿电路

274 加法电路

275 环路滤波器

276 存储器

Claims

1.一种发送设备，包括：

图像编码单元，被配置为对图像数据进行编码，以获得具有编码图像数据的视频流；以及

发送单元，被配置为在添加有基于所述图像数据而检测的对象的信息的状态下发送所述视频流，

其中，所述对象的信息包括作为包围所述对象的矩形区的区域的信息，所述对象的信息进一步包括所述区域的显示优先级信息，其中，所述区域中所包括的对象在与所述区域的显示优先级信息的优先度对应的位置处的显示单元中显示，

其中，所述显示单元由从用户的近视点向远视点在彼此顶部上布置的多个显示单元构成，所述多个显示单元中的每一者的对象显示区域之外的区域处于透明状态。

2.根据权利要求1所述的发送设备，其中

所述对象的信息包括通过对表示所述对象的形状的一位数据进行编码而获得的编码数据。

3.根据权利要求1所述的发送设备，其中

所述对象的信息包括对所述对象进行说明的文本信息。

4.根据权利要求1所述的发送设备，其中

所述对象的信息通过被插入到所述视频流中来发送。

5.根据权利要求4所述的发送设备，其中

所述对象的信息至少包括：通过对表示所述对象的形状的一位数据进行编码而获得的编码数据和作为包围所述对象的矩形区的区域的信息，并且

所述编码数据插入到所述视频流中的第一区中，并且所述区域的信息插入到所述视频流中的与所述第一区不同的第二区中。

6.一种发送方法，包括：

图像编码步骤，使图像编码单元对图像数据进行编码，以获得具有编码图像数据的视频流；以及

发送步骤，使发送单元在添加有基于所述图像数据而检测的对象的信息的状态下发送所述视频流，

其中，所述对象的信息包括作为包围所述对象的矩形区的区域的信息，所述对象的信息进一步包括所述区域的显示优先级信息，

其中，所述区域中所包括的对象在与所述区域的显示优先级信息的优先度对应的位置处的显示单元中显示，

7.一种接收设备，包括接收单元，所述接收单元被配置为接收具有通过对图像数据进行编码而获得的编码图像数据的视频流，其中

所述视频流添加有基于所述图像数据而检测的对象的信息，

所述接收设备进一步包括控制单元，所述控制单元被配置为控制基于所述对象的信息而执行的交互式处理，

8.根据权利要求7所述的接收设备，其中

所述交互式处理是对基于所述对象的信息而选择的预定对象进行突出显示的处理。

9.根据权利要求7所述的接收设备，其中

所述交互式处理是通过对基于所述对象的信息而选择的预定对象的图像进行分析来获取预定信息的处理。

10.根据权利要求7所述的接收设备，其中

所述交互式处理是显示与基于所述对象的信息而选择的预定对象有关的信息的处理。

11.一种接收方法，包括使接收单元接收具有通过对图像数据进行编码而获得的编码图像数据的视频流的接收步骤，其中

所述视频流添加有基于所述图像数据而检测的对象的信息，

所述接收方法进一步包括控制步骤，所述控制步骤使控制单元控制基于所述对象的信息而执行的交互式处理，

12.一种接收设备，包括：

接收单元，被配置为接收具有通过对图像数据进行编码而获得的编码图像数据的视频流；以及

控制单元，被配置为控制基于通过对所述编码图像数据进行解码而获得的所述图像数据来检测对象的信息的处理和基于所述对象的信息而执行的交互式处理，

13.一种接收方法，包括：

接收步骤，使接收单元接收具有通过对图像数据进行编码而获得的编码图像数据的视频流；以及

控制步骤，使控制单元控制通过对所述编码图像数据进行解码而获得的所述图像数据来检测对象的信息的处理和基于所述对象的信息而执行的交互式处理，