CN109313904A

CN109313904A - 视频音频处理设备、视频音频处理方法和程序

Info

Publication number: CN109313904A
Application number: CN201780032313.7A
Authority: CN
Inventors: 本间弘幸; 山本优树
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2016-05-30
Filing date: 2017-05-17
Publication date: 2019-02-05
Anticipated expiration: 2037-05-17
Also published as: CN117612539A; EP3467823A1; WO2017208820A1; US11902704B2; KR20220155396A; US20220078371A1; RU2743732C2; JPWO2017208820A1; KR102650850B1; US11184579B2; EP3467823A4; CN109313904B; BR112018074203A2; RU2018141215A3; JP2022036998A; US20190222798A1; JP6984596B2; RU2018141215A; KR102465227B1; JP7396341B2

Abstract

本技术涉及一种视频音频处理设备、一种视频音频处理方法和一种程序，通过该视频声音处理设备、视频声音处理方法和程序，可以更容易地以更高的精度分离期望的对象声音。所述视频声音处理设备具备：显示控制单元，使得基于视频信号的视频对象被显示；对象选择单元，从一个视频对象或者从多个视频对象之间选定预定的视频对象；以及提取单元，将由所述对象选择单元选定的视频对象的音频信号提取为音频对象信号。本技术可应用于视频声音处理设备。

Description

视频音频处理设备、视频音频处理方法和程序

技术领域

本技术涉及一种用于视频-音频处理的设备和方法以及一种程序，更具体地，涉及一种分别能够更简单、更精确地分离期望的对象声音的用于视频-音频处理的设备和方法以及程序。

背景技术

近年来，对象音频技术已经用于电影、游戏等中，并且已经开发了可以处理对象音频的编码系统。例如，作为国际标准的动态图像专家组(MPEG)-H部分3：3D音频标准等称为关于对象音频编码的标准(例如，参考NPL 1)。

这种编码系统与多声道立体音响系统(例如，过去的2声道立体音响系统或过去的5.1声道立体音响系统)一起可以将移动声源等作为独立的音频对象来处理，并且可以通过元数据的形式将与音频对象相关联的位置信息与音频对象的信号数据一起编码。通过采用这种处理，可以容易地执行在再现时对特定声源的处理，这在过去的编码系统中很难执行。具体地，例如，作为特定声源的处理，可以对每个音频对象执行音量调整、效果添加等。

如果在例如通过使用摄录像机、智能手机等拍摄动态图像时使用这种对象音频编码，则将作为拍摄目标的家族的声音记录为对象声音，并且将除了对象声音之外的声音记录为背景声音。结果，在拍摄之后、在再现时或在编辑时，可以独立操作家族的声音。

然而，在通过使用诸如摄录像机或智能手机等移动设备获取对象声音的情况下，就计算资源或用户界面的便利性而言，不容易自动确定什么应该记录为对象声音，什么应该记录为背景声音。

另外，迄今为止，已经提出了各种声源分离技术，作为分离对象声音的技术。例如，已经提出了通过使用多个麦克风和独立的主成分分析等来分离声源的技术(例如，参考PTL1)。

[引文列表]

[非专利文献]

[NPL 1]

国际标准ISO/IEC23008-3第一版2015-10-15信息技术(异构环境中的高效编码和媒体传送)第3部分：3D音频

[专利文献]

[PTL 1]

日本专利公开号2010-233173

发明内容

[技术问题]

然而，这些声源分离技术中的每一种都自适应地将声源与来自麦克风的输入声音信号分离，并且在许多情况下，实际上包括拍摄目标人物的声音之外的声音。因此，难以简单并准确地分离想要的对象声音。

针对这种情况而提出本技术，并且能够更简单并且更精确地分离期望的对象声音。

[问题的解决方案]

本技术的一个方面的视频-音频处理设备具有：显示控制部，被配置为使得基于视频信号的视频对象被显示；对象选择部，被配置为从所述一个视频对象或者从多个视频对象之间选定预定的视频对象；以及提取部，被配置为将由所述对象选择部选定的视频对象的音频信号提取为音频对象信号。

所述提取部可以从音频信号中提取音频对象信号。

所述提取部可以从音频信号中提取所选定的视频对象的音频对象信号以外的信号，来作为背景声音信号。

所述对象选择部可以生成所选定的视频对象在空间上的位置的对象位置信息，并且所述提取部可以基于对象位置信息提取音频对象信号。

所述提取部可以通过使用对象位置信息的声源分离来提取音频对象信号。

所述提取部可以执行固定波束形成来作为声源分离。

视频-音频处理设备还可以具有视频对象识别部，被配置为基于视频信号来识别视频对象，并且所述显示控制部可以将基于视频对象的识别结果的图像与视频对象一起显示。

所述视频对象识别部可以从面部识别中识别视频对象。

所述显示控制部可以将框作为图像显示在视频对象的区域中。

所述对象选择部可以响应于用户的选择操作来选择视频对象。

所述对象选择部可以生成所选定的视频对象的元数据。

所述对象选择部可以生成指示作为元数据的所选定的视频对象在空间上的位置的对象位置信息。

所述对象选择部可以生成所选定的视频对象的处理优先级来作为元数据。

所述对象选择部可以生成指示所选定的视频对象的区域的扩展状态的扩展信息来作为元数据。

视频-音频处理设备还可以具有音频编码部，被配置为对音频对象信号和元数据进行编码。

视频-音频处理设备还可以具有：视频编码部，被配置为对视频信号进行编码；以及多路复用部，被配置为对通过编码视频信号而获得的视频比特流以及通过编码音频对象信号和元数据而获得的音频比特流进行多路复用。

视频-音频处理设备还可以具有图像拾取部，被配置为通过执行拍摄来获得视频信号。

还可以提供声音获取部，被配置为通过执行声音获取来获得音频信号。

本技术的一个方面的视频-音频处理方法或程序包括：显示控制步骤，使得基于视频信号的视频对象被显示；对象选择步骤，从所述一个视频对象或者从多个视频对象之间选定预定的视频对象；以及提取步骤，将由对象选择步骤选定的视频对象的音频信号提取为音频对象信号。

在本技术的一个方面，基于视频信号显示视频对象，从一个视频对象或者从多个视频对象之间选定预定的视频对象，并且将所选定的视频对象的音频信号提取为音频对象信号。

[发明的有利效果]

根据本技术的一个方面，可以更简单和准确地分离期望的对象声音。

应当注意，上述效果不一定是限制性的，并且本公开中描述的任何效果也是可用的。

附图说明

[图1]是描述视频-音频处理设备的配置的示例的方框图。

[图2]是描述视频-音频处理设备的配置的具体示例的方框图。

[图3]是解释编码处理的流程图。

[图4]是解释选择音频对象和显示矩形框图像的示图。

[图5]是解释对象位置信息的坐标系的示图。

[图6]是解释对象、透镜和成像面之间关系的示图。

[图7]是解释对象位置信息的计算的示图。

[图8]是描述包括对象位置信息的元数据的语法的示图。

[图9]是描述包括处理优先级的元数据的语法的示图。

[图10]是解释处理优先级的设置的示图。

[图11]是描述包括扩展信息的元数据的语法的示图。

[图12]是解释扩展信息的计算的示图。

[图13]是解释扩展信息的计算的示图。

[图14]是描述计算机的配置的示例的方框图。

具体实施方式

在下文中，将参考附图，描述均应用本技术的实施方式。

<第一实施方式>

<视频-音频处理设备的配置的示例>

利用本技术，使用以动态图像为目标的对象识别技术，例如，面部识别技术，使得识别结果在显示装置上呈现给设备使用者，该设备使用者对与基于识别结果选择的对象对应的方向上的声音进行分离，作为对象声音。此外，通过使用对象音频编码技术来编码除该声音之外的声音。

图1是描述应用本技术的视频-音频处理设备的实施方式的配置的示例的方框图。

图1所示的视频-音频处理设备11具有图像拾取部21、视频对象识别部22、视频对象识别结果显示控制部23、视频显示部24、对象选择部25、声音获取部26、声源分离部27、音频编码部28、视频编码部29和多路复用部30。

图像拾取部21例如包括图像拾取单元，该图像拾取单元包括图像拾取元件、透镜等。图像拾取部21拍摄主体，并将作为拍摄结果而获得的得到的动态图像的视频信号提供给视频对象识别部22和视频编码部29中的每一个。

视频对象识别部22基于从图像拾取部21向其提供的视频信号来识别动态图像上的视频对象，并将识别结果与视频信号一起提供给视频对象识别结果显示控制部23。

在视频对象识别部22中，基于面部识别、对象识别、运动捕捉等来识别(检测)动态图像上的视频对象。

例如，日本专利号4492036详细描述了使用已知图像的主体识别技术。随着最近机器学习技术和云网络的发展，使用已知图像的这种主体识别技术实际上已经成为一种可用的水平。通过利用这种主体识别技术，识别任意主体，将识别结果呈现给设备使用者。结果，可以将从由设备使用者选择的对象的位置妨碍的音频信号作为音频对象的信号来提取。

视频对象识别结果显示控制部23基于视频对象的识别结果和从视频对象识别部22向其提供的视频信号来控制在视频显示部24中显示动态图像。即，视频对象识别结果显示控制部23将视频信号提供给视频显示部24，以使得视频显示部24在其上显示动态图像，并且基于视频对象的识别结果，叠加显示指示视频对象在动态图像上的位置的信息。

另外，视频对象识别结果显示控制部23将视频对象的识别结果提供给对象选择部25。

视频显示部24例如包括液晶面板等，并且根据由视频对象识别结果显示控制部23进行的控制，在其上显示诸如动态图像等图像。

另外，当视频对象的识别结果(即，指示视频对象的位置的信息)与动态图像(视频)一起显示在视频显示部24上时，设备使用者执行用于指定期望视频对象的操作。然后，将指示设备使用者的指定操作的结果的信号提供给对象选择部25。

对象选择部25基于从视频对象识别结果显示控制部23向其提供的视频对象的识别结果和响应于设备使用者对视频对象的指定操作而向其提供的信号两者，来生成对象位置信息，该对象位置信息指示由设备使用者选定的视频对象在三维空间上的位置。对象选择部25将得到的对象位置信息提供给声源分离部27和音频编码部28中的每一个。

例如，第二获取部分26包括麦克风，并且获取视频-音频处理设备11周围的声音，并且将得到的音频信号提供给声源分离部27。在视频-音频处理设备11中，获取包括由图像拾取部21拍摄的动态图像和由声音获取部26获取的声音的内容。即，在声音获取部26中获取的音频信号是与在图像拾取部21中获得的视频信号相关联的语音信号。

声源分离部27基于从对象选择部25向其提供的对象位置信息，对从声音获取部26向其提供的音频信号执行声源分离。

通过在声源分离部27中执行声源分离，在声音获取部26中获取的音频信号被分离成：作为由设备使用者选定的视频对象的语音信号的音频对象信号，以及除了由设备使用者选定的视频对象的语音之外的语音的信号，换言之，作为背景声音的信号的背景声音信号。在这种情况下，由设备使用者选定的视频对象的语音信号被分离(提取)作为对象声音，换言之，音频对象信号被分离作为音频对象的语音信号。

声源分离部27将通过声源分离获得的音频对象信号和背景声音信号提供给音频编码部28。

音频编码部28对从声源分离部27向其提供的音频对象信号和背景声音信号以及从对象选择部25向其提供的对象位置信息进行编码，并将得到的音频比特流提供给多路复用部30。

视频编码部29对从图像拾取部21向其提供的视频信号进行编码，并将得到的视频比特流提供给多路复用部30。多路复用部30对从视频编码部29向其提供的视频比特流和从音频编码部28向其提供的音频比特流进行多路复用，以获得输出比特流来作为最终输出。多路复用部30输出以这种方式获得的输出比特流。

<视频-音频处理设备的配置的示例>

图1所示的视频-音频处理设备11示出了一般实施方式。然而，在下文中，为了给出更具体的描述，在面部识别技术用作具体示例的情况下，将给出关于用于在视频对象识别部22中识别视频对象的技术的描述。

在这种情况下，视频-音频处理设备11例如被配置为如图2所示。应当注意，在图2中，与图1的情况对应的部分分别指定相同的附图标记，并且在此适当地省略其描述。

图2所示的视频-音频处理设备61具有图像拾取部21、面部识别部71、面部识别结果显示控制部72、视频显示部73、人物选择部74、声音获取部26、声源分离部27、音频编码部28、视频编码部29和多路复用部30。

视频-音频处理设备61的配置与视频-音频处理设备11的不同之处在于，代替视频对象识别部22至对象选择部25，而设置面部识别部71至人物选择部74，并且视频-音频处理设备61在其他方面具有与视频-音频处理设备11相同的配置。

面部识别部71对应于图1所示的视频对象识别部22。面部识别部71对从图像拾取部21向其提供的视频信号执行面部识别处理，以识别动态图像上的人的面部，并将识别结果与视频信号一起提供给面部识别结果显示控制部72。即，在面部识别部71中，基于视频信号将人的面部识别(检测)为视频对象。

面部识别结果显示控制部72对应于图1所示的视频对象识别结果显示控制部23。面部识别结果显示控制部72基于从面部识别部71向其提供的面部识别结果和视频信号来控制在视频显示部73中显示动态图像。即，面部识别结果显示控制部72将视频信号提供给视频显示部73，以使得视频显示部73在其上显示内容的动态图像。另外，面部识别结果显示控制部72使得视频显示部73在其上叠加显示信息，该信息指示作为视频对象的人在动态图像上的位置。

另外，面部识别结果显示控制部72将面部识别结果提供给人物选择部74。

视频显示部73例如包括液晶显示面板等，并且对应于图1所示的视频显示部24。视频显示部73根据由面部识别结果显示控制部72进行的控制，在其上显示诸如动态图像等图像。

另外，视频显示部73具有通过在显示图片上进行叠加显示而设置的触摸面板81，并且触摸面板81将响应于设备使用者的操作的信号提供给人物选择部74。应当注意，尽管在这种情况下，将相对于设备使用者操作触摸面板81的示例给出描述，从而执行各种输入，另外，可以使用诸如鼠标、按钮、键盘等输入装置，从而执行输入操作。

当面部识别的结果(即，指示作为视频对象的人的面部位置的信息)与动态图像(视频)一起显示在视频显示部73上时，设备使用者操作触摸面板81，以指定期望的人。然后，设备使用者将人(面部)的选择结果从触摸面板81提供给人物选择部74。

人物选择部74对应于图1所示的对象选择部25。人物选择部74基于从面部识别结果显示控制部72向其提供的面部识别结果和从触摸面板81向其提供的人物的选择结果，来选择由设备使用者选择的人物，即，视频对象，并且生成指示该视频对象在三维空间上的位置的对象位置信息。

另外，人物选择部74将设备使用者对人物的选择结果提供给视频显示部73，并使得视频显示部73在其上显示预定的显示。结果，人物选择部74使得能够由设备使用者确认由设备使用者自己执行的人物的选择结果。

人物选择部74将相对于由设备使用者选择的人物而获得的对象位置信息提供给声源分离部27和音频编码部28中的每一个。

<编码处理的描述>

接下来，将描述视频-音频处理设备61的操作。即，在下文中，将参考图3的流程图来描述由视频-音频处理设备61执行的编码处理。

例如，当由设备使用者操作视频-音频处理设备61以指示拍摄以语音作为内容图像时，编码处理开始。应当注意，虽然在这种情况下，将运动图像(视频)作为内容图像进行拍摄的情况作为示例来描述，但是在下文中，动态图像也将简称为内容图像。

当拍摄开始时，图像拾取部21拍摄主体，并且将得到的视频信号连续地提供给面部识别部71和视频编码部29中的每一个。另外，声音获取部26获取声音，并且将得到的音频信号连续地提供给声源分离部27。

在步骤S11中，面部识别部71基于从图像拾取部21提供的视频信号，从内容图像中检测人的面部，并将检测结果和视频信号提供给面部识别结果显示控制部72。

例如，面部识别部71利用视频信号的特征量、词典等执行面部识别处理，从而从图像中检测人的面部。在这种情况下，例如，识别(检测)人的面部在图像上的位置、该人物面部的面积大小等。内容图像上的人(更具体地，人的面部)被设为视频对象。

在步骤S12中，面部识别结果显示控制部72基于面部的检测结果和从面部识别部71向其提供的视频信号，生成用于矩形框图像的信号，该矩形框图像用于在内容图像上的检测的面部的区域上显示包围各个面部的矩形框。

应当注意，仅需要矩形框图像是一种在作为视频对象的人的面部区域中显示包围该区域的至少一部分的框的图像，并且面部的整个区域不必被矩形框包围。

此外，面部识别结果显示控制部72向人物选择部74提供指示人物的每个面部生成的矩形框图像的显示位置和大小的面部位置信息，换言之，图像上的人物面部的位置和面积大小。

在步骤S13中，面部识别结果显示控制部72将与生成的矩形框图像相关联的信号和内容的视频信号提供给视频显示部73。此外，面部识别结果显示控制部72以内容图像被显示的这种方式控制视频显示部73，在该内容图像中在人的面部区域上叠加显示矩形框图像。

结果，作为基于视频对象的识别结果的图像的矩形框图像与内容图像一起显示，换言之，在视频显示部73的显示图片上显示基于视频信号的视频对象。

顺便说一下，关于用于从内容图像中检测人的面部的面部识别技术，已经提出了各种技术。例如，日本专利号4264663(在下文中也称为参考文献1)等详细描述了面部识别技术。参考文献1描述了进行面部识别，并且基于识别结果叠加显示矩形框图像。

面部识别部71中的面部识别处理的技术或者面部识别结果显示控制部72叠加显示矩形框图像的技术可以被认为是与参考文献1中描述的技术类似的技术。然而，任何技术也是可用的，只要识别出人的面部并且可以执行包围识别出的面部区域的显示。另外，尽管在这种情况下，例如，描述了显示矩形框图像的示例，但是显示不限于矩形框图像，因此，可以强调显示人的面部轮廓，或者可以叠加显示具有其他形状的画像图像，只要面部识别的结果可以显示在内容图像上，特别是显示在面部的位置。

当内容图像以这种方式显示在视频显示部73上，并且矩形框图像显示在内容图像上的人的面部区域中时，设备使用者(即，操作视频-音频处理设备61的用户)操作触摸面板81，以选择期望的人作为音频对象。

例如，通过指定在关注人的面部区域中显示的矩形框图像，执行对期望人物的选择。另外，用户可以从显示在视频显示部73上的一个人或多个人(视频对象)中仅选择期望的人，或者可以选择多个人。

在视频-音频处理设备61中，从以这种方式选择的人(即，从视频对象)生成的语音被设置为对象声音。然后，从音频信号中提取对象声音的信号作为音频对象信号。因此，选择为视频对象的人物可以说是选择期望的人作为音频对象的操作。

当设备使用者选择期望的人时，将响应于设备使用者的选择操作的信号从触摸面板81提供给人物选择部74。

在步骤S14中，人物选择部74基于响应于从触摸面板81提供的设备使用者的选择操作的信号和从面部识别结果显示控制部72提供的面部位置信息，来选择由设备使用者指定的音频对象。

在步骤S15中，人物选择部74基于步骤S14中的音频对象的选择结果以如下方式控制视频显示部73：使得视频显示部73高亮显示在被选择为音频对象的人的面部区域中显示的矩形框图像，即，所选择的矩形框图像。

例如，如图4所示，假设在视频显示部73上显示包括三个人物HM11至HM13作为对象的内容图像。

在该示例中，在步骤S11中，检测人物HM11至HM13的面部，并且在步骤S13中，矩形框图像FR11至矩形框图像FR13分别叠加显示在这些人的面部的区域中。

在这种状态下，假设设备使用者通过例如按压在具有他/她的画像的人物HM11的面部区域的一部分中显示的矩形框图像FR11来选择人物HM11。通过执行选择操作，在步骤S14中，选择显示矩形框图像FR11的面部区域的人物HM11作为音频对象。然后，在步骤S15中，高亮显示在所选人物HM11的面部区域中显示的矩形框图像FR11。

在该示例中，用实线绘制矩形框图像FR11，表示高亮显示矩形框图像FR11。另一方面，分别用虚线绘制未被选择的人的矩形框图像FR12和矩形框图像FR3，这表示没有高亮显示矩形框图像FR12和矩形框图像FR13，换言之，正常显示。

因此，当选择矩形框图像FR11时，矩形框图像FR11的显示状态从用虚线绘制矩形框图像FR11的正常显示状态改变为用实线绘制矩形框图像FR11的高亮显示状态。

以这种方式，以与其他矩形框图像中的每一个的显示形式不同的显示形式来显示由设备使用者选择的人的矩形框图像，使得设备使用者可以容易地确认是否正确地反映他/她自己的选择操作。

应当注意，在这种情况下，作为示例描述了高亮显示所选人物的矩形框图像的情况，本技术不限于此，因此，仅需要以与任何其他矩形框图像的显示形式不同的显示形式来显示所选人物的矩形框图像。例如，所选人物的矩形框图像能够以与任何其他矩形框图像的颜色或形状不同的颜色或形状来显示，或者可以闪烁显示。

另外，在面部识别部71中预先保存了诸如家族等特定人的词典，并且在面部识别部71中检测到该特定人的情况下，人物选择部74可以选择该特定人作为音频对象，而不执行设备使用者的选择操作。

在这种情况下，指示特定人物的信息通过面部识别部71至面部识别结果显示控制部72也提供给人物选择部74。然后，在视频显示部73上显示内容图像和矩形框图像的时间点，视频显示部73根据来自人物选择部74的控制，使得高亮显示特定人物的矩形框图像。

以这种方式，以预先选择特定的人作为音频对象的这种方式进行准备，使得可以省略设备使用者的选择操作的劳动。另外，在这种情况下，可以响应于设备使用者之后的操作来解除对特定人物的选择。

此外，对于叠加显示在内容图像上的矩形框图像，类似于例如在参考文献1中描述的示例，这种处理自动追踪随着人的移动、拍摄对象区域的移动的变化，即，拍摄方向的变化等。

一些普通摄录像机或数码相机配备有这样一种机构，以便聚焦在设备使用者触摸的触摸面板的区域上。然而，也可以执行用于选择音频对象的处理和用于选择聚焦对象的处理。类似于上述矩形框图像的自动追踪，一旦选择，就使得音频对象随着人的移动或拍摄对象区域的移动而自动追踪变化。

返回图3的流程图的描述，在步骤S16中，人物选择部74基于从面部识别结果显示控制部72向其提供的面部位置信息来生成对象位置信息，该对象位置信息指示在步骤S14中选择的音频对象在空间上的位置。

通常，例如，编码与MPEG-H部分3：3D音频标准等表示的标准中的音频对象相关联的对象位置信息，以便遵循图5所示的球面坐标系。

在图5中，穿过原点O并且彼此垂直的X轴、Y轴和Z轴是三维正交坐标系的轴。例如，在三维正交坐标系中，对于音频对象OB11在空间上的位置，使用x作为指示X轴方向上的位置的X坐标，y作为指示Y轴方向上的位置的Y坐标，z作为指示Z轴方向上的位置的Z坐标。结果，音频对象OB11的位置以(x，y，z)的形式再现。

另一方面，在球面坐标系中使用方位角、仰角和半径，从而表示音频对象OB11在空间上的位置。

现在，连接原点O和音频对象OB11的位置的直线指定直线r，并且通过将直线r投影到XY平面上而获得的直线指定直线L。

此时，X轴和直线L之间的角度θ是指示音频对象OB11的位置的方位角。另外，直线r和XY平面之间的角度φ是指示音频对象OB11的位置的仰角，直线r的长度是指示音频对象OB11的位置的半径。

在下面，音频对象在空间上的位置由球面坐标系表示。在这种情况下，表示该位置的方位角、仰角和半径分别被描述为position_azimuth、position_elevation以及position_radius。

通常，很难从动态图像测量对象的尺寸或者与摄影师的实际距离。此外，在诸如摄录像机等图像拾取设备中，存在可以测量到诸如自动聚焦机构等对象的距离的图像拾取设备。然而，在这种情况下，将作为示例描述使用面部识别处理来计算主体在真实空间上的位置(即，音频对象在真实空间上的位置)的情况。

即，在下文中，将参照图6描述在普通图像拾取设备中已知主体形状的情况下测量主体距离的方法。

在图6中，主体103由包括具有成像面101的图像拾取元件和透镜102的图像拾取单元拍摄。在此处，包括图像拾取元件和透镜102的图像拾取单元对应于图像拾取部21。主体103是真实空间上的人，该真实空间上的人与在步骤S14中被选择为音频对象的图像上的人对应。

在该示例中，在主体103的图中，作为纵向宽度的主体宽度是W2，并且在拍摄主体103时成像面101上的主体103的图像的图中，作为纵向宽度的主体宽度是W1。

此外，在图中，从透镜102到主体103的空间上的横向距离指定主体距离d，并且在图中，从成像面101到透镜102的空间上的横向距离指定焦距D。

应当注意，更具体地，在图中，从透镜102的主点到主体103的横向距离是主体距离d，在图中，从成像面101到透镜102的主点(principal point)的横向距离是焦距D。此外，当透镜102包括多个透镜时，复合透镜的主点成为透镜102的主点。

在人物选择部74中，预先保存与图像拾取部21相关联的信息，例如，焦距D以及成像面101的尺寸、像素数量等。

此外，人物选择部74可以根据从面部识别结果显示控制部72向其提供的面部位置信息和先前保存的与图像拾取部21相关联的信息，来指定人物和图像上的主体的尺寸以及成像面101上的主体(的图像)的位置和尺寸之间的关系。因此，人物选择部74可以从面部位置信息和与图像拾取部21相关联的信息获得成像的主体宽度W1。

人物选择部74基于作为已知物理量的焦距D、作为已知物理量的成像主体宽度W1和主体宽度W2来计算以下表达式(1)，并且计算作为未知物理量的主体距离d。

[表达式]

应当注意，尽管主体宽度W2严格来说是未知的物理量，但是单个人的面部尺寸的分散(dispersion)被认为比主体距离d小得多，因此普通人的面部尺寸可以用作主体宽度W2。即，主体宽度W2可以被视为已知的物理量。

例如，由于人类的面部宽度的平均值约为16cm，面部长度的平均值约为23.5cm，因此这些值可以用作主体宽度。面部宽度和面部长度的平均值根据男女之间的差异、年龄等的不同而略改变。然而，由于可以通过图像识别等从内容图像中检测到的面部来估计被检测人的性别和大致年龄，因此可以通过使用性别或按年龄的平均值来校正主体宽度。

另外，作为主体的人的纵向宽度(长度)和横向宽度中的一个或者作为主体的人的纵向宽度和横向宽度两者都可以用于计算主体距离d。在这种情况下，为了描述的简单起见，描述将人的面部的纵向宽度用作主体宽度W2并且仅使用主体宽度W2来计算主体距离d的情况，作为示例。

在图6中，透镜102的主点的位置对应于图5中描绘的原点O，并且图6中的纵向和横向分别对应于图5中的Z轴方向和X轴方向。特别地，在图6中，右方向对应于图5中的前方向，换言之，X轴方向的正方向。

因此，当从图5所示的三维正交坐标系中的原点O观看时，从上述计算中所计算出的主体距离d指示在X轴方向上到被选择为音频对象的人的距离。

此外，类似地，也可以通过使用面部的平均尺寸作为已知的物理量来获得被选择为音频对象的人的面部在空间上的位置。

例如，如图7所示，假设在视频显示部73上显示的内容图像上选择人物HM11作为音频对象，并且对包围人物HM11的面部区域的矩形框图像FR11进行叠加显示。应当注意，在图7中，与图4的情况对应的部分分别指定相同的附图标记，并且在此适当地省略其描述。

在图7中，被选择为音频对象的人物HM11的头部对应于图6中描绘的主体103。

在图7中，内容图像的中心位置指定位置A11’，相对于人物HM11显示的矩形框图像FR11的中心位置指定位置A12。例如，人物选择部74可以从面部识别结果显示控制部72向其提供的面部位置信息中获得位置A12’。

现在，内容图像上的纵向和横向分别指定Z轴方向(Z方向)和Y轴方向(Y方向)。此外，当从内容图像上的位置A11’观看时，位置A12’在Y轴方向上的位置指定图像主体水平位置Y1’，而当从位置A11’观看时，位置A12’在Z轴方向上的位置指定图像主体垂直位置Z1’。

另一方面，成像面101上的中心位置指定位置A11，并且与成像面101上的位置A12’对应的位置指定位置A12。此外，当从成像面101上的位置A11观看时，位置A12在Y轴方向上的位置指定成像面主体水平位置Y1，并且当从成像面101上的位置A11观看时，位置A12在Z轴方向上的位置指定成像面主体垂直位置Z1。

在此处，成像面101上的Y轴方向和Z轴方向分别是图6中的前方向和垂直方向。由于人物选择部74可以从面部识别结果显示控制部72向其提供的面部位置信息中获得位置A12’，因此人物选择部74可以从位置A12’获得图像主体水平位置Y1’和图像主体垂直位置Z1’。

此外，由于人物选择部74先前保存指示成像面101的尺寸的信息来作为已知信息，所以人物选择部74可以从图像主体水平位置Y1’和图像主体垂直位置Z1’获得成像面主体水平位置Y1和成像面主体垂直位置Z1。即，成像面主体水平位置Y1和成像面主体垂直位置Z1成为已知的物理量。

因此，人物选择部74可以从成像面主体水平位置Y1和成像面主体垂直位置Z1以及如上所述的成像主体宽度W1和主体宽度W2，获得主体103(即，人物HM11)在空间上的Y轴方向和Z轴方向上的位置。

在此处，在主体103(即，人的面部)的空间上的Y轴方向和Z轴方向上的位置分别指定主体水平位置Y和主体垂直部分Z。此时，通过计算以下表达式(2)和表达式(3)，可以从成像面主体水平位置Y1和成像面主体垂直位置Z1以及成像主体宽度W1和主体宽度W2获得主体水平位置y和主体垂直位置z。

[表达式2]

[表达式3]

人物选择部74通过计算表达式(2)和表达式(3)获得在实际空间上被选择为音频对象的人的面部的主体水平位置y和主体垂直位置z。

此外，人物选择部74基于以这种方式获得的主体水平位置y和主体垂直位置z以及上述主体距离d来计算以下表达式(4)至(6)，并且计算实际人的面部在球面坐标系中的位置。

[表达式4]

[表达式5]

position_azimuth＝atan2(y，d)···(5)

[表达式6]

即，可以从表达式(4)的计算中获得指示被选择为音频对象的人在空间上的位置的半径position_radius。

此外，可以从表达式(5)的计算中获得指示被选择为音频对象的人在空间上的位置的方位position_azimuth。此外，从表达式(6)的计算可以获得被选择为音频对象的人在空间上的仰角position_elevation。

在此处，表达式(5)中的atan2(y，d)由以下表达式(7)定义。

[表达式7]

然而，假设如以下表达式(8)所示，主体距离d受到最小值d_min的限制。即，当从表达式(1)获得的主体距离d的绝对值小于最小值d_min时，人物选择部74使用最小值d_min作为主体距离d的值。

[表达式8]

|d|≥d_min···(8)

人物选择部74将指示被选择为音频对象的人在空间上的位置的信息设置为对象位置信息。在这种情况下，被选择为音频对象的人在空间上的位置由通过上述处理获得的方位position_azimuth、仰角position_elevation和半径position_radius来表示。

以这种方式，人物选择部74可以基于面部识别部71中的面部识别结果来获得对象位置信息。然而，通常，在图像拾取部21中，发生光的变化并且由于抖动等生成微振动。因此，希望通过使用滤波器等对对象位置信息进行平滑(smoothing)。

人物选择部74将由此获得的对象位置信息提供给声源分离部27和音频编码部28中的每一个，并且处理进入步骤S17。应当注意，在上述处理中选择多个音频对象的情况下，每个音频对象生成对象位置信息。

在步骤S17中，声源分离部27基于从人物选择部74向其提供的对象位置信息，对从声音获取部26向其提供的音频信号进行声源分离，从而将音频信号分离成音频对象信号和背景声音信号。

例如，在这种情况下，音频对象在空间上的位置(即，声源位置)是由对象位置信息指示的位置，因此是已知的。

然后，例如，声源分离部27通过使用固定波束形成技术来将音频信号分离成作为音频对象的信号的音频对象信号和作为音频对象以外的声源的信号的背景声音信号。

具体地，例如在声音获取部26是包括多个麦克风的麦克风阵列的情况下，对声音获取部26中获得的音频信号进行方向性控制，从而使得音频对象信号和背景声音信号能够与音频信号分离。即，可以从音频信号中提取音频对象信号和背景声音信号。

换言之，利用固定波束形成(fixed beam forming)，从音频信号中提取被选择为音频对象的视频对象在空间上的位置的语音信号，来作为音频对象信号。更具体地，从音频信号中提取来自被选择为音频对象的视频对象在空间上的特定方向的语音信号，来作为音频对象信号。然后，从音频信号中提取除音频对象的语音之外的语音信号，来作为背景声音信号。

应当注意，用于声源分离部27中的声源分离的技术不限于固定波束形成，并且可以采用任何技术，例如，使用在日本专利公开号2010-233173中描述的技术。

此外，在这种情况下，尽管已经假设视频-音频处理设备61是便携式设备(例如，摄录像机)给出了描述，但是本技术不限于此，并且还可以应用于在一定程度上具有大规模的系统，例如，电视会议系统或演播室录音(studio recording)。在这种情况下，如果使用大规模麦克风阵列作为声音获取部26，则可以增强声源的分离性能。

另外，例如，包括定向麦克风的多个麦克风可以用作声音获取部26。在这种情况下，声源分离部27将定向麦克风的方向改变为由对象位置信息指示的方向，从而可以从定向麦克风获得音频对象信号，并且可以从其他麦克风获得背景声音信号。即，音频对象信号可以由定向麦克风提取，背景声音信号可以由其他麦克风提取。

在步骤S18中，音频编码部28对从人物选择部74向其提供的对象位置信息以及从声源分离部27向其提供的音频对象信号和背景声音信号进行编码。然后，音频编码部28将得到的音频比特流提供给多路复用部30。

例如，音频对象信号和背景声音信号在彼此独立编码之后多路复用，以生成音频比特流。

例如，线性脉冲编码调制(PCM)系统或在“国际标准ISO/IEC23008-3第一版2015-10-15信息技术——异构环境中的高效编码和媒体传送——第3部分：3D音频”(在下文中也称为参考文献2)中描述的不可逆压缩系统可用作音频对象信号和背景声音信号的编码系统。

此外，对象位置信息通常是称为元数据的数据，并且以例如图8所示的格式每隔预定时间间隔编码。

图8是描绘包括对象位置信息的元数据的语法(编码格式)的示例的示图。在图8所示的元数据中，“num_objects”指示音频比特流中包括的音频对象的数量。

此外，“tcimsbf”是“二进制补码整数，最高有效(符号)比特优先(Two’scomplement integer,most signification(sign)bit first)”的缩写，并且编码位指示头部的补码2。“uimsbf”是“无符号整数，最高有效比特优先(Unsigned integer,mostsignificant bit first)”的缩写，最高有效比特指示头部的无符号整数。

此外，“position_azimuth[i]、“position_elevation[i]”和“position_radius[i]”分别表示音频比特流中包括的第i个音频对象的对象位置信息。

具体地，“position_azimuth[i]”指示音频对象在球形坐标系中的位置的方位角position_azimuth，“position_elevation[i]”指示音频对象在球形坐标系中的位置的仰角position_elevation。此外，“position_radius[i]”指示到音频对象在球面坐标系中的位置的距离，即，半径position_radius。

此外，“gain_factor[i]”表示音频比特流中包括的第i个音频对象的增益信息。

以这种方式，人物选择部74生成被设置为音频对象的元数据的对象位置信息。音频编码部28将对象位置信息和增益信息编码为元数据。

返回图3的流程图的描述，在步骤S19中，视频编码部29对从图像拾取部21向其提供的视频信号进行编码，并将得到的视频比特流提供给多路复用部30。

应当注意，在用于编码视频信号的系统中，除了众所周知的视频编码系统，例如，MPEG-HEVC或MPEG-AVC之外，还可以使用各种视频编码系统。

在步骤S20中，多路复用部30对从视频编码部29向其提供的视频比特流和从音频编码部28向其提供的音频比特流以及用于执行它们同步的系统信息等进行多路复用，以生成输出比特流。多路复用部30输出得到的输出比特流，并且编码处理结束。

以上述方式，视频-音频处理设备61对视频信号执行面部识别，并且使得指示面部识别结果的矩形框图像与内容图像一起显示。另外，视频-音频处理设备61响应于设备使用者进行的选择操作来选择音频对象，并且生成音频对象的对象位置信息。

结果，可以更简单和准确地分离出期望对象声音的信号。即，当设备使用者观看视频显示部73上的显示时，他/她可以简单直观地选择内容图像上的哪个视频对象(主体)被选择为音频对象。此外，通过获得所选音频对象的对象位置信息，可以更精确地分离期望音频对象的信号。

如果以这种方式所选择的人的声音被编码为音频对象信号，则在再现时，每个音频对象可以改变声音的音量、声源位置、声音质量等。

顺便说一下，在迄今给出的描述中，其中已经描述了视频-音频处理设备61拍摄内容图像的同时，设备使用者选择期望成为音频对象的人的这种示例。然而，在拍摄之后，可以选择期望成为音频对象的人。

在这种情况下，在拍摄内容图像时，例如，记录而不编码通过拍摄获得的视频信号和通过声音获取获得的音频信号。然后，在拍摄之后，当指示再现内容时，基于视频信号和音频信号再现内容，并且执行参考图3描述的编码处理。

接下来，将给出关于接收从上述处理获得的输出比特流并执行内容再现，特别是内容语音再现的方法的描述。

关于包括在通过非进行多路复用输出比特流而获得的音频比特流中的背景声音信号，例如，根据所谓的多声道立体音响系统(例如，过去的2声道或5.1声道)执行再现。

另一方面，关于音频对象信号，参考文献2描述了用于音频对象的再现系统，并且根据渲染系统(rendering system)来执行渲染，以执行再现。

更具体地，根据称为矢量基幅度调节(Vector Base Amplitude Panning，VBAP)的系统，在再现环境的扬声器中映射和再现音频对象信号。

这是一种通过使用来自三个扬声器的输出将声音定位在音频对象在空间上的位置的技术，这些扬声器最接近由对象位置信息指示的音频对象在空间上的位置。虽然在参考文献2中，扬声器的数量是三个，但当然，声音也可以由四个或更多的扬声器定位。

另外，在前面，已经描述了根据多声道立体音响系统编码和解码背景声音信号的示例。然而，也可以使用这种系统，使得在参考文献2中的标准中描述的称为高阶高保真环绕声(Higher Order Ambisonic，HOA)的靠近观看者的空间以球形谐波作为正交基础来表示。

此外，在第一实施方式中，设备使用者(即，摄影师)以这种方式进行拍摄，在大多数情况下，使得要拍摄的人成为音频对象提取的对象，通常落在屏幕内。然而，作为针对被选择为音频对象的人移动到屏幕之外的情况所采取的措施，可以通过使用公知的扬声器识别技术等来生成对象位置信息。

<第二实施方式>

<关于音频对象的处理优先级>

在上述第一实施方式中，设备使用者执行用于从在视频显示部73上显示的候选中选择期望获取其语音的人作为音频对象的操作。

在某些情况下，根据用于解码在视频-音频处理设备61中获得的输出比特流的设备，为了计算吞吐量(throughput)的方便，不可能执行所有音频对象信号的解码处理和渲染处理。

现在，提出了一种用于在编码设备侧对每个音频对象添加处理优先级“优先级”作为比特流内的元数据的技术，并且在参考文献2的标准中也采用该技术。

然后，在应用本技术的第二实施方式中，设备使用者可以从在视频显示部73上显示的候选中选择期望获取其语音的人作为音频对象，并且可以设置所选择的人的处理优先级。

在这种情况下，例如，存储对象位置信息的元数据如图9所示。图9是描绘元数据的语法的示例的示图。

除了包括在图9所示的元数据中的信息之外，与第i个音频对象的处理优先级“objecft_priority[i]”相关联的信息(即，音频对象信号)还包括在图8所示的元数据中。

在本示例中，与处理优先级“objecft_priority[i]”相关联的信息被设置为3比特的数据，并且可以取0到7的值。

例如，在处理优先级objecft_priority[i]的值为0的情况下，音频对象的处理优先级最低，在处理优先级objecft_priority[i]的值为7的情况下，音频对象的处理优先级最高。

现在，假设例如将输出比特流提供给再现侧的设备，该输出比特流包括当处理优先级object_priority[i]的值分别为7、3和0时的三个音频对象的音频对象信号。另外，再现侧的设备可能不能执行所有三个音频对象的渲染。

在这种情况下，例如，对于处理优先级object_priority[i]的值为0的音频对象，再现侧的设备可以执行牺牲声音质量的简单渲染或者禁用渲染该音频对象。结果，即使吞吐量低的再现设备也可以实现内容的实时再现。

如上所述，在与处理优先级相关联的信息与对象位置信息一起存储在元数据中的情况下，视频-音频处理设备61的人物选择部74响应于从触摸面板81提供的设备使用者进行的操作，选择期望被设置为音频对象的人，并基于该信号执行处理优先级的设置。然后，人物选择部74将对象位置信息提供给声源分离部27和音频编码部28中的每一个，并将与结果处理优先级相关联的信息提供给音频编码部28。

结果，音频编码部28不仅编码对象位置信息，而且编码与处理优先级相关联的信息，以生成存储了包括对象位置信息和与处理优先级相关联的信息的元数据的音频比特流。

在设备使用者指定处理优先级的情况下，例如，在图3的步骤S15中，如图10所示，矩形框图像与内容图像一起在视频显示部73上显示。应当注意，在图10中，与图4的情况下的部分对应的部分分别指定相同的附图标记，并且在此适当地省略其描述。

图10描述了设备使用者为落在拍摄对象区域内的三个人物HM11至HM13设置处理优先级的情况。

在该示例中，高亮显示矩形框图像FR11至FR13，并且分别与这些矩形框图像对应的人物HM11至H M13被选择为音频对象。

另外，在人物HM11的矩形框图像FR11附近，显示指示为该人物HM11设置的处理优先级的字符信息“P＝7”。因此，指示人物HM11的处理优先级的值是7，作为最高值。

同样，在人物HM13的矩形框图像FR13附近，显示指示为该人物HM13设置的处理优先级的字符信息“P＝0”。因此，指示人物HM13的处理优先级的值是0，作为最低值。

此外，在图10的示例中，在人物HM12的矩形框图像FR12附近，显示用于设置人物HM12的处理优先级的处理优先级设置图像CF11。

例如，当设备使用者用他/她的手指触摸矩形框图像fr12的部分时，显示处理优先级设置图像CF11。

此外，在处理优先级设置图像CF11内显示处理优先级的值0至7的框。设备使用者用他/她的手指触摸描述期望优先级的值的框，从而能够设置人物HM12的处理优先级。

例如，当设备使用者按压描述了“3”的框时，人物选择部74响应于设备使用者进行的操作，基于从触摸面板81向其提供的信号，将作为音频对象的人物HM12的处理优先级的值设置为“3”。

应当注意，确定处理优先级的方法不限于上述方法，因此可以采用任何方法。例如，可以采用一种简单的方法，使得对应于由设备使用者选择的矩形框图像的人的处理优先级被设置为7，并且没有选择矩形框图像的人的处理优先级被设置为0。

另外，在例如通过面部识别检测到的所有人被选择为音频对象等的情况下，可以响应于关注的人的图像上的面部尺寸(即，矩形框图像的尺寸)，从小于或等于6的值中选择除了在编码处理的步骤S14中被选择为音频对象的人之外的人(视频对象)的处理优先级。

在编码处理中，在步骤S16中，人物选择部74响应于设备使用者进行的操作生成与音频对象相关联的对象位置信息，并且确定各个音频对象的处理优先级。即，生成对象位置信息和处理优先级，作为音频对象的元数据。

然后，人物选择部74将对象位置信息提供给声源分离部27，并将对象位置信息和与处理优先级相关联的信息提供给音频编码部28。

此外，在步骤S18中，音频编码部28对对象位置信息、处理优先级、音频对象信号和背景声音信号进行编码，以生成音频比特流。

通过以上述方式生成音频对象的处理优先级，在再现侧的设备中，音频对象的处理等可以响应于其计算吞吐量等而自动改变。结果，例如可以实现适当的内容再现(例如，内容的实时再现)。

<第三实施方式>

<关于扩展信息>

另外，在再现音频对象时，点声源被认为存在于由对象位置信息指示的位置，并且在这种情况下，由VBAP执行渲染。

然而，更自然的是，实际上，对象具有一定的尺寸，并且声音被认为是从具有某个给定面积的表面生成的。然后，提出了一种技术，通过该技术，将称为扩展的数据(在下文中称为扩展信息)添加到元数据中，并且通过在渲染时使用该数据，获得了好像从存在对象的区域(即，从表面)生成声音的情况。在参考文献2的标准中也采用了这种技术。

在应用了本技术的第三实施方式中，在识别视频对象(例如，人的面部)时，使用矩形框的大小作为视频对象的识别结果，从而使得能够在视频-音频处理设备61的侧面自动设置扩展信息。

在这种情况下，人物选择部74基于响应于从触摸面板81向其提供的设备使用者进行的操作的信号，来选择期望成为音频对象的人，并设置扩展信息。然后，人物选择部74将对象位置信息提供给声源分离部27和音频编码部28中的每一个，并将得到的扩展信息提供给音频编码部28。应当注意，类似于第二实施方式的情况，还可以使得人物选择部74生成处理优先级。

例如，在元数据中包括与处理优先级相关联的信息和扩展信息以及对象位置信息的情况下，元数据变成如图11所示的状态。图11是描绘元数据的语法的示例的示图。

除了包括在图9所示的元数据中的信息之外，第i个音频对象(即，音频对象信号的扩展信息“spread[i]”)还包括在图11所示的元数据中。

在该示例中，扩展信息spread[i]被设置为8比特的数据，并且被设置为指示音频对象在空间上的区域的角度信息，即，指示音频对象的区域的扩展状态的角度信息。

作为在再现侧用于接收输出比特流的设备的再现设备，通过使用这种扩展信息spread[i]来执行渲染。应当注意，稍后将描述具体计算扩展信息spread[i]的方法。

在此处，参照图12描述根据参考文献2的标准利用再现设备中的扩展信息的方法。

假设例如关于空间上的原点O，音频对象位于由向量p0指示的位置。在此处，向量p0是以原点O为起点的向量，由向量p0指示的位置是由对象位置信息指示的位置。另外，此后，向量p0指示的位置也将称为位置p0。

在这种情况下，人物选择部74生成向量p0的角度信息作为扩展信息spread[i]。

在再现设备中，以扩展向量的形式获取18个向量p1至p18，其中，当在前方从原点O观看位置p0时，基于扩展信息spread[i]给出的角度获得的圆C11内的位置被设置为终点，原点O被设置为起点。

圆C11是以位置p0为中心的圆，在本示例中，向量p1或向量P4成为以圆C11的圆周上的位置为终点的向量。应当注意，在图12中，圆C11内的每个点表示每个扩展向量的结束位置。

例如，以圆C11的圆周上的位置为终点的向量p1和向量p0之间的角度变成由扩展信息spread[i]表示的角度。

应当注意，由于例如在参考文献2中详细描述了基于对象位置信息和扩展信息spread[i]计算向量p1至p18作为扩展向量的方法，因此在此处省略其描述。

当获取到扩展向量时，则再现设备对于作为扩展向量所获得的向量p1至p18通过VBAP按每个扬声器获得音频对象信号的增益，并且归一化这些增益。然后，将乘以归一化增益的音频对象信号映射到扬声器上，以再现内容的语音。

以这种方式通过使用扩展信息来执行渲染，从而可以表示在空间方向上具有扩展的音频对象。

在视频-音频处理设备61的人物选择部74中计算扩展信息的情况下，例如，如图13所示，人物选择部74通过使用矩形框图像来计算扩展信息，矩形框图像是从由面部识别视频对象的识别结果(更具体地，从面部识别的结果)中获得的。

在图13所示的示例中，从视频显示部73上显示的内容图像中检测两个人HM31和HM32。另外，在内容图像中，在人物HM31的面部上叠加显示矩形框图像FR31，在人物HM32的面部上叠加显示矩形框图像FR32。

特别地，图13表示内容图像投影在空间上的状态。因此，矩形框图像FR31的中心位置和矩形框图像FR32的中心位置分别成为由相应音频对象的对象位置信息指示的位置。

当人物选择部74在图3的步骤S16中生成对象位置信息和与相对于音频对象的处理优先级相关联的信息时，人物选择部74还生成音频对象的扩展信息。即，生成对象位置信息、与处理优先级相关联的信息和扩展信息来作为音频对象的元数据。

具体地，当例如对作为音频对象的人物HM31进行描述时，人物选择部74获得向量VB11，以空间上的原点O为起点，并且以对象位置信息所指示的位置为终点，即，矩形框图像FR31的中心位置为终点。然后，人物选择部74设置以这种方式获得的向量VB11，作为参考图12描述的向量p0。可以从相对于人物MH31生成的对象位置信息中获得这种向量VB11。

另外，人物选择部74获得向量VB12。在向量VB12中，起点是空间上的原点O，并且终点是在矩形框图像FR31的图中的右侧、在纵向(Z轴方向)上的高度在图中与矩形框图像FR31的中心位置相同的位置。向量VB12被设置为参考图12描述的向量p1。

在此处，例如，可以通过使用相对于人物HM31生成的对象位置信息、矩形框图像FR31、成像面101与内容图像之间的关系、焦距D、主体距离D等，来获得向量VB12在空间上的终点位置。

此外，人物选择部74相对于人物HM31计算作为以这种方式获得的向量p0的向量VB11和作为具有扩展信息spread[i]形式的向量p1的向量VB12之间的角度AG11。更具体地，人物选择部74通过计算以下表达式(9)来计算扩展信息spread[i]。

[表达式9]

应当注意，在表达式(9)中，p0和p1分别表示向量p0和向量p1。

同样，人物选择部74获得向量VB13，以空间上的原点O为起点，并且以对象位置信息相对于人物HM32所指示的位置(即，矩形框图像FR32的中心位置)为终点，并且将得到的向量VB13设置为向量p0。

另外，人物选择部74获得向量VB14。在向量VB14中，起点是空间上的原点O，并且终点是在矩形框图像FR31的图中的右侧、在纵向上的高度在图中与矩形框图像FR31的中心位置相同的位置。得到的向量VB13被设置为向量p1。

然后，人物选择部74通过计算表达式(9)获得向量VB13和向量VB14之间的角度AG12，并将得到的角度AG12设置为相对于人物HM32的扩展信息spread[i]。

应当注意，已经给出了关于在这种情况下仅使用向量p0和向量p1来计算扩展信息的方法的描述。然而，当在视频-音频处理设备61的计算吞吐量等中有余(room)时，可以获取向量p0与具有在矩形框图像的图中作为终点位置的上端、下端、左端和右端的扩展向量之间的角度，并且这些角度的平均值可以用作扩展信息spread[i]。

当以上述方式计算扩展信息时，人物选择部74将对象位置信息提供给声源分离部27，并将对象位置信息、与处理优先级相关联的信息和扩展信息提供给音频编码部28。

此外，在步骤S18中，音频编码部28对于对象位置信息、与处理优先级相关联的信息、以及扩展信息、音频对象信号和背景声音信号进行编码，以生成音频比特流。

以如上所述的方式生成音频对象的扩展信息，使得再现侧的设备可以执行表示音频对象的空间扩展的内容的再现，而无需由设备使用者指定扩展信息。

现在，上述一系列处理可以由硬件执行，也可以由软件执行。在该系列处理由软件执行的情况下，构成软件的程序安装在计算机中。在此处，计算机包括包含在专用硬件中的计算机，例如，通过安装各种程序可以执行各种功能的通用个人计算机等。

图14是示出根据程序执行上述一系列处理的计算机的硬件配置的示例的方框图。

在计算机中，中央处理单元(CPU)501、只读存储器(ROM)502和随机存取存储器(RAM)503通过总线504彼此连接。

I/O接口505进一步连接到总线504。输入部506、输出部507、记录部508、通信部509和驱动器510连接到I/O接口505。

输入部506包括键盘、鼠标、麦克风、图像拾取元件等。输出部507包括显示器、扬声器等。记录部508包括硬盘、非易失性存储器等。通信部509包括网络接口。驱动器510驱动可移动记录介质511，例如，磁盘、光盘、磁光盘或半导体存储器。

在以上述方式配置的计算机中，例如，CPU 501通过I/O接口505和总线504将存储在记录部508中的程序加载到RAM 503中，并执行该程序，从而执行上述一系列处理。

例如，要由计算机(CPU 501)执行的程序可以作为要提供的封装介质等记录在可移动记录介质511中。此外，该程序可以通过有线或无线传输媒体提供，例如，局域网、互联网或数字卫星广播。

在计算机中，驱动器510配备有可移动记录介质511，从而使得程序能够通过I/O接口505安装在记录部508中。另外，该程序可以在通信部509接收，并且可以通过有线或无线传输介质安装在记录部508中。否则，该程序可以预先安装在ROM 502或记录部508中。

应当注意，要由计算机执行的程序可以是按照本说明书中描述的顺序执行这些处理的程序，或者可以是彼此并行地或者在进行调用时的必要时间执行处理的程序等。

此外，本技术的实施方式不限于上述实施方式，并且可以在不脱离本技术的主题的情况下进行各种改变。

例如，本技术可以采用云计算的配置，其中，多个设备共享一个功能，以通过网络彼此关联地处理该功能。

另外，上述流程图中描述的步骤不仅可以由一个设备执行，而且可以被执行为在多个设备之间共享。

此外，在一个步骤中包括多个处理的情况下，多个处理不仅可以由一个设备执行，而且可以被执行为在多个设备之间共享。

此外，本技术还可以采用以下结构。

(1)一种视频-音频处理设备，包括：

显示控制部，被配置为使得基于视频信号的视频对象被显示；

对象选择部，被配置为从一个视频对象或者从多个视频对象之间选定预定的视频对象；以及

提取部，被配置为将由对象选择部选定的视频对象的音频信号提取为音频对象信号。

(2)根据(1)所述的视频-音频处理设备，其中，

提取部从音频信号中提取音频对象信号。

(3)根据(2)所述的视频-音频处理设备，其中，

提取部从音频信号中提取除选定的视频对象的音频对象信号以外的信号，来作为背景声音信号。

(4)根据(1)至(3)中任一项所述的视频-音频处理设备，其中，

对象选择部生成指示选定的视频对象在空间上的位置的对象位置信息，并且

提取部基于对象位置信息来提取音频对象信号。

(5)根据(4)所述的视频-音频处理设备，其中，

提取部通过使用对象位置信息的声源分离来提取音频对象信号。

(6)根据(5)所述的视频-音频处理设备，其中，

提取部执行固定波束形成来作为声源分离。

(7)根据(1)至(6)中任一项所述的视频-音频处理设备，还包括视频对象识别部，被配置为基于视频信号来识别视频对象，其中，

显示控制部使得基于视频对象的识别结果的图像与视频对象一起显示。

(8)根据(7)所述的视频-音频处理设备，其中，

视频对象识别部从面部识别中识别视频对象。

(9)根据(7)或(8)所述的视频-音频处理设备，其中，

显示控制部使得框作为图像显示在视频对象的区域中。

(10)根据(1)至(9)中任一项所述的视频-音频处理设备，其中，

对象选择部响应于使用者的选择操作来选择视频对象。

(11)根据(1)至(10)中任一项所述的视频-音频处理设备，其中，

对象选择部生成选定的视频对象的元数据。

(12)根据(11)所述的视频-音频处理设备，其中，

对象选择部生成指示选定的视频对象在空间上的位置的对象位置信息来作为元数据。

(13)根据(11)或(12)所述的视频-音频处理设备，其中，

对象选择部生成选定的视频对象的处理优先级来作为元数据。

(14)根据(11)至(13)中任一项所述的视频-音频处理设备，其中，

对象选择部生成指示选定的视频对象的区域的扩展状态的扩展信息来作为元数据。

(15)根据(11)至(14)中任一项所述的视频-音频处理设备，还包括音频编码部，被配置为对音频对象信号和元数据进行编码。

(16)根据(15)所述的视频-音频处理设备，还包括：

视频编码部，被配置为对视频信号进行编码；以及

多路复用部，被配置为对通过编码视频信号而获得的视频比特流以及通过编码音频对象信号和元数据而获得的音频比特流进行多路复用。

(17)根据(11)至(16)中任一项所述的视频-音频处理设备，还包括图像拾取部，被配置为通过执行拍摄来获得视频信号。

(18)根据(11)至(17)中任一项所述的视频-音频处理设备，还包括声音获取部，被配置为通过执行声音获取来获得音频信号。

(19)一种视频-音频处理方法，包括：

显示控制步骤，使得基于视频信号的视频对象被显示；

对象选择步骤，从一个视频对象或者从多个视频对象之间选定预定的视频对象；以及

提取步骤，将由对象选择步骤选定的视频对象的音频信号提取为音频对象信号。

(20)一种计算机根据其执行处理的程序，包括：

显示控制步骤，使得基于视频信号的视频对象被显示；

[附图标记列表]

11 视频音频处理设备

22 视频对象识别部

23 视频对象识别结果显示控制部

24 视频显示部

25 对象选择部

26 声音获取部

27 声源分离部

28 音频编码部

71 面部识别部

72 面部识别结果显示控制部

73 图像显示部

74 人物选择部

81 触摸面板。

Claims

1.一种视频音频处理设备，包括：

提取部，被配置为将由所述对象选择部选定的视频对象的音频信号提取为音频对象信号。

2.根据权利要求1所述的视频音频处理设备，其中，

所述提取部从所述音频信号中提取所述音频对象信号。

3.根据权利要求2所述的视频音频处理设备，其中，

所述提取部从所述音频信号中提取除所述选定的视频对象的所述音频对象信号以外的信号，来作为背景声音信号。

4.根据权利要求1所述的视频音频处理设备，其中，

所述对象选择部生成指示所述选定的视频对象在空间上的位置的对象位置信息，并且

所述提取部基于所述对象位置信息来提取所述音频对象信号。

5.根据权利要求4所述的视频音频处理设备，其中，

所述提取部通过使用所述对象位置信息的声源分离来提取所述音频对象信号。

6.根据权利要求5所述的视频音频处理设备，其中，

所述提取部执行固定波束形成来作为所述声源分离。

7.根据权利要求1所述的视频音频处理设备，还包括视频对象识别部，被配置为基于所述视频信号来识别所述视频对象，其中，

所述显示控制部使得基于所述视频对象的识别结果的图像与所述视频对象一起显示。

8.根据权利要求7所述的视频音频处理设备，其中，

所述视频对象识别部从面部识别中识别所述视频对象。

9.根据权利要求7所述的视频音频处理设备，其中，

所述显示控制部使得框作为图像显示在所述视频对象的区域中。

10.根据权利要求1所述的视频音频处理设备，其中，

所述对象选择部响应于使用者的选择操作来选择所述视频对象。

11.根据权利要求1所述的视频音频处理设备，其中，

所述对象选择部生成所述选定的视频对象的元数据。

12.根据权利要求11所述的视频音频处理设备，其中，

所述对象选择部生成指示所述选定的视频对象在空间上的位置的对象位置信息来作为所述元数据。

13.根据权利要求11所述的视频音频处理设备，其中，

所述对象选择部生成所述选定的视频对象的处理优先级来作为所述元数据。

14.根据权利要求11所述的视频音频处理设备，其中，

所述对象选择部生成指示所述选定的视频对象的区域的扩展状态的扩展信息来作为所述元数据。

15.根据权利要求11所述的视频音频处理设备，还包括音频编码部，被配置为对所述音频对象信号和所述元数据进行编码。

16.根据权利要求15所述的视频音频处理设备，还包括：

视频编码部，被配置为对所述视频信号进行编码；以及

多路复用部，被配置为对通过编码所述视频信号而获得的视频比特流以及通过编码所述音频对象信号和所述元数据而获得的音频比特流进行多路复用。

17.根据权利要求1所述的视频音频处理设备，还包括图像拾取部，所述图像拾取部被配置为通过执行拍摄来获得所述视频信号。

18.根据权利要求1所述的视频音频处理设备，还包括声音获取部，所述声音获取部被配置为通过执行声音获取来获得音频信号。

19.一种视频音频处理方法，包括：

显示控制步骤，使得基于视频信号的视频对象被显示；

提取步骤，将由所述对象选择步骤选定的视频对象的音频信号提取为音频对象信号。

20.一种程序，计算机根据该程序执行包括以下步骤的处理：

显示控制步骤，使得基于视频信号的视频对象被显示；