CN103905810B

CN103905810B - 多媒体处理方法及多媒体处理装置

Info

Publication number: CN103905810B
Application number: CN201410099115.0A
Authority: CN
Inventors: 杜琳; 施伟
Original assignee: Beijing Zhigu Ruituo Technology Services Co Ltd
Current assignee: Beijing Zhigu Ruituo Technology Services Co Ltd
Priority date: 2014-03-17
Filing date: 2014-03-17
Publication date: 2017-12-12
Anticipated expiration: 2034-03-17
Also published as: CN103905810A

Abstract

本申请实施例公开了一种多媒体处理方法及多媒体处理装置，所述方法包括：根据一声音数据确定一发声对象；分析与所述声音数据相关联的图像数据，得到与所述发声对象对应的图像内容信息；获取用户相对于用于呈现所述图像数据的一显示屏的位置；获取所述显示屏的显示参数；根据所述用户相对于所述显示屏的位置、所述显示屏的显示参数以及所述图像内容信息确定所述发声对象对应于所述用户的感觉声源位置。本申请实施例的多媒体处理技术使得对应于不同的多媒体呈现装置以及不同的用户位置，都能在多媒体呈现过程中获得统一的对象的感觉声源位置和视觉感觉位置。

Description

多媒体处理方法及多媒体处理装置

技术领域

本申请涉及多媒体技术领域，尤其涉及一种多媒体处理方法及多媒体处理装置。

背景技术

目前的多媒体装置通常包含图像显示和声音播放两部分，由于图像显示与声音播放通常由不同器件完成，因此，这两部分一般只有时间上的关联，没有空间上的关联。常见的多媒体装置的尺寸从几吋（如手机设备、平板电脑）到几十吋（如笔记本、台式机、电视屏幕）再到上百吋（户外广告屏幕），差异较大，一般对应的声音播放器件的尺寸和分布也会有较大差异。本申请的发明人发现，由于目前的视频文件格式大多没有考虑声音的空间信息，会导致客户端难以准确的恢复声音效果，带来用户对一发声对象的视觉呈现和听觉呈现上的不统一。

发明内容

本申请要解决的技术问题是：提供一种多媒体处理技术，使得对应3不同的多媒体呈现装置以及不同的用户位置，都能在多媒体呈现过程中获得统一的对象的感觉声源位置和视觉感觉位置。

第一方面，本申请提供了一种多媒体处理方法，包括：

根据一声音数据确定一发声对象；

分析与所述声音数据相关联的图像数据，得到与所述发声对象对应的图像内容信息；

获取用户相对于用于呈现所述图像数据的一显示屏的位置；

获取所述显示屏的显示参数；

根据所述用户相对于所述显示屏的位置、所述显示屏的显示参数以及所述图像内容信息确定所述发声对象对应于所述用户的感觉声源位置。

第二方面，本申请提供了一种多媒体处理方法，包括：

根据一声音数据确定一发声对象；

分析与所述声音数据相关联的三维图像数据，得到与所述发声对象对应的左眼图像内容信息和右眼图像内容信息；

根据至少一参考显示屏的显示参数以及所述左眼图像内容信息和右眼图像内容信息之间的像素视差，得到所述发声对象与所述至少一参考显示屏的呈现对应的至少一参考真实视差。

第三方面，本申请提供了一种多媒体处理方法，包括：

获取一多媒体数据，所述多媒体数据包括相互关联的声音数据、三维图像数据以及对象信息数据，所述对象信息数据包括：所述声音数据对应的至少一发声对象中的每个发声对象对应的至少一参考真实视差，所述至少一参考真实视差与分别对应于至少一显示参数的至少一参考显示屏的呈现对应；

获取用户相对于用于呈现所述三维图像数据的一显示屏的位置；

获取所述显示屏的显示参数；

根据所述用户相对于用于呈现所述三维图像数据的一显示屏的位置、所述显示屏的显示参数以及所述对象信息数据确定所述至少一发声对象对应于所述用户的感觉声源位置。

第四方面，本申请提供了一种多媒体处理装置，包括：

发声对象确定模块，用于根据一声音数据确定一发声对象；

图像内容获取模块，用于分析与所述声音数据相关联的图像数据，得到与所述发声对象对应的图像内容信息；

用户位置获取模块，用于获取用户相对于用于呈现所述图像数据的一显示屏的位置；

显示参数获取模块，用于获取所述显示屏的显示参数；

声源位置确定模块，用于根据所述用户相对于所述显示屏的位置、所述显示屏的显示参数以及所述图像内容信息确定所述发声对象对应于所述用户的感觉声源位置。

第五方面，本申请提供了一种多媒体处理装置，包括：

发声对象确定模块，用于根据一声音数据确定一发声对象；

图像内容获取模块，用于分析与所述声音数据相关联的三维图像数据，得到与所述发声对象对应的左眼图像内容信息和右眼图像内容信息；

参考真实视差获取模块，用于根据至少一参考显示屏的显示参数以及所述左眼图像内容信息和右眼图像内容信息之间的像素视差，得到所述发声对象与所述至少一参考显示屏的呈现对应的至少一参考真实视差。

第六方面，本申请提供了一种多媒体处理装置，包括：

多媒体数据获取模块，用于获取一多媒体数据，所述多媒体数据包括相互关联的声音数据、三维图像数据以及对象信息数据，所述对象信息数据包括：所述声音数据对应的至少一发声对象中的每个发声对象对应的至少一参考真实视差，所述至少一参考真实视差与分别对应于至少一显示参数的至少一参考显示屏的呈现对应；

用户位置获取模块，用于获取用户相对于用于呈现所述三维图像数据的一显示屏的位置；

显示参数获取模块，用于获取所述显示屏的显示参数；

声源位置确定模块，用于根据所述用户相对于用于呈现所述三维图像数据的一显示屏的位置、所述显示屏的显示参数以及所述对象信息数据确定所述至少一发声对象对应于所述用户的感觉声源位置。

本申请实施例的至少一个实施方案根据用户相对于多媒体呈现的位置以及对象的视觉呈现确定发声对象的感觉声源位置，使得对发声对象的呈现可以达到视觉和听觉的统一。此外，本发明实施例的至少一个实施方案根据所述感觉声音位置对相关的声音数据进行处理，使得处理后的声音数据与当前的声音播放模块、显示模块以及用户位置相适应，从而对应于各种大小、分布的多媒体装置以及用户相对于多媒体装置的不同位置，都可以准确的恢复声音数据与所述图像数据对应的声音信息的声音效果，提高用户体验。

附图说明

图1为本申请实施例的一种多媒体处理方法的流程图；

图2和图3分别为本申请实施例的一种多媒体处理方法的二维和三维图像呈现的应用场景示意图；

图4为本申请实施例一种多媒体处理方法的流程图；

图5为本申请实施例一种多媒体处理方法的流程图；

图6为本申请实施例一种多媒体处理方法的流程图；

图7为本申请实施例一种多媒体处理装置的结构示意框图；

图7a-7c为本申请实施例三种多媒体处理装置的结构示意框图；

图8为本申请实施例一种多媒体处理装置的结构示意框图；

图8a为本申请实施例一种多媒体处理装置的结构示意框图；

图9为本申请实施例一种多媒体处理装置的结构示意框图；

图9a为本申请实施例一种多媒体处理装置的结构示意框图；

图10为本申请实施例一种多媒体处理装置的结构示意框图。

具体实施方式

下面结合附图（若干附图中相同的标号表示相同的元素）和实施例，对本申请的具体实施方式作进一步详细说明。以下实施例用于说明本申请，但不用来限制本申请的范围。

本领域技术人员可以理解，本申请中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

在本申请的下述描述中，所述“感觉声音位置”为用户听到一声音之后在大脑中形成的该声音对应的声源位置，例如：在立体声呈现中，可以通过用户左右耳声音的相差来确定所述感觉声源位置；所述“视觉感觉位置”为用户看到一对象的图像之后在大脑中形成的该对象对应的空间位置，其中，例如：在三维显示中，可以通过用户的两眼视差来确定该空间位置。

由于种种原因，多媒体数据进行视觉呈现以及对应的听觉呈现时，对于一发声对象，用户对对象视觉感觉和听觉感觉的位置有可能会不统一，例如感觉看到的对象在一个位置，而听到的对象在另外一个位置，这样会给用户带来空间上的错乱感。特别是当用户有可能在相对于呈现设备的不同的位置体验所述多媒体数据的呈现时，在不同的位置可能会有不同的不统一感觉。

为此，如图1所示，本申请实施例提供了一种多媒体处理方法，包括：

S110根据一声音数据确定一发声对象；

S120分析与所述声音数据相关联的图像数据，得到与所述发声对象对应的图像内容信息；

S130获取用户相对于用于呈现所述图像数据的一显示屏的位置；

S140获取所述显示屏的显示参数；

S150根据所述用户相对于所述显示屏的位置、所述显示屏的显示参数以及所述图像内容信息确定所述发声对象对应于所述用户的感觉声源位置。

这里所述声音数据以及与所述声音数据相关联的图像数据例如可以为一音视频多媒体数据中包含的声音数据和图像数据。

本申请实施例根据用户相对于多媒体呈现的位置以及对象的视觉呈现确定发声对象的感觉声源位置，使得对发声对象的呈现可以达到视觉和听觉的统一。

下面对本申请实施例所述多媒体处理方法的各步骤进行进一步说明。

S110根据一声音数据确定一发声对象。

在本申请实施方式中，所述步骤S110根据声音数据确定一发声对象的方式可以包括多种：

1）根据声音数据得到一声音具有的特定特征，再根据该特定特征确定所述发声对象。

在本实施方式中，所述特定特征包括以下的至少一种：频率、周期、变化规律以及与一特征值提取算法对应的特征值。这里，当所述特定特征为与一特征值提取算法对应的特征值时，所述具有特定特征的声音为具有所述特征值的声音，即通过所述特征值提取算法对所述声音对应的声音数据进行处理，能够得到所述特征值。

在一个可能的实施方式中：

可以通过模式匹配算法，例如神经网络（Neural Network）、高斯混合模型（Gaussian Mixture Model）等，识别所述声音数据中的声音的所述特定特征，再通过模式匹配得到该特定特征对应的发声对象。

例如：通过所述模式匹配算法对所述声音数据进行模式匹配，发现所述声音数据中包含与语音对应的数据，则此时，所述具有特定特征的声音即为语音，所述发声对象为语音发声对象，例如：所述发声对象为人。这里，例如，所述语音的特定特征包括：特定的周期、频谱、短时能量等等，当通过所述模式匹配算法确认所述声音数据中包含上述具有特定的周期、频谱、短时能量等等的声音分量时，则认为声音数据中包含语音相关数据。

或者，例如当识别出声音为狗叫声时，则该声音的发声对象为狗。

当然，在一些可能的实施方式中，所述声音信息可能为所述声音的一些特定特征值，例如上述的周期、频率或者为算法对应的特征值等。在之后的步骤中直接通过所述特定特征值来与所述图像数据中对应的图像的特征值进行特征值之间的匹配，而不需要再进行语义识别。

2）根据与声音数据对应的元数据中记载的信息确定所述发声对象。

在本实施方式中，例如，所述元数据记载：声音数据的某一时间段对应于一女人发出的语音，则可以根据所述元数据确定该时间段对应的发声对象为一女人。

当然，本领域的技术人员可以知道，除了上述列出的两种方法外，其它合适的声音数据分析方法也可以用于本申请实施例的步骤S110中来确定所述发声对象。

S120分析与所述声音数据相关联的图像数据，得到与所述发声对象对应的图像内容信息。

在本申请实施例中，所述发声对象对应的图像内容信息包括所述发声对象对应的像素集合的信息，例如该像素集合包含的哪些像素以及各像素的位置信息等。

在本申请中，获取所述图像内容信息的方式有多种，包括：

1）通过图像识别分区方法（所述图像识别分区方法为已有技术，这里不再赘述）对图像数据进行分区得到与所述发声对象相对应的像素集合，进而得到与所述发声对象对应的图像内容信息。

当然，在本发明实施例的另外一种实施方式中，也可以根据步骤S110中所述的，通过声音信息中对应的特定特征值与图像区域对应的图像特征值直接进行匹配，得到与所述发声对象对应的图像内容信息。

在一些情况下，例如，图像数据对应的图像中有多个人时，当检测到声音数据中对应有语音对应的声音时，有可能会出现难以确认所述语音对应于图像中哪个人的情况。因此，在本发明实施例中，所述方法还包括：

根据所述声音数据得到所述发声对象对应的原始感觉声源位置。

所述分析与所述声音数据相关联的图像数据，得到与所述发声对象对应的图像内容信息包括：

根据所述发声对象对应的原始感觉声源位置分析与所述声音数据相关联的图像数据，得到与所述发声对象对应的图像内容信息。

其中，当所述声音数据为多轨声音数据时，可以根据所述多轨声音数据得到所述声音对应的原始声源位置。例如通过TDOA（Time Difference of Arrival，到达时间差）等方法，利用不同轨道声音数据中与所述声音对应的声音数据分量之间的相差来计算出该声音的原始感觉声源位置。

然后，根据所述原始感觉声源位置以及图像中各对象所在的位置，可以更加准确地确定所述声音信息对应的发声对象与图像内容信息之间的对应关系。

2）根据与图像数据对应的图像元数据得到与所述发声对象对应的图像内容信息。

在该实施方式中，所述图像数据中有可能包括图像元数据，所述图像元数据中包含所述图像数据对应的某一帧或多帧图像中的对象对应的图像内容信息。例如，所述图像数据对应某一帧图像中包含一个人、一条狗、一面墙以及一张椅子，则所述图像元数据中包含：

对象1：人；对象1对应的像素集合的位置：（O1x1，O1y1；O1x2，O1y2）；

对象2：狗；对象2对应的像素集合的位置：（O2x1，O2y1；O2x2，O2y2）；

对象3：墙；对象3对应的像素集合的位置（O3x1，O3y1；O3x2，O3y2）；

对象4：椅子；对象4对应的像素集合的位置：（O4x1，O4y1；O4x2，O4y2）。

当然，在其它实施方式中，所述图像元数据中可能包括更加详细的信息，例如人的各部分（头、手臂、躯干、腿等）及对应的像素集合；此外，还可能还包括对象的一些特征信息，例如人的特征还包括：小孩、男性等，狗的特征还包括：黑色、拉布拉多等。

在本实施方式中，可以直接根据所述声音信息对应的发声对象，例如发声对象为狗，去所述图像数据的图像元数据中寻找与所述发声对象对应的对象的图像内容信息，而不需要再对图像数据进行图像识别分区等处理。

在一种可能的实施方式中，所述声音数据相关的元数据与所述图像元数据可以为同一元数据，其中记载有发声对象与图像内容信息之间的对应关系，即用户可以直接由所述元数据得到声音信息对应的发声对象对应的图像内容信息。

S130获取用户相对于用于呈现所述图像数据的一显示屏的位置。

在本申请实施例中，所述显示屏可以为电视、电脑显示器等直接显示的装置，也可以为投射仪的投射显示面，此外，在一种可能的实施方式中，所述显示屏的显示面还有可能并非一个二维显示面（如平面和曲面），其还有可能是一个立体显示区域，例如体像素显示的区域。

在本实施方式中，所述用于呈现所述图像数据为根据所述图像数据进行对应的显示，例如，所述图像数据为视频数据，则这里的呈现即为播放所述视频数据；所述图像数据为图片数据，则这里的呈现为显示所述图片数据对应的图片。

在本申请实施例中，所述用户相对于所述显示屏的位置包括：用户相对于所述显示屏的方向和距离。这里，可以在所述显示屏上或者与所述显示屏对应的一位置设置一个参考点，例如以显示屏的显示中心为所述参考点，获取所述用户相对于所述参考点的方向和距离。

在一些实施方式中，可以通过一图像传感器来获取所述相对位置；在另一些实施方式中，还可以通过深度传感器来获取所述相对位置；此外，还可以通过一些定位装置来获取所述相对位置。当然，本领域技术人员还可以通过其它合适的方式来获取该相对位置。

S140获取所述显示屏的显示参数。

在本实施方式中，所述显示屏的显示参数包括：所述显示屏整体显示区域的尺寸（例如大小、形状）和分辨率信息。本领域的技术人员可以知道，所述显示参数还有可能包括其它信息，这里不赘述。

在本申请实施例中，所述步骤S150包括：

根据所述用户相对于所述显示屏的位置、所述显示屏的显示参数以及所述图像内容信息得到所述发声对象对应于所述用户的视觉感觉位置；

根据所述视觉感觉位置确定所述发声对象对应于所述用户的感觉声源位置。

在一种可能的实施方式中，所述图像数据为二维图像数据。在该实施方式中，根据所述显示屏的显示参数以及所述图像内容信息可以得到所述发声对象在所述显示屏上对应的显示区域，再根据所述用户相对于显示屏的位置可以得到所述用户相对于所述显示区域的方向和距离。此时所述发声对象对应于所述用户的视觉感觉位置位于所述用户与所述显示区域的连线方向上。例如，如2图所示，对应于第一用户位置202，所述发声对象对应的所述视觉感觉位置203在所述第一用户位置202与所述发声对象在所述显示屏205上的显示区域201的第一连线204上；对应于第二用户位置202’，所述发声对象对应的所述视觉感觉位置203’在所述第二用户位置202’与所述显示区域201的第二连线204’上。

其中，在一些可能的实施方式中，可以根据所述发声对象对应的显示区域的大小，来决定视觉感觉位置的深度信息等，例如，根据近大远小的原则，相同的发声对象在整体显示区域上对应的显示区域越大，则对应的视觉感觉位置越靠近用户，否则越远离用户。

在另一种可能的实施方式中，所述图像数据为三维图像数据，所述图像内容信息包括左眼图像内容信息和右眼图像内容信息。用户通过看到的对象的左右眼视差来得到发声对象的视觉感觉位置。

在本实施方式中，所述得到所述发声对象对应于所述用户的视觉感觉位置包括：

根据所述显示屏的显示参数，将所述左眼图像内容信息和右眼图像内容信息之间的像素视差转换为与所述显示屏的呈现对应的真实视差；

根据所述用户相对于所述显示屏的位置以及所述真实视差得到所述发声对象对应于所述用户的视觉感觉位置。

在本实施方式中，根据显示屏的尺寸以及分辨率信息等显示参数以及所述左眼图像内容信息和右眼图像内容信息包含的像素信息将所述左眼图像内容信息和右眼图像内容信息之间的像素视差转换成真实视差，例如，所述左眼图像内容信息对应的像素集合与所述右眼图像内容信息对应的像素集合之间水平相差10个像素，根据所述显示屏的显示参数，每个像素的水平显示宽度为0.5毫米，则该水平相差的10个像素视差在所述显示屏上会对应水平方向上5毫米的真实视差。

根据上面所述的真实视差和所述用户相对于所述显示屏的位置，通过计算可以得到对应发声对象对应于所述用户的感觉声源位置。

如图3所示，在一个实施方式中，发声对象的左眼图像内容信息与右眼图像内容信息分别对应于显示屏301上显示的左眼图像302和右眼图像303，在用户相对于所述显示屏位置分别为第一位置304和第二位置304’时，所述发声对象对应于所述用户的视觉感觉位置分别在305和305’（所述用户的视觉感觉位置即为用户的左眼306和右眼307分别看到的左眼图像302和右眼图像303的会聚位置）。

在本实施方式中，所述根据所述视觉感觉位置确定所述发声对象对应于所述用户的感觉声源位置为，将所述视觉感觉位置确定为所述发声对象对应于所述用户的感觉声源位置。

由图3也可以看出，当发声对象对应于一个原始感觉声源位置时，如果不根据用户的所述相对位置对感觉声源位置进行修正，在一些位置，会使得用户的视觉感觉位置与感觉声源位置之间出现不一致的问题。

因此，在本申请实施例的一种可能的实施方式中，根据所述视觉感觉位置修正所述原始感觉声音位置，得到所述发声对象对应于所述用户的感觉声源位置。

在一种可能的实施方式中，所述方法还可能包括：

存储所述用户对应于所述显示屏的位置、所述显示屏的显示参数、所述发声对象对应的图像内容信息以及所述发声对象对应于所述用户的感觉声音位置之间的对应关系。

通过把上述过程中的数据进行存储，可以使得同样的多媒体数据（包括所述声音数据及所述相关的图像数据）再在相同或相似的多媒体装置上播放时，可以减少一些数据处理的步骤，提高效率。

除了上面通过计算得到所述感觉声源位置外，在一种可能的实施方式中，所述方法还包括：

获取用户对应于所述显示屏的位置、显示屏的显示参数、发声对象对应的图像内容信息以及发声对象对应于所述用户的感觉声音位置之间的对应关系。

该对应关系可以是从本地获取的，例如上面所述的之前的处理过程中存储的；或者还可以是从外部获取的，例如服务器获取。

所述步骤S150中可以根据所述用户相对于所述显示屏的位置、所述显示屏的显示参数、所述图像内容信息以及所述对应关系确定所述发声对象对应于所述用户的感觉声源位置。这样，在本地不需要进行比较费时的计算，本地的实现更加方便、快速。

如图4所示，在一种可能的实施方式中，所述方法还包括：

S160根据所述发声对象对应于所述用户的所述感觉声源位置以及当前声音播放参数对所述声音数据进行处理，得到所述发声对象对应于所述用户的感觉声源位置对应的声音数据。

在本实施方式中，所述当前声音播放参数包括当前声音播放模块的参数信息，例如：声音播放模块的分布、大小、性能等参数。

在一种可能的实施方式中，所述声音播放模块包括多个声音播放单元；

所述当前声音播放参数包括：当前多个声音播放单元的参数信息。

这里，所述声音播放单元的参数信息例如包括：所述声音播放单元的分布、大小、性能、对应的声音数据轨道等参数。

在本实施方式中，所述发声对象对应于所述用户的感觉声源位置对应的声音数据为，当通过与所述声音播放参数对应的声音播放模块来对所述处理后的声音数据进行声音播放时，用户听到的所述发声对象对应的声音后，感觉到该声音的声源位置为所述感觉声源位置。

下面分别以所述声音数据为单轨声音数据和多轨声音数据为例进一步说明本实施方式的步骤S160。

在一种可能的实施方式中，当所述声音数据为单轨声音数据，并且所述声音播放模块包括位置分开分布的多个声音播放单元时，所述根据所述感觉声源位置以及当前声音播放参数对所述声音数据进行处理可以为：

根据所述感觉声源位置以及当前的声音播放参数确定与所述感觉声音位置对应的声音播放单元，并处理所述声音数据使得所述发声对象对应的声音仅从所述确定的声音播放单元播出。

以所述声音播放模块为设置在显示屏显示区域表面的透明薄膜声音播放模块为例，其被划分成沿着所述显示屏显示区域表面分布的多个声音播放单元，当所述声音数据对应一狗叫声时，则对所述声音数据进行处理，使得与显示屏上显示的狗头部的位置对应的声音播放单元播放狗叫声。

在另一种可能的实施方式中，当所述声音数据为多轨声音数据，并且所述声音播放模块包括位置分开分布的多个声音播放单元时，所述根据所述感觉声源位置以及当前声音播放参数对所述声音数据进行处理可以为：

根据所述感觉声源位置以及当前的声音播放参数调整各轨道的声音数据中所述发声对象对应的声音数据分量的相位和/或幅度，使得调整后的多轨声音数据在所述声音播放模块播放出的所述声音给受众的感觉是从所述感觉声源位置发出的。

在一种实施方式中，例如可以通过WFS（Wave Field Synthesis，波场合成）算法根据感觉声音位置以及声音播放单元的参数等，合成与所述声音对应的新的声音数据分量，再根据所述声音数据分量对所述声音数据进行调整，得到处理后的声音数据。当然，除了上述的WFS算法外，本发明实施例还可以通过其它合适的声音合成算法来得到所述处理后的声音数据。

本领域的技术人员可以知道，当声音数据中包含多个发声对象时，通过上面的方法可以得到所述多个发声对象分别对应于用户的感觉声源位置。此外，当有多个用户在关注所述多媒体呈现时，通过上面的方法也可以得到同一发声对象分别对应于每个用户的感觉声源位置。

如图5所示，一种多媒体处理方法，包括：

S510根据一声音数据确定一发声对象；

S520分析与所述声音数据相关联的三维图像数据，得到与所述发声对象对应的左眼图像内容信息和右眼图像内容信息；

S530根据至少一参考显示屏的显示参数以及所述左眼图像内容信息和右眼图像内容信息之间的像素视差，得到所述发声对象与所述至少一参考显示屏的呈现对应的至少一参考真实视差。

这里所述至少一参考显示屏的显示参数可以为一基准显示屏的显示参数，或者为常见的显示参数不同的一些显示屏的显示参数。这里所述的显示参数包括显示屏的尺寸和分辨率信息。例如，常见的显示屏的显示参数参见下表：

表一：显示屏的显示参数表

序号	尺寸（英寸）	分辨率（像素）
			1	20（4:3）	1400*1050
2	20（4:3）	1600*1200
			3	20（16:9）	1680*1050
...	...	...
			n	60（16:9）	1920*1080

在本申请实施方式中，可以与表一对应，获取与每组显示参数对应的显示屏对应的参考真实视差。

在另一种可能的实施方式中，所述方法至少一参考显示屏的显示参数还可以为获取的用于呈现所述图像数据的显示屏的显示参数。例如，当本申请实施例的方法应用于服务器端，用于对送至用户端的多媒体数据进行处理，此时用户端可以将自身显示屏的显示参数上报至服务器，或者服务器主动从对应用户端获取所述显示屏的显示参数。在这种情况下，所述参考真实视差送至对应用户端时即为发声对象与该用户端的显示屏对应的真实视差。

在本实施方式中，对包含声音数据和对应三维图像数据的多媒体数据进行预先处理，得到与声音数据对应的发声对象对应于至少一参考显示屏的显示参数的至少一参考真实视差。这样使得在多媒体数据播放端进行多媒体呈现时，可以根据所述多媒体数据对应的参考真实视差进行比较简单的计算就可以得到与用户相对于用于显示所述图像数据的显示屏的位置对应的发声对象的感觉声源位置。

如图1至图4所示的实施例中所述的，在一种可能的实施方式中，所述方法还包括：

根据所述声音数据获取所述原始感觉声源位置的方法参将上面的方法实施例中的对应描述，这里不再赘述。

在该实施方式下，所述步骤S520包括：

根据所述发声对象对应的原始感觉声源位置分析与所述声音数据相关联的三维图像数据，得到与所述发声对象对应的左眼图像内容信息和右眼图像内容信息。

本步骤具体参见上面的方法实施例中根据发声对象对应的原始感觉声源位置帮助确定图像数据中对应的发声对象的图像内容信息的步骤，这里不再赘述。

本申请实施例方法的各步骤的具体描述参见图1至图4所示方法实施例中对应的描述，这里不赘述。

如图6所示，本申请实施例还提供了一种多媒体处理方法，包括：

S610获取一多媒体数据，所述多媒体数据包括相互关联的声音数据、三维图像数据以及对象信息数据，所述对象信息数据包括：所述声音数据对应的至少一发声对象中的每个发声对象对应的至少一参考真实视差，所述至少一参考真实视差与分别对应于至少一显示参数的至少一参考显示屏的呈现对应；

S620获取用户相对于用于呈现所述三维图像数据的一显示屏的位置；

S630获取所述显示屏的显示参数；

S640根据所述用户相对于用于呈现所述三维图像数据的一显示屏的位置、所述显示屏的显示参数以及所述对象信息数据确定所述至少一发声对象对应于所述用户的感觉声源位置。

在本实施方式中，所述至少一参考真实视差可以为图5所示实施例中记载的至少一参考真实视差。例如，为与表一所示的所有显示屏对应的n个参考真实视差。

在本实施方式中，所述步骤S640可以将步骤S630获取的显示屏的显示参数与表一中的显示参数进行匹配，找到表一中对应的显示参数，进而得到对应的参考真实视差作为当前与发声对象对应的真实视差。

在另一种可能的实施方式中，所述至少一参考显示屏为一基准显示屏，所述步骤S640根据该基准显示屏的显示参数以及获取的所述显示屏的显示参数进行对应的比例计算，得到发声对象对应于获取的显示屏的真实视差。

本申请实施例中根据所述真实视差以及用户相对于显示屏的位置得到对应的感觉视觉位置的步骤参见图1至图4所示方法实施例中对应的描述，这里不再赘述。

本申请实施例根据获取的多媒体数据、用户相对于显示屏的位置以及显示屏的显示参数可以准确地确定发声对象对应于所述用户的感觉声源位置，解决多媒体呈现时用户对某一发声对象的视觉感觉位置与感觉声源位置不一致的问题。

在本申请实施例的一种可能的实施方式中，所述方法还包括：

获取用户相对于用于呈现所述三维图像数据的一显示屏的位置、所述显示屏的显示参数、所述对象信息数据以及发声对象对应于所述用户的感觉声源位置之间的对应关系。

在本实施方式中，所述确定所述感觉声源位置包括：

根据所述用户相对于用于呈现所述三维图像数据的一显示屏的位置、所述显示屏的显示参数、所述对象信息数据以及所述对应关系确定所述发声对象对应于所述用户的感觉声源位置。

在本实施方式中，所述对应关系可以是从本地或外部获取的，通过该对应关系得到所述感觉声源位置，可以减少一些本地数据处理的步骤，提高效率。

根据所述发声对象对应于所述用户的所述感觉声源位置以及当前声音播放参数对所述声音数据进行处理，得到所述发声对象对应于所述用户的感觉声源位置对应的声音数据。

本领域技术人员可以理解，在本申请具体实施方式的上述方法中，各步骤的序号大小并不意味着执行顺序的先后，各步骤的执行顺序应以其功能和内在逻辑确定，而不应对本申请具体实施方式的实施过程构成任何限定。

如图7所示，本申请实施例提供了一种多媒体处理装置700，包括：

发声对象确定模块710，用于根据一声音数据确定一发声对象；

图像内容获取模块720，用于分析与所述声音数据相关联的图像数据，得到与所述发声对象对应的图像内容信息；

用户位置获取模块730，用于获取用户相对于用于呈现所述图像数据的一显示屏的位置；

显示参数获取模块740，用于获取所述显示屏的显示参数；

声源位置确定模块750，用于根据所述用户相对于所述显示屏的位置、所述显示屏的显示参数以及所述图像内容信息确定所述发声对象对应于所述用户的感觉声源位置。

本申请实施例的所述声音数据以及与所述声音数据相关联的图像数据例如可以为一音视频多媒体数据中包含的声音数据和图像数据。

如图7a所示为本申请实施例一种多媒体处理装置700的结构示意图。

由图7a可以看出，在本实施方式中，所述多媒体处理装置700包括：发声对象确定模块710、图像内容获取模块720、用户位置获取模块730、显示参数获取模块740以及声源位置确定模块750。

在本申请实施方式中，所述发声对象确定模块710可以包括：

一特征匹配单元711，用于根据声音数据得到一声音具有的特定特征，再根据该特定特征确定所述发声对象。

在本实施方式中，所述图像内容获取模块720可以包括：

图像识别单元721，用于通过图像识别分区方法对图像数据对应的图像进行分区得到与所述发声对象相对应的像素集合，进而得到与所述发声对象对应的图像内容信息。

在本发明实施例的一种可能的实施方式中，所述用户位置获取模块730可以为一位置传感器731，例如：图像传感器、深度传感器或者定位装置等中的一种。

在本申请实施例中，所述显示参数获取模块740获取的所述显示屏的显示参数包括：所述显示屏整体显示区域的尺寸（例如大小、形状）和分辨率信息。

如图7a所示，在一种可能的实施方式中，所述声源位置确定模块750包括：

视觉位置确定单元751，用于根据所述用户相对于所述显示屏的位置、所述显示屏的显示参数以及所述图像内容信息得到所述发声对象对应于所述用户的视觉感觉位置；

声源位置确定单元752，用于根据所述视觉感觉位置确定所述发声对象对应于所述用户的感觉声源位置。

在本实施方式中，所述图像数据为三维图像数据，所述图像内容信息包括左眼图像内容信息和右眼图像内容信息；

所述视觉位置确定单元751包括：

真实视差获取子单元7511，用于根据所述显示屏的显示参数，将所述左眼图像内容信息和右眼图像内容信息之间的像素视差转换为与所述显示屏的呈现对应的真实视差；

视觉位置确定子单元7512，用于根据所述用户相对于所述显示屏的位置以及所述真实视差得到所述发声对象对应于所述用户的视觉感觉位置。

在另一种可能的实施方式中，在本实施方式中，所述图像数据还可为二维图像数据。

通过所述二维图像数据获得所述发声对象对应的视觉感觉位置的具体实现参见上面方法实施例的描述。

在本实施方式中，所述装置700还包括：

原始声源位置确定模块760，用于根据所述声音数据得到所述发声对象对应的原始感觉声源位置。

在该实施方式中，所述图像内容获取模块720进一步用于：

在该实施方式中，所述声源位置确定单元752进一步用于：

根据所述视觉感觉位置修正所述原始感觉声音位置，得到所述发声对象对应于所述用户的感觉声源位置。

上述实施方式中的各模块和单元的功能参见图1至图4所示实施例中对应的描述，这里不再赘述。

如图7b所示为本申请实施例另一种多媒体处理装置700的结构示意图。

在本实施方式中，所述多媒体处理装置700包括：发声对象确定模块710、图像内容获取模块720、用户位置获取模块730、显示参数获取模块740以及声源位置确定模块750。

在本实施方式中，所述发声对象确定模块710可以包括：

一数据确认单元712，用于根据与声音数据对应的元数据中记载的信息确定所述发声对象。

进一步的确认方法参见上面方法实施例中对应的描述。

在本实施方式中，所述图像内容获取模块720可以包括：

图像数据确认单元723，用于根据与图像数据对应的图像元数据得到与所述发声对象对应的图像内容信息。

在本实施方式中，所述声源位置确定模块750根据所述显示屏的显示参数以及所述图像内容信息可以得到所述发声对象在所述显示屏上对应的显示区域，再根据所述用户相对于显示屏的位置可以得到所述用户相对于所述显示区域的方向和距离，进而再得到所述发声对象的所述感觉声源位置，具体参见上述方法实施例中对应的描述。

在本实施方式中，除了上面所述的各模块外，所述装置700还包括：

存储模块780，用于存储所述用户对应于所述显示屏的位置、所述显示屏的显示参数、所述发声对象对应的图像内容信息以及所述发声对象对应于所述用户的感觉声音位置之间的对应关系。

通过所述存储模块780可以使得同样的多媒体数据（包括所述声音数据及所述相关的图像数据）再在相同或相似的多媒体装置上播放时，可以减少一些数据处理的步骤，提高效率。

如图7c所示为本申请实施例又一种多媒体处理装置700的结构示意图。

在本实施方式中，所述图像内容获取模块720可以包括：

声图特征匹配单元722，用于通过声音信息中对应的特定特征值与图像区域对应的图像特征值直接进行匹配，得到与所述发声对象对应的图像内容信息。

此外，除了上述的各模块外，在本实施方式中，所述装置700还包括：

对应关系获取模块790，用于获取用户对应于所述显示屏的位置、显示屏的显示参数、发声对象对应的图像内容信息以及发声对象对应于所述用户的感觉声音位置之间的对应关系。

所述声源位置确定模块750进一步用于，根据所述用户相对于所述显示屏的位置、所述显示屏的显示参数、所述图像内容信息以及所述对应关系确定所述发声对象对应于所述用户的感觉声源位置。

声音数据处理模块770，用于根据所述发声对象对应于所述用户的所述感觉声源位置以及当前声音播放参数对所述声音数据进行处理，得到所述发声对象对应于所述用户的感觉声源位置对应的声音数据。

在本实施方式中，所述当前声音播放参数包括：当前声音播放模块的参数信息。

所述声音播放模块包括多个透明声音播放单元，所述多个透明声音播放单元至少部分覆盖所述显示屏的显示区域。

本实施方式中，可以根据所述用户相对于所述显示屏的位置、所述显示屏的显示参数、所述图像内容信息以及所述对应关系确定所述发声对象对应于所述用户的感觉声源位置。这样，在本地不需要进行比较费时的计算，本地的实现更加方便、快速。

如图8所示，本申请实施例还提供了一种多媒体处理装置800，包括：

发声对象确定模块810，用于根据一声音数据确定一发声对象；

图像内容获取模块820，用于分析与所述声音数据相关联的三维图像数据，得到与所述发声对象对应的左眼图像内容信息和右眼图像内容信息；

参考真实视差获取模块830，用于根据至少一参考显示屏的显示参数以及所述左眼图像内容信息和右眼图像内容信息之间的像素视差，得到所述发声对象与所述至少一参考显示屏的呈现对应的至少一参考真实视差。

如图8a所示，在本实施方式中所述装置800还包括：

原始声源位置确定模块840，用于根据所述声音数据得到所述发声对象对应的原始感觉声源位置。

在该实施方式中，所述图像内容获取模块820进一步用于：

上述实施方式中的各模块和单元的功能参见图1至图7c所示实施例中对应的描述，这里不再赘述。

如图9所示，本申请实施例提供了一种多媒体处理装置900，包括：

多媒体数据获取模块910，用于获取一多媒体数据，所述多媒体数据包括相互关联的声音数据、三维图像数据以及对象信息数据，所述对象信息数据包括：所述声音数据对应的至少一发声对象中的每个发声对象对应的至少一参考真实视差，所述至少一参考真实视差与分别对应于至少一显示参数的至少一参考显示屏的呈现对应；

用户位置获取模块920，用于获取用户相对于用于呈现所述三维图像数据的一显示屏的位置；

显示参数获取模块930，用于获取所述显示屏的显示参数；

声源位置确定模块940，用于根据所述用户相对于用于呈现所述三维图像数据的一显示屏的位置、所述显示屏的显示参数以及所述对象信息数据确定所述至少一发声对象对应于所述用户的感觉声源位置。

如图9a所示，在一种可能的实施方式中，所述装置900还包括：

对应关系获取模块950，用于获取用户相对于用于呈现所述三维图像数据的一显示屏的位置、所述显示屏的显示参数、所述对象信息数据以及发声对象对应于所述用户的感觉声源位置之间的对应关系；

所述声源位置确定模块940进一步用于：

声音数据处理模块960，用于根据所述发声对象对应于所述用户的所述感觉声源位置以及当前声音播放参数对所述声音数据进行处理，得到所述发声对象对应于所述用户的感觉声源位置对应的声音数据。

上述实施方式中的各模块和单元的功能参见图1至图8a所示实施例中对应的描述，这里不再赘述。

图10为本申请实施例提供的又一种多媒体处理装置1000的结构示意图，本申请具体实施例并不对多媒体处理装置1000的具体实现做限定。如图10所示，该多媒体处理装置1000可以包括：

处理器(processor)1010、通信接口(Communications Interface)1020、存储器(memory)1030、以及通信总线1040。其中：

处理器1010、通信接口1020、以及存储器1030通过通信总线1040完成相互间的通信。

通信接口1020，用于与比如客户端等的网元通信。

处理器1010，用于执行程序1032，具体可以执行上述方法实施例中的相关步骤。

具体地，程序1032可以包括程序代码，所述程序代码包括计算机操作指令。

处理器1010可能是一个中央处理器CPU，或者是特定集成电路ASIC（ApplicationSpecific Integrated Circuit），或者是被配置成实施本申请实施例的一个或多个集成电路。

存储器1030，用于存放程序1032。存储器1030可能包含高速RAM存储器，也可能还包括非易失性存储器（non-volatile memory），例如至少一个磁盘存储器。程序1032具体可以用于使得所述多媒体处理装置1000执行图1、图5或图6所示方法实施例中对应的步骤。

程序1032中各步骤的具体实现可以参见上述实施例中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

以上实施方式仅用于说明本申请，而并非对本申请的限制，有关技术领域的普通技术人员，在不脱离本申请的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本申请的范畴，本申请的专利保护范围应由权利要求限定。

Claims

1.一种多媒体处理方法，其特征在于，包括：

根据一声音数据确定一发声对象；

获取用户相对于用于呈现所述图像数据的一显示屏的位置，其中，所述用户相对于所述显示屏的位置包括：所述用户相对于所述显示屏的方向和距离；

获取所述显示屏的显示参数；

2.如权利要求1所述的方法，其特征在于，所述确定所述发声对象对应于所述用户的感觉声源位置包括：

根据所述视觉感觉位置确定所述感觉声源位置。

3.如权利要求2所述的方法，其特征在于，所述图像数据为三维图像数据，所述图像内容信息包括左眼图像内容信息和右眼图像内容信息；

所述得到所述发声对象对应于所述用户的视觉感觉位置包括：

4.如权利要求2所述的方法，其特征在于，所述方法包括：

5.如权利要求4所述的方法，其特征在于，所述分析与所述声音数据相关联的图像数据，得到与所述发声对象对应的图像内容信息包括：

6.如权利要求4所述的方法，其特征在于，所述根据所述视觉感觉位置确定所述感觉声源位置包括：

根据所述视觉感觉位置修正所述原始感觉声音位置，得到所述感觉声源位置。

7.如权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述发声对象对应于所述用户的所述感觉声源位置以及当前声音播放参数对所述声音数据进行处理，得到与所述感觉声源位置对应的声音数据。

8.如权利要求7所述的方法，其特征在于，所述当前声音播放参数包括：当前声音播放模块的参数信息。

9.如权利要求8所述的方法，其特征在于，所述声音播放模块包括多个透明声音播放单元，所述多个透明声音播放单元至少部分覆盖所述显示屏的显示区域。

10.如权利要求1所述的方法，其特征在于，所述显示屏的显示参数包括：所述显示屏整体显示区域的尺寸和分辨率信息。

11.如权利要求1所述的方法，其特征在于，所述方法还包括：

12.如权利要求1所述的方法，其特征在于，所述根据所述用户相对于所述显示屏的位置、所述显示屏的显示参数以及所述图像内容信息确定所述发声对象对应于所述用户的感觉声源位置包括：

获取用户对应于所述显示屏的位置、显示屏的显示参数、发声对象对应的图像内容信息以及发声对象对应于所述用户的感觉声音位置之间的对应关系；

根据所述用户相对于所述显示屏的位置、所述显示屏的显示参数、所述图像内容信息以及所述对应关系确定所述感觉声源位置。

13.一种多媒体处理方法，其特征在于，包括：

根据一声音数据确定一发声对象；

14.如权利要求13所述的方法，其特征在于，所述方法包括：

15.如权利要求14所述的方法，其特征在于，所述分析与所述声音数据相关联的三维图像数据，得到与所述发声对象对应的左眼图像内容信息和右眼图像内容信息包括：

16.一种多媒体处理方法，其特征在于，包括：

获取用户相对于用于呈现所述三维图像数据的一显示屏的位置，其中，所述用户相对于所述显示屏的位置包括：所述用户相对于所述显示屏的方向和距离；

获取所述显示屏的显示参数；

17.如权利要求16所述的方法，其特征在于，所述方法还包括：

18.如权利要求16所述的方法，其特征在于，所述方法还包括：

获取用户相对于用于呈现所述三维图像数据的一显示屏的位置、所述显示屏的显示参数、所述对象信息数据以及发声对象对应于所述用户的感觉声源位置之间的对应关系；

所述确定所述感觉声源位置包括：

根据所述用户相对于用于呈现所述三维图像数据的一显示屏的位置、所述显示屏的显示参数、所述对象信息数据以及所述对应关系确定所述感觉声源位置。

19.一种多媒体处理装置，其特征在于，包括：

发声对象确定模块，用于根据一声音数据确定一发声对象；

用户位置获取模块，用于获取用户相对于用于呈现所述图像数据的一显示屏的位置，其中，所述用户相对于所述显示屏的位置包括：所述用户相对于所述显示屏的方向和距离；

显示参数获取模块，用于获取所述显示屏的显示参数；

20.如权利要求19所述的装置，其特征在于，所述声源位置确定模块包括：

视觉位置确定单元，用于根据所述用户相对于所述显示屏的位置、所述显示屏的显示参数以及所述图像内容信息得到所述发声对象对应于所述用户的视觉感觉位置；

声源位置确定单元，用于根据所述视觉感觉位置确定所述感觉声源位置。

21.如权利要求20所述的装置，其特征在于，所述图像数据为三维图像数据，所述图像内容信息包括左眼图像内容信息和右眼图像内容信息；

所述视觉位置确定单元包括：

真实视差获取子单元，用于根据所述显示屏的显示参数，将所述左眼图像内容信息和右眼图像内容信息之间的像素视差转换为与所述显示屏的呈现对应的真实视差；

视觉位置确定子单元，用于根据所述用户相对于所述显示屏的位置以及所述真实视差得到所述发声对象对应于所述用户的视觉感觉位置。

22.如权利要求20所述的装置，其特征在于，所述装置包括：

原始声源位置确定模块，用于根据所述声音数据得到所述发声对象对应的原始感觉声源位置。

23.如权利要求22所述的装置，其特征在于，所述图像内容获取模块进一步用于：

24.如权利要求22所述的装置，其特征在于，所述声源位置确定单元进一步用于：

25.如权利要求19所述的装置，其特征在于，所述装置还包括：

声音数据处理模块，用于根据所述发声对象对应于所述用户的所述感觉声源位置以及当前声音播放参数对所述声音数据进行处理，得到与所述感觉声源位置对应的声音数据。

26.如权利要求25所述的装置，其特征在于，所述当前声音播放参数包括：当前声音播放模块的参数信息。

27.如权利要求26所述的装置，其特征在于，所述声音播放模块包括多个透明声音播放单元，所述多个透明声音播放单元至少部分覆盖所述显示屏的显示区域。

28.如权利要求19所述的装置，其特征在于，所述显示屏的显示参数包括：所述显示屏整体显示区域的尺寸和分辨率信息。

29.如权利要求19所述的装置，其特征在于，所述装置还包括：

存储模块，用于存储所述用户对应于所述显示屏的位置、所述显示屏的显示参数、所述发声对象对应的图像内容信息以及所述发声对象对应于所述用户的感觉声音位置之间的对应关系。

30.如权利要求19所述的装置，其特征在于，所述装置还包括：

对应关系获取模块，用于获取用户对应于所述显示屏的位置、显示屏的显示参数、发声对象对应的图像内容信息以及发声对象对应于所述用户的感觉声音位置之间的对应关系；

所述声源位置确定模块进一步用于，根据所述用户相对于所述显示屏的位置、所述显示屏的显示参数、所述图像内容信息以及所述对应关系确定所述发声对象对应于所述用户的感觉声源位置。

31.一种多媒体处理装置，其特征在于，包括：

发声对象确定模块，用于根据一声音数据确定一发声对象；

32.如权利要求31所述的装置，其特征在于，所述装置包括：

33.如权利要求32所述的装置，其特征在于，所述图像内容获取模块进一步用于：

34.一种多媒体处理装置，其特征在于，包括：

用户位置获取模块，用于获取用户相对于用于呈现所述三维图像数据的一显示屏的位置，其中，所述用户相对于所述显示屏的位置包括：所述用户相对于所述显示屏的方向和距离；

显示参数获取模块，用于获取所述显示屏的显示参数；

35.如权利要求34所述的装置，其特征在于，所述装置还包括：

36.如权利要求34所述的装置，其特征在于，所述装置还包括：

对应关系获取模块，用于获取用户相对于用于呈现所述三维图像数据的一显示屏的位置、所述显示屏的显示参数、所述对象信息数据以及发声对象对应于所述用户的感觉声源位置之间的对应关系；

所述声源位置确定模块进一步用于：