CN102577413B

CN102577413B - 用于向视频内容添加语音内容的方法及实现该方法的设备

Info

Publication number: CN102577413B
Application number: CN201080046476.9A
Authority: CN
Inventors: L.谢瓦利尔; L.奥伊塞尔; P.施莫克尔
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2009-10-15
Filing date: 2010-08-31
Publication date: 2015-02-18
Anticipated expiration: 2030-08-31
Also published as: KR20120098622A; US20120272152A1; EP2489185B1; JP2013507865A; WO2011045116A1; CN102577413A; FR2951605A1; JP5711242B2; EP2489185A1

Abstract

本发明涉及一种向视听文件添加语音内容的方法。在用于再现和记录声音信号的设备中首先接收视频文件。接收的视频内容包括降级后的区域以及优选地对于用户在再现所述文件期间可视的至少一个未降级区域。所述用户读在设备中记录的文本。所述用户在再现接收的视频内容期间的预定时刻通过使用在未降级区域中出现的视觉元素读该文本。通过集合视听文件和至少一个新创建的声音内容来生成完全视频文件。

Description

用于向视频内容添加语音内容的方法及实现该方法的设备

技术领域

本发明涉及用于向经受安全性约束的视频文件添加新的声音内容的方法及实现该方法的设备。

背景技术

现今存在多种盗版视听文件的形式。安装在影院中的摄像机使得产生投影文件的违法拷贝成为可能。然后在网络或者在销售的诸如CD或者DVD的介质上发现非法拷贝。这些拷贝引起对电影产业的损害以及对于视听文件的制作者(producer)的收入的损失。设想复杂的技术用于防止或者检测这样的行为。例如，制作者向要投影的文件的图像并入对于人眼不可检测但是对于装置可感知的标记。在再现文件期间视觉呈现该标记，由此显著降级文件并且很大地限制其价值。

为了避免违法复制，在开始发送之前使得文件安全是重要的。一般地，通过将文件以一般3分钟的短视频的形式呈现的预告片来影响该文件的发布。如果非法拷贝在官方发布之前流通并且可以由大量用户再现该非法拷贝，则这可以限制在文件发布时的文件的观看者的数量并且显著降级其收入。因此在文件发布之前避免泄露该文件的全部或者部分是重要的。一般地，视频和音频轨道(track)在安全车(secure van)中流通(circulate)。

过去，在配音期间已经发生一些泄露。当视频和音频内容被完成时，视频轨道至少与要以配音语言读取的文本脚本(script)一起被分派给配音者。这些拷贝是不久将要发布的文件中的那些，因此即使声音轨道不与其相关联它们也具有高价值。因此，使制作者和配音棚之间的视频轨道发送安全或者限制该视频轨道的价值是重要的。一种手段在于使用安全传输，但是如果配音者在讲该语言的国家执行配音这证明是昂贵的。

发明内容

本发明使得能够对发送到配音棚的文件的价值进行限制。

本发明涉及用于向视听文件添加新语音内容的方法，包括以在再现设备中接收由图像组成的视频文件的步骤；其特征在于，接收的视频文件的一些图像具有至少一个降级后的区域和至少一个未降级的区域，方法还包括以下步骤：

-在视频文件的再现期间，在计时器(time marker)定义的时刻获取至少一个语音内容，所述计时器定义其图像包含在至少一个未降级区域中出现的视觉元素的视频文件的区，

-向视听文件的管理者发送至少一个新获取的语音内容以及相关联的计时器，

-以如此的方式集合视听文件和至少一个新获取的声音内容，使得在相关联的计时器定义的时刻再现语音内容。

以该方式，用以添加新声音内容的发送的文件不具有很大电影制片价值(cinematographic value)。

根据第一细化，向视频文件再现装置发送表示新语音内容的讲话的文本以及多个与该文本相关联的计时器。在所述计时器的帮助下在视频文件的再现的指示时刻再现至少一部分所述文本。以该方式，配音者可以在屏幕上读他必须发音的文本。根据第一细化的细化，还发送与该文本相关联的属性列表并且在所述计时器的帮助下在视频文件的再现的指示时刻显示。这些属性向配音者提供关于读文本的方式的指示。

根据第一细化的另一细化，在视频文件的图像的降级后的区域的配音者前面的屏幕的至少一个图形窗口中显示该文本。以该方式，文件的全部未降级部分优选是可读的并且对于配音有用。根据最后细化的另一细化，在文件再现级检测视频文件的图像的降级后区域。以该方式，不需要发送降级后区域的坐标。根据变型，发送视频文件的降级后部分的位置并且由再现装置使用，以定位在这些降级后区域中显示文本的图形窗口。以该方式，不需要确定这些区域并且消耗计算能力以分析要在屏幕上显示的图像。

根据另一细化，向再现装置发送构成视听文件的原始声音轨道的音频内容，该音频内容还在再现视频内容期间再现。

本发明还涉及一种观看设备，包括用于接收从视听文件众产生的视频文件的部件，用于获取并且记录语音内容的部件，其特征在于，接收的视频文件的一些图像具有至少一个降级后的区域以及至少一个未降级的区域，获取设备影响在计时器定义的时刻获取至少一个语音内容，所述计时器定义其图像包含显示部件在视频文件的再现期间显示的视觉元素的视频文件的区，视觉元素在至少一个未降级区域中出现，一种用于发送至少一个新获取的语音内容和相关联的计时器的部件。

附图说明

通过借助于附图解释的本发明的非限制示例性实施例的描述，本发明的其他特性和优点将明显。在附图中：

-图1是音频和/或视觉内容制作装置的示例性框图，

-图2表示根据本发明的示例性实施例的配音棚的框图，

-图3表示根据本发明的示例性实现方式的安全区域的主环道(circuit)的示例性布局，

-图4表示在新声音轨道创建期间在配音棚级显示的示例性截图(screenshot)，

-图5.a表示包含人面部的未降级原始视频轨道的示例性图像，

-图5.b表示包含降级后的视频轨道的示例性图像，

-图6表示包含两个人面部的降级后的原始视频轨道的示例性图像。

具体实施方式

图1图示根据本发明优选示例性实施例的视听文件的制作装置的基本布局。制作装置1包括中央单元1.1、包括操作程序的程序存储器1.2、包含音频和/或视觉内容的数据库1.3以及使其能够经由网络1.5下载并且发送音频和/或视觉内容的双向通信接口1.4。网络1.5可以是因特网型。

程序存储器1.2包含基于各种拍摄(shot)(或“剪辑(cut)”)制作视听文件的模块、用于分析存储在数据库1.3中的文件的模块以及至少一个意图降级一些地方的图像的模糊模块。分析模块依靠可能呈现的属性，允许更容易地确定一方面存在图像的一些特性(典型地演员的头部、他们的面部或者他们的嘴唇)以及另一方面所述特性在图像中的位置。一般地，分析模块确定对于配音有用的图像的所有区域，这可以是例如手的移动、光、物体的突然出现等。

图2图示配音棚2.1的基本布局。配音棚具有链接到程序存储器2.3的中央单元2.2(UC)、允许用户输入再现视频轨道和配音期间所需的所有命令的键盘2.4、允许获得来自麦克风的信号并且使得它们被数字化的音频输入接口2.5、包括向至少两个扩音器2.7分派放大后的声音信号的至少一个放大器的用于音频信号的输出接口2.6。键盘2.4具有验证键以及旋转元件，使得其能够在屏幕上移动索引，该元件是例如链接到键盘的鼠标。键盘具有使得其能够输入如选择屏幕图标可获得的那些相同的命令的键。扬声器2.7连接到读取器，它们可以是用户佩戴的头戴式耳机上的听筒。数据存储器2.8链接到中央单元、典型地是硬盘的该存储器使其能够记录音频和/或视觉内容。可选地，录音棚2.1具有可选的可移除音频和/或视觉数据存储单元2.9，能够读取或者写入记录介质，诸如音频CD、DVD、电磁式拾音头(magnetic cartridge)、电子卡、USB键等。

录音棚2.1还包括用于在远程屏幕2.11上显示数据的电路2.10。该电路2.10(经常称作OSD电路，代表“屏幕上显示”的缩写)是文本以及图形生成器，使得菜单、象形图或者其他图形以及菜单能够有助于配音在屏幕上显示。中央单元2.2以及包含在存储器2.3中的程序控制OSD电路。可执行程序有利地以只读存储器2.3中记录的程序模块的形式实现。还可以以例如ASIC型特定电路的形式实现。

数字总线1.5连接到网络接口电路2.12，其以数字形式或者模拟形式向录音棚2.1发送音频内容，接收器将它们记录在存储器2.8中。音频和/或视频内容下载是不必在本申请中解释的熟知技术。

视听文件的制作在于通过将它们邻接来集合拍摄(或者“剪辑”)。图3图示包括多个拍摄的视听文件。计时器标记最终文件，文件在计时器值0开始。每个拍摄关于文件的开始来标记，第一拍摄在计时器值T0开始，第二拍摄在计时器值T1开始，第三拍摄在计时器值T2开始等。以此方式，当拍摄之间导航时，导航程序使用计时器的表来指向新拍摄。对于每个拍摄，一个或者多个时间区包含要翻译成另一种语言的讲话。由图3中的水平箭头表示的这些区也由计时器编索引。以此方式，在文件的再现期间，能够拍摄之间导航，并且能够在时间表上显示讲话区的位置。

由此文件的每个事件依据时间观点(time standpoint)标记。显著地，当讲话由演员讲出时，每句的开始和结束在文件内标记。由此非常地可能定位需要配音为另一种语言的文件的视频轨道的部分。每个部分与开始时间标记和结束时间标记相关联。

在已经描述各种元件之后，现在将解释后面的互操作。

图4图示视听文件的制作者、各种配音棚和内容管理者之间的各种步骤的进程。内容管理者可以是文件的制作者，内容管理者负责提供带有配音的最终文件。

开始，制作装置具有包括多种序列集合的原始文件并且提取文件的视频分量。在步骤4.1，程序模块分析文件的视频轨道以确定元素对于配音(诸如嘴唇的移动)有用的各种区域。下面，第二模块在每个图像中降级不包括这些特性的部分。该降级在于改变视觉内容，然而同时保存移动的显示和色彩的感知。例如，如果视频示出在风中摇摆运动的旗子，则观看者可以认识到这是旗子，但是不能确定哪个旗子。已知各种视频降级技术，诸如模糊、像素化(pixell ation)或者甚至阴影的叠加。可设想使用不可逆技术，例如要求遍及文件的处理随机改变的数据。

随后，制作装置具有视频文件，该视频文件具有相同持续时间、相同计时器但带有依据电影制片观点具有小价值的降级后图像。该制作装置与对应要执行为各种语言的配音的各种脚本一起发送降级后的视频轨道(步骤4.2)。可选择地，还发送原始声音轨道。根据第一细化，该声音轨道是非讲话背景噪声的声音轨道。以该方式，配音者可以将他的语音与一些噪声同步。根据可选择地与第一可组合的第二细化，还与讲话一起发送原始声音轨道。以该方式，配音者可以听到它以跟随与视频轨道中呈现的演员的语调相同的语音语调。

脚本是在计时器的帮助下每个字或者字的组与视频文件的某一时刻相关联的文本。以ASS格式发送脚本，每个字符以A.S.C.I.I.编码。ASS格式的语法使得能够规定计时器。根据一个细化，以加密方式发送脚本，借助另一种传输部件向配音者给出允许解密的码。

每个配音棚接收降级后的视频文件以及对应其语言的脚本。在步骤4.3，配音者在面对他的屏幕的菜单上开始降级后视频轨道的再现，在读的时刻由计时器指示的同时显示该脚本。如果接收到加密的脚本，则配音者在开始文件的再现之前必须输入解密码。在看配音者正在配音的演员面部出现在屏幕上的图像并且读显示在另一地方的脚本的同时，该配音者将他的文本发音到配音棚的麦克风。该配音者使用演员嘴唇的移动来实现与他的文本的更好匹配(步骤4.4)。允许配音者听到他本身返回的命令是可用的，以重新开始记录并且验证他刚刚进行的记录。由此创建新的语音内容，该语音内容与降级后的视频文件的计时器相同的计时器同步。

在步骤4.5，各种配音棚向内容管理者发送与相关联的计时器一起的新的语音内容。根据优选实施例，以加密方式向内容管理者发送语音内容以及相关联的计时器。同时，制作装置(如果其与内容管理者不同)向内容管理者发送原始(未降级)视频轨道(步骤4.6)。在步骤4.7，内容管理者制作最终文件。相应地，管理者通过混合配音者的语音内容和背景噪声来制作与存在的语言一样多的音频轨道。在计时器规定的时刻执行配音者发音的各种声音序列集合。最终，视听文件包括视频轨道和与存在的语言一样多的声音轨道。

图5.a和5.b图示在处理的不同时刻显示文件的图像的截图。

图5.a表示包含面部的未降级原始视频轨道的示例性图像，诸如其可以在制作装置1等级显示。在发送到配音棚2.1之前，该图像将除显示面部的区域之外地被降级。

图5.b表示配音棚2.1显示的示例性菜单。显示的图像是在降级之后的图5.a中表示的图像。看到除了单个个人面部之外，整个图像被模糊。

要由配音者读的脚本出现在图像底部的滚动栏上。图形指针在文本上移动以近似地指示在与显示的图像对应的时刻配音者必须读的字或字的一部分。通过使用脚本的计时器来移动图形指针，其近似地覆盖两秒钟的讲话。图形指针可以是文本色彩的改变、下划线、加粗字符等。配音者必须观察显示的图像上演员嘴唇的移动，使得嘴唇的移动最佳地对应于读的句子。首先，他必须设法做到在演员的嘴唇正在移动的时刻讲话。这是为什么演员的面部不被降级并且用良好的分辨率出现在屏幕上是重要的。假设例如正在配音电影“Quai des brumes”并且演员Jean Gabin正在用法语发音“t′asd′beaux yeux，tusais”。以另一种语言写出的该句子可以将字转化为“Tu sais que tu as de beauxyeux”。因此，该配音者必须在嘴唇移动划界的时间内发音该句子，并且在正好相同的时刻不使原始语言的字匹配配音语言的字。

有利地，在屏幕上显示命令菜单，以允许配音者调用(recall)可用命令。这些命令是：

-播放

-使用原始声音播放(如果可用)

-使用背景噪声播放(如果可用)

-返回拍摄的开始

-跳到下一拍摄

-跳到之前拍摄

-记录发音的序列

通过在指针的帮助下选择屏幕上的图标并且通过按压按钮可获得这些命令，它们还通过键盘2.4的键可获得。

根据一个细化，向录音棚发送降级后的视频内容以及意图用于配音者的读属性。典型地，这些读属性向配音者提供关于如何读文本的指示，例如：快、慢、单音调、大喊大叫、啜泣、以尖声尖气、以低沉的声音、结巴地说等等。读属性与计时器相关联，以在当显示与这些属性有关的文本时的时刻显示。这些属性在菜单的特定窗口中出现。

根据细化，在图像降级的部分显示各种窗口(脚本、命令菜单、读属性、时间栏等)，以不阻碍面部的可读性。当光标的位置位于面部区域时随鼠标移动的光标消失。通过利用降级类型的知识来分析图像在配音棚级执行图像降级后区域的检测。与降级后的视频一起发送作为服务信息的降级的性质(模糊、划痕、阴影线、缺乏对比度等)。

根据一个变型，制作装置向降级后的视频分派包含演员面部或者嘴唇的区域的空间坐标或者包含演员面部或者嘴唇的区域。配音棚放置菜单窗口，从而不叠加图像的任何降级后的区域。由此，再现装置不需要确定降级后以及未降级区域来定位各种窗口。

图6表示配音棚2.1显示的另一示例性菜单。显示的菜单包括其讲话由两个配音者配音的两个演员。每个配音者看到除了个人的两个面部之外的模糊图像。如果配音者一起工作，则通过在同一屏幕上显示两个脚本来执行配音。在该情形中，显示两个脚本栏。可以使指示读的时刻的图形光标置于一个或者另一个栏上或者如果配音者必须同时讲话在二者上。

本实施例应该通过例示的方式考虑，但是可以在所附权利要求书的范围定义的领域内作出修改。具体地，本发明不限于之前描述的解码器而是任何适合具有安全性约束的环道的任何装置。

Claims

1.一种用于向视听文件添加新的语音内容的方法，包括步骤(4.2)，在再现设备(2.1)中接收由图像组成的视频文件；其特征在于，接收的视频文件的一些图像具有至少一个降级后的区域和至少一个未降级的区域，所述方法还包括以下步骤：

-在视频文件的再现(4.3)期间，在计时器定义的时刻获取(4.4)至少一个语音内容，所述计时器对所述视频文件的区域编排索引，所述视频文件的图像包含至少一个未降级区域中出现的视觉元素，

-向视听文件的管理者发送(4.5)至少一个新获取的语音内容以及相关联的计时器，

-以如此的方式集合(4.7)视听文件和至少一个新获取的声音内容，使得在相关联的计时器定义的时刻再现语音内容。

2.如权利要求1所述的用于添加新语音内容的方法，其特征在于，该方法包括发送表示新语音内容的讲话的文本以及多个与该文本相关联的计时器的步骤，以及在再现(4.3)视频文件期间在所述计时器指示的时刻由再现装置(2.1)显示至少一部分所述文本的步骤。

3.如权利要求2所述的用于添加新语音内容的方法，其特征在于，该方法包括发送与发送的该文本相关联的属性列表以及与该属性相关联的多个计时器的步骤，以及在再现(4.3)视频内容期间在所述计时器指示的时刻由再现装置(2.1)显示所述属性的步骤；所述属性向配音者提供关于读文本的方式的指示。

4.如权利要求2所述的用于添加新语音内容的方法，其特征在于，在视频文件的图像的降级后的区域中由再现装置(2.1)放置的至少一个图形窗口中显示文本。

5.如权利要求4所述的用于添加新语音内容的方法，其特征在于，再现装置(2.1)利用用于检测视频文件的图像的降级后的区域，从而在其中定位显示文本的图形窗口的部件。

6.如权利要求4所述的用于添加新语音内容的方法，其特征在于，该方法包括以下步骤，再现设备(2.1)接收视频文件的降级后的区域的位置，从而在其中定位显示文本的图形窗口。

7.如权利要求1至6中任一项所述的用于添加新语音内容的方法，其特征在于，该方法包括发送构成视听文件的原始声音轨道的音频内容的步骤，以及在再现(4.3)视频内容期间再现所述音频内容的步骤。

8.一种观看设备(2.1)，包括用于接收从视听文件中产生的视频文件的部件(2.12)，用于获取语音内容的部件(2.5)，以及用于记录语音内容的部件(2.8)，其特征在于，接收的视频文件的一些图像具有至少一个降级后的区域以及至少一个未降级的区域，用于获取语音内容的部件(2.5)影响在计时器定义的时刻获取至少一个语音内容，所述计时器对所述视频文件的区域编排索引，所述视频文件的图像包含显示部件(2.11)在视频文件的再现(4.3)期间显示的视觉元素，所述视觉元素在至少一个未降级区域中出现，以及包括用于发送至少一个新获取的语音内容和相关联的计时器的部件(2.12，2.9)。

9.如权利要求8所述的观看设备(2.1)，其特征在于，接收部件(2.12)接收包含新的语音内容的讲话的文本和多个与所述文本相关联的计时器，显示部件(2.11)在接收的所述计时器指示的时刻的再现视频文件期间显示至少一部分所述本文。

10.如权利要求9所述的观看设备(2.1)，其特征在于，接收部件(2.12)接收与接收的文本相关联的属性的列表以及多个与所述文本相关联的计时器，所述属性向配音者提供关于读文本的方式的指示；显示部件(2.11)在接收的所述计时器指示的时刻的再现视频文件期间显示接收的至少一个属性。

11.如权利要求9所述的观看设备(2.1)，其特征在于，显示部件(2.11)在置于视频文件的图像的降级后的区域中的至少一个图形窗口中显示文本。

12.如权利要求11所述的观看设备(2.1)，其特征在于，该设备还包括以下部件，用于检测视频文件的图像的降级后的区域，从而在其中定位显示文本的图形窗口。

13.如权利要求11所述的观看设备(2.1)，其特征在于，接收部件(2.12)接收在视频文件的降级后的区域的位置，从而在其中定位显示文本的图形窗口。

14.如权利要求8至13中任一项所述的观看设备(2.1)，其特征在于，接收部件(2.12)接收构成视听文件的原始声音轨道的音频内容，观看设备(2.1)还包括用于在再现(4.3)视频文件期间再现所述音频内容的部件。