CN102047680B

CN102047680B - 用于将视听内容的认知复杂度调整到观看者注意力水平的设备和方法

Info

Publication number: CN102047680B
Application number: CN200980120633.3A
Authority: CN
Inventors: M·M·J·W·默滕斯
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2008-06-02
Filing date: 2009-05-28
Publication date: 2015-02-25
Anticipated expiration: 2029-05-28
Also published as: CN102047680A; US20140022459A1; WO2009147590A3; EP2286592B1; WO2009147590A2; JP2011523821A; EP2286592A2; US9032472B2; KR101569929B1; US20110102674A1; JP5775814B2; KR20110025788A; US9749550B2

Abstract

为了允许观看者将视听内容调适于他们的注意力水平，视听信号处理装置(104，106)包括视听信号处理单元(104)，该视听信号处理单元(104)被设置成从控制单元(106)接收至少一个指定视听信号中信息复杂度的复杂度设置值(S_Inf-c)，所述视听信号处理单元(104)被设置成处理输入的视听信号S(A，V)以如由所述复杂度设置值(S_Inf-c)确定的那样减小或增大其信息复杂度，其中所述视听信号处理单元(104)被设置成处理所述视听信号S(A，V)的至少音频成分(A)。

Description

用于将视听内容的认知复杂度调整到观看者注意力水平的设备和方法

技术领域

本发明涉及视听信号处理装置和方法以及软件，该软件用于处理视听信号以使它们变得更容易领会(digest)，例如获得消息变得更容易。

背景技术

由于诸如例如信息打包、观看者注意力吸引之类的技术，用于呈现诸如例如广播电视之类的视听内容的视听系统变得日益信息密集。所述信息打包例如：使用紧密剪辑(cut)的简短采访或解说选段(clip)(仅保留新闻本地报道的最相关句子，使之成为相当短的话题综合，要求观看者仔细注意所有陈述)，所述观看者注意力吸引例如使用声级(sound level)、多窗口视频(例如三个子窗口示出相同节目部分的不同方面，，例如两个采访者同时跑向他们的下一个要采访的人，或者附加的文本标题(banner))来播放。

这对观看者来说很费神，并且能够理解，特别是在疲惫工作一天后，至少一些人难于专注地跟上(follow)或者甚至完全跟上某些节目。在极限情况下，这样的节目甚至可能纯粹成为压力因素，而非提供信息或者使人娱乐。

随着视听内容的增长和若干新颖的视听技术(例如电视上的互联网)的结合，相信这些问题将变得严重。

本发明的一个目的是提供一种对观看者关于其视听信息的其显示的需求更具反应能力的系统。

发明内容

由该目的启发的一个解决方案由一种视听信号处理装置(104，106)和相应的方法实现，该视听信号处理装置包括视听信号处理单元(104)，该视听信号处理单元(104)被设置成从控制单元(106)接收至少一个指定视听信号中信息复杂度的复杂度设置值(S_Inf-c)，该视听信号处理单元(104)被设置成处理输入的视听信号S(A，V)以如由所述复杂度设置值(S_Inf-c)确定的那样减小或增大它的信息复杂度，其中该视听信号处理单元(104)被设置成处理该视听信号S(A，V)的至少音频成分(A)，或者被设置成处理至少一个视频成分(V)。

例如，疲惫的人或老人能够将信息复杂度(即密度和信息呈现给观看者的方式)的设置指定为例如用于绝对比较的预设值或滑块上的相对值，视听系统可调适视频和/或音频的特性使得信息复杂度变小，以使节目更容易跟上。然而理想地整个讨论会需要被改变—例如移除难的词—已经可以使用一些简单的视听信号处理来实现许多，这取决于输入信号。例如，本方法(/装置)特别适用于具有散置的“报道”项的节目，例如新闻、脱口秀或问答比赛(在该情况下问题有它们自己的影片选段)等，即典型地分等级的信息呈现(具有与特定细节相对的主信息的介绍)。于是例如通过跳过针对更少相关的细节的更多传输或存储的信息(反之亦然)，仅保留报道(reportage)，作为一种气氛设置影片(例如处理单元可被配置成对于旅游节目剪掉令人厌烦的中间谈话，仅保留幻灯片放映中的风景摇摄全景(landscape pan))，不同地对待等级中不同的水平，即不同的时间间隔(temporal interval)[在本申请中间隔是指从开始时间到结束时间的连续时间量，和/或该间隔里的音频和/或视频和/或其它数据])变为可能。它将不那么适用于影片，因为导演已经针对期望的效果对那些进行了优化。然而，在中间，纪录片也可以是用于处理的好的候选对象。例如，在旅游节目中，音频可能是令人满意的，但是视频可能非常快速地被剪辑，并且包括很大一部分快速移动的模糊摇摄全景(pan)，这使其变得很难观看，甚至可能转移观看者对音频的注意力。纯视频处理可以是例如重复抽取的静止画面的幻灯片放映(极端情况下)，或者是基于运动的抖动移除和锐化。

如果(无论是否与视频处理一起)同时优化导致复杂度的音频的不同方面以及因此观看者跟上并理解节目的容易性(或者利用有关的设置有差别地改变它们特定的量)，那么这是有益的。例如，哪种声音(voice)说话(高音调(pitch)的女士声音对平静深沉的男性声音)将被一些观看者判断与说话(speak)节奏(tempo)(每个时间单位词的数量)同样重要。

由于一般来说将有一些缓冲涉及进来，本装置(例如典型地包含在信号处理IC中)将有利地合并在例如用于离线观看的硬盘录制品或PC中(例如再现设备102)，但它也可以合并在数字电视中，并在实时观看期间使用。在该情况下，人们可以在节奏慢下来时缓冲整个到来的节目，或者在新项目处重新同步，即跳过一些内容。

即，无论什么视听信号的呈现或源，利用本发明，观看者可以使用相对简单的控制命令来使该视听信号适合于他当前的注意力水平。

附图说明

参考以下描述的实现方式和实施例以及附图，根据本发明的方法和设备的这些和其他方面将变得清楚并得以阐述，附图仅起举例说明更一般概念的非限制性特定图示的作用，其中虚线被用来指示组件是可选的，非虚线的组件不必是必需的。虚线还可以被用来指示被说明为必需的元件隐藏在物体的内部，或者用于指示诸如例如电磁场之类的无形的东西。

在图中：

图1以实例的方式示意性地图示了合并在有视听信号存储能力的设备(102)中的视听信号处理装置；

图2更详细地示意性地示出了视听信号分析单元的实施例；以及

图3示意性地示出了使输入视听信号不那么复杂且更容易跟上的复合输出视听信号的显示的示例性所见。

具体实施方式

图1示出了视听(A/V)信号处理单元104，它被设置成对例如通过广播天线124或互联网电缆等接收的A/V信号S(A，V)应用若干信号转换。在它的最简单配置中，它将仅对音频应用转换，然而有时为了增加质量(例如嘴唇同步(lip sync))，有益的是，对至少一些诸如画面重复之类的视频处理应用转换。这样的不同算法的规范，特别是它们的对应(correspondence)可以是工厂设置的(并且部分不可改变)、取决于信号的或者用户指定的(参见下文，然而使用配置菜单的用户应当仅为诸如视频抖动或速度这样的相关问题操心，而不是诸如是否使用特殊的运动补偿插值这样的技术问题操心)。A/V处理单元104在从控制单元106获得的、指定/表征视听信号复杂度的复杂度设置(即至少一个、可能若干个例如用于音频和视频的不同单个值)值的控制下进行它的信号转换，控制单元106可与观看者输入相连接(例如经由通信输入120连接到遥控器122)，或者自动表现为将输入A/V信号剪裁/维持为例如由观看者在首次使用该系统时存储在存储器中的期望复杂度(例如诸如每分钟词和音频的最大动态(dynamic)之类的绝对值)的控制器。

对于观看者来说，如果他能够逐步地修改该信号，就如他正在改变音量控制，即使用他的遥控器上的加减按钮123一样，将非常舒适。

典型地，用户将想要推动减按钮，因为他认为节目(当前)太紧张(hectic)了，并且他开始错过至少一些信息。

可以以许多方式来完成改变每分钟词的量。由于说话通常包含词之间的停顿，A/V处理单元(PU)可被配置成延长这些停顿，这导致说话较慢。可选地或附加地，它还可以应用如PSOLA这样的叠加(overlap-and-add)技术。应当理解，将不同的音频转换结合到单个复杂度影响的(complexity-influencing)转换中(具有单个滑块330设置)不仅简化了观看者的控制，还能导致更好的结果。例如，如果说话的节奏较慢，强调某些词(通过分析A/V信号，例如当新闻播音员说重要事情时时常移动他们的头，或者甚至通过辨认出某些如“该”这样的词并强调其他词，或强调某些如“并且”、“其次”这样的重要的(例如说话逻辑)词，或者甚至仅处理浊音(voiced sound)，保留摩擦音不变)可以变得不那么重要。

改变音频时间(temporal)部分的音量可涉及简单地减小较长期动态(longer term dynamics)(例如移除较难理解的话，并且将所有的说话都设置为接近普通音量水平，或者相反地调整该水平(例如在较长的沉默之间，指示性句子之间)以使故事更有趣)。或者它可涉及强调某些词，等等。

说话者的声音也可由A/V PU改变。这可以使用非常复杂的声道建模(vocal tract modeling)来完成，但是由于声道典型地通过声带输入上的过滤器(filter)来建模，着色(coloring)也可以用相对简单的频谱运算(spectral operation)来完成，即例如增大特定波段中的音量，这对声音的可理解性或愉快度有贡献。虽然例如将高音调的男性声音完美和完全地转换为平静低沉的男士声音不是必须的，但是用户对这种低沉声音的优先选择(参见图3的配置窗口350)可以例如简单地利用增加语音(speech)的低频率来实现。在其他情况下，可使用背景噪声、语音分离技术。

因此，典型地，当用户推进减按钮以获得较平静的更容易理解的音频表现时，音频处理将在多个步骤中将移动语音穿过从{快速，跳跃，高音调}到{缓慢，单调，低音调}的特性相空间，至少在那是特定观看者深夜观看的优选改变方向的设置的情况下。

如果滑块330不是相对滑块，它将不会初始地被设置于50％，而是信号分析单元将测量音频(和/或视频)信号的属性并因此放置到来的箭头的位置。另外，根据算法模型，在工厂中分析许多典型的节目，至少X个词一起(例如还结合着第二个说话者是否经常打扰、是否有背景噪声、说话者的类型、……)的任何节目由“太忙乱”码表示，即相应于滑块位置100％。类似地，一些在特定复杂度处或低于特定复杂度的节目将太无聊，所有都以绝对复杂度值0％为特征。中间(in-between)测量的信号被线性地或非线性地映射在滑块的不同中间值上。在该情况下，观看者可为复杂度设置绝对设置，尽管在实践中在两个系统中，他都将典型地获得某些一般优选的设置。典型地，优选地取决于一天中的时间，也可能取决于节目的类型(具有不同于纪录片的其他设置的新闻)，他将把那些值存储在观看者表征存储器161中，该存储器161将存储将所有节目进行转换的单个值，从而该装置于是能自动进行期望的A/V信号处理。取代不得不去菜单并选择设置“疲惫的傍晚”、“清晨醒来”等，该装置在控制单元106中包括软件以将滑块330显示为适合于用户的滑块。在该情况下，例如50％设置是“一般观看”复杂度(如由当前观看者输入为优选的那样；可能有合并的观看者识别装置，例如关键字输入、生物统计测量等)，取决于由观看者在配置阶段指定的最佳场景的量以及它们的相对复杂度，单个减按钮推动移动到“疲惫的傍晚”优选设置，加推动移动到“清晨醒来”设置，两个减推动移动到“深夜”设置，等等(即它们现在处于非数字顺序，即使“深夜”的放松程度是“疲惫的傍晚”的5倍，单个推动就足够了)。

典型地，为了使信号不那么复杂，可能涉及一些减慢(slowingdown)。这一方面(如果没有采取预防)可导致跳过一些内容或者甚至不得不观看更长的时间(例如当从硬盘192或固态存储器观看时)，但另一方面，也延长视频以保持A/V同步可以是期望的。应当理解，取决于它的结构配置，该装置(A/V PU)可具有以下不同视频修改能力中的一个或两个。一方面，它可以处理视频使它不那么复杂，同时保持总持续时间(例如通过移除摇晃的运动，或者通过运动补偿插值将快速的摇摄转换为具有相同时间持续时间的较少摇摄量的较慢摇摄，或者平滑场景改变，或者改变视频动态(例如移除闪光)，或者进行时间直方图修改等)。另一方面，它可以通过增加(例如重复)或跳过画面来改变视频的持续时间。例如，镜头的最后几个画面可以被移除，同时减缓(时间延长)头几个(在最极端的情况下仅保留一个画面)。优选地，为了保持时间上的平滑度，使用基于运动的插值(即中间的画面被合成以便所有的对象都在它们预期的位置中)，例如飞利浦的“3DRS自然运动”系统(参见，例如：A.Beric等：“Towardsan efficient high quality picture-rate up-converter”，Proc.ICIP03，IEEEInternational Conference on Image Processing，Barcelona，Spain，2003年9月14-17)。取决于诸如例如节目类型(新闻vs.纪录片)这样的方面，较小程度的连续同步是必需的。甚至，整个镜头可被省略，尤其是如果它是短的持续时间，由于快速剪辑指导(fast cut directing)，有许多相同地点/场景的镜头。一般而言，可以在从紧密控制音频和视频之间的同步到完全独立地改变它们的复杂度特别是它们的节奏的某处配置A/V PU(例如，在纪录片中，视频时常仅仅阐明/支持讲述的故事，并可以独立地被改变，而不引入人工产物)。音频和视频的片断(snippet)之间的时间相关性分析有助于检测节目的类型和必需的同步。

如果该装置被设置成提供即使在放慢速度(pace)之后也不必释放(loosing)任何信息的选项，那么这将是有益的。另外，A/V PU可被设置成进行特殊类型的视频处理以创建如图3所示的分等级结构化的输出视听信号O(A，V)。在该视图中，A/V信号的不同时间子部分被呈现在子窗口302、304、……的列表中。主视图是当前观看的A/V信号的一部分，在窗口302中是另一部分，典型地是即将播放的静止画面(still)。所以替代用完时间和释放这个部分302，观看者可以选择它，并从而跳过当前的部分，由此将该子序列(subsequence)移动到主窗口300。(取决于延迟有多长以及场景选择的粗度和/或多少个观看者想看等)许多这些部分被叠加在主窗口上(第一行中从左到右，然后第二行等，直到我们得到像连环漫画册这样的东西，其中相关的动作时刻是实际运动的)。在更智能的放置系统中，子窗口不遵循矩形格，而是根据下面的画面(underlying picture)来放置，以便不过多地覆盖它，至于放置，使得不覆盖诸如女受访者之类的视频子窗口(通过分析行间区域中的画面数据的变化)，不覆盖人、或者标识语(logo)、标题等。尽管这些部分302可随机地来选择，例如相隔一分钟一个，但是如果它们真的是有意义的时间子序列(例如同时在主视频的顶端上运行的报道(的开头几个画面))，将是有益的。

另外，信号分析单元170可被设置成例如从现场报道区分新闻播报员，并在子窗口302、304等中示出那些报道。这种分析单元的示例性实施用图2来图示。

运动分析器MOT估计画面中的运动，例如全局摇摄和变焦，还估计不同对象的运动。因此，它可跟踪对象并检查例如它如何改变颜色等。除人分析器PEOPL之外，例如运动分析器可以帮助。人分析器本身是已知的，并且可包括诸如姿势分析器、眼睛或注视分析器、头分析器或辨认器等之类的组件。因此可检查人(的部位)是否出现，或者甚至可检查哪个人出现或者他在做什么。但是同样，采访者典型地是中间的相对小运动的区域(尤其是躯干)。因此，运动分析器可有助于分析(方面的表征)和/或分类区域，例如图1中的人的区域RP，运动分析器可以实现不那么复杂的人分析器。特别感兴趣的是跟踪说话者的头，因为他倾向于例如点头来强调重要的词(该词的音量于是可由音频处理器增大)。

人的区域还是场景分析器SCE_TYPR的输入(在该示意性说明中，我们假设所有更高级分析都在该块中完成，尽管本领域技术人员将理解当然例如直方图分析器HISTO或主声音分析器DOMVOI也可以确定特定内容间隔)，因为例如新闻节目通常有一个节目主持人，而普通的兴趣节目秀或辩论可能有2到3个。在任何情况下，应当清楚，节目的复杂度时常将取决于说话者的数量，这将在用于确定A/V信号复杂度的处理规则中得以反映。尽管场景分析器可以是硬件块，但是当前我们假设它是一般的处理器，典型地运行关于视听信号合成的软件编码规则SYSTRULS，其可以从例如互联网得以更新。

空间图像/视频属性分析器BLUR_EDG可以涉及诸如全局或局部模糊确定、从中确定边缘和量度等之类的分析，除了空间图像/视频属性分析器BLUR_EDG之外，运动分析器MOT将给出有用的信息例如以稳定抖动捕获的图像。从这些单元的测量典型地将以包括若干分量的复杂度矢量VC输出。例如，VCm是指示画面中运动量的总度量，其可进一步由诸如例如摇摄量、随时间的运动变化等之类的更详细的参数来指定。类似地，VCl是场景亮度或被包括的对象令人讨厌地快速变化有多快等的度量。

这些参数典型地将与A/V PU处理算法的参数匹配，例如摇摄可能太快，是两倍快，并通过运动补偿插值导致画面的重叠。同样地，可从中推导出和期望的复杂度S_Inf-c一起确定需要完成多少处理的单个复杂度度量。典型地，每个修正的量将在内部发生，用户并不知道它，例如他可以在配置中已指定了他对若干摇摄量的喜好(每秒X个像素是“缓慢”，2X个是“舒适的”/“一般观看”等等)，给出实际信号复杂度和期望的复杂度，所述装置通过简单的数学插值能从中计算出所需的补偿。

尽管其他模块也可以起作用，但我们简要描述如何可以(单独地，或者为了增加的表征细度或鲁棒性而结合地)使用PEOPL、HISTO和DOMVOI来确定场景间隔SCE_INT，即镜头或场景(许多相似的镜头)在哪里开始和结束。

若干测量可用于确定场景边界，从黑帧(black frame)或换景(wipe)的检测到编码场景/镜头所需的比特量。然而，非常有用的分析是通过查看时间上的变化或空间直方图的相似性，因为这可以帮助抽取主镜头(/场景)(主画面REFI的现代、时髦节目的概括，例如在报道之间特殊摄像机(camera)在新闻播音员上的典型视图)。

通常这种摄像机仅做小的调焦或摇摄，所以新闻播音员(newsreader)周围总有相同的画面，即演播室的那部分(对于现代虚拟演播室新闻来说，它可能稍微复杂一些，因为新闻播音员可能被非常易变的人造画面包围，尽管在那些情况下通常也有可识别的元素，比如标识语(logo)、颜色方案等)。另外，在分析空间直方图(例如基于特性特征)之前，空间插值操作(摇摄和调焦)可以是有益的。例如，总的画面可被切分成许多矩形块，其中呈现的颜色可以例如借助于平均值来概括。所以，一个具有有特性(characteristic)的镜头的表现(新闻演播室)，每次它出现时它可被辨认出。有益地，如果镜头经常出现，尤其在特定时间出现，或者与诸如EPG信息之类的特定元数据相关，那么该装置的一个实施例将保持这样的镜头。随着时间的推移，它可以将诸如6点新闻(six-a-clock)或Phil博士之类的节目的模型数据存储在数据存储器190中。从中，分析单元可从报道分割出新闻播音员的场景，或者从摄像机在客人上的场景中分割出摄像机在Phil博士上的场景。于是缓慢地听着Phil博士正在说的所有话的观看者可以选择在窗口302中的客人的反应上点击(典型地使用“下一片断”按钮，或者在更高级的系统中通过使用具有摄像机的遥控指点)，直接观看它，并且该装置然后可以被设置成在“前一片断窗口”320中从开始到结束地显示Phil博士的解释，从而如果观看者认为Phil博士的建议或问题终归是重要的，则他可以从他停止(之前一点)的地方或者从比如该片断开始的另一个时间继续听。

有特性的镜头的另一个有用表征是说话者(例如多个主说话者之一)周围环境的直方图。可使该位置和大小独立。例如，某人观看说话者RP周围颜色相对相似的区域(例如照明可被窄色度直方图的分段区域减少)，即R1、R2、……。可使用例如三个左邻近区域(R4，R4，R3)和右邻近区域(R2，R1，R1)的平均值的矩阵来模拟该场景，并且对人的下方(这里通常有不变的桌子RDES)，(RDES1、RDES2、…)和人的上方做相同的模拟，因此获得：

RD，RD，R3，R4，R4，R1，R1

R4，R4，R3，0，R2，R1，R1

RDES1，RDES2，…

即使对于严重的运动，许多元素将相关。注意，RD区域可被减少，因为在该实例中它是影片选段窗口，这可通过变化和不连续的内容得以检测。

具有这样的表现还可帮助从场景中检测所有镜头(例如，如果从不同的摄像机角度拍摄新闻播音员，那么演播室的表征直方图颜色将对于在若干个镜头中发生的特定程度静止，因此这些可被分组，因为它们的值和出现的相似性度量比例如对插入的街上报道或自然场景的更接近)。

注意，空间画面直方图分析和主说话者辨认的组合作为独立的单元对于其它的应用也是有用的，例如用于场景辨认的内容辨认。

类似地，主(或有特性的说话者)声音(即经常在特定时间间隔中出现的声音，此外特殊地如果它在不同天的特定时间出现)的识别不仅可以帮助识别该新闻播音员是否在谈论/介绍下一个话题，还可以例如在纪录片中帮助识别目前的信息是否更相关(即应当例如被保留在减小/调整了复杂度的输出A/V信号中)或者它是否仅仅是在解释风景画面。

类似地，文本检测器TXT或者用于特殊区域的检测器BANNLOG，例如静态标识语、标题等，可帮助镜头/场景分段(产生间隔SCE_INT)或识别(产生类型SCE_TYP)。比识别该场景是什么(SCE_TYP)的新闻播音员的演播室画面更复杂的实例是例如足球比赛，它可根据绿色的矩形、球、几个跑来跑去的运动员、观看者结构(texture)和呼叫声来识别。

最后，如果元数据例如从互联网内容给出，则是有趣的。这不仅能用于镜头/场景分段和识别，还可以例如用于表征不同等级的报道(例如在子窗口302上，文本303 OBAMA已被呈现，向用户指示这是Obama讲话的报道)。连贯的场景也可以被分等级地呈现，特别是在元数据的帮助下，例如窗口302后面可以是3个子序列：奥巴马(Obama)的第一个、第二个和第三个辩论。取决于观看者的兴趣和精力，他可以投入到那些中的一些中去或者不投入进去。

该装置的一个有趣实施例允许观看者存储有趣的时间段以便例如以后再次观看。例如在纪录片中，可以首先解释对于橡胶轮胎市场有多大，或者希拉里(Hillary)可能做出了某个承诺。然后当观看该节目的剩余部分例如制造轮胎有多贵时，观看者可以快速回到那个片断以重新捕获与轮胎商业的整体经济画面相关的其他事实。另外，该观看者在镜头/场景中任何地方点击选择按钮125，整个场景开始到结束在选择单元160的控制下被拷贝到存储器中，并在第一存储器窗口310中示出，并且如果该按钮再次被点击，则在第二存储器窗口312。这些用户选择的特定序列被垂直地组织在显示器150上显示的图像的左下角中，以将它们从自动生成的302、304中区分出来。

如果该装置被设置成不同地处理广告片断，将是有益的。广告片断是要跳过的好的候选者，但那不是提供资金的公司的喜好。此外，A/VPU被设置成概括该广告，并例如将它放入它自己的子窗口中。广告的制作者可能添加用于概括的元数据，例如用于示出的几个有特性的画面，在该情况下，观看者仍然例如从在其顶部显示了几个词的动画获得该广告的实质(例如购买的暗示)。当点击该子窗口时，可出现更多内容，就像具有上述分等级的节目/报道一样。概括可以如制作具有进入点的分等级剪辑列表一样复杂，使得可以很快地(on-the-fly)制作不同持续时间的影片(例如，仅使用两个其中主要人物出现问题的实例，而不是四个，或者直接跳到主消息)，或者它可以如仅仅调低(tune down)令人讨厌的音频那样简单，例如用(一个或多个)文本消息代替它。

如上所述，遵循本发明原理的实施例的优点之一是用户具有对信号复杂度的容易控制(当用户已经疲惫了或有压力时，所述控制是方便的)。因此，在操作期间，他可以仅仅使用单个滑块330来降低或增加复杂度。但是附加地，具有第二滑块(340)是有益的，第二滑块控制提供节目/O(A，V)的分等级的复杂度，例如允许的子窗口的数量。如果该滑块低，这可能引起例如仅允许3个自动子窗口，其视频仅能保持开头的50秒，并且所有剩余部分被丢弃(它可能实际上没有存储在192上的缓冲存储器中，或者恰好没有在输出信号中再现，即使选择了子窗口)。在复杂度变化之下的潜在复杂的音频视频处理可以有利地由观看者在购买时或任何时候根据他的喜好至少部分地得以配置。此外，菜单350允许用户针对特定处理改变一些参数，例如他可以抑制音频的动态使得它不会变化为激烈的。典型地，这可以向他提出各种设置，例如通过将当前输入的节目音频转换以达到特定的动态复杂度，并要求用户将那些分配到至少一些类别(“舒适的”或“几乎不觉得疲惫”，“非常不舒服”或“确实疲惫”等)。例如利用信息分等级可以完成相同的事情。例如一些用户可能对于使画面的整个上半部分覆盖着子窗口没有麻烦，当点击子窗口时，子窗口显示同样也能点击的稍微向下移动的整行子窗口，而其他用户可能仅仅想要显示几个最相关的项，如果他们想要参考它们的话。因此，最后，他们将新闻减少到仅几个项，例如如果他们看到在伊拉克发生的爆炸，他们可能想要点击它，而忽略所有剩余的。

有若干方式来创建放松的信号。例如，在纪录片(例如城市旅行或自然)中，通常有(相对)快速的步调，以恰好将所有信息放入节目。然而，某人可能想体验对大峡谷(Grand Canyon)或对罗马漂亮广场的游览，而不是看它闪烁几秒。此外，重复的序列可(例如通过单个“重复(repetize)”按钮推动)得以创建，重复不应当被解释为总是精确地时间同步地重复视听信号的时间段(例如镜头或镜头的场景)，而是创建剩余性质(remaining nature)的信号(至少持续特定的时间量，例如直到“重复”按钮被再次推动以取消该功能)，像照片/快照的种类，但由于镜头中的有特性的运动，更具沉浸感。在简单的实施例中，这可通过视听信号处理单元104确实仅仅在按钮按压时提取特殊的镜头并继续它来起作用。然而，所述视听信号处理单元可被设置成在时间空间这二者上做更复杂的信号分析，并且例如分析人的运动，甚至跟踪他跨越两个镜头，并用这来生成序列(sequence)。例如，它可以创建同一风景的两个相关镜头的全景缝合(panoramic stitch)，以及提取运动的参与者，并且用运动估计/补偿技术来重新粘贴他们，使得他们流畅地走过新的场景。该分析典型地也可以用于创建被捕获的风景的最放松且最能提供信息的提取，例如直线移动的人穿过罗马广场(广角)场景得以保持，但是混乱的快镜头(或者例如结束在附近对象上的摇摄中的场景的结尾)，比如例如叫喊的卖花人的短片断将被截去，因为它没有自然地融入(典型地当重复时其也显得令人讨厌)。并且，时间上剪辑得好的场景也可以在空间上得以处理，例如以变形(morph)、外推结构(extrapolate texture)、为流光溢彩(ambilight)环境创建信号等。典型地，如果有数个子片断，不需要分配相似的时间跨度(time span)，即它们不需要以相同的速度来显示。例如，在广场上行走的人可以实时地显示，但是卖花人的动作可以被放慢使得他与其余场景更好的融合(例如节奏合理(wise)或者放松/信息复杂度合理)，或者使得即将重复的最终版(final)剪辑得更令人愉快/放松等。本领域技术人员将理解，通过增加人工智能和使用不同的捕获的视听信号部分，能够创建源场景非常复杂的重现，例如广场中的人走新的路径(放弃其中的一些，等待更长时间直到有人走进该场景，等等)。

在本文本中公开的算法组件在实践中可(整体或部分地)实现为硬件(例如专用IC的部分)或在特殊数字信号处理器或一般处理器上运行的软件等等。

根据我们的陈述，本领域技术人员应当可以理解，哪些组件可以是可选的改进并可与其他组件结合实现，以及方法的(可选)步骤如何对应于设备的各个装置，反之亦然。在本申请中，词“设备”以其最广泛的含义被使用，即一组装置允许实现特定目标，从而可以是例如IC(的一小部分)，或者专用设备(诸如具有显示器的设备)，或者联网系统的部分等等。“装置”也意欲以最广义地被使用，所以它可以尤其包括单个设备、设备的一部分、协作设备(的部分)的集合等。

计算机程序产品名称应当被理解为包括命令集的任何物理实现，其使得普通用途处理器或特殊用途处理器能够在一系列载入步骤(可包括中间转换步骤，例如翻译为中间语言和最终处理器语言)之后将命令输入到处理器中并执行发明的任何有特性的功能。特别地，该计算机程序产品可实现为在诸如例如盘或带这样的载体上的数据、存在于存储器中的数据、通过网络连接(有线或者无线)行进的数据或者纸上的程序代码。除了程序代码，程序所需的特性数据还可以被实现为计算机程序产品。

操作方法所需的一些步骤可以已经存在于处理器的功能性中，而不是描述在计算机程序产品中，例如数据输入和输出步骤。

应当注意，上述实施例解释而不是限制本发明。其中，本领域技术人员能够容易地实现给出的实例到权利要求的其他范围的映射，为了简明我们没有深入地提出所有这些选项。除了如结合在权利要求中的本发明的元件的组合，元件的其他组合也是可能的。元件的任意组合可以在单个专用元件中得以实现。

权利要求中圆括号之间的任何附图标记不意欲限制该权利要求。词“包括”并不排除未在权利要求中列出的元件或方面的存在。在元件之前的词“一”并不排除多个这样的元件的存在。

Claims

1.一种视听信号处理装置(104，106)，其包括视听信号处理单元(104)，该视听信号处理单元(104)被设置成从控制单元(106)接收至少一个指定视听信号中信息由用户领会的复杂度的复杂度设置值(S_Inf-c)，信息的复杂度指定信息的密度和信息呈现给用户的方式，所述视听信号处理单元(104)被设置成处理该视听信号S(A，V)以通过如由所述复杂度设置值确定的那样减小或增大其信息复杂度来使该视听信号适合于用户的注意力水平，并且从该视听信号得出单个复杂度度量，该单个复杂度度量与所述复杂度设置值(S_Inf-c)一起确定需要做多少处理，其中该视听信号处理单元(104)被设置成处理所述视听信号S(A，V)的至少音频成分(A)，且所述复杂度设置值(S_Inf-c)能经由用户控制装置(122，123)接收为用户指定的值，该用户控制装置允许用户以不连续的步骤向上或向下改变所述复杂度设置值。

2.如权利要求1所述的视听信号处理装置，其中所述视听信号处理单元(104)被设置成处理所述视听信号S(A，V)的视频成分(V)以改变其复杂度。

3.如权利要求1所述的视听信号处理装置，其中所述音频处理包括以下至少一个：改变时间单位中词的数量，改变音频的特定时间部分的音量，和改变声音数据的频谱特性。

4.如权利要求1所述的视听信号处理装置，其中所述复杂度设置值(S_Inf-c)是相对复杂度值。

5.如权利要求2、3或4所述的视听信号处理装置，其中所述视听信号处理单元(104)被设置成将视频成分的不同时间部分分配给输出视频信号O(A，V)的不同空间子区域，其可用于在显示器(150)上观看。

6.如权利要求5所述的视听信号处理装置，其包括选择单元(160)，该选择单元(160)被设置成在观看者的控制下选择所述视频成分(V)的特定时间部分，并将它分配给所述输出视频信号O(A，V)的空间子区域。

7.如权利要求1-4之一所述的视听信号处理装置，其进一步包括分析单元(170)，该分析单元(170)被设置成分析所述视听信号以确定镜头间隔、场景间隔、节目间隔、报道间隔、镜头类型、场景类型或识别、节目类型或识别、报道类型中的至少一个。

8.如权利要求7所述的视听信号处理装置，其中所述分析单元(170)被设置成借助于画面的空间直方图来检测有特性的镜头。

9.如权利要求7所述的视听信号处理装置，其中所述分析单元(170)被设置成借助于有特性的说话者的识别来检测所述视听信号S(A，V)的相关部分。

10.如权利要求7所述的视听信号处理装置，其中所述分析单元(170)被设置成根据描述所述视听信号S(A，V)的不同时间子部分的元数据来处理所述视听信号S(A，V)。

11.如权利要求7所述的视听信号处理装置，其中所述分析单元(170)被设置成辨认出广告节目，并且其中所述视听信号处理单元(104)被设置成将所述广告节目转换为本质上概括的视听信号，以便与输出视频信号O(A，V)结合。

12.如权利要求8所述的视听信号处理装置，其中所述分析单元(170)被进一步设置成根据多于一天的时间间隔上的对输入的视听信号S(A，V)的分析在存储器(190)中存储有特性的镜头的识别信息。

13.如权利要求9所述的视听信号处理装置，其中所述分析单元(170)被进一步设置成在存储器中存储一组有特性的说话者的表征数据。

14.一种视听再现设备(102)，其包括用于视听信号的存储单元(192)和如以上权利要求之一所述的视听信号处理装置。

15.一种针对视听信号处理装置(104，106)的操作方法，该方法包括：

视听信号处理单元(104)从控制单元(106)接收至少一个指定视听信号中信息由用户领会的复杂度的复杂度设置值(S_Inf-c)，信息的复杂度指定信息的密度和信息呈现给用户的方式，

所述视听信号处理单元(104)处理该视听信号S(A，V)以通过如由所述复杂度设置值确定的那样减小或增大其信息复杂度而使该视听信号适合于用户的注意力水平，并且从该视听信号得出单个复杂度度量，该单个复杂度度量与复杂度设置值(S_Inf-c)一起确定需要做多少处理，其中该视听信号处理单元(104)被设置成处理所述视听信号S(A，V)的音频成分(A)和视频成分(V)中的至少一个，且所述复杂度设置值(S_Inf-c)能经由用户控制装置(122，123)接收为用户指定的值，该用户控制装置允许用户以不连续的步骤向上或向下改变所述复杂度设置值。

16.一种视听信号处理装置(104，106)，其包括视听信号处理单元(104)，该视听信号处理单元(104)被设置成从控制单元(106)接收至少一个指定视听信号中信息由用户领会的复杂度的复杂度设置值(S_Inf-c)，信息的复杂度指定信息的密度和信息呈现给用户的方式，所述视听信号处理单元(104)被设置成处理该视听信号S(A，V)以通过如由所述复杂度设置值确定的那样减小或增大其信息复杂度而使该视听信号适合于用户的注意力水平，并且从该视听信号得出单个复杂度度量，该单个复杂度度量与复杂度设置值(S_Inf-c)一起确定需要做多少处理，其中该视听信号处理单元(104)被设置成处理所述视听信号S(A，V)的至少视频成分(V)，且所述复杂度设置值(S_Inf-c)能经由用户控制装置(122，123)接收为用户指定的值，该用户控制装置允许用户以不连续的步骤向上或向下改变所述复杂度设置值。

17.如权利要求16所述的视听信号处理装置(104，106)，其中所述视听信号处理单元(104)被设置成创建输入的视听信号S(A，V)的一部分的至少一个时间部分的时间上重复的序列，由此所述视听信号处理单元(104)可被设置成将不同的时间跨度分配给所述至少一个时间部分的不同子部分。