CN107306342B

CN107306342B - 一种监视视听内容的方法和系统

Info

Publication number: CN107306342B
Application number: CN201710249498.9A
Authority: CN
Inventors: 乔纳森·迪金斯
Original assignee: Grass Valley Ltd
Current assignee: Grass Valley Ltd
Priority date: 2016-04-18
Filing date: 2017-04-17
Publication date: 2021-06-08
Anticipated expiration: 2037-04-17
Also published as: GB2556612B; US20170302989A1; GB2556612A; US10091543B2; EP3240294A1; CN107306342A

Abstract

本公开涉及监视具有字幕的视听内容。为了监视包括字幕的视听内容，字幕指纹是从字幕中的每个字的长度得到的，而不考虑形成该字的一个或多个字符的本身。搜索视听内容以识别具有匹配的指纹和缺失字幕的字幕事件；测量字幕计时错误和字幕差异。

Description

一种监视视听内容的方法和系统

技术领域

本发明涉及监视具有字幕的视听内容。

概述

在一个方面中，本发明包含一种监视包括一系列视频图像和多个字幕事件的视听内容的方法，每个字幕事件与相应的一连串连续图像相关联并且意欲与这些图像共同计时，所述方法包括下列步骤：处理字幕事件以得到字幕事件指纹；搜索视听内容以识别与所定义的字幕事件指纹相匹配的字幕事件；分析任何匹配的字幕事件；以及测量任何字幕事件错误。

在另一方面中，本发明包含一种用于监视包括一系列视频图像和多个字幕事件的视听内容的系统，每个字幕事件与相应的一连串连续图像相关联并且意欲与这些图像共同计时，所述系统包括：至少第一指纹生成器和第二指纹生成器，其在一个或多个所定义的内容处理过程的上游和下游的相应位置处在内容递送链中操作，每个指纹生成器用于处理字幕事件以得到字幕事件指纹；以及指纹处理器，其用于比较来自相应指纹生成器的字幕事件指纹，以识别匹配的字幕事件；以及测量任何字幕事件错误。

所测量的字幕事件错误可以从由缺失的字幕事件、字幕事件计时错误和字幕差异组成的组中选择。可以确定所识别的字幕事件相对于该一系列视频图像的计时。

字幕事件可以包括多个字，每个字由一个或多个字符形成，并且字幕事件指纹可以从字幕事件中的每个字的长度得到，而不考虑形成字的一个或多个字符的本身。在字幕事件包括字幕图像的情况下，字幕事件中的每个字的长度可以通过以下操作确定：分析字幕图像以识别分别对应于字幕中的字的字幕图像区域；以及确定每个这样的字幕图像区域的水平尺寸。可以分析字幕图像以识别分别对应于字幕中的字的行的字幕图像区域，并且字的长度被表示为行的长度的比例。

字的长度被表示为包含字的行的长度的比例。可选地，定义包含多个字幕事件的视听内容的测量窗口，并且字的长度被表示为从测量窗口得到的代表行长度的比例。代表行长度可以是测量窗口中的平均行长度或测量窗口中的代表行(例如最长行、具有最大数量的字的行或在时间上最接近的行)的长度。

在优选的布置中，不能从字幕事件指纹得到字幕事件的文本。

在一些布置中，多个所测量的字幕事件错误被组合以产生指示字幕是否可接受的标志。

附图说明

现在将通过示例的方式参考附图来描述本发明，其中：

图1是示出跨越广播链的部分的字幕监视的图。

图2是示出搜索以识别匹配字幕的图。

图3给出了在广播链中的不同阶段的字幕的例子。

图4是说明字幕图像分析的图。

图5示出了在两个基于文本的字幕指纹之间的字幕匹配。

图6示出了在基于文本和基于图像的字幕指纹之间的字幕匹配。

具体实施方式

本发明的实施例提供了对源自广播链中的不同点的视频字幕的匹配，用于检查其完整性、绝对延迟和相对于视频的延迟变化以及用于测量错误的目的。

与都涉及固定的采样率(尽管在各种标准中)的视频和音频不同，字幕本质上是非周期性的。字幕通常将与一串视频图像相关联，串在长度上从字幕到字幕不等。这意味着将字幕数据的两个源相关联的任务与使视频和或音频相关联的任务是完全不同的。

字幕错误可以采取各种形式。字幕可能会缺失；可能会有计时错误或其他字幕差异。可能存在许多质的差异，单独地或组合地降低“用户体验”。缺失的字幕事件、字符错误、在白色空间、颜色、位置或显示时间差异中的差异都是相关的，但每个的重要性可能是主观的。将这些组合成反映字幕信道是否以可接受的质量被输送的分数将是非常有用的。本公开提供了对这样的品质分数作出贡献所必需的基本的基础测量，并做出关于更一般的主观测量的一些建议。

另一个问题是，字幕可以以多种不同的格式存在——其中一些不容易比较。因此，基于特定传输协议或封装器的匹配方法是不期望的。存在相当多的字幕格式，但它们广泛地在两个类别中出现；它们可以是基于文本的或基于图像的。比较这两种类型是一个挑战：例如验证Freeview广播的结尾包含DVB字幕，这些DVB字幕对照从中得到它们的原始文本规范被恰当地计时。原理上，可以通过首先在解决文本匹配问题之前使用光学字符识别(OCR)从图像中提取文本来处理这种类型的比较。存在可以使用的公认的OCR算法。但是，本质上存在处理开销——分析以提取字符并对照已知字典纠正错误，涉及相当大的努力。(它当然提供了字典查找和语言检测和更高级分析的途径，但是要付出代价)。

实现消除对OCR的需要的文本比较和图像/文本匹配的解决方案在许多情况下将是有利的。

如上所述，存在各种各样的字幕格式。这些在传送系统(传统广播、互联网、DVD、蓝光、影院等)之间不同且在地域之间也不同。例如，英国Freeview广播携带基于图像的DVB字幕，而美国的字幕则以基于文本的EIA-608或CEA-708格式进行播出，而在欧洲，正在使用基于文本的 OP-47标准。

DVB标准(EN 300-743)定义了位图字幕格式，这允许更大的灵活性 (例如，使非字母语言(例如阿拉伯语或日语)能够被携带)，但显然是以更大的带宽成本。区域2DVD在DVD的VOB文件中携带基于图像的字幕。区域1DVD通常包含从图片边缘可决定的EIA-608数据。Blu-ray m2ts格式支持被称为PGS(PresentationGraphic Stream演示图形流)的基于图像的类型，PGS是位图。对于互联网传送，再次存在多个标准，并且包括基于文本和/或图像的类型。同步多媒体集成语言(SMIL)支持图像和文本(尽管它不仅仅支持字幕)，而计时文本标记语言(TTML)是用于将电视内容互联网的创作和转码标准。

在整个广播系统或其他内容传送系统中，能够自动地测量和报告隐藏式字幕相对于与其相关联的视频的完整性和计时一致性将是有利的。

在一些实施方式中，这是借助于现有的视听指纹和相关技术通过引入携带具有到视频指纹(即时间码或帧计数)的已知时间链接的字幕的附加指纹分量(或单独的数据信道)来进行的。基本思想如在图1所示的简化图中所描绘的。这建立于口型同步技术上，但在字幕和视频之间，而不是在音频和视频之间。它与口型同步技术的关于下面的事实也不同：音频和视频是连续的，而隐藏式字幕在本质上是内在地不规则的，这取决于内容。

图1是从服务器10开始的广播系统信号路径的简单表示，服务器10 向观众播出AV内容，其中一个观众示意性地示出为20。一般化的信号处理操作在30处显示。

在信号路径的测试部分上的适当位置处，插入两个或更多个指纹生成器。这些在图1中由布置在信号处理操作30的相对侧上的指纹器A和指纹器B表示。每个指纹生成器产生：

·视频指纹数据

·音频指纹数据

·字幕数据

视频指纹数据和音频指纹数据可以以各种已知的方式产生。参考例如 WO 2009/104022，其提供视频和音频签名生成技术的例子。

视频指纹、音频指纹和字幕数据通过任何方便的手段(例如IP网络) 被提供给指纹比较单元40。这可进行：

·视频比较

·音频相关和相对延迟(相对于视频)

·字幕相关和相对延迟(相对于视频)

在下文中，将注意力集中在字幕数据的生成以及字幕数据与(通常) 视频指纹数据的比较上。

字幕数据

在SDI领域中，隐藏式字幕通常被携带在与视频固有地关联的辅助数据中。但是它可以被提取，处理或修改和重新插入——例如通过电视标准转换器。由于这个原因，当信号通过广播链传播时，可以引入对视频的计时更改。感兴趣的点是，在处理级联中的给定点处(通常接近结束)，字幕相对于视频的计时是否相同，与字幕的原始时间对齐(即，内容创作者所预期的内容)是否相似或不同。

在现代广播设置中，字幕通常在分发给消费者之前在链期间转换为图像，MPEG传输流携带基于图像的字幕(并显示时间)，但它们也可以包含基于文本的字幕。用于测量和报告字幕存在、延迟和抖动的优选布置将在不考虑字幕载体格式(即，不知道文本或图像)的情况下进行操作，使得字幕计时错误的基本问题是相同的，而不论什么格式存在于参考点处。

嵌入在视频场中的原始隐藏字幕数据字节(例如EIA-608，“第21行”字幕)的比较是麻烦的，不仅仅是因为字幕修改或计时变化通常不仅仅将原始数据流向前或向后移动——即不是简单的n字节延迟。

为了测量字幕计时(延迟和抖动)，原始流就所涉及的文本串来说被解码，并且它们开始和停止的帧被显示在屏幕上。图2说明了基本方法。 (这是一个简单的表示——实际上，原始字幕流需要被缓冲，以便解释原始数据和对文本行解码。换句话说，这里明显存在因果关系——但图2说明了要点。)

这里的蓝色(顶部)和橙色(底部)矩形表示文本行(而不是字)。该比较涉及从在给定的时间测量窗口中的一个流(图中的流1)中的每个字幕事件中取出每行，并将其与在包括相同的测量窗口的范围加上和减去检测区域内的另一个流中的每个字幕事件中的每一行进行比较。

给定的字幕可能是起始和停止时间码和多行文本，且在此分析中，每一行都构成单独的事件。想法是将字幕数据解码为适当的表示(例如类似于Subrip(.srt))，并将文本行视为事件。例如，srt规范；

1

00:00:44,581-->00:00:46,556

(简单的调节)

2

00:00:53,381-->00:00:55,356

Ha-ha-ha.

3

00:00:55,381-->00:00:57,636

Very good.So？Are you confident？

4

00:00:57,661-->00:01:00,276

She’s gonna smash it,aren’t you,

babes？Bring it on！

包含携带单行文本的三个字幕——三个事件。第四个字幕涉及两行——所以两个事件(但具有相同的开始/停止时间)。

对于匹配的每个事件行，可以从通过比较在显示时间中的差异来推断延迟值。这些可能是场编号或时间码。这些不需要一定是绝对时间参考——只是在流1中在流1中的哪个场上定义流1的字幕事件开始和停止的索引。与流2类似，在流1和2之间的视频指纹的相关性确定哪些场是对应的(不管时间码)。该匹配然后构成允许比较字幕事件开始/停止时间的相对计时的参考。

上述字幕事件行匹配为测量窗口中的每个字幕事件的每一行提供计时测量。行和事件的数量都是内容相关的，并且取决于窗口大小的选择，但是具有+/-10秒的检测范围的比如4秒的窗口大小与音频和视频媒体匹配和口型同步测量相称，并且通常这样的选择将导致0-6个字幕行被匹配。

对于音频和视频，延迟误差通常是准静态的(眼睛和耳朵对抖动非常敏感，因此系统对延迟一致性一般是严格的)。这对字幕来说不一定是正确的，这可能展示抖动。针对各个字幕行描述的测量提供了在固定(准静态)延迟和存在的任何抖动方面测量(并因此报告)字幕计时的手段。

对于文本字幕(例如EIA-608、EIA-708或OP-47)，行的匹配可以使用已知的文本——文本相关技术来完成。

基于图像和文字的字幕的比较不太简单。事实上，甚至在一个源中的图像字幕与另一个来源中的图像字幕的比较也不简单，如在图3中的例子所示的。在图3中，示出了来自广播输出的实际字幕，广播输出本质上是相同的AV内容(一段情节的节目的同一集)，而在不同信道上的不同时间被广播。在这种情况下，可以看到，简单地比较例如位图头部或图像校验将不会有帮助，两个字幕图像已经在传递链期间被转换为单个字幕图像。

如上所述，通过OCR从图像中提取文本，接着通过如上一节所述的文本——文本相关性，是明显进步的方式。

本发明的优选实施方式提供了可选的策略，其通过从字幕事件中的每个字的长度得到字幕指纹而不考虑形成字的一个或多个字符的本身来避免完整OCR的处理的复杂性。在这里描述的例子中，相关性基于文字长度作为它们出现于的文本行的比例，使用这些作为用于匹配的基本“原子”单位。

在该描述的例子中，“字长”不仅仅意味着每个字中的字符数(尽管这是一个重要因素)，而是字如所显示的占据的长度。例如，“WARMER”是 6个字符长，但如所显示的长于也是6个字符长的“LIVING”。虽然显示长度确实因字体而异，但相对字长通常是相似的。

例如通过使用基于字体平均数的预先计算的查找表可容易确定基于文本字幕的显示长度。基于图像的字幕的显示长度可以通过与OCR技术的常用初始步骤相似的一系列步骤来确定，但是要简单得多，并且涉及的处理工作要少得多。没有必要执行完整的OCR来从字幕图像获取字长。

在一个例子中，使用以下步骤恢复在基于图像的字幕中的字的长度：

1.将所有输入图像转换为黑低白色(将输入灰度二进制化，对黑/白比例计数，且如果需要则反转图像)。

2.将二进制化的图像的排求和，并根据占用的排查找每个文本行的起始/停止图像排。这确定了图像中的文本行数，以及每个文本行的像素开始 /停止排。

3.低通滤波输入图像。

4.通过在相邻行之间的梯度估计来估计斜体斜向(例如：1D Lucas-Kanade型方法)-使用预滤波图像。

5.对输入(未过滤)的图像插值以校正斜体斜向，并对结果进行二进制化。

6.对在检测到的开始/停止图像排之间的倾斜校正图像中的每个文本行的列求和，以生成水平直方图。

7.水平直方图中连续未占用的仓(bin)的直方图长度，以生成“间隙直方图”。

8.检测间隙直方图中的最大值(这是初始字符间间距估计)。

9.从最大值，增加仓以检测未占用的仓。从该仓向上检测第一个占用的仓。这是字间间距的低端估计。

10.检测间隙直方图中的最大占用的仓——这是字间间距的上端估计。

11.从初始字符间间距估计以及下端和上端字间间距估计，形成用于区分开字符间间距和字间间距的阈值。

12.然后重新测试每行的水平直方图，以确定哪些间隙(连续未占用的仓)对应于字母间隙，以及哪些间隙对应于字间隙。该测试还给出了在检测到的行中的字母和字的像素开始/停止位置。

图4示出了应用于包含两行的字幕图像的这些步骤。输入图像在4(A) 处示出。在图像的右侧还显示了用于检测行开始/停止排的二进制化输入图像的排直方图。图4在4(B)处显示了识别的字矩形。检测到的字被显示为覆盖在输入图像的倾斜校正版本上。图4还在4(C)显示了所识别的字符矩形。实验揭露，字比字母更容易可靠地确定，且在本公开中提出的匹配的主要基础是字。字母在这里只是一个兴趣点。(字母可以合并，字可以分割(或合并)。这些是在完全成熟的OCR中的众所周知的障碍。)在4 (D)示出过滤的输入图像(亮度(反转)3×3盒滤波器)，其可用于斜率估计。在4(E)示出行直方图(line histograms)(在检测到的行停止/起始排之间的[在斜体字校正后的输入图像的(未滤波的，反转的)亮度的]列和)。

从每行确定了字矩形后，该行于是由一组百分比来表征，该组百分比表示每个字相对于字矩形长度的总和的百分比。

在匹配阶段，对于所处理的每个视频场，在一个流的测量窗口中的每个字幕事件(行)对照在包括同一测量窗口的范围加上和减去指定的检测范围上的另一个流中的每个字幕事件(行)被作为匹配进行测试，如图2 所示。对于A和B两行，它们之间的匹配由下式确定：

其中

是以像素计的在行A中的第k个字的长度，并且

是以像素计的在行B中的第k个字。(单位是像素，无论字幕是源自图像还是文本：在图像的情况下，字宽如上所述通过简化的图像分析来确定。如果字幕源于文本，则字宽根据平均字体显示宽度的查找表确定)。

匹配只寻找具有大于1个字的行，并且仅在其间具有相同数量的字的行之间进行比较。对于在测量窗口中的每个事件，选择最佳M_A,B匹配值——这实际上是匹配置信度——且如果它大于指定的接受阈值τ则被接受。对于每个匹配，计算相应的延迟值。在检测窗口内的匹配的事件的收集则允许计算出平均置信度和平均延迟(且当然还有其他测量，如最小值和最大值)。在测量窗口中的字幕的数量、匹配事件的数量和不匹配事件数量的记录也被做出。

从A到B以及从B到A进行匹配，因为这些不一定是对称的。例如，如果某些事件从一个信道丢失，这可能仍然指示与另一信道的良好匹配，但不是反之亦然。

图5在下面显示了两个基于文本的字幕指纹之间的字幕匹配的例子。这些对应于从2015年12月1日起BBC的“Eastenders”的同一集的两个不同的Freeview广播。一个来自BBC1在晚上七时三十分的广播，另一个是在晚上10点在BBC3的同一集的重播。当然，原始广播涉及DVB位图字幕而不是文本，且在这里匹配基于文本的字幕的声明涉及传输流已被解码以及非实时OCR工具用于以.srt格式恢复文本，然后使用.srt作为输入进行指纹识别。

图5显示了具有在顶部处的匹配置信度、在中心图中的延迟值和在底部处的测量窗口中的字幕事件数的流1-2的匹配，反之亦然。在此例子中，测量窗口为8秒宽，检测范围为+/-10秒，且峰值接受阈值为τ＝0.95。在它们之间的轻微x轴位移是在指纹之间存在小的延迟的一个方面，这也反映在2-1匹配报告延迟大约-60ms的事实中，而2-1匹配报告延迟大约+60ms。 (注：视场率为50Hz，从而场周期为20ms。在图5所示的延迟中看起来出现了较小波动，因为从字幕图像的传输流解码的显示时间例如00:00:53,381 (小时、分钟、秒、毫秒)本质上包含较小的错误(且仅仅被再现到最近的场)，或者不由用于提取它们的分析工具使用严格准确的时间戳来解码。

注意，一些间隙确实出现，其中没有字幕被指定时的时期。

图6显示了关于相同的两个广播的相应的一组曲线，但其中匹配是在 BBC1广播上的基于文本的字幕与在BBC3广播上的DVB图像字幕之间。

这里的匹配置信度是上面定义的M_A,B的平均值，且尽管这略小于1.0 (即略小于图5中的相应曲线或文本-文本匹配)，但它非常接近。这是可以理解的，文本——图像匹配是一个更难的问题，且仍然是一个可行的比较。即使图像分析步骤正确地识别正确的字矩形，在一些情况下由于图像的字体是未知的，由文本字符查找预测的百分比字宽度有时可能略有不匹配。此外，在这种情况下有更多的间隙，其在字幕行仅包含一个字时就出现。

存在许多简单的技术，这可通过进行测量窗口事件的第二次——一旦多字行的匹配已经完成——通过这些技术来改进，由此，根据在测量窗口中平均行长度或最长的行或具有最大数量的字或在时间上最接近的行的百分比来测量(并匹配)单字事件的宽度。

如果希望通过质的差异监视“用户体验”并且报告字幕信道是否以可接受的质量被递送，则与文本-文本匹配和文本-图像匹配一起出现的间隙可能是相关的。当没有匹配出现时——因为没有字幕事件(其在图5和图6 中发生了几次)——这不是系统性的故障。类似地，对人类来说，字幕外观方面一个或两个场的延迟可能不是一个大问题。

执行字幕的“不可知”匹配后，下一个任务是将结果映射到可接受(有用的)报告度量内。过滤匹配结果的一种方法是合并状态机。撇开关于启动条件的潜在问题，基本策略是在字幕被匹配时报告“好”，假定延迟在某个用户指定的阈值内。当字幕匹配返回无匹配时，启动时间计数器，其在没有匹配被找到的每个随后的场时递增。如果遇到匹配，则计数器设置为零，否则，如果计数器达到指定限制(例如30秒)(且输入指纹确实包含字幕事件)，则“失败”被标记。

附加的状态机输入可以包括：不匹配事件的数量、文本颜色、文本屏幕位置，以及在基于文本的匹配的情况下的字符错误和白空间差异。这些数据中的每个都提供了关于字幕匹配良好度的另外的信息。

已经公开了一种用于匹配字幕流以确定相对于与它们相关联的视频的等效性和延迟的自动的、格式无关的方法。根据它们的性质，事件匹配是零星发生的，因此可以使用状态机来过滤结果并生成简单而有意义的输出标志。

应理解，本发明仅是通过作为例子的方式进行描述的。因此，除了上述方式之外，将会有处理字幕事件以得到字幕事件指纹的其他方式。优选地，处理使得不能从字幕事件指纹得到字幕事件的文本。在优选的布置中，字幕事件指纹是从字幕事件中的每个字的长度得到的，而不考虑形成字的一个或多个字符的本身。在字幕事件包括字幕图像的情况下，可以通过分析字幕图像以识别分别对应于字幕中的字的图像区域并测量每个图像区域的水平尺寸来以各种方式确定在字幕事件中的每个字的长度。图像区域通常分别对应于字幕中的字的行，并且字的长度被表示为行的长度的比例。

在下文的一个或多个实施方案中可实现本公开的各方面。

1)一种监视视听内容的方法，所述视听内容包括一系列视频图像和多个字幕事件，每个字幕事件与相应的一连串连续图像相关联并且意欲与所述一连串连续图像共同计时，所述方法包括下列步骤：

处理字幕事件以得到字幕事件指纹；

搜索视听内容以识别与所定义的字幕事件指纹相匹配的字幕事件；

分析任何匹配的字幕事件；以及

测量任何字幕事件错误。

2)根据1)所述的方法，其中所测量的字幕事件错误选自包括以下项的组：缺失的字幕事件、字幕事件计时错误和字幕差异。

3)根据1)-2)中的任一项所述的方法，其中所述字幕事件包括多个字，每个字由一个或多个字符形成，其中所述字幕事件指纹是从所述字幕事件中的每个字的长度得到的，而不考虑形成所述字的一个或多个字符的本身。

4)根据3)所述的方法，其中所述字幕事件包括字幕图像，其中通过分析所述字幕图像以识别分别对应于字幕中的字的字幕图像区域并确定每个这样的字幕图像区域的水平尺寸来确定所述字幕事件中的每个字的长度。

5)根据3)所述的方法，其中所述字幕图像被分析以识别分别对应于所述字幕中的字的行的字幕图像区域，并且字的长度被表示为行的长度的比例，优选地，其中字的长度被表示为包含所述字的行的长度的比例。

6)根据5)所述的方法，其中包含多个字幕事件的视听内容的测量窗口被定义，并且字的长度被表示为从所述测量窗口得到的代表行长度的比例，优选地，其中所述代表行长度是在所述测量窗口中的平均行长度或在所述测量窗口中的代表行的长度，所述代表行优选地被选择为最长行、具有最大数量的字的行或在时间上最接近的行。

7)一种用于监视视听内容的系统，所述视听内容包括一系列视频图像和多个字幕事件，每个字幕事件与相应的一连串连续图像相关联并且意欲与所述一连串连续图像共同计时，所述系统包括：

至少第一指纹生成器和第二指纹生成器，其在一个或多个所定义的内容处理过程的上游和下游的相应位置处在内容递送链中操作，每个指纹生成器用于处理字幕事件以得到字幕事件指纹；以及

指纹处理器，其用于比较来自相应指纹生成器的字幕事件指纹，以识别匹配的字幕事件；以及测量任何字幕事件错误。

8)根据7)所述的系统，其中所测量的字幕事件错误选自包括以下项的组：缺失的字幕事件、字幕事件计时错误和字幕差异。

9)根据7)所述的系统，每个指纹生成器用于记录所述字幕事件的计时，并且所述指纹处理器用于确定每个所匹配的字幕事件相对于所述一系列视频图像的计时。

10)根据7)至9)中的任一项所述的系统，其中所述字幕事件包括多个字，每个字由一个或多个字符形成，其中所述字幕事件指纹是从所述字幕事件中的每个字的长度得到的，而不考虑形成所述字的一个或多个字符的本身。

11)根据10)所述的系统，其中所述字幕事件包括字幕图像，其中所述字幕事件中的每个字的长度是通过下列操作来确定的：

分析所述字幕图像以识别分别对应于字幕中的字的字幕图像区域；以及

确定每个这样的字幕图像区域的水平尺寸。

12)根据10)所述的系统，其中所述字幕图像被分析以识别分别对应于所述字幕中的字的行的字幕图像区域，并且字的长度被表示为行的长度的比例，优选地，其中字的长度被表示为包含所述字的行的长度的比例。

13)根据12)所述的系统，其中包含多个字幕事件的视听内容的测量窗口被定义，并且字的长度被表示为从所述测量窗口得到的代表行长度的比例。

14)根据13)所述的系统，其中所述代表行长度是在所述测量窗口中的平均行长度或在所述测量窗口中例如最长行、具有最大数量的字的行或在时间上最接近的行的代表行的长度。

15)根据7)所述的系统，其中多个所测量的字幕事件错误被组合以产生指示字幕是否可接受的标志。

Claims

1.一种监视视听内容的方法，所述视听内容包括一系列视频图像和多个字幕事件，每个字幕事件与相应的一连串连续图像相关联并且意欲与所述一连串连续图像共同计时，所述方法包括下列步骤：

处理字幕事件以得到字幕事件指纹；

搜索视听内容以识别与从所述字幕事件得到的所述字幕事件指纹相匹配的字幕事件；

分析所识别的与所述字幕事件指纹相匹配的字幕事件；以及

测量字幕事件错误；

其中，所述字幕事件是基于图像的字幕或者基于文本的字幕，并且所述字幕事件包括多个字，每个字由一个或多个字符形成，其中所述字幕事件指纹是从所述字幕事件中的每个字的长度得到的，并且

其中，每个字的所述长度由以下之一确定：所述基于图像的字幕中相应字的文本行中的像素的开始和停止位置，或者所述基于文本的字幕中相应字的字符数，并且每个字的所述长度是不考虑形成所述字的一个或多个字符的本身而确定的。

2.根据权利要求1所述的方法，其中所测量的字幕事件错误选自包括以下项的组：缺失的字幕事件、字幕事件计时错误和字幕差异。

3.根据权利要求1所述的方法，其中所述字幕事件包括字幕图像，其中通过分析所述字幕图像以识别分别对应于字幕中的字的字幕图像区域并确定每个这样的字幕图像区域的水平尺寸来确定所述字幕事件中的每个字的长度，以确定在所述文本行中所述像素的开始和停止位置。

4.根据权利要求3所述的方法，其中所述字幕图像被分析以识别分别对应于所述字幕中的字的行的字幕图像区域，并且字的长度被表示为行的长度的比例。

5.根据权利要求4所述的方法，其中字的长度被表示为包含所述字的行的长度的比例。

6.根据权利要求4所述的方法，还包括定义包含多个字幕事件的视听内容的测量窗口，并且字的长度被表示为从所述测量窗口得到的代表行长度的比例。

7.根据权利要求6所述的方法，其中所述代表行长度是在所述测量窗口中的平均行长度或在所述测量窗口中的代表行的长度。

8.根据权利要求7所述的方法，其中所述代表行被选择为最长行、具有最大数量的字的行或在时间上最接近的行。

9.一种用于监视视听内容的系统，所述视听内容包括一系列视频图像和多个字幕事件，每个字幕事件与相应的一连串连续图像相关联并且意欲与所述一连串连续图像共同计时，所述系统包括：

指纹处理器，其用于比较来自相应指纹生成器的字幕事件指纹，以识别与所述字幕事件指纹相匹配的字幕事件；以及测量字幕事件错误；

10.根据权利要求9所述的系统，其中所测量的字幕事件错误选自包括以下项的组：缺失的字幕事件、字幕事件计时错误和字幕差异。

11.根据权利要求9所述的系统，其中每个指纹生成器配置成记录所述字幕事件的计时，并且所述指纹处理器配置成确定每个所匹配的字幕事件相对于所述一系列视频图像的计时。

12.根据权利要求11所述的系统，其中所述字幕事件包括字幕图像，其中所述字幕事件中的每个字的长度是通过下列操作来确定的：

确定每个这样的字幕图像区域的水平尺寸，以确定在所述文本行中所述像素的开始和停止位置。

13.根据权利要求12所述的系统，其中所述字幕图像被分析以识别分别对应于所述字幕中的字的行的字幕图像区域，并且字的长度被表示为行的长度的比例。

14.根据权利要求13所述的系统，其中字的长度被表示为包含所述字的行的长度的比例。

15.根据权利要求13所述的系统，其中包含多个字幕事件的视听内容的测量窗口被定义，并且字的长度被表示为从所述测量窗口得到的代表行长度的比例。

16.根据权利要求15所述的系统，其中所述代表行长度是在所述测量窗口中的平均行长度或在所述测量窗口中的代表行的长度。

17.根据权利要求16所述的系统，其中在所述测量窗口中的所述代表行是最长行、具有最大数量的字的行或在时间上最接近的行。

18.根据权利要求9所述的系统，其中多个所测量的字幕事件错误被组合以产生指示字幕是否可接受的标志。