CN101727951B

CN101727951B - 一种自动更改字幕播放时间的方法和装置

Info

Publication number: CN101727951B
Application number: CN 200910241285
Authority: CN
Inventors: 尹卓
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2009-11-27
Filing date: 2009-11-27
Publication date: 2013-01-30
Anticipated expiration: 2029-11-27
Also published as: CN101727951A

Abstract

本发明公开了一种自动更改字幕播放时间的方法和装置，所述方法包括：收集资源的字幕时间信息；对所有该资源所在的聚类所对应字幕时间信息中的时间信息进行计算，利用该计算结果修正字幕播放时间；将所述聚类中所有资源播放字幕的时间对应为修正后的字幕播放时间。应用本发明，不但解决了字幕与歌曲不同步的问题，而且还具有成本低，纠错效率高、时效性强，持续性长等优点。

Description

一种自动更改字幕播放时间的方法和装置

技术领域

本发明涉及数据处理技术领域，特别涉及一种自动更改字幕播放时间的方法和装置。

背景技术

目前，互联网上有很多试听媒体资源，通过一些播放器及播放页面，互联网上的音频视频资源能够实现同步播放，即，在播放歌曲的同时同步播放该句歌曲所对应的歌词。

能够实现上述播放方式的歌词，通常是一种具有特殊格式的歌词——格式歌词(LRC)，所谓格式歌词是一种具有时间标记的歌词数据，即第N行歌词应该在第M秒展现出来，当然，也可以精确到令歌词的每个字在哪个时刻展现出来，最常见的有应用于卡拉OK的滚动歌词等等。

播放歌曲与歌词同步的过程是由程序控制的，即将当前的播放时间与LRC歌词的时间对应起来。

为了方便说明本发明，下面先介绍几个概念：

媒体资源内容，通常，一个媒体资源内容本身存在两部分信息，标识信息和数据实体，标识信息起到标签的作用，如记录歌名、歌手、比特率等等，该标识信息可以作为信息头也可以作为信息尾；数据实体即是实际播放的媒体信息，播放器通过对数据的解析可以实现播放。

资源，可以被理解为一个链接(link)，此时期是指在互联网上的统一资源定位符(URL)地址；其还可以被理解为通过地址可以进行播放的音频、视频等文件。一个音频、视频文件通常对应多个URL地址。

文本组，对标识信息描述相同的一组数据，如存在信息A和信息B所描述的歌名、歌手都是“小城故事”、“邓丽君”，那么，信息A和信息B就属于同一个文本组。

由上述关系可知，一个文本组是标识信息相同的一组数据，但是，这些标识信息虽然相同，但其所对应的媒体资源内容却很可能不同。比如，标识信息同为“小城故事”、“邓丽君”，但有的是MP3格式的，有的则可能是wma格式的。

在现有技术中，不同的商家或音乐爱好者对音乐文件的制作方式不同，如，压制方式不同，或者，为了自身的需要抹掉了一部分数据，这样，很可能出现这种情况：原来在开始后10秒开始播放的歌词变为应该在开始后6秒开始播放，而歌词本身是不能获知具体什么时候开始播放的，而是仍按照原来已设定的时间标记进行播放，进而导致歌词的播放时间与原歌曲不同步，如，可能造成提前或错后播放歌词字幕。

发明内容

本发明实施例在于提供一种自动更改字幕播放时间的方法和装置，以解决音乐文件在被通过不同的方式制作后，字幕与歌曲不同步的问题。

本发明实施例提供了一种自动更改字幕播放时间的方法，包括：

收集资源的字幕时间信息；

对该资源所在的聚类所对应字幕时间信息中所有的时间信息进行计算，利用计算结果修正字幕播放时间；

将所述聚类中所有资源播放字幕的时间对应为修正后的字幕播放时间。

其中，所述收集到的字幕时间信息来源于终端，所述字幕时间信息中包括时间信息。

其中，所述收集到的字幕时间信息来源于网络侧；所述字幕时间信息中包括时间信息。

其中，所述时间信息为字幕播放时间或字幕调整时间。

其中，所述方法进一步包括：将所收集到的字幕播放时间保存到时间数据库。

其中，所述收集到资源的字幕时间信息之后，还包括：

判断所述字幕时间信息中的时间信息是否为噪声数据，若是则丢弃，否则保存该字幕播放时间。

其中，判断字幕时间信息是否为噪声数据的方式包括：

判断所述字幕时间信息是否来自于位于黑名单中的设备标识，若是，则判定所述收集到的字幕时间信息为噪声数据，

和/或，

判断所述字幕时间信息中的时间信息是否大于已设置的调整量阈值，若是，则判定所述收集到的字幕时间信息为噪声数据，否则判定为非噪声数据。

其中，对该资源所在的聚类所对应所有的时间信息进行计算之前，还包括：

判断当前已保存的针对同一聚类的时间信息的个数是否大于等于已设置的计算阈值，若是，再对该资源所在的聚类所对应所有的时间信息进行计算，否则，重复执行当前的判断操作。

其中，所述字幕时间信息中还包括资源识别参数；

对该资源所在的聚类所对应所有的时间信息进行计算，利用计算结果修正字幕播放时间的步骤包括：

根据所述字幕时间信息中的资源识别参数获得该资源所在的聚类；

获取所在的聚类所对应所有的时间信息；

对所述所有的时间信息按照预设策略进行计算，利用计算结果修正字幕播放时间。

其中，所述按照预设策略进行计算得到的计算结果是时间偏移量或修正后的结果时间。

其中，如果所述按照预设策略进行计算得到的计算结果是时间偏移量，则利用该计算结果修正字幕播放时间的步骤包括：

应用当前计算出的时间偏移量与该聚类所对应的历史时间偏移量相加，获得最终的字幕播放时间偏移量；

用该最终的字幕播放时间偏移量来修正字幕播放时间。

其中，所述方法还包括：将所述修正后的字幕播放时间保存到时间数据库，且所述修正后的字幕播放时间与其所对应的聚类和/或资源识别参数关联保存；

将所述聚类中所有资源播放字幕的时间对应为修正后的字幕播放时间的步骤包括：

根据所述字幕时间信息中的资源识别参数获得该字幕时间信息所指示的聚类；

从所述时间数据库中获取该聚类所对应的修正后的字幕播放时间；

将所述聚类所对应字幕整体提前或延后至所述修正后的字幕播放时间。

其中，所述方法还包括：将所述修正后的字幕播放时间保存到时间数据库，且所述修正后的字幕播放时间与其所对应的聚类中的词句、及资源识别参数关联保存；

将聚类中所有资源播放字幕的时间调整为修正后的字幕播放时间的步骤包括：

从所述时间数据库中获取该聚类中的词句所对应的修正后的字幕播放时间；

将所述聚类所对应词句提前或延后至所述修正后的字幕播放时间。

其中，所述字幕时间信息中的资源识别参数包括：资源的大小(Size)、资源的后缀名(postfix)和资源的比特率(bitrate)。

其中，所述字幕时间信息中的资源识别参数还包括：资源的时长(duration)。

本发明实施例还提供了一种自动更改字幕播放时间的装置，包括：

收集单元，用于收集资源的字幕时间信息；

计算单元，用于对所有该资源所在的聚类所对应的字幕时间信息中的时间信息进行计算，利用计算结果修正字幕播放时间；

调整单元，用于将所述聚类中所有资源播放字幕的时间对应为修正后的字幕播放时间。

其中，所述装置还包括：

噪声识别单元，用于判断所述字幕时间信息中的时间信息为噪声数据时，丢弃所收集到的数据，判断所述时间信息为非噪声数据时再通知计算单元进行计算。

其中，所述装置还包括：

计算启动单元，用于判断当前针对同一聚类的时间信息的个数是否大于等于已设置的计算阈值，若是，再通知计算单元开始计算，否则，重复执行当前的判断操作。

其中，所述字幕时间信息中还包括资源识别参数；

所述计算单元包括：

聚类获取单元，用于根据所述字幕时间信息中的资源识别参数获得该资源所在的聚类；

时间信息获取单元，获取所在的聚类所对应所有的时间信息；

计算子单元，用于对所述所有的时间信息按照预设策略进行计算，利用该计算结果修正字幕播放时间。

其中，所述装置还包括：

时间数据库，用于保存所述修正后的字幕播放时间，且所述修正后的字幕播放时间与其所对应的聚类和/或资源识别参数关联保存；

所述调整单元包括：

第一获取子单元，用于根据所述字幕时间信息中的资源识别参数获得该字幕时间信息所指示的聚类；从所述时间数据库中获取该聚类所对应的修正后的字幕播放时间；

第一调整子单元，用于将所述聚类所对应字幕整体提前或延后至所述修正后的字幕播放时间。

其中，所述装置还包括：

时间数据库，用于保存所述修正后的字幕播放时间，且所述修正后的字幕播放时间与其所对应的聚类中的词句、及资源识别参数关联保存；

所述调整单元包括：

第二获取子单元，用于根据所述字幕时间信息中的资源识别参数获得该字幕时间信息所指示的聚类；从所述时间数据库中获取该聚类中的词句所对应的修正后的字幕播放时间；

第二调整子单元，用于将所述聚类所对应词句提前或延后至所述修正后的字幕播放时间。

其中，所述收集资源的字幕时间信息中包括时间信息，所述时间信息为修正后的结果字幕播放时间或字幕调整时间。

应用本发明实施例提供的自动更改字幕播放时间的方法和装置，不但解决了字幕与歌曲不同步的问题，而且至少还具有以下优点：

不需要人为生产出多份冗余数据就可实现自动更新，减少了实现成本。

在不需要人为干预的情况下，能够纠正大量错误信息，提高了纠错的效率；再有，对于一些热门的歌曲，纠错的反馈量会比较大，也比较及时，通过本发明提供的实现方案，可以快速的纠正错误，使下一位用户受益，从而极大地提高了纠错的时效性。

由于音像制品的特点是持续、不间断的发布，而变种(压缩、改变)的资源也是层出不穷，而本发明的优势就在于对这类数据具有持续性纠正的能力。

此外，本发明实施例所提供的自动更改字幕播放时间的方法是针对一个聚类的，这意味着，当一个资源所对应的字幕被调整后，这个资源所属聚类的字幕也就被调整了；相应的，对这个聚类中任何一个资源的反馈，都可以认为是对这个聚类的某个资源的反馈，可以直接参考计算，进而放大了的纠正面积以及收集面积。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的自动更改字幕播放时间的方法流程图；

图2是根据本发明实施例的一较佳实施例的流程图；

图3是根据本发明实施例的自动更改格式歌词播放时间的系统结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是根据本发明实施例的一种自动更改格式歌词播放时间的方法流程图，具体包括步骤如下：

步骤101，收集资源的字幕时间信息；

上述字幕时间信息包括时间信息，还可以包括资源识别参数；其中，时间信息为字幕播放时间或字幕调整时间；资源识别参数包括：资源的大小(Size)、资源的后缀名(postfix)和资源的比特率(bitrate)，还可以包括资源的时长(duration)。根据资源识别参数即可得到与之匹配的聚类。

通常，在试听页面的歌词同步功能中，会有用于调整歌词时间的时间轴调整工具，一般的，可以通过拖拽或加减时间的方式实现对歌词时间轴的调整。当用户发现歌词的时间轴与歌曲不同步时，会有部分用户尝试修正，即通过拖拽或加减时间的方式实现对歌词时间轴的调整，以使歌词与歌曲同步。也就是说，所收集的字幕时间信息可以来源于用户终端。

需要说明的是，还有可能的情况是，用户没有对歌词时间进行修改，完全认可现在的播放时间，还有可能的情况是，网上存放的未经修改过的歌词播放时间，这种播放时间可以通过服务器端识别是否存在相同的聚类，如果存在，就把这种网上保存的字幕播放时间也作为参考数据记录在时间数据库中。

例如，甲乙丙丁四个用户，他们都得到了一个属于相同聚类的mp3文件及其对应的相同或不同版本的歌词播放时间，甲听过歌曲并看了歌词之后，认为歌词播放时间正确，于是，网络服务器获取了一份与甲得到的原歌词播放时间相同的数据信息。然后，乙认为他的歌词播放时间也正确，于是把mp3文件和歌词播放时间上传到了网上，那么网络服务器通过识别乙上传的mp3文件所在聚类，获知乙上传的歌词播放时间所对应的聚类，于是把乙对应上传的歌词播放时间也对应该聚类进行记录。丙听完之后认为歌曲中某歌词的播放时间需要提前1秒，于是进行了修改，这种修改和原先的字幕播放时间被网络服务器获取，于是网络服务器把修改后的歌词播放时间也保存在了对应聚类的时间数据库中。丁听完之后认为歌曲中某句歌词的播放时间需要提前0.5秒，于是也进行了修改，并把修改后的歌词播放时间与mp3文件所属聚类或者资源识别参数或者mp3文件对应上传至网络中，这种修改后的字幕播放时间被网络服务器获取，并保存在相同聚类对应的时间数据库中。

也就是说，所述收集到的字幕时间信息可以来源于终端，也可以来源于网络侧。

收集之后，还可以进一步包括：将所收集到的时间信息保存到时间数据库。

步骤102，对该资源所在的聚类所对应所有的时间信息进行计算，利用该计算结果修正字幕播放时间；

由于所述字幕时间信息中还包括资源识别参数，因而，步骤102可以具体包括：

I)根据所述字幕时间信息中的资源识别参数获得该资源所在的聚类；

II)获取所在的聚类所对应所有的时间信息；

需要说明的是，所有历史数据对时间偏移量都具有相同的参考意义。即，歌曲、歌词不会随着时间变化而发生改变，简单的说就是半年前的反馈信息与今天刚刚反馈的信息价值一样，因而，对所述聚类所对应的所有时间信息进行计算的含义就是会将以前的反馈(如半年前的反馈)与当前的反馈综合起来一起计算。本步骤中的所有时间信息即包括所收集到所有信息，其是没有时间限制的，可能有一年前的也有今天刚刚收集到的。

III)对所述所有的时间信息按照预设策略进行计算，利用该计算结果修正字幕播放时间。

在实际计算时可以有多种实现方式，例如，一种可能的实现方式是：假设针对一个聚类共有12个已保存的调整时间，其中8个调整时间指示提前3秒播放，两个指示提前2秒播放，两个指示延后1.5秒播放，那么在假设上述数据都不属于噪音数据的前提下，可以对12个数进行简单加平均后得到提前2.08秒，即得到当前计算出的时间偏移量为2.08秒。

需要说明的是，本发明实施例并不对具体的计算策略进行限定，在实际应用中，可以根据实际情况随时制定及调整。

上述按照预设策略进行计算得到的计算结果是时间偏移量或修正后的结果时间。如果所述按照预设策略进行计算得到的计算结果是时间偏移量，则利用该计算结果修正字幕播放时间的步骤包括：应用当前计算出的时间偏移量与该聚类所对应的历史时间偏移量相加，获得最终的字幕播放时间偏移量；用该最终的字幕播放时间偏移量来修正后字幕播放时间。需要说明的是，如果之前已经计算过时间偏移量，则此时的历史时间偏移量就是之前已经计算出的偏移量；如果之前没有计算过时间偏移量，则此时的历史偏移量为0。

例如，可以根据所述字幕时间信息中的资源识别参数获得该字幕时间信息所指示的聚类，对所述聚类所对应的所有时间信息进行计算，获得字幕播放时间偏移量；将所述字幕播放时间偏移量保存到时间数据库中。

步骤103，将所述聚类中所有资源播放字幕的时间对应为修正后的字幕播放时间。

需要说明的是，还可以将所述修正后的字幕播放时间保存到时间数据库，且所述修正后的字幕播放时间与其所对应的聚类和/或资源识别参数关联保存；那么，步骤103可以具体包括：

例如，如果已设置字幕的播放时间为从开始后10秒开始播放，而时间偏移量为提前3.5秒，那么该字幕如歌曲所对应的歌词将从开始后6.5秒开始播放，从而将整体开始播放的时间提前；可以理解，如果已设置字幕的播放时间为从开始后10秒开始播放，而时间偏移量为延后3.5秒，那么该歌曲所对应的字幕如歌词将从开始后13.5秒开始播放，从而将整体开始播放的时间延后，这样，通过在整体上提前或延后播放时间，达到自动调整播放时间的目的，以使歌曲和歌词对应。

需要说明的是，还可以将所述修正后的字幕播放时间保存到时间数据库，且所述修正后的字幕播放时间与其所对应的聚类中的词句、及资源识别参数关联保存；那么，步骤103可以具体包括：

一种可能的情况是，当播放所述聚类所对应的资源时，从所述时间数据库中获得字幕播放时间偏移量，根据所述时间偏移量确定字幕的实际的播放时间。具体的，有两种更改字幕播放时间的方式：一种是更改字幕的整体播放时间，即将待播放字幕整体的提前或延后一段时间进行播放；另一种是更改词句的播放时间，即对待播放字幕中的某一句或几句，某一个字或几个字进行调整。两种调整方式的实现原理都是一样的，区别仅在于实现的粒度。

需要说明的是，在上述步骤101中，对收集到的数据保存之前，还可以包括：判断所收集到的字幕时间信息中的时间信息是否为噪声数据，若是则丢弃，否则再保存。从而避免恶意信息来扰乱本发明实施例所提供的调整方法。例如，一首歌曲总长5分钟，而反馈的歌词时间调整数据中的调整时间是4分钟，通常，认为这种反馈是恶意反馈的，属于噪声数据，而如果多次接收到这个用户的这种恶意反馈，则可以将这个设备标识加入到黑名单，之后不再采纳此设备标识反馈的字幕时间信息。当然，具体的除噪策略及实现方法会根据需求的不同而不同，这里并不对具体的除噪策略及除噪方法进行限定，只是说明需要除去不符合需求的噪声数据。以下仅以两种可能的方式为例，来说明如何判断字幕时间信息中的时间信息是否为噪声数据：

方式一，首先，判断字幕时间信息中的时间信息是否来自于位于黑名单中的设备标识，若是，则判定所述收集到的字幕时间信息为噪声数据，否则，

再判断所述歌词时间调整数据中的时间信息是否大于已设置的调整量阈值，若是，则判定所述收集到的字幕时间信息为噪声数据，否则判定为非噪声数据；其中，上述调整量阈值为预先根据需要或经验设定的值，例如，可以设置为歌曲时长的10％，即对于时长为5分钟的歌曲，如果时间信息超过30秒即判定其是噪声数据。

方式二，判断字幕时间信息中的时间信息是否大于已设置的调整量阈值，若是，则判定所述收集到的字幕时间信息为噪声数据，否则判定为非噪声数据。

方式三，判断字幕时间信息中的时间信息是否来自于位于黑名单中的设备标识，若是，则判定所述收集到的字幕时间信息为噪声数据，否则判定为非噪声数据。

上述方式二与方式一，相比，少了对黑名单的判断，方式三与方式一，相比，少了对调整量阈值的判断，以上仅仅是几个实施例而已，并不用于限制本发明中对噪声数据的具体限定方法。

需要说明的说，如存在较特殊的情况，例如，大量对同一首歌反馈的时间调整都超过了歌曲时长的10％即超过了所设定的调整量阈值，则需要特殊对待，这属于比较特殊的情况，本文对此不再论述。

需要说明的是，在上述步骤102中，对同一聚类所对应的所有时间信息进行计算之前，还可以包括：判断当前已保存的针对同一所述聚类的时间信息的个数是否大于等于已设置的计算阈值，若是，再对所述聚类所对应的所有时间信息进行计算，否则，重复执行当前的判断操作。具体而言，每当接收到一个用户终端反馈的字幕时间信息时，就会判断当前已保存的针对该聚类的时间信息的个数是否已经大于等于已设置的计算阈值。

上述计算阈值可以根据需要或经验确定，例如，可以设置为10或50等，以表明当有10个或50个累积保存的歌词时间调整数据时，就开始对同一聚类所对应的所有时间信息进行计算，也就是说，对于初始阶段，即针对某一聚类反馈的数量小于计算阈值时，不会进行计算，当反馈的数量一旦等于或超过计算阈值，则对该聚类而言每接收到一个反馈都会执行一次计算。增加这个步骤的目的是，可以避免个别的错误反馈导致服务器的调整错误。

需要说明的是，对于更改字幕的整体播放时间且反馈方为用户终端的情况，可以认为在一预设的时间段内同一用户终端对同一首歌的多次反馈中最后一次是有效的，具体的，可通过替换或其他事项方式实现，当然还可以有其他的多种实现方法，这里不再详述，本发明实施例并不对该具体的实现方式做限定。对于更改词句的播放时间，可以认为同一用户终端每次发出的针对不同词句的反馈都是有效的，具体的实现方式也有很多种，这里并不对具体的实现方式加以限定。

参见图2，其是根据本发明实施例的一较佳实施例的流程图。本实施例中，用户可以通过拖动右侧的时间轴来调整歌词的播放时间，也可以通过调整右上部的“歌词快一秒”和“歌词慢一秒”的按钮来调整歌词的播放时间，无论哪种方式，用户终端都会将用户作出的字幕时间信息发送出去。该字幕时间信息中包括资源识别参数以及时间信息；其中，资源识别参数包括用于识别某个资源的：Size、postfix和bitrate，还可以包括duration，根据资源识别参数即可得到与之匹配的资源内容。

纠正信息收集平台将收集到的来自用户终端的字幕时间信息传送给信息纠正平台，信息纠正平台中的噪音分析模块判断接收到的字幕时间信息是否为噪声数据，若是则丢弃或将接收到的数据存入恶意反馈数据库，否则再将接收到的字幕时间信息传送给信息纠正平台中的纠正计算模块。

纠正计算模块判断当前已保存的针对同一聚类的时间信息的个数是否大于等于已设置的计算阈值，若否，则重复执行当前的判断操作；若是，则对同一聚类所对应的所有时间信息进行计算，获得字幕播放时间偏移量；将该字幕播放时间偏移量保存到时间数据库中。

当再次播放所述聚类所对应的资源时，根据待播放字幕的实际时间和字幕播放时间偏移量确定实际的播放时间，例如，提前或延后一段时间来播放整段歌词，或者，提前或延后一段时间来播放某个词句。

应用本发明实施例提供的自动更字幕播放时间的方法，不需要人为生产出多份冗余数据就可实现自动更新，减少了实现成本；并且，在不需要人为干预的情况下，能够纠正大量错误信息，提高了纠错的效率；再有，对于一些热门的歌曲，纠错的反馈量会比较大，也比较及时，通过本发明提供的实现方案，可以快速的纠正错误，使下一位用户受益，从而极大地提高了纠错的时效性。再有，由于音像制品的特点是持续、不间断的发布，而变种(压缩、改变)的资源也是层出不穷，而本发明的优势就在于对这类数据具有持续性纠正的能力。

此外，根据前述可知，本发明实施例所提供的自动更改字幕播放时间的方法是针对一个聚类的，这意味着，当一个资源链接所对应的歌词被调整后，这个资源链接所属聚类的歌词也就被调整了；相应的，对这个聚类中任何一个资源链接的反馈，都可以认为是对这个聚类的某个资源链接的反馈，可以直接参考计算，进而放大了的纠正面积以及收集面积。

本发明实施例还提供了一种自动更改字幕播放时间的系统，参见图3，具体包括：

收集单元301，用于收集资源的字幕时间信息；

计算单元302，用于对所有该资源所在的聚类所的字幕时间信息的时间信息进行计算，利用该计算结果修正字幕播放时间；

调整单元303，用于将所述聚类中所有资源播放字幕的时间对应为修正后的字幕播放时间。

上述装置还可以包括：

噪声识别单元(图未示)，用于判断所述字幕时间信息为噪声数据时，丢弃所收集到的数据，判断所述字幕时间信息中的时间信息为非噪声数据时再通知计算单元进行计算。

上述装置还可以包括：

计算启动单元(图未示)，用于判断当前针对同一聚类的时间信息的个数是否大于等于已设置的计算阈值，若是，再通知计算单元开始计算，否则，重复执行当前的判断操作。

上述字幕时间信息中还包括资源识别参数；所述计算单元可以具体包括：

上述装置还可以包括：时间数据库，用于保存所述修正后的字幕播放时间，且所述修正后的字幕播放时间与其所对应的聚类和/或资源识别参数关联保存；所述调整单元包括：

上述装置还可以包括：时间数据库，用于保存所述修正后的字幕播放时间，且所述修正后的字幕播放时间与其所对应的聚类中的词句、及资源识别参数关联保存；所述调整单元可以具体包括：

所述收集资源的字幕时间信息中包括时间信息，所述时间信息为修正后的结果字幕播放时间或字幕调整时间。

应用本发明实施例提供的自动更字幕播放时间的装置，不需要人为生产出多份冗余数据就可实现自动更新，减少了实现成本；并且，在不需要人为干预的情况下，能够纠正大量错误信息，提高了纠错的效率；再有，对于一些热门的歌曲，纠错的反馈量会比较大，也比较及时，通过本发明提供的实现方案，可以快速的纠正错误，使下一位用户受益，从而极大地提高了纠错的时效性。再有，由于音像制品的特点是持续、不间断的发布，而变种(压缩、改变)的资源也是层出不穷，而本发明的优势就在于对这类数据具有持续性纠正的能力。

对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于计算机可读取存储介质中，这里所称得的存储介质，如：ROM/RAM、磁碟、光盘等。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种自动更改字幕播放时间的方法，其特征在于，包括：

收集资源的字幕时间信息；

根据所述字幕时间信息中的资源识别参数获得该资源所在的聚类；获取所在的聚类所对应所有的时间信息；对所述所有的时间信息按照预设策略进行计算，利用该计算结果修正字幕播放时间；

2.根据权利要求1所述的方法，其特征在于，所述收集到的字幕时间信息来源于终端，所述字幕时间信息中包括时间信息。

3.根据权利要求1所述的方法，其特征在于，所述收集到的字幕时间信息来源于网络侧；所述字幕时间信息中包括时间信息。

4.根据权利要求1、2或3所述的方法，其特征在于，所述时间信息为字幕播放时间或字幕调整时间。

5.根据权利要求4所述的方法，其特征在于，所述方法进一步包括：将所收集到的字幕播放时间保存到时间数据库。

6.根据权利要求1所述的方法，其特征在于，在收集到资源的字幕时间信息之后，还包括：

判断所述字幕时间信息中的时间信息是否为噪声数据，若是则丢弃，否则保存该收集到的字幕时间信息中的时间信息。

7.根据权利要求6所述的方法，其特征在于，判断字幕时间信息中的时间信息是否为噪声数据的方式包括：

判断所述字幕时间信息中的时间信息是否来自于位于黑名单中的设备标识，若是，则判定所述收集到的字幕时间信息中的时间信息为噪声数据，

和/或，

判断所述字幕时间信息中的时间信息是否大于已设置的调整量阈值，若是，则判定所述收集到的字幕时间信息中的时间信息为噪声数据，否则判定为非噪声数据。

8.根据权利要求1所述的方法，其特征在于，对该资源所在的聚类所对应所有的时间信息进行计算之前，还包括：

9.根据权利要求1所述的方法，其特征在于，所述按照预设策略进行计算得到的计算结果是时间偏移量或修正后的结果时间。

10.根据权利要求9所述的方法，其特征在于，如果所述按照预设策略进行计算得到的计算结果是时间偏移量，则利用该计算结果修正字幕播放时间的步骤包括：

用该最终的字幕播放时间偏移量来修正字幕播放时间。

11.根据权利要求1所述的方法，其特征在于，所述方法还包括：将所述修正后的字幕播放时间保存到时间数据库，且所述修正后的字幕播放时间与其所对应的聚类和/或资源识别参数关联保存；

12.根据权利要求1所述的方法，其特征在于，所述方法还包括：将所述修正后的字幕播放时间保存到时间数据库，且所述修正后的字幕播放时间与其所对应的聚类中的词句、及资源识别参数关联保存；

将聚类中所有资源播放字幕的时间对应为修正后的字幕播放时间的步骤包括：

13.根据权利要求1所述的方法，其特征在于，所述字幕时间信息中的资源识别参数包括：资源的大小（Size）、资源的后缀名（postfix）和资源的比特率（bitrate）。

14.根据权利要求13所述的方法，其特征在于，所述字幕时间信息中的资源识别参数还包括：资源的时长（duration）。

15.一种自动更改字幕播放时间的装置，其特征在于，包括：

收集单元，用于收集资源的字幕时间信息；

计算单元，用于对该资源所在的聚类所对应的所有字幕时间信息中的时间信息进行计算，利用计算结果修正字幕播放时间；

所述计算单元包括：

计算子单元，用于对所述所有的时间信息按照预设策略进行计算，利用该计算结果修正字幕播放时间；

16.根据权利要求15所述的装置，其特征在于，所述装置还包括：

17.根据权利要求15或16所述的装置，其特征在于，所述装置还包括：

18.根据权利要求15所述的装置，其特征在于，所述装置还包括：

所述调整单元包括：

19.根据权利要求15所述的装置，其特征在于，所述装置还包括：

所述调整单元包括：

20.根据权利要求15所述的装置，其特征在于，所述收集到的资源的字幕时间信息中包括时间信息，所述时间信息为修正后的结果字幕播放时间或字幕调整时间。