CN104093037B

CN104093037B - 字幕校正方法和装置

Info

Publication number: CN104093037B
Application number: CN201410254927.8A
Authority: CN
Inventors: 傅鸿城; 赵伟; 曹海峰
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2014-06-10
Filing date: 2014-06-10
Publication date: 2016-05-04
Anticipated expiration: 2034-06-10
Also published as: CN104093037A

Abstract

本发明公开了一种字幕校正方法和装置，属于多媒体技术领域。所述方法包括：获取多媒体文件的反馈数据，所述反馈数据是针对所述多媒体文件的字幕文件的错误所反馈的数据；根据所述反馈数据识别所述多媒体文件的字幕文件的错误类型；根据所述错误类型对所述多媒体文件的字幕文件进行校正。所述装置包括：第一获取模块、第一识别模块和字幕校正模块。本发明通过获取字幕文件的反馈数据，识别该反馈数据中的错误类型，根据该错误类型对字幕文件进行校正，提高了字幕文件的正确性。

Description

字幕校正方法和装置

技术领域

本发明涉及多媒体技术领域，特别涉及一种字幕校正方法和装置。

背景技术

在播放多媒体文件时，字幕可以帮助人们获得更高的使用体验。由于多媒体文件包括音频文件和视频文件两种，在音频文件为歌曲时，字幕也可以称之为歌词。

以多媒体文件是歌曲为例，歌词是一首歌曲中的文词部分，常见的歌词有TXT(Text，文本)歌词、LRC(lyric，歌词)歌词和QRC(QQlyric，QQ歌词)歌词三种。其中，TXT歌词是纯文本类型的歌词；LRC歌词为一种在歌曲播放时能够同步显示且显示定位到逐行的歌词；QRC歌词为一种在歌曲播放时能够同步显示且显示定位到逐字的歌词，显然QRC歌词的同步显示更精确。LRC歌词和QRC歌词的实现方法均是基于时间轴同步歌词和歌曲，该方法要求每段歌词的内容沿着播放时间轴对齐，而由于歌词是人工编辑的，其内容和播放时间轴可能出现不对齐的现象，另外还可能存在部分歌曲无词或歌词内容错误的问题，因此需要对歌词进行校正。

现有技术中，一般采用人工校正的方式来实现对歌词的校正。人工校正的方式包括人工判断歌词的错误类型，以及在出现无词问题时，采用人工的方式对歌词进行填充以实现对歌词的校正。

在实现本发明的过程中，发明人发现现有技术至少存在以下问题：人工判断歌词的错误类型时识别错误的命中率较低且工作量大。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种字幕校正方法和装置。该技术方案如下：

一方面，提供了一种字幕校正方法，该方法包括：

获取多媒体文件的反馈数据，该反馈数据是针对该多媒体文件的字幕文件的错误所反馈的数据；

根据该反馈数据识别该多媒体文件的字幕文件的错误类型；

根据该错误类型对该多媒体文件的字幕文件进行校正。

另一方面，提供了一种字幕校正装置，该装置包括：

第一获取模块，用于获取多媒体文件的反馈数据，该反馈数据是针对该多媒体文件的字幕文件的错误所反馈的数据；

第一识别模块，用于根据该反馈数据识别该多媒体文件的字幕文件的错误类型；

字幕校正模块，用于根据该错误类型对该多媒体文件的字幕文件进行校正。

本发明实施例提供的技术方案带来的有益效果是：

本发明实施例提供的字幕校正方法和装置，通过获取多媒体文件的反馈数据，该反馈数据是针对该多媒体文件的字幕文件的错误所反馈的数据；根据该反馈数据识别该多媒体文件的字幕文件的错误类型；根据该错误类型对该多媒体文件的字幕文件进行校正。采用本发明实施例提供的方案，通过识别反馈数据中的错误类型，根据该错误类型对字幕文件进行校正，提高了字幕文件的正确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种字幕校正方法所涉及的实施环境；

图2是本发明实施例提供的一种字幕校正方法的方法流程图；

图3a是本发明实施例提供的一种字幕校正方法的方法流程图；

图3b是本发明实施例提供的一种数据反馈界面图；

图3c是本发明实施例提供的一种根据音频波形特征确定语音信号的开始时刻和结束时刻方法的方法流程图；

图4是本发明实施例提供的一种错误类型分类器训练方法的方法流程图；

图5是本发明实施例提供的一种字幕校正装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

图1是本发明实施例提供的一种字幕校正方法所涉及的实施环境。参见图1，该实施环境包括至少一个终端120和至少一个服务器140。

终端120，可以是具备多媒体文件播放功能的电子设备，该电子设备可以是智能手机、平板电脑、智能电视等等。

终端120与服务器140之间可以通过无线网络相连。

服务器140，可以是一台服务器，或者由若干台服务器组成的服务器集群，或者是一个云计算服务中心。该服务器140是可以向终端120提供字幕校正服务的服务器。

图2是本发明实施例提供的一种字幕校正方法流程图。参见图2，本实施例以该字幕校正方法应用于图1所示服务器140中来举例说明。该方法流程具体包括：

201、获取多媒体文件的反馈数据，该反馈数据是针对该多媒体文件的字幕文件的错误所反馈的数据。

202、根据该反馈数据识别该多媒体文件的字幕文件的错误类型。

203、根据该错误类型对该多媒体文件的字幕文件进行校正。

采用本发明实施例提供的方案，通过识别反馈数据中的错误类型，根据该错误类型对字幕文件进行校正，提高了字幕文件的正确性。

可选地，根据该反馈数据识别该多媒体文件的字幕文件的错误类型，包括：

若该反馈数据为按钮反馈数据，则提取该按钮反馈数据中携带的错误类型，作为该字幕文件的错误类型；该按钮反馈数据是通过按压错误类型按钮上报的反馈数据，每个错误类型按钮对应无词、时序问题、内容问题和无错误共四种错误类型中的任意一种。

可选地，该根据该反馈数据识别该多媒体文件的字幕文件的错误类型，包括：

若该反馈数据为文本反馈数据，则提取该文本反馈数据中的至少一个关键词，该文本反馈数据是通过文本上报的反馈数据；

将该至少一个关键词输入错误类型分类器中，识别出对应的错误类型；该错误类型分类器是预先通过文本反馈数据样本集训练得到的，该错误类型包括无词、时序问题、内容问题和无错误中的至少一种。

可选地，该将该至少一个关键词输入错误类型分类器中，识别出对应的错误类型之前，还包括：

获取至少一个文本反馈数据以及每个文本反馈数据所对应的错误类型，生成该文本反馈数据样本集；

提取该文本反馈数据样本集中文本反馈数据的关键词，得到至少一个关键词；

计算每个关键词在不同错误类型中出现的概率，筛选出每个错误类型所对应的特征关键词；

根据每个错误类型所对应的特征关键词以及每个特征关键词在该错误类型中出现的概率，训练得到该错误类型分类器。

可选地，该根据该错误类型对该多媒体文件的字幕文件进行校正，包括：

若识别出的该错误类型为无词，则搜索与该多媒体文件匹配的字幕文件；

若识别出的该错误类型为时序问题和/或内容问题，则向目标终端发送该多媒体文件的标识和错误类型，该目标终端为校正人员所使用的终端；

若识别出的该错误类型为无错误，不做处理或继续下一个多媒体文件的字幕文件的校正。

可选地，该方法还包括：

在获取该多媒体文件的反馈数据失败时，分析该多媒体文件的音频波形特征；

根据该多媒体文件的音频波形特征确定该多媒体文件中语音信号的开始时刻和结束时刻；

根据该多媒体文件中语音信号的开始时刻和结束时刻以及该字幕文件中的播放时间轴确定该字幕文件是否存在时序问题。

可选地，该获取多媒体文件的反馈数据，包括：

获取至少一个用户针对该多媒体文件上报的至少一个反馈数据；

根据预设条件对该至少一个反馈数据进行过滤，得到有效的反馈数据；该预设条件包括：

当前反馈数据所对应的用户所对应的等级高于预定等级；和/或，

当前反馈数据所对应的用户在指定时间段内播放多媒体文件的频率高于预定频率；和/或，

当前反馈数据所对应的用户历史反馈的反馈数据的有效性高于预定阈值。

可选地，该根据该错误类型对该多媒体文件的字幕文件进行校正之前，还包括：

若针对该多媒体文件的字幕文件所对应的反馈数据不止1个，则计算识别出的各个错误类型的出现概率，选择出现概率达到预定概率的错误类型作为该多媒体文件的字幕文件所对应的错误类型。

上述所有可选技术方案，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

图3a是本发明实施例提供的一种字幕校正方法流程图。参见图3a，本实施例以该字幕校正方法应用于图1所示服务器140中来举例说明。该方法流程具体包括：

3a01、多媒体服务器获取多媒体文件的至少一个反馈数据，该反馈数据是针对该多媒体文件的字幕文件的错误所反馈的数据。

在本发明实施例中，终端用户在发现多媒体文件的字幕文件有错误时，可以通过终端上的按钮或者文本输入框，向多媒体服务器上报发现的错误。多媒体服务器可以通过接收终端用户上报的反馈数据，实现对反馈数据的获取。该反馈数据还可以由特定服务器采集，该特定服务器可以是该多媒体服务器的一个特定功能单元，也可以是专门用于采集终端用户的反馈数据的服务器，多媒体服务器通过从该特定服务器提取终端用户的反馈数据，实现对该反馈数据的获取。

多媒体服务器在接收反馈数据时，接收的反馈数据为至少一个终端用户针对当前对媒体文件上报的至少一个反馈数据。该反馈数据是针对该多媒体文件的字幕文件的错误所反馈的数据。

3a02、多媒体服务器根据预设条件对该至少一个反馈数据进行过滤，得到有效的反馈数据。

在本发明实施例中，预设条件用于衡量终端用户反馈数据的有效性。

具体地，该预设条件可以为当前反馈数据所对应的终端用户所对应的等级高于预定等级。其中，该预定等级用于衡量终端用户等级的高低。当终端用户的等级比预定等级高时，则说明该终端用户的等级较高；当终端用户的等级比预定等级低时，则说明该终端用户的等级较低。

该预设条件还可以为当前反馈数据所对应的终端用户在指定时间段内播放多媒体文件的频率高于预定频率。其中，该预定频率用于衡量终端用户在指定时间段内，播放该多媒体文件次数的多少。当在指定时间段内，终端用户对该多媒体文件的播放频率比预定频率高时，则说明该终端用户在指定时间段内播放该多媒体文件的次数较多；当在指定时间段内，终端用户对该多媒体文件的播放频率比预定频率低时，则说明该终端用户在指定时间段内播放该多媒体文件的次数较少。

该预设条件还可以为当前反馈数据所对应的终端用户历史反馈的反馈数据的有效性高于预定阈值。其中，该预定阈值用于衡量终端用户历史反馈的反馈数据的有效性。当终端用户历史反馈的反馈数据的有效性比预定阈值高时，则说明该终端用户历史反馈的反馈数据的有效性较高；当终端用户历史反馈的反馈数据的有效性比预定阈值低时，则说明该终端用户历史反馈的反馈数据的有效性较低。

多媒体服务器根据预设条件对该至少一个反馈数据进行过滤，得到有效的反馈数据。具体地，多媒体服务器根据上述预设条件，将优于该预设条件的反馈数据作为有效的反馈数据，舍弃次于预设条件的反馈数据。

如，当预设条件为当前反馈数据所对应的终端用户所对应的等级高于预定等级时，多媒体服务器将较高等级的终端用户的反馈数据作为有效的反馈数据，舍弃等级较低的终端用户的反馈数据。

如，当该预设条件为当前反馈数据所对应的终端用户在指定时间段内播放多媒体文件的频率高于预定频率时，多媒体服务器将在指定时间段内对该多媒体文件播放次数较多的终端用户的反馈数据作为有效的反馈数据，舍弃对该多媒体文件播放次数较少的终端用户的反馈数据。

如，当该预设条件为当前反馈数据所对应的终端用户历史反馈的反馈数据的有效性高于预定阈值时，多媒体服务器将历史反馈的反馈数据的有效性较高的终端用户的反馈数据作为有效的反馈数据，舍弃历史反馈的反馈数据的有效性较低的终端用户的反馈数据。

需要说明的是，上述预设条件仅是示例性的，并不能用来限制本发明。在本发明提供的其它实施例中，该预设条件还可以为其它的预设条件，均以能表示用户反馈数据的有效性为准，这里不再赘述。

3a03、多媒体服务器根据该反馈数据识别该多媒体文件的字幕文件的错误类型。

图3b是本发明实施例提供的一种数据反馈界面图。参见图3b，该数据反馈界面包括按钮反馈和文本反馈。该按钮反馈包括一个下拉菜单，该下拉菜单至少包括四个选项，分别对应错误类型无词、时序问题、内容问题和无错误中的一种，该按钮反馈还包括一个“提交”按钮，终端用户可以通过点击该下拉菜单中的小三角，查看并选择错误类型，当终端用户想要反馈某种错误类型时，可以通过下拉菜单，选中要反馈的错误类型，并按压“提交”按钮，向多媒体服务器上报当前多媒体文件的字幕文件的按钮反馈数据。该文本反馈包括一个文本输入框、一个“提交”按钮和一个“取消”按钮，终端用户可以在该文本输入框中输入文本反馈数据，并按压“提交”按钮，以文本的形式向多媒体服务器上报反馈数据，终端用户还可以通过按压“取消”按钮，取消当前输入的文本反馈数据。

由上述可知，该反馈数据为按钮反馈数据和文本反馈数据中至少一种。该按钮反馈数据是终端用户通过按压界面上的错误类型按钮上报的反馈数据，该文本反馈数据是终端用户通过文本上报的反馈数据。

3a04、若该反馈数据为按钮反馈数据，则提取该按钮反馈数据中携带的错误类型，作为该字幕文件的错误类型。

由于按钮反馈数据是终端用户通过按压终端数据反馈界面上的错误类型按钮向多媒体服务器上报的，且在终端界面上，每一种错误类型都有对应的错误类型按钮，因此，多媒体服务器接收到的反馈数据中携带了错误类型，多媒体服务器可直接将该携带的错误类型，作为该字幕文件的错误类型。

如，在图3b所示的数据反馈界面中，当终端用户按压“无词”按钮时，多媒体服务器在接收到该终端用户的反馈数据时，该反馈数据就携带错误类型无词，因此，多媒体服务器将该无词，作为该终端用户对该对媒体文件对应的字幕文件所上报的错误类型。与此同理，可以得到错误类型时序问题、内容问题和无错误的错误类型，这里不再赘述。

3a05、多媒体服务器根据错误类型对该字幕文件进行校正。

该根据错误类型对字幕文件进行校正包括以下三种情况：

第一种情况，若识别出的错误类型为无词，多媒体服务器搜索与该多媒体文件匹配的字幕。

具体地，若多媒体服务器识别出错误类型为无词，该多媒体服务器根据该多媒体文件的名称，从网络服务器搜索与该多媒体文件匹配的字幕文件，并获取该搜索到的字幕文件，实现对该字幕文件的校正。

比如，若当前多媒体文件为音频文件“爱我中华”，多媒体服务器根据该音频文件的名称“爱我中华”，从网络服务器搜索与该“爱我中华”匹配的字幕文件，并获取该字幕文件。

第二种情况，若识别出的该错误类型为时序问题和/或内容问题，则多媒体服务器向目标终端发送该多媒体文件的标识和错误类型，该目标终端为校正人员所使用的终端。

具体地，当多媒体服务器识别出错误类型为时序问题和/或内容问题时，该多媒体服务器向目标终端发送该多媒体文件的标识和错误类型，该目标终端接收到多媒体服务器发送的该多媒体文件的标识和错误类型时，目标终端的校正人员根据该多媒体文件的标识和错误类型，对该多媒体文件进行人工校正。

具体地，当该错误类型为时序问题时，校正人员通过调节该字幕文件的时间轴，对该字幕文件进行校正。如，当多媒体文件为音频文件“爱我中华”，且该错误类型为时序问题时，校正人员将当前音频文件对应的字幕文件的开始时刻与该音频文件所对应的正确的字幕文件的开始时刻对齐，实现对该字幕文件的校正。

当该错误类型为内容问题时，校正人员通过对该字幕文件内容的修改，对该字幕文件进行校正。如，当多媒体文件为音频文件“爱我中华”，且该错误类型为内容问题时，校正人员将当前音频文件对应的字幕文件与正确的字幕文件进行对比，找出具体的错误，并对该错误进行修改，如，当校正人员找到“中国凶姿英发”时，通过与正确的字幕文件“中华雄姿英发”进行对比，可以发现该句中的错误为“国”和“凶”，于是校正人员就可以将“国”修改为“华”，将“凶”修改为“雄”，实现对该字幕文件的校正。

第三种情况，若识别出的该错误类型为无错误，多媒体服务器不做处理或继续下一个多媒体文件的字幕文件的校正。

当多媒体服务器识别出的错误类型为无错误时，不做处理，或直接进行下一个多媒体文件字幕文件的校正。

需要说明的是，在本发明实施例中，将无错误也定义为一种错误类型，事实上，在本发明提供的其它实施例中，还可以不对该无错误进行定义，或直接将其定义为正确类型，这里不再赘述。

还需要说明的是，若针对多媒体文件的字幕文件所对应的反馈数据不止1个，那么，在错误类型识别过程中，多媒体服务器识别出不止1个错误类型，则多媒体服务器计算该识别出的各个错误类型的出现概率，选择出现概率达到预定概率的错误类型作为该多媒体文件的字幕文件所对应的错误类型。其中，预定概率用于衡量识别到的错误类型的正确性，当计算得到的概率大于预定概率时，则认为此时多媒体服务器识别到的错误类型是正确的，当计算得到的概率小于预定概率时，则认为此时多媒体服务器识别到的错误类型是错误的。假设预定概率为P，多媒体服务器识别到的某个错误类型出现的概率为P1，当P1>P时，则认为此时多媒体服务器识别到的错误类型是正确的，当P1<P时，则认为此时多媒体服务器识别到的错误类型是错误的。

如当多媒体服务器识别到的错误类型为时序问题和内容问题，多媒体服务器计算得错误类型时序问题出现的概率为P2，错误类型内容问题出现的概率为P3，且P2>P，P3<P，那么此时多媒体服务器就认为识别到的时序问题是正确的，而识别到的内容问题是错误的。则多媒体服务器将时序问题作为该字幕文件的错误类型，只对时序问题进行校正，而不校正内容问题。

如当多媒体服务器识别到的错误类型为时序问题和内容问题，多媒体服务器计算得错误类型时序问题出现的概率为P2，错误类型内容问题出现的概率为P3，且P2>P，P3>P，那么此时多媒体服务器就认为识别到的时序问题和内容问题都是正确的。则多媒体服务器就将时序问题和内容问题同时作为该字幕文件的错误类型，并对该时序问题和内容问题进行校正。

如当多媒体服务器识别到的错误类型为时序问题和内容问题，多媒体服务器计算得错误类型时序问题出现的概率为P2，错误类型内容问题出现的概率为P3，且P2<P，P3<P，那么此时多媒体服务器就认为识别到的时序问题和内容问题都是错误的。即，多媒体服务器认为该字幕文件是正确的，不对该字幕文件进行校正。

3a06、若该反馈数据为文本反馈数据，多媒体服务器提取该文本反馈数据中的至少一个关键词，该文本反馈数据是通过文本上报的反馈数据。

在图3b所示的数据反馈界面中，当终端用户需要以文本的形式反馈数据时，可以在文本框中输入文本反馈数据，如图3b中所示，此时该终端用户输入的文本反馈数据为“唱到第3句的时候，不显示词了”，终端用户可以按压“提交”按钮，向多媒体服务器上报该文本反馈数据，也可以按压“取消”按钮，取消编辑的文本反馈数据。

由于文本反馈数据是终端用户通过终端界面上的文本输入框向多媒体终端上报的，同样的错误类型可以有多种表达语句，且不同终端用户的语言习惯存在差异，因此，不同用户上报的文本反馈数据不同。

当多媒体服务器获取到的反馈数据为文本反馈数据时，多媒体服务器对该文本反馈数据进行分词，提取该文本反馈数据中的关键词，进而根据该关键词对上报的错误类型进行识别。

具体地，多媒体服务器对获取到的文本反馈数据进行分词处理，将对错误类型的识别贡献较大的词语，作为关键词，舍弃对错误类型的识别贡献较小的词语。该对错误类型的识别贡献较大的词语如“没词”、“时间”、“内容”等，该对错误类型的识别贡献较小的词语如“了”、“的”、“可以”等。如，当获取到的文本反馈数据为“没有词了”时，多媒体服务器对该文本反馈数据进行分词处理，得到“没有”、“词”和“了”三个词语，由于在对错误类型无词的识别时，“没有”和“词”的贡献较大，而“了”的贡献较小，因此，多媒体服务器将该“没有”和、“词”作为关键词，舍弃“了”。

3a07、多媒体服务器将该至少一个关键词输入错误类型分类器中，识别出对应的错误类型。

多媒体服务器将提取到的文本反馈数据的各个关键词输入错误类型分类器，该错误类型分类器通过计算各个关键词在不同错误类型中出现的概率，识别出这些关键词所对应的错误类型。多媒体服务器将出现概率最高的错误类型，作为该字幕文件的错误类型。

具体地，当该错误类型分类器为贝叶斯(Bayes)分类器时，多媒体服务器将该至少一个关键词输入该Bayes分类器中，Bayes分类器根据公式

\underset{c}{\arg \max} p (C = c) Π_{i = 1}^{n} p (F_{i} = f_{i} | C = c)

计算各个关键词在不同错误类型中出现的概率，识别出这些关键词所对应的错误类型。在以上公式中，C表示该反馈数据的关键词所对应的错误类型，c即为无词、时序问题、内容问题和无错误。f1,...,fn分别表示关键词1...n出现的次数。

需要说明的是，在本发明实施例中，在多媒体服务器将至少一个关键词输入错误类型分类器中，识别出对应的错误类型之前，多媒体服务器需要通过文本反馈数据的样本集来训练得到该错误类型分类器。

图4是本发明实施例提供的一种错误类型分类器训练方法流程图。参见图4，该错误类型分类器训练的过程包括：

401、多媒体服务器获取至少一个文本反馈数据以及每个文本反馈数据所对应的错误类型，生成该文本反馈数据样本集。

在本发明实施例中，终端用户在发现多媒体文件的字幕文件有错误时，可以通过终端上的按钮或者文本输入框，向多媒体服务器上报终端用户发现的错误，多媒体服务器可以通过接收终端用户上报的反馈数据，实现对反馈数据的获取。该反馈数据还可以由特定服务器采集，该特定服务器可以是该多媒体服务器的一个特定功能单元，也可以是专门用于采集终端用户的反馈数据的服务器，多媒体服务器通过从该特定服务器提取终端用户的反馈数据，实现对该反馈数据的获取。

在本发明实施例中，多媒体服务器在获取到至少一个文本反馈数据之后，后台对该获取到的文本反馈数据进行人工分类，得到每个文本反馈数据的错误类型。如，当多媒体服务器获取到100条文本反馈数据，且该100条文本反馈数据对应的错误类型包括10条无词、35条时序问题、50条内容问题和5条无错误时，通过人工分类就可以得到该结果。

多媒体服务器根据获取到的文本反馈数据和每个文本反馈数据对应的错误类型，生成文本反馈数据样本集。

402、多媒体服务器提取该文本反馈数据样本集中文本反馈数据的关键词，得到至少一个关键词。

具体地，多媒体服务器对该文本反馈数据样本集中的反馈数据进行分词处理，将对错误类型的识别贡献较大的词语，作为关键词，舍弃对错误类型的识别贡献较小的词语。

如，当获取到的文本反馈数据为“时间有错误，对不上”时，多媒体服务器对该文本反馈数据进行分词处理，得到“时间”、“有”、“错误”、“，”和“对不上”，由于在对错误类型时序的识别时，“时间”、“错误”和“对不上”的贡献都较大，而“，”和“有”的贡献较小，因此，多媒体服务器将该“时间”、“错误”和“多不上”作为关键词，舍弃“，”和“有”。

再如，当获取到的文本反馈数据为“字幕内容是错的”时，多媒体服务器对该文本反馈数据进行分词处理，得到“字幕”、“内容”、“是”、“错”和“的”五个词语，由于在对错误类型时序的识别时，“内容”和“错”的贡献都较大，而“字幕”、“是”和“的”的贡献相对较小，因此，多媒体服务器将该“内容”和“错”作为关键词，舍弃“字幕”、“是”和“的”。

403、多媒体服务器计算每个关键词在不同错误类型中出现的概率，筛选出每个错误类型所对应的特征关键词。

具体的，多媒体服务器根据各个关键词在不同错误类型中出现的次数以及各个关键词总的出现次数，将各个关键词在不同错误类型中出现的次数与各个关键词总的出现次数作比，计算出各个关键词在不同错误类型中出现的概率。当计算得到某一关键词在特定错误类型中出现的概率最高时，将该关键词作为该特定错误类型对应的特征关键词。该特定错误类型为无词、时序问题、内容问题和无错误中的任意一种。

如，关键词“没有”可能出现在无错误和无词两种错误类型对应的文本反馈数据中，多媒体服务器可以确定该“没有”的总出现次数为a次，其中在无错误的错误类型中出现了b1次，在无词的错误类型中出现了b2次，且b1大于b2，多媒体服务器通过计算可以得到该关键词“没有”在无错误的错误类型中出现的概率为b1/a，在无词的错误类型中出现的概率为b2/a，由于b1/a大于b2/a，因此多媒体服务器将该“没有”作为无错误的错误类型对应的特征关键词。与此同理可以得到无词、时序问题和内容问题对应的特征关键词，这里不再赘述。

404、多媒体服务器根据每个错误类型所对应的特征关键词以及每个特征关键词在该错误类型中出现的概率，训练得到错误类型分类器。

具体的，多媒体服务器根据每个错误类型对应的特征关键词，以及每个特征关键词在该错误类型中出现的概率，生成该关键词与该关键词在该错误类型中出现的概率的对应关系，从而得到该错误类型分类器。

在实际应用中，错误类型分类器可以采用贝叶斯(Bayes)分类器。由于Bayes分类器训练的计算量小、预测速度快。Bayes分类器可以对无词、时序问题、内容问题和无错误样本进行学习，并维护一个特征关键词列表及该特征关键词在该特征关键词对应的错误类型中出现的次数，该特征关键词列表用于存放个各个错误类型所对应的特征关键词，Bayes分类器对反馈数据的特征关键词进行分类的原理是通过某反馈数据关键词的先验概率，利用Bayes公式计算出其后验概率，即该反馈数据的特征关键词属于某一错误类型的概率，选择具有最大后验概率的错误类型作为该错误所属的错误类型。当特征向量(f1,...,fn)中的特征项分别表示特征关键词1...n出现的次数时，某一个错误在Bayes分类器下的错误类型就可以表示为：

\underset{c}{\arg \max} p (C = c) Π_{i = 1}^{n} p (F_{i} = f_{i} | C = c)

其中，C表示该反馈数据特征关键词的错误类型，c即为无词、时序问题、内容问题和无错误。

需要说明的是，以上401-404事实上是多媒体服务器训练错误类型分类器的过程，在本发明提供的实施例中，该错误类型分类器是在多媒体服务器向该错误类型分类器输入关键词之前训练的，而事实上，在本发明提供的其它实施例中，多媒体服务器还可以从网络服务器下载该错误类型分类器，下载后直接使用。

3a08、多媒体服务器根据错误类型对该字幕文件进行校正。

该根据错误类型对字幕文件进行校正包括以下三种情况：

第一种情况，若识别出的该错误类型为无词，多媒体服务器搜索与该多媒体文件匹配的字幕。

第二种情况，若识别出的错误类型为时序问题和/或内容问题，则多媒体服务器向目标终端发送该多媒体文件的标识和错误类型，该目标终端为校正人员所使用的终端。

需要说明的是，在本发明实施例中，将无错误也定义为一种错误类型，事实上，在本发明提供的其它实施例中，还可以不对该无错误进行定义，或直接将其定义为正确类型。这里不再赘述。

3a09、在多媒体服务器获取该多媒体文件的反馈数据失败时，分析该多媒体文件的音频波形特征。

音频波形特征包括原声能量频率和伴奏能量频率。其中，原声能量频率表示的是语音信号的能量频率，伴奏能量频率表示的是背景音乐的音频能量频率。

3a10、多媒体服务器根据该多媒体文件的音频波形特征确定该多媒体文件中语音信号的开始时刻和结束时刻。

图3c是本发明实施例提供的一种根据多媒体文件的音频波形特征确定多媒体文件中语音信号的开始时刻和结束时刻方法的方法流程图，参见图3c，该方法流程包括如下子步骤：

3c01、多媒体服务器获取音频波形特征中的原声能量频率和伴奏能量频率。

多媒体服务器通过获取音频波形特征中的原声能量频率和伴奏能量频率，确定该原声能量频率的开始时刻和结束时刻，以及该伴奏能量频率的开始时刻和结束时刻。

3c02、多媒体服务器将原声能量频率和伴奏能量频率对比，得到音频波形特征的播放时间轴。

具体地，多媒体服务器通过将原声能量频率和伴奏能量频率进行对比，将原声能量频率的开始时刻和伴奏能量频率的开始时刻中，较早的时刻作为该音频波形特征的开始时刻，将原声能量频率的结束时刻和伴奏能量频率的结束时刻中，较晚的时刻作为该音频波形特征的结束时刻，从而得到音频波形特征的播放时间轴。

比如，多媒体服务器获取到原声能量频率的时间轴长度为3分08秒，该原声能量频率的开始时刻为0分20秒，结束时刻为3分28秒，伴奏能量频率的时间轴长度为3分55秒，且该伴奏能量频率的开始时刻为0分03秒，结束时刻为3分58秒，那么多媒体服务器将伴奏能量频率的开始时刻0分03秒作为音频波形特征开始时刻，将伴奏能量频率的结束时刻3分58秒作为音频波形特征结束时刻，将该伴奏能量频率的开始时刻0分03秒与该伴奏能量频率的结束时刻3分58秒之间的时间轴长度3分55秒，作为该音频播放时间轴的长度，可以得到该音频波形特征的播放时间轴。

3c03、多媒体服务器根据原声能量频率在播放时间轴中出现的开始时刻和结束时刻得到音频波形特征中语音信号的开始时刻和结束时刻。

多媒体服务器根据该多媒体文件的音频波形中，原声能量频率的开始时刻和结束时刻，确定该多媒体文件的语音信号的开始时刻和结束时刻。

比如，多媒体服务器获取到原声能量频率的开始时刻为0分20秒，结束时刻为3分28秒，多媒体文件的时间轴长度为3分56秒，则多媒体服务器可以确定该多媒体文件中的语音信号的开始时刻为：该多媒体文件播放的第20秒，结束时刻为：该多媒体文件播放的第3分28秒。

再比如，多媒体服务器通过获取得到原声能量频率的开始时刻为0分0秒，结束时刻为3分28秒，多媒体文件的时间轴长度为3分52秒，则多媒体服务器可以确定该多媒体文件中的语音信号的开始时刻为：该多媒体文件播放的第0秒，结束时刻为：该多媒体文件播放的第3分28秒。

3a11、多媒体服务器根据该多媒体文件中语音信号的开始时刻和结束时刻以及该字幕文件中的播放时间轴，确定该字幕文件是否存在时序问题。

多媒体服务器将确定的语音信号的开始时刻和结束时刻，与字幕文件中的播放的开始时刻和结束时刻进行对比，根据语音信号的开始时刻和结束时刻与字幕文件中的播放时间轴是否对齐，确定该字幕文件是否存在时序问题。

比如，多媒体服务器确定的语音信号的开始时刻为0分58秒，结束时刻为4分01秒，字幕文件的开始时刻为0分32秒，结束时刻为3分35秒，此时语音信号开始时刻和结束时刻与字幕文件的播放时间轴没有对齐，多媒体服务器可以确定此时该字幕文件存在时序问题。而当多媒体服务器确定的语音信号的开始时刻为0分58秒，结束时刻为4分01秒，字幕文件的开始时刻和结束时刻分别为0分58秒和4分01秒时，此时语音信号开始时刻和结束时刻与字幕文件的播放时间轴是对齐的，则多媒体服务器可以确定此时该字幕文件不存在时序问题。

3a12、若该字幕文件存在时序问题，则多媒体服务器根据时序问题对该字幕文件进行校正。

具体地，若该字幕文件存在时序问题，则多媒体服务器将该多媒体文件的标识和错误类型发送至目标终端，使目标终端校正人员根据该多媒体文件的标识和错误类型，对该字幕文件进行校正。

以步骤310中的例子为例，若多媒体服务器确定的语音信号的开始时刻为0分58秒，结束时刻为4分01秒，字幕文件的开始时刻为0分32秒，结束时刻为3分35秒，此时语音信号开始时刻和结束时刻与字幕文件中的播放时间轴没有对齐，多媒体服务器可以确定此时该字幕文件存在时序问题。进而多媒体服务器将该多媒体文件的标识(如字幕文件的名称)和错误类型(时序问题)发送至目标终端，目标终端人员根据该标识和错误类型，将字幕文件的开始时刻延迟26秒，使之与语音信号开始时刻相同，进而使整个字幕文件的播放时间轴与语音信号的开始时刻和结束时刻对齐。

需要说明的是，若该字幕文件不存在时序问题，则多媒体服务器不做处理，或直接进行下一个多媒体文件的字幕文件的校正，该具体过程与上述相同或类似，本实施例在此不再赘述。

本发明实施例提供的字幕校正方法，通过获取多媒体文件的反馈数据，该反馈数据是针对该多媒体文件的字幕文件的错误所反馈的数据；根据该反馈数据识别该多媒体文件的字幕文件的错误类型；根据该错误类型对该多媒体文件的字幕文件进行校正。采用本发明实施例提供的方案，通过识别反馈数据中的错误类型，根据该错误类型对字幕文件进行校正，提高了字幕文件的正确性。进一步地，通过训练错误类型分类器，将至少一个关键词输入错误类型分类器中，识别出相应的错误类型，根据错误类型对字幕文件进行校正，避免了人工识别错误命中率低的问题，提高了识别错误的命中率，减小了工作量，进一步地，当字幕文件没有反馈数据时，通过根据多媒体文件的波形特征分析，判断字幕文件是否存在时序问题，进而对该字幕文件进行校正，保证了对字幕文件校正的全面性。

图5是本发明实施例提供的一种字幕校正装置的结构示意图，参见图5，该装置具体包括：第一获取模块501、第一识别模块502和字幕校正模块503。

第一获取模块501用于获取多媒体文件的反馈数据，该反馈数据是针对该多媒体文件的字幕文件的错误所反馈的数据；该第一获取模块501与第一识别模块502相连，第一识别模块502用于根据该反馈数据识别该多媒体文件的字幕文件的错误类型；该第一识别模块502与字幕校正模块503相连，字幕校正模块503用于根据该错误类型对该多媒体文件的字幕文件进行校正。

可选地，该第一识别模块包括：

第一提取单元，用于当该反馈数据为按钮反馈数据时，提取该按钮反馈数据中携带的错误类型，作为该字幕文件的错误类型；该按钮反馈数据是通过按压错误类型按钮上报的反馈数据，每个错误类型按钮对应无词、时序问题、内容问题和无错误共四种错误类型中的任意一种。

可选地，该第一识别模块，包括：

第二提取单元，用于当该反馈数据为文本反馈数据时，提取该文本反馈数据中的至少一个关键词，该文本反馈数据是通过文本上报的反馈数据；

错误识别单元，用于将该至少一个关键词输入错误类型分类器中，识别出对应的错误类型；该错误类型分类器是预先通过文本反馈数据样本集训练得到的，该错误类型包括无词、时序问题、内容问题和无错误中的至少一种。

可选地，该装置还包括：

第二获取模块，用于获取至少一个文本反馈数据以及每个文本反馈数据所对应的错误类型，生成该文本反馈数据样本集；

关键词提取模块，用于提取该文本反馈数据样本集中文本反馈数据的关键词，得到至少一个关键词；

概率计算模块，用于计算每个关键词在不同错误类型中出现的概率，筛选出每个错误类型所对应的特征关键词；

分类器训练模块，用于根据每个错误类型所对应的特征关键词以及每个特征关键词在该错误类型中出现的概率，训练得到该错误类型分类器。

可选地，该字幕校正模块包括：

搜索单元，用于当识别出的该错误类型为无词时，搜索与该多媒体文件匹配的字幕文件；

发送单元，用于当识别出的该错误类型为时序问题和/或内容问题时，向目标终端发送该多媒体文件的标识和错误类型，该目标终端为校正人员所使用的终端；

校正单元，用于当识别出的该错误类型为无错误时，不做处理或继续下一个多媒体文件的字幕文件的校正。

可选地，该装置还包括：

波形分析模块，用于在获取该多媒体文件的反馈数据失败时，分析该多媒体文件的音频波形特征；

时刻确定模块，用于根据该多媒体文件的音频波形特征确定该多媒体文件中语音信号的开始时刻和结束时刻；

问题确定模块，用于根据该多媒体文件中语音信号的开始时刻和结束时刻以及该字幕文件中的播放时间轴确定该字幕文件是否存在时序问题。

可选地，该第一获取模块包括：

获取单元，用于获取至少一个用户针对该多媒体文件上报的至少一个反馈数据；

过滤单元，用于根据预设条件对该至少一个反馈数据进行过滤，得到有效的反馈数据；该预设条件包括：

可选地，该装置还包括：

类型计算模块，用于当针对该多媒体文件的字幕文件所对应的反馈数据不止1个时，计算识别出的各个错误类型的出现概率，选择出现概率达到预定概率的错误类型作为该多媒体文件的字幕文件所对应的错误类型。

本发明实施例提供的字幕校正装置，通过获取多媒体文件的反馈数据，该反馈数据是针对该多媒体文件的字幕文件的错误所反馈的数据；根据该反馈数据识别该多媒体文件的字幕文件的错误类型；根据该错误类型对该多媒体文件的字幕文件进行校正。采用本发明实施例提供的方案，通过识别反馈数据中的错误类型，根据该错误类型对字幕文件进行校正，提高了字幕文件的正确性。进一步地，通过训练错误类型分类器，将至少一个关键词输入错误类型分类器中，识别出相应的错误类型，根据错误类型对字幕文件进行校正，避免了人工识别错误命中率低的问题，提高了识别错误的命中率，减小了工作量，进一步地，当字幕文件没有反馈数据时，通过根据多媒体文件的波形特征分析判断字幕文件是否存在时序问题，进而对该字幕文件进行校正，保证了对字幕文件校正的全面性。

需要说明的是：上述实施例提供的字幕校正装置在校正字幕时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的字幕校正装置与字幕校正方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种字幕校正方法，其特征在于，所述方法包括：

获取多媒体文件的反馈数据，所述反馈数据是针对所述多媒体文件的字幕文件的错误所反馈的数据；

根据所述反馈数据识别所述多媒体文件的字幕文件的错误类型；

根据所述错误类型对所述多媒体文件的字幕文件进行校正；

所述获取多媒体文件的反馈数据，包括：

获取至少一个用户针对所述多媒体文件上报的至少一个反馈数据；

根据预设条件对所述至少一个反馈数据进行过滤，得到有效的反馈数据；所述预设条件包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述反馈数据识别所述多媒体文件的字幕文件的错误类型，包括：

若所述反馈数据为按钮反馈数据，则提取所述按钮反馈数据中携带的错误类型，作为所述字幕文件的错误类型，所述按钮反馈数据是通过按压错误类型按钮上报的反馈数据，每个错误类型按钮对应无词、时序问题、内容问题和无错误共四种错误类型中的任意一种。

3.根据权利要求1所述的方法，其特征在于，所述根据所述反馈数据识别所述多媒体文件的字幕文件的错误类型，包括：

若所述反馈数据为文本反馈数据，则提取所述文本反馈数据中的至少一个关键词，所述文本反馈数据是通过文本上报的反馈数据；

将所述至少一个关键词输入错误类型分类器中，识别出对应的错误类型；所述错误类型分类器是预先通过文本反馈数据样本集训练得到的，所述错误类型包括无词、时序问题、内容问题和无错误中的至少一种。

4.根据权利要求3所述的方法，其特征在于，所述将所述至少一个关键词输入错误类型分类器中，识别出对应的错误类型之前，还包括：

获取至少一个文本反馈数据以及每个文本反馈数据所对应的错误类型，生成所述文本反馈数据样本集；

提取所述文本反馈数据样本集中文本反馈数据的关键词，得到至少一个关键词；

根据每个错误类型所对应的特征关键词以及每个特征关键词在所述错误类型中出现的概率，训练得到所述错误类型分类器。

5.根据权利要求1至4任一所述的方法，其特征在于，所述根据所述错误类型对所述多媒体文件的字幕文件进行校正，包括：

若识别出的所述错误类型为无词，则搜索与所述多媒体文件匹配的字幕文件；

若识别出的所述错误类型为时序问题和/或内容问题，则向目标终端发送所述多媒体文件的标识和错误类型，所述目标终端为校正人员所使用的终端；

若识别出的所述错误类型为无错误，不做处理或继续下一个多媒体文件的字幕文件的校正。

6.根据权利要求1至4任一所述的方法，其特征在于，所述方法还包括：

在获取所述多媒体文件的反馈数据失败时，分析所述多媒体文件的音频波形特征；

根据所述多媒体文件的音频波形特征确定所述多媒体文件中语音信号的开始时刻和结束时刻；

根据所述多媒体文件中语音信号的开始时刻和结束时刻以及所述字幕文件中的播放时间轴确定所述字幕文件是否存在时序问题。

7.根据权利要求1至4任一所述的方法，其特征在于，所述根据所述错误类型对所述多媒体文件的字幕文件进行校正之前，还包括：

若针对所述多媒体文件的字幕文件所对应的反馈数据不止1个，则计算识别出的各个错误类型的出现概率，选择出现概率达到预定概率的错误类型作为所述多媒体文件的字幕文件所对应的错误类型。

8.一种字幕校正装置，其特征在于，所述装置包括：

第一获取模块，用于获取多媒体文件的反馈数据，所述反馈数据是针对所述多媒体文件的字幕文件的错误所反馈的数据；

第一识别模块，用于根据所述反馈数据识别所述多媒体文件的字幕文件的错误类型；

字幕校正模块，用于根据所述错误类型对所述多媒体文件的字幕文件进行校正；

所述第一获取模块包括：

获取单元，用于获取至少一个用户针对所述多媒体文件上报的至少一个反馈数据；

过滤单元，用于根据预设条件对所述至少一个反馈数据进行过滤，得到有效的反馈数据；所述预设条件包括：

9.根据权利要求8所述的装置，其特征在于，所述第一识别模块包括：

第一提取单元，用于当所述反馈数据为按钮反馈数据时，提取所述按钮反馈数据中携带的错误类型，作为所述字幕文件的错误类型；所述按钮反馈数据是通过按压错误类型按钮上报的反馈数据，每个错误类型按钮对应无词、时序问题、内容问题和无错误共四种错误类型中的任意一种。

10.根据权利要求8所述的装置，其特征在于，所述第一识别模块，包括：

第二提取单元，用于当所述反馈数据为文本反馈数据时，提取所述文本反馈数据中的至少一个关键词，所述文本反馈数据是通过文本上报的反馈数据；

错误识别单元，用于将所述至少一个关键词输入错误类型分类器中，识别出对应的错误类型；所述错误类型分类器是预先通过文本反馈数据样本集训练得到的，所述错误类型包括无词、时序问题、内容问题和无错误中的至少一种。

11.根据权利要求10所述的装置，其特征在于，所述装置还包括：

第二获取模块，用于获取至少一个文本反馈数据以及每个文本反馈数据所对应的错误类型，生成所述文本反馈数据样本集；

关键词提取模块，用于提取所述文本反馈数据样本集中文本反馈数据的关键词，得到至少一个关键词；

分类器训练模块，用于根据每个错误类型所对应的特征关键词以及每个特征关键词在所述错误类型中出现的概率，训练得到所述错误类型分类器。

12.根据权利要求8至11任一所述的装置，其特征在于，所述字幕校正模块包括：

搜索单元，用于当识别出的所述错误类型为无词时，搜索与所述多媒体文件匹配的字幕文件；

发送单元，用于当识别出的所述错误类型为时序问题和/或内容问题时，向目标终端发送所述多媒体文件的标识和错误类型，所述目标终端为校正人员所使用的终端；

校正单元，用于当识别出的所述错误类型为无错误时，不做处理或继续下一个多媒体文件的字幕文件的校正。

13.根据权利要求8至11任一所述的装置，其特征在于，所述装置还包括：

波形分析模块，用于在获取所述多媒体文件的反馈数据失败时，分析所述多媒体文件的音频波形特征；

时刻确定模块，用于根据所述多媒体文件的音频波形特征确定所述多媒体文件中语音信号的开始时刻和结束时刻；

问题确定模块，用于根据所述多媒体文件中语音信号的开始时刻和结束时刻以及所述字幕文件中的播放时间轴确定所述字幕文件是否存在时序问题。

14.根据权利要求8至11任一所述的装置，其特征在于，所述装置还包括：

类型计算模块，用于当针对所述多媒体文件的字幕文件所对应的反馈数据不止1个时，计算识别出的各个错误类型的出现概率，选择出现概率达到预定概率的错误类型作为所述多媒体文件的字幕文件所对应的错误类型。