CN104093037B - 字幕校正方法和装置 - Google Patents

字幕校正方法和装置 Download PDF

Info

Publication number
CN104093037B
CN104093037B CN201410254927.8A CN201410254927A CN104093037B CN 104093037 B CN104093037 B CN 104093037B CN 201410254927 A CN201410254927 A CN 201410254927A CN 104093037 B CN104093037 B CN 104093037B
Authority
CN
China
Prior art keywords
type
error
feedback data
file
multimedia
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410254927.8A
Other languages
English (en)
Other versions
CN104093037A (zh
Inventor
傅鸿城
赵伟
曹海峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201410254927.8A priority Critical patent/CN104093037B/zh
Publication of CN104093037A publication Critical patent/CN104093037A/zh
Application granted granted Critical
Publication of CN104093037B publication Critical patent/CN104093037B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明公开了一种字幕校正方法和装置,属于多媒体技术领域。所述方法包括:获取多媒体文件的反馈数据,所述反馈数据是针对所述多媒体文件的字幕文件的错误所反馈的数据;根据所述反馈数据识别所述多媒体文件的字幕文件的错误类型;根据所述错误类型对所述多媒体文件的字幕文件进行校正。所述装置包括:第一获取模块、第一识别模块和字幕校正模块。本发明通过获取字幕文件的反馈数据,识别该反馈数据中的错误类型,根据该错误类型对字幕文件进行校正,提高了字幕文件的正确性。

Description

字幕校正方法和装置
技术领域
本发明涉及多媒体技术领域,特别涉及一种字幕校正方法和装置。
背景技术
在播放多媒体文件时,字幕可以帮助人们获得更高的使用体验。由于多媒体文件包括音频文件和视频文件两种,在音频文件为歌曲时,字幕也可以称之为歌词。
以多媒体文件是歌曲为例,歌词是一首歌曲中的文词部分,常见的歌词有TXT(Text,文本)歌词、LRC(lyric,歌词)歌词和QRC(QQlyric,QQ歌词)歌词三种。其中,TXT歌词是纯文本类型的歌词;LRC歌词为一种在歌曲播放时能够同步显示且显示定位到逐行的歌词;QRC歌词为一种在歌曲播放时能够同步显示且显示定位到逐字的歌词,显然QRC歌词的同步显示更精确。LRC歌词和QRC歌词的实现方法均是基于时间轴同步歌词和歌曲,该方法要求每段歌词的内容沿着播放时间轴对齐,而由于歌词是人工编辑的,其内容和播放时间轴可能出现不对齐的现象,另外还可能存在部分歌曲无词或歌词内容错误的问题,因此需要对歌词进行校正。
现有技术中,一般采用人工校正的方式来实现对歌词的校正。人工校正的方式包括人工判断歌词的错误类型,以及在出现无词问题时,采用人工的方式对歌词进行填充以实现对歌词的校正。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:人工判断歌词的错误类型时识别错误的命中率较低且工作量大。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种字幕校正方法和装置。该技术方案如下:
一方面,提供了一种字幕校正方法,该方法包括:
获取多媒体文件的反馈数据,该反馈数据是针对该多媒体文件的字幕文件的错误所反馈的数据;
根据该反馈数据识别该多媒体文件的字幕文件的错误类型;
根据该错误类型对该多媒体文件的字幕文件进行校正。
另一方面,提供了一种字幕校正装置,该装置包括:
第一获取模块,用于获取多媒体文件的反馈数据,该反馈数据是针对该多媒体文件的字幕文件的错误所反馈的数据;
第一识别模块,用于根据该反馈数据识别该多媒体文件的字幕文件的错误类型;
字幕校正模块,用于根据该错误类型对该多媒体文件的字幕文件进行校正。
本发明实施例提供的技术方案带来的有益效果是:
本发明实施例提供的字幕校正方法和装置,通过获取多媒体文件的反馈数据,该反馈数据是针对该多媒体文件的字幕文件的错误所反馈的数据;根据该反馈数据识别该多媒体文件的字幕文件的错误类型;根据该错误类型对该多媒体文件的字幕文件进行校正。采用本发明实施例提供的方案,通过识别反馈数据中的错误类型,根据该错误类型对字幕文件进行校正,提高了字幕文件的正确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种字幕校正方法所涉及的实施环境;
图2是本发明实施例提供的一种字幕校正方法的方法流程图;
图3a是本发明实施例提供的一种字幕校正方法的方法流程图;
图3b是本发明实施例提供的一种数据反馈界面图;
图3c是本发明实施例提供的一种根据音频波形特征确定语音信号的开始时刻和结束时刻方法的方法流程图;
图4是本发明实施例提供的一种错误类型分类器训练方法的方法流程图;
图5是本发明实施例提供的一种字幕校正装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
图1是本发明实施例提供的一种字幕校正方法所涉及的实施环境。参见图1,该实施环境包括至少一个终端120和至少一个服务器140。
终端120,可以是具备多媒体文件播放功能的电子设备,该电子设备可以是智能手机、平板电脑、智能电视等等。
终端120与服务器140之间可以通过无线网络相连。
服务器140,可以是一台服务器,或者由若干台服务器组成的服务器集群,或者是一个云计算服务中心。该服务器140是可以向终端120提供字幕校正服务的服务器。
图2是本发明实施例提供的一种字幕校正方法流程图。参见图2,本实施例以该字幕校正方法应用于图1所示服务器140中来举例说明。该方法流程具体包括:
201、获取多媒体文件的反馈数据,该反馈数据是针对该多媒体文件的字幕文件的错误所反馈的数据。
202、根据该反馈数据识别该多媒体文件的字幕文件的错误类型。
203、根据该错误类型对该多媒体文件的字幕文件进行校正。
采用本发明实施例提供的方案,通过识别反馈数据中的错误类型,根据该错误类型对字幕文件进行校正,提高了字幕文件的正确性。
可选地,根据该反馈数据识别该多媒体文件的字幕文件的错误类型,包括:
若该反馈数据为按钮反馈数据,则提取该按钮反馈数据中携带的错误类型,作为该字幕文件的错误类型;该按钮反馈数据是通过按压错误类型按钮上报的反馈数据,每个错误类型按钮对应无词、时序问题、内容问题和无错误共四种错误类型中的任意一种。
可选地,该根据该反馈数据识别该多媒体文件的字幕文件的错误类型,包括:
若该反馈数据为文本反馈数据,则提取该文本反馈数据中的至少一个关键词,该文本反馈数据是通过文本上报的反馈数据;
将该至少一个关键词输入错误类型分类器中,识别出对应的错误类型;该错误类型分类器是预先通过文本反馈数据样本集训练得到的,该错误类型包括无词、时序问题、内容问题和无错误中的至少一种。
可选地,该将该至少一个关键词输入错误类型分类器中,识别出对应的错误类型之前,还包括:
获取至少一个文本反馈数据以及每个文本反馈数据所对应的错误类型,生成该文本反馈数据样本集;
提取该文本反馈数据样本集中文本反馈数据的关键词,得到至少一个关键词;
计算每个关键词在不同错误类型中出现的概率,筛选出每个错误类型所对应的特征关键词;
根据每个错误类型所对应的特征关键词以及每个特征关键词在该错误类型中出现的概率,训练得到该错误类型分类器。
可选地,该根据该错误类型对该多媒体文件的字幕文件进行校正,包括:
若识别出的该错误类型为无词,则搜索与该多媒体文件匹配的字幕文件;
若识别出的该错误类型为时序问题和/或内容问题,则向目标终端发送该多媒体文件的标识和错误类型,该目标终端为校正人员所使用的终端;
若识别出的该错误类型为无错误,不做处理或继续下一个多媒体文件的字幕文件的校正。
可选地,该方法还包括:
在获取该多媒体文件的反馈数据失败时,分析该多媒体文件的音频波形特征;
根据该多媒体文件的音频波形特征确定该多媒体文件中语音信号的开始时刻和结束时刻;
根据该多媒体文件中语音信号的开始时刻和结束时刻以及该字幕文件中的播放时间轴确定该字幕文件是否存在时序问题。
可选地,该获取多媒体文件的反馈数据,包括:
获取至少一个用户针对该多媒体文件上报的至少一个反馈数据;
根据预设条件对该至少一个反馈数据进行过滤,得到有效的反馈数据;该预设条件包括:
当前反馈数据所对应的用户所对应的等级高于预定等级;和/或,
当前反馈数据所对应的用户在指定时间段内播放多媒体文件的频率高于预定频率;和/或,
当前反馈数据所对应的用户历史反馈的反馈数据的有效性高于预定阈值。
可选地,该根据该错误类型对该多媒体文件的字幕文件进行校正之前,还包括:
若针对该多媒体文件的字幕文件所对应的反馈数据不止1个,则计算识别出的各个错误类型的出现概率,选择出现概率达到预定概率的错误类型作为该多媒体文件的字幕文件所对应的错误类型。
上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。
图3a是本发明实施例提供的一种字幕校正方法流程图。参见图3a,本实施例以该字幕校正方法应用于图1所示服务器140中来举例说明。该方法流程具体包括:
3a01、多媒体服务器获取多媒体文件的至少一个反馈数据,该反馈数据是针对该多媒体文件的字幕文件的错误所反馈的数据。
在本发明实施例中,终端用户在发现多媒体文件的字幕文件有错误时,可以通过终端上的按钮或者文本输入框,向多媒体服务器上报发现的错误。多媒体服务器可以通过接收终端用户上报的反馈数据,实现对反馈数据的获取。该反馈数据还可以由特定服务器采集,该特定服务器可以是该多媒体服务器的一个特定功能单元,也可以是专门用于采集终端用户的反馈数据的服务器,多媒体服务器通过从该特定服务器提取终端用户的反馈数据,实现对该反馈数据的获取。
多媒体服务器在接收反馈数据时,接收的反馈数据为至少一个终端用户针对当前对媒体文件上报的至少一个反馈数据。该反馈数据是针对该多媒体文件的字幕文件的错误所反馈的数据。
3a02、多媒体服务器根据预设条件对该至少一个反馈数据进行过滤,得到有效的反馈数据。
在本发明实施例中,预设条件用于衡量终端用户反馈数据的有效性。
具体地,该预设条件可以为当前反馈数据所对应的终端用户所对应的等级高于预定等级。其中,该预定等级用于衡量终端用户等级的高低。当终端用户的等级比预定等级高时,则说明该终端用户的等级较高;当终端用户的等级比预定等级低时,则说明该终端用户的等级较低。
该预设条件还可以为当前反馈数据所对应的终端用户在指定时间段内播放多媒体文件的频率高于预定频率。其中,该预定频率用于衡量终端用户在指定时间段内,播放该多媒体文件次数的多少。当在指定时间段内,终端用户对该多媒体文件的播放频率比预定频率高时,则说明该终端用户在指定时间段内播放该多媒体文件的次数较多;当在指定时间段内,终端用户对该多媒体文件的播放频率比预定频率低时,则说明该终端用户在指定时间段内播放该多媒体文件的次数较少。
该预设条件还可以为当前反馈数据所对应的终端用户历史反馈的反馈数据的有效性高于预定阈值。其中,该预定阈值用于衡量终端用户历史反馈的反馈数据的有效性。当终端用户历史反馈的反馈数据的有效性比预定阈值高时,则说明该终端用户历史反馈的反馈数据的有效性较高;当终端用户历史反馈的反馈数据的有效性比预定阈值低时,则说明该终端用户历史反馈的反馈数据的有效性较低。
多媒体服务器根据预设条件对该至少一个反馈数据进行过滤,得到有效的反馈数据。具体地,多媒体服务器根据上述预设条件,将优于该预设条件的反馈数据作为有效的反馈数据,舍弃次于预设条件的反馈数据。
如,当预设条件为当前反馈数据所对应的终端用户所对应的等级高于预定等级时,多媒体服务器将较高等级的终端用户的反馈数据作为有效的反馈数据,舍弃等级较低的终端用户的反馈数据。
如,当该预设条件为当前反馈数据所对应的终端用户在指定时间段内播放多媒体文件的频率高于预定频率时,多媒体服务器将在指定时间段内对该多媒体文件播放次数较多的终端用户的反馈数据作为有效的反馈数据,舍弃对该多媒体文件播放次数较少的终端用户的反馈数据。
如,当该预设条件为当前反馈数据所对应的终端用户历史反馈的反馈数据的有效性高于预定阈值时,多媒体服务器将历史反馈的反馈数据的有效性较高的终端用户的反馈数据作为有效的反馈数据,舍弃历史反馈的反馈数据的有效性较低的终端用户的反馈数据。
需要说明的是,上述预设条件仅是示例性的,并不能用来限制本发明。在本发明提供的其它实施例中,该预设条件还可以为其它的预设条件,均以能表示用户反馈数据的有效性为准,这里不再赘述。
3a03、多媒体服务器根据该反馈数据识别该多媒体文件的字幕文件的错误类型。
图3b是本发明实施例提供的一种数据反馈界面图。参见图3b,该数据反馈界面包括按钮反馈和文本反馈。该按钮反馈包括一个下拉菜单,该下拉菜单至少包括四个选项,分别对应错误类型无词、时序问题、内容问题和无错误中的一种,该按钮反馈还包括一个“提交”按钮,终端用户可以通过点击该下拉菜单中的小三角,查看并选择错误类型,当终端用户想要反馈某种错误类型时,可以通过下拉菜单,选中要反馈的错误类型,并按压“提交”按钮,向多媒体服务器上报当前多媒体文件的字幕文件的按钮反馈数据。该文本反馈包括一个文本输入框、一个“提交”按钮和一个“取消”按钮,终端用户可以在该文本输入框中输入文本反馈数据,并按压“提交”按钮,以文本的形式向多媒体服务器上报反馈数据,终端用户还可以通过按压“取消”按钮,取消当前输入的文本反馈数据。
由上述可知,该反馈数据为按钮反馈数据和文本反馈数据中至少一种。该按钮反馈数据是终端用户通过按压界面上的错误类型按钮上报的反馈数据,该文本反馈数据是终端用户通过文本上报的反馈数据。
3a04、若该反馈数据为按钮反馈数据,则提取该按钮反馈数据中携带的错误类型,作为该字幕文件的错误类型。
由于按钮反馈数据是终端用户通过按压终端数据反馈界面上的错误类型按钮向多媒体服务器上报的,且在终端界面上,每一种错误类型都有对应的错误类型按钮,因此,多媒体服务器接收到的反馈数据中携带了错误类型,多媒体服务器可直接将该携带的错误类型,作为该字幕文件的错误类型。
如,在图3b所示的数据反馈界面中,当终端用户按压“无词”按钮时,多媒体服务器在接收到该终端用户的反馈数据时,该反馈数据就携带错误类型无词,因此,多媒体服务器将该无词,作为该终端用户对该对媒体文件对应的字幕文件所上报的错误类型。与此同理,可以得到错误类型时序问题、内容问题和无错误的错误类型,这里不再赘述。
3a05、多媒体服务器根据错误类型对该字幕文件进行校正。
该根据错误类型对字幕文件进行校正包括以下三种情况:
第一种情况,若识别出的错误类型为无词,多媒体服务器搜索与该多媒体文件匹配的字幕。
具体地,若多媒体服务器识别出错误类型为无词,该多媒体服务器根据该多媒体文件的名称,从网络服务器搜索与该多媒体文件匹配的字幕文件,并获取该搜索到的字幕文件,实现对该字幕文件的校正。
比如,若当前多媒体文件为音频文件“爱我中华”,多媒体服务器根据该音频文件的名称“爱我中华”,从网络服务器搜索与该“爱我中华”匹配的字幕文件,并获取该字幕文件。
第二种情况,若识别出的该错误类型为时序问题和/或内容问题,则多媒体服务器向目标终端发送该多媒体文件的标识和错误类型,该目标终端为校正人员所使用的终端。
具体地,当多媒体服务器识别出错误类型为时序问题和/或内容问题时,该多媒体服务器向目标终端发送该多媒体文件的标识和错误类型,该目标终端接收到多媒体服务器发送的该多媒体文件的标识和错误类型时,目标终端的校正人员根据该多媒体文件的标识和错误类型,对该多媒体文件进行人工校正。
具体地,当该错误类型为时序问题时,校正人员通过调节该字幕文件的时间轴,对该字幕文件进行校正。如,当多媒体文件为音频文件“爱我中华”,且该错误类型为时序问题时,校正人员将当前音频文件对应的字幕文件的开始时刻与该音频文件所对应的正确的字幕文件的开始时刻对齐,实现对该字幕文件的校正。
当该错误类型为内容问题时,校正人员通过对该字幕文件内容的修改,对该字幕文件进行校正。如,当多媒体文件为音频文件“爱我中华”,且该错误类型为内容问题时,校正人员将当前音频文件对应的字幕文件与正确的字幕文件进行对比,找出具体的错误,并对该错误进行修改,如,当校正人员找到“中国凶姿英发”时,通过与正确的字幕文件“中华雄姿英发”进行对比,可以发现该句中的错误为“国”和“凶”,于是校正人员就可以将“国”修改为“华”,将“凶”修改为“雄”,实现对该字幕文件的校正。
第三种情况,若识别出的该错误类型为无错误,多媒体服务器不做处理或继续下一个多媒体文件的字幕文件的校正。
当多媒体服务器识别出的错误类型为无错误时,不做处理,或直接进行下一个多媒体文件字幕文件的校正。
需要说明的是,在本发明实施例中,将无错误也定义为一种错误类型,事实上,在本发明提供的其它实施例中,还可以不对该无错误进行定义,或直接将其定义为正确类型,这里不再赘述。
还需要说明的是,若针对多媒体文件的字幕文件所对应的反馈数据不止1个,那么,在错误类型识别过程中,多媒体服务器识别出不止1个错误类型,则多媒体服务器计算该识别出的各个错误类型的出现概率,选择出现概率达到预定概率的错误类型作为该多媒体文件的字幕文件所对应的错误类型。其中,预定概率用于衡量识别到的错误类型的正确性,当计算得到的概率大于预定概率时,则认为此时多媒体服务器识别到的错误类型是正确的,当计算得到的概率小于预定概率时,则认为此时多媒体服务器识别到的错误类型是错误的。假设预定概率为P,多媒体服务器识别到的某个错误类型出现的概率为P1,当P1>P时,则认为此时多媒体服务器识别到的错误类型是正确的,当P1<P时,则认为此时多媒体服务器识别到的错误类型是错误的。
如当多媒体服务器识别到的错误类型为时序问题和内容问题,多媒体服务器计算得错误类型时序问题出现的概率为P2,错误类型内容问题出现的概率为P3,且P2>P,P3<P,那么此时多媒体服务器就认为识别到的时序问题是正确的,而识别到的内容问题是错误的。则多媒体服务器将时序问题作为该字幕文件的错误类型,只对时序问题进行校正,而不校正内容问题。
如当多媒体服务器识别到的错误类型为时序问题和内容问题,多媒体服务器计算得错误类型时序问题出现的概率为P2,错误类型内容问题出现的概率为P3,且P2>P,P3>P,那么此时多媒体服务器就认为识别到的时序问题和内容问题都是正确的。则多媒体服务器就将时序问题和内容问题同时作为该字幕文件的错误类型,并对该时序问题和内容问题进行校正。
如当多媒体服务器识别到的错误类型为时序问题和内容问题,多媒体服务器计算得错误类型时序问题出现的概率为P2,错误类型内容问题出现的概率为P3,且P2<P,P3<P,那么此时多媒体服务器就认为识别到的时序问题和内容问题都是错误的。即,多媒体服务器认为该字幕文件是正确的,不对该字幕文件进行校正。
3a06、若该反馈数据为文本反馈数据,多媒体服务器提取该文本反馈数据中的至少一个关键词,该文本反馈数据是通过文本上报的反馈数据。
在图3b所示的数据反馈界面中,当终端用户需要以文本的形式反馈数据时,可以在文本框中输入文本反馈数据,如图3b中所示,此时该终端用户输入的文本反馈数据为“唱到第3句的时候,不显示词了”,终端用户可以按压“提交”按钮,向多媒体服务器上报该文本反馈数据,也可以按压“取消”按钮,取消编辑的文本反馈数据。
由于文本反馈数据是终端用户通过终端界面上的文本输入框向多媒体终端上报的,同样的错误类型可以有多种表达语句,且不同终端用户的语言习惯存在差异,因此,不同用户上报的文本反馈数据不同。
当多媒体服务器获取到的反馈数据为文本反馈数据时,多媒体服务器对该文本反馈数据进行分词,提取该文本反馈数据中的关键词,进而根据该关键词对上报的错误类型进行识别。
具体地,多媒体服务器对获取到的文本反馈数据进行分词处理,将对错误类型的识别贡献较大的词语,作为关键词,舍弃对错误类型的识别贡献较小的词语。该对错误类型的识别贡献较大的词语如“没词”、“时间”、“内容”等,该对错误类型的识别贡献较小的词语如“了”、“的”、“可以”等。如,当获取到的文本反馈数据为“没有词了”时,多媒体服务器对该文本反馈数据进行分词处理,得到“没有”、“词”和“了”三个词语,由于在对错误类型无词的识别时,“没有”和“词”的贡献较大,而“了”的贡献较小,因此,多媒体服务器将该“没有”和、“词”作为关键词,舍弃“了”。
3a07、多媒体服务器将该至少一个关键词输入错误类型分类器中,识别出对应的错误类型。
多媒体服务器将提取到的文本反馈数据的各个关键词输入错误类型分类器,该错误类型分类器通过计算各个关键词在不同错误类型中出现的概率,识别出这些关键词所对应的错误类型。多媒体服务器将出现概率最高的错误类型,作为该字幕文件的错误类型。
具体地,当该错误类型分类器为贝叶斯(Bayes)分类器时,多媒体服务器将该至少一个关键词输入该Bayes分类器中,Bayes分类器根据公式
arg max c p ( C = c ) &Pi; i = 1 n p ( F i = f i | C = c )
计算各个关键词在不同错误类型中出现的概率,识别出这些关键词所对应的错误类型。在以上公式中,C表示该反馈数据的关键词所对应的错误类型,c即为无词、时序问题、内容问题和无错误。f1,...,fn分别表示关键词1...n出现的次数。
需要说明的是,在本发明实施例中,在多媒体服务器将至少一个关键词输入错误类型分类器中,识别出对应的错误类型之前,多媒体服务器需要通过文本反馈数据的样本集来训练得到该错误类型分类器。
图4是本发明实施例提供的一种错误类型分类器训练方法流程图。参见图4,该错误类型分类器训练的过程包括:
401、多媒体服务器获取至少一个文本反馈数据以及每个文本反馈数据所对应的错误类型,生成该文本反馈数据样本集。
在本发明实施例中,终端用户在发现多媒体文件的字幕文件有错误时,可以通过终端上的按钮或者文本输入框,向多媒体服务器上报终端用户发现的错误,多媒体服务器可以通过接收终端用户上报的反馈数据,实现对反馈数据的获取。该反馈数据还可以由特定服务器采集,该特定服务器可以是该多媒体服务器的一个特定功能单元,也可以是专门用于采集终端用户的反馈数据的服务器,多媒体服务器通过从该特定服务器提取终端用户的反馈数据,实现对该反馈数据的获取。
在本发明实施例中,多媒体服务器在获取到至少一个文本反馈数据之后,后台对该获取到的文本反馈数据进行人工分类,得到每个文本反馈数据的错误类型。如,当多媒体服务器获取到100条文本反馈数据,且该100条文本反馈数据对应的错误类型包括10条无词、35条时序问题、50条内容问题和5条无错误时,通过人工分类就可以得到该结果。
多媒体服务器根据获取到的文本反馈数据和每个文本反馈数据对应的错误类型,生成文本反馈数据样本集。
402、多媒体服务器提取该文本反馈数据样本集中文本反馈数据的关键词,得到至少一个关键词。
具体地,多媒体服务器对该文本反馈数据样本集中的反馈数据进行分词处理,将对错误类型的识别贡献较大的词语,作为关键词,舍弃对错误类型的识别贡献较小的词语。
如,当获取到的文本反馈数据为“时间有错误,对不上”时,多媒体服务器对该文本反馈数据进行分词处理,得到“时间”、“有”、“错误”、“,”和“对不上”,由于在对错误类型时序的识别时,“时间”、“错误”和“对不上”的贡献都较大,而“,”和“有”的贡献较小,因此,多媒体服务器将该“时间”、“错误”和“多不上”作为关键词,舍弃“,”和“有”。
再如,当获取到的文本反馈数据为“字幕内容是错的”时,多媒体服务器对该文本反馈数据进行分词处理,得到“字幕”、“内容”、“是”、“错”和“的”五个词语,由于在对错误类型时序的识别时,“内容”和“错”的贡献都较大,而“字幕”、“是”和“的”的贡献相对较小,因此,多媒体服务器将该“内容”和“错”作为关键词,舍弃“字幕”、“是”和“的”。
403、多媒体服务器计算每个关键词在不同错误类型中出现的概率,筛选出每个错误类型所对应的特征关键词。
具体的,多媒体服务器根据各个关键词在不同错误类型中出现的次数以及各个关键词总的出现次数,将各个关键词在不同错误类型中出现的次数与各个关键词总的出现次数作比,计算出各个关键词在不同错误类型中出现的概率。当计算得到某一关键词在特定错误类型中出现的概率最高时,将该关键词作为该特定错误类型对应的特征关键词。该特定错误类型为无词、时序问题、内容问题和无错误中的任意一种。
如,关键词“没有”可能出现在无错误和无词两种错误类型对应的文本反馈数据中,多媒体服务器可以确定该“没有”的总出现次数为a次,其中在无错误的错误类型中出现了b1次,在无词的错误类型中出现了b2次,且b1大于b2,多媒体服务器通过计算可以得到该关键词“没有”在无错误的错误类型中出现的概率为b1/a,在无词的错误类型中出现的概率为b2/a,由于b1/a大于b2/a,因此多媒体服务器将该“没有”作为无错误的错误类型对应的特征关键词。与此同理可以得到无词、时序问题和内容问题对应的特征关键词,这里不再赘述。
404、多媒体服务器根据每个错误类型所对应的特征关键词以及每个特征关键词在该错误类型中出现的概率,训练得到错误类型分类器。
具体的,多媒体服务器根据每个错误类型对应的特征关键词,以及每个特征关键词在该错误类型中出现的概率,生成该关键词与该关键词在该错误类型中出现的概率的对应关系,从而得到该错误类型分类器。
在实际应用中,错误类型分类器可以采用贝叶斯(Bayes)分类器。由于Bayes分类器训练的计算量小、预测速度快。Bayes分类器可以对无词、时序问题、内容问题和无错误样本进行学习,并维护一个特征关键词列表及该特征关键词在该特征关键词对应的错误类型中出现的次数,该特征关键词列表用于存放个各个错误类型所对应的特征关键词,Bayes分类器对反馈数据的特征关键词进行分类的原理是通过某反馈数据关键词的先验概率,利用Bayes公式计算出其后验概率,即该反馈数据的特征关键词属于某一错误类型的概率,选择具有最大后验概率的错误类型作为该错误所属的错误类型。当特征向量(f1,...,fn)中的特征项分别表示特征关键词1...n出现的次数时,某一个错误在Bayes分类器下的错误类型就可以表示为:
arg max c p ( C = c ) &Pi; i = 1 n p ( F i = f i | C = c )
其中,C表示该反馈数据特征关键词的错误类型,c即为无词、时序问题、内容问题和无错误。
需要说明的是,以上401-404事实上是多媒体服务器训练错误类型分类器的过程,在本发明提供的实施例中,该错误类型分类器是在多媒体服务器向该错误类型分类器输入关键词之前训练的,而事实上,在本发明提供的其它实施例中,多媒体服务器还可以从网络服务器下载该错误类型分类器,下载后直接使用。
3a08、多媒体服务器根据错误类型对该字幕文件进行校正。
该根据错误类型对字幕文件进行校正包括以下三种情况:
第一种情况,若识别出的该错误类型为无词,多媒体服务器搜索与该多媒体文件匹配的字幕。
具体地,若多媒体服务器识别出错误类型为无词,该多媒体服务器根据该多媒体文件的名称,从网络服务器搜索与该多媒体文件匹配的字幕文件,并获取该搜索到的字幕文件,实现对该字幕文件的校正。
比如,若当前多媒体文件为音频文件“爱我中华”,多媒体服务器根据该音频文件的名称“爱我中华”,从网络服务器搜索与该“爱我中华”匹配的字幕文件,并获取该字幕文件。
第二种情况,若识别出的错误类型为时序问题和/或内容问题,则多媒体服务器向目标终端发送该多媒体文件的标识和错误类型,该目标终端为校正人员所使用的终端。
具体地,当多媒体服务器识别出错误类型为时序问题和/或内容问题时,该多媒体服务器向目标终端发送该多媒体文件的标识和错误类型,该目标终端接收到多媒体服务器发送的该多媒体文件的标识和错误类型时,目标终端的校正人员根据该多媒体文件的标识和错误类型,对该多媒体文件进行人工校正。
具体地,当该错误类型为时序问题时,校正人员通过调节该字幕文件的时间轴,对该字幕文件进行校正。如,当多媒体文件为音频文件“爱我中华”,且该错误类型为时序问题时,校正人员将当前音频文件对应的字幕文件的开始时刻与该音频文件所对应的正确的字幕文件的开始时刻对齐,实现对该字幕文件的校正。
当该错误类型为内容问题时,校正人员通过对该字幕文件内容的修改,对该字幕文件进行校正。如,当多媒体文件为音频文件“爱我中华”,且该错误类型为内容问题时,校正人员将当前音频文件对应的字幕文件与正确的字幕文件进行对比,找出具体的错误,并对该错误进行修改,如,当校正人员找到“中国凶姿英发”时,通过与正确的字幕文件“中华雄姿英发”进行对比,可以发现该句中的错误为“国”和“凶”,于是校正人员就可以将“国”修改为“华”,将“凶”修改为“雄”,实现对该字幕文件的校正。
第三种情况,若识别出的该错误类型为无错误,多媒体服务器不做处理或继续下一个多媒体文件的字幕文件的校正。
当多媒体服务器识别出的错误类型为无错误时,不做处理,或直接进行下一个多媒体文件字幕文件的校正。
需要说明的是,在本发明实施例中,将无错误也定义为一种错误类型,事实上,在本发明提供的其它实施例中,还可以不对该无错误进行定义,或直接将其定义为正确类型。这里不再赘述。
还需要说明的是,若针对多媒体文件的字幕文件所对应的反馈数据不止1个,那么,在错误类型识别过程中,多媒体服务器识别出不止1个错误类型,则多媒体服务器计算该识别出的各个错误类型的出现概率,选择出现概率达到预定概率的错误类型作为该多媒体文件的字幕文件所对应的错误类型。其中,预定概率用于衡量识别到的错误类型的正确性,当计算得到的概率大于预定概率时,则认为此时多媒体服务器识别到的错误类型是正确的,当计算得到的概率小于预定概率时,则认为此时多媒体服务器识别到的错误类型是错误的。假设预定概率为P,多媒体服务器识别到的某个错误类型出现的概率为P1,当P1>P时,则认为此时多媒体服务器识别到的错误类型是正确的,当P1<P时,则认为此时多媒体服务器识别到的错误类型是错误的。
如当多媒体服务器识别到的错误类型为时序问题和内容问题,多媒体服务器计算得错误类型时序问题出现的概率为P2,错误类型内容问题出现的概率为P3,且P2>P,P3<P,那么此时多媒体服务器就认为识别到的时序问题是正确的,而识别到的内容问题是错误的。则多媒体服务器将时序问题作为该字幕文件的错误类型,只对时序问题进行校正,而不校正内容问题。
如当多媒体服务器识别到的错误类型为时序问题和内容问题,多媒体服务器计算得错误类型时序问题出现的概率为P2,错误类型内容问题出现的概率为P3,且P2>P,P3>P,那么此时多媒体服务器就认为识别到的时序问题和内容问题都是正确的。则多媒体服务器就将时序问题和内容问题同时作为该字幕文件的错误类型,并对该时序问题和内容问题进行校正。
如当多媒体服务器识别到的错误类型为时序问题和内容问题,多媒体服务器计算得错误类型时序问题出现的概率为P2,错误类型内容问题出现的概率为P3,且P2<P,P3<P,那么此时多媒体服务器就认为识别到的时序问题和内容问题都是错误的。即,多媒体服务器认为该字幕文件是正确的,不对该字幕文件进行校正。
3a09、在多媒体服务器获取该多媒体文件的反馈数据失败时,分析该多媒体文件的音频波形特征。
音频波形特征包括原声能量频率和伴奏能量频率。其中,原声能量频率表示的是语音信号的能量频率,伴奏能量频率表示的是背景音乐的音频能量频率。
3a10、多媒体服务器根据该多媒体文件的音频波形特征确定该多媒体文件中语音信号的开始时刻和结束时刻。
图3c是本发明实施例提供的一种根据多媒体文件的音频波形特征确定多媒体文件中语音信号的开始时刻和结束时刻方法的方法流程图,参见图3c,该方法流程包括如下子步骤:
3c01、多媒体服务器获取音频波形特征中的原声能量频率和伴奏能量频率。
多媒体服务器通过获取音频波形特征中的原声能量频率和伴奏能量频率,确定该原声能量频率的开始时刻和结束时刻,以及该伴奏能量频率的开始时刻和结束时刻。
3c02、多媒体服务器将原声能量频率和伴奏能量频率对比,得到音频波形特征的播放时间轴。
具体地,多媒体服务器通过将原声能量频率和伴奏能量频率进行对比,将原声能量频率的开始时刻和伴奏能量频率的开始时刻中,较早的时刻作为该音频波形特征的开始时刻,将原声能量频率的结束时刻和伴奏能量频率的结束时刻中,较晚的时刻作为该音频波形特征的结束时刻,从而得到音频波形特征的播放时间轴。
比如,多媒体服务器获取到原声能量频率的时间轴长度为3分08秒,该原声能量频率的开始时刻为0分20秒,结束时刻为3分28秒,伴奏能量频率的时间轴长度为3分55秒,且该伴奏能量频率的开始时刻为0分03秒,结束时刻为3分58秒,那么多媒体服务器将伴奏能量频率的开始时刻0分03秒作为音频波形特征开始时刻,将伴奏能量频率的结束时刻3分58秒作为音频波形特征结束时刻,将该伴奏能量频率的开始时刻0分03秒与该伴奏能量频率的结束时刻3分58秒之间的时间轴长度3分55秒,作为该音频播放时间轴的长度,可以得到该音频波形特征的播放时间轴。
3c03、多媒体服务器根据原声能量频率在播放时间轴中出现的开始时刻和结束时刻得到音频波形特征中语音信号的开始时刻和结束时刻。
多媒体服务器根据该多媒体文件的音频波形中,原声能量频率的开始时刻和结束时刻,确定该多媒体文件的语音信号的开始时刻和结束时刻。
比如,多媒体服务器获取到原声能量频率的开始时刻为0分20秒,结束时刻为3分28秒,多媒体文件的时间轴长度为3分56秒,则多媒体服务器可以确定该多媒体文件中的语音信号的开始时刻为:该多媒体文件播放的第20秒,结束时刻为:该多媒体文件播放的第3分28秒。
再比如,多媒体服务器通过获取得到原声能量频率的开始时刻为0分0秒,结束时刻为3分28秒,多媒体文件的时间轴长度为3分52秒,则多媒体服务器可以确定该多媒体文件中的语音信号的开始时刻为:该多媒体文件播放的第0秒,结束时刻为:该多媒体文件播放的第3分28秒。
3a11、多媒体服务器根据该多媒体文件中语音信号的开始时刻和结束时刻以及该字幕文件中的播放时间轴,确定该字幕文件是否存在时序问题。
多媒体服务器将确定的语音信号的开始时刻和结束时刻,与字幕文件中的播放的开始时刻和结束时刻进行对比,根据语音信号的开始时刻和结束时刻与字幕文件中的播放时间轴是否对齐,确定该字幕文件是否存在时序问题。
比如,多媒体服务器确定的语音信号的开始时刻为0分58秒,结束时刻为4分01秒,字幕文件的开始时刻为0分32秒,结束时刻为3分35秒,此时语音信号开始时刻和结束时刻与字幕文件的播放时间轴没有对齐,多媒体服务器可以确定此时该字幕文件存在时序问题。而当多媒体服务器确定的语音信号的开始时刻为0分58秒,结束时刻为4分01秒,字幕文件的开始时刻和结束时刻分别为0分58秒和4分01秒时,此时语音信号开始时刻和结束时刻与字幕文件的播放时间轴是对齐的,则多媒体服务器可以确定此时该字幕文件不存在时序问题。
3a12、若该字幕文件存在时序问题,则多媒体服务器根据时序问题对该字幕文件进行校正。
具体地,若该字幕文件存在时序问题,则多媒体服务器将该多媒体文件的标识和错误类型发送至目标终端,使目标终端校正人员根据该多媒体文件的标识和错误类型,对该字幕文件进行校正。
以步骤310中的例子为例,若多媒体服务器确定的语音信号的开始时刻为0分58秒,结束时刻为4分01秒,字幕文件的开始时刻为0分32秒,结束时刻为3分35秒,此时语音信号开始时刻和结束时刻与字幕文件中的播放时间轴没有对齐,多媒体服务器可以确定此时该字幕文件存在时序问题。进而多媒体服务器将该多媒体文件的标识(如字幕文件的名称)和错误类型(时序问题)发送至目标终端,目标终端人员根据该标识和错误类型,将字幕文件的开始时刻延迟26秒,使之与语音信号开始时刻相同,进而使整个字幕文件的播放时间轴与语音信号的开始时刻和结束时刻对齐。
需要说明的是,若该字幕文件不存在时序问题,则多媒体服务器不做处理,或直接进行下一个多媒体文件的字幕文件的校正,该具体过程与上述相同或类似,本实施例在此不再赘述。
本发明实施例提供的字幕校正方法,通过获取多媒体文件的反馈数据,该反馈数据是针对该多媒体文件的字幕文件的错误所反馈的数据;根据该反馈数据识别该多媒体文件的字幕文件的错误类型;根据该错误类型对该多媒体文件的字幕文件进行校正。采用本发明实施例提供的方案,通过识别反馈数据中的错误类型,根据该错误类型对字幕文件进行校正,提高了字幕文件的正确性。进一步地,通过训练错误类型分类器,将至少一个关键词输入错误类型分类器中,识别出相应的错误类型,根据错误类型对字幕文件进行校正,避免了人工识别错误命中率低的问题,提高了识别错误的命中率,减小了工作量,进一步地,当字幕文件没有反馈数据时,通过根据多媒体文件的波形特征分析,判断字幕文件是否存在时序问题,进而对该字幕文件进行校正,保证了对字幕文件校正的全面性。
上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。
图5是本发明实施例提供的一种字幕校正装置的结构示意图,参见图5,该装置具体包括:第一获取模块501、第一识别模块502和字幕校正模块503。
第一获取模块501用于获取多媒体文件的反馈数据,该反馈数据是针对该多媒体文件的字幕文件的错误所反馈的数据;该第一获取模块501与第一识别模块502相连,第一识别模块502用于根据该反馈数据识别该多媒体文件的字幕文件的错误类型;该第一识别模块502与字幕校正模块503相连,字幕校正模块503用于根据该错误类型对该多媒体文件的字幕文件进行校正。
可选地,该第一识别模块包括:
第一提取单元,用于当该反馈数据为按钮反馈数据时,提取该按钮反馈数据中携带的错误类型,作为该字幕文件的错误类型;该按钮反馈数据是通过按压错误类型按钮上报的反馈数据,每个错误类型按钮对应无词、时序问题、内容问题和无错误共四种错误类型中的任意一种。
可选地,该第一识别模块,包括:
第二提取单元,用于当该反馈数据为文本反馈数据时,提取该文本反馈数据中的至少一个关键词,该文本反馈数据是通过文本上报的反馈数据;
错误识别单元,用于将该至少一个关键词输入错误类型分类器中,识别出对应的错误类型;该错误类型分类器是预先通过文本反馈数据样本集训练得到的,该错误类型包括无词、时序问题、内容问题和无错误中的至少一种。
可选地,该装置还包括:
第二获取模块,用于获取至少一个文本反馈数据以及每个文本反馈数据所对应的错误类型,生成该文本反馈数据样本集;
关键词提取模块,用于提取该文本反馈数据样本集中文本反馈数据的关键词,得到至少一个关键词;
概率计算模块,用于计算每个关键词在不同错误类型中出现的概率,筛选出每个错误类型所对应的特征关键词;
分类器训练模块,用于根据每个错误类型所对应的特征关键词以及每个特征关键词在该错误类型中出现的概率,训练得到该错误类型分类器。
可选地,该字幕校正模块包括:
搜索单元,用于当识别出的该错误类型为无词时,搜索与该多媒体文件匹配的字幕文件;
发送单元,用于当识别出的该错误类型为时序问题和/或内容问题时,向目标终端发送该多媒体文件的标识和错误类型,该目标终端为校正人员所使用的终端;
校正单元,用于当识别出的该错误类型为无错误时,不做处理或继续下一个多媒体文件的字幕文件的校正。
可选地,该装置还包括:
波形分析模块,用于在获取该多媒体文件的反馈数据失败时,分析该多媒体文件的音频波形特征;
时刻确定模块,用于根据该多媒体文件的音频波形特征确定该多媒体文件中语音信号的开始时刻和结束时刻;
问题确定模块,用于根据该多媒体文件中语音信号的开始时刻和结束时刻以及该字幕文件中的播放时间轴确定该字幕文件是否存在时序问题。
可选地,该第一获取模块包括:
获取单元,用于获取至少一个用户针对该多媒体文件上报的至少一个反馈数据;
过滤单元,用于根据预设条件对该至少一个反馈数据进行过滤,得到有效的反馈数据;该预设条件包括:
当前反馈数据所对应的用户所对应的等级高于预定等级;和/或,
当前反馈数据所对应的用户在指定时间段内播放多媒体文件的频率高于预定频率;和/或,
当前反馈数据所对应的用户历史反馈的反馈数据的有效性高于预定阈值。
可选地,该装置还包括:
类型计算模块,用于当针对该多媒体文件的字幕文件所对应的反馈数据不止1个时,计算识别出的各个错误类型的出现概率,选择出现概率达到预定概率的错误类型作为该多媒体文件的字幕文件所对应的错误类型。
本发明实施例提供的字幕校正装置,通过获取多媒体文件的反馈数据,该反馈数据是针对该多媒体文件的字幕文件的错误所反馈的数据;根据该反馈数据识别该多媒体文件的字幕文件的错误类型;根据该错误类型对该多媒体文件的字幕文件进行校正。采用本发明实施例提供的方案,通过识别反馈数据中的错误类型,根据该错误类型对字幕文件进行校正,提高了字幕文件的正确性。进一步地,通过训练错误类型分类器,将至少一个关键词输入错误类型分类器中,识别出相应的错误类型,根据错误类型对字幕文件进行校正,避免了人工识别错误命中率低的问题,提高了识别错误的命中率,减小了工作量,进一步地,当字幕文件没有反馈数据时,通过根据多媒体文件的波形特征分析判断字幕文件是否存在时序问题,进而对该字幕文件进行校正,保证了对字幕文件校正的全面性。
需要说明的是:上述实施例提供的字幕校正装置在校正字幕时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的字幕校正装置与字幕校正方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (14)

1.一种字幕校正方法,其特征在于,所述方法包括:
获取多媒体文件的反馈数据,所述反馈数据是针对所述多媒体文件的字幕文件的错误所反馈的数据;
根据所述反馈数据识别所述多媒体文件的字幕文件的错误类型;
根据所述错误类型对所述多媒体文件的字幕文件进行校正;
所述获取多媒体文件的反馈数据,包括:
获取至少一个用户针对所述多媒体文件上报的至少一个反馈数据;
根据预设条件对所述至少一个反馈数据进行过滤,得到有效的反馈数据;所述预设条件包括:
当前反馈数据所对应的用户所对应的等级高于预定等级;和/或,
当前反馈数据所对应的用户在指定时间段内播放多媒体文件的频率高于预定频率;和/或,
当前反馈数据所对应的用户历史反馈的反馈数据的有效性高于预定阈值。
2.根据权利要求1所述的方法,其特征在于,所述根据所述反馈数据识别所述多媒体文件的字幕文件的错误类型,包括:
若所述反馈数据为按钮反馈数据,则提取所述按钮反馈数据中携带的错误类型,作为所述字幕文件的错误类型,所述按钮反馈数据是通过按压错误类型按钮上报的反馈数据,每个错误类型按钮对应无词、时序问题、内容问题和无错误共四种错误类型中的任意一种。
3.根据权利要求1所述的方法,其特征在于,所述根据所述反馈数据识别所述多媒体文件的字幕文件的错误类型,包括:
若所述反馈数据为文本反馈数据,则提取所述文本反馈数据中的至少一个关键词,所述文本反馈数据是通过文本上报的反馈数据;
将所述至少一个关键词输入错误类型分类器中,识别出对应的错误类型;所述错误类型分类器是预先通过文本反馈数据样本集训练得到的,所述错误类型包括无词、时序问题、内容问题和无错误中的至少一种。
4.根据权利要求3所述的方法,其特征在于,所述将所述至少一个关键词输入错误类型分类器中,识别出对应的错误类型之前,还包括:
获取至少一个文本反馈数据以及每个文本反馈数据所对应的错误类型,生成所述文本反馈数据样本集;
提取所述文本反馈数据样本集中文本反馈数据的关键词,得到至少一个关键词;
计算每个关键词在不同错误类型中出现的概率,筛选出每个错误类型所对应的特征关键词;
根据每个错误类型所对应的特征关键词以及每个特征关键词在所述错误类型中出现的概率,训练得到所述错误类型分类器。
5.根据权利要求1至4任一所述的方法,其特征在于,所述根据所述错误类型对所述多媒体文件的字幕文件进行校正,包括:
若识别出的所述错误类型为无词,则搜索与所述多媒体文件匹配的字幕文件;
若识别出的所述错误类型为时序问题和/或内容问题,则向目标终端发送所述多媒体文件的标识和错误类型,所述目标终端为校正人员所使用的终端;
若识别出的所述错误类型为无错误,不做处理或继续下一个多媒体文件的字幕文件的校正。
6.根据权利要求1至4任一所述的方法,其特征在于,所述方法还包括:
在获取所述多媒体文件的反馈数据失败时,分析所述多媒体文件的音频波形特征;
根据所述多媒体文件的音频波形特征确定所述多媒体文件中语音信号的开始时刻和结束时刻;
根据所述多媒体文件中语音信号的开始时刻和结束时刻以及所述字幕文件中的播放时间轴确定所述字幕文件是否存在时序问题。
7.根据权利要求1至4任一所述的方法,其特征在于,所述根据所述错误类型对所述多媒体文件的字幕文件进行校正之前,还包括:
若针对所述多媒体文件的字幕文件所对应的反馈数据不止1个,则计算识别出的各个错误类型的出现概率,选择出现概率达到预定概率的错误类型作为所述多媒体文件的字幕文件所对应的错误类型。
8.一种字幕校正装置,其特征在于,所述装置包括:
第一获取模块,用于获取多媒体文件的反馈数据,所述反馈数据是针对所述多媒体文件的字幕文件的错误所反馈的数据;
第一识别模块,用于根据所述反馈数据识别所述多媒体文件的字幕文件的错误类型;
字幕校正模块,用于根据所述错误类型对所述多媒体文件的字幕文件进行校正;
所述第一获取模块包括:
获取单元,用于获取至少一个用户针对所述多媒体文件上报的至少一个反馈数据;
过滤单元,用于根据预设条件对所述至少一个反馈数据进行过滤,得到有效的反馈数据;所述预设条件包括:
当前反馈数据所对应的用户所对应的等级高于预定等级;和/或,
当前反馈数据所对应的用户在指定时间段内播放多媒体文件的频率高于预定频率;和/或,
当前反馈数据所对应的用户历史反馈的反馈数据的有效性高于预定阈值。
9.根据权利要求8所述的装置,其特征在于,所述第一识别模块包括:
第一提取单元,用于当所述反馈数据为按钮反馈数据时,提取所述按钮反馈数据中携带的错误类型,作为所述字幕文件的错误类型;所述按钮反馈数据是通过按压错误类型按钮上报的反馈数据,每个错误类型按钮对应无词、时序问题、内容问题和无错误共四种错误类型中的任意一种。
10.根据权利要求8所述的装置,其特征在于,所述第一识别模块,包括:
第二提取单元,用于当所述反馈数据为文本反馈数据时,提取所述文本反馈数据中的至少一个关键词,所述文本反馈数据是通过文本上报的反馈数据;
错误识别单元,用于将所述至少一个关键词输入错误类型分类器中,识别出对应的错误类型;所述错误类型分类器是预先通过文本反馈数据样本集训练得到的,所述错误类型包括无词、时序问题、内容问题和无错误中的至少一种。
11.根据权利要求10所述的装置,其特征在于,所述装置还包括:
第二获取模块,用于获取至少一个文本反馈数据以及每个文本反馈数据所对应的错误类型,生成所述文本反馈数据样本集;
关键词提取模块,用于提取所述文本反馈数据样本集中文本反馈数据的关键词,得到至少一个关键词;
概率计算模块,用于计算每个关键词在不同错误类型中出现的概率,筛选出每个错误类型所对应的特征关键词;
分类器训练模块,用于根据每个错误类型所对应的特征关键词以及每个特征关键词在所述错误类型中出现的概率,训练得到所述错误类型分类器。
12.根据权利要求8至11任一所述的装置,其特征在于,所述字幕校正模块包括:
搜索单元,用于当识别出的所述错误类型为无词时,搜索与所述多媒体文件匹配的字幕文件;
发送单元,用于当识别出的所述错误类型为时序问题和/或内容问题时,向目标终端发送所述多媒体文件的标识和错误类型,所述目标终端为校正人员所使用的终端;
校正单元,用于当识别出的所述错误类型为无错误时,不做处理或继续下一个多媒体文件的字幕文件的校正。
13.根据权利要求8至11任一所述的装置,其特征在于,所述装置还包括:
波形分析模块,用于在获取所述多媒体文件的反馈数据失败时,分析所述多媒体文件的音频波形特征;
时刻确定模块,用于根据所述多媒体文件的音频波形特征确定所述多媒体文件中语音信号的开始时刻和结束时刻;
问题确定模块,用于根据所述多媒体文件中语音信号的开始时刻和结束时刻以及所述字幕文件中的播放时间轴确定所述字幕文件是否存在时序问题。
14.根据权利要求8至11任一所述的装置,其特征在于,所述装置还包括:
类型计算模块,用于当针对所述多媒体文件的字幕文件所对应的反馈数据不止1个时,计算识别出的各个错误类型的出现概率,选择出现概率达到预定概率的错误类型作为所述多媒体文件的字幕文件所对应的错误类型。
CN201410254927.8A 2014-06-10 2014-06-10 字幕校正方法和装置 Active CN104093037B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410254927.8A CN104093037B (zh) 2014-06-10 2014-06-10 字幕校正方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410254927.8A CN104093037B (zh) 2014-06-10 2014-06-10 字幕校正方法和装置

Publications (2)

Publication Number Publication Date
CN104093037A CN104093037A (zh) 2014-10-08
CN104093037B true CN104093037B (zh) 2016-05-04

Family

ID=51640710

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410254927.8A Active CN104093037B (zh) 2014-06-10 2014-06-10 字幕校正方法和装置

Country Status (1)

Country Link
CN (1) CN104093037B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102203757B1 (ko) * 2014-10-24 2021-01-15 삼성전자 주식회사 자막기능을 지원하는 컨텐츠 수신장치와 디스플레이장치, 그것을 구비하는 시스템 및 그 자막 제공방법
KR101789221B1 (ko) 2015-07-16 2017-10-23 네이버 주식회사 동영상 제공 장치, 동영상 제공 방법, 및 컴퓨터 프로그램
CN106611059A (zh) * 2016-12-28 2017-05-03 北京小米移动软件有限公司 推荐多媒体文件的方法及装置
CN106973333B (zh) * 2017-03-27 2019-11-12 山东浪潮商用系统有限公司 基于比较的视频字幕错别字词纠错的方法及装置
CN108090043B (zh) * 2017-11-30 2021-11-23 北京百度网讯科技有限公司 基于人工智能的纠错举报处理方法、装置及可读介质
CN110852098B (zh) * 2019-10-24 2023-05-30 深圳市元征科技股份有限公司 一种数据修正方法及电子设备和存储介质
CN111626049B (zh) * 2020-05-27 2022-12-16 深圳市雅阅科技有限公司 多媒体信息的标题修正方法、装置、电子设备及存储介质
CN111787363B (zh) * 2020-06-24 2021-08-24 腾讯科技(深圳)有限公司 一种多媒体数据处理方法、装置、设备及可读存储介质
CN112423088A (zh) * 2020-11-18 2021-02-26 安徽宝信信息科技有限公司 基于在线字幕的智慧屏数据传输方法及其系统
CN112866224B (zh) * 2021-01-12 2022-10-14 广州橙行智动汽车科技有限公司 一种数据处理方法和装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1328905C (zh) * 2004-06-29 2007-07-25 乐金电子(沈阳)有限公司 电视机的字幕错误修正装置及其方法
US8761568B2 (en) * 2005-12-20 2014-06-24 Vestel Elektronik Sanayi Ve Ticaret A.S. Method and apparatus for synchronizing subtitles with a video
CN101727951B (zh) * 2009-11-27 2013-01-30 北京搜狗科技发展有限公司 一种自动更改字幕播放时间的方法和装置
CN103399891B (zh) * 2013-07-22 2016-12-28 百度在线网络技术(北京)有限公司 网络内容自动推荐方法、装置和系统

Also Published As

Publication number Publication date
CN104093037A (zh) 2014-10-08

Similar Documents

Publication Publication Date Title
CN104093037B (zh) 字幕校正方法和装置
US11568876B2 (en) Method and device for user registration, and electronic device
CN105120304B (zh) 信息显示方法、装置及系统
US8719277B2 (en) Sentimental information associated with an object within a media
US20130294746A1 (en) System and method of generating multimedia content
US20150154249A1 (en) Data ingestion module for event detection and increased situational awareness
CN105095504A (zh) 一种基于学习习惯推荐学习内容的方法、装置和系统
CN102084358A (zh) 将信息与媒体内容关联
CN103607457A (zh) 笔记处理方法、装置、终端、服务器及系统
CN103974143A (zh) 一种生成媒体数据的方法和设备
CN104104999A (zh) 音视频信息推荐方法及设备
CN104038473A (zh) 用于插播音频广告的方法、装置、设备和系统
US10089898B2 (en) Information processing device, control method therefor, and computer program
CN105893548A (zh) 命名方法以及终端
CN105632487A (zh) 一种语音识别方法和装置
CN104091596A (zh) 一种乐曲识别方法、系统和装置
CN107566906A (zh) 一种视频评论处理方法及装置
CN111883131B (zh) 语音数据的处理方法及装置
CN103903625A (zh) 音频的混音方法和装置
KR102242226B1 (ko) 모션 비디오를 갖는 음악 서비스
CN112131361A (zh) 一种答题内容推送方法及装置
CN111177462A (zh) 视频分发时效的确定方法和装置
CN105608114A (zh) 一种音乐检索方法及装置
CN102541504A (zh) 语音文字转换装置及方法
CN110633357A (zh) 语音交互方法、装置、设备和介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20141008

Assignee: Ocean interactive (Beijing) Information Technology Co., Ltd.

Assignor: Tencent Technology (Shenzhen) Co., Ltd.

Contract record no.: 2016990000422

Denomination of invention: Subtitle correction method and apparatus

Granted publication date: 20160504

License type: Common License

Record date: 20161009

LICC Enforcement, change and cancellation of record of contracts on the licence for exploitation of a patent or utility model