CN103179093B - 视频字幕的匹配系统和方法 - Google Patents

视频字幕的匹配系统和方法 Download PDF

Info

Publication number
CN103179093B
CN103179093B CN201110435462.2A CN201110435462A CN103179093B CN 103179093 B CN103179093 B CN 103179093B CN 201110435462 A CN201110435462 A CN 201110435462A CN 103179093 B CN103179093 B CN 103179093B
Authority
CN
China
Prior art keywords
file
captions
subtitle
video
mark
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110435462.2A
Other languages
English (en)
Other versions
CN103179093A (zh
Inventor
刘刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201110435462.2A priority Critical patent/CN103179093B/zh
Publication of CN103179093A publication Critical patent/CN103179093A/zh
Application granted granted Critical
Publication of CN103179093B publication Critical patent/CN103179093B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种视频字幕的匹配系统和方法,由服务器端自动从互联网上抓取字幕文件及其对应的视频文件标识,将所述字幕文件及其对应的视频文件标识建立关联并存储;播放客户端在播放视频时自动发出字幕匹配请求给服务器端;服务器端根据所述字幕匹配请求中的视频文件标识从所存储的数据中查询对应的字幕文件,将查询到的字幕文件返回给所述发出字幕匹配请求的播放客户端;所述播放客户端收到服务器端返回的字幕文件后,在播放视频的同时导入该字幕文件。利用本发明,可以自动匹配视频文件对应的字幕文件,简化用户的字幕查找操作,降低人机交互次数。

Description

视频字幕的匹配系统和方法
技术领域
本发明涉及网络数据通信技术,尤其涉及一种视频字幕的匹配系统和方法。
背景技术
网络资源一般是指存储在网络上供用户下载使用的数字化资源,包括:程序文件、视频文件、音频文件等。目前业界的下载技术主要包括在线下载和离线下载。
所谓离线下载,就是以服务器高速代理下载某一网络资源,并将该网络资源中转到离线空间,代理下载完毕后由用户下载客户端从该离线空间下载到本机。这种离线下载处理方式实现了网络加速的功能,目前获得了广泛的应用。
图1为现有技术中的一种离线下载系统的组成和下载网络资源文件的示意图;参见图1,现有的这种离线下载系统包括:下载客户端、离线任务管理服务器、离线下载调度服务器、离线下载服务器集群、离线任务数据库、以及云存储服务器。当然,前述各个服务器可以分别是单独设置的物理服务器,也可以是服务功能模块,设置在一个或一个以上物理服务器之上。
参见图1,现有的离线下载技术方案的主要过程是:
(11)下载客户端向离线任务管理服务器提交离线下载任务请求,其中包括需要下载的文件下载地址,比如对应文件下载的HTTP链接,或者eMule链接或者BT下载种子。
(12)~(13)离线任务管理服务器接受用户提交的离线下载任务请求后,先从所述离线任务数据库中查询Db映射记录,判断当前请求下载的资源是否已经被下载过且存在云存储服务器中,如果是则直接告知下载客户端离线下载成功,下载客户端可以直接从云存储服务器下载资源,同时还可以使用P2SP技术进行下载;否则将离线下载任务请求的下载地址发送给离线下载调度服务器,如可以将相应的HTTP的URL链接、eMule链接、或者BT种子文件信息发送给离线下载调度服务器,同时将该离线下载任务信息写入离线任务数据库。
(14)离线下载调度服务器依据离线下载服务器集群的负载情况进行离线任务的调度。
(15)离线下载服务器集群依据所述下载地址开始启动下载,从internet下载数据。下载过程中,下载服务器集群可以使用自己的P2SP下载技术,同时将下载状况信息(包括下载进度、下载速度等信息)上报给离线下载调度服务器,然后再由离线下载调度服务器上报到离线任务管理服务器。
(16)~(17)下载完成的数据同时同步到云存储服务器,同时将下载结果写入离线任务数据库,即在离线任务数据库中保存离线下载生成的最终文件的HASH结果数据并于对应的下载任务请求的原始链接形成映射记录。
(18)离线任务管理服务器根据上报的下载状况信息得知网络资源文件下载完毕后,通知下载客户端从所述云存储服务器下载对应的文件,此时下载客户端可以直接从云存储服务器下载所述文件。
对于网络视频资源,尤其是高清的视频文件,通常先下载到用户本地终端,再采用本地的播放客户端进行播放。在播放视频时,有时需要进一步播放视频对应的字幕。例如目前播放英文电影视频时,由于大部分人的英文水平不高,难以在看电影时候融入进剧情,而国语配音又参差不齐,很难有原音效果好,因此在播放英文电影时同步播放中文字幕文件就是解决这个问题就有效以及最方便的方法。所述字幕就是在视频下方或其他地方出现的对话文字或其他解释说明文字,如影片的片名、演职员表、唱词、对白、说明词以有人物介绍、地名和年代等。将视频的语音内容以字幕方式显示,可以帮助听力较弱的观众理解节目内容。另外,字幕也能用于翻译外语节目,让不理解该外语的观众,既能听见原作的声带,同时理解节目内容。
现有的播放客户端技术中,视频字幕分为内嵌字幕和外挂字幕。内嵌字幕采用图形加索引的方式,形式比较单调,没有外挂字幕的可调属性,例如:字体位置、颜色、大小等无法调整。外挂字幕具有可调属性,使用起来比较灵活,例如可以调整字幕的清晰度,让字幕处于合适的位置,调整到最合适的大小和颜色,既不会影响主画面,又可以完整显示。
常见外挂字幕文件的格式有srt、ssa、sub等。其中srt和ssa格式的字幕文件是纯文本格式,一般只有几十K大小,主要内容是一条字幕加一条时间码的方式写成的字幕集。srt格式的字幕文件是目前体积最小且最常用的字幕文件,用记事本就可以打开编辑和进行时间轴的调整。ssa字幕文件通常会比srt字幕附加稍多点的信息,如:字幕参数、修订信息、作者等,ssa字幕文件目前应用的比较少,通常在比srt字幕多一些特效供播放的时候选择。Sub字幕文件属于图形字幕格式,只能用字幕转换软件导入转换,且所占空间比文本字幕要大,一般都会超过10M。使用sub字幕文件时,除了sub文件储存图形字幕外还需要idx文件储存时间码和字幕显示属性。外挂sub字幕文件不像文本格式字幕那样具有可调属性,比较死板。对于srt、ssa等文本格式的字幕文件来说,会有一个编码方式的问题。每种语言都至少会有一种对应的编码方式。常用的汉字编码有:GB2312、BIG5,其中GB2312对应简体中文编码,BIG5对应繁体中文编码。因为世界上编码方式太多而出现unicode和UTF-8这样的编码合集。常见的乱码大部分都是因为使用了不匹配的编码方式。现在字幕最新的技术是内码自动识别。字幕文件中有UTF8和GBK内码,这也是中文系统才有的,如果不能识别就会乱码。
使用外挂字幕,要保证字幕文件和视频文件放置在同一个文件夹下,并且保证两者的完整文件名相同,但是不要修改后缀和标识(常见的标识有chs、GB,cht,Big5,eng五种;其中chs和GB表示简体中文,cht和Big5表示繁体中文,eng表示英文)。
目前用户观看视频的通常方式是先通过下载工具比如离线下载的方式将视频文件下载到终端,然后可以利用终端的播放客户端进行播放,所述终端可以是个人计算机(PC)也可以是移动处理终端(如平板电脑、手机、PDA等)。如果播放的视频没有内嵌字幕或者内嵌字幕效果不好则需要用户手动获取外挂字幕文件并导入播放客户端。
基于目前技术方案的具体的获取和导入外挂字幕文件的过程为:
(1)用户登录专门的字幕网站,比如射手字幕网;
(2)用户进入所述字幕网站后,利用本地播放的视频的名称搜索对应的字幕文件;
(3)字幕网站展现对应的字幕搜索结果页面,用户从该搜索结果页面中查找与本地播放视频的格式和版本相对应的字幕文件;
(4)用于点击选中的字幕文件链接,下载到本地终端;
(5)将下载的字幕文件和待播放的视频文件放到同一文件夹下,通常视频文件的名字要与字幕文件的名字要一模一样,如果不一样还需更改一下字幕文件的名字;
(6)最后点击视频文件进行播放,播放客户端会自动导入所述字幕文件进行播放,或者播放客户端会给出导入字幕的选项,用户选择该选项后就可以导入字幕文件进行播放。
如上所述,基于现有技术方案的外挂字幕文件的获取和导入过程主要存在如下缺点:
(1)需要用户人工参与字幕文件的查找获取和导入过程,操作过程非常复杂冗长,因此需要用户具备一定的技术知识和技能才能查找到匹配度较高的字幕文件并完成导入;如果用户没有很好的技术知识和技能,则查找到的字幕文件与视频文件的匹配度非常低,甚至根本查找不到相匹配的字幕文件。
(2)由于需要人工参与查找和导入,不但用户使用起来不方便,而且由于人机之间的交互次数过多导致对人力资源和机器侧资源(如终端的计算资源、网络带宽资源等)的浪费;对于操作难度较大的移动处理终端来讲,更会加重用户操作的不便性。
发明内容
有鉴于此,本发明的主要目的在于提供一种视频字幕的匹配系统和方法,以自动匹配视频文件对应的字幕文件,简化用户的字幕查找操作,降低人机交互次数。
本发明的技术方案是这样实现的:
一种视频字幕的匹配系统,包括播放客户端以及设置在服务器端的字幕爬虫装置、存储模块、字幕服务器;其中:
所述字幕爬虫装置用于自动从互联网上抓取字幕文件及其对应的视频文件标识,将所述字幕文件及其对应的视频文件标识关联存储到所述存储模块中;
所述字幕服务器用于接收播放客户端的携带有视频文件标识的字幕匹配请求,根据其中的视频文件标识从所述存储模块中查询对应的字幕文件,将查询到的字幕文件返回给所述发出字幕匹配请求的播放客户端;
所述播放客户端用于播放视频,并自动发出携带当前播放视频文件标识的字幕匹配请求给字幕服务器,接收字幕服务器返回的字幕文件,并在播放视频的同时导入该字幕文件。
一种视频字幕的匹配方法,该方法包括:
服务器端自动从互联网上抓取字幕文件及其对应的视频文件标识,并将所述字幕文件及其对应的视频文件标识关联存储;
播放客户端在播放视频时自动发出当前播放视频文件标识的字幕匹配请求给服务器端;
服务器端根据所述字幕匹配请求中的视频文件标识从所存储的数据中查询对应的字幕文件,将查询到的字幕文件返回给所述发出字幕匹配请求的播放客户端。
与现有技术相比,本发明的服务器端自动从互联网上抓取字幕文件及其对应的视频文件标识,将所述字幕文件及其对应的视频文件标识建立关联并存储;播放客户端在播放视频时自动发出字幕匹配请求给服务器端;服务器端根据所述字幕匹配请求中的视频文件标识从所存储的数据中查询对应的字幕文件,将查询到的字幕文件返回给所述发出字幕匹配请求的播放客户端;所述播放客户端收到服务器端返回的字幕文件后,在播放视频的同时导入该字幕文件。因此,本发明可以自动匹配视频文件对应的字幕文件,用户不必再去主动查找字幕文件并导入播放客户端,简化了用户的字幕查找操作,方便了用户操作,降低了对用户技术知识和技能的要求,降低了人机交互次数,节省了人力资源和机器侧资源(如终端的计算资源、网络带宽资源等)。尤其对于移动处理终端这种操作难度较大的设备来说,更会提高播放客户端播放视频字幕的便携性。
附图说明
图1为现有技术中的一种离线下载系统的组成和下载网络资源文件的示意图;
图2为本发明一种实施例的组成示意图;
图3为本发明所述视频字幕的匹配系统执行视频字幕匹配方法的一种主要流程图;
图4为本发明又一种实施例的组成示意图;
图5为本发明再一种实施例的组成示意图;
图6为本发明再一种实施例的组成示意图。
具体实施方式
下面结合附图及具体实施例对本发明再作进一步详细的说明。
图2为本发明一种实施例的组成示意图,参见图2所示,该实施例的视频字幕的匹配系统主要包括:播放客户端以及设置在服务器端的字幕爬虫装置、存储模块、和字幕服务器;其中:
所述字幕爬虫装置主要用于自动从互联网上抓取字幕文件及其对应的视频文件标识,将所述字幕文件及其对应的视频文件标识关联存储到所述存储模块中;
所述字幕服务器用于接收播放客户端的携带有视频文件标识的字幕匹配请求,根据其中的视频文件标识从所述存储模块中查询对应的字幕文件,将查询到的字幕文件返回给所述发出字幕匹配请求的播放客户端;
所述播放客户端用于播放视频,并自动发出携带当前播放视频文件标识的字幕匹配请求给字幕服务器,接收字幕服务器返回的字幕文件,并在播放视频的同时导入该字幕文件。
图3为本发明所述视频字幕的匹配系统执行视频字幕匹配方法的一种主要流程图。参见图3,该流程主要包括:
步骤301、服务器端自动从互联网上抓取字幕文件及其对应的视频文件标识,并将所述字幕文件及其对应的视频文件标识关联存储;
步骤302、播放客户端在播放视频时自动发出当前播放视频文件标识的字幕匹配请求给服务器端;
步骤303、服务器端根据所述字幕匹配请求中的视频文件标识从所存储的数据中查询对应的字幕文件,将查询到的字幕文件返回给所述发出字幕匹配请求的播放客户端。
通过上述过程,可以匹配到播放客户端当前播放视频的字幕文件。所述播放客户端在收到服务器端返回的字幕文件后,在播放视频的同时导入该字幕文件,这样用户就可以观看到带有字幕的视频文件。
在所述服务器端,所述存储模块可以是一个字幕索引数据库,当然也可以是其它的存储形式,例如可以是一个字幕索引的存储文件,本说明书的实施例中的存储模块为字幕索引数据库。为了实现本发明所述的自动匹配视频文件对应的字幕文件的关键是要存储大量的字幕文件以备查询,同时要更新最新字幕文件,所述字幕文件的来源在本发明中主要有两种来源:一种是通过所述字幕爬虫装置从互联网上抓取字幕文件,这也是基础的主要的来源;另一种是由用户通过播放客户端共享上传字幕文件。
所述字幕爬虫装置会从互联网上的字幕网站爬取对应的字幕文件下载链接、和字幕文件对应的视频文件标识,该视频文件标识主要包括显性标识,所述显性标识中至少包括该视频文件的完整文件名,该完整文件名中还可能包括制作版本信息,另外所述显性标识中还可以包括视频文件的格式、视频编码率、帧率、分辨率以及字幕描述信息等。所述字幕爬虫装置所采取的具体爬虫方法可以采用现有的爬虫技术,例如可以采用现有的网络爬虫工具从字幕网站爬取字幕文件下载链接及其对应的视频文件标识等。当爬取到字幕文件的下载链接及其对应的视频文件标识后,字幕爬虫装置从字幕文件的下载链接下载对应的字幕文件,同时将该字幕文件及其对应的视频文件标识关联存储在所述字幕索引数据库中。在字幕索引数据库中还可以根据所述显示标识归类存储,例如根据版本信息进行归类。
所述播放客户端运行在用户终端上,例如PC机、以及平板电脑、手机、PDA等移动终端。所述播放客户端在打开播放一个视频文件时,会自动对该视频文件进行扫描,一旦发现该视频文件中没有包含字幕文件,则会自行触发自动匹配字幕的过程,此时首先抽取确定当前播放视频文件的标识,将携带当前播放视频文件标识的字幕匹配请求发送给字幕服务器。在一种基本的实施例中,所述当前播放视频文件的标识中主要包括该视频文件的显性标识,所述显性标识至少包括该视频文件的完整文件名,还可以包括视频文件的格式、视频编码率、帧率、分辨率等信息。
所述字幕服务器在收到所述携带当前播放视频文件标识的字幕匹配请求后,根据其中的显性标识从所述字幕索引数据库中查询与所述显性标识关联匹配的字幕文件,具体的查询匹配过程为:
根据所述字幕匹配请求中的视频的完整文件名,从所述字幕索引数据库中查找所关联的视频文件标识中具有相同视频文件名的字幕文件,查找出的字幕文件为匹配结果,本发明中所述完整文件名不包括扩展名(即后缀)。在另一种实施例中,还可以从视频文件的完整文件名中提取视频文件的制作版本信息,先根据该版本信息从所述字幕索引数据库查询对应版本信息的字幕文件,再从其中查找所关联的视频文件标识中具有相同视频完整文件名和版本信息的字幕文件,例如:视频文件全名为:[寂静的世界].World.Of.Silence.DVDRip.XviD.CD1-PosTX.avi可以判定出是PosTX压制的版本,在匹配字幕的时候可以按照PosTX头从字幕数据库中检索相同版本的字幕文件,再查找出相同完整文件名的字幕文件。如果字幕匹配请求中的视频完整文件名包括分段信息,则需要查询段数相同的字幕文件进行匹配,匹配的方式就是字幕完整文件名与视频完整文件名要完全相同(不包括后缀),比如上述视频完整文件名:[寂静的世界].World.Of.Silence.DVDRip.XviD.CD1-PosTX.avi,其中包括了分段信息CD1,查询的字幕文件的完整文件名需要完全相同,如字幕完整文件名:[寂静的世界].World.Of.Silence.DVDRip.XviD.CD1-PosTX.srt。
如果字幕服务器查找出的字幕文件有一种以上,还可以进一步根据所述字幕匹配请求中包括的视频文件的格式、视频编码率、帧率、分辨率等显性标识信息中的至少一种,从所述查找出的字幕文件中进一步查找其关联的视频文件标识中具有相同的所述显性标识信息的字幕文件,将查找出的字幕文件作为更为准确的匹配结果。所述字幕服务器在查找出匹配结果后,将匹配结果返回给发出字幕匹配请求的播放客户端。
所述播放客户端收到字幕服务器返回的针对某一视频文件的字幕文件匹配结果后,在播放该视频文件的同时自动导入所述匹配的字幕文件。由于各种播放客户端使用外挂字幕的方式不同,因此针对不同的播放客户端,具体的导入字幕文件的方法也不完全相同,主流的导入方式是:将所述字幕文件放入该视频文件所在的文件夹中,并自动运行播放客户端的导入字幕功能导入所述字幕文件。如果字幕文件的名字和视频文件的名字不同,则需要改成相同的名字,再导入字幕文件。
例如,有些蓝光原版片源都包含BDMV(Blu-ray Disk Movie、BD-MV),BDMV为蓝光光碟规格之一的“BD-ROM”所使用的格式之一,在DVD规格中相当于DVD-Video,在这种情况下可以在蓝光原版电影的根目录下放置外挂字幕文件,名字应与电影主名称相同,再导入字幕文件。另外蓝光原版BDMV文件夹下放置外挂字幕文件,也可以将字幕文件的名称改为INDEX.SRT,播放客户端会搜索此位置的字幕文件为默认的电影字幕文件并导入该字幕文件,默认字幕文件外的其他字幕文件需要重新由用户选择。
如果所述服务器端根据所述字幕匹配请求中的视频文件标识从所存储的数据中查询出的对应字幕文件的个数最终为一个以上时(例如查询出针对同一视频文件的不同语言的字幕文件),将所有查询到的字幕文件返回给所述发出字幕匹配请求的播放客户端;所述播放客户端在收到服务器端返回的一个以上字幕文件后显示所述字幕文件的列表供用户选择,并在播放视频的同时导入用户选中的字幕文件。
图4为本发明又一种实施例的组成示意图,参见图4所示,该实施例中,所述视频字幕的匹配系统可以与离线下载系统进行组合,该匹配系统中进一步包括离线下载系统接口,设置在网络资源文件的离线下载系统中,例如可以具体设置在离线下载系统中的离线任务管理服务器中,该离线下载系统接口用于监测所述离线下载系统的下载状况,每监测到下载完成一个视频文件,则确定该视频文件的标识,将该视频文件的标识发送到所述存储模块存储,即在存储模块中增加一条记录,其中包括视频文件的标识和关联的字幕文件信息,所述字幕文件信息的来源是通过字幕爬虫装置从互联网上爬取或接受播放客户端共享上传的字幕文件。在图4所述的实施例中,所述字幕爬虫装置进一步用于:根据所述来自离线下载系统的视频文件的标识,从互联网上抓取匹配的字幕文件,将所抓取的字幕文件与该视频文件标识关联存储在所述存储模块中。在图4所述实施例中,所述播放客户端还可以与所述离线下载系统中的下载客户端建立连接,可以实现边下载边播放视频,或者播放下载客户端下载完成的视频,在播放视频的同时向字幕服务器发起字幕匹配请求以匹配字幕。所述下载客户端和播放客户端通常在同一个用户终端上。
在基于图4的一种进一步的实施例中,所述离线下载系统接口所确定的视频文件标识中具体包括该视频文件的哈希(HASH)值和显性标识。所述哈希值是根据视频文件的内容,通过消息摘要算法(MD5)或者安全散列算法(SHA)等散列算法计算得到的该视频文件的唯一标识,只要文件的内容不同则其哈希值肯定不同。所述显性标识如上所述,至少包括该视频文件的完整文件名,该完整文件名中还可能包括制作版本信息,另外所述显性标识中还可以包括视频文件的格式、视频编码率、帧率、分辨率以及字幕描述信息等。所述字幕索引数据库在收到来自离线下载系统接口的视频文件标识后,增加一条记录,其中包括视频文件的标识,再触发字幕爬虫装置具体根据视频文件标识中的显性标识(如完整文件名)从互联网上抓取匹配的字幕文件,将抓取的字幕文件存储在该条记录中与该视频文件标识关联。所述播放客户端在发出的字幕匹配请求前进一步计算或接收离线下载系统(例如具体是离线下载系统中的下载客户端)发送的当前播放视频的哈希值,在随后发出的字幕匹配请求所携带的当前播放视频文件标识中,包括该视频文件的哈希值,当然还可以包括视频文件的上述其他显性标识如完整的文件名等;所述字幕服务器在收到所述字幕匹配请求后,具体根据所述哈希值,从所述存储模块中查找所关联的视频文件标识中具有相同哈希值的字幕文件,将查找出的字幕文件作为匹配结果返回给播放客户端。由于哈希值是视频文件的唯一标识,所以这种通过视频文件哈希值查找匹配字幕文件的实施方式,可以显著提高字幕文件与视频文件的匹配度。如果根据视频文件的哈希值查找不到匹配的字幕文件,则进一步根据视频文件的完整文件名查询匹配的字幕文件,如果还是查找不到匹配的字幕文件,则进一步根据视频文件的其他显性标识如格式、视频编码率、帧率、分辨率等显性标识信息中的至少一种查询匹配的字幕文件,因此可以进一步提高字幕文件与视频文件的匹配度,提高了对多种字幕格式的支持效果。
图5为本发明再一种实施例的组成示意图,参见图5所示,该实施例中,所述视频字幕匹配系统中的播放客户端进一步包括字幕共享模块,用于显示共享字幕选项,在用户选择该选项后提示用户确认欲共享的本地字幕文件的标识及其匹配的视频文件标识(如播放时自动确认,没有播放时可以提示用户选择确定需要共享的字幕文件及其匹配的视频文件标识),此处的本地字幕文件的标识可以是该字幕文件的完整文件名,也可以是该字幕文件的哈希值,之后向所述字幕服务器发送携带所述字幕文件标识的查询请求。所述字幕服务器在接收到所述查询请求后,查询存储模块中是否存在该查询请求中所标识的字幕文件,即是否存在与查询请求中的哈希值或完整文件名一样的字幕文件,并返回查询结果。所述字幕共享模块在收到字幕服务器返回的不存在该字幕文件的查询结果后上报字幕共享请求,其中携带所述本地字幕文件及其匹配的视频文件标识;如果收到的查询结果表示已经存在该字幕文件,则不再上报所述字幕共享请求。所述字幕服务器接收到所述字幕共享请求后,将其携带的所述字幕文件及其对应的视频文件标识关联存储在所述存储模块中。
图6为本发明再一种实施例的组成示意图,参见图6所示,该实施例与图5所述实施例的区别在于,所述播放客户端还可以进一步包括字幕调整模块,用于为用户提供字幕调整操作项和操作界面,并根据用户的调整指令对字幕的时间轴进行调整。不管什么版本的字幕,字幕台词中间的间隔时间是一样的,通常片头时间不一样,还有有些剪掉的除外,需要用户调整时间轴。由于有的字幕和片源不匹配导致字幕偏快或偏慢影响观看,可以调整字幕时间轴,具体的调整方式为:播放电影,从第一名电影对白开始检查字幕与电影的时间差,比如一个字幕,经播放检查,字幕显示时间比电影中的对白快了约2秒,选中字幕文件的第一句对白字幕,然后将对应的时间如“00:00:32,392”改为“00:00:34,392”,然后以本行为准按原时间间隔校准后续字幕,点击执行校准,然后保存,那么从第一句对白开始,所有的字幕时间就会顺延2秒,而此句前面的字幕时间不会被改变,对于调整一些字幕前半部分时间准确,后半部分不准的字幕,也可用上面的方法调整,关键是找准从哪一名对白开始不准的,然后再次播放影片,检查字幕时间轴与视频是否已对应好,如果还是有偏差,重复上面的方法调整字幕提前,就在字幕时间加上提前量,然后执行校准字幕滞后,就在字幕时间减去滞后量,然后执行校准;如果第一句对白前还有很多句和电影有关的字幕,如片头的介绍等,找到第一句对白后,再以本行为准按原时间间隔校准所有字幕,然后再修改字幕时间,那么所有的字幕时间都会做出调整。
由于用户可以通过所述字幕调整模块调整字幕,因此一般来讲用户调整过的字幕文件与播放视频的相关度非常高,这样用户就可以通过所述字幕共享模块共享调整过后的字幕文件,图6中的字幕共享模块的基本功能和图5所述的字幕共享模块的基本功能一样,可以由用户触发共享字幕文件。但是,在进一步的实施方式中,图6所述的字幕共享模块还可以进一步用于在导入本地字幕文件后,监测从开始播放视频文件及导入本地字幕文件起的预定时间内所述字幕调整模块是否调整过该本地字幕文件,在没有调整过的情况下,则自动显示共享字幕选项,在用户选择该选项后提示用户确认所述本地字幕文件的标识及其匹配的视频文件标识,并向所述字幕服务器发送携带所述字幕文件标识的查询请求,在收到字幕服务器返回的不存在该字幕文件的查询结果后上报字幕共享请求,其中携带所述本地字幕文件及其匹配的视频文件标识。采取这种实施方式的优点时,一般来讲如果用户在观看某一视频后的一定时间内(如半小时)没有调整过字幕文件,则可以判定该用户对当前字幕文件是满意的,也就可以间接判定该字幕文件与该视频文件的匹配度是较高的,是值得分享的,因此可以触发用户共享该字幕文件。
当然,上述图5和图6所述的实施例中,所述播放客户端的字幕共享模块所确定并在字幕共享请求中携带的视频文件标识中,可以包括显性标识,其中至少包括完整文件名,还可以包括视频码率、帧率、分辨率等其他信息;所述视频文件标识也可以包括该视频文件的哈希值,该哈希值可以由播放客户端根据视频文件计算得到,也可以在下载时下载得到。所述字幕服务器接收到所述字幕共享请求后,将其携带的所述字幕文件及其对应的视频文件标识(包括哈希值)关联存储在所述存储模块中。所述播放客户端在发出的字幕匹配请求前可以确定当前播放视频的哈希值,并在发送的字幕匹配请求携带的视频文件标识中,包括该视频文件的哈希值或进一步包括其他所述的显性标识;所述字幕服务器在收到字幕匹配请求后,具体根据所述哈希值,从所述存储模块中查找所关联的视频文件标识中具有相同哈希值的字幕文件,将查找出的字幕文件作为匹配结果返回给播放客户端。由于哈希值是视频文件的唯一标识,所以这种通过视频文件哈希值查找匹配字幕文件的实施方式,可以显著提高字幕文件与视频文件的匹配度。如果根据视频文件的哈希值查找不到匹配的字幕文件,则进一步根据视频文件的完整文件名查询匹配的字幕文件,如果还是查找不到匹配的字幕文件,则进一步根据视频文件的其他显性标识如格式、视频编码率、帧率、分辨率等显性标识信息中的至少一种查询匹配的字幕文件。
通过上述的字幕共享实施方式,播放客户端和服务器端可以联动进行智能化网络字幕匹配,只要有一个用户播放过某一视频文件且共享上传了该视频文件的本地字幕文件,则字幕服务器可通知字幕爬虫装置不再爬取该视频文件的字幕文件。之后其他用户可在启动播放同一视频的同时下载到该共享的字幕文件。因此用户共享上传的字幕文件是对字幕爬虫装置爬取字幕文件的一个重要的补充。
当然,所述播放客户端还可以提供搜索选项,用户选择该选项后可以输入视频的关键字信息,并触发搜索请求,该搜索请求被播放客户端发送给字幕服务器,字幕服务器根据其中的关键字信息从所述字幕索引数据库中搜索所关联的视频文件标识与所述关键字匹配的字幕文件,将搜索结果返回给播放客户端,播放客户端将搜索结果展示给用户,并根据用户的选择指令下载用户选中的字幕文件。
由于本发明中大部分的字幕文件来自于网络爬虫装置,为了提高字幕匹配的效果和进度,所述播放客户端还可以在播放视频及导入服务器端返回的所述字幕后,向用户提供字幕不匹配的举报选项,在用户选择该举报选项后向服务器端上报携带当前播放视频文件标识和当前导入字幕文件标识的字幕举报请求;服务器端收到所述字幕举报请求后,将其中的视频文件标识和字幕文件标识关联存储在一个举报名单中作为后台管理员调整字幕文件的参考。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (15)

1.一种视频字幕的匹配系统,其特征在于,包括播放客户端以及设置在服务器端的字幕爬虫装置、存储模块、字幕服务器;其中:
所述字幕爬虫装置用于自动从互联网上爬取字幕文件下载链接及字幕文件对应的视频文件标识,从所述字幕文件下载链接下载对应的字幕文件,将所述字幕文件及其对应的视频文件标识关联存储到所述存储模块中;
所述字幕服务器用于接收播放客户端的携带有视频文件标识的字幕匹配请求,根据其中的视频文件标识从所述存储模块中查询对应的字幕文件,将查询到的字幕文件返回给所述发出字幕匹配请求的播放客户端;
所述播放客户端用于播放视频,并自动发出携带当前播放视频文件标识的字幕匹配请求给字幕服务器,接收字幕服务器返回的字幕文件,并在播放视频的同时导入该字幕文件;
所述播放客户端进一步包括字幕共享模块,用于向所述字幕服务器发送携带字幕文件标识的查询请求,在收到字幕服务器返回的不存在该字幕文件的查询结果后上报字幕共享请求,其中携带本地字幕文件及其匹配的视频文件标识;
所述字幕服务器进一步用于:接收所述查询请求,查询存储模块中是否存在该查询请求中所标识的字幕文件,并返回查询结果;接收所述字幕共享请求,将其携带的字幕文件及其对应的视频文件标识关联存储在所述存储模块中。
2.根据权利要求1所述的系统,其特征在于,
该系统进一步包括离线下载系统接口,设置在网络资源文件的离线下载系统中,用于监测所述离线下载系统的下载状况,每监测到下载完成一个视频文件,则确定该视频文件的标识,将该视频文件的标识发送到所述存储模块存储;
所述字幕爬虫装置进一步用于:根据来自离线下载系统的视频文件的标识,从互联网上抓取匹配的字幕文件,将所抓取的字幕文件与该视频文件标识关联存储在所述存储模块中。
3.根据权利要求2所述的系统,其特征在于,
所述离线下载系统接口所确定的视频文件标识中具体包括该视频文件的哈希值和显性标识;
所述字幕爬虫装置具体根据所述显性标识从互联网上抓取匹配的字幕文件;
所述播放客户端在发出的字幕匹配请求携带的当前播放视频文件标识中,包括该视频文件的哈希值;
所述字幕服务器具体根据所述哈希值从存储模块中查询对应的字幕文件。
4.根据权利要求1所述的系统,其特征在于,
所述播放客户端的字幕共享模块进一步用于显示共享字幕选项,在用户选择该选项后提示用户确认欲共享的本地字幕文件的标识及其匹配的视频文件标识。
5.根据权利要求1所述的系统,其特征在于,
所述播放客户端的字幕共享模块进一步用于在导入本地字幕文件后,监测从开始播放视频文件及导入本地字幕文件起的预定时间内是否调整过该本地字幕文件,在没有调整过的情况下,则显示共享字幕选项,在用户选择该选项后提示用户确认所述本地字幕文件的标识及其匹配的视频文件标识。
6.根据权利要求4或5所述的系统,其特征在于,
所述播放客户端的字幕共享模块在所述上报的字幕共享请求携带的视频文件标识中,包括该视频文件的哈希值;
所述播放客户端在发出的字幕匹配请求携带的当前播放视频文件标识中,包括该视频文件的哈希值;
所述字幕服务器具体根据所述哈希值从存储模块中查询对应的字幕文件。
7.一种视频字幕的匹配方法,其特征在于,该方法包括:
服务器端自动从互联网上爬取字幕文件下载链接及字幕文件对应的视频文件标识,从所述字幕文件下载链接下载对应的字幕文件,并将所述字幕文件及其对应的视频文件标识关联存储;
播放客户端在播放视频时自动发出当前播放视频文件标识的字幕匹配请求给服务器端;
服务器端根据所述字幕匹配请求中的视频文件标识从所存储的数据中查询对应的字幕文件,将查询到的字幕文件返回给所述发出字幕匹配请求的播放客户端;
所述播放客户端进一步向所述服务端发送携带字幕文件标识的查询请求;所述服务器端在收到所述查询请求后,查询所存储的数据中是否存在该查询请求中所标识的字幕文件,并返回查询结果;播放客户端收到所述查询结果后,如果该查询结果表示所述服务器端不存在所述查询请求中所标识的字幕文件,则上报字幕共享请求,其中携带本地字幕文件及其匹配的视频文件标识;所述服务器端收到所述字幕共享请求后,将其携带的字幕文件及其对应的视频文件标识关联存储。
8.根据权利要求7所述的方法,其特征在于,该方法进一步包括:
服务器端监测网络资源文件离线下载系统的下载状况,每监测到下载完成一个视频文件,则确定该视频文件的标识;并从互联网上抓取与所述离线下载系统下载的视频文件的标识匹配的字幕文件,将所抓取的字幕文件与匹配的视频文件标识关联存储。
9.根据权利要求8所述的方法,其特征在于,该方法进一步包括:
所述每监测到下载完成一个视频文件,所确定的视频文件标识中具体包括该视频文件的哈希值和显性标识;
所述从互联网上抓取与所述离线下载系统下载的视频文件的标识匹配的字幕文件具体为:根据所述视频文件的显性标识从互联网上抓取与该显性标识匹配的字幕文件;
所述播放客户端在发出的字幕匹配请求携带的当前播放视频文件标识中,包括该视频文件的哈希值;
所述服务器端根据所述字幕匹配请求中的视频文件标识从所存储的数据中查询对应的字幕文件具体为:根据所述视频文件标识中的哈希值从存储模块中查询对应的字幕文件。
10.根据权利要求7所述的方法,其特征在于,该方法进一步包括:
所述播放客户端显示共享字幕选项,在用户选择该选项后自动确定本地字幕文件的标识及其匹配的视频文件标识,向所述服务端发送携带所述字幕文件标识的查询请求。
11.根据权利要求7所述的方法,其特征在于,该方法进一步包括:
所述播放客户端收到服务器端返回的字幕文件后,在播放视频的同时导入该字幕文件。
12.根据权利要求11所述的方法,其特征在于,所述服务器端根据所述字幕匹配请求中的视频文件标识从所存储的数据中查询出的对应字幕文件的个数为一个以上时,将所有查询到的字幕文件返回给所述发出字幕匹配请求的播放客户端;所述播放客户端在收到服务器端返回的一个以上字幕文件后显示所述字幕文件的列表供用户选择,并在播放视频的同时导入用户选中的字幕文件。
13.根据权利要求11所述的方法,其特征在于,该方法进一步包括:
所述播放客户端在导入本地的字幕文件后,监测从开始播放视频文件及导入本地字幕文件起的预定时间内是否调整过该本地字幕文件,如果没有调整过则确定所述本地字幕文件的标识及其匹配的视频文件标识,并向服务器端发送携带所述字幕文件标识的查询请求。
14.根据权利要求10或13所述的方法,其特征在于,
所述播放客户端在所述上报的字幕共享请求携带的视频文件标识中,包括该视频文件的哈希值;
所述播放客户端在发出的字幕匹配请求携带的当前播放视频文件标识中,包括该视频文件的哈希值;
所述服务器端根据所述字幕匹配请求中的视频文件标识从所存储的数据中查询对应的字幕文件具体为:根据所述视频文件标识中的哈希值从存储模块中查询对应的字幕文件。
15.根据权利要求7所述的方法,其特征在于,该方法进一步包括:
所述播放客户端在播放视频及导入服务器端返回的所述字幕后,向用户提供字幕不匹配的举报选项,在用户选择该举报选项后向服务器端上报携带当前播放视频文件标识和当前导入字幕文件标识的字幕举报请求;
服务器端收到所述字幕举报请求后,将其中的视频文件标识和字幕文件标识关联存储在一个举报名单中作为管理员调整字幕文件的参考。
CN201110435462.2A 2011-12-22 2011-12-22 视频字幕的匹配系统和方法 Active CN103179093B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110435462.2A CN103179093B (zh) 2011-12-22 2011-12-22 视频字幕的匹配系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110435462.2A CN103179093B (zh) 2011-12-22 2011-12-22 视频字幕的匹配系统和方法

Publications (2)

Publication Number Publication Date
CN103179093A CN103179093A (zh) 2013-06-26
CN103179093B true CN103179093B (zh) 2017-05-31

Family

ID=48638719

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110435462.2A Active CN103179093B (zh) 2011-12-22 2011-12-22 视频字幕的匹配系统和方法

Country Status (1)

Country Link
CN (1) CN103179093B (zh)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103369357A (zh) * 2012-03-27 2013-10-23 宏碁股份有限公司 影音播放字幕的系统和方法
CN104375815B (zh) * 2013-08-15 2021-12-24 联想(北京)有限公司 一种信息处理方法以及一种电子设备
CN103686352A (zh) * 2013-11-15 2014-03-26 乐视致新电子科技(天津)有限公司 智能电视媒体播放器及其字幕处理方法、智能电视
CN104679755A (zh) * 2013-11-27 2015-06-03 中兴通讯股份有限公司 一种音频搜索方法及装置、终端
CN104093085B (zh) * 2014-04-22 2016-08-24 腾讯科技(深圳)有限公司 信息显示方法和装置
CN103997661A (zh) * 2014-04-29 2014-08-20 四川长虹电器股份有限公司 视频与字幕文件智能适配下载系统及方法
KR101978222B1 (ko) 2014-07-11 2019-05-14 엘지전자 주식회사 방송 신호 송수신 방법 및 장치
KR20170007333A (ko) 2014-07-11 2017-01-18 엘지전자 주식회사 방송 신호 송수신 방법 및 장치
CN104079589B (zh) * 2014-07-24 2017-11-10 广东欧珀移动通信有限公司 一种外挂字幕的显示方法、系统及数字多媒体渲染器
US10368144B2 (en) 2014-07-29 2019-07-30 Lg Electronics Inc. Method and device for transmitting and receiving broadcast signal
CN104104986B (zh) * 2014-07-29 2017-08-22 小米科技有限责任公司 音频与字幕的同步方法和装置
CN104410924B (zh) * 2014-11-25 2018-03-23 广东欧珀移动通信有限公司 一种多媒体字幕显示方法及装置
CN104811749A (zh) * 2015-03-18 2015-07-29 天脉聚源(北京)传媒科技有限公司 一种多媒体数据传输方法及装置
CN104883584A (zh) * 2015-05-19 2015-09-02 福建宏天信息产业有限公司 一种远程解析字幕的方法及系统
CN105100833A (zh) * 2015-07-01 2015-11-25 北京奇虎科技有限公司 用于在线播放的字幕加载方法和装置
TWI564729B (zh) * 2015-08-07 2017-01-01 廣達電腦股份有限公司 資料分享系統以及其方法
CN105141979A (zh) * 2015-08-21 2015-12-09 努比亚技术有限公司 视频字幕匹配装置、系统及方法
CN105872730A (zh) * 2015-11-23 2016-08-17 乐视网信息技术(北京)股份有限公司 字幕数据融合方法及装置
CN105898517A (zh) * 2015-12-15 2016-08-24 乐视网信息技术(北京)股份有限公司 字幕显示控制方法及装置
CN106951423B (zh) * 2016-01-06 2021-05-07 阿里巴巴集团控股有限公司 一种实现影视识别的方法和装置
CN107277613A (zh) * 2017-05-31 2017-10-20 深圳Tcl新技术有限公司 字幕显示方法、终端及计算机可读存储介质
CN107396203A (zh) * 2017-09-06 2017-11-24 深圳市视维科技股份有限公司 一种基于IJKPlayer外挂字幕的方法
CN107644016A (zh) * 2017-10-19 2018-01-30 维沃移动通信有限公司 一种多媒体字幕翻译方法、多媒体字幕查找方法及装置
CN107750009A (zh) * 2017-10-27 2018-03-02 深圳市联谛信息无障碍有限责任公司 一种使用Android设备同步朗读视频文件外挂字幕的方法
CN108377416A (zh) * 2018-02-27 2018-08-07 维沃移动通信有限公司 一种视频播放方法及移动终端
CN108769552B (zh) * 2018-05-14 2020-07-31 安徽工程大学 新闻视频制作过程中字幕制作方法
CN109413478B (zh) * 2018-09-26 2020-04-24 北京达佳互联信息技术有限公司 视频编辑方法、装置、电子设备及存储介质
CN111447248A (zh) * 2019-01-16 2020-07-24 网宿科技股份有限公司 一种文件传输的方法及装置
CN112395826A (zh) * 2019-08-01 2021-02-23 北京字节跳动网络技术有限公司 文字特效处理方法及装置
CN110798635A (zh) * 2019-10-16 2020-02-14 重庆爱奇艺智能科技有限公司 一种为视频匹配字幕文件的方法和装置
CN112887806A (zh) * 2021-01-25 2021-06-01 当趣网络科技(杭州)有限公司 字幕处理方法、装置、电子设备及介质
CN112911404A (zh) * 2021-01-25 2021-06-04 当趣网络科技(杭州)有限公司 视频字幕处理方法、装置、电子设备及介质
CN116600168A (zh) * 2023-04-10 2023-08-15 深圳市赛凌伟业科技有限公司 多媒体数据处理方法、装置、电子设备及存储介质
CN116744037A (zh) * 2023-08-10 2023-09-12 北京广播电视台 一种视频文件处理方法、系统、服务器、设备和介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1473731A2 (en) * 2003-04-28 2004-11-03 Kabushiki Kaisha Toshiba Reproducing apparatus
CN101452726A (zh) * 2008-11-15 2009-06-10 康佳集团股份有限公司 一种可下载和显示歌词的多媒体播放系统和方法
CN101616181A (zh) * 2009-07-27 2009-12-30 腾讯科技(深圳)有限公司 一种上传和下载字幕文件的方法、系统和设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100541215B1 (ko) * 2003-11-24 2006-01-10 (주)테일러테크놀로지 디지탈 오디오파일의 가사제공시스템
CN102087668A (zh) * 2011-02-17 2011-06-08 天擎华媒(北京)科技有限公司 一种自动获取音视频字幕和歌词并快速定位检索及个性化显示的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1473731A2 (en) * 2003-04-28 2004-11-03 Kabushiki Kaisha Toshiba Reproducing apparatus
CN101452726A (zh) * 2008-11-15 2009-06-10 康佳集团股份有限公司 一种可下载和显示歌词的多媒体播放系统和方法
CN101616181A (zh) * 2009-07-27 2009-12-30 腾讯科技(深圳)有限公司 一种上传和下载字幕文件的方法、系统和设备

Also Published As

Publication number Publication date
CN103179093A (zh) 2013-06-26

Similar Documents

Publication Publication Date Title
CN103179093B (zh) 视频字幕的匹配系统和方法
US11038936B2 (en) Systems and methods for automation fallback for retrieving and playing content
US20210029178A1 (en) Distributed control of media content item during webcast
CA2802746C (en) System and methods for facilitating the synchronization of data
CN110719524B (zh) 一种视频播放方法、装置、智能播放设备和存储介质
US6539370B1 (en) Dynamically generated HTML formatted reports
US6484156B1 (en) Accessing annotations across multiple target media streams
US10264314B2 (en) Multimedia content management system
WO2016126355A1 (en) Methods, systems, and media for suggesting a link to media content
US8250065B1 (en) System and method for ranking information based on clickthroughs
US20120253795A1 (en) Audio commenting and publishing system
US20110119248A1 (en) Topic identification system, topic identification device, client terminal, program, topic identification method, and information processing method
US20070244984A1 (en) Portable media player enabled to obtain previews of a user's media collection
JPWO2002073462A1 (ja) マルチメディア協調作業システム、そのクライアント/サーバ、方法、記録媒体、及びプログラム
US10341727B2 (en) Information processing apparatus, information processing method, and information processing program
CN109194887B (zh) 一种云剪视频录制及剪辑方法和插件
US20130060873A1 (en) Real time event reviewing system and method
JP6182609B2 (ja) 字幕処理方法、装置、システム及び記憶媒体
US11729434B2 (en) Methods and systems for dynamic routing of content using a static playlist manifest
CN111787363B (zh) 一种多媒体数据处理方法、装置、设备及可读存储介质
WO2019148134A1 (en) Method, server, and client for updating playback record
CN104078069B (zh) 基于dlna的文件播放方法和设备
US20090043754A1 (en) Systems and methods for providing enhanced content portability in a word page module
US10572396B2 (en) Display apparatus, display control method, and computer readable recording medium
US20210067815A1 (en) Content matching system

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant