CN106973333B - 基于比较的视频字幕错别字词纠错的方法及装置 - Google Patents
基于比较的视频字幕错别字词纠错的方法及装置 Download PDFInfo
- Publication number
- CN106973333B CN106973333B CN201710187454.8A CN201710187454A CN106973333B CN 106973333 B CN106973333 B CN 106973333B CN 201710187454 A CN201710187454 A CN 201710187454A CN 106973333 B CN106973333 B CN 106973333B
- Authority
- CN
- China
- Prior art keywords
- subtitle
- array
- item
- file
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000012937 correction Methods 0.000 title claims abstract description 19
- 238000012795 verification Methods 0.000 claims description 55
- 238000003491 array Methods 0.000 claims description 37
- 238000012545 processing Methods 0.000 claims description 14
- 229910002056 binary alloy Inorganic materials 0.000 claims description 7
- 238000007689 inspection Methods 0.000 abstract description 7
- 238000005516 engineering process Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/488—Data services, e.g. news ticker
- H04N21/4884—Data services, e.g. news ticker for displaying subtitles
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/435—Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Television Signal Processing For Recording (AREA)
- Television Systems (AREA)
Abstract
本发明实施例提供了一种基于比较的视频字幕错别字词纠错的方法及装置,涉及智能电视技术领域,用以降低字幕中出现错别字的现象,提高用户体验。所述方法包括:获取n个字幕文件,并在所述n个字幕文件中确定出应用字幕文件及备用字幕文件;所述n为大于2的整数;所述应用字幕文件是播放装置待使用的字幕文件;将所述n个字幕文件中的每个字幕文件划分为至少一个字幕数组;其中,所述字幕数组中包含有字幕条目及所述字幕条目对应的播放时间;根据所述备用字幕文件的至少一个字幕数组,依次对应用字幕文件的至少一个字幕数组进行字幕检验;在检验出所述至少一个字幕数组中存在错别字词时,纠正所述错别字词。
Description
技术领域
本发明涉及智能电视技术领域,尤其涉及一种基于比较的视频字幕错别字词纠错的方法及装置。
背景技术
随着科技的发展,人们观看视频的方法不在仅局限于有线电视的方法,越来越多的数字电视被使用。数字电视不仅可以播放广电网中的电视节目,而且还可以播放互联网视频媒体。
现有的互联网视频媒体往往通过字幕爬虫的方式来获取在线字幕,而在互联网上各字幕文件的质量参差不齐,往往会存在错别字词的现象,导致用户体验一般。
发明内容
本发明的实施例提供一种基于比较的视频字幕错别字词纠错的方法及装置,用以降低字幕中出现错别字的现象,提高用户体验。
为达到上述目的,本发明的实施例采用如下技术方案:
本发明实施例提供了一种基于比较的视频字幕错别字词纠错的方法,包括:获取n个字幕文件,并在所述n个字幕文件中确定出应用字幕文件及备用字幕文件;所述n为大于2的整数;所述应用字幕文件是播放装置待使用的字幕文件;将所述n个字幕文件中的每个字幕文件划分为至少一个字幕数组;其中,所述字幕数组中包含有字幕条目及所述字幕条目对应的播放时间;根据所述备用字幕文件的至少一个字幕数组,依次对应用字幕文件的至少一个字幕数组进行字幕检验;在检验出所述至少一个字幕数组中存在错别字词时,纠正所述错别字词。
进一步的,根据所述备用字幕文件的至少一个字幕数组,依次对应用字幕文件的字幕数组进行字幕检验,在检验出所述应用字幕文件的字幕数组中存在错别字词时,纠正所述错别字词包括:将第i个字幕数组中的字幕条目与所有备用字幕文件中的所有字幕数组的字幕条目进行字符串匹配,确定所有备用字幕文件中的所有字幕数组的字幕条目中是否存在至少两个字幕条目与所述第i个字幕数组中的字幕条目相同;i为大于0,不大于应用字幕文件划分的字幕数组的总个数的整数;若不存在,则在所述各个备用字幕文件中确定出各个校验字幕数组;所述校验字幕数组中的字幕条目对应的播放时间与所述第i个字幕条目对应的播放时间间隔不超过预设阈值;将所述各个校验字幕数组中的字幕条目进行比较,确定是否存在相似字幕条目;若存在相似字幕条目,且相似字幕条目的数量达到预设相似阈值,则确定所述第i个字幕数组中的字幕条目存在错别字词;在检验出所述第i个字幕数组中存在错别字词时,纠正所述错别字词;更新i的取值,继续检验应用字幕文件的下一个字幕数组。
进一步的,所述将所述各个校验字幕数组中的字幕条目进行比较,确定是否存在相似字幕条目包括:在所述各个校验字幕数组中的字幕条目中,确定出待比较的两个校验字幕数组中的字幕条目;将所述待比较的两个校验字幕数组中的字幕条目进行字符串比较;若所述待比较的两个校验字幕数组中的字幕条目不同,则进行二进制比较,确定字符串不同的部分与待比较的字幕条目间的比例是否超过预设比例阈值;若未超过预设比例阈值,则确定所述待比较的两个校验字幕数组中的字幕条目为相似字幕条目。
进一步的,还包括:若存在至少两个字幕条目与所述第i个字幕数组中的字幕条目相同,则确定所述第i个字幕数组中的字幕条目没有错别字,更新i的取值,继续检验应用字幕文件的下一个字幕数组。
进一步的,还包括:若不存在相似字幕条目,则确定所述第i个字幕数组中的字幕条目没有错别字,更新i的取值,继续检验应用字幕文件的下一个字幕数组。
进一步的,本发明实施例提供了一种基于比较的视频字幕错别字词纠错的装置,包括:获取单元,用于获取n个字幕文件,并在所述n个字幕文件中确定出应用字幕文件及备用字幕文件;所述n为大于2的整数;所述应用字幕文件是播放装置待使用的字幕文件;划分单元,用于将所述n个字幕文件中的每个字幕文件划分为至少一个字幕数组;其中,所述字幕数组中包含有字幕条目及所述字幕条目对应的播放时间;处理单元,用于根据所述备用字幕文件的至少一个字幕数组,依次对应用字幕文件的至少一个字幕数组进行字幕检验;在检验出所述至少一个字幕数组中存在错别字词时,纠正所述错别字词。
进一步的,所述处理单元,具体用于将第i个字幕数组中的字幕条目与所有备用字幕文件中的所有字幕数组的字幕条目进行字符串匹配,确定所有备用字幕文件中的所有字幕数组的字幕条目中是否存在至少两个字幕条目与所述第i个字幕数组中的字幕条目相同;i为大于0,不大于应用字幕文件划分的字幕数组的总个数的整数;若不存在,则在所述各个备用字幕文件中确定出各个校验字幕数组;所述校验字幕数组中的字幕条目对应的播放时间与所述第i个字幕条目对应的播放时间间隔不超过预设阈值;将所述各个校验字幕数组中的字幕条目进行比较,确定是否存在相似字幕条目;若存在相似字幕条目,且相似字幕条目的数量达到预设相似阈值,则确定所述第i个字幕数组中的字幕条目存在错别字词;在检验出所述第i个字幕数组中存在错别字词时,纠正所述错别字词;更新i的取值,继续检验应用字幕文件的下一个字幕数组。
进一步的,所述处理单元,具体用于在所述各个校验字幕数组中的字幕条目中,确定出待比较的两个校验字幕数组中的字幕条目;将所述待比较的两个校验字幕数组中的字幕条目进行字符串比较;若所述待比较的两个校验字幕数组中的字幕条目不同,则进行二进制比较,确定字符串不同的部分与待比较的字幕条目间的比例是否超过预设比例阈值;若未超过预设比例阈值,则确定所述待比较的两个校验字幕数组中的字幕条目为相似字幕条目。
进一步的,所述处理单元,还用于若存在至少两个字幕条目与所述第i个字幕数组中的字幕条目相同,则确定所述第i个字幕数组中的字幕条目没有错别字,更新i的取值,继续检验应用字幕文件的下一个字幕数组。
进一步的,所述处理单元,还用于若不存在相似字幕条目,则确定所述第i个字幕数组中的字幕条目没有错别字,更新i的取值,继续检验应用字幕文件的下一个字幕数组。
本发明实施例提供了一种基于比较的视频字幕错别字词纠错的方法及装置,包括:获取n个字幕文件,并在所述n个字幕文件中确定出应用字幕文件及备用字幕文件;所述n为大于2的整数;将所述n个字幕文件中的每个字幕文件划分为至少一个字幕数组;其中,所述字幕数组中包含有字幕条目及所述字幕条目对应的播放时间;根据所述备用字幕文件的至少一个字幕数组,依次对应用字幕文件的至少一个字幕数组进行字幕检验;在检验出所述至少一个字幕数组中存在错别字词时,纠正所述错别字词。这样,基于比较的视频字幕错别字词纠错的装置可以根据备用字幕文件,识别出应用字幕文件中的错别字词,进而进行纠正,从而可以降低字幕中出现错别字的现象,提高用户体验。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于比较的视频字幕错别字词纠错的方法的流程示意图;
图2为本发明实施例提供的一种基于比较的视频字幕错别字词纠错的装置结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种基于比较的视频字幕错别字词纠错的方法,如图1所示,包括:
步骤101、获取n个字幕文件,并在n个字幕文件中确定出应用字幕文件及备用字幕文件。
其中,n为大于2的整数。应用字幕文件是播放装置待使用的字幕文件。
具体的,播放装置播放一个视频时,使用现有的字幕爬虫系统从互联网上搜索到n(n>2)个字幕文件,基于比较的视频字幕错别字词纠错的装置可以在此n个字幕文件中将播放装置即将使用的字幕文件确定为应用字幕文件,其他n-1个字幕文件确定为备用字幕文件。
步骤102、将n个字幕文件中的每个字幕文件划分为至少一个字幕数组。
其中,字幕数组中包含有字幕条目及字幕条目对应的播放时间。
具体的,解析获取的n个字幕文件,将每个字幕文件均划分为多个包含了字幕条目及每个字幕条目对应的播放时间的字符串的数组,即为字幕数组。
需要说明的是,在字幕文件中包含了待播放的视频对应的完整的字幕及每个字幕对应的播放时间。上述的字幕条目由至少一个字幕组成。
通过将n个字幕文件划分为至少一个字幕数组,可以将不同格式的字幕文件统一为相同数据格式的字幕数组,以便于后续的比较。
步骤103、根据备用字幕文件的至少一个字幕数组,依次对应用字幕文件的至少一个字幕数组进行字幕检验,在检验出应用字幕文件的字幕数组中存在错别字词时,纠正错别字词。
具体的,在将n个字幕文件划分为至少一个字幕数组后,可以对应用字幕文件中的字幕数组逐一进行校验。并在检验出应用字幕文件的字幕数组中存在错别字词时,纠正所述错别字词。
此时,根据备用字幕文件的至少一个字幕数组,依次对应用字幕文件的至少一个字幕数组进行字幕检验包括:将第i个字幕数组中的字幕条目与所有备用字幕文件中的所有字幕数组的字幕条目进行字符串匹配,确定所有备用字幕文件中的所有字幕数组的字幕条目中是否存在至少两个字幕条目与所述第i个字幕数组中的字幕条目相同。
其中,i为大于0,不大于应用字幕文件划分的字幕数组的总个数的整数。
若不存在,则在各个备用字幕文件中确定出各个校验字幕数组;
其中,校验字幕数组中的字幕条目对应的播放时间与第i个字幕条目对应的播放时间间隔不超过预设阈值。
将各个校验字幕数组中的字幕条目进行比较,确定是否存在相似字幕条目。
若存在相似字幕条目,且相似字幕条目的数量达到预设相似阈值,则确定第i个字幕数组中的字幕条目存在错别字词。
在检验出第i个字幕数组中存在错别字词时,纠正错别字词。
更新i的取值,继续检验应用字幕文件的下一个字幕数组。
即为,遍历应用字幕文件中的字幕数组,顺序提取一个字幕数组,即为第i个字幕数组,将第i个字幕数组中的字幕条目,与所有备用字幕文件的所有字幕数组的字幕条目进行字符串的比较,确定n-1个备用字幕文件中的全部幕数组中是否存在至少两个字幕数组中的字幕条目与第i个字幕数组中的字幕条目相同。例如,第i个字幕数组中的字幕条目的内容为“中国人不是东牙病夫”。将该字幕条目与n-1个备用字幕文件中的所有字幕数组的所有字幕条目进行字符串精确匹配,确定所有备用字幕文件中是否存在至少两个字幕条目与第i个字幕条目相同。
如果在所有备用字幕文件中不在至少两个字幕条目与第i个字幕条目相同,则需要进行比对方法,此时解析第i个字幕数组,获取第i个字幕数组中的字幕条目对应的播放时间。根据此播放时间,将各个备用字幕文件中对应的播放时间与此播放时间的时间间隔不超过预设阈值的字幕数组确定为校验字幕数组。将各个校验字幕数组间进行比较,确定在校验字幕数组中是否存在相似字幕条目。如果存在相似字幕条目,且相似字幕条目的数量达到有预设相似阈值,则说明第i个字幕数组中的字幕条目存在错别字,此时可以根据相似字幕条目,对第i个字幕数组中的字幕条目进行逐一字符的纠正,从而可以纠正错别字词。如上例所述,如果在所有的校验字幕数组中存在多个相同的字幕条目,如“中国人不是东亚病夫”,则确定是应用字幕文件中存在错别字词,需予以纠正。其纠正后的应用字幕文件将显示为“中国人不是东亚病夫”。
在将第i个字幕数组中的字幕条目进行纠正完成后,可以继续对应用字幕文件中的下一个字幕数组进行校验,此时可以将i个的取值更新,即为将i加1,重新执行上述过程,校验应用字幕文件中的下一个字幕数组,直至将应用字幕文件中的全部字幕数组校验完成。
需要说明的是,预设阈值及预设相似阈值是根据实际需要预先设置。
进一步的,上述将各个校验字幕数组中的字幕条目进行比较,确定是否存在相似字幕条目包括:
在各个校验字幕数组中的字幕条目中,确定出待比较的两个校验字幕数组中的字幕条目;将待比较的两个校验字幕数组中的字幕条目进行字符串比较;若待比较的两个校验字幕数组中的字幕条目不同,则进行二进制比较,确定字符串不同的部分与待比较的字幕条目间的比例是否超过预设比例阈值;若未超过预设比例阈值,则确定待比较的两个校验字幕数组中的字幕条目为相似字幕条目。
也就是说,确定两个即将进行进行比较的校验字幕数组,即为待比较的校验字幕数组,可以记为s1和s2。对s1和s2做字符串比较,若s1和s2不同,则进行二进制比对,分析两个字符串不同的部分,若不同的部分占整句话的比例不超过预设比例阈值,则认为两句话的关系为相似字幕条目。
进一步的,若s1和s2完全相同则返回“完全相同”,判定结束。若s1和s2不同的部分占整句话的比例超过预设比例阈值,则认为s1和s2不是相似字幕条目。
需要说明的是,二进制比对为现有且公知的技术在此不再赘述。预设比例阈值是根据实际需求预先设置的,可以是20%,还可以是其他比例数值,例如30%,本发明对此不作限制。
进一步的,在上述步骤103中确定所有备用字幕文件中的所有字幕数组的字幕条目中是否存在至少两个字幕条目与所述第i个字幕数组中的字幕条目相同时,具有存在在至少两个字幕条目与第i个字幕数组中的字幕条目相同的现象,此时上述还包括:
若存在至少两个字幕条目与第i个字幕数组中的字幕条目相同,则确定第i个字幕数组中的字幕条目没有错别字,更新i的取值,继续检验应用字幕文件的下一个字幕数组。
也就是说,在备用文件字幕中存在与第i个字幕数组的字幕条目相同的至少两个字幕条目,可以确定第i个字幕数组的字幕条目的内容没有错别字词,此时可以继续对应用字幕文件中的下一个字幕数组进行校验,此时可以将i个的取值更新,即为将i加1,重新执行上述过程,校验应用字幕文件中的下一个字幕数组,直至将应用字幕文件中的全部字幕数组校验完成。
进一步的,在上述步骤103中将所述各个校验字幕数组中的字幕条目进行比较,确定是否存在相似字幕条目时,具有不存在相似字幕条目的可能,此时上述还包括:
若不存在相似字幕条目,则确定第i个字幕数组中的字幕条目没有错别字,更新i的取值,继续检验应用字幕文件的下一个字幕数组。
具体的,如果不存在相似字幕条目,或是存在多个不相同的相似字幕条目,则可以认为第i个字幕数组中的字幕条目是翻译差异或是带有字幕工作者特色的字幕条目,可以确定第i个字幕数组的字幕条目的内容没有错别字词,此时可以继续对应用字幕文件中的下一个字幕数组进行校验,此时可以将i个的取值更新,即为将i加1,重新执行上述过程,校验应用字幕文件中的下一个字幕数组,直至将应用字幕文件中的全部字幕数组校验完成。
这样,基于比较的视频字幕错别字词纠错的装置可以根据备用字幕文件,识别出应用字幕文件中的错别字词,进而进行纠正,从而可以降低字幕中出现错别字的现象,提高用户体验。
本发明实施例提供了一种基于比较的视频字幕错别字词纠错的装置,如图2所示,包括:
获取单元201,用于获取n个字幕文件,并在n个字幕文件中确定出应用字幕文件及备用字幕文件。
其中,n为大于2的整数。应用字幕文件是播放装置待使用的字幕文件。
划分单元202,用于将n个字幕文件中的每个字幕文件划分为至少一个字幕数组。
其中,字幕数组中包含有字幕条目及所述字幕条目对应的播放时间。
处理单元203,用于根据备用字幕文件的至少一个字幕数组,依次对应用字幕文件的至少一个字幕数组进行字幕检验;在检验出至少一个字幕数组中存在错别字词时,纠正错别字词。
具体的,处理单元203,具体用于将第i个字幕数组中的字幕条目与所有备用字幕文件中的所有字幕数组的字幕条目进行字符串匹配,确定所有备用字幕文件中的所有字幕数组的字幕条目中是否存在至少两个字幕条目与所述第i个字幕数组中的字幕条目相同。
其中,i为大于0,不大于应用字幕文件划分的字幕数组的总个数的整数。
若不存在,则在各个备用字幕文件中确定出各个校验字幕数组。
其中,校验字幕数组中的字幕条目对应的播放时间与所述第i个字幕条目对应的播放时间间隔不超过预设阈值。
将各个校验字幕数组中的字幕条目进行比较,确定是否存在相似字幕条目。
若存在相似字幕条目,且相似字幕条目的数量达到预设相似阈值,则确定第i个字幕数组中的字幕条目存在错别字词。
在检验出第i个字幕数组中存在错别字词时,纠正所述错别字词。
更新i的取值,继续检验应用字幕文件的下一个字幕数组。
进一步的,处理单元203,具体用于在各个校验字幕数组中的字幕条目中,确定出待比较的两个校验字幕数组中的字幕条目。
将待比较的两个校验字幕数组中的字幕条目进行字符串比较。
若待比较的两个校验字幕数组中的字幕条目不同,则进行二进制比较,确定字符串不同的部分与待比较的字幕条目间的比例是否超过预设比例阈值。
若未超过预设比例阈值,则确定待比较的两个校验字幕数组中的字幕条目为相似字幕条目。
进一步的,处理单元203,还用于若存在至少两个字幕条目与第i个字幕数组中的字幕条目相同,则确定第i个字幕数组中的字幕条目没有错别字,更新i的取值,继续检验应用字幕文件的下一个字幕数组。
进一步的,处理单元203,还用于若不存在相似字幕条目,则确定第i个字幕数组中的字幕条目没有错别字,更新i的取值,继续检验应用字幕文件的下一个字幕数组。
这样,基于比较的视频字幕错别字词纠错的装置可以根据备用字幕文件,识别出应用字幕文件中的错别字词,进而进行纠正,从而可以降低字幕中出现错别字的现象,提高用户体验。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种基于比较的视频字幕错别字词纠错的方法,其特征在于,包括:
获取n个字幕文件,并在所述n个字幕文件中确定出应用字幕文件及备用字幕文件;所述n为大于2的整数;所述应用字幕文件是播放装置待使用的字幕文件;
将所述n个字幕文件中的每个字幕文件划分为至少一个字幕数组;其中,所述字幕数组中包含有字幕条目及所述字幕条目对应的播放时间;
根据所述备用字幕文件的至少一个字幕数组,依次对应用字幕文件的字幕数组进行字幕检验,在检验出所述应用字幕文件的字幕数组中存在错别字词时,纠正所述错别字词包括:
将第i个字幕数组中的字幕条目与所有备用字幕文件中的所有字幕数组的字幕条目进行字符串匹配,确定所有备用字幕文件中的所有字幕数组的字幕条目中是否存在至少两个字幕条目与所述第i个字幕数组中的字幕条目相同;i为大于0,不大于应用字幕文件划分的字幕数组的总个数的整数;
若不存在,则在所述各个备用字幕文件中确定出各个校验字幕数组;所述校验字幕数组中的字幕条目对应的播放时间与所述第i个字幕数组中的 字幕条目对应的播放时间间隔不超过预设阈值;
将所述各个校验字幕数组中的字幕条目进行比较,确定是否存在相似字幕条目;
若存在相似字幕条目,且相似字幕条目的数量达到预设相似阈值,则确定所述第i个字幕数组中的字幕条目存在错别字词;
在检验出所述第i个字幕数组中存在错别字词时,纠正所述错别字词;
更新i的取值,继续检验应用字幕文件的下一个字幕数组。
2.根据权利要求1所述的方法,其特征在于,所述将所述各个校验字幕数组中的字幕条目进行比较,确定是否存在相似字幕条目包括:
在所述各个校验字幕数组中的字幕条目中,确定出待比较的两个校验字幕数组中的字幕条目;
将所述待比较的两个校验字幕数组中的字幕条目进行字符串比较;
若所述待比较的两个校验字幕数组中的字幕条目不同,则进行二进制比较,确定字符串不同的部分与待比较的字幕条目间的比例是否超过预设比例阈值;
若未超过预设比例阈值,则确定所述待比较的两个校验字幕数组中的字幕条目为相似字幕条目。
3.根据权利要求1或2所述的方法,其特征在于,还包括:
若存在至少两个字幕条目与所述第i个字幕数组中的字幕条目相同,则确定所述第i个字幕数组中的字幕条目没有错别字,更新i的取值,继续检验应用字幕文件的下一个字幕数组。
4.根据权利要求1或2所述的方法,其特征在于,还包括:
若不存在相似字幕条目,则确定所述第i个字幕数组中的字幕条目没有错别字,更新i的取值,继续检验应用字幕文件的下一个字幕数组。
5.一种基于比较的视频字幕错别字词纠错的装置,其特征在于,包括:
获取单元,用于获取n个字幕文件,并在所述n个字幕文件中确定出应用字幕文件及备用字幕文件;所述n为大于2的整数;所述应用字幕文件是播放装置待使用的字幕文件;
划分单元,用于将所述n个字幕文件中的每个字幕文件划分为至少一个字幕数组;其中,所述字幕数组中包含有字幕条目及所述字幕条目对应的播放时间;
处理单元,具体用于将第i个字幕数组中的字幕条目与所有备用字幕文件中的所有字幕数组的字幕条目进行字符串匹配,确定所有备用字幕文件中的所有字幕数组的字幕条目中是否存在至少两个字幕条目与所述第i个字幕数组中的字幕条目相同;i为大于0,不大于应用字幕文件划分的字幕数组的总个数的整数;
若不存在,则在所述各个备用字幕文件中确定出各个校验字幕数组;所述校验字幕数组中的字幕条目对应的播放时间与所述第i个字幕数组中的 字幕条目对应的播放时间间隔不超过预设阈值;
将所述各个校验字幕数组中的字幕条目进行比较,确定是否存在相似字幕条目;
若存在相似字幕条目,且相似字幕条目的数量达到预设相似阈值,则确定所述第i个字幕数组中的字幕条目存在错别字词;
在检验出所述第i个字幕数组中存在错别字词时,纠正所述错别字词;
更新i的取值,继续检验应用字幕文件的下一个字幕数组。
6.根据权利要求5所述的装置,其特征在于,
所述处理单元,具体用于在所述各个校验字幕数组中的字幕条目中,确定出待比较的两个校验字幕数组中的字幕条目;
将所述待比较的两个校验字幕数组中的字幕条目进行字符串比较;
若所述待比较的两个校验字幕数组中的字幕条目不同,则进行二进制比较,确定字符串不同的部分与待比较的字幕条目间的比例是否超过预设比例阈值;
若未超过预设比例阈值,则确定所述待比较的两个校验字幕数组中的字幕条目为相似字幕条目。
7.根据权利要求6所述的装置,其特征在于,
所述处理单元,还用于若存在至少两个字幕条目与所述第i个字幕数组中的字幕条目相同,则确定所述第i个字幕数组中的字幕条目没有错别字,更新i的取值,继续检验应用字幕文件的下一个字幕数组。
8.根据权利要求6或7所述的装置,其特征在于,
所述处理单元,还用于若不存在相似字幕条目,则确定所述第i个字幕数组中的字幕条目没有错别字,更新i的取值,继续检验应用字幕文件的下一个字幕数组。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710187454.8A CN106973333B (zh) | 2017-03-27 | 2017-03-27 | 基于比较的视频字幕错别字词纠错的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710187454.8A CN106973333B (zh) | 2017-03-27 | 2017-03-27 | 基于比较的视频字幕错别字词纠错的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106973333A CN106973333A (zh) | 2017-07-21 |
CN106973333B true CN106973333B (zh) | 2019-11-12 |
Family
ID=59335413
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710187454.8A Active CN106973333B (zh) | 2017-03-27 | 2017-03-27 | 基于比较的视频字幕错别字词纠错的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106973333B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108495063A (zh) * | 2018-03-27 | 2018-09-04 | 南京纳加软件股份有限公司 | 一种用于直播的多路字幕系统 |
CN109951652A (zh) * | 2019-03-20 | 2019-06-28 | 合肥科塑信息科技有限公司 | 一种人像语音视频同步校准装置及系统 |
CN112752165B (zh) * | 2020-06-05 | 2023-09-01 | 腾讯科技(深圳)有限公司 | 字幕处理方法、装置、服务器及计算机可读存储介质 |
CN111787363B (zh) * | 2020-06-24 | 2021-08-24 | 腾讯科技(深圳)有限公司 | 一种多媒体数据处理方法、装置、设备及可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103607635A (zh) * | 2013-10-08 | 2014-02-26 | 十分(北京)信息科技有限公司 | 一种字幕识别方法、装置和终端 |
CN104093037A (zh) * | 2014-06-10 | 2014-10-08 | 腾讯科技(深圳)有限公司 | 字幕校正方法和装置 |
CN104506933A (zh) * | 2014-12-23 | 2015-04-08 | 方正宽带网络服务有限公司 | 一种校验视频文件是否相同的方法及装置 |
CN105338394A (zh) * | 2014-06-19 | 2016-02-17 | 阿里巴巴集团控股有限公司 | 字幕数据的处理方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8379801B2 (en) * | 2009-11-24 | 2013-02-19 | Sorenson Communications, Inc. | Methods and systems related to text caption error correction |
-
2017
- 2017-03-27 CN CN201710187454.8A patent/CN106973333B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103607635A (zh) * | 2013-10-08 | 2014-02-26 | 十分(北京)信息科技有限公司 | 一种字幕识别方法、装置和终端 |
CN104093037A (zh) * | 2014-06-10 | 2014-10-08 | 腾讯科技(深圳)有限公司 | 字幕校正方法和装置 |
CN105338394A (zh) * | 2014-06-19 | 2016-02-17 | 阿里巴巴集团控股有限公司 | 字幕数据的处理方法及系统 |
CN104506933A (zh) * | 2014-12-23 | 2015-04-08 | 方正宽带网络服务有限公司 | 一种校验视频文件是否相同的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN106973333A (zh) | 2017-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106973333B (zh) | 基于比较的视频字幕错别字词纠错的方法及装置 | |
CN106331778B (zh) | 视频推荐方法和装置 | |
US8510333B2 (en) | Methods, systems, and apparatus for developing widgets | |
CN108063970A (zh) | 一种处理直播流的方法和装置 | |
CA2951978C (en) | Method and system for generating references to related video | |
CN103974061A (zh) | 一种播放测试方法及系统 | |
CN106998502B (zh) | 基于霍克斯过程的节目质量评价方法 | |
Sandford | The impact of subtitle display rate on enjoyment under normal television viewing conditions | |
US20160099787A1 (en) | Apparatus, systems and methods for identifying particular media content event of interest that is being received in a stream of media content | |
CN105208395B (zh) | 对安卓系统硬件视频解码的时间戳进行纠错的方法及系统 | |
JP2021504774A (ja) | コンテンツアイテムからの関数呼出しのトリガリングの制御 | |
US20140176728A1 (en) | Receiver and a transmitter | |
CN107371053A (zh) | 音频视频流对比分析方法及装置 | |
CN106709368A (zh) | 一种数据解析方法及装置 | |
CN104994429B (zh) | 一种播放视频的方法及装置 | |
KR101503082B1 (ko) | 리치 미디어 스트림 관리 | |
CN103957446B (zh) | 基于linux的支持多用户使用的机顶盒及其控制方法 | |
CN111695670A (zh) | 神经网络模型训练方法及装置 | |
Kedačić et al. | Application for testing of video and subtitle synchronization | |
CN104853256B (zh) | 一种视频播单的菜单展示方法及装置 | |
Deng et al. | Combinatorial testing on implementations of html5 support | |
CN105142022A (zh) | 一种高安机顶盒的生产升级方法 | |
CN104410912B (zh) | 电子节目指南刷新方法及系统 | |
CN108337503A (zh) | 数字电视现场环境模拟方法、终端及计算机可读介质 | |
CN108401191A (zh) | 频道配置方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20210208 Address after: 250100 Inspur science and Technology Park, 1036 Inspur Road, hi tech Zone, Jinan City, Shandong Province Patentee after: Inspur Software Technology Co.,Ltd. Address before: 250100 First Floor of R&D Building 2877 Kehang Road, Sun Village Town, Jinan High-tech Zone, Shandong Province Patentee before: SHANDONG INSPUR BUSINESS SYSTEM Co.,Ltd. |