CN102194503B - 一种播放器及字幕文件的字符编码检测方法和装置 - Google Patents
一种播放器及字幕文件的字符编码检测方法和装置 Download PDFInfo
- Publication number
- CN102194503B CN102194503B CN201010125632.2A CN201010125632A CN102194503B CN 102194503 B CN102194503 B CN 102194503B CN 201010125632 A CN201010125632 A CN 201010125632A CN 102194503 B CN102194503 B CN 102194503B
- Authority
- CN
- China
- Prior art keywords
- subtitle file
- character
- probability
- character code
- coded
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Television Signal Processing For Recording (AREA)
Abstract
本发明适用于多媒体处理领域,提供了一种播放器及字幕文件的字符编码检测方法和装置,该方法包括:从待选字符编码集中选择包含字幕文件中全部编码值的字符编码;根据预先存储的每种字符编码的编码值分布概率表以及字幕文件,计算字幕文件对应选择的每种字符编码的可能性概率;将字幕文件可能性概率最大的字符编码确定为字幕文件的字符编码。本发明实施例可以自动、快速、准确的检测出字幕文件的字符编码。在播放视频文件时,由于可以自动、快速、准确的加载并检测到该视频文件对应的字幕文件的字符编码,使播放器可以采用字幕文件的字符编码来解析字幕文件,从而可以准确的显示字幕内容。
Description
技术领域
本发明属于多媒体处理领域,尤其涉及一种播放器及字幕文件的字符编码检测方法和装置。
背景技术
在播放器播放视频文件时,为了达到较好的播放效果,一般均会为该视频文件制作对应的字幕文件。为了便于查找视频文件对应的字幕文件,视频文件和字幕文件一般采用相同的名称。在制作字幕文件时,针对不同的语言,可以采用不同的字符编码,如用于表示简体字的GB2312、GBK和GB18030,用于表示繁体字的BIG5,包含了西欧语言的Latin1,包含东亚中日韩语言文字的CJK以及包含了全世界大部分语言的UNICODE(UTF-8,UTF-16)等。其中字符编码是指字符在计算机中的数字化表示规则,根据一种字符编码,每种字符均对应一种编码值。其中字符是各种文字和符号的总称,如语言文字中的字母(如a、b、A、B等)、文字(如你、我、他等)、符号(如+、-等)等。
对于不同的字符编码,字符对应的编码值基本不同,也就是说各种字符编码之间一般是互不兼容的,而视频文件对应的字幕文件一般是以某种字符编码方式编码存储,因此,在输出字幕文件时,需要采用生成字幕文件的字符编码方式解析字幕文件,才能准确的显示字幕文件的内容,否则将导致显示乱码或者发生字符丢失(如显示为?)的现象。
现有技术一般是通过人为的对字幕文件进行分析,判断字幕文件的字符编码,再将播放器的字符编码设置为字幕文件的字符编码,以实现字幕文件的准确显示。由于人为分析字幕文件的字符编码需要具备专业的计算机知识,导致大部分情况下,无法准确显示字幕文件,而且这种方法需要人为设置播放器的字符编码,从而降低了用户的播放体验。
发明内容
本发明实施例的目的在于提供一种字幕文件的字符编码检测方法,旨在解决现有技术需要通过人为方式分析字幕文件的字符编码的问题。
本发明实施例是这样实现的,一种字幕文件的字符编码检测方法,所述方法包括下述步骤:
从待选字符编码集中选择包含字幕文件中全部编码值的字符编码;
统计字幕文件包括的每种编码值在字幕文件中出现的次数;
根据每种字符编码的编码值分布概率表以及字幕文件包括的每种编码值在字幕文件中出现的次数,统计字幕文件包括的每种编码值对应字符编码的概率;
根据字幕文件包括的每种编码值对应字符编码的概率,计算字幕文件对应各个字符编码的可能性概率;将字幕文件可能性概率最大的字符编码确定为字幕文件的字符编码。
本发明实施例的另一目的在于提供一种视频输出方法,所述方法包括下述步骤:
在输出视频文件时,根据视频文件名查找与该视频文件对应的字幕文件;
从播放器设置的待选字符编码集中选择包含字幕文件中全部编码值的字符编码;
统计字幕文件包括的每种编码值在字幕文件中出现的次数;
根据每种字符编码的编码值分布概率表以及字幕文件包括的每种编码值在字幕文件中出现的次数,统计字幕文件包括的每种编码值对应字符编码的概率;
根据字幕文件包括的每种编码值对应字符编码的概率,计算字幕文件对应各个字符编码的可能性概率;
将字幕文件可能性概率最大的字符编码确定为字幕文件的字符编码;
采用确定的字幕文件的字符编码解析字幕文件,并将解析后的字幕文件的内容渲染成图像,在相应的时间叠加到视频图像中。
本发明实施例的另一目的在于提供一种字幕文件的字符编码检测装置,所述装置包括:
过滤单元,用于从待选字符编码集中选择包含字幕文件中全部编码值的字符编码;
存储单元,用于存储每种字符编码的编码值分布概率表;
可能性概率计算单元,包括:
次数统计模块,用于统计字幕文件包括的每种编码值在字幕文件中出现的次数,
概率统计模块,用于根据每种字符编码的编码值分布概率表以及所述次数统计模块统计得到的字幕文件包括的每种编码值在字幕文件中出现的次数,统计字幕文件包括的每种编码值对应字符编码的概率,
可能性概率计算模块,用于根据字幕文件包括的每种编码值对应字符编码的概率,计算字幕文件对应各个字符编码的可能性概率;
字符编码确定单元,用于根据所述可能性概率计算单元的计算结果,将字幕文件可能性概率最大的字符编码确定为字幕文件的字符编码。
本发明实施例的另一目的在于提供一种视频输出装置,所述视频输出装置包括:
字幕文件加载单元,用于在播放器输出视频文件时,根据视频文件名查找与该视频文件对应的字幕文件;
过滤单元,用于从播放器设置的待选字符编码集中选择包含字幕文件中全部编码值的字符编码;
可能性概率计算单元,包括:
次数统计模块,用于统计字幕文件包括的每种编码值在字幕文件中出现的次数,
概率统计模块,用于根据每种字符编码的编码值分布概率表以及所述次数统计模块统计得到的字幕文件包括的每种编码值在字幕文件中出现的次数,统计字幕文件包括的每种编码值对应字符编码的概率,
可能性概率计算模块,用于根据字幕文件包括的每种编码值对应字符编码的概率,计算字幕文件对应各个字符编码的可能性概率;
字符编码确定单元,用于根据所述可能性概率计算单元的计算结果,将字幕文件可能性概率最大的字符编码确定为字幕文件的字符编码;
字幕输出单元,用于采用确定的字幕文件的字符编码解析字幕文件,并将解析后的字幕文件的内容渲染成图像,在相应的时间叠加到视频图像中。
在本发明实施例中,从待选字符编码集中选择包含字幕文件中全部编码值的字符编码,再根据预先存储的每种字符编码的编码值分布概率表以及字幕文件,计算字幕文件对应选择的每种字符编码的可能性概率,将字幕文件可能性概率最大的字符编码确定为字幕文件的字符编码,从而自动、快速、准确的检测出字幕文件的字符编码。在播放视频文件时,由于可以自动、快速、准确的加载并检测到该视频文件对应的字幕文件的字符编码,从而使播放器可以采用字幕文件的字符编码来解析字幕文件,从而可以准确的显示字幕内容,给用户带来较好的播放体验。
附图说明
图1是本发明第一实施例提供的字幕文件的字符编码检测方法的实现流程图;
图2是本发明第二实施例提供的字幕文件的字符编码检测方法的实现流程图;
图3是本发明第三实施例提供的字幕文件的字符编码检测方法的实现流程图;
图4是本发明实施例提供的采用字符编码检测方法的视频输出方法的实现流程图;
图5a、5b分别是现有技术提供的字幕显示效果图和本发明实施例提供的字幕显示效果图;
图6是本发明实施例提供的字幕文件的字符编码检测装置的结构框图;
图7是本发明实施例提供的播放器的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在本发明实施例中,从待选字符编码集中选择包含字幕文件中全部编码值的字符编码,再根据预先存储的每种字符编码的编码值分布概率表以及字幕文件,计算字幕文件对应选择的每种字符编码的可能性概率,将字幕文件可能性概率最大的字符编码确定为字幕文件的字符编码,从而自动、快速、准确的检测出字幕文件的字符编码,从而可以快速、准确的输出字幕文件。
实施例一:
图1示出了本发明第一实施例提供的字幕文件的字符编码检测方法的实现流程,详述如下:
在步骤S101中,从待选字符编码集中选择包含字幕文件中全部编码值的字符编码。
在本发明实施例中,为了使播放器可以准确的输出采用不同字符编码的字幕文件,一般预先在播放器中设置字符编码集,该字符编码集中包括一种或多种字符编码。当需要检测播放器中待播放的字幕文件的字符编码时,则将播放器中设置的字符编码集作为待选字符编码集,从待选字符编码集中选择包含字幕文件中全部编码值的字符编码。举例说明如下,但不以该举例说明为限:
如果预先在播放器中设置的字符编码集中包括如下字符编码:用来表示简体字的GB2312、GBK、GB18030,用来表示繁体字的BIG5,包含西欧语言的Latin1,包含东亚中日韩语言文字的CJK以及包含了全世界大部分语言的UNICODE等,通过遍历字幕文件,针对字符编码集中的每种字符编码,判断该字符编码中是否包含字幕文件中的所有编码值,如果是,则选择该字符编码,如果否,则过滤掉该字符编码。
在步骤S102中,根据预先存储的每种字符编码的编码值分布概率表以及字幕文件,计算字幕文件对应选择的每种字符编码的可能性概率。
在本发明实施例中,在根据预先存储的每种字符编码的编码值分布概率表以及字幕文件,计算字幕文件对应选择的每种字符编码的可能性概率时,可以采用算术加权算法计算,当然也可以采用现有技术提供的其他算法进行计算,在此不在一一举例说明。
在本发明实施例中,由于不同语言中各个字符出现的概率可能不一致,通过收集大量的数据(如不同语言的网页、书籍等)进行统计分析后,可以得到每种字符编码的编码值分布概率表,将每种字符编码的编码值分布概率表预先存储在播放器中。举例说明如下:
假设根据收集的网页和书籍数据可以得到,对于字符编码GB2312来说,字符A出现的概率为0.0001、字符B出现的概率为0.0002、字符C出现的概率为0.0003、字符D出现的概率为0.0004,对于字符编码BIG5来说,字符A出现的概率为0.0002、字符B出现的概率为0.0004、字符C出现的概率为0.0001、字符D出现的概率为0.0003,由于在不同的字符编码中,字符对应的编码值可能不一样,假设在不同的字符编码中,上述字符对应的编码值如表1.1所示:
表1.1
字符编码 | 字符 | 编码值 |
GB2312 | A | 12345 |
GB2312 | B | 23456 |
GB2312 | C | 34567 |
GB2312 | D | 45678 |
BIG5 | A | 23456 |
BIG5 | B | 12345 |
BIG5 | C | 45678 |
BIG5 | D | 34567 |
… | … | … |
则对于字符编码为GB2312来说,其编码值分布概率表如表1.2所示:
表1.2
编码值 | 概率 |
12345 | 0.0001 |
23456 | 0.0002 |
34567 | 0.0003 |
45678 | 0.0004 |
… | … |
对于字符编码为BIG5来说,其编码值分布概率表如表1.3所示:
表1.3
编码值 | 概率 |
12345 | 0.0004 |
23456 | 0.0002 |
34567 | 0.0003 |
45678 | 0.0001 |
… | … |
通过预先将上述每种字符编码的编码值分布概率表存储在播放器中,在需要检测播放器中字幕文件的字符编码时,根据预先存储的每种字符编码的编码值分布概率表以及字幕文件采用算术加权算法计算字幕文件对应选择的每种字符编码的可能性概率,其具体步骤如下:
统计字幕文件包括的每种编码值在字幕文件中出现的次数;
根据每种字符编码的编码值分布概率表以及字幕文件包括的每种编码值在字幕文件中出现的次数,统计字幕文件包括的每种编码值对应字符编码的概率;
根据字幕文件包括的每种编码值对应字符编码的概率,计算字幕文件对应各个字符编码的可能性概率。
以下以一个具体的示例对上述步骤进行举例说明,但不以该举例说明为限,在该举例说明中,假设从待选字符编码集中选择的字符编码包括GB2312和BIG5,字幕文件包括12345和23456两种编码值,统计字幕文件包括的每种编码值在字幕文件中出现的次数后,得到编码值12345和23456在字幕文件中出现的次数分别为4次和6次。
接着根据每种字符编码的编码值分布概率表以及字幕文件包括的每种编码值在字幕文件中出现的次数,统计字幕文件包括的每种编码值对应字符编码的概率,以编码值分布概率表如表1.2和表1.3所示,则统计得到字幕文件包括的每种编码值对应字符编码的概率如下:
编码值12345对应字符编码GB2312的概率为0.0001*4=0.0004,编码值23456对应字符编码GB2312的概率为0.0002*6=0.0012;
编码值12345对应字符编码BIG5的概率为0.0004*4=0.0016,编码值23456对应字符编码BIG5的概率为0.0002*6=0.0012。
最后根据字幕文件包括的每种编码值对应字符编码的概率,计算字幕文件对应各个字符编码的可能性概率,得到以下结果:
字幕文件对应字符编码GB2312的可能性概率为字幕文件包括的每种编码值对应字符编码GB2312的概率之和,即为0.0001*4+0.0002*6=0.0016;
字幕文件对应字符编码BIG5的可能性概率为字幕文件包括的每种编码值对应字符编码BIG5的概率之和,即为0.0004*4+0.0002*6=0.0028。
在步骤S103中,将字幕文件可能性概率最大的字符编码确定为字幕文件的字符编码。
在本发明实施例中,在计算得到字幕文件对应选择的每种字符编码的可能性概率后,依据可能性大小从大到小进行排序,将字幕文件可能性概率最大的字符编码确定为字幕文件的字符编码,从而实现快速、高效、自动的检测字幕文件的字符编码。
由于在日常交流活动中,人们说的每个字符的出现次数/既率构成总体(每种语言/字符编码对应不同的总体),字幕文件中的每个字幕的出现次数/概率构成样本,基于统计学原理,样本的概率分布应和总体的概率分布接近(样本量越大越接近)。因此,字幕文件对应字符编码的可能性概率值即为样本(字幕文件)和各个,总体(字符编码)的接近程度,通过选取最接近的(并且超过阈值)的字符编码作为字幕文件的字符编码,从而可以自动、快速、准确的检测出字幕文件的字符编码。
实施例二:
图2示出了本发明第二实施例提供的字幕文件的字符编码检测方法的实现流程,图2所示的字符编码检测方法中的步骤S202、S203和S204分别与图1所示的字符编码检测方法的步骤S101、S102和S103相同,其不同之处仅在于,其还包括如下步骤:
在步骤S201中,采集大量不同语言数据,统计不同语言中各个字符出现的概率,并根据不同语言中各个字符出现的概率计算每种字符编码的编码值分布概率,得到每种字符编码的编码值分布概率表。举例说明如下:
通过采集大量采用简体字的网页和书籍等语言数据,统计简体字中各个字符出现的概率,由于字符编码GB2312是用来表示简体字的,因此,根据简体字中各个字符出现的概率可以得到字符编码GB2312的编码值分布概率表;通过采集大量采用繁体字的网页和书籍等语言数据,统计繁体字中各个字符出现的概率,由于字符编码BIG5是用来表示繁体字的,因此,根据繁体字中各个字符出现的概率可以得到字符编码BIG5的编码值分布概率表。同理,可以得到其他字符编码的编码值分布概率表,在此不再赘述。
实施例三:
图3示出了本发明第三实施例提供的字幕文件的字符编码检测方法的实现流程,图3所示的字符编码检测方法中的步骤S301、S302分别与图1所示的字符编码检测方法的步骤S101、S102相同,其不同之处仅在于,其还包括如下步骤:
在步骤S303中,判断最大的字幕文件对应字符编码的可能性概率是否大于预设的阈值,如果是,执行步骤S304,否则,执行步骤S305。
在本发明实施例中,为了使检测结果更加准确,在得到字幕文件对应选择的每种字符编码的可能性概率后,判断最大的字幕文件对应字符编码的可能性概率是否大于预设的阈值。其中预设的阈值是根据大量测试结果或实践经验总结得到的,当最大的字幕文件对应字符编码的可能性概率大于预设的阈值时,则表示字幕文件对应字符编码的可能性概率最大的字符编码是字幕文件的字符编码,当最大的字幕文件对应字符编码的可能性概率小于预设的阈值时,则表示字幕文件对应字符编码的可能性概率最大的字符编码可能不是字幕文件的字符编码。
在步骤S304中,将字幕文件对应字符编码的可能性概率最大的字符编码确定为字幕文件的字符编码。其具体过程如上所述,在此不再赘述。
在步骤S305中,输出无法检测出字幕文件的字符编码的提示信息。
实施例四:
图4示出了本发明实施例提供的采用字符编码检测方法的视频输出方法的实现流程,详述如下:
在步骤S401中,在输出视频文件时,根据视频文件名查找与该视频文件对应的字幕文件。
其中视频文件可以是影片文件等,在播放视频文件时,根据视频文件名查找与该视频文件对应的字幕文件。
在步骤S402中,从播放器设置的待选字符编码集中选择包含字幕文件中全部编码值的字符编码。其具体步骤如上所述,在此不再赘述。
在步骤S403中,根据预先存储的每种字符编码的编码值分布概率表以及字幕文件,计算字幕文件对应选择的每种字符编码的可能性概率。其具体步骤如上所述,在此不再赘述。
在步骤S404中,将字幕文件对应字符编码的可能性概率最大的字符编码确定为字幕文件的字符编码。其具体步骤如上所述,在此不再赘述。
在步骤S405中,采用确定的字幕文件的字符编码解析字幕文件,并将解析后的字幕文件的文本内容渲染成图像,在相应的时间叠加到视频图像中。
请参阅图5a和图5b,分别为现有技术提供的字幕显示效果图和本发明实施例提供的字幕显示效果图。
在本发明实施例中,在播放视频文件时,由于可以自动、快速、准确的加载并检测到该视频文件对应的字幕文件的字符编码,从而使播放器可以采用字幕文件的字符编码来解析字幕文件,从而可以准确的显示字幕内容,给用户带来较好的播放体验。
可以理解,在检测与视频文件对应的字幕文件时,也可以采用图2或者图3所示的检测方法,在此不再赘述。
实施例五:
图6示出了本发明实施例提供的字幕文件的字符编码检测装置的结构,为了便于说明,仅示出了与本发明实施例相关的部分。其中:
过滤单元11从待选字符编码集中选择包含字幕文件中全部编码值的字符编码。
在本发明实施例中,为了使播放器可以准确的输出采用不同字符编码的字幕文件,一般预先在播放器中设置字符编码集,该字符编码集中包括一种或多种字符编码。当需要检测播放器中待播放的字幕文件的字符编码时,则将播放器中设置的字符编码集作为待选字符编码集,从待选字符编码集中选择包含字幕文件中全部编码值的字符编码。
存储单元12用于存储每种字符编码的编码值分布概率表。
在本发明实施例中,由于不同语言中各个字符出现的概率可能不一致,通过收集大量的数据(如不同语言的网页、书籍等)进行统计分析后,可以得到每种字符编码的编码值分布概率表。
可能性概率计算单元13根据存储单元12中存储的每种字符编码的编码值分布概率表以及字幕文件,计算字幕文件对应选择的每种字符编码的可能性概率。
在本发明实施例中,该可能性概率计算单元13在根据存储单元12中存储的每种字符编码的编码值分布概率表以及字幕文件,计算字幕文件对应选择的每种字符编码的可能性概率时,可以采用算术加权算法计算,当然也可以采用现有技术提供的其他算法进行计算,在此不在一一举例说明。
该可能性概率计算单元13包括次数统计模块131、概率统计模块132和可能性概率计算模块133。其中:
次数统计模块131统计字幕文件包括的每种编码值在字幕文件中出现的次数。
概率统计模块132根据每种字符编码的编码值分布概率表以及次数统计模块131统计得到的字幕文件包括的每种编码值在字幕文件中出现的次数,统计字幕文件包括的每种编码值对应字符编码的概率。
可能性概率计算模块133根据字幕文件包括的每种编码值对应字符编码的概率,计算字幕文件对应各个字符编码的可能性概率。
字符编码确定单元14根据可能性概率计算单元13的计算结果,将字幕文件对应字符编码的可能性概率最大的字符编码确定为字幕文件的字符编码。
在本发明实施例中,在可能性概率计算单元13计算得到字幕文件对应选择的每种字符编码的可能性概率后,依据可能性大小从大到小进行排序,字符编码确定单元14将字幕文件对应字符编码的可能性概率最大的字符编码确定为字幕文件的字符编码,从而实现自动、快速、高效的检测字幕文件的字符编码。
在本发明另一实施例中,该装置还包括编码值分布概率统计单元15。该编码值分布概率统计单元15采集大量不同语言数据,统计不同语言中各个字符出现的概率,并根据不同语言中各个字符出现的概率计算每种字符编码的编码值分布概率,得到每种字符编码的编码值分布概率表。
为了使检测结果更加准确,在本发明另一实施例中,该装置还包括可能性概率判断单元16和信息提示单元17。其中;
可能性概率判断单元16判断最大的字幕文件对应字符编码的可能性概率是否大于预设的阈值。此时,字符编码确定单元14在可能性概率判断单元16判定最大的字幕文件对应字符编码的可能性概率大于预设的阈值时,根据可能性概率计算单元13的计算结果,将字幕文件对应字符编码的可能性概率最大的字符编码确定为字幕文件的字符编码。
信息提示单元17在可能性概率判断单元16判定最大的字幕文件对应字符编码的可能性概率小于或者等于预设的阈值时,输出无法检测出字幕文件的字符编码的提示信息。
在本发明实施例中,在得到字幕文件对应选择的每种字符编码的可能性概率后,判断最大的字幕文件对应字符编码的可能性概率是否大于预设的阈值。其中预设的阈值是根据大量测试结果或实践经验总结得到的,当最大的字幕文件对应字符编码的可能性概率大于预设的阈值时,则表示字幕文件对应字符编码的可能性概率最大的字符编码是字幕文件的字符编码,当最大的字幕文件对应字符编码的可能性概率小于预设的阈值时,则表示字幕文件对应字符编码的可能性概率最大的字符编码可能不是字幕文件的字符编码。
实施例六:
图7示出了本发明实施例提供的播放器的结构,为了便于说明,仅示出了与本发明实施例相关的部分。其中:
字幕文件加载单元1在播放器输出视频文件时,根据视频文件名查找与该视频文件对应的字幕文件。
字符编码检测装置2检测与视频文件对应的字幕文件的字符编码。该字符编码检测装置2的具体结构如图6所示。
字幕输出单元3采用检测到的字幕文件的字符编码解析字幕文件,并将解析后的字幕文件的文本内容渲染成图像,在相应的时间叠加到视频图像中。
在本发明实施例中,从待选字符编码集中选择包含字幕文件中全部编码值的字符编码,再根据预先存储的每种字符编码的编码值分布概率表以及字幕文件采用算术加权算法计算字幕文件对应选择的每种字符编码的可能性概率,将字幕文件对应字符编码的可能性概率最大的字符编码确定为字幕文件的字符编码,从而自动、快速、准确的检测出字幕文件的字符编码。在播放视频文件时,由于可以自动、快速、准确的加载并检测到该视频文件对应的字幕文件的字符编码,从而使播放器可以采用字幕文件的字符编码来解析字幕文件,从而可以准确的显示字幕内容,给用户带来较好的播放体验。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种字幕文件的字符编码检测方法,其特征在于,所述方法包括下述步骤:
从待选字符编码集中选择包含字幕文件中全部编码值的字符编码;
统计字幕文件包括的每种编码值在字幕文件中出现的次数;
根据每种字符编码的编码值分布概率表以及字幕文件包括的每种编码值在字幕文件中出现的次数,统计字幕文件包括的每种编码值对应字符编码的概率;
根据字幕文件包括的每种编码值对应字符编码的概率,计算字幕文件对应各个字符编码的可能性概率;
将字幕文件可能性概率最大的字符编码确定为字幕文件的字符编码。
2.如权利要求1所述的方法,其特征在于,所述方法还包括下述步骤:
采集大量不同语言数据,统计不同语言中各个字符出现的概率,并根据不同语言中各个字符出现的概率计算每种字符编码的编码值分布概率,得到每种字符编码的编码值分布概率表。
3.如权利要求1所述的方法,其特征在于,在所述根据预先存储的每种字符编码的编码值分布概率表以及字幕文件,采用算术加权算法,计算字幕文件对应选择的每种字符编码的可能性概率的步骤之后,所述方法还包括下述步骤:
判断字幕文件可能性概率最大的字符编码的概率值是否大于预设的阈值,如果是,执行所述将字幕文件可能性概率最大的字符编码确定为字幕文件的字符编码的步骤,如果否,输出无法检测出字幕文件的字符编码的提示信息。
4.一种视频输出方法,其特征在于,所述方法包括下述步骤:
在输出视频文件时,根据视频文件名查找与该视频文件对应的字幕文件;
从播放器设置的待选字符编码集中选择包含字幕文件中全部编码值的字符编码;
统计字幕文件包括的每种编码值在字幕文件中出现的次数;
根据每种字符编码的编码值分布概率表以及字幕文件包括的每种编码值在字幕文件中出现的次数,统计字幕文件包括的每种编码值对应字符编码的概率;
根据字幕文件包括的每种编码值对应字符编码的概率,计算字幕文件对应各个字符编码的可能性概率,将字幕文件可能性概率最大的字符编码确定为字幕文件的字符编码;
采用确定的字幕文件的字符编码解析字幕文件,并将解析后的字幕文件的文本内容渲染成图像,在相应的时间叠加到视频图像中。
5.一种字幕文件的字符编码检测装置,其特征在于,所述装置包括:
过滤单元,用于从待选字符编码集中选择包含字幕文件中全部编码值的字符编码;
存储单元,用于存储每种字符编码的编码值分布概率表;
可能性概率计算单元,包括:
次数统计模块,用于统计字幕文件包括的每种编码值在字幕文件中出现的次数,
概率统计模块,用于根据每种字符编码的编码值分布概率表以及所述次数统计模块统计得到的字幕文件包括的每种编码值在字幕文件中出现的次数,统计字幕文件包括的每种编码值对应字符编码的概率,
可能性概率计算模块,用于根据字幕文件包括的每种编码值对应字符编码的概率,计算字幕文件对应各个字符编码的可能性概率;
字符编码确定单元,用于根据所述可能性概率计算单元的计算结果,将字幕文件可能性概率最大的字符编码确定为字幕文件的字符编码。
6.如权利要求5所述的装置,其特征在于,所述装置还包括:
编码值分布概率统计单元,用于采集大量不同语言数据,统计不同语言中各个字符出现的概率,并根据不同语言中各个字符出现的概率计算每种字符编码的编码值分布概率,得到每种字符编码的编码值分布概率表。
7.如权利要求5所述的装置,其特征在于,所述装置还包括:
可能性概率判断单元,用于判断字幕文件可能性概率最大的字符编码是否大于预设的阈值;此时,
所述字符编码确定单元,在可能性概率判断单元判定字幕文件可能性概率最大的字符编码大于预设的阈值时,根据所述可能性概率计算单元的计算结果,将字幕文件可能性概率最大的字符编码确定为字幕文件的字符编码;
信息提示单元,用于在所述可能性概率判断单元判定字幕文件可能性概率最大的字符编码的概率值小于或者等于预设的阈值时,输出无法检测出字幕文件的字符编码的提示信息。
8.一种视频输出装置,其特征在于,所述视频输出装置包括:
字幕文件加载单元,用于在播放器输出视频文件时,根据视频文件名查找与该视频文件对应的字幕文件;
过滤单元,用于从播放器设置的待选字符编码集中选择包含字幕文件中全部编码值的字符编码;
可能性概率计算单元,包括:
次数统计模块,用于统计字幕文件包括的每种编码值在字幕文件中出现的次数,
概率统计模块,用于根据每种字符编码的编码值分布概率表以及所述次数统计模块统计得到的字幕文件包括的每种编码值在字幕文件中出现的次数,统计字幕文件包括的每种编码值对应字符编码的概率,
可能性概率计算模块,用于根据字幕文件包括的每种编码值对应字符编码的概率,计算字幕文件对应各个字符编码的可能性概率;
字符编码确定单元,用于根据所述可能性概率计算单元的计算结果,将字幕文件可能性概率最大的字符编码确定为字幕文件的字符编码;
字幕输出单元,用于采用确定的字幕文件的字符编码解析字幕文件,并将解析后的字幕文件的文本内容渲染成图像,在相应的时间叠加到视频图像中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010125632.2A CN102194503B (zh) | 2010-03-12 | 2010-03-12 | 一种播放器及字幕文件的字符编码检测方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010125632.2A CN102194503B (zh) | 2010-03-12 | 2010-03-12 | 一种播放器及字幕文件的字符编码检测方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102194503A CN102194503A (zh) | 2011-09-21 |
CN102194503B true CN102194503B (zh) | 2014-08-27 |
Family
ID=44602425
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201010125632.2A Active CN102194503B (zh) | 2010-03-12 | 2010-03-12 | 一种播放器及字幕文件的字符编码检测方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102194503B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104463153B (zh) * | 2013-09-25 | 2018-09-04 | 北大方正集团有限公司 | 一种提高版式文档中字符识别率的方法和系统 |
CN105988977A (zh) * | 2015-02-16 | 2016-10-05 | 珠海金山办公软件有限公司 | 一种字符编码识别结果的显示方法和装置 |
CN104750666B (zh) * | 2015-03-12 | 2018-08-07 | 明博教育科技有限公司 | 一种文本字符编码方式的识别方法及系统 |
CN105847931B (zh) * | 2016-03-28 | 2019-08-27 | 深圳Tcl新技术有限公司 | 字幕显示方法及装置 |
CN107295070B (zh) * | 2017-05-31 | 2019-10-29 | 上海交通大学 | 文件大小异构的分布式编码缓存放置方法及系统 |
CN112580302B (zh) * | 2020-12-11 | 2023-07-14 | 海信视像科技股份有限公司 | 一种字幕校正方法及显示设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1798315A (zh) * | 2004-12-30 | 2006-07-05 | 上海乐金广电电子有限公司 | Divx视频多字幕记录媒质及多字幕播放控制方法 |
CN101034391A (zh) * | 2007-04-26 | 2007-09-12 | 北京立通无限科技有限公司 | 一种确定文本流字符集的方法及装置 |
CN101404730A (zh) * | 2008-09-23 | 2009-04-08 | 腾讯科技(深圳)有限公司 | 在视频流中加载字幕的方法及播放器 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007316613A (ja) * | 2006-04-26 | 2007-12-06 | Matsushita Electric Ind Co Ltd | 字幕表示制御装置 |
-
2010
- 2010-03-12 CN CN201010125632.2A patent/CN102194503B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1798315A (zh) * | 2004-12-30 | 2006-07-05 | 上海乐金广电电子有限公司 | Divx视频多字幕记录媒质及多字幕播放控制方法 |
CN101034391A (zh) * | 2007-04-26 | 2007-09-12 | 北京立通无限科技有限公司 | 一种确定文本流字符集的方法及装置 |
CN101404730A (zh) * | 2008-09-23 | 2009-04-08 | 腾讯科技(深圳)有限公司 | 在视频流中加载字幕的方法及播放器 |
Also Published As
Publication number | Publication date |
---|---|
CN102194503A (zh) | 2011-09-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102194503B (zh) | 一种播放器及字幕文件的字符编码检测方法和装置 | |
CN109558513B (zh) | 一种内容推荐方法、装置、终端及存储介质 | |
EP2801917A1 (en) | Method, apparatus, and computer storage medium for automatically adding tags to document | |
CN101826096B (zh) | 基于鼠标指点的信息显示方法、装置系统 | |
US20140067842A1 (en) | Information processing method and apparatus | |
CN103425644B (zh) | 网页正文中图片的提取方法及装置 | |
CN106598999B (zh) | 一种计算文本主题归属度的方法及装置 | |
CN104899220A (zh) | 应用程序推荐方法和系统 | |
CN103760991A (zh) | 一种实体输入方法和装置 | |
CN109271509B (zh) | 直播间话题的生成方法、装置、计算机设备和存储介质 | |
CN105631393A (zh) | 信息识别方法及装置 | |
CN109597983B (zh) | 一种拼写纠错方法及装置 | |
CN102279890A (zh) | 基于微博的情感词提取收集方法 | |
US20110035283A1 (en) | Sponsor-based advertising apparatus and method using extracted affect | |
CN110727785A (zh) | 推荐模型的训练、搜索文本的推荐方法、装置及存储介质 | |
US8090720B2 (en) | Method for merging document clusters | |
CN104881458A (zh) | 一种网页主题的标注方法和装置 | |
CN109002483A (zh) | 文档管理方法、装置、计算机设备及存储介质 | |
CN109165373B (zh) | 一种数据处理方法及装置 | |
CN109710771A (zh) | 表格信息提取方法、装置和存储介质 | |
CN104182548A (zh) | 网页更新处理方法及装置 | |
CN112052368B (zh) | 自动提取列表数据的方法、系统、存储介质及电子设备 | |
CN110895654A (zh) | 分段方法、分段系统及非暂态电脑可读取媒体 | |
CN109815337B (zh) | 确定文章类别的方法及装置 | |
CN111240962B (zh) | 测试方法、装置、计算机设备及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |