CN116017088A

CN116017088A - 视频字幕处理方法、装置、电子设备和存储介质

Info

Publication number: CN116017088A
Application number: CN202310011910.9A
Authority: CN
Inventors: 吴庆双; 周效军; 李琳
Original assignee: China Mobile Communications Group Co Ltd; MIGU Culture Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; MIGU Culture Technology Co Ltd
Priority date: 2023-01-05
Filing date: 2023-01-05
Publication date: 2023-04-25

Abstract

本发明公开了一种视频字幕处理方法、装置、电子设备和存储介质，其中方法包括：提取视频对应的音频内容，经识别得到字幕文本；将字幕文本进行语句切分，得到待处理的第一字幕语句以及各第一字幕语句的起止位置；将各第一字幕语句进行拆分，得到第二字幕语句以及其起止位置；根据第一字幕语句的起止位置提取对应的视频片段，将视频片段拆分为视频子片段，并确定各视频子片段的起止位置；根据各第二字幕语句的起止位置和各视频子片段的起止位置的对应关系，确定出待拆分的第二字幕语句；将待拆分的第二字幕语句拆分成至少两个第三字幕语句，并将各第三字幕语句分别显示。上述方案字幕处理方式让上下字幕条的分割更为可信，提升了用户观看体验。

Description

视频字幕处理方法、装置、电子设备和存储介质

技术领域

本发明涉及视频处理技术领域，具体涉及一种视频字幕处理方法、装置、电子设备和存储介质。

背景技术

现有智能字幕条拆分方案，主要是根据语音中出现的停顿进行断句。首先，提取视频中的音频信息，然后按照音频中识别到的语音间隔进行断句，如果停顿时长达到或超过预设的时长，就可据此进行断句，由此进行字幕的拆分。

上述技术中往往因为音频中连贯的语音过长而导致自动生成过长的字幕，此时通常会配合一些手段来限制语句的长度，例如固定单条字幕长度，限定其最大长度不超过预设的字数，但这样的限制过于机械，不能很好的与音视频内容以及语句的语义进行融合，且拆分不合理也会影响用户的观看体验。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的视频字幕处理方法、装置、电子设备和存储介质。

根据本发明的一个方面，提供了一种视频字幕处理方法，所述方法包括：

提取视频对应的音频内容，对所述音频内容进行识别得到字幕文本；

将所述字幕文本进行语句切分，得到待处理的第一字幕语句以及各第一字幕语句的起止位置；

将各第一字幕语句进行拆分，得到第二字幕语句以及各第二字幕语句的起止位置；

根据第一字幕语句的起止位置提取对应的视频片段，将所述视频片段拆分为视频子片段，并确定各视频子片段的起止位置；

根据各第二字幕语句的起止位置和各视频子片段的起止位置的对应关系，确定出待拆分的第二字幕语句；其中所述待拆分的第二字幕语句对应至少两个视频子片段；

将所述待拆分的第二字幕语句拆分成至少两个第三字幕语句，并将各第三字幕语句随对应的所述视频子片段分别显示。

可选的，将所述字幕文本进行语句切分，得到待处理的第一字幕语句包括：

将所述字幕文本进行语句切分，得到语句集合；

从所述语句集合中筛选出字数大于第一阈值的第一字幕语句，作为所述待处理的第一字幕语句。

可选的，根据第一字幕语句的起止位置提取对应的视频片段，将所述视频片段拆分为视频子片段，并确定各视频子片段的起止位置包括：

根据第一字幕语句的起止位置，提取出与所述第一字幕语句对应的视频片段；

根据视频中的镜头、声音发出对象或画面场景中的任一种，将视频片段进行拆分，得到至少两个视频子片段；

确定各个视频子片段的起止位置。

可选的，将所述待拆分的第二字幕语句拆分成至少两个第三字幕语句包括：

根据所述待拆分的第二字幕语句拆分成分词方式的不同，得到多个第三字幕语句集合；

计算各第三字幕语句集合的可信度；

根据可信度的大小选择一个第三字幕语句集合，作为所述待拆分的第二字幕语句的拆分结果。

可选的，将所述待拆分的第二字幕语句拆分成至少两个第三字幕语句进一步包括：

将所述待拆分的第二字幕语句通过不同方式进行分割，得到多个分词集合，各所述分词集合分别与各所述第三字幕语句集合对应；

选择待拆分的第二字幕语句所属领域的自然语言处理的数据集作为标准集，并以所述字幕文本为非标准集；

利用非标准集确定各分词集合的第一条件概率集合，以及利用标准集确定各分词集合的第二条件概率集合；

根据第一条件概率集合和第二条件概率集合计算各分词集合的可信度；

按照可信度的大小进行排序，将可信度最大的所述分词集合作为所述待拆分的第二字幕语句的拆分结果。

可选的，利用非标准集确定各分词集合的第一条件概率集合，以及利用标准集确定各分词集合的第二条件概率集合包括：

依次确定在非标准集中分词集合的各分词在前面分词之后出现的概率值，由各概率值组成所述第一条件概率集合；

依次确定在标准集中分词集合的各分词在前面分词之后出现的概率值，由各概率值组成所述第二条件概率集合。

可选的，所述起止位置是根据时间戳、图像帧或包序号确定的。

根据本发明的另一方面，提供了一种视频字幕处理装置，所述装置包括：

文本识别模块，适于提取视频对应的音频内容，对所述音频内容进行识别得到字幕文本；

语句切分模块，适于将所述字幕文本进行语句切分，得到待处理的第一字幕语句以及各第一字幕语句的起止位置；

第一定位模块，适于将各第一字幕语句进行拆分，得到第二字幕语句以及各第二字幕语句的起止位置；

第二定位模块，适于根据第一字幕语句的起止位置提取对应的视频片段，将所述视频片段拆分为视频子片段，并确定各视频子片段的起止位置；

字幕对应模块，适于根据各第二字幕语句的起止位置和各视频子片段的起止位置的对应关系，确定出待拆分的第二字幕语句；其中所述待拆分的第二字幕语句对应至少两个视频子片段；

字幕拆分模块，适于将所述待拆分的第二字幕语句拆分成至少两个第三字幕语句，并将各所述第三字幕语句随对应的所述视频子片段分别显示。

根据本发明的又一方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行上述视频字幕处理方法对应的操作。

根据本发明的再一方面，提供了一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如上述视频字幕处理方法对应的操作。

根据本发明的视频字幕处理方案，可以实现基于语音、语句和镜头等的对应位置进行字幕拆分，使视频、音频和字幕更好融合，提升用户的观看体验；并且采用语句或词组位置与视频片段位置对应分析的字幕处理方式可以让上下字幕条的分割更为可信，单条字幕结构更完整，符合正常的语法习惯。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明一个实施例提供的视频字幕处理方法的流程示意图；

图2示出了本发明一个实施例提供的语句与镜头对应的结构示意图；

图3示出了本发明一个实施例提供的视频字幕处理装置的结构示意图；

图4示出了本发明一个实施例的电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

图1示出了本发明视频字幕处理方法实施例的流程图，该方法应用于电子设备中。该电子设备包括各类服务器、笔记本、个人电脑等的设备，能够利用其中的处理器进行分析运算。如图1所示，该方法包括以下步骤：

步骤110：提取视频对应的音频内容，对所述音频内容进行识别得到字幕文本。

其中，该实施例中的视频优选为完整视频，比如电视、电影，当然也可以是包括多个镜头、人物或者场景等视频片段。

步骤120：将所述字幕文本进行语句切分，得到待处理的第一字幕语句集合以及第一字幕语句集合中各第一字幕语句的起止位置。

字幕文本的切分方法可以采用常规的语音间隔法，当停顿超过预设的时间长度就可以认为前后是不同的语句，当然，也可以通过语义检测算法从字幕文本中拆分出不同语句。

该步骤中得到的待处理第一字幕语句集合优选为超过预设字数的语句集合，由于其超过预设字数比如20个字，则需要进行下一步的拆分，否则切分的语句可以不作处理直接与视频融合显示。

需要指出的是，该实施例中的起止位置是对应的视频中的位置，可以通过时间戳、图像帧或者包序号等来确定该起止位置。

步骤130：将各第一字幕语句进行拆分，得到第二字幕语句以及各第二字幕语句的起止位置。

针对长度超过阈值的第一字幕语句，可以进行拆分得到第二字幕语句。并且，根据第二字幕语句的拆分结果确定其起止位置，比如，可以形成相应的第一起止位置集合，便于与后续相应位置的视频片段进行对应分析。

步骤140：根据第一字幕语句的起止位置提取对应的视频片段，将所述视频片段拆分为视频子片段，并确定各视频子片段的起止位置。

结合图2所示的，该步骤通过第一字幕语句在视频上出现的起止位置，提取对应的视频片段，然后将该视频片段根据镜头个数、发声的对象以及画面场景等进一步拆分为视频子片段。其中，在得到这些视频子片段的第二起止位置后，可以形成第二起止位置集合。

步骤150：根据各第二字幕语句的起止位置和各视频子片段的起止位置的对应关系，确定出待拆分的第二字幕语句；其中所述待拆分的第二字幕语句对应至少两个视频子片段。

具体的，通过将第二字幕语句的起止位置(第一起止位置集合)和各视频子片段的起止位置(第二起止位置集合)进行对应，可以确定第二字幕语句的起止位置范围与视频子片段的起止位置范围的对应关系。如果某一个第二字幕语句的起止位置范围在某一个视频子片段的起止位置范围之内，表明该第二字幕语句仅对应一个视频子片段，该第二字幕语句不需要进行进一步拆分。如果第二字幕语句的起止位置范围超出了一个或多个视频子片段的起止位置范围，则表明该第二字幕语句对应至少两个视频子片段，该第二字幕语句需要进一步的拆分。

步骤160：将所述待拆分的第二字幕语句拆分成至少两个第三字幕语句，并将各所述第三字幕语句随对应的所述视频子片段分别显示。

具体的，可根据自然语言处理NLP以及概率统计等技术对待拆分的第二字幕语句拆分方案量化评估，得到最终的拆分结果，并将拆分形成的各第三字幕语句分别作为一个字幕条随对应的所述视频子片段分别显示。

综上，本发明该实施例公开了一种视频字幕拆分的方法，实现了视频、音频和字幕更好融合；并且采用语句在视频中的位置与视频片段位置对应分析处理，得到的上下字幕条的分割更为可信，单条字幕结构更完整，符合正常的语法习惯，并且提升了用户的观看体验。

在一个或一些实施例中，步骤120中将所述字幕文本进行语句切分，得到待处理的第一字幕语句进一步包括：

将所述字幕文本进行语句切分，得到语句集合；从所述语句集合中筛选出字数大于第一阈值的第一字幕语句，形成所述待处理的第一字幕语句集合。

通过该实施例，只有字数大于第一阈值的语句才作为第一字幕语句，并利用后续的步骤对该第一字幕语句进行拆分处理，并得到合理的拆分结果。

在一个或一些实施例中，步骤140中根据第一字幕语句的起止位置提取对应的视频片段，将所述视频片段拆分为视频子片段，并确定各视频子片段的起止位置具体包括：

根据各第一字幕语句的起止位置，提取出与该第一字幕语句对应的视频片段；根据视频中的镜头、声音发出对象或画面场景中的任一种，将视频片段进行拆分，得到至少两个视频子片段；确定各个视频子片段的起止位置，从而得到第一字幕语句对应的视频片段的第二起止位置集合。

结合图2所示，与字幕语句进行切分得到相应的视频时间戳或视频帧等相对应的，将整个视频也进行片段划分，并且为了显示更为合理，本发明根据视频中镜头、声音发出对象或者场景等的不同进行进一步的视频拆分为子片段，并根据语句的位置和视频子片段之间的对应关系，使得字幕在显示时与镜头、声音对象以及场景等具有更合理的对应关系。

具体的，为了将各视频片段分拆为视频子片段，可以利用镜头边缘检测算法对所述视频进行镜头边界检测，将所述视频划分为以镜头为单元的视频子片段。

当然，也可以利用深度学习网络对视频中的声音发出对象或画面场景进行检测，根据不同声音发出对象或画面场景将所述视频划分为多个视频子片段。其中的深度学习网络可采用现有的人脸或者场景识别网络，也可以通过改进现有网络构建新的网络模型，并通过学习训练得到。通过多种划分方式，更好地应对不同类型的视频划分需求。

在一个或一些实施例中，步骤160中将所述待拆分的第二字幕语句拆分成至少两个第三字幕语句进一步包括：

根据所述待拆分的第二字幕语句拆分成分词方式的不同，得到多个第三字幕语句集合；计算各第三字幕语句集合的可信度；根据可信度的大小选择一个第三字幕语句集合，作为所述待拆分的第二字幕语句的拆分结果。

进一步的，将所述待拆分的第二字幕语句拆分成至少两个第三字幕语句进一步还包括：

将所述待拆分的第二字幕语句通过不同方式进行分割，得到多个分词集合，各所述分词集合分别与各所述第三字幕语句集合对应；选择待拆分的第二字幕语句所属领域的自然语言处理的数据集作为标准集，并以所述字幕文本为非标准集；利用非标准集确定各分词集合的第一条件概率集合，以及利用标准集确定各分词集合的第二条件概率集合；根据第一条件概率集合和第二条件概率集合计算各分词集合的可信度；按照可信度的大小进行排序，将可信度最大的所述分词集合作为所述待拆分的第二字幕语句的拆分结果。

其中利用非标准集确定各分词集合的第一条件概率集合，以及利用标准集确定各分词集合的第二条件概率集合具体包括：

依次确定在非标准集中分词集合的各分词在前面分词之后出现的概率值，由各概率值组成所述第一条件概率集合；依次确定在标准集中分词集合的各分词在前面分词之后出现的概率值，由各概率值组成所述第二条件概率集合。

比如可以将第三字幕语句拆分为“W₁|W₂|...|W_n,Y₁|Y₂|...|Y_n”，首先，利用非标准集依次得出每个词组在前面词组之后出现的概率，即二元条件概率集合，例如“W₁”出现的概率为P1,”W₁W₂”出现的概率为P2，”W1W2W3”出现的概率为P3，那么第一条件概率集合为{P1,P2,...,Pn}。同理，可基于标准集得到第二条件概率集合{PS1,PS2,...,PSn}。

在一个或一些实施例中，上述的起止位置是根据时间戳、图像帧或包序号确定的。其中，包序号指的是在视频完成时形成的视频分段序列号，多个包序号的视频段经拼接后形成完整视频。

下面通过一个具体的实施例来对上述方法实施例作进一步的说明，其中该具体实施例中以镜头作为将视频拆分成视频子片段的依据，以时间戳作为位置划分依据。

步骤一、获取长字幕内容的时间戳集合。

1.1、提取视频对应的音频内容，根据提取到的音频，通过语音识别算法，生成视频字幕文本，以及每一句字幕的时间戳，数据集如下：

SUBTITLE_VALUE＝{{S₁,S_ST₁,S_ET₁},{S₂,S_ST₂,S_ET₂},...,{S_n,S_ST_n,S_ET_n}}

其中S代表字幕内容，S_ST是每句字幕的开始时间，S_ET是每句字幕的结束时间。其中可能会包含因为声音间隔短而生成的超长语句，对应的开始和结束时间也会很长。

1.2、假设限定一条字幕的字数不应超过20个字，但是如果单纯靠字数来拆分一条字幕，可能会导致一个词组被直接拆分，显得很生硬。因此，遍历SUBTITLE_VALUE，提取出SUBTITLE_VALUE中W长度超过20的数据，得到LONG_SUBTITLE_VALUE，即第一字幕语句集合，其结构与SUBTITLE_VALUE一致。

1.3、此时再根据语义拆分算法，将长语句拆分成多个字或词组或短句形成第二字幕语句集合，比如拆分后长句S＝W₁W₂W₃...W_n，W为单独的词组或者短句。而根据对应的音频内容，也可以获取W对应的起止时间戳集合W_T。

步骤二、获取视频镜头时间戳集合：

2.1、遍历LONG_SUBTITLE_VALUE集合(第一字幕语句集合)，提取每个长字幕对应的起止时间戳，根据时间范围提取视频，由此得出每段长字幕对应一个视频片段，得到最新LONG_SUBTITLE_VALUE：

LONG_SUBTITLE_VALUE＝{{S₁,S_ST₁,S_ET₁,V₁},{S₂,S_ST₂,S_ET₂,V₂},...,{S_n,S_ST_n,S_ET_n,V_n}}

其中V代表长字幕视频片段对应的视频路径。

2.2、遍历最新的LONG_SUBTITLE_VALUE，提取一种的视频信息，通过镜头检测算法，识别每段视频中的镜头个数，通过镜头切换将视频片段进一步拆分为一个个单独的镜头，即为视频子片段，那么LONG_SUBTITLE_VALUE又变成了如下格式：

同时每个镜头对应的起止时间戳一并记录，此处记为V_T。

步骤三、根据镜头拆分字幕：

3.1、根据步骤1.3，LONG_SUBTITLE_VALUE中的S还可以拆分成多个第二字幕语句W，同时记录了W对应的起止时间戳W_T。结合步骤2.2的结果，语句、词组、视频、镜头的关系如下：

其中的ST和ET分别为开始时间戳和结束时间戳。那么W_T是一个词组或短句以及与其对应的起止时间戳的集合(第一起止位置集合)，V_T是一个镜头视频以及与其对应的起止时间戳的集合(第二起止位置集合)。

3.2、将两个时间戳集合比较，可以得出语句S中的多个W分别对应于哪个镜头视频中。例如S＝W₁W₂W₃，对应的W_T＝{{1,2},{3,4},{5,9}}，S对应的长视频V的镜头片段为V₁V₂V₃V₄，对应的V_T＝{{1,4},{5,8},{9,9}}，由此可得W₁W₂在V₁的时间范围内显示，W₃在V₂V₃范围内显示。而此时W₃依然过长，确定为待拆分的第二字幕语句。

3.3、如果直接按时间戳将W₃的{5,9}拆成{5,8},{9,9}，可能会导致一个常用词组或固定搭配被拆开。假设W₃＝“王阿姨对李阿姨说你好久没有在楼下跳舞很多人都不认识啦”，可能导致“好”出现在字幕的结尾，而“久”出现在下一条字幕的开头。

步骤四、字幕的边界拆分：

4.1、此时将W₃看作是一条新的第二字幕语句，在步骤三根据镜头拆分字幕后遇到边界词组的字幕问题，此时利用语义分割算法，W₃会被拆分成如下的分词：王阿姨|对|李阿姨|说|你好|久|没有|在|楼下|跳舞|很多人|都|不认识|啦，也可能是王阿姨|对|李阿姨|说|你|好久|没有|在|楼下|跳舞|很多人|都|不认识|啦。针对分割的边界处“你好久”可能出现的分割情况，比如将W₃拆成如下第三字幕语句集合：

{{“王阿姨对李阿姨说”,”你好久没有在楼下跳舞很多人都不认识啦”},

{“王阿姨对李阿姨说你”,”好久没有在楼下跳舞很多人都不认识啦”},

{“王阿姨对李阿姨说你好”,”久没有在楼下跳舞很多人都不认识啦”},

{“王阿姨对李阿姨说你好久”,”没有在楼下跳舞很多人都不认识啦”}}

4.2、利用NLP现有的数据集(大量的基础数据-语句)，作为标准数据集S_DATA。同时采集当前视频识别到的所有文本，作为非标准数据集N_S_DATA。

4.3、将步骤4.1的结果进一步拆分成第三字幕语句，例如第一种第三字幕语句可以拆分成：“王阿姨|对|李阿姨|说”和“你|好久|没有|在|楼下|跳舞|很多|人|都|不|认识|啦”。假设4.1的四组结果拆分为“W₁|W₂|...|W_n,Y₁|Y₂|...|Y_n”，利用步骤4.2中N_S_DATA数据集，依次得出每个词组在前面词组之后出现的概率，即二元条件概率集合，例如“W₁”出现的概率为P1,”W₁W₂”出现的概率为P2，”W1W2W3”出现的概率为P3，那么条件概率集合为{P1,P2,...,Pn}(即第一条件概率集合)。四组结果一共8句，那么就有8个集合。同理可得8个语句基于标准数据集S_DATA的条件概率集合，假设其中一组为{PS1,PS2,...,PSn}(即第二条件概率集合)。

4.4、综合每个语句非标准数据集下的条件概率集合{P1,P2,...,Pn}与标准数据集下的条件概率集合{PS1,PS2,...,PSn}来计算该句的可信度。计算公式如下：

其中的P(i)为非标准数据集下的条件概率集合，PS(i)为标准数据集下的条件概率集合，这样得出结果为步骤4.1的待评测结果在真实数据下的可信度，其中假设有了四组数据，每组有两句，而实际情况待评测结果一组中可能有m个元素，那么最终步骤4.1的结果中每一分词组数据最终的可信度计算应该为：

得出四各分词组边界数据基于真实语料的可信度，取可信度最高的作为字幕拆分结果。假设为：{“王阿姨对李阿姨说”,”你好久没有在楼下跳舞很多人都不认识啦”}。

4.5、上一步得到的结果中，“你好久”这两个边界词汇最终分割在下一句的开头，这样在真实语境中可信度更好，也就是更符合人们的表达方式。

4.6、由此情况类推，如果一句超长字幕要在同一个镜头中分割的话，也可采用步骤四的方法。

图3示出了本发明视频字幕处理装置实施例的结构示意图。如图3所示，该装置300包括：

文本识别模块310，适于提取视频对应的音频内容，对所述音频内容进行识别得到字幕文本；

语句切分模块320，适于将所述字幕文本进行语句切分，得到待处理的第一字幕语句以及各第一字幕语句的起止位置；

第一定位模块330，适于将各第一字幕语句进行拆分，得到第二字幕语句以及各第二字幕语句的起止位置；

第二定位模块340，适于根据第一字幕语句的起止位置提取对应的视频片段，将所述视频片段拆分为视频子片段，并确定各视频子片段的起止位置；

字幕对应模块350，适于根据各第二字幕语句的起止位置和各视频子片段的起止位置的对应关系，确定出待拆分的第二字幕语句；其中所述待拆分的第二字幕语句对应至少两个视频子片段；

字幕拆分模块360，适于将所述待拆分的第二字幕语句拆分成至少两个第三字幕语句，并将各所述第三字幕语句随对应的所述视频子片段分别显示。

综上，本发明该实施例公开了一种基于对象进行字幕拆分的装置，实现了视频音、频和字幕更好融合。可通过词组位置与视频段位置对应分析，让上下字幕条的分割更为可信，单条字幕结构更完整，符合正常的语法习惯，同时提升用户的观看体验。

在一个或一些实施例中，语句切分模块320进一步适于：

将所述字幕文本进行语句切分，得到语句集合；

从所述语句集合中筛选出字数大于第一阈值的第一字幕语句，形成所述待处理的第一字幕语句集合。

在一个或一些实施例中，第二定位模块340还适于：

根据各第一字幕语句的起止位置，提取出与该第一字幕语句对应的视频片段；

根据视频中的镜头、声音发出对象或画面场景中的任一种，将视频片段进行拆分，得到至少两个的视频子片段；

确定各个视频子片段的起止位置，从而得到第一字幕语句对应的视频片段的第二起止位置集合。

在一个或一些实施例中，字幕拆分模块360进一步适于：

计算各第三字幕语句集合的可信度；

在一个或一些实施例中，字幕拆分模块360还适于：

在一个或一些实施例中，字幕拆分模块360进一步适于：

在一个或一些实施例中，其中的起止位置是根据时间戳、图像帧或包序号来确定的。

本发明实施例提供了一种非易失性计算机存储介质，所述计算机存储介质存储有至少一可执行指令，该计算机可执行指令可执行上述任意方法实施例中的视频字幕处理方法。

图4示出了本发明电子设备实施例的结构示意图，本发明具体实施例并不对电子设备的具体实现做限定。

如图4所示，该电子设备可以包括：处理器(processor)402、通信接口(Communications Interface)404、存储器(memory)406、以及通信总线408。

其中：处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。通信接口404，用于与其它设备比如客户端或其它服务器等的网元通信。处理器402，用于执行程序410，具体可以执行上述用于电子设备的视频字幕处理方法实施例中的相关步骤。

具体地，程序410可以包括程序代码，该程序代码包括计算机操作指令。

处理器402可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器406，用于存放程序410。存储器406可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序410具体可以用于使得处理器402执行上述任意方法实施例中公开的视频屏幕处理方法对应的操作。

在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明实施例也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤，除有特殊说明外，不应理解为对执行顺序的限定。

Claims

1.一种视频字幕处理方法，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，将所述字幕文本进行语句切分，得到待处理的第一字幕语句包括：

将所述字幕文本进行语句切分，得到语句集合；

3.根据权利要求1所述的方法，其特征在于，根据第一字幕语句的起止位置提取对应的视频片段，将所述视频片段拆分为视频子片段，并确定各视频子片段的起止位置包括：

确定各个视频子片段的起止位置。

4.根据权利要求1-3中任一项所述的方法，其特征在于，将所述待拆分的第二字幕语句拆分成至少两个第三字幕语句包括：

计算各第三字幕语句集合的可信度；

5.根据权利要求4所述的方法，其特征在于，将所述待拆分的第二字幕语句拆分成至少两个第三字幕语句进一步包括：

6.根据权利要求5所述的方法，其特征在于，利用非标准集确定各分词集合的第一条件概率集合，以及利用标准集确定各分词集合的第二条件概率集合包括：

7.根据权利要求1-3中任一项所述的方法，其特征在于，所述起止位置是根据时间戳、图像帧或包序号确定的。

8.一种视频字幕处理装置，所述装置包括：

9.一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行根据权利要求1-7中任一项所述的视频字幕处理方法对应的操作。

10.一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行根据权利要求1-7中任一项所述的视频字幕处理方法对应的操作。