CN104980790B

CN104980790B - 语音字幕的生成方法和装置、播放方法和装置

Info

Publication number: CN104980790B
Application number: CN201510377074.1A
Authority: CN
Inventors: 郭磊涛
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2015-06-30
Filing date: 2015-06-30
Publication date: 2018-10-09
Anticipated expiration: 2035-06-30
Also published as: CN104980790A

Abstract

本发明实施例提供了一种语音字幕的生成方法和装置、播放方法和装置，其中的生成方法具体包括：提取目标视频片段的视频特征；将与所述视频特征最匹配的评论信息确定为所述目标视频片段的文本描述信息；依据所述文本描述信息，生成所述目标视频片段的语音字幕。本申请实施例能够节约成本，并且提高生产效率和产量。

Description

语音字幕的生成方法和装置、播放方法和装置

技术领域

本发明涉及数据处理技术领域，特别是涉及一种语音字幕的生成方法、一种语音字幕的生成装置、一种播放方法和一种播放装置。

背景技术

随着人们生活质量的提高，观赏视频已经成为了人们日常的一种消遣方式，但是对于盲人群体来说，他们由于在视力上存在缺陷，无法正常观看视频，因此需要为他们提供可观看的“无障碍视频”。

目前，上述为盲人提供的“无障碍视频”都是由讲解员对视频的过场场景、片头片尾、形体动作等非人物对话的场景进行现场解说，或者将这些解说合成到视频中一同对外发售。这种纯人工的做法需要专门的解说员创作解说词并录音，因此存在制作成本高、生产效率低和制作量低的问题。

发明内容

本发明实施例所要解决的技术问题是提供一种语音字幕的生成方法、一种播放方法，能够节约成本，并且提高生产效率和产量。

相应的，本发明实施例还提供了一种语音字幕的生成装置、一种播放装置，用以保证上述方法的实现及应用。

为了解决上述问题，本发明公开了一种语音字幕的生成方法，包括：

提取目标视频片段的视频特征；

将与所述视频特征最匹配的评论信息确定为所述目标视频片段的文本描述信息；

依据所述文本描述信息，生成所述目标视频片段的语音字幕。

优选的，通过如下步骤确定目标视频片段：

识别视频对应音频信息的类别；其中，所述音频信息的类别包括人物对话类别和非人物对话类别；

在所述音频信息的类别为非人物对话类别时，将当前视频片段作为目标视频片段。

优选的，所述识别视频对应音频信息的类别的步骤，包括：使用语音活性检测技术识别所述视频对应音频信息的类别。

优选的，所述将与所述视频特征最匹配的评论信息确定为所述目标视频片段的文本描述信息的步骤，包括：

计算所述目标视频片段的评论信息与所述视频特征的相似度；

确定所述相似度最大的所述评论信息为所述目标视频片段的文本信息。

优选的，所述方法还包括：将所述语音字幕合成到所述目标视频片段对应的音频中。

另一方面，本发明还提供了一种播放方法，包括：

接收视频加载请求；

依据所述视频加载请求，确定对应视频的音频信息；其中，所述音频中包括：普通音频和语音字幕；其中，所述语音字幕为利用前述的语音字幕的生成方法得到；

播放所述音频。

再一方面，本发明还提供了一种语音字幕的生成装置，包括：

提取模块，用于提取目标视频片段的视频特征；

第一确定模块，用于将与所述视频特征最匹配的评论信息确定为所述目标视频片段的文本描述信息；及

生成模块，用于依据所述文本描述信息，生成所述目标视频片段的语音字幕。

优选的，所述装置还包括：

识别模块，用于识别视频对应音频信息的类别；其中，所述音频信息的类别包括人物对话类别和非人物对话类别；

第二确定模块，用于在所述音频信息的类别为非人物对话类别时，将当前视频片段作为目标视频片段。

优选的，所述识别模块包括：

识别单元，用于使用语音活性检测技术识别所述视频对应音频信息的类别。

优选的，所述第一确定模块包括：

计算单元，用于计算所述目标视频片段的评论信息与所述视频特征的相似度；及

确定单元，用于确定所述相似度最大的所述评论信息为所述目标视频片段的文本信息。

优选的，所述装置还包括：

合成模块，用于将所述语音字幕合成到所述目标视频片段对应的音频中。

又一方面，本发明还提供了一种播放装置，包括：

接收模块，用于接收视频加载请求；

确定模块，用于依据所述视频加载请求，确定对应视频的音频信息；其中，所述音频中包括：普通音频和语音字幕；其中，所述语音字幕为利用前述的语音字幕的生成装置得到；

播放模块，用于播放所述音频。

与现有技术相比，本发明实施例包括以下优点：

本发明实施例提供的一种语音字幕的生成方案，将目标视频片段的视频特征与评论信息相结合，确定与上述视频特征最匹配的评论信息为上述目标视频片段的文本描述信息，并依据上述文本描述信息生成语音字幕。采用本发明实施例提供的一种语音字幕的生成方法，可以自动化的为视频生成语音字幕，由于生成的语音字幕在内容上是在将视频片段中的前后场景关联基础上对当前视频片段提交的描述性的文字信息，因此对目标视频片段的描述较为精准；相对于人工的做法，本发明实施例不仅节约了成本，而且提高了生产效率和产量。

附图说明

图1是本发明的一种语音字幕的生成方法实施例一的步骤流程图；

图2是本发明的一种语音字幕的生成方法实施例二的步骤流程图；

图3是本发明的一种语音字幕的生成方法实施例三的步骤流程图；

图4是本发明的一种语音字幕的生成方法实施例四的步骤流程图；

图5是本发明的一种语音字幕的生成方法实施例五的步骤流程图；

图6是本发明的一种播放方法实施例的步骤流程图；

图7是本发明的一种语音字幕的生成装置实施例一的结构示意图；

图8是本发明的一种语音字幕的生成装置实施例二的结构示意图；

图9是本发明的一种语音字幕的生成装置实施例三的结构示意图；

图10是本发明的一种语音字幕的生成装置实施例四的结构示意图；

图11是本发明的一种语音字幕的生成装置实施例五的结构示意图；以及

图12是本发明的一种播放装置实施例的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图1，示出了本发明的一种语音字幕的生成方法实施例一的步骤流程图，具体可以包括如下步骤：

步骤101、提取目标视频片段的视频特征；

本发明实施例可应用于各类视频播放应用程序的场景中；这里的视频播放应用程序具体可以包括：客户端程序、或者浏览器上运行的视频网站程序等，本发明实施例对具体的应用场景不加以限制。

本发明实施例中，目标视频片段可用于表示需要插入语音字幕的视频片段，通常一个视频具体可以包括多个视频片段，其中的需要插入语音字幕的视频片段即为目标视频片段。

上述视频特征可用于表示目标视频片段中包含的信息(如图像的纹理特征等)、或者涉及的信息(如元数据信息等)。在此提供一种提取视频特征的一种示例：可以采用视频分割技术，将连续的视频流划分成多个视频片段，提取视频片段的代表帧和动态特征，其中，代表帧可以是视频片段中所有视频帧中的部分视频帧，上述提取视频片段的动态特征具体过程可以包括：提取视频片段中图像的颜色特征、纹理特征、形状特征等，将这些特征与图像知识库进行映射来得到图像的实际含义，其中图像知识库可用于存储图像特征以及其对应的图像的实际意义。例如，对于一段描述“霜叶红于二月花”的视频片段，可以采用上述视频分割技术提取到该视频片段的颜色(如红和灰)、树叶形状、以及树叶慢慢飘落的动态特征等特征，这些特征就可以作为该视频片段的视频特征。

可以理解，上述采用视频分割技术提取视频特征只是作为提取视频特征的方法的一个示例，而不理解为本发明实施例的应用限制，实际上，所有提取视频特征的方法均是可行的，本发明实施例对提取视频特征的具体方法不做限定。

步骤102、将与上述视频特征最匹配的评论信息确定为上述目标视频片段的文本描述信息；

本发明实施例中，评论信息可以为针对上述目标视频片段产生的各种评论信息，本发明实施例对具体的评论信息不加以限制。

例如，在本发明的一种应用示例中，上述评论信息具体可以包括：目标视频片段对应的起止时间范围内的所有弹幕信息、用户在评论区产生的用户评论信息、以及网站编辑手动输入的从数据库中检索出来的相关信息等等；其中，上述弹幕或用户评论等信息一般是用户在将视频片段中的前后场景关联基础上对当前视频片段提交的描述性的文字信息。

本发明实施例中，上述与上述视频特征最匹配的评论信息可以为所描述的内容涵盖视频特征最多的一条评论信息，还可以为所描述的内容涵盖视频特征较多的多条评论信息，本发明实施例对与上述视频特征最匹配的评论信息的数目不作具体限定。

步骤103、依据上述文本描述信息，生成上述目标视频片段的语音字幕。

本领域技术人员可以理解，依据上述文本描述信息，生成上述目标视频片段的语音字幕的方法有多种，例如，各种将文本转换为语音的方法均是可行的，本发明实施例对依据上述文本描述信息，生成上述目标视频片段的语音字幕的方法不做具体限制。

综上，本发明实施例提供的一种语音字幕的生成方法，将目标视频片段的视频特征与评论信息相结合，确定与上述视频特征最匹配的评论信息为上述目标视频片段的文本描述信息，并依据上述文本描述信息生成语音字幕。采用本发明实施例提供的一种语音字幕的生成方法，可以自动化地针对视频生成语音字幕；由于生成的语音字幕的内容为在将视频片段中的前后场景关联基础上对当前视频片段提交的描述性的文字信息，因此对目标视频片段的描述较为精准；并且，相对于人工的做法，本发明实施例提供的一种语音字幕的生成方法不仅节约了成本，而且提高了生产效率和产量。

参照图2，示出了本发明的一种语音字幕的生成方法实施例二的步骤流程图，具体可以包括如下步骤：

步骤201、识别视频对应音频信息的类别；其中，上述音频信息的类别具体可以包括人物对话类别和非人物对话类别；

本发明的一种实施例中，可以采用语音活性检测技术来识别视频对应音频信息的类别，其过程可以为：首先对上述音频信息进行降噪处理，即消除音频信息中的噪音，该噪音可以包括：固定旋律的音乐和各类杂声。然后，提取输入的音频信息的音频特征，最后，使用两类分类器对音频特征进行分类，通过设定的阈值来判断上述两类分类器输出的分类结果是否为人物语音信号，若上述分类结果是人物语音信号，则当前音频信息为人物对话类别；若上述分类结果不是人物语音信号，则当前音频信息为非人物对话类别。

可以理解，上述采用语音活性检测技术识别视频对应音频信息的类别只是作为识别视频对应音频信息的类别的方法的一个示例，而不理解为本发明实施例的应用限制，实际上，所有可以识别视频对应音频信息的类别的方法均是可行的，本发明实施例对识别视频对应音频信息的类别的方法不做限定。

步骤202、在上述音频信息的类别为非人物对话类别时，将当前视频片段作为目标视频片段。

本发明实施例中，音频信息的类别为非人物对话类别时，当前音频信息对应的视频片段即为需要插入语音字幕的视频片段，即可确定当前视频片段作为目标视频片段，这种方法可准确确定需要生成语音字幕的视频片段，不仅可以对不通过直接观看视频片段而无法得到相关信息的视频片段进行语音字幕的生成和插入，还可以避免由于对有人物对话的音频信息对应的视频片段进行语音字幕的生成和插入、造成的干扰和混淆的问题。

步骤203、提取目标视频片段的视频特征；

步骤204、将与上述视频特征最匹配的评论信息确定为上述目标视频片段的文本描述信息；

步骤205、依据上述文本描述信息，生成上述目标视频片段的语音字幕。

综上，本发明实施例提供的一种语音字幕的生成方法，通过识别音频信息的类别，确定音频信息的类别为非人物对话类别处的视频片段为目标视频片段，可以更准确的找到需要插入语音字幕的视频片段，并在该目标视频片段处生成并插入语音字幕，不仅可以针对需要插入相关信息的目标视频片段进行语音字幕的生成和插入，而且还可以避免语音字幕对于普通音频造成的干扰和混淆的问题。

参照图3，示出了本发明的一种语音字幕的生成方法实施例三的步骤流程图，具体可以包括如下步骤：

步骤301、提取目标视频片段的视频特征；

步骤302、计算上述目标视频片段的评论信息与上述视频特征的相似度；

本发明实施例中，计算上述目标视频片段的评论信息与上述视频特征的相似度的方法具体步骤可以包括：提取上述评论信息的关键词，将一条评论信息转化为以关键词为元素的向量，该向量与以视频特征为元素的向量采用向量空间模型方法计算两者的相似度。

可以理解，上述采用空间向量模型方法计算评论信息与视频特征的相似度只是作为计算评论信息与视频特征的相似度的一个示例，而不理解为本发明实施例的应用限制，实际上，所有可以计算出评论信息与视频特征的相似度的方法均是可行的，本发明实施例对计算评论信息与视频特征的相似度的方法不做限定。

步骤303、确定上述相似度最大的上述评论信息为上述目标视频片段的文本描述信息；

本发明实施例中，上述评论信息与上述视频特征的相似度越大，说明该条评论信息的内容涵盖上述视频特征越多，即表明该条评论信息对目标视频片段的描述越精准。比较上述评论信息与上述视频特征的相似度的大小，确定上述相似度最大的上述评论信息为上述目标视频片段的文本信息。

本发明实施例中，上述相似度最大的评论信息具体可以为一条评论信息，还可以为相似度大于预置阈值的多条评论信息，本发明实施例对于相似度最大的评论信息的数目不作具体限定。

步骤304、依据上述文本描述信息，生成上述目标视频片段的语音字幕。

综上，采用本发明实施例提供的一种语音字幕的生成方法，通过计算目标视频片段的评论信息与上述视频特征的相似度，确定上述相似度最大的上述评论信息为上述目标视频片段的文本信息，并根据文本信息，生成上述目标视频片段的语音字幕，生成的语音字幕对目标视频片段的描述较为精准。

参照图4，示出了本发明的一种语音字幕的生成方法实施例四的步骤流程图，具体可以包括如下步骤：

步骤401、提取目标视频片段的视频特征；

步骤402、将与上述视频特征最匹配的评论信息确定为上述目标视频片段的文本描述信息；

步骤403、依据上述文本描述信息，生成上述目标视频片段的语音字幕；

步骤404、将上述语音字幕合成到上述目标视频片段对应的音频中。

本发明实施例中，将上述语音字幕合成到上述目标视频片段对应的音频中，即是将视频、普通音频和语音字幕进行整合，形成一个“无障碍视频”，以供不方便正常观看视频的人观赏视频，如：盲人、做跑步等运动的人等等。

参照图5，示出了本发明的一种语音字幕的生成方法实施例五的步骤流程图，具体可以包括如下步骤：

步骤501、识别视频对应音频信息的类别；其中，上述音频信息的类别具体可以包括人物对话类别和非人物对话类别；

步骤502、判断当前音频类别对应的视频片段是否需要插入语音字幕，若是则执行步骤503；否则结束流程；

其中，在上述音频信息的类别为非人物对话类别时，则当前视频片段需要插入语音字幕，将当前视频片段确定为目标视频片段；

步骤503、将当前音频类别对应的视频片段作为目标视频片段，并提取目标视频片段的视频特征；

步骤504、计算上述目标视频片段的评论信息与上述视频特征的相似度；

步骤505、确定上述相似度最大的上述评论信息为上述目标视频片段的文本信息；

步骤506、依据上述文本描述信息，生成上述目标视频片段的语音字幕；

步骤507、将上述语音字幕合成到上述目标视频片段对应的音频中。

本发明实施例中，步骤501中识别视频对应音频信息的类别是一个动态的过程，是持续读取一个完整视频所对应的音频信息的过程。

参照图6，示出了本发明的一种播放方法实施例的步骤流程图，具体可以包括如下步骤：

步骤601、接收视频加载请求；

本发明实施例中，可以在视频播放页面上提供两种视频加载请求的触发控件，具体可以包括：打开语音字幕请求的触发控件1和不打开语音字幕请求的触发控件2等。

步骤602、依据上述视频加载请求，确定对应视频的音频信息；其中，所述音频中具体可以包括：普通音频和语音字幕；上述语音字幕为利用前述实施例一至实施例五中任一所述的语音字幕的生成方法得到；

其中，普通音频可以为视频对应的原始音频信息，即未插入语音字幕情况下的音频信息。

本发明实施例中，若视频加载请求为触发控件1对应的请求，则所述音频信息具体可以包括普通音频和语音字幕；若视频加载请求为触发控件2对应的请求，则所述音频信息可以包括普通音频，本发明实施例主要应用在视频加载请求对应打开语音字幕请求的场景下。

步骤603、播放所述音频。

综上，由于本发明实施例提供的语音字幕的播放方法，可以对视频中非人物对话的视频片段进行人物语音的描述，方便了无法正常观看视频的人进行观赏视频，如：盲人，做跑步等运动的人等等。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图7，示出了本发明一种语音字幕的生成装置实施例一的结构示意图，具体可以包括：提取模块701、第一确定模块702及生成模块703；其中，

提取模块701，用于提取目标视频片段的视频特征；

第一确定模块702，用于将与上述视频特征最匹配的评论信息确定为上述目标视频片段的文本描述信息；及

生成模块703，用于依据上述文本描述信息，生成上述目标视频片段的语音字幕。

综上，本发明实施例提供的一种语音字幕的生成装置，将目标视频片段的视频特征与评论信息相结合，确定与上述视频特征最匹配的评论信息为上述目标视频片段的文本描述信息，并依据上述文本描述信息生成语音字幕。采用本发明实施例提供的一种语音字幕的生成装置，可以自动化的为视频生成语音字幕，由于生成的语音字幕在内容上是在将视频片段中的前后场景关联基础上对当前视频片段提交的描述性的文字信息，因此对目标视频片段的描述较为精准；相对于人工的做法，本发明实施例提供的一种语音字幕的生成装置不仅节约了成本，而且提高了生产效率和产量。

参照图8，示出了本发明一种语音字幕的生成装置实施例二的结构示意图，具体可以包括：识别模块801、第二确定模块802、提取模块803、第一确定模块804及生成模块805；其中，

识别模块801，用于识别视频对应音频信息的类别；其中，上述音频信息的类别包括人物对话类别和非人物对话类别；

第二确定模块802，用于在上述音频信息的类别为非人物对话类别时，将当前视频片段作为目标视频片段。

提取模块803，用于提取上述目标视频片段的视频特征；

第一确定模块804，用于将与上述视频特征最匹配的评论信息确定为上述目标视频片段的文本描述信息；及

生成模块805，用于依据上述文本描述信息，生成上述目标视频片段的语音字幕；

综上，本发明实施例提供的一种语音字幕的生成装置，通过识别音频信息的类别，确定音频信息的类别为非人物对话类别处的视频片段为目标视频片段，可以更准确的找到需要插入语音字幕的视频片段，并在该目标视频片段处生成并插入语音字幕，不仅可以对不通过直接观看视频片段而无法得到相关信息的视频片段进行语音字幕的生成和插入，还可以避免语音字幕对于普通音频造成的干扰和混淆的问题。

参照图9，示出了本发明一种语音字幕的生成装置实施例三的结构示意图，具体可以包括：识别模块901、第二确定模块902、提取模块903、第一确定模块904及生成模块905；其中，

识别模块901，用于识别视频对应音频信息的类别；其中，上述音频信息的类别包括人物对话类别和非人物对话类别；

第二确定模块902，用于在上述音频信息的类别为非人物对话类别时，将当前视频片段作为目标视频片段。

提取模块903，用于提取上述目标视频片段的视频特征；

第一确定模块904，用于将与上述视频特征最匹配的评论信息确定为上述目标视频片段的文本描述信息；及

生成模块905，用于依据上述文本描述信息，生成上述目标视频片段的语音字幕；

其中，识别模块901可以包括：识别单元9011；

上述识别单元9011，用于使用语音活性检测技术识别上述视频对应音频信息的类别。

综上，采用本发明实施例提供的一种语音字幕的生成装置，通过计算目标视频片段的评论信息与上述视频特征的相似度，确定上述相似度最大的上述评论信息为上述目标视频片段的文本信息，并根据文本信息，生成上述目标视频片段的语音字幕，生成的语音字幕对目标视频片段的描述较为精准。

参照图10，示出了本发明一种语音字幕的生成装置实施例四的结构示意图，具体可以包括：提取模块1001、第一确定模块1002及生成模块1003；其中，

提取模块1001，用于提取目标视频片段的视频特征；

第一确定模块1002，用于将与上述视频特征最匹配的评论信息确定为上述目标视频片段的文本描述信息；及

生成模块1003，用于依据上述文本描述信息，生成上述目标视频片段的语音字幕；

其中，第一确定模块1002可以包括：计算单元10021及确定单元10022；其中，

计算单元10021，用于计算上述目标视频片段的评论信息与上述视频特征的相似度；

确定单元10022，用于确定上述相似度最大的上述评论信息为上述目标视频片段的文本信息。

参照图11，示出了本发明一种语音字幕的生成装置实施例五的结构示意图，具体可以包括：提取模块1101、第一确定模块1102、生成模块1103及合成模块1104；其中，

提取模块1101，用于提取目标视频片段的视频特征；

第一确定模块1102，用于将与上述视频特征最匹配的评论信息确定为上述目标视频片段的文本描述信息；

生成模块1103，用于依据上述文本描述信息，生成上述目标视频片段的语音字幕；及

合成模块1104，用于将上述语音字幕合成到上述目标视频片段对应的音频中。

参照图12，示出了本发明一种播放装置实施例的结构示意图，具体可以包括：接收模块1201、确定模块1202及播放模块1203；其中，

接收模块1201，用于接收视频加载请求；

确定模块1202，用于依据上述视频加载请求，确定对应视频的音频信息；其中，上述音频中具体可以包括：普通音频和语音字幕；其中，上述语音字幕为利用前述的语音字幕的生成装置得到；及

播放模块1203，用于播放上述音频。

综上，由于本发明实施例提供的一种播放装置，可以对视频中非人物对话的视频片段进行人物语音的描述，方便了无法正常观看视频的人进行观赏视频，如：盲人，做跑步等运动的人等等。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种语音字幕的生成方法、一种语音字幕的生成装置、一种播放方法和一种播放装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音字幕的生成方法，其特征在于，包括：

在所述音频信息的类别为非人物对话类别时，将当前视频片段作为目标视频片段；提取目标视频片段的视频特征；

将与所述视频特征最匹配的评论信息确定为所述目标视频片段的文本描述信息，包括：计算所述目标视频片段的评论信息与所述视频特征的相似度；确定所述相似度最大的所述评论信息为所述目标视频片段的文本信息；

2.根据权利要求1所述的方法，其特征在于，所述识别视频对应音频信息的类别的步骤，包括：使用语音活性检测技术识别所述视频对应音频信息的类别。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：将所述语音字幕合成到所述目标视频片段对应的音频中。

4.一种播放方法，其特征在于，包括：

接收视频加载请求；

依据所述视频加载请求，确定对应视频的音频信息；其中，所述音频中包括：普通音频和语音字幕；其中，所述语音字幕为利用前述权利要求1至4中任一所述的语音字幕的生成方法得到；

播放所述音频。

5.一种语音字幕的生成装置，其特征在于，包括：

第二确定模块，用于在所述音频信息的类别为非人物对话类别时，将当前视频片段作为目标视频片段；

提取模块，用于提取目标视频片段的视频特征；

第一确定模块，用于将与所述视频特征最匹配的评论信息确定为所述目标视频片段的文本描述信息；所述第一确定模块包括：计算单元，用于计算所述目标视频片段的评论信息与所述视频特征的相似度；及确定单元，用于确定所述相似度最大的所述评论信息为所述目标视频片段的文本信息；

及

6.根据权利要求5所述的装置，其特征在于，所述识别模块包括：

7.根据权利要求5所述的装置，其特征在于，所述装置还包括：

8.一种播放装置，其特征在于，包括：

接收模块，用于接收视频加载请求；

确定模块，用于依据所述视频加载请求，确定对应视频的音频信息；其中，所述音频中包括：普通音频和语音字幕；其中，所述语音字幕为利用前述权利要求5至7中任一所述的语音字幕的生成装置得到；

播放模块，用于播放所述音频。