CN112233661B

CN112233661B - 基于语音识别的影视内容字幕生成方法、系统及设备

Info

Publication number: CN112233661B
Application number: CN202011099384.9A
Authority: CN
Inventors: 孙仁财
Original assignee: Guangdong Huanwang Technology Co Ltd
Current assignee: Guangdong Huanwang Technology Co Ltd
Priority date: 2020-10-14
Filing date: 2020-10-14
Publication date: 2024-04-05
Anticipated expiration: 2040-10-14
Also published as: CN112233661A

Abstract

本发明涉及一种基于语音识别的影视内容字幕生成方法、系统及设备，其方法包括，接收影视内容相关音频文件，影视内容相关音频文件包括纯音频文件和成品视频源文件；基于预先构建的角色特征音频计算模型，对纯音频文件和成品视频源文件进行角色识别，确定不同角色形象；按照不同的角色形象对影视内容相关音频文件进行解析和语音识别，生成每个角色形象对应的台词集；确定不同的台词集中不同台词的语义相关度，根据语义相关度划分不同的台词集中的台词为不同台词应用场景；按照时间轴串联不同台词应用场景中的对应台词，进行台词拼接，以进行字幕编辑，通过语音识别自动生成台词的方式，有效地提高了字幕编辑的效率。

Description

基于语音识别的影视内容字幕生成方法、系统及设备

技术领域

本发明属于字幕编辑技术领域，具体涉及一种基于语音识别的影视内容字幕生成方法、系统及设备。

背景技术

现阶段电视机用户看到的影视视频内容可涵盖不同类型、不同国家、不同语言，影视业务内容投放也具备大量的节目资源对于运营工作来讲具有不小的工作体量。用户在浏览不同国家、不同地区的语种节目需要借助对应字幕、台词来辅助理解影视节目所表达的意图。目前，大多数的影视节目字幕一般为后期人工编辑校准，根据演员剧本等具备台词的电影、电视剧进行字幕编辑，但老电影、无剧本等类型无指台词的节目也需要人工编辑字幕，这就造成了字幕编辑工作严重依赖剧本台词、人工编辑的工作模式。

但是，人工编辑的方式，对人工量要求较大，且容易出错，导致字幕编辑的效率相对较低。

发明内容

为了至少解决现有技术存在的上述问题，本发明提供了一种基于语音识别的影视内容字幕生成方法、系统及设备，以提高字幕编辑的效率。

本发明提供的技术方案如下：

一方面，一种基于语音识别的影视内容字幕生成方法，包括：

接收影视内容相关音频文件，所述影视内容相关音频文件包括纯音频文件和成品视频源文件；

基于预先构建的角色特征音频计算模型，对所述纯音频文件和所述成品视频源文件进行角色识别，确定不同角色形象；

按照不同的所述角色形象对所述影视内容相关音频文件进行解析和语音识别，生成每个角色形象对应的台词集；

确定不同的所述台词集中不同台词的语义相关度，根据所述语义相关度划分不同的所述台词集中的台词为不同台词应用场景；

按照时间轴串联所述不同台词应用场景中的对应台词，进行台词拼接，以进行字幕编辑。

可选的，上述在所述接收影视内容相关音频文件之前，还包括：

根据音色、语调、节奏、发音和语种构建角色特征音频计算模型。

可选的，上述所述确定不同的所述台词集中不同台词的语义相关度，包括：

通过语义识别算法对不同的所述台词集中不同台词进行关联度计算，得到不同台词的语义相关度。

可选的，上述所述根据所述语义相关度划分不同的所述台词集中的台词为不同台词应用场景，包括：

根据所述语义相关度，确定不同台词间的连贯程度；

根据所述连贯程度，划分为不同台词应用场景。

可选的，上述所述划分为不同台词应用场景之后，还包括：

按照所述语义相关度、所述连贯程度和台词应用场景，对每个所述台词应用场景对应的台词进行校准。

可选的，上述所述划分为不同台词应用场景之后，还包括：

标记每个所述台词应用场景对应的时间戳节点。

可选的，上述所述按照时间轴串联所述不同台词应用场景中的对应台词，进行台词拼接之前，还包括：

识别每个所述台词应用场景的时间戳节点；

按照时间先后顺序，对所述时间戳节点排序，得到所有台词应用场景的时间轴。

可选的，上述所述生成每个角色形象对应的台词集之后，还包括：

获取目标语种类别需求；

根据所述目标语种类别需求，将所述台词集转化为对应的语种台词。

另一方面，一种基于语音识别的影视内容字幕生成系统，包括：

文件接收模块，用于接收影视内容相关音频文件，所述影视内容相关音频文件包括纯音频文件和成品视频源文件；

角色识别模块，用于基于预先构建的角色特征音频计算模型，对所述纯音频文件和所述成品视频源文件进行角色识别，确定不同角色形象；

台词生成模块，用于按照不同的所述角色形象对所述影视内容相关音频文件进行解析和语音识别，生成每个角色形象对应的台词集；

场景划分模块，用于确定不同的所述台词集中不同台词的语义相关度，根据所述语义相关度划分不同的所述台词集中的台词为不同台词应用场景；

台词拼接模块，用于按照时间轴串联所述不同台词应用场景中的对应台词，进行台词拼接，以进行字幕编辑。

再一方面，一种基于语音识别的影视内容字幕生成设备，包括：处理器，以及与所述处理器相连接的存储器；

所述存储器用于存储计算机程序，所述计算机程序至少用于执行上述任一项所述的基于语音识别的影视内容字幕生成方法；

所述处理器用于调用并执行所述存储器中的所述计算机程序。

本发明的有益效果为：

本发明提供的一种基于语音识别的影视内容字幕生成方法、系统及设备，方法通过，接收影视内容相关音频文件，影视内容相关音频文件包括纯音频文件和成品视频源文件，基于预先构建的角色特征音频计算模型，对纯音频文件和成品视频源文件进行角色识别，确定不同角色形象；按照不同的角色形象对影视内容相关音频文件进行解析和语音识别，生成每个角色形象对应的台词集；确定不同的台词集中不同台词的语义相关度，根据语义相关度划分不同的台词集中的台词为不同台词应用场景；按照时间轴串联不同台词应用场景中的对应台词，进行台词拼接，以进行字幕编辑的方式，实现了根据语音识别的方式自动生成台词，解决了人工编辑台词复杂的问题，从而可以更好地实现字幕编辑，既能保证台词的准确性，又能提高字幕编辑的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于语音识别的影视内容字幕生成方法的一种流程图；

图2是本发明实施例提供的基于语音识别的影视内容字幕生成系统的一种结构示意图；

图3是本发明实施例提供的基于语音识别的影视内容字幕生成设备的一种结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。

图1是本发明实施例提供的基于语音识别的影视内容字幕生成方法的一种流程图。

如图1所示，本实施例的一种基于语音识别的影视内容字幕生成方法，包括以下步骤：

S11、接收影视内容相关音频文件，影视内容相关音频文件包括纯音频文件和成品视频源文件。

具体的，用户选择将影视内容相关音频文件导入系统，当然包括了纯音频文件和成品视频源文件，导入的过程可以是自动导入也可以手动导入。导入系统后，系统自动解析所导入的文件的属性，包括文件格式、时长、文件大小等等基本属性。

S12、基于预先构建的角色特征音频计算模型，对纯音频文件和成品视频源文件进行角色识别，确定不同角色形象。

具体的，在系统运行之前，首先包括了构建角色特征音频计算模型的过程，构建的基本依据便是根据不同的音色、语调、节奏、发音和语种等，语种包括了中文、外文，中文包括了普通话、方言等。构建角色特征音频计算模型的目的在于，识别导入的音频文件中包括多少种语音类别，也就表示了有多少个角色形象，在一个影视作品中，每个角色的语言表达都是不一样的，通过对音频的分析处理，可以了解到整个影视作品中的角色数量，通过角色的发声特征了解不同的角色形象。

S13、按照不同的角色形象对影视内容相关音频文件进行解析和语音识别，生成每个角色形象对应的台词集。

在确定了不同的角色形象以后，对源文件也就是影视内容相关音频文件进行拆分，而拆分的依据就是根据不同的角色形象，识别出每一个角色形象所对应的语音内容，然后将其进行转化，生成对应的台词集，台词集包括了每个角色形象的所有的语音。当然，也可以是，首先对影视内容相关音频文件进行段落拆分，通过连贯度进行段落拆分，然后对每个段落中的所有的角色形象进行角色的语音识别，并生成对应的台词集，此时对应的台词集便是某个段落中的所有的角色形象的对应的所有台词。具体的语音识别的过程包括了语种识别、词汇识别、方言识别等类型的音频识别。

S14、确定不同的台词集中不同台词的语义相关度，根据语义相关度划分不同的台词集中的台词为不同台词应用场景。

在某个具体的影视作品中，都会分为不同的表演场景。在上述得到不同的角色形象的台词集以后，确定不同台词之间的语义相关度，具体的可以通过语义识别算法对不同的所述台词集中不同台词进行关联度计算，得到不同台词的语义相关度，然后根据语义相关度划分不同的台词应用场景。划分过程则可以是，根据不同台词间的语义相关度，确定不同台词间的连贯程度，然后根据连贯程度，划分为不同的应用场景，划分场景以后便可以按照具体的场景进行每个场景的台词生成，同时还可以按照场景校准对应的台词，根据每个场景中的语义相关度、连贯度和台词应用场景对每个场景中的台词进行校准。例如，某个场景中是两人对话的形式，则可以根据对应台词的语义连贯程度校准措辞，通过具体场景判断，可以更好地保证台词的准确度。

S15、按照时间轴串联不同台词应用场景中的对应台词，进行台词拼接，以进行字幕编辑。

在根据不同的语音相关度或是音频连贯度确定将整个音频文件划分为不同的台词应用场景后，对应的对每个台词应用场景标记时间戳节点，标记时间戳节点可以根据时间戳节点对各个台词应用场景进行按顺序分配，在识别每个台词应用场景的时间戳节点后，按照时间先后顺序，对时间戳节点排序，得到所有台词应用场景的时间轴。从而保证了各个场景之间的先后顺序和连贯性。在确定了时间轴以后，便可以按照时间轴顺序串联不同的台词应用场景中的对应台词，进行台词拼接，保证了台词顺序的正确性，然后便可以进行字幕编辑，同时也可以对其进行存储等。

本实施例提供的一种基于语音识别的影视内容字幕生成方法，通过接收影视内容相关音频文件，影视内容相关音频文件包括纯音频文件和成品视频源文件，基于预先构建的角色特征音频计算模型，对纯音频文件和成品视频源文件进行角色识别，确定不同角色形象；按照不同的角色形象对影视内容相关音频文件进行解析和语音识别，生成每个角色形象对应的台词集；确定不同的台词集中不同台词的语义相关度，根据语义相关度划分不同的台词集中的台词为不同台词应用场景；按照时间轴串联不同台词应用场景中的对应台词，进行台词拼接，以进行字幕编辑的方式，实现了根据语音识别的方式自动生成台词，解决了人工编辑台词复杂的问题，从而可以更好地实现字幕编辑，既能保证台词的准确性，又能提高字幕编辑的效率。

进一步地，在上述实施例的基础上，本实施例中，在生成每个角色形象对应的台词集之后，还包括：获取目标语种类别需求，根据目标语种类别需求，将台词集转化为对应的语种台词。为了满足不同人的需求，可以选择在获取到对应的台词集以后，进行翻译，例如若是需要汉语，则可以选择将其他语言类型翻译为汉语，若是需要英语，则可以将其翻译为英语，具体的可以根据不同的用户需求进行确定。

采用本申请的方法可为内容生产者、内容运营人员提一种可以为影视内容提供语音识别自动生成台词的服务，解决人工编辑字幕台词等问题。通过自动化处理方式改变人工编辑的传统工作模式，提升工作效率。同时该装置可将内容生产者、内容运营方原有无字幕或待翻译的影视节目进行字幕自动处理，大大提升了相关工作的处理效率。

基于同一总的发明构思，本申请还保护一种基于语音识别的影视内容字幕生成系统。

图2是本发明实施例提供的基于语音识别的影视内容字幕生成系统的一种结构示意图。

如图2所示，本申请的一种基于语音识别的影视内容字幕生成系统，包括：

文件接收模块10，用于接收影视内容相关音频文件，影视内容相关音频文件包括纯音频文件和成品视频源文件；

角色识别模块20，用于基于预先构建的角色特征音频计算模型，对纯音频文件和成品视频源文件进行角色识别，确定不同角色形象；

台词生成模块30，用于按照不同的角色形象对影视内容相关音频文件进行解析和语音识别，生成每个角色形象对应的台词集；

场景划分模块40，用于确定不同的台词集中不同台词的语义相关度，根据语义相关度划分不同的台词集中的台词为不同台词应用场景；

台词拼接模块50，用于按照时间轴串联不同台词应用场景中的对应台词，进行台词拼接，以进行字幕编辑。

本实施例提供的一种基于语音识别的影视内容字幕生成系统，通过接收影视内容相关音频文件，影视内容相关音频文件包括纯音频文件和成品视频源文件，基于预先构建的角色特征音频计算模型，对纯音频文件和成品视频源文件进行角色识别，确定不同角色形象；按照不同的角色形象对影视内容相关音频文件进行解析和语音识别，生成每个角色形象对应的台词集；确定不同的台词集中不同台词的语义相关度，根据语义相关度划分不同的台词集中的台词为不同台词应用场景；按照时间轴串联不同台词应用场景中的对应台词，进行台词拼接，以进行字幕编辑的方式，实现了根据语音识别的方式自动生成台词，解决了人工编辑台词复杂的问题，从而可以更好地实现字幕编辑，既能保证台词的准确性，又能提高字幕编辑的效率。

关于系统部分的实施例，在对应的方法实施例中已经做了详细的介绍说明，因此，在对应的系统部分不再进行具体的阐述，可以相互参照进行理解。

基于一个总的发明构思，本发明实施例还提供一种基于语音识别的影视内容字幕生成设备。

如图3所示，本实施例的一种基于语音识别的影视内容字幕生成设备，包括：处理器100，以及与处理器100相连接的存储器200；

存储器用于存储计算机程序，计算机程序至少用于执行上述任一实施例的基于语音识别的影视内容字幕生成方法；

处理器用于调用并执行存储器中的计算机程序。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于语音识别的影视内容字幕生成方法，其特征在于，包括：

所述确定不同的所述台词集中不同台词的语义相关度，包括：

通过语义识别算法对不同的所述台词集中不同台词进行关联度计算，得到不同台词的语义相关度；

所述根据所述语义相关度划分不同的所述台词集中的台词为不同台词应用场景，包括：

根据所述语义相关度，确定不同台词间的连贯程度；

根据所述连贯程度，划分为不同台词应用场景；

还包括：

按照所述语义相关度、所述连贯程度和台词应用场景，对每个所述台词应用场景对应的台词进行校准；

2.根据权利要求1所述的基于语音识别的影视内容字幕生成方法，其特征在于，在所述接收影视内容相关音频文件之前，还包括：

3.根据权利要求2所述的基于语音识别的影视内容字幕生成方法，其特征在于，所述划分为不同台词应用场景之后，还包括：

标记每个所述台词应用场景对应的时间戳节点。

4.根据权利要求3所述的基于语音识别的影视内容字幕生成方法，其特征在于，所述按照时间轴串联所述不同台词应用场景中的对应台词，进行台词拼接之前，还包括：

识别每个所述台词应用场景的时间戳节点；

5.根据权利要求1所述的基于语音识别的影视内容字幕生成方法，其特征在于，所述生成每个角色形象对应的台词集之后，还包括：

获取目标语种类别需求；

6.一种基于语音识别的影视内容字幕生成系统，其特征在于，包括：

根据所述语义相关度，确定不同台词间的连贯程度；

根据所述连贯程度，划分为不同台词应用场景；

还包括：

7.一种基于语音识别的影视内容字幕生成设备，其特征在于，包括：处理器，以及与所述处理器相连接的存储器；

所述存储器用于存储计算机程序，所述计算机程序至少用于执行权利要求1-5任一项所述的基于语音识别的影视内容字幕生成方法；