CN117240983B

CN117240983B - 一种自动生成有声剧的方法及装置

Info

Publication number: CN117240983B
Application number: CN202311528250.8A
Authority: CN
Inventors: 骆迅; 王文倩; 陈凌驰; 杨杰
Original assignee: Hunan Happly Sunshine Interactive Entertainment Media Co Ltd
Current assignee: Hunan Happly Sunshine Interactive Entertainment Media Co Ltd
Priority date: 2023-11-16
Filing date: 2023-11-16
Publication date: 2024-01-26
Anticipated expiration: 2043-11-16
Also published as: CN117240983A

Abstract

本发明提供了一种自动生成有声剧的方法及装置，该方法包括：提取待转换影视剧的原视频的音轨信息；将待转换影视剧对应的有声剧剧本按照旁白和台词的顺序进行切分，以得到依序排列的有声剧旁白和有声剧台词；确定候选台词，候选台词为与影视剧台词对应的有声剧台词；基于候选台词从有声剧旁白中确定旁白原始语料；对旁白原始语料进行改写，得到待插入旁白；生成待插入旁白的旁白语音；将音轨信息、待插入旁白和旁白语音进行视频合成，得到待转换影视剧对应的有声剧，实现自动生产影视剧对应的有声剧，从而提高有声剧的产出效率。

Description

一种自动生成有声剧的方法及装置

技术领域

本发明涉及音频分析技术领域，具体涉及一种自动生成有声剧的方法及装置。

背景技术

有声剧是一种新兴文娱产业，可通过听剧的方式让观众有效地利用碎片化时间，同时也能够帮助一些特殊残障人士体验听剧的乐趣。

有声剧制作流程主要包含旁白选取、片段剪辑和后期配音等环节；目前有声剧的制作高度依赖人工，即需要由专业人员进行旁白选取、片段剪辑和后期配音等环节，但是人工制作有声剧费时费力，有声剧的产出效率较低。

发明内容

有鉴于此，本发明实施例提供一种自动生成有声剧的方法及装置，以解决由专业人员制作有声剧所存在的有声剧的产出效率较低等问题。

为实现上述目的，本发明实施例提供如下技术方案：

本发明实施例第一方面公开一种自动生成有声剧的方法，所述方法包括：

提取待转换影视剧的原视频的音轨信息，所述音轨信息至少包含：已插入影视剧台词的影视剧台词时间段和可插入旁白的旁白时间段；

将所述待转换影视剧对应的有声剧剧本按照旁白和台词的顺序进行切分，以得到依序排列的有声剧旁白和有声剧台词；

确定候选台词，所述候选台词为与所述影视剧台词对应的所述有声剧台词；

基于所述候选台词从所述有声剧旁白中确定旁白原始语料；

对所述旁白原始语料进行改写，得到待插入旁白；

生成所述待插入旁白的旁白语音；

将所述音轨信息、所述待插入旁白和所述旁白语音进行视频合成，得到所述待转换影视剧对应的有声剧。

优选的，提取待转换影视剧的原视频的音轨信息中可插入旁白的旁白时间段的过程，包括：

识别待转换影视剧的原视频中的字幕文本内容、所述字幕文本内容的开始时间、所述字幕文本内容的结束时间，及识别与所述字幕文本内容相对应的影视剧音频内容的开始时间和结束时间；

去除所述字幕文本内容中的非台词信息并进行非台词标记，以得到影视剧台词；

基于所述影视剧台词的开始时间和结束时间，确定按序排列的多个第一初始旁白时间段；

基于所述影视剧音频内容的开始时间和结束时间，确定按序排列的多个第二初始旁白时间段；

若第n个所述第一初始旁白时间段包含非台词标记，取第n个所述第一初始旁白时间段和第n个所述第二初始旁白时间段的相交部分，以得到第n个可插入旁白的旁白时间段，n大于等于1小于等于m，m为所述第一初始旁白时间段的数量；

若第n个所述第一初始旁白时间段不包含非台词标记，确定第n个所述第一初始旁白时间段为第n个可插入旁白的旁白时间段。

优选的，基于所述影视剧台词的开始时间和结束时间，确定按序排列的多个第一初始旁白时间段，包括：

选取第一段所述影视剧台词作为第一目标台词；

比较所述第一目标台词的开始时间和第二目标台词的结束时间，所述第二目标台词为所述第一目标台词的前一段所述影视剧台词；

若所述第一目标台词的开始时间与所述第二目标台词的结束时间的时间间隔大于间隔阈值，确定所述第一目标台词的开始时间与所述第二目标台词的结束时间之间的时间段为第一初始旁白时间段，将所述第一目标台词更新为下一段所述影视剧台词，返回执行比较所述第一目标台词的开始时间和第二目标台词的结束时间这一步骤；

若所述第一目标台词的开始时间与所述第二目标台词的结束时间的时间间隔小于等于所述间隔阈值，将所述第一目标台词更新为下一段所述影视剧台词，返回执行比较所述第一目标台词的开始时间和第二目标台词的结束时间这一步骤。

优选的，基于所述影视剧音频内容的开始时间和结束时间，确定按序排列的多个第二初始旁白时间段，包括：

选取第一段所述影视剧音频内容为第一目标音频；

比较所述第一目标音频的开始时间和第二目标音频的结束时间，所述第二目标音频为所述第一目标音频的前一段所述影视剧音频内容；

若所述第一目标音频的开始时间与所述第二目标音频的结束时间大于间隔阈值，确定所述第一目标音频的开始时间和所述第二目标音频的结束时间之间的时间段为第二初始旁白时间段，将所述第一目标音频更新为下一段所述影视剧音频内容，返回执行比较所述第一目标音频的开始时间和第二目标音频的结束时间这一步骤；

若所述第一目标音频的开始时间与所述第二目标音频的结束时间小于等于间隔阈值，将所述第一目标音频更新为下一段所述影视剧音频内容，返回执行比较所述第一目标音频的开始时间和第二目标音频的结束时间这一步骤。

优选的，确定候选台词，包括：

计算所述影视剧台词与所述有声剧台词之间的相似度；

确定与所述影视剧台词的相似度最高且高于相似度阈值的所述有声剧台词为候选台词。

优选的，基于所述候选台词从所述有声剧旁白中确定旁白原始语料，包括：

基于依序排列的所述有声剧旁白和所述有声剧台词，确定处于相邻两个所述候选台词之间的所述有声剧旁白为旁白原始语料。

优选的，对所述旁白原始语料进行改写，得到待插入旁白，包括：

获取所述旁白字数和所述有声剧剧本的旁白风格；

基于所述旁白字数和所述旁白风格，构建旁白改写提示词；

将所述旁白改写提示词和所述旁白原始语料进行拼接并输入预先训练得到的旁白改写模型中进行旁白改写，得到待插入旁白，所述旁白改写模型由基于样本数据训练广义语言模型得到。

本发明实施例第二方面公开一种自动生成有声剧的装置，所述装置包括：

提取单元，用于提取待转换影视剧的原视频的音轨信息，所述音轨信息至少包含：已插入影视剧台词的影视剧台词时间段和可插入旁白的旁白时间段；

切分单元，用于将所述待转换影视剧对应的有声剧剧本按照旁白和台词的顺序进行切分，以得到依序排列的有声剧旁白和有声剧台词；

第一确定单元，用于确定候选台词，所述候选台词为与所述影视剧台词对应的所述有声剧台词；

第二确定单元，用于基于所述候选台词从所述有声剧旁白中确定旁白原始语料；

改写单元，用于对所述旁白原始语料进行改写，得到待插入旁白；

生成单元，用于生成所述待插入旁白的旁白语音；

合成单元，用于将所述音轨信息、所述待插入旁白和所述旁白语音进行视频合成，得到所述待转换影视剧对应的有声剧。

优选的，所述提取单元包括：

识别模块，用于识别待转换影视剧的原视频中的字幕文本内容、所述字幕文本内容的开始时间、所述字幕文本内容的结束时间，及识别与所述字幕文本内容相对应的影视剧音频内容的开始时间和结束时间；

第一处理模块，用于去除所述字幕文本内容中的非台词信息并进行非台词标记，以得到影视剧台词；

第一确定模块，用于基于所述影视剧台词的开始时间和结束时间，确定按序排列的多个第一初始旁白时间段；

第二确定模块，用于基于所述影视剧音频内容的开始时间和结束时间，确定按序排列的多个第二初始旁白时间段；

第二处理模块，用于若第n个所述第一初始旁白时间段包含非台词标记，取第n个所述第一初始旁白时间段和第n个所述第二初始旁白时间段的相交部分，以得到第n个可插入旁白的旁白时间段，n大于等于1小于等于m，m为所述第一初始旁白时间段的数量；

第三处理模块，用于若第n个所述第一初始旁白时间段不包含非台词标记，确定第n个所述第一初始旁白时间段为第n个可插入旁白的旁白时间段。

优选的，所述第一确定模块具体用于：

选取第一段所述影视剧台词作为第一目标台词；

基于上述本发明实施例提供的一种自动生成有声剧的方法及装置，该方法包括：提取待转换影视剧的原视频的音轨信息；将待转换影视剧对应的有声剧剧本按照旁白和台词的顺序进行切分，以得到依序排列的有声剧旁白和有声剧台词；确定候选台词，候选台词为与影视剧台词对应的有声剧台词；基于候选台词从有声剧旁白中确定旁白原始语料；对旁白原始语料进行改写，得到待插入旁白；生成待插入旁白的旁白语音；将音轨信息、待插入旁白和旁白语音进行视频合成，得到待转换影视剧对应的有声剧。本方案中，提取视频的音轨信息，从有声剧剧本中获取旁白原始语料并进行旁白改写以得到待插入旁白。生成待插入旁白的旁白语音，将音轨信息、待插入旁白和旁白语音进行视频合成以得到有声剧，实现自动生产影视剧对应的有声剧，从而提高有声剧的产出效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种自动生成有声剧的方法的流程图；

图2为本发明实施例提供的基于滑动窗口的动态语义匹配算法的示例图；

图3为本发明实施例提供的提取可插入旁白的旁白时间段的流程图；

图4为本发明实施例提供的输出旁白时间段的示例图；

图5为本发明实施例提供的一种自动生成有声剧的装置的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本申请中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

由背景技术可知，有声剧是一种新兴文娱产业，可通过听剧的方式让观众有效地利用碎片化时间，同时也能够帮助一些特殊残障人士体验听剧的乐趣，从而助力无障碍电视的发展。

有声剧制作流程主要包含旁白选取、片段剪辑和后期配音等环节；目前有声剧的制作高度依赖人工，即需要由专业人员进行旁白选取、片段剪辑和后期配音等环节。但是一方面，人工制作有声剧费时费力，有声剧的产出效率较低和投入成本较高；另一方面，通过人工制作出来的有声剧，存在音频衔接不自然、旁白和台词不匹配等问题，这就会影响用户的听剧体验。

故本方案提出一种自动生成有声剧的方法及装置，提取视频的音轨信息，从有声剧剧本中获取旁白原始语料并进行旁白改写以得到待插入旁白。生成待插入旁白的旁白语音，将音轨信息、待插入旁白和旁白语音进行视频合成以得到有声剧，实现自动生产影视剧对应的有声剧，从而提高有声剧的产出效率。

参见图1，示出了本发明实施例提供的一种自动生成有声剧的方法的流程图，该方法包括：

步骤S101：提取待转换影视剧的原视频的音轨信息。

在具体实现步骤S101的过程中，基于光学字符（optical characterrecognition，OCR）识别和背景音乐（background music，BGM）识别技术对待转换影视剧（如电视剧）的原视频进行解析，从该待转换影视剧中抽取音频、台词（此处称为影视剧台词）、旁白等元素；并对该待转换影视剧进行切片和音画分离，从而得到待转换影视剧的音轨信息；该音轨信息至少包含：已插入影视剧台词的影视剧台词时间段和可插入旁白的旁白时间段。

也就是说，通过上述方式对该待转换影视剧进行处理，所得到的音轨信息的形式为：旁白时间段-影视剧台词时间段-旁白时间段-影视剧台词时间段。

步骤S102：将待转换影视剧对应的有声剧剧本按照旁白和台词的顺序进行切分，以得到依序排列的有声剧旁白和有声剧台词。

在具体实现步骤S102的过程中，将待转换影视剧对应的有声剧剧本按照旁白和台词的顺序进行切分，以得到依序排列的有声剧旁白和有声剧台词（格式为：有声剧旁白-有声剧台词-有声剧旁白-有声剧台词）。

具体来说，将待转换影视剧对应的有声剧剧本按照集数进行切分，并将每集的有声剧旁白和有声剧台词按顺序进行提取，形成“有声剧旁白-有声剧台词-有声剧旁白-有声剧台词”的格式；将一集的有声剧旁白和有声剧台词放在相应的一个窗口中，即一个窗口用于存储一集的有声剧旁白和有声剧台词。

例如：将待转换影视剧对应的有声剧剧本按照集数进行切分，总共有20集；那么就将20集的有声剧旁白和有声剧台词分别放到20个窗口中。

需要说明的是，每段有声剧旁白上方的有声剧台词称为上台词，每段有声剧旁白下方的有声剧台词称为下台词。

步骤S103：确定候选台词。

通过上述步骤S102的内容可见，每个窗口放有一集的有声剧旁白和有声剧台词；在具体实现步骤S103的过程中，使用基于滑动窗口的动态语义匹配算法，将影视剧台词和有声剧台词进行文本匹配，确定（或者说找到）候选台词，候选台词即为与影视剧台词对应的有声剧台词。

具体来说，对于每一影视剧台词，计算该影视剧台词与有声剧台词之间的相似度；确定与该影视剧台词的相似度最高且高于相似度阈值的有声剧台词为候选台词。

需要说明的是，在确定候选台词的过程中，为减小计算量，本方案可以使用BERT（Bidirectional Encoder Representations from Transformer）模型，对影视剧台词在相邻窗口（相邻两集的有声剧旁白和有声剧台词）间进行滑动模糊匹配，从而找到候选台词。同理，也可以对影视剧台词在所有窗口间进行滑动模糊匹配从而找到候选台词，在此对于基于滑动窗口的动态语义匹配算法不做具体限定。

对于某一有声剧台词，该有声剧台词与影视剧台词的相似度越高，则该有声剧台词的置信度越高，候选台词即为置信度最高的有声剧台词。

步骤S104：基于候选台词从有声剧旁白中确定旁白原始语料。

在具体实现步骤S104的过程中，找到若干候选台词后，基于依序排列的有声剧旁白和有声剧台词，确定处于相邻两个候选台词之间的有声剧旁白为旁白原始语料。

具体而言，通过上述步骤S102中的“每段有声剧旁白上方的有声剧台词称为上台词，每段有声剧旁白下方的有声剧台词称为下台词”内容可见，有声剧旁白处于上台词和下台词中间。

找到若干候选台词后，从若干候选台词中确定一组相应的上台词和下台词，取该组相应的上台词和下台词中间的有声剧旁白为匹配到的旁白原始语料；以此类推，基于若干候选台词，找到所有旁白原始语料。

例如图2示出的基于滑动窗口的动态语义匹配算法的示例图可见，将待转换影视剧对应的有声剧剧本按照集数进行切分，每个滑动窗口（滑动窗口1-滑动窗口N）都放有一集的有声剧旁白和有声剧台词；将影视剧台词和有声剧台词进行模糊匹配，找到若干候选台词（候选台词1-候选台词N）；候选台词分为上台词和下台词，基于候选台词确定从有声剧旁白中确定旁白原始语料。

步骤S105：对旁白原始语料进行改写，得到待插入旁白。

在具体实现步骤S105的过程中，使用预先训练好的广义语言模型（GeneralLanguage Model，GLM）对旁白原始语料进行改写，得到待插入旁白（也就是最终旁白），使之符合有声剧整体节奏，避免出现声音和剧情脱节的情况。

对旁白原始语料进行改写的方式为：获取旁白字数和有声剧剧本的旁白风格（如古装剧风格、现代剧风格等），具体来说，基于步骤S101获取得到的音轨信息和步骤S104中确定得到的旁白原始语料，计算旁白字数和有声剧剧本的旁白风格。

基于旁白字数和旁白风格，构建旁白改写提示词（旁白改写prompt）；需要说明的是，prompt即为提示词的意思，prompt为GLM模型的输入，prompt能够使GLM大模型输出更好的结果，例如本方案所构建的其中一个旁白改写prompt的内容为：请将以下旁白内容改写到15字以内，要求语言简练，风格偏现代化。

将旁白改写提示词和旁白原始语料进行拼接并输入预先训练得到的旁白改写模型中进行旁白改写，得到待插入旁白，该旁白改写模型由基于样本数据训练GLM模型得到。

步骤S106：生成待插入旁白的旁白语音。

在具体实现步骤S106的过程中，将待插入旁白通过VITS（Variational Inferencewith adversarial learning for end-to-end Text-to-Speech）模型转换成相应的旁白语音（即AI语音）。

更具体来说，预先收集不同人声的语音数据，并对该语音数据进行预处理；基于VITS和预处理后的语音数据训练得到文本到语音（Text to speech，TTS）模型，将待插入旁白输入训练好的TTS模型中，生成该待插入旁白的旁白语音。

步骤S107：将音轨信息、待插入旁白和旁白语音进行视频合成，得到待转换影视剧对应的有声剧。

在具体实现步骤S107的过程中，将音轨信息、待插入旁白和旁白语音进行视频合成，得到待转换影视剧对应的有声剧；具体来说，可以基于ffmpeg（音视频编解码工具）对音轨信息、待插入旁白和旁白语音进行视频合成，从而得到待转换影视剧对应的有声剧。

在本发明实施例中，提取视频的音轨信息，从有声剧剧本中获取旁白原始语料并进行旁白改写以得到待插入旁白。生成待插入旁白的旁白语音，将音轨信息、待插入旁白和旁白语音进行视频合成以得到有声剧，实现自动生产影视剧对应的有声剧，从而提高有声剧的产出效率。

针对上述本发明实施例图1步骤S101中涉及的音轨信息包含的可插入旁白的旁白时间段，为更好解释说明如何提取得到该旁白时间段，通过图3进行解释说明。

参见图3，示出了本发明实施例提供的提取可插入旁白的旁白时间段的流程图，包括以下步骤：

步骤S301：识别待转换影视剧的原视频中的字幕文本内容、字幕文本内容的开始时间、字幕文本内容的结束时间，及识别与字幕文本内容相对应的影视剧音频内容的开始时间和结束时间。

在具体实现步骤S301的过程中，通过OCR识别模型，获取待转换影视剧的原视频中出现的所有字幕文本内容，及获取字幕文本内容在该原视频中出现的开始时间（开始时间点位），及获取字幕文本内容在该原视频中出现的结束时间（结束时间点位）。

通过BGM识别模型，获取待转换影视剧的原视频中与字幕文本内容相对应的影视剧音频内容的开始时间和结束时间，相当于获取原视频中出现的与字幕文本内容相对应的声音的开始时间和结束时间。

步骤S302：去除字幕文本内容中的非台词信息并进行非台词标记，以得到影视剧台词。

在具体实现步骤S302的过程中，去除字幕文本内容中的非台词信息（如演员角色、广告等），并在去除非台词信息的同时进行非台词标记，从而得到影视剧台词。

需要说明的是，可以通过特定规则来识别字幕文本内容中的非台词信息，例如：确定不在屏幕正下方的文本内容为非台词信息。

步骤S303：基于影视剧台词的开始时间和结束时间，确定按序排列的多个第一初始旁白时间段。

在具体实现步骤S303的过程中，得到多段影视剧台词后，选取第一段影视剧台词作为第一目标台词；比较第一目标台词的开始时间和第二目标台词的结束时间，第二目标台词为第一目标台词的前一段影视剧台词。

若第一目标台词的开始时间与第二目标台词的结束时间的时间间隔大于间隔阈值（例如5秒），确定第一目标台词的开始时间与第二目标台词的结束时间之间的时间段为第一初始旁白时间段，将第一目标台词更新为下一段影视剧台词，返回执行前述“比较第一目标台词的开始时间和第二目标台词的结束时间”这一步骤；

若第一目标台词的开始时间与第二目标台词的结束时间的时间间隔小于等于间隔阈值，将第一目标台词更新为下一段影视剧台词，返回执行前述“比较第一目标台词的开始时间和第二目标台词的结束时间”这一步骤。

通过上述方式找到多段第一初始旁白时间段（记为ocr_info）。

需要说明的是，若连续两句台词（称为台词0和台词1）之间的时间间隔超过间隔阈值（如5秒），则认为台词0和台词1之间可以插入旁白，能够插入旁白的时间段为：台词0的结束时间-台词1的开始时间。

例如：第一目标台词的开始时间记为start1，第二目标台词（第一目标台词的前一段台词）的结束时间记为end0；如果start1-end0>5s，则可确定start1至end0之间的时间段为第一初始旁白时间段。

步骤S304：基于影视剧音频内容的开始时间和结束时间，确定按序排列的多个第二初始旁白时间段。

在具体实现步骤S304的过程中，选取第一段影视剧音频内容为第一目标音频；比较第一目标音频的开始时间和第二目标音频的结束时间，第二目标音频为第一目标音频的前一段所述影视剧音频内容。

若第一目标音频的开始时间与第二目标音频的结束时间大于间隔阈值（例如5秒），确定第一目标音频的开始时间和第二目标音频的结束时间之间的时间段为第二初始旁白时间段，将第一目标音频更新为下一段影视剧音频内容，返回执行前述“比较第一目标音频的开始时间和第二目标音频的结束时间”这一步骤；

若第一目标音频的开始时间与第二目标音频的结束时间小于等于间隔阈值，将第一目标音频更新为下一段影视剧音频内容，返回执行前述“比较第一目标音频的开始时间和第二目标音频的结束时间”这一步骤。

通过上述方式找到多段第二初始旁白时间段（记为BGM_info）。

步骤S305：若第n个第一初始旁白时间段包含非台词标记，取第n个第一初始旁白时间段和第n个第二初始旁白时间段的相交部分，以得到第n个可插入旁白的旁白时间段。

需要说明的是，n大于等于1小于等于m，m为第一初始旁白时间段的数量。

在具体实现步骤S305的过程中，遍历各个第一初始旁白时间段（ocr_info），若第n个第一初始旁白时间段包含非台词标记，将第n个第一初始旁白时间段和第n个第二初始旁白时间段进行对比，取第n个第一初始旁白时间段和第n个第二初始旁白时间段的相交部分，以得到第n个可插入旁白的旁白时间段。

步骤S306：若第n个第一初始旁白时间段不包含非台词标记，确定第n个第一初始旁白时间段为第n个可插入旁白的旁白时间段。

在具体实现步骤S306的过程中，若第n个第一初始旁白时间段不包含非台词标记，则直接选择第n个第一初始旁白时间段作为第n个可插入旁白的旁白时间段。

需要说明的是，每一个第一初始旁白时间段都执行上述步骤S305和步骤S306的相关内容，从而确定得到所有可插入旁白的旁白时间段，该旁白时间段用于判断音轨信息中哪些地方可以插入旁白。

例如图4提供的输出旁白时间段的示例图可见，通过上述步骤S303给出的方式确定得到按序排列的多个第一初始旁白时间段（ocr_info），ocr_info上的“三角形标记”即为非台词标记；通过上述步骤S304给出的方式确定得到按序排列的多个第二初始旁白时间段（BGM_info）。

对于相应的一组ocr_info和BGM_info，若ocr_info中包含非台词标记，则将相应的ocr_info和BGM_info进行比对，取ocr_info和BGM_info的相交部分作为可插入旁白的旁白时间段（即图4中的最终输出）；若ocr_info中不包含非台词标记，则直接选择ocr_info作为可插入旁白的旁白时间段。

以上图3示出的内容即为关于如何提取旁白时间段的相关说明。

通过上述图1-图4示出的各个实施例的内容可见，本方案基于生成式人工智能（Artificial Intelligence Generated Content，AIGC）技术自动生产有声剧。具体实现方式为：

利用了OCR、BGM识别技术对待转换影视剧的视频内容进行点位提取，利用动态语义匹配算法对影视剧台词和有声剧台词进行文本匹配以获得旁白原始语料；然后利用CLM大模型对旁白原始语料进行改写，得到待插入旁白；再利用VITS生成待插入旁白的旁白语音，最后通过视频合成技术生成成品有声剧。通过前述方式不仅能够提高生产有声剧的生产效率和生产速度，还能够使所生成的有声剧的剧情、旁白与视频内容高度匹配，AI语音能够高度还原真人语音，在保证有声剧质量的同时也能够极大节约了制作成本。

与上述本发明实施例提供的一种自动生成有声剧的方法相对应，参见图5，本发明实施例还提供了一种自动生成有声剧的装置的结构框图，该装置包括：提取单元501、切分单元502、第一确定单元503、第二确定单元504、改写单元505、生成单元506、合成单元507；

提取单元501，用于提取待转换影视剧的原视频的音轨信息，音轨信息至少包含：已插入影视剧台词的影视剧台词时间段和可插入旁白的旁白时间段。

切分单元502，用于将待转换影视剧对应的有声剧剧本按照旁白和台词的顺序进行切分，以得到依序排列的有声剧旁白和有声剧台词。

第一确定单元503，用于确定候选台词，候选台词为与影视剧台词对应的有声剧台词。

在具体实现中，第一确定单元503具体用于：计算影视剧台词与有声剧台词之间的相似度；确定与影视剧台词的相似度最高且高于相似度阈值的有声剧台词为候选台词。

第二确定单元504，用于基于候选台词从有声剧旁白中确定旁白原始语料。

在具体实现中，第二确定单元504具体用于：基于依序排列的有声剧旁白和有声剧台词，确定处于相邻两个候选台词之间的有声剧旁白为旁白原始语料。

改写单元505，用于对旁白原始语料进行改写，得到待插入旁白。

具体实现中，改写单元505具体用于：获取旁白字数和有声剧剧本的旁白风格；基于旁白字数和旁白风格，构建旁白改写提示词；将旁白改写提示词和旁白原始语料进行拼接并输入预先训练得到的旁白改写模型中进行旁白改写，得到待插入旁白，旁白改写模型由基于样本数据训练广义语言模型得到。

生成单元506，用于生成待插入旁白的旁白语音。

合成单元507，用于将音轨信息、待插入旁白和旁白语音进行视频合成，得到待转换影视剧对应的有声剧。

优选的，结合图5示出的内容，提取单元501包括识别模块、第一处理模块、第一确定模块、第二确定模块、第二处理模块、第三处理模块；各个模块的执行原理如下：

识别模块，用于识别待转换影视剧的原视频中的字幕文本内容、字幕文本内容的开始时间、字幕文本内容的结束时间，及识别与字幕文本内容相对应的影视剧音频内容的开始时间和结束时间。

第一处理模块，用于去除字幕文本内容中的非台词信息并进行非台词标记，以得到影视剧台词。

第一确定模块，用于基于影视剧台词的开始时间和结束时间，确定按序排列的多个第一初始旁白时间段。

一些实施例中，第一确定模块具体用于：选取第一段所述影视剧台词作为第一目标台词；比较第一目标台词的开始时间和第二目标台词的结束时间，第二目标台词为第一目标台词的前一段影视剧台词；

若第一目标台词的开始时间与第二目标台词的结束时间的时间间隔大于间隔阈值，确定第一目标台词的开始时间与第二目标台词的结束时间之间的时间段为第一初始旁白时间段，将第一目标台词更新为下一段影视剧台词，返回执行比较第一目标台词的开始时间和第二目标台词的结束时间这一步骤；

若第一目标台词的开始时间与第二目标台词的结束时间的时间间隔小于等于间隔阈值，将第一目标台词更新为下一段影视剧台词，返回执行比较第一目标台词的开始时间和第二目标台词的结束时间这一步骤。

第二确定模块，用于基于影视剧音频内容的开始时间和结束时间，确定按序排列的多个第二初始旁白时间段。

一些实施例中，第二确定模块具体用于：选取第一段影视剧音频内容为第一目标音频；比较第一目标音频的开始时间和第二目标音频的结束时间，第二目标音频为第一目标音频的前一段影视剧音频内容；

若第一目标音频的开始时间与第二目标音频的结束时间大于间隔阈值，确定第一目标音频的开始时间和第二目标音频的结束时间之间的时间段为第二初始旁白时间段，将第一目标音频更新为下一段影视剧音频内容，返回执行比较第一目标音频的开始时间和第二目标音频的结束时间这一步骤；

若第一目标音频的开始时间与第二目标音频的结束时间小于等于间隔阈值，将第一目标音频更新为下一段影视剧音频内容，返回执行比较第一目标音频的开始时间和第二目标音频的结束时间这一步骤。

第二处理模块，用于若第n个第一初始旁白时间段包含非台词标记，取第n个第一初始旁白时间段和第n个第二初始旁白时间段的相交部分，以得到第n个可插入旁白的旁白时间段，n大于等于1小于等于m，m为第一初始旁白时间段的数量。

第三处理模块，用于若第n个第一初始旁白时间段不包含非台词标记，确定第n个第一初始旁白时间段为第n个可插入旁白的旁白时间段。

综上所述，本发明实施例提供一种自动生成有声剧的方法及装置，提取视频的音轨信息，从有声剧剧本中获取旁白原始语料并进行旁白改写以得到待插入旁白。生成待插入旁白的旁白语音，将音轨信息、待插入旁白和旁白语音进行视频合成以得到有声剧，实现自动生产影视剧对应的有声剧，从而提高有声剧的产出效率。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种自动生成有声剧的方法，其特征在于，所述方法包括：

计算所述影视剧台词与所述有声剧台词之间的相似度；确定与所述影视剧台词的相似度最高且高于相似度阈值的所述有声剧台词为候选台词；所述候选台词为与所述影视剧台词对应的所述有声剧台词；

基于所述候选台词从所述有声剧旁白中确定旁白原始语料；

对所述旁白原始语料进行改写，得到待插入旁白；

生成所述待插入旁白的旁白语音；

2.根据权利要求1所述的方法，其特征在于，提取待转换影视剧的原视频的音轨信息中可插入旁白的旁白时间段的过程，包括：

3.根据权利要求2所述的方法，其特征在于，基于所述影视剧台词的开始时间和结束时间，确定按序排列的多个第一初始旁白时间段，包括：

选取第一段所述影视剧台词作为第一目标台词；

4.根据权利要求2所述的方法，其特征在于，基于所述影视剧音频内容的开始时间和结束时间，确定按序排列的多个第二初始旁白时间段，包括：

选取第一段所述影视剧音频内容为第一目标音频；

5.根据权利要求1所述的方法，其特征在于，基于所述候选台词从所述有声剧旁白中确定旁白原始语料，包括：

6.根据权利要求1所述的方法，其特征在于，对所述旁白原始语料进行改写，得到待插入旁白，包括：

获取旁白字数和所述有声剧剧本的旁白风格；

基于所述旁白字数和所述旁白风格，构建旁白改写提示词；

7.一种自动生成有声剧的装置，其特征在于，所述装置包括：

第一确定单元，用于计算所述影视剧台词与所述有声剧台词之间的相似度；确定与所述影视剧台词的相似度最高且高于相似度阈值的所述有声剧台词为候选台词；所述候选台词为与所述影视剧台词对应的所述有声剧台词；

生成单元，用于生成所述待插入旁白的旁白语音；

8.根据权利要求7所述的装置，其特征在于，所述提取单元包括：

9.根据权利要求8所述的装置，其特征在于，所述第一确定模块具体用于：

选取第一段所述影视剧台词作为第一目标台词；