CN113450773A

CN113450773A - 视频记录文稿生成方法、装置、存储介质以及电子设备

Info

Publication number: CN113450773A
Application number: CN202110511724.2A
Authority: CN
Inventors: 徐波
Original assignee: GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD; Guangzhou Duoyi Network Co ltd; Duoyi Network Co ltd
Current assignee: GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD; Guangzhou Duoyi Network Co ltd; Duoyi Network Co ltd
Priority date: 2021-05-11
Filing date: 2021-05-11
Publication date: 2021-09-28

Abstract

本发明涉及一种视频记录文稿生成方法、装置、存储介质以及电子设备，该方法包括：获取视频文件，从视频文件中分离出音频文件，将音频文件进行分割，得到多个音频片段，将每个音频片段输入至语音转向量模型，获得多个音频向量，将多个所述音频向量进行聚类，获得多个聚类簇，将包含音频向量个数最多的聚类簇确定为中心聚类簇，计算其他聚类簇的中心到中心聚类簇中心的相对距离，根据相对距离以及预设的颜色渐变表中每种颜色与相对距离的映射关系，确定每个聚类簇对应的颜色，将每个聚类簇对应的音频片段进行语音识别，生成音频片段对应的音频文字，给所述音频文字上色，生成视频记录文稿，提高了查找信息的效率，降低了人工成本。

Description

视频记录文稿生成方法、装置、存储介质以及电子设备

技术领域

本发明涉及视频文稿生成技术领域，特别是涉及一种视频记录文稿生成方法、装置、存储介质以及电子设备。

背景技术

现有技术中，视频记录文稿使用类似剧本的纯文本方法，即用纯文本的方式记录视频的对白和说话人，需要一一寻找目标说话人名称才能找到目标说话人的发言内容，查找信息的效率低下，特别是在视频时长较长，即文稿内容较多的情况下，要花费大量的时间来寻找目标说话人。在对视频记录文稿整理过程中，需要大量人工参与，即使用语音识别的方法把视频中的语音识别为文字，需要人工排版和标示说话人，耗费的人工成本高。

发明内容

基于此，本发明的目的在于，提供一种视频记录文稿生成方法、装置、存储介质以及电子设备，其具有提高信息查找效率、降低人工成本的优点。

根据本申请实施例的第一方面，提供一种视频记录文稿生成方法，包括如下步骤：

获取视频文件，从所述视频文件中分离出音频文件；

将所述音频文件进行分割，得到多个音频片段；

将每个所述音频片段输入至语音转向量模型，获得多个音频向量；

将多个所述音频向量进行聚类，获得多个聚类簇；其中，每个聚类簇对应所述音频文件中一个说话人的音频信息；

将包含所述音频向量个数最多的聚类簇确定为中心聚类簇，计算其他聚类簇的中心到所述中心聚类簇中心的相对距离；

根据所述相对距离以及预设的颜色渐变表中每种颜色与相对距离的映射关系，确定每个所述聚类簇对应的颜色；

将每个所述聚类簇对应的音频片段进行语音识别，生成所述音频片段对应的音频文字；

根据每个所述聚类簇对应的颜色给所述音频文字上色，生成视频记录文稿。

根据本申请实施例的第二方面，提供一种视频记录文稿生成装置，包括：

分离模块，用于获取视频文件，从所述视频文件中分离出音频文件；

分割模块，用于将所述音频文件进行分割，得到多个音频片段；

向量模块，用于将每个所述音频片段输入至语音转向量模型，获得多个音频向量；

聚类模块，用于将多个所述音频向量进行聚类，获得多个聚类簇；其中，每个聚类簇对应所述音频文件中一个说话人的音频信息；

相对距离模块，用于将包含所述音频向量个数最多的聚类簇确定为中心聚类簇，计算其他聚类簇的中心到所述中心聚类簇中心的相对距离；

颜色模块，用于根据所述相对距离以及预设的颜色渐变表中每种颜色与相对距离的映射关系，确定每个所述聚类簇对应的颜色；

语音识别模块，用于将每个所述聚类簇对应的音频片段进行语音识别，生成所述音频片段对应的音频文字；

上色模块，用于根据每个所述聚类簇对应的颜色给所述音频文字上色，生成视频记录文稿。

根据本申请实施例的第三方面，提供一种电子设备，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如上述任意一项所述的视频记录文稿生成方法。

根据本申请实施例的第四方面，提供一种计算机可读存储介质，其上储存有计算机程序，该计算机程序被处理器执行时实现如上述任意一项所述的视频记录文稿生成方法。

本申请实施例通过获取视频文件，从视频文件中分离出音频文件，将音频文件进行分割，得到多个音频片段，将每个音频片段输入至语音转向量模型，获得多个音频向量，将多个所述音频向量进行聚类，获得多个聚类簇，将包含音频向量个数最多的聚类簇确定为中心聚类簇，计算其他聚类簇的中心到中心聚类簇中心的相对距离，根据相对距离以及预设的颜色渐变表中每种颜色与相对距离的映射关系，确定每个聚类簇对应的颜色，将每个聚类簇对应的音频片段进行语音识别，生成音频片段对应的音频文字，给所述音频文字上色，生成视频记录文稿，从而实现了在阅读视频记录文稿内容过程中通过颜色直观了解内容的发言人是谁，并且翻阅文稿也能高效找到目标说话人的所有内容，提高查找信息的效率，并且整个视频记录文稿自动生成，不需要人工参与，降低了人工成本。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

为了更好地理解和实施，下面结合附图详细说明本发明。

附图说明

图1为本发明视频记录文稿生成方法的流程示意图；

图2为本发明视频记录文稿生成方法中S20的流程示意图；

图3为本发明视频记录文稿生成方法中S21的流程示意图；

图4为本发明视频记录文稿生成方法中S6的流程示意图；

图5为本发明视频记录文稿生成方法中S70的流程示意图；

图6为本发明视频记录文稿生成装置的结构框图。

具体实施方式

为了更好地理解和实施，下面结合附图详细说明本发明。

请参阅图1，本发明实施例提供一种视频记录文稿生成方法，包括的步骤如下：

S10.获取视频文件，从所述视频文件中分离出音频文件。

在本申请实施例中，获取视频会议中的视频文件，从所述视频文件中分离出音频轨，从而获取视频文件中的音频文件。其中，从所述视频文件中分离出音频轨可以使用视频编辑工具等实现。

S20.将所述音频文件进行分割，得到多个音频片段。

在本申请实施例中，将获取的音频文件进行分割，得到多个音频片段。

在一个可选的实施例中，请参阅图2，所述步骤S20包括S21～S22，具体如下：

S21.识别所述音频文件中的静音节点，根据所述静音节点将所述音频文件分割成多个音频大段。其中，所述静音节点为所述音频文件中静音部分的中间分隔点。

在本申请实施例中，将所述音频文件切分为多个音频大段，以静音节点为切分点切分，其中，所述静音节点为所述音频文件中静音部分的中间分隔点。也即，所述音频大段为一个说话人的语音内容。

S22.将每一所述音频大段按照第二预设时长分割成等时长的多个音频片段。

在本申请实施例中，预先设定每个音频片段的时长，即第二预设时长，按照所述第二预设时长将每一所述音频大段分割成等时长的多个音频片段。也即，所述音频片段为一次说话的语音内容。

在一个可选的实施例中，请参阅图3，所述步骤S21中还包括识别静音部分，所述识别静音部分包括S211～S212，具体如下：

S211.计算所述音频文件中音量小于预设音量阈值的时长；

S212.在所述时长大于第一预设时长时，将所述时长对应的音频文件识别为静音部分。

在本申请实施例中，将所述音频文件中音量小于预设音量阈值且所述音频文件中音量小于预设音量阈值的时长大于第一预设时长的部分，识别为静音部分。具体地，所述静音部分可以是一个说话人语音内容之间的间断部分，例如，说话人甲的一段发言中，有A、B、C三个语音部分，则所述语音部分A与所述语音部分B之间的停顿部分、所述语音部分B与所述语音部分C之间的停顿部分即为静音部分。所述静音部分也可以是相邻说话人语音内容之间的间断部分，例如，相邻两个说话人甲乙，说话人甲与说话人乙的语音部分之间的停顿部分，而所述静音节点为所述静音部分时长的中间分隔点。

S30.将每个所述音频片段输入至语音转向量模型，获得多个音频向量。

在数学中，向量(也称为欧几里得向量、几何向量、矢量)，指具有大小和方向的量，一般一个向量可以用一组数来表示。在本申请实施例中，将每个所述音频片段输入至语音转向量模型，具体地，所述语音转向量模型为广义端到端(Generalized End-to-End，简称GE2E)模型，所述GE2E模型将所述音频片段转为向量，获得多个音频向量，其中，音色相似的所述音频片段表现为对应的音频向量余弦相似度高。

S40.将多个所述音频向量进行聚类，获得多个聚类簇；其中，每个聚类簇对应所述音频文件中一个说话人的音频信息。

聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集，这样让在同一个子集中的成员对象都有相似的一些属性，常见的包括在坐标系中更加短的空间距离等。在本申请实施例中，将多个所述音频向量进行聚类，获得多个聚类簇；其中，每个聚类簇对应所述音频文件中一个说话人的音频信息。

在一个可选的实施例中，所述步骤S40包括：

S42.将多个所述音频向量输入至无监督聚类模型，以将余弦相似度高的音频向量进行聚类，获得多个聚类簇。

无监督是机器学习的一种方法，没有给定事先标记过的训练示例，自动对输入的数据进行分类或分群。在本申请实施例中，用无监督的聚类模型对多个所述音频向量进行聚类操作，把余弦相似度高的音频向量聚集在一起，获得多个聚类簇，其中，每个聚类簇对应所述音频文件中一个说话人的音频信息，给每个聚类簇标示唯一标签，每个标签代表识别的一个说话人。具体地，所述聚类模型包括K均值聚类模型、层次聚类模型。

S50.将包含所述音频向量个数最多的聚类簇确定为中心聚类簇，计算其他聚类簇的中心到所述中心聚类簇中心的相对距离。

在本申请实施例中，每一个聚类簇都有一个中心点，将包含所述音频向量个数最多的聚类簇确定为中心聚类簇，计算其他聚类簇的中心到所述中心聚类簇中心的相对距离。

S60.根据所述相对距离以及预设的颜色渐变表中每种颜色与相对距离的映射关系，确定每个所述聚类簇对应的颜色。

在本申请实施例中，通过预设的颜色渐变表中每种颜色与相对距离的映射关系，根据每个聚类簇的中心到所述中心聚类簇中心的相对距离，从而确定每个所述聚类簇对应的颜色。

在一个可选的实施例中，请参阅图4，所述视频记录文稿生成方法还包括获取颜色渐变表中每种颜色与相对距离的映射关系，所述获取颜色渐变表中每种颜色与相对距离的映射关系包括S61～S63，具体如下：

S61.计算所述颜色渐变表中每个颜色的RBG值与第一个颜色的RBG值的欧式距离；

S62.将计算得到的所有欧式距离除以最大的欧式距离，得到每个所述颜色的相对距离；

S63.根据所述相对距离和所述颜色渐变表中每个颜色，获得颜色与相对距离的映射关系。

在本申请实施例中，所述颜色渐变表为红色到蓝色的渐变，计算所述颜色渐变表中每个颜色的RBG值与红色的RBG值的欧式距离，得到多个欧式距离。将计算得到的所有欧式距离除以最大的欧式距离，得到每个所述颜色的相对距离，所述相对距离的值为0到1之间的任意值，根据所述相对距离和所述颜色渐变表中每个颜色，获得颜色与相对距离的映射关系，即每一个所述相对距离对应所述颜色渐变表中唯一的一个颜色。

在一个可选的实施例中，所述步骤S60包括S601，具体如下：

S601.计算每个所述聚类簇的相对距离和最大相对距离的比值，从所述映射关系中确定所述比值对应的颜色，确定每个所述聚类簇对应的颜色。

在本申请实施例中，根据获得每个所述聚类簇到中心聚类簇的相对距离，计算每个所述聚类簇的相对距离和最大相对距离的比值，根据所述比值从所述映射关系确定对应的颜色，所述颜色为每个所述聚类簇对应的颜色，即每个所述聚类簇标签所属的颜色。

S70.将每个所述聚类簇对应的音频片段进行语音识别，生成所述音频片段对应的音频文字。

语音识别(speech recognition)技术，也被称为自动语音识别(AutomaticSpeech Recognition,简称ASR)、电脑语音识别(Computer Speech Recognition)或是语音转文本识别(Speech To Text,简称STT)，其目标是以电脑自动将人类的语音内容转换为相应的文字。在本申请实施例中，基于神经网络的语音识别模型，将每个所述聚类簇对应的音频片段进行语音识别，生成所述音频片段对应的音频文字。其中，所述语音识别模型包括CNN-CTC、GRU-CTC、CNN-RNN-CTC模型。

在一个可选的实施例中，请参阅图5，所述步骤S70包括S71～S72，具体如下：

S71.将所述音频片段中属于同一个聚类簇的相邻音频片段，合并为连续音频片段；

S72.将所述连续音频片段输入到语音识别模型中，生成所述连续音频片段对应的音频文字。

在本申请实施例中，判断相邻两个音频片段是否属于同一个聚类簇，如果属于同一个聚类簇，则合并为连续音频片段，否则另起为一段音频。其中，两个音频片段对应的音频向量余弦相似度高，即为同一个聚类簇，将所述连续音频片段输入到语音识别模型中，生成所述连续音频片段对应的音频文字。

S80.根据每个所述聚类簇对应的颜色给所述音频文字上色，生成视频记录文稿。

在本申请实施例中，将每个连续音频片段的标签和音频文字记录在文稿中，使用所述标签所属的颜色给对应文字本身上色或文字背景上色。其中，所述音频文字即为说话人的说话内容，记录在文稿中的形式为“说话人：说话内容”的形式。

应用本发明实施例，通过获取视频文件，从视频文件中分离出音频文件，将音频文件进行分割，得到多个音频片段，将每个音频片段输入至语音转向量模型，获得多个音频向量，将多个所述音频向量进行聚类，获得多个聚类簇，将包含音频向量个数最多的聚类簇确定为中心聚类簇，计算其他聚类簇的中心到中心聚类簇中心的相对距离，根据相对距离以及预设的颜色渐变表中每种颜色与相对距离的映射关系，确定每个聚类簇对应的颜色，将每个聚类簇对应的音频片段进行语音识别，生成音频片段对应的音频文字，给所述音频文字上色，生成视频记录文稿，从而实现了在阅读视频记录文稿内容过程中通过颜色直观了解内容的发言人是谁，并且翻阅文稿也能高效找到目标说话人的所有内容，提高查找信息的效率，并且整个视频记录文稿自动生成，不需要人工参与，降低了人工成本。

相应于上述方法实施例，请参阅6，本发明实施例提供一种视频记录文稿生成装置9，包括：

分离模块91，用于获取视频文件，从所述视频文件中分离出音频文件；

分割模块92，用于将所述音频文件进行分割，得到多个音频片段；

向量模块93，用于将每个所述音频片段输入至语音转向量模型，获得多个音频向量；

聚类模块94，用于将多个所述音频向量进行聚类，获得多个聚类簇；其中，每个聚类簇对应所述音频文件中一个说话人的音频信息；

相对距离模块95，用于将包含所述音频向量个数最多的聚类簇确定为中心聚类簇，计算其他聚类簇的中心到所述中心聚类簇中心的相对距离；

颜色模块96，用于根据所述相对距离以及预设的颜色渐变表中每种颜色与相对距离的映射关系，确定每个所述聚类簇对应的颜色；

语音识别模块97，用于将每个所述聚类簇对应的音频片段进行语音识别，生成所述音频片段对应的音频文字；

上色模块98，用于根据每个所述聚类簇对应的颜色给所述音频文字上色，生成视频记录文稿。

可选的，所述分割模块92包括：

静音模块921，用于识别所述音频文件中的静音节点，根据所述静音节点将所述音频文件分割成多个音频大段；其中，所述静音节点为所述音频文件中静音部分的中间分隔点；

第一分割模块922，用于将每一所述音频大段按照第二预设时长分割成等时长的多个音频片段。

可选的，所述静音模块921还包括识别所述静音部分，所述识别静音部分包括：

计算模块9211，用于计算所述音频文件中音量小于预设音量阈值的时长；

识别模块9212，用于在所述时长大于第一预设时长时，将所述时长对应的音频文件识别为静音部分。

可选的，所述聚类模块94包括：

输入模块942，用于将多个所述音频向量输入至无监督聚类模型，以将余弦相似度高的音频向量进行聚类，获得多个聚类簇。

可选的，所述装置9还包括获取颜色渐变表中每种颜色与相对距离的映射关系，所述获取颜色渐变表中每种颜色与相对距离的映射关系包括：

欧式距离模块902，用于计算所述颜色渐变表中每个颜色的RBG值与第一个颜色的RBG值的欧式距离；

相对距离模块904，用于将计算得到的所有欧式距离除以最大的欧式距离，得到每个所述颜色的相对距离；

映射模块906，用于根据所述相对距离和所述颜色渐变表中每个颜色，获得颜色与相对距离的映射关系。

可选的，所述颜色模块96包括：

确定模块962，用于计算每个所述聚类簇的相对距离和最大相对距离的比值，从所述映射关系中确定所述比值对应的颜色，确定每个所述聚类簇对应的颜色。

可选的，所述语音识别模块97包括：

合并模块972，用于将所述音频片段中属于同一个聚类簇的相邻音频片段，合并为连续音频片段；

生成模块974，用于将所述连续音频片段输入到语音识别模型中，生成所述连续音频片段对应的音频文字。

本申请还提供一种电子设备，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行上述实施例的方法步骤。

本申请还提供一种计算机可读存储介质，其上储存有计算机程序，该计算机程序被处理器执行时实现上述实施例的方法步骤。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，则本发明也意图包含这些改动和变形。

Claims

1.一种视频记录文稿生成方法，其特征在于，包括：

获取视频文件，从所述视频文件中分离出音频文件；

将所述音频文件进行分割，得到多个音频片段；

2.根据权利要求1所述的一种视频记录文稿生成方法，其特征在于，所述将所述音频文件进行分割，得到多个音频片段的步骤包括：

识别所述音频文件中的静音节点，根据所述静音节点将所述音频文件分割成多个音频大段；其中，所述静音节点为所述音频文件中静音部分的中间分隔点；

将每一所述音频大段按照第二预设时长分割成等时长的多个音频片段。

3.根据权利要求2所述的一种视频记录文稿生成方法，其特征在于，还包括识别所述静音部分，所述识别静音部分包括：

计算所述音频文件中音量小于预设音量阈值的时长；

在所述时长大于第一预设时长时，将所述时长对应的音频文件识别为静音部分。

4.根据权利要求1所述的一种视频记录文稿生成方法，其特征在于，所述将多个所述音频向量进行聚类，获得多个聚类簇的步骤包括：

将多个所述音频向量输入至无监督聚类模型，以将余弦相似度高的音频向量进行聚类，获得多个聚类簇。

5.根据权利要求1所述的一种视频记录文稿生成方法，其特征在于，还包括获取颜色渐变表中每种颜色与相对距离的映射关系；所述获取颜色渐变表中每种颜色与相对距离的映射关系的步骤包括：

计算所述颜色渐变表中每个颜色的RBG值与第一个颜色的RBG值的欧式距离；

将计算得到的所有欧式距离除以最大的欧式距离，得到每个所述颜色的相对距离；

根据所述相对距离和所述颜色渐变表中每个颜色，获得颜色与相对距离的映射关系。

6.根据权利要求1所述的一种视频记录文稿生成方法，其特征在于，所述根据所述相对距离以及预设的颜色渐变表中每种颜色与相对距离的映射关系，确定每个所述聚类簇对应的颜色的步骤包括：

计算每个所述聚类簇的相对距离和最大相对距离的比值，从所述映射关系中确定所述比值对应的颜色，确定每个所述聚类簇对应的颜色。

7.根据权利要求1所述的一种视频记录文稿生成方法，其特征在于，所述将每个所述聚类簇对应的音频片段进行语音识别，生成所述音频片段对应的音频文字的步骤包括：

将所述音频片段中属于同一个聚类簇的相邻音频片段，合并为连续音频片段；

将所述连续音频片段输入到语音识别模型中，生成所述连续音频片段对应的音频文字。

8.一种视频记录文稿生成装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如权利要求1至7中任意一项所述的视频记录文稿生成方法。

10.一种计算机可读存储介质，其上储存有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的视频记录文稿生成方法。