CN111385645A

CN111385645A - 一种基于语音识别的视频文件截取方法

Info

Publication number: CN111385645A
Application number: CN202010308387.2A
Authority: CN
Inventors: 耿奎; 陈海清
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-05-30
Filing date: 2020-05-30
Publication date: 2020-07-07

Abstract

本发明涉及一种基于语音识别的视频文件截取方法，接收视频截取语音指令，根据视频截取语音指令控制视频文件的播放，并且，在视频文件播放过程中，按照预设的时间段，提取视频文件每一个预设的时间段内的音频数据，对音频数据进行语音识别，得到音频文本数据，将音频文本数据输入至预设的音频关键字数据库，根据判断该音频文本数据是否存在音频关键字数据库中的音频关键字所对应的时刻在视频文件中的进度，截取得到该进度之前预设长度的视频片段，得到目标视频片段，最后输出目标视频片段。该视频文件截取方法能够进行视频片段的自动截取，相较于人工截取方法，降低了人工成本，避免浪费人力以及操作人员的时间，而且，能够提升视频截取准确性。

Description

一种基于语音识别的视频文件截取方法

技术领域

本发明涉及一种基于语音识别的视频文件截取方法。

背景技术

目前，视频处理技术的应用越来越广泛。很多场景下，需要将一个视频文件中涉及到相关信息的一小段视频或者多个小段视频截取出来，以便于后续使用。常规的视频截取方法为人工截取的方式，操作人员观看该视频文件，当获知某一视频片段包含相关信息的时候，人工截取这一视频片段，这种视频截取方法需要操作人员专门坐在电脑旁对视频文件进行观看和人工截取，费时费力，而且，很容易出现因疏忽而忘记截取其中部分视频片段的情况，视频截取准确性较低。

发明内容

本发明的目的在于提供一种基于语音识别的视频文件截取方法，用于解决人工对视频文件进行截取的方法的准确性较低的问题。

为了解决上述问题，本发明采用以下技术方案：

一种基于语音识别的视频文件截取方法，包括：

接收视频截取语音指令；

对所述视频截取语音指令进行语音识别，得到截取指令文本数据；

将所述截取指令文本数据输入到预设的视频截取指令专用词典进行比对，若所述截取指令文本数据中存在所述视频截取指令专用词典中的至少一个词语，则判定所述截取指令文本数据为有效文本数据；

将所述有效文本数据转换为视频截取控制指令；

根据所述视频截取控制指令，启动视频播放应用，以对预先设置的视频文件进行播放；

在所述视频文件播放过程中，按照预设的时间段，提取所述视频文件每一个所述预设的时间段内的音频数据；

对所述音频数据进行语音识别，得到音频文本数据；

将所述音频文本数据输入至预设的音频关键字数据库，判断所述音频文本数据中是否存在所述音频关键字数据库中的至少一个音频关键字；

若所述音频文本数据中存在所述音频关键字数据库中的至少一个音频关键字，则记录所述判断所述音频文本数据中是否存在所述音频关键字数据库中的至少一个音频关键字的时刻在所述视频文件中的进度，截取所述进度之前预设长度的视频片段，得到目标视频片段；

输出所述目标视频片段。

优选地，所述将所述截取指令文本数据输入到预设的视频截取指令专用词典进行比对，包括：

将所述视频截取指令专用词典中的各个词语分别与所述截取指令文本数据进行比对，得到所述截取指令文本数据中是否存在所述视频截取指令专用词典中的词语。

优选地，所述视频截取指令专用词典中的词语包括截取。

优选地，所述视频截取指令专用词典中的词语还包括与截取相关的词语。

优选地，所述预设的时间段等于所述视频文件的时长与预设分段数的比值。

优选地，所述预设长度对应的时长小于或者等于所述预设的时间段。

本发明的有益效果为：当需要对视频文件进行截取，以得到某一段或者某几段的视频片段时，说出视频截取语音指令，将该视频截取语音指令进行语音识别，得到截取指令文本数据，然后根据预设的视频截取指令专用词典对该截取指令文本数据进行验证，若截取指令文本数据中存在视频截取指令专用词典中的至少一个词语，则判定该截取指令文本数据为有效文本数据，即为有效的截取指令，将有效文本数据转换为视频截取控制指令，根据视频截取控制指令，启动视频播放应用，以对预先设置的视频文件进行播放，通过这种语音识别控制启动视频播放的方式，相较于传统的点击视频文件控制启动视频播放的方式，智能化程度得到很大的提升，而且无需动作操作，提升控制便捷性；在视频文件播放过程中，按照预设的时间段，提取视频文件每一个预设的时间段内的音频数据，对音频数据进行语音识别，得到音频文本数据，将音频文本数据输入至预设的音频关键字数据库，根据该音频关键字数据库判断音频文本数据中是否存在音频关键字数据库中的音频关键字，若音频文本数据中存在音频关键字数据库中的音频关键字，表示该音频数据对应的视频片段包含所要求的截取的视频片段，根据判断音频文本数据中是否存在音频关键字数据库中的音频关键字的时刻在视频文件中的进度，截取该进度之前预设长度的视频片段，得到目标视频片段，即所要求的截取的视频片段。因此，本发明提供的视频文件截取方法基于语音识别技术，根据语音识别得到的文本数据中存在的相关音频关键字进行视频片段的自动截取，相较于常规的人工截取方法，无需专门设置操作人员在旁观看，也无需操作人员人工截取各个视频片段，降低了人工成本，毫无费时费力，而且，该自动截取方式能够避免因人为因素，比如观看疏忽而出现的忘记截取部分视频片段的现象，进而提升视频截取准确性和可靠性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍：

图1是基于语音识别的视频文件截取方法的流程示意图；

图2是视频文件播放过程对应的时间轴示意图。

具体实施方式

本实施例提供一种基于语音识别的视频文件截取方法，该视频文件截取方法的执行主体可以为台式电脑、笔记本电脑、智能移动终端等。由于需要获取到语音信号，因此，执行主体上需要设置有麦克风等语音采集设备，比如笔记本电脑或者智能移动终端自带的麦克风。由于需要进行视频文件播放，因此，执行主体中需要安装有视频播放应用，比如目前一些主流的视频播放软件程序，若安装多个视频播放应用，则指定其中一个视频播放应用作为视频文件的默认播放软件，在后续控制时启动该视频播放应用。

如图1所示，视频文件截取方法包括以下步骤：

接收视频截取语音指令：

执行主体中存储有预设的视频文件，即需要截取的视频文件。预先设置的视频文件的时长以及视频内容由实际需要进行设置。

当需要对视频文件进行截取时，操作人员说出视频截取语音指令。执行主体自带的麦克风或者执行主体配设的麦克风获取到操作人员的视频截取语音指令。

对所述视频截取语音指令进行语音识别，得到截取指令文本数据：

执行主体中内置有现有的语音识别算法，根据该语音识别算法将获取到的视频截取语音指令进行语音识别，得到截取指令文本数据，即将语音信号识别为对应的文本数据。

将所述截取指令文本数据输入到预设的视频截取指令专用词典进行比对，若所述截取指令文本数据中存在所述视频截取指令专用词典中的至少一个词语，则判定所述截取指令文本数据为有效文本数据：

执行主体中预设有一个视频截取指令专用词典，该视频截取指令专用词典包含至少一个词语，各个词语均为对视频文件进行截取的控制指令的相关词语，作为一个具体实施方式，视频截取指令专用词典中的词语包括“截取”，进一步地，还可以包括与“截取”相关的词语，比如“分割”等。

将截取指令文本数据输入到该视频截取指令专用词典进行比对，本实施例给出一种实现过程，将视频截取指令专用词典中的各个词语分别与截取指令文本数据进行比对，也就是说，对于视频截取指令专用词典中的任意一个词语，将该词语输入到截取指令文本数据中，判断截取指令文本数据中是否存在该词语。最终，判断得到截取指令文本数据中是否存在视频截取指令专用词典中的词语。

若截取指令文本数据中存在视频截取指令专用词典中的至少一个词语，即截取指令文本数据中存在视频截取指令专用词典中的词语，那么，判定截取指令文本数据为有效文本数据，即视频截取语音指令为有效的截取指令。

将所述有效文本数据转换为视频截取控制指令：

将得到的有效文本数据转换为视频截取控制指令，即转换为与视频截取控制指令对应的电控信号，比如一特定位数的数据串。

根据所述视频截取控制指令，启动视频播放应用，以对预先设置的视频文件进行播放：

根据得到的视频截取控制指令，控制启动已安装或者默认的视频播放应用，视频播放应用启动后播放预先设置的视频文件。

在所述视频文件播放过程中，按照预设的时间段，提取所述视频文件每一个所述预设的时间段内的音频数据：

预设有一个时间段，该时间段可以直接设定，也可以根据视频文件的时长进行确定，比如：视频文件的时长越长，该时间段设置的相对长一些。

通俗点讲，视频文件包括音频数据以及视频画面。即，视频文件对应有音频数据，将视频文件的音频数据按照预设的时间段进行划分，提取每一个预设的时间段内的音频数据，即，在视频文件播放过程中，每持续播放一个时间段，提取该时间段内的音频数据，假设预设的时间段为10s，则在视频文件播放过程中，每持续播放10s，就提取该10s内的音频数据。或者，随着视频文件的播放，同步提取音频数据，直至持续提取10s的音频数据，对这10s的音频数据进行后续处理，接着提取下一个10s的音频数据，以此类推。

本实施例中，预设的时间段与视频文件的时长存在一定的关系，即时间段等于视频文件的时长与预设分段数的比值，可以理解为将视频文件等分为预设分段数，得到预设分段数的子视频段，每一个子视频段的长度就是预设的时间段，那么，提取各个子视频段的音频数据，得到各个预设的时间段的音频数据。举例来说，视频文件的时长为1min，预设分段数为6，即将视频文件等分为6个子视频段，每一个子视频段的长度，即时间段为1min/6，等于10s。

对所述音频数据进行语音识别，得到音频文本数据：

通过提取，能够得到多个（即至少两个）预设时间段的音频数据，在得到任意一个时间段的音频数据时，对该时间段的音频数据进行处理。以下以其中任意一个时间段的音频数据为例进行说明，其他各时间段的音频数据的处理过程与此相同。

根据内置的语音识别算法对该时间段的音频数据进行语音识别，得到音频文本数据，即将该时间段的语音信号识别为对应的文本数据。

将所述音频文本数据输入至预设的音频关键字数据库，判断所述音频文本数据中是否存在所述音频关键字数据库中的至少一个音频关键字：

执行主体中预设有一个音频关键字数据库，音频关键字数据库中包含有一定量的音频关键字（即包括至少一个音频关键字），该音频关键字数据库中的音频关键字的个数以及音频关键字的具体类型可以根据实际需要（比如视频截取目的）进行专门设置，比如：将所需的关键字集合成为音频关键字数据库，该所需的关键字由实际需要进行设置，可以是不同种类的关键字，或者该音频关键字数据库中的音频关键字均是相同种类的关键字，这些相同种类的关键字表示某一个种类的对象。本实施例中，音频关键字数据库中的音频关键字为同种类型的关键字，即各音频关键字均为同种类型，比如均为植物的关键字，那么，音频关键字数据库包含的各个音频关键字均为各种植物的名字，比如：杨树、柳树、牡丹、月季等等。作为一个具体实施方式，为了便于建立音频关键字数据库，音频关键字数据库包含的各个音频关键字为较为常见的植物的名字，各常见的植物的名字的划分由实际需要进行设置。

将获取到的音频文本数据输入至预设的音频关键字数据库，判断音频文本数据中是否存在音频关键字数据库中的至少一个音频关键字，即是否存在音频关键字数据库中包含的音频关键字。本实施例中，给出一种具体的判断方式：将音频关键字数据库中的各个音频关键字分别与该音频文本数据进行比对，判断音频关键字数据库中的各个音频关键字是否存在于该音频文本数据中，若音频关键字数据库中的至少一个音频关键字存在于该音频文本数据中，判定音频文本数据中存在音频关键字数据库中的至少一个音频关键字；若音频关键字数据库中的所有的音频关键字均不存在于该音频文本数据中，判定音频文本数据中不存在音频关键字数据库中的音频关键字。

接上文举例：音频关键字数据库中的各音频关键字均为常见植物的名字，若音频文本数据为“xxxx地区的xxx河边种植有杨树xxxx公园种植有牡丹xxxx”，将音频文本数据“xxxx地区的xxx河边种植有杨树xxxx公园种植有牡丹xxxx”输入至音频关键字数据库，判断得到该音频文本数据中存在于音频关键字数据库中的音频关键字为“杨树”和“牡丹”，判定该音频文本数据中存在音频关键字数据库中的至少一个音频关键字。

若所述音频文本数据中存在所述音频关键字数据库中的至少一个音频关键字，则记录所述判断所述音频文本数据中是否存在所述音频关键字数据库中的至少一个音频关键字的时刻在所述视频文件中的进度，截取所述进度之前预设长度的视频片段，得到目标视频片段：

若音频文本数据中存在音频关键字数据库中的至少一个音频关键字，则记录并得到判断该音频文本数据中是否存在音频关键字数据库中的至少一个音频关键字的时刻在视频文件中的进度，由于判断该音频文本数据中是否存在音频关键字数据库中的至少一个音频关键字所对应的时刻、对该音频数据进行语音识别所对应的时刻以及该音频数据提取完成所对应的时刻基本上相同，因此，得到的判断该音频文本数据中是否存在音频关键字数据库中的至少一个音频关键字的时刻在视频文件中的进度、对该音频数据进行语音识别的时刻在视频文件中的进度以及该音频数据提取完成的时刻在视频文件中的进度本质上是相同给的。该进度本质上是在视频文件中的某一个时间点，如图2所示，假设视频文件的时长为1min，提取到的每一个音频数据为每10s的音频数据，对于某一个音频数据而言，提取得到的该音频数据为视频文件中10s-20s的音频数据，则该音频数据提取完成的时刻为视频文件的20s时刻，即视频文件播放到20s的时刻，也就是图2中时间轴上的20s位置。相应地，对该音频数据进行语音识别的时刻以及判断该音频文本数据中是否存在音频关键字数据库中的至少一个音频关键字的时刻在该视频文件中的进度均为20s时刻，即图2中时间轴上的20s位置。

以得到的进度作为待截取的视频片段的终点，截取该进度之前预设长度的视频片段，本实施例中，预设长度对应的时长小于或者等于上文中的预设的时间段，那么，截取得到的视频片段的时长要小于或者等于上文中的子视频段的时长。举例来说：预设长度为5s，得到的进度为20s，那么，从视频文件的20s处往前截取5s长度的视频片段，即截取到的视频片段为从15s到20s的视频片段，为图2中的阴影部分长度的视频片段，得到的视频片段为目标视频片段。

输出所述目标视频片段：

输出得到的目标视频片段，比如有线传输或者无线传输给外部相关设备，以供后续处理。

上述实施例仅以一种具体的实施方式说明本发明的技术方案，任何对本发明进行的等同替换及不脱离本发明精神和范围的修改或局部替换，其均应涵盖在本发明权利要求保护的范围之内。

Claims

1.一种基于语音识别的视频文件截取方法，其特征在于，包括：

接收视频截取语音指令；

将所述有效文本数据转换为视频截取控制指令；

对所述音频数据进行语音识别，得到音频文本数据；

输出所述目标视频片段。

2.根据权利要求1所述的基于语音识别的视频文件截取方法，其特征在于，所述将所述截取指令文本数据输入到预设的视频截取指令专用词典进行比对，包括：

3.根据权利要求1所述的基于语音识别的视频文件截取方法，其特征在于，所述视频截取指令专用词典中的词语包括截取。

4.根据权利要求3所述的基于语音识别的视频文件截取方法，其特征在于，所述视频截取指令专用词典中的词语还包括与截取相关的词语。

5.根据权利要求1所述的基于语音识别的视频文件截取方法，其特征在于，所述预设的时间段等于所述视频文件的时长与预设分段数的比值。

6.根据权利要求1所述的基于语音识别的视频文件截取方法，其特征在于，所述预设长度对应的时长小于或者等于所述预设的时间段。