CN115878847A

CN115878847A - 基于自然语言的视频引导方法、系统、设备及存储介质

Info

Publication number: CN115878847A
Application number: CN202310144537.4A
Authority: CN
Inventors: 李舵文; 严鹤; 王俊; 胡琦; 潘永飞
Original assignee: Yunqi Intelligent Technology Co ltd
Current assignee: Yunqi Intelligent Technology Co ltd
Priority date: 2023-02-21
Filing date: 2023-02-21
Publication date: 2023-03-31
Anticipated expiration: 2043-02-21
Also published as: CN115878847B

Abstract

本申请涉及本申请涉及自然语言技术领域，提供了一种基于自然语言的视频引导方法、系统、设备及存储介质，该方法包括：步骤S100、获取专业知识的文本数据，并从文本数据中抽取实体对象；步骤S200、根据实体对象，获取知识图谱；步骤S300、获取通用的训练集，将实体对象与训练集作为训练样本，通过训练样本训练并获取语音识别模型；步骤S400、通过语音识别模型获取视频中的语音，并转换为文本信息；步骤S500、从文本信息中提取关键句；步骤S600、从关键句中获取关键字；步骤S700、将所关键字、根据关键句、知识图谱组成视频的引导标记。本申请能够通过语音识别模型客观的提取视频中的核心内容以及关键词，帮助学生甄别所需视频。

Description

基于自然语言的视频引导方法、系统、设备及存储介质

技术领域

本申请涉及自然语言技术领域，尤其涉及一种基于自然语言的视频引导方法、系统、设备及存储介质。

背景技术

随着信息化的发展，海量的学习资源获取途径主要通过互联网方式获取。但现有的众多视频教学网站中，琳琅满目的学习视频让学生难以抉择。视频的标题和简述像书的导语一样起到引导学生选择最恰当的学习资源，视频标题、简述一般要提取视频中最重要、最精彩的核心内容，提纲挈领，牵引全文，吸引读者。因此，视频资源中的标题以及简述，在学生寻找最合适的资源时显得尤为重要，能够为学生节省大量的学习时间。而视频的标题以及以及简述基本都是资源发布者提供，且没有内容审核机制。

一方面，由于视频标题、简述基本由资源发布者主观的决定，为了吸引更多的用户，作者总是把“最引人注目”作为拟定标题的核心，而忽视了引导读者的作用。标题夸大、不实是常见的问题，读者往往要花费大量的时间筛选出自己想要的学习资源。

另外一方面，对于长篇系列视频而言，子视频的标题往往是序列号，例如高等数学中的《微积分1》、《微积分2》等，对于每个视频的核心知识点并没有列出，因此仅仅需要学习某一知识点的学生可能需要花费大量时间去浏览整个视频。

发明内容

本申请提供了一种基于自然语言的视频引导方法、系统、设备及存储介质，旨在能够客观的提取视频中的核心内容以及关键词，帮助学生甄别所需视频。

第一方面，本申请提供一种基于自然语言的视频引导方法，包括：

步骤S100、获取关于专业视频中专业知识的知识图谱，确定知识图谱的实体对象；

步骤S200、训练知识图谱中的关系模型，通过所述模型获取训练样本；

步骤S300、通过所述训练样本，训练语音识别模型；

步骤S400、通过所述语音识别模型从实体对象中提取关键句，得到所述视频的引导标记。

第二方面，本申请还提供了基于自然语言的视频引导系统，：基于自然语言的视频引导系统可以实现上述基于自然语言的视频引导方法，所述基于自然语言的视频引导系统可以包括：

获取模块，用于获取关于专业视频中专业知识的知识图谱，确定知识图谱的实体对象；

第一训练模块，用于训练知识图谱中的关系模型，通过所述模型获取训练样本；

第二训练模块，用于通过所述训练样本，训练语音识别模型；

提取模块，用于通过所述语音识别模型从实体对象中提取关键句，得到所述视频的引导标记。

第三方面，本申请还提供了一种电子设备，所述电子设备包括处理器、存储器以及存储在所述存储器上并可被所述处理器执行的计算机程序，其中所述计算机程序被所述处理器执行时，实现如所述的基于自然语言的视频引导方法的步骤。

第四方面，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其中所述计算机程序被处理器执行时，实现如所述的基于自然语言的视频引导方法的步骤。

本申请提供一种基于自然语言的视频引导方法及系统，该方法包括：获取关于专业视频中专业知识的知识图谱，确定知识图谱的实体对象；训练知识图谱中的关系模型，通过所述模型获取训练样本；通过所述训练样本，训练语音识别模型；通过所述语音识别模型从实体对象中提取关键句，得到所述视频的引导标记，本申请能够通过语音识别模型客观的提取视频中的核心内容以及关键词，帮助学生甄别所需视频。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请的实施例提供的一种基于自然语言的视频引导方法的流程示意图；

图2为本申请的实施例提供的一种基于自然语言的视频引导方法中子步骤的流程示意图；

图3为使用本申请的实施例提供的一种基于自然语言的视频引导方法的应用实例子；

图4为本申请的实施例提供的一种基于自然语言的视频引导系统的结构示意图。

图5为本申请实施例提供的一种电子设备的结构示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

具体的，下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

参阅图1，图1为本申请的实施例提供的一种基于自然语言的视频引导方法的流程示意图；该基于自然语言的视频引导方法包括：

步骤S100、获取关于专业视频中专业知识的知识图谱，确定知识图谱的实体对象。

本申请实施例可以应用于一些具有专业性比较强的视频，例如学习视频。学习视频中一般具有较强的专业性，会出现大量的专业名词，普通的nlp模型（Neural NetworkLanguage Mode，神经网络语言模型）无法满足识别专业词汇。针对一些比较专业的领域，本申请具体实施例可以通过对专业文献的文本分析以获取该领域的知识图谱。

参见图2所示，图2为本申请的实施例提供的一种基于自然语言的视频引导方法中子步骤的流程示意图；所述步骤S100包括：

步骤S101、获取文本数据，所述文本数据包括专业词汇；

利用爬虫技术从网站上，例如百度百科中爬取专业领域的介绍或文献，对于考试专业（如高等数学、化学等），可从历年考试大纲中获取文本数据。

步骤S102、从所述文本数据中筛选出非专业词汇的词条；

将文本数据分为若干批，使用第三方开源工具（例如jieba、thulac等现有的软件工具）进行分词、词性标注以及命名实体识别（仅人名、地名和机构名），筛选出不可能成为专业名词的词条（动词、形容词、被命名实体识别）。

步骤S103、将所述词条做交集，生成专业词典，并根据所述专业词典中的词条，从网站上进行爬取，提取页面内容保存；

这些网站可以是百度百科，或者是去他的一些学习网站。

步骤S104、标注所述专业词典中预选的页面特征，得到分类标准；

人工筛选少量明确的专业名词作为已标注的词条，提取页面内容，提取每一个词条页面的特征，作为后续进行分类的标准。

步骤S105、提取所述专业词典中剩余的词条的页面特征，根据所述分类标准获取词条的相似特征，并通过xgbooSt算法（为一个现有比较成熟的算法，此处不再对该算法进行过多说明）对所述页面特征、相似特征进行分类，得到分类后的实体对象。

具体的，该步骤可以包括如下：

（1）获取爬取的词条标题（即专业词典中剩余的词条的）之间的faSttext词向量预选相似度，得到第一特征值。

其中，faSttext是一个快速文本分类算法。

（2）获取爬取的词条标题的标签列表之间的词向量的余弦相似度平均值，得到第二特征值。

（3）获取爬取的词条标题的基本信息中相同标题的IDF（inver步骤Se documentfrequency，逆文档频率）值之和，得到第三特征值。

（4）获取爬取的词条标题的基本信息中相同值的个数，得到第四特征值。

（5）将以上第一特征值、第二特征值、第三特征值、第四特征值进行标准化，减少不同量纲之间的影响，并得到页面特征、相似特征。

（6）通过训练xgbooSt算法对页面特征、相似特征进行实体分类，得到分类后的特征。

步骤S200、基于所述实体对象，训练知识图谱中的关系模型，通过所述模型获取训练样本；

所述步骤S200，包括：

步骤S201、获取词嵌入和位置特征嵌入同时表现的文本特征形式。

其中，词嵌入可使用预训练的word2vec词向量模型进行训练，位置特征是某个词与语句中多个（可以为2个）实体的相对距离。

比如句子：泰勒公式是为了研究复杂函数性质时经常使用的近似方法之一，也是函数微分学的一项重要应用内容。

其中“泰勒公式”和“微分学”为2个实体，以“研究”为例，其本身通过词嵌入（WordEmbedding步骤S）转换为dw维度的向量，而x和y分别为其距离“泰勒公式”和“微分学”的距离，通过位置特征分别转换为dx、dy维度的向量，则文本特征为（dw+dx+dy）维度的文本向量，假设句子最大长度为步骤S，则神经网络的输入为（batch_Size，步骤S，dw+dx+dy）的矩阵，其中batch_Size为拥有相同实体的bag种中子实例的个数。

步骤S202、通过卷积层对文本特征形式进行处理，获取卷积操作输出的矩阵C。

具体可以通过公式（1）计算第j次操作对应的结果为C_j：

（1）；

通过公式（2）计算获得矩阵C；

（2）；

其中，W为卷积核的宽度为（滑动窗口），假设长度为d（词向量维度），那么卷积核的大小为w*d的矩阵，步长为1；q为输入层，具体为步骤S*d的矩阵，q_j-w+1:j表示第j个输入层。

通过公式（1）进行卷积，当卷积完成后会得到1个维度为（步骤S+w-1）的向量c。为了得到更丰富的特征，本申请可以使用n个卷积核W={W1，W2，.....，Wn}，第i个卷积核滑动一次得到的数值为C_ij；i、j均为正整数。

最终，通过公式（2）卷积操作完成后会输出一个矩阵C。

步骤S203、将所述矩阵C中的向量Ci按照两个实体划分三部分进行分段最大池化，得到最终输出g。

可以通过公式（3）计算出最终输出g：

（3）；

其中，可以把每个卷积核得到的向量ci按两个实体划分为三部分{c1，c2，c3}，分段最大池化也就是分别取每个部分的最大值，那么对于每个卷积核得到的向量c_im，同时也能得到1个3维的向量P_im，为了便于下一步输入到步骤Softmax层，把n个卷积核经过池化后的向量P_im拼成一个向量，长度为3n。最后用tanh激活函数进行非先行处理，得到最终的输出g。

步骤S204、将池化层得到的输出g，输入到到步骤Softmax层，通过步骤Softmax层处理，得到每个文本特征形式的概率分布。

可以通过公式（4）获取概率分布O：

（4）；

其中，r为Dropout正则化的参数，r~bernoulli（p）表示r属于伯努利分布，bi表示神经网络中的偏移量，w’_i表示第i个参数矩阵。

在步骤中，把池化层得到的输出g输入到步骤Softmax层，计算属于每种关系的概率值。把池化层的输出g以r的概率随机丢弃，得到的步骤Softmax层的输出O。输出O是关系的概率分布，概率值最大的关系就是句子中的实体对被预测的关系。

步骤S205、选取概率值最大对应的文本特征形式，计算交叉熵损失H。

可以通过公式（5）计算交叉熵损失H：

（5）；

其中，H(p，q）表示期望值p、实际值q的交叉熵，i表示正整数，xi表示第i个样本，p(xi)表示xi的期望值、q(xi)表示实际情况下xi概率分布；k表示对应种类样本数量，即文本特征的数量。

步骤S206、通过交叉熵损失函数H训练知识图谱模型，并将所述实体对象输入所述知识图谱模型，以获取知识图谱。

在上述方案中，对于每个实体对，会有很多包含该实体对的句子（qi个），每个句子经过步骤Softmax层都可以得到一个概率分布，进而得到预测的关系标签和概率值。

为了消除错误标注样本的影响，可以从这些句子中仅挑出一个概率值最大的句子和它的预测结果，作为这个实体对的预测结果，用于计算交叉熵损失H，最后用梯度下降法求出梯度，并进行误差反向传播。

步骤S300、通过所述训练样本，训练语音识别模型；

所述步骤S300包括：

步骤S301、从视频中分离出音频，从最小音量、最大时间间隔以及单个音频最小时长三个参数去除音频中的噪音，并将长音频进行有效的切割若干个待识别的短音频，再将普通的wav（最常见的声音文件格式之一）语音信号转换为神经网络需要的二维频谱图像信号。

其中，可以使用ffmpeg从视频中分离出音频。FFmpeg是一套可以用来记录、转换数字音频、视频，并能将其转化为流的开源计算机程序。

此外，本申请实施例中的语音识别模型包括声学模型、隐马尔科夫模型，通过声学模型从步骤S100中得到的知识图谱的实体对象中提取数据，并传输到隐马尔科夫模型进行处理。

步骤S302、将二维频谱图像信号作为深度全卷积神经网络的输入，训练声学模型；

基于KeraS和tenSorflow框架，采用了深度全卷积神经网络，将二维频谱图像信号作为输入，训练该框架的深度全卷积神经网络，得到声学模型。

该模型结构上，借鉴了图像识别中效果最好的网络配置VGG，这种网络模型有着很强的表达能力，可以看到非常长的历史和未来信息，相比RNN在鲁棒性上更出色。在输出端，这种模型可以和CTC（ConnectioniSt temporal claSSification，基于神经网络的时序类分类）方案可以完美结合，以实现整个模型的端到端训练，将声音波形信号直接转录为中文普通话拼音序列。在语音识别系统的声学模型的输出中，往往包含了大量连续重复的符号，因此，利用CTC方案解码，我们将连续相同的符合合并为同一个符号，然后再去除静音分隔标记符，得到最终实际的语音拼音符号序列。

步骤S303、基于训练样本，训练隐马尔科夫模型，并通过维特比算法删掉不可能是答案的路径。

将拼音转汉字转换成隐马尔科夫问题，即含有隐含未知参数的马尔可夫过程。对于该问题而言，状态是输出的每一个汉字，观测是指对应的拼音，翻译的过程其实就是由观测序列求最优的隐藏序列。隐马尔可夫模型由初始状态概率向量π、状态转移概率矩阵A和观测概率矩阵B（也称为发射矩阵）决定。因此，隐马尔可夫模型可以用三元组符号表示，即λ=（π，A，B）。通过极大似然估计法，使用词频代替概率，从而生成隐马尔科夫模型，具体的统计方式如下：

（1）统计初始概率矩阵π。统计初始化概率矩阵，就是找出所有出现在训练样本中的词首的汉字，并统计它们出现在词首的次数，最后根据上述数据算出这些汉字出现在词首的概率，没统计的汉字就认为出现在词首的概率是0，不写入数据库。

需要注意的是，为了防止概率计算的时候因为越算越小导致计算机无法比较，在本申请实施例中，所有的概率都进行了自然对数运算。

（2）获取状态转移概率矩阵A。此处用到的是最简单的一阶隐马尔科夫模型，即认为在一个句子里，每个汉字的出现只和它前面的的一个汉字有关，可以满足大部分情况。统计的过程就是找出字典中每个汉字后面出现的汉字集合，并统计概率。

（3）获取观测概率矩阵B，统计每个汉字对应的拼音以及在日常情况下的使用概率。

其中，维特比算法，隐马尔可夫模型的预测问题，就是在已知隐马尔可夫模型λ和观测序列x的情况下，求使得观测序列条件概率p(I/x)最大的状态序列I；即给定观测序列，求最有可能的状态序列。

该问题可以通过维特比算法解决，该算法的思想是边计算边删掉不可能是答案的路径，在最后剩下的路径中挑选最优路径，因为后续步骤再也不用考虑这些被删掉的路径了，该问题中最优路径即是概率最大的路径。

步骤S304、通过所述声学模型输出拼音信息，通过所述隐马尔科夫模型将所述拼音信息转化为文字信息，反复训练从而得到语音识别模型。

步骤S400、通过所述语音识别模型获取视频中的语音，并转换为文本信息。

步骤S500、从所述文本信息中提取关键句。

具体的，所述步骤S500包括S501-S502。

步骤S501、获取待识别的视频的语音文本进行分词分句，得到处理后的句子；

利用中文分词工具进行分词分句，去停用词，根据词性过滤某些无用的高频词，例如“的、得、地、了、是、个”等虚词。同时，去除疑问句、感叹句等特殊语句。

步骤S502、获取句子之间的相似度，构造有权无向图，权值为相似度，最终获取到概率转移矩阵；

通过句子与句子之间的相似度来判断句子之间的联系，得到句子之间的相似度，具体参见公式（6）。得到相似度后，构造有权无向图，有权无向图的权值为相似度，最终获取到概率转移矩阵。句子间的相似度公式如下，及两个句子单词的交集除以两个句子的长度。

（7）；

其中，（S）ⁿ表示经过n次迭代的矩阵S，W2为概率转移矩阵，d1为阻尼系数。

通过公式（7）可以初始化1*n的矩阵S，初始值为1/n，代表着每1个句子的关键性。利用迭代计算实现马尔科夫收敛过程，获取最终不在变化的矩阵，通过比较关键性值抽取N个关键句作为摘要。

初始化1*n的矩阵S，代表不同句子的重要程度，初始值为1/n，代表着每1个句子的关键性。利用迭代计算实现马尔科夫收敛过程，获取最终不在变化的矩阵S，通过比较关键性值抽取N个关键句作为摘要。

步骤S600、从所述关键句中获取关键字。

步骤S700、将所关键字、根据所述关键句、所述知识图谱组成视频的引导标记。

所述方法还包括：步骤S800、获取视频的关键字知识点，并与语音时长匹配形成视频的知识点时间序列。

通过将视频中的关键词与知识点时间序列绑定，帮助学生定位所需内容的时间点。

参见图所示，图3为使用本申请的实施例提供的一种基于自然语言的视频引导方法的应用实例子；可以看出，本申请能够通过人工智能的语音识别以及NLP技术，能够客观的提取视频中的核心内容以及关键词，帮助学生甄别所需视频。实现了通过人工智能方式，自动生成视频资源知识图谱、视频摘要以加快学生信息过滤的速度，提高学习效率。同时，将视频中的关键词与时间节点绑定，帮助学生定位所需内容的时间点。

参见图4所示，图4为本申请的实施例提供的一种基于自然语言的视频引导系统的结构示意图。本申请还提供了一种基于自然语言的视频引导系统，其可以实现上述基于自然语言的视频引导方法，所述基于自然语言的视频引导系统可以包括：

命名实体模块301，用于获取专业知识的文本数据，并从所述文本数据中抽取实体对象；

知识图谱模块302，用于根据所述实体对象，获取知识图谱；

语音翻译模块303，用于获取通用的训练集，将所述实体对象与所述训练集作为训练样本，通过所述训练样本训练并获取语音识别模型；

文本信息模块304，用于通过所述语音识别模型获取视频中的语音，并转换为文本信息；

第一主题提取模块305，用于从所述文本信息中提取关键句；

第二主题提取模块306，用于从所述关键句中获取关键字；

引导标记模块307，用于将所关键字、根据所述关键句、所述知识图谱组成视频的引导标记。

各模块实现对应功能的方法与上述基于自然语言的视频引导方法中的描述相同，不再赘述。

本申请还提供了一种电子设备，参见图5所示，图5为本申请实施例提供的一种电子设备的结构示意图。电子设备50可以包括处理器（CPU、GPU、FPGA等）501，其可以根据存储在只读存储器（ROM）502中的程序或者从存储部分508加载到随机访问存储器（RAM）503中的程序而执行上述附图所示的实施方式中的部分或全部处理。在RAM503中，还存储有系统操作所需的各种程序和数据。处理器501、ROM502以及RAM503通过总线504彼此相连。输入/输出（I/O）接口505也连接至总线504。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管（CRT）、液晶显示器（LCD）等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

特别地，根据本申请的实施方式，上文参考附图描述的方法可以被实现为计算机软件程序。例如，本申请的实施方式包括一种计算机程序产品，其包括有形地包含在及其可读介质上的计算机程序，计算机程序包含用于执行附图中的方法的程序代码。在这样的实施方式中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。

描述于本申请实施方式中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。

作为另一方面，本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施方式中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，程序被一个或者一个以上的处理器用来执行描述于本申请的基于自然语言的视频引导方法的步骤。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于自然语言的视频引导方法，其特征在于，包括：

步骤S100、获取专业知识的文本数据，并从所述文本数据中抽取实体对象；

步骤S200、根据所述实体对象，获取知识图谱；

步骤S300、获取通用的训练集，将所述实体对象与所述训练集作为训练样本，通过所述训练样本训练并获取语音识别模型；

步骤S400、通过所述语音识别模型获取视频中的语音，并转换为文本信息；

步骤S500、从所述文本信息中提取关键句；

步骤S600、从所述关键句中获取关键字；

2.根据权利要求1所述的基于自然语言的视频引导方法，其特征在于，所述步骤S100包括：

步骤S101、获取专业知识的文本数据，所述文本数据包括专业词汇；

步骤S102、从所述文本数据中筛选出专业词汇的词条；

步骤S103、将所述词条做交集，生成初始词典，并根据所述初始词典中的词条，从网站上进行爬取，提取页面内容保存，得到专业词典；

步骤S105、提取所述专业词典中剩余的词条的页面特征，根据所述分类标准获取词条的相似特征，并通过xgbooSt算法对所述页面特征、相似特征进行分类，得到做好分类的实体对象。

3.根据权利要求2所述的基于自然语言的视频引导方法，其特征在于，所述步骤S200，包括：

步骤S201、获取词嵌入和位置特征嵌入同时表现的文本特征形式；

步骤S202、通过卷积层对文本特征形式进行处理，获取卷积操作输出的矩阵C；

步骤S203、将所述矩阵C中的向量Ci按照两个实体划分三部分进行分段最大池化，得到最终输出g；

步骤S204、将池化层得到的输出g，输入到到步骤Softmax层，通过步骤Softmax层处理，得到每个文本特征形式的概率分布；

步骤S205、选取概率值最大对应的文本特征形式，计算交叉熵损失H；

步骤S206、通过交叉熵损失H训练知识图谱模型，并将所述实体对象输入所述知识图谱模型，以获取知识图谱。

4.根据权利要求3所述的基于自然语言的视频引导方法，其特征在于，所述语音识别模型包括声学模型及隐马尔科夫模型；所述步骤S300包括：

步骤S301、从所述训练样本中分离出音频，从最小音量、最大时间间隔以及单个音频最小时长三个参数去除音频中的噪音，并将长音频进行有效的切割若干个待识别的短音频，再将普通的wav语音信号转换为神经网络需要的二维频谱图像信号；

步骤S303、基于所述训练样本，训练隐马尔科夫模型，并通过维特比算法删掉不可能是答案的路径；

步骤S304、通过所述声学模型输出拼音信息，通过所述隐马尔科夫模型将所述拼音信息转化为文字信息，从而得到语音识别模型。

5.根据权利要求1所述的基于自然语言的视频引导方法，其特征在于，所述步骤S500包括：

步骤S502、通过处理后的句子之间的相似度来判断句子之间的联系，得到句子之间的相似度；

步骤S503、基于概率转移句子，利用迭代计算，得到不再变化的矩阵S，通过比较关键性值抽取N个关键句。

6.根据权利要求5所述的基于自然语言的视频引导方法，其特征在于，所述方法还包括：

所述步骤S502中，得到句子之间的相似度包括：

；

其中，S为文本句子表示句子，V（Si，Sj）代表第i个句子Si与第j个句子Sj相似度，w₁为单词，|Si|、|Sj|代表第i、j个句子中的单词数量。

7.根据权利要求1所述的基于自然语言的视频引导方法，其特征在于，所述方法还包括：

步骤S800、获取视频的关键字知识点，并与语音时长匹配形成视频的知识点时间序列。

8.一种基于自然语言的视频引导系统，其特征在于，基于自然语言的视频引导系统可以实现权利要求1-7任一项所述的视频引导方法，所述基于自然语言的视频引导系统可以包括：

命名实体模块，用于获取专业知识的文本数据，并从所述文本数据中抽取实体对象；

知识图谱模块，用于根据所述实体对象，获取知识图谱；

语音翻译模块，用于获取通用的训练集，将所述实体对象与所述训练集作为训练样本，通过所述训练样本训练并获取语音识别模型；

文本信息模块，用于通过所述语音识别模型获取视频中的语音，并转换为文本信息；

第一主题提取模块，用于从所述文本信息中提取关键句；

第二主题提取模块，用于从所述关键句中获取关键字；

引导标记模块，用于将所关键字、根据所述关键句、所述知识图谱组成视频的引导标记。

9.一种电子设备，其特征在于，所述电子设备包括处理器、存储器以及存储在所述存储器上并可被所述处理器执行的计算机程序，其中所述计算机程序被所述处理器执行时，实现如权利要求1至7中任一项所述的基于自然语言的视频引导方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，其中所述计算机程序被处理器执行时，实现如权利要求1至7中任一项所述的基于自然语言的视频引导方法的步骤。