CN115878847A - 基于自然语言的视频引导方法、系统、设备及存储介质 - Google Patents

基于自然语言的视频引导方法、系统、设备及存储介质 Download PDF

Info

Publication number
CN115878847A
CN115878847A CN202310144537.4A CN202310144537A CN115878847A CN 115878847 A CN115878847 A CN 115878847A CN 202310144537 A CN202310144537 A CN 202310144537A CN 115878847 A CN115878847 A CN 115878847A
Authority
CN
China
Prior art keywords
acquiring
video
natural language
training
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310144537.4A
Other languages
English (en)
Other versions
CN115878847B (zh
Inventor
李舵文
严鹤
王俊
胡琦
潘永飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yunqi Intelligent Technology Co ltd
Original Assignee
Yunqi Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yunqi Intelligent Technology Co ltd filed Critical Yunqi Intelligent Technology Co ltd
Priority to CN202310144537.4A priority Critical patent/CN115878847B/zh
Publication of CN115878847A publication Critical patent/CN115878847A/zh
Application granted granted Critical
Publication of CN115878847B publication Critical patent/CN115878847B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本申请涉及本申请涉及自然语言技术领域,提供了一种基于自然语言的视频引导方法、系统、设备及存储介质,该方法包括:步骤S100、获取专业知识的文本数据,并从文本数据中抽取实体对象;步骤S200、根据实体对象,获取知识图谱;步骤S300、获取通用的训练集,将实体对象与训练集作为训练样本,通过训练样本训练并获取语音识别模型;步骤S400、通过语音识别模型获取视频中的语音,并转换为文本信息;步骤S500、从文本信息中提取关键句;步骤S600、从关键句中获取关键字;步骤S700、将所关键字、根据关键句、知识图谱组成视频的引导标记。本申请能够通过语音识别模型客观的提取视频中的核心内容以及关键词,帮助学生甄别所需视频。

Description

基于自然语言的视频引导方法、系统、设备及存储介质
技术领域
本申请涉及自然语言技术领域,尤其涉及一种基于自然语言的视频引导方法、系统、设备及存储介质。
背景技术
随着信息化的发展,海量的学习资源获取途径主要通过互联网方式获取。但现有的众多视频教学网站中,琳琅满目的学习视频让学生难以抉择。视频的标题和简述像书的导语一样起到引导学生选择最恰当的学习资源,视频标题、简述一般要提取视频中最重要、最精彩的核心内容,提纲挈领,牵引全文,吸引读者。因此,视频资源中的标题以及简述,在学生寻找最合适的资源时显得尤为重要,能够为学生节省大量的学习时间。而视频的标题以及以及简述基本都是资源发布者提供,且没有内容审核机制。
一方面,由于视频标题、简述基本由资源发布者主观的决定,为了吸引更多的用户,作者总是把“最引人注目”作为拟定标题的核心,而忽视了引导读者的作用。标题夸大、不实是常见的问题,读者往往要花费大量的时间筛选出自己想要的学习资源。
另外一方面,对于长篇系列视频而言,子视频的标题往往是序列号,例如高等数学中的《微积分1》、《微积分2》等,对于每个视频的核心知识点并没有列出,因此仅仅需要学习某一知识点的学生可能需要花费大量时间去浏览整个视频。
发明内容
本申请提供了一种基于自然语言的视频引导方法、系统、设备及存储介质,旨在能够客观的提取视频中的核心内容以及关键词,帮助学生甄别所需视频。
第一方面,本申请提供一种基于自然语言的视频引导方法,包括:
步骤S100、获取关于专业视频中专业知识的知识图谱,确定知识图谱的实体对象;
步骤S200、训练知识图谱中的关系模型,通过所述模型获取训练样本;
步骤S300、通过所述训练样本,训练语音识别模型;
步骤S400、通过所述语音识别模型从实体对象中提取关键句,得到所述视频的引导标记。
第二方面,本申请还提供了基于自然语言的视频引导系统,:基于自然语言的视频引导系统可以实现上述基于自然语言的视频引导方法,所述基于自然语言的视频引导系统可以包括:
获取模块,用于获取关于专业视频中专业知识的知识图谱,确定知识图谱的实体对象;
第一训练模块,用于训练知识图谱中的关系模型,通过所述模型获取训练样本;
第二训练模块,用于通过所述训练样本,训练语音识别模型;
提取模块,用于通过所述语音识别模型从实体对象中提取关键句,得到所述视频的引导标记。
第三方面,本申请还提供了一种电子设备,所述电子设备包括处理器、存储器以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如所述的基于自然语言的视频引导方法的步骤。
第四方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如所述的基于自然语言的视频引导方法的步骤。
本申请提供一种基于自然语言的视频引导方法及系统,该方法包括:获取关于专业视频中专业知识的知识图谱,确定知识图谱的实体对象;训练知识图谱中的关系模型,通过所述模型获取训练样本;通过所述训练样本,训练语音识别模型;通过所述语音识别模型从实体对象中提取关键句,得到所述视频的引导标记,本申请能够通过语音识别模型客观的提取视频中的核心内容以及关键词,帮助学生甄别所需视频。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请的实施例提供的一种基于自然语言的视频引导方法的流程示意图;
图2为本申请的实施例提供的一种基于自然语言的视频引导方法中子步骤的流程示意图;
图3为使用本申请的实施例提供的一种基于自然语言的视频引导方法的应用实例子;
图4为本申请的实施例提供的一种基于自然语言的视频引导系统的结构示意图。
图5为本申请实施例提供的一种电子设备的结构示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
具体的,下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
参阅图1,图1为本申请的实施例提供的一种基于自然语言的视频引导方法的流程示意图;该基于自然语言的视频引导方法包括:
步骤S100、获取关于专业视频中专业知识的知识图谱,确定知识图谱的实体对象。
本申请实施例可以应用于一些具有专业性比较强的视频,例如学习视频。学习视频中一般具有较强的专业性,会出现大量的专业名词,普通的nlp模型(Neural NetworkLanguage Mode,神经网络语言模型)无法满足识别专业词汇。针对一些比较专业的领域,本申请具体实施例可以通过对专业文献的文本分析以获取该领域的知识图谱。
参见图2所示,图2为本申请的实施例提供的一种基于自然语言的视频引导方法中子步骤的流程示意图;所述步骤S100包括:
步骤S101、获取文本数据,所述文本数据包括专业词汇;
利用爬虫技术从网站上,例如百度百科中爬取专业领域的介绍或文献,对于考试专业(如高等数学、化学等),可从历年考试大纲中获取文本数据。
步骤S102、从所述文本数据中筛选出非专业词汇的词条;
将文本数据分为若干批,使用第三方开源工具(例如jieba、thulac等现有的软件工具)进行分词、词性标注以及命名实体识别(仅人名、地名和机构名),筛选出不可能成为专业名词的词条(动词、形容词、被命名实体识别)。
步骤S103、将所述词条做交集,生成专业词典,并根据所述专业词典中的词条,从网站上进行爬取,提取页面内容保存;
这些网站可以是百度百科,或者是去他的一些学习网站。
步骤S104、标注所述专业词典中预选的页面特征,得到分类标准;
人工筛选少量明确的专业名词作为已标注的词条,提取页面内容,提取每一个词条页面的特征,作为后续进行分类的标准。
步骤S105、提取所述专业词典中剩余的词条的页面特征,根据所述分类标准获取词条的相似特征,并通过xgbooSt算法(为一个现有比较成熟的算法,此处不再对该算法进行过多说明)对所述页面特征、相似特征进行分类,得到分类后的实体对象。
具体的,该步骤可以包括如下:
(1)获取爬取的词条标题(即专业词典中剩余的词条的)之间的faSttext词向量预选相似度,得到第一特征值。
其中,faSttext是一个快速文本分类算法。
(2)获取爬取的词条标题的标签列表之间的词向量的余弦相似度平均值,得到第二特征值。
(3)获取爬取的词条标题的基本信息中相同标题的IDF(inver步骤Se documentfrequency,逆文档频率 )值之和,得到第三特征值。
(4)获取爬取的词条标题的基本信息中相同值的个数,得到第四特征值。
(5)将以上第一特征值、第二特征值、第三特征值、第四特征值进行标准化,减少不同量纲之间的影响,并得到页面特征、相似特征。
(6)通过训练xgbooSt算法对页面特征、相似特征进行实体分类,得到分类后的特征。
步骤S200、基于所述实体对象,训练知识图谱中的关系模型,通过所述模型获取训练样本;
所述步骤S200,包括:
步骤S201、获取词嵌入和位置特征嵌入同时表现的文本特征形式。
其中,词嵌入可使用预训练的word2vec词向量模型进行训练,位置特征是某个词与语句中多个(可以为2个)实体的相对距离。
比如句子:泰勒公式是为了研究复杂函数性质时经常使用的近似方法之一,也是函数微分学的一项重要应用内容。
其中“泰勒公式”和“微分学”为2个实体,以“研究”为例,其本身通过词嵌入(WordEmbedding步骤S)转换为dw维度的向量,而x和y分别为其距离“泰勒公式”和“微分学”的距离,通过位置特征分别转换为dx、dy维度的向量,则文本特征为(dw+dx+dy)维度的文本向量,假设句子最大长度为步骤S,则神经网络的输入为(batch_Size,步骤S,dw+dx+dy)的矩阵,其中batch_Size为拥有相同实体的bag种中子实例的个数。
步骤S202、通过卷积层对文本特征形式进行处理,获取卷积操作输出的矩阵C。
具体可以通过公式(1)计算第j次操作对应的结果为Cj
Figure SMS_1
(1);
通过公式(2)计算获得矩阵C;
Figure SMS_2
(2);
其中,W为卷积核的宽度为(滑动窗口),假设长度为d(词向量维度),那么卷积核的大小为w*d的矩阵,步长为1;q为输入层,具体为步骤S*d的矩阵,qj-w+1:j表示第j个输入层。
通过公式(1)进行卷积,当卷积完成后会得到1个维度为(步骤S+w-1)的向量c。为了得到更丰富的特征,本申请可以使用n个卷积核W={W1,W2,.....,Wn},第i个卷积核滑动一次得到的数值为Cij;i、j均为正整数。
最终,通过公式(2)卷积操作完成后会输出一个矩阵C。
步骤S203、将所述矩阵C中的向量Ci按照两个实体划分三部分进行分段最大池化,得到最终输出g。
可以通过公式(3)计算出最终输出g:
Figure SMS_3
(3);
其中,可以把每个卷积核得到的向量ci按两个实体划分为三部分{c1,c2,c3},分段最大池化也就是分别取每个部分的最大值,那么对于每个卷积核得到的向量cim,同时也能得到1个3维的向量Pim,为了便于下一步输入到步骤Softmax层,把n个卷积核经过池化后的向量Pim拼成一个向量,长度为3n。最后用tanh激活函数进行非先行处理,得到最终的输出g。
步骤S204、将池化层得到的输出g,输入到到步骤Softmax层,通过步骤Softmax层处理,得到每个文本特征形式的概率分布。
可以通过公式(4)获取概率分布O:
Figure SMS_4
(4);
其中,r为Dropout正则化的参数,r~bernoulli(p)表示r属于伯努利分布,bi表示神经网络中的偏移量,w’i表示第i个参数矩阵。
在步骤中,把池化层得到的输出g输入到步骤Softmax层,计算属于每种关系的概率值。把池化层的输出g以r的概率随机丢弃,得到的步骤Softmax层的输出O。输出O是关系的概率分布,概率值最大的关系就是句子中的实体对被预测的关系。
步骤S205、选取概率值最大对应的文本特征形式,计算交叉熵损失H。
可以通过公式(5)计算交叉熵损失H:
Figure SMS_5
(5);
其中,H(p,q)表示期望值p、实际值q的交叉熵,i表示正整数,xi表示第i个样本,p(xi)表示xi的期望值、q(xi)表示实际情况下xi概率分布;k表示对应种类样本数量,即文本特征的数量。
步骤S206、通过交叉熵损失函数H训练知识图谱模型,并将所述实体对象输入所述知识图谱模型,以获取知识图谱。
在上述方案中,对于每个实体对,会有很多包含该实体对的句子(qi个),每个句子经过步骤Softmax层都可以得到一个概率分布,进而得到预测的关系标签和概率值。
为了消除错误标注样本的影响,可以从这些句子中仅挑出一个概率值最大的句子和它的预测结果,作为这个实体对的预测结果,用于计算交叉熵损失H,最后用梯度下降法求出梯度,并进行误差反向传播。
步骤S300、通过所述训练样本,训练语音识别模型;
所述步骤S300包括:
步骤S301、从视频中分离出音频,从最小音量、最大时间间隔以及单个音频最小时长三个参数去除音频中的噪音,并将长音频进行有效的切割若干个待识别的短音频,再将普通的wav(最常见的声音文件格式之一)语音信号转换为神经网络需要的二维频谱图像信号。
其中,可以使用ffmpeg从视频中分离出音频。FFmpeg是一套可以用来记录、转换数字音频、视频,并能将其转化为流的开源计算机程序。
此外,本申请实施例中的语音识别模型包括声学模型、隐马尔科夫模型,通过声学模型从步骤S100中得到的知识图谱的实体对象中提取数据,并传输到隐马尔科夫模型进行处理。
步骤S302、将二维频谱图像信号作为深度全卷积神经网络的输入,训练声学模型;
基于KeraS和tenSorflow框架,采用了深度全卷积神经网络,将二维频谱图像信号作为输入,训练该框架的深度全卷积神经网络,得到声学模型。
该模型结构上,借鉴了图像识别中效果最好的网络配置VGG,这种网络模型有着很强的表达能力,可以看到非常长的历史和未来信息,相比RNN在鲁棒性上更出色。在输出端,这种模型可以和CTC(ConnectioniSt temporal claSSification,基于神经网络的时序类分类)方案可以完美结合,以实现整个模型的端到端训练,将声音波形信号直接转录为中文普通话拼音序列。在语音识别系统的声学模型的输出中,往往包含了大量连续重复的符号,因此,利用CTC方案解码,我们将连续相同的符合合并为同一个符号,然后再去除静音分隔标记符,得到最终实际的语音拼音符号序列。
步骤S303、基于训练样本,训练隐马尔科夫模型,并通过维特比算法删掉不可能是答案的路径。
将拼音转汉字转换成隐马尔科夫问题,即含有隐含未知参数的马尔可夫过程。对于该问题而言,状态是输出的每一个汉字,观测是指对应的拼音,翻译的过程其实就是由观测序列求最优的隐藏序列。隐马尔可夫模型由初始状态概率向量π、状态转移概率矩阵A和观测概率矩阵B(也称为发射矩阵)决定。因此,隐马尔可夫模型可以用三元组符号表示,即λ=(π,A,B)。通过极大似然估计法,使用词频代替概率,从而生成隐马尔科夫模型,具体的统计方式如下:
(1)统计初始概率矩阵π。统计初始化概率矩阵,就是找出所有出现在训练样本中的词首的汉字,并统计它们出现在词首的次数,最后根据上述数据算出这些汉字出现在词首的概率,没统计的汉字就认为出现在词首的概率是0,不写入数据库。
需要注意的是,为了防止概率计算的时候因为越算越小导致计算机无法比较,在本申请实施例中,所有的概率都进行了自然对数运算。
(2)获取状态转移概率矩阵A。此处用到的是最简单的一阶隐马尔科夫模型,即认为在一个句子里,每个汉字的出现只和它前面的的一个汉字有关,可以满足大部分情况。统计的过程就是找出字典中每个汉字后面出现的汉字集合,并统计概率。
(3)获取观测概率矩阵B,统计每个汉字对应的拼音以及在日常情况下的使用概率。
其中,维特比算法,隐马尔可夫模型的预测问题,就是在已知隐马尔可夫模型λ和观测序列x的情况下,求使得观测序列条件概率p(I/x)最大的状态序列I;即给定观测序列,求最有可能的状态序列。
该问题可以通过维特比算法解决,该算法的思想是边计算边删掉不可能是答案的路径,在最后剩下的路径中挑选最优路径,因为后续步骤再也不用考虑这些被删掉的路径了,该问题中最优路径即是概率最大的路径。
步骤S304、通过所述声学模型输出拼音信息,通过所述隐马尔科夫模型将所述拼音信息转化为文字信息,反复训练从而得到语音识别模型。
步骤S400、通过所述语音识别模型获取视频中的语音,并转换为文本信息。
步骤S500、从所述文本信息中提取关键句。
具体的,所述步骤S500包括S501-S502。
步骤S501、获取待识别的视频的语音文本进行分词分句,得到处理后的句子;
利用中文分词工具进行分词分句,去停用词,根据词性过滤某些无用的高频词,例如“的、得、地、了、是、个”等虚词。同时,去除疑问句、感叹句等特殊语句。
步骤S502、获取句子之间的相似度,构造有权无向图,权值为相似度,最终获取到概率转移矩阵;
通过句子与句子之间的相似度来判断句子之间的联系,得到句子之间的相似度,具体参见公式(6)。得到相似度后,构造有权无向图,有权无向图的权值为相似度,最终获取到概率转移矩阵。句子间的相似度公式如下,及两个句子单词的交集除以两个句子的长度。
Figure SMS_6
(7);
其中,(S)n表示经过n次迭代的矩阵S,W2为概率转移矩阵,d1为阻尼系数。
通过公式(7)可以初始化1*n的矩阵S,初始值为1/n,代表着每1个句子的关键性。利用迭代计算实现马尔科夫收敛过程,获取最终不在变化的矩阵,通过比较关键性值抽取N个关键句作为摘要。
初始化1*n的矩阵S,代表不同句子的重要程度,初始值为1/n,代表着每1个句子的关键性。利用迭代计算实现马尔科夫收敛过程,获取最终不在变化的矩阵S,通过比较关键性值抽取N个关键句作为摘要。
步骤S600、从所述关键句中获取关键字。
步骤S700、将所关键字、根据所述关键句、所述知识图谱组成视频的引导标记。
所述方法还包括:步骤S800、获取视频的关键字知识点,并与语音时长匹配形成视频的知识点时间序列。
通过将视频中的关键词与知识点时间序列绑定,帮助学生定位所需内容的时间点。
参见图所示,图3为使用本申请的实施例提供的一种基于自然语言的视频引导方法的应用实例子;可以看出,本申请能够通过人工智能的语音识别以及NLP技术,能够客观的提取视频中的核心内容以及关键词,帮助学生甄别所需视频。实现了通过人工智能方式,自动生成视频资源知识图谱、视频摘要以加快学生信息过滤的速度,提高学习效率。同时,将视频中的关键词与时间节点绑定,帮助学生定位所需内容的时间点。
参见图4所示,图4为本申请的实施例提供的一种基于自然语言的视频引导系统的结构示意图。本申请还提供了一种基于自然语言的视频引导系统,其可以实现上述基于自然语言的视频引导方法,所述基于自然语言的视频引导系统可以包括:
命名实体模块301,用于获取专业知识的文本数据,并从所述文本数据中抽取实体对象;
知识图谱模块302,用于根据所述实体对象,获取知识图谱;
语音翻译模块303,用于获取通用的训练集,将所述实体对象与所述训练集作为训练样本,通过所述训练样本训练并获取语音识别模型;
文本信息模块304,用于通过所述语音识别模型获取视频中的语音,并转换为文本信息;
第一主题提取模块305,用于从所述文本信息中提取关键句;
第二主题提取模块306,用于从所述关键句中获取关键字;
引导标记模块307,用于将所关键字、根据所述关键句、所述知识图谱组成视频的引导标记。
各模块实现对应功能的方法与上述基于自然语言的视频引导方法中的描述相同,不再赘述。
本申请还提供了一种电子设备,参见图5所示,图5为本申请实施例提供的一种电子设备的结构示意图。电子设备50可以包括处理器(CPU、GPU、FPGA等)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行上述附图所示的实施方式中的部分或全部处理。在RAM503中,还存储有系统操作所需的各种程序和数据。处理器501、ROM502以及RAM503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本申请的实施方式,上文参考附图描述的方法可以被实现为计算机软件程序。例如,本申请的实施方式包括一种计算机程序产品,其包括有形地包含在及其可读介质上的计算机程序,计算机程序包含用于执行附图中的方法的程序代码。在这样的实施方式中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。
描述于本申请实施方式中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施方式中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,程序被一个或者一个以上的处理器用来执行描述于本申请的基于自然语言的视频引导方法的步骤。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种基于自然语言的视频引导方法,其特征在于,包括:
步骤S100、获取专业知识的文本数据,并从所述文本数据中抽取实体对象;
步骤S200、根据所述实体对象,获取知识图谱;
步骤S300、获取通用的训练集,将所述实体对象与所述训练集作为训练样本,通过所述训练样本训练并获取语音识别模型;
步骤S400、通过所述语音识别模型获取视频中的语音,并转换为文本信息;
步骤S500、从所述文本信息中提取关键句;
步骤S600、从所述关键句中获取关键字;
步骤S700、将所关键字、根据所述关键句、所述知识图谱组成视频的引导标记。
2.根据权利要求1所述的基于自然语言的视频引导方法,其特征在于,所述步骤S100包括:
步骤S101、获取专业知识的文本数据,所述文本数据包括专业词汇;
步骤S102、从所述文本数据中筛选出专业词汇的词条;
步骤S103、将所述词条做交集,生成初始词典,并根据所述初始词典中的词条,从网站上进行爬取,提取页面内容保存,得到专业词典;
步骤S104、标注所述专业词典中预选的页面特征,得到分类标准;
步骤S105、提取所述专业词典中剩余的词条的页面特征,根据所述分类标准获取词条的相似特征,并通过xgbooSt算法对所述页面特征、相似特征进行分类,得到做好分类的实体对象。
3.根据权利要求2所述的基于自然语言的视频引导方法,其特征在于,所述步骤S200,包括:
步骤S201、获取词嵌入和位置特征嵌入同时表现的文本特征形式;
步骤S202、通过卷积层对文本特征形式进行处理,获取卷积操作输出的矩阵C;
步骤S203、将所述矩阵C中的向量Ci按照两个实体划分三部分进行分段最大池化,得到最终输出g;
步骤S204、将池化层得到的输出g,输入到到步骤Softmax层,通过步骤Softmax层处理,得到每个文本特征形式的概率分布;
步骤S205、选取概率值最大对应的文本特征形式,计算交叉熵损失H;
步骤S206、通过交叉熵损失H训练知识图谱模型,并将所述实体对象输入所述知识图谱模型,以获取知识图谱。
4.根据权利要求3所述的基于自然语言的视频引导方法,其特征在于,所述语音识别模型包括声学模型及隐马尔科夫模型;所述步骤S300包括:
步骤S301、从所述训练样本中分离出音频,从最小音量、最大时间间隔以及单个音频最小时长三个参数去除音频中的噪音,并将长音频进行有效的切割若干个待识别的短音频,再将普通的wav语音信号转换为神经网络需要的二维频谱图像信号;
步骤S302、将二维频谱图像信号作为深度全卷积神经网络的输入,训练声学模型;
步骤S303、基于所述训练样本,训练隐马尔科夫模型,并通过维特比算法删掉不可能是答案的路径;
步骤S304、通过所述声学模型输出拼音信息,通过所述隐马尔科夫模型将所述拼音信息转化为文字信息,从而得到语音识别模型。
5.根据权利要求1所述的基于自然语言的视频引导方法,其特征在于,所述步骤S500包括:
步骤S501、获取待识别的视频的语音文本进行分词分句,得到处理后的句子;
步骤S502、通过处理后的句子之间的相似度来判断句子之间的联系,得到句子之间的相似度;
步骤S503、基于概率转移句子,利用迭代计算,得到不再变化的矩阵S,通过比较关键性值抽取N个关键句。
6.根据权利要求5所述的基于自然语言的视频引导方法,其特征在于,所述方法还包括:
所述步骤S502中,得到句子之间的相似度包括:
Figure QLYQS_1
其中,S为文本句子表示句子,V(Si,Sj)代表第i个句子Si与第j个句子Sj相似度,w1为单词,|Si|、|Sj|代表第i、j个句子中的单词数量。
7.根据权利要求1所述的基于自然语言的视频引导方法,其特征在于,所述方法还包括:
步骤S800、获取视频的关键字知识点,并与语音时长匹配形成视频的知识点时间序列。
8.一种基于自然语言的视频引导系统,其特征在于,基于自然语言的视频引导系统可以实现权利要求1-7任一项所述的视频引导方法,所述基于自然语言的视频引导系统可以包括:
命名实体模块,用于获取专业知识的文本数据,并从所述文本数据中抽取实体对象;
知识图谱模块,用于根据所述实体对象,获取知识图谱;
语音翻译模块,用于获取通用的训练集,将所述实体对象与所述训练集作为训练样本,通过所述训练样本训练并获取语音识别模型;
文本信息模块,用于通过所述语音识别模型获取视频中的语音,并转换为文本信息;
第一主题提取模块,用于从所述文本信息中提取关键句;
第二主题提取模块,用于从所述关键句中获取关键字;
引导标记模块,用于将所关键字、根据所述关键句、所述知识图谱组成视频的引导标记。
9.一种电子设备,其特征在于,所述电子设备包括处理器、存储器以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如权利要求1至7中任一项所述的基于自然语言的视频引导方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如权利要求1至7中任一项所述的基于自然语言的视频引导方法的步骤。
CN202310144537.4A 2023-02-21 2023-02-21 基于自然语言的视频引导方法、系统、设备及存储介质 Active CN115878847B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310144537.4A CN115878847B (zh) 2023-02-21 2023-02-21 基于自然语言的视频引导方法、系统、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310144537.4A CN115878847B (zh) 2023-02-21 2023-02-21 基于自然语言的视频引导方法、系统、设备及存储介质

Publications (2)

Publication Number Publication Date
CN115878847A true CN115878847A (zh) 2023-03-31
CN115878847B CN115878847B (zh) 2023-05-12

Family

ID=85761437

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310144537.4A Active CN115878847B (zh) 2023-02-21 2023-02-21 基于自然语言的视频引导方法、系统、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115878847B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116663549A (zh) * 2023-05-18 2023-08-29 海南科技职业大学 一种基于企业档案的数字化管理方法、系统及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106548775A (zh) * 2017-01-10 2017-03-29 上海优同科技有限公司 一种语音识别方法和系统
CN106557460A (zh) * 2015-09-29 2017-04-05 株式会社东芝 从单文档中提取关键词的装置及方法
CN109783693A (zh) * 2019-01-18 2019-05-21 广东小天才科技有限公司 一种视频语义和知识点的确定方法及系统
US20210150224A1 (en) * 2019-11-19 2021-05-20 International Business Machines Corporation Video segmentation based on weighted knowledge graph
CN113192496A (zh) * 2020-01-10 2021-07-30 普天信息技术有限公司 语音识别方法及装置
CN113360675A (zh) * 2021-06-25 2021-09-07 中关村智慧城市产业技术创新战略联盟 一种基于互联网开放世界的知识图谱特定关系补全方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106557460A (zh) * 2015-09-29 2017-04-05 株式会社东芝 从单文档中提取关键词的装置及方法
CN106548775A (zh) * 2017-01-10 2017-03-29 上海优同科技有限公司 一种语音识别方法和系统
CN109783693A (zh) * 2019-01-18 2019-05-21 广东小天才科技有限公司 一种视频语义和知识点的确定方法及系统
US20210150224A1 (en) * 2019-11-19 2021-05-20 International Business Machines Corporation Video segmentation based on weighted knowledge graph
CN113192496A (zh) * 2020-01-10 2021-07-30 普天信息技术有限公司 语音识别方法及装置
CN113360675A (zh) * 2021-06-25 2021-09-07 中关村智慧城市产业技术创新战略联盟 一种基于互联网开放世界的知识图谱特定关系补全方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
D. ZENG等: "Distant supervision for relation extraction via piecewise convolutional neural networks", PROCEEDINGS OF THE 2015 CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116663549A (zh) * 2023-05-18 2023-08-29 海南科技职业大学 一种基于企业档案的数字化管理方法、系统及存储介质
CN116663549B (zh) * 2023-05-18 2024-03-19 海南科技职业大学 一种基于企业档案的数字化管理方法、系统及存储介质

Also Published As

Publication number Publication date
CN115878847B (zh) 2023-05-12

Similar Documents

Publication Publication Date Title
CN113011533B (zh) 文本分类方法、装置、计算机设备和存储介质
CN108363743B (zh) 一种智能问题生成方法、装置和计算机可读存储介质
CN110162771B (zh) 事件触发词的识别方法、装置、电子设备
CN111930929A (zh) 一种文章标题生成方法、装置及计算设备
CN112434164B (zh) 一种兼顾话题发现和情感分析的网络舆情分析方法及系统
CN114048354B (zh) 基于多元表征和度量学习的试题检索方法、装置及介质
CN113268576B (zh) 一种基于深度学习的部门语义信息抽取的方法及装置
CN115495555A (zh) 一种基于深度学习的文献检索方法和系统
US10970488B2 (en) Finding of asymmetric relation between words
CN113282729B (zh) 基于知识图谱的问答方法及装置
CN114756675A (zh) 文本分类方法、相关设备及可读存储介质
CN114328919A (zh) 文本内容分类方法、装置、电子设备及存储介质
CN114417851A (zh) 一种基于关键词加权信息的情感分析方法
CN115878847B (zh) 基于自然语言的视频引导方法、系统、设备及存储介质
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN111159405A (zh) 基于背景知识的讽刺检测方法
CN112632272B (zh) 基于句法分析的微博情感分类方法和系统
CN110674293B (zh) 一种基于语义迁移的文本分类方法
Soleimani et al. Spectral word embedding with negative sampling
CN117151089A (zh) 新词发现方法、装置、设备和介质
Ling Coronavirus public sentiment analysis with BERT deep learning
CN113590768B (zh) 一种文本关联度模型的训练方法及装置、问答方法及装置
CN115359486A (zh) 一种文档图像中自定义信息的确定方法及系统
CN111199154B (zh) 基于容错粗糙集的多义词词表示方法、系统及介质
CN115358227A (zh) 一种基于短语增强的开放域关系联合抽取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant