CN113453065A - 一种基于深度学习的视频分段方法、系统、终端及介质 - Google Patents

一种基于深度学习的视频分段方法、系统、终端及介质 Download PDF

Info

Publication number
CN113453065A
CN113453065A CN202110748226.XA CN202110748226A CN113453065A CN 113453065 A CN113453065 A CN 113453065A CN 202110748226 A CN202110748226 A CN 202110748226A CN 113453065 A CN113453065 A CN 113453065A
Authority
CN
China
Prior art keywords
text
data
video
segmentation
deep learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110748226.XA
Other languages
English (en)
Inventor
李志雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Zhongke Wangwei Technology Co ltd
Original Assignee
Shenzhen Zhongke Wangwei Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Zhongke Wangwei Technology Co ltd filed Critical Shenzhen Zhongke Wangwei Technology Co ltd
Priority to CN202110748226.XA priority Critical patent/CN113453065A/zh
Publication of CN113453065A publication Critical patent/CN113453065A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习的视频分段方法,包括以下步骤:获取待处理的视频数据,从视频数据中获取音频数据;将所述音频数据转化为文本信息,对文本信息进行预处理和文本向量化,得到词向量;将词向量输入训练好的文本分类模型进行文本分类,输出识别的文本类别;将识别的文本类别与预设的视频分段中的文本类别进行对比;根据符合分段的文本类别对视频数据进行分段。该方法通过将视频中的语音数据转化为文本信息,将文本信息输入文本分类模型中进行预测,输出文本类别,并将输出的文本类别与可视频分段的文本类别进行对比,根据符合分段的文本类别对视频数据进行分段,通过这种方式能快速、准确地对视频分段,提高视频分段的准确性。

Description

一种基于深度学习的视频分段方法、系统、终端及介质
技术领域
本发明涉及视频处理技术领域,具体涉及一种基于深度学习的视频分段方法、系统、终端及介质。
背景技术
随着网络的迅速发展,在线教育成为学生学习知识的重要途径,各种课程中的历程可以记录成不同的资料形态,而要把课程中的历程记录下来最简单的方式就是存储成课程视频。对课程视频进行分析,不仅可以了解教师的教学质量也可以了解学生的学习情况。为了方便观看视频,可以将完整的视频划分为多个分段,便于直接观看感兴趣的分段。
发明内容
针对现有技术中的缺陷,本发明实施例提供一种基于深度学习的视频分段方法及系统,能快速、准确地对视频进行分段。
第一方面,本发明实施例提供的一种基于深度学习的视频分段方法,包括以下步骤:
获取待处理的视频数据,从视频数据中获取音频数据;
将所述音频数据转化为文本信息,对文本信息进行预处理和文本向量化,得到词向量;
将词向量输入训练好的文本分类模型进行文本分类,输出识别的文本类别;
将识别的文本类别与预设的视频分段中的文本类别进行对比;
根据符合分段的文本类别对视频数据进行分段。
可选地,所述对文本信息进行预处理和文本向量化具体包括:
将文本信息进行数据清洗,得到清洗后的文本信息;
将清洗后的文本信息进行分词处理得到文本数据;
将文本数据输入转化模型中转化为分布式表示的词向量。
可选地,所述转化模型为Word2vec模型。
可选地,文本分类模型的训练方法包括:
将词向量分别输入卷积神经网络和分层注意力模型中进行训练,分别得到第一概率预测矩阵和第二概率预测矩阵;
将第一概率预测矩阵和第二概率预测矩阵利用权值进行数据融合,得到融合后的数据;
将融合后的数据输入到全连接层,预测出文本类别。
第二方面,本发明实施例提供的一种基于深度学习的视频分段系统,包括:获取模块、数据预处理模块、文本分类模块、对比模块和分段模块;
所述获取模块用于获取待处理的视频数据,从视频数据中获取音频数据;
所述数据预处理模块用于将所述音频数据转化为文本信息,对文本信息进行预处理和文本向量化,得到词向量;
所述文本分类模块用于将词向量输入训练好的文本分类模型进行文本分类,输出识别的文本类别;
所述对比模块用于将识别的文本类别与预设的视频分段中的文本类别进行对比;
所述分段模块用于根据符合分段的文本类别对视频数据进行分段。
可选地,所述数据预处理模块包括数据清洗单元、分词单元和转化单元,
所述数据清洗单元用于将文本信息进行数据清洗,得到清洗后的文本信息;
所述分词单元用于将清洗后的文本信息进行分词处理得到文本数据;
所述转化单元用于将文本数据输入转化模型中转化为分布式表示的词向量。
可选地,所述转化模型为Word2vec模型。
可选地,所述文本分类模块包括模型训练单元,所述模型训练单元用于将词向量分别输入卷积神经网络和分层注意力模型中进行训练,分别得到第一概率预测矩阵和第二概率预测矩阵;
将第一概率预测矩阵和第二概率预测矩阵利用权值进行数据融合,得到融合后的数据;
将融合后的数据输入到全连接层,预测出文本类别。
第三方面,本发明实施例提供的一种智能终端,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述实施例描述的方法。
第四方面,本发明实施例提供的一种计算机可读存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述实施例描述的方法。
本发明的有益效果:
本发明实施例提供的一种基于深度学习的视频分段方法,通过将视频中的语音数据转化为文本信息,将文本信息输入文本分类模型中进行预测,输出文本类别,并将输出的文本类别与可视频分段的文本类别进行对比,根据符合分段的文本类别对视频数据进行分段,通过这种方式能快速、准确地对视频分段,提高视频分段的准确性。
本发明实施例提供的一种基于深度学习的视频分段系统、终端及介质与基于深度学习的视频分段方法出于相同的发明构思,具有相同的有益效果。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。
图1示出了本发明第一实施例所提供的一种基于深度学习的视频分段方法的流程图;
图2示出了本发明第二实施例所提供的一种基于深度学习的视频分段系统的结构框图;
图3示出了本发明第三实施例所提供的一种智能终端的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。
如图1所示,示出了本发明第一实施例所提供的一种基于深度学习的视频分段方法的流程图,该方法包括以下步骤:
获取待处理的视频数据,从视频数据中获取音频数据。
将所述音频数据转化为文本信息,对文本信息进行预处理和文本向量化,得到词向量。
将词向量输入训练好的文本分类模型进行文本分类,输出识别的文本类别。
将识别的文本类别与预设的视频分段中的文本类别进行对比。
根据符合分段的文本类别对视频数据进行分段。
在本实施例中,将音频数据转化为文本信息,对文本信息进行预处理和文本向量化。其中,对文本信息进行预处理和文本向量化具体包括:将文本信息进行数据清洗,得到清洗后的文本信息;将清洗后的文本信息进行分词处理得到文本数据;将文本数据输入转化模型中转化为分布式表示的词向量。分词采用结巴分词工具对文本进行分词处理得到文本数据,将文本数据构建成专用词典。文本表示的作用是将文本转化为数字向量形式。采用经过预训练的Word2vec模型将文本数据转化为数字向量。通过Word2vec模型将文本数据生成关键词词向量,矩阵的每行表示一个词语,而每一行的长度表示词向量的长度,词向量的维度是训练过程中可以调节的超参数。通过词向量的表示方法不仅数据量更小,而且还保留了文本的上下文信息,有利于神经网络模型来处理。采用深度学习的文本分类方法构建分类器,采用神经网络模型来提取文本特征。
在本实施例中,文本分类模型采用卷积神经网络模型和分层注意力模型构建分类器。卷积神经网络构建特征提取器来学习文本特征,完成文本分类等文本处理任务。分层是运用两个基于注意力机制的Bi-LSTM(或者Bi-GRU)模型从两个方面来学习文本的特征,其中两个方面包括训练文本的词语级和句子级结构,这样模型就可以在词语级和句子级两个层次来学习文本的特征。通过输入词向量,模型下层的词语级编码层和注意力层从词语层次提取文本的特征信息,模型上层部分是将词语之间提取的特征向量作为输入,构建一个句子级编码层和注意力层来提取不同句子之间的特征。
在文本分类中,卷积神经网络构建的特征提取器主要分为卷积层、池化层和全连接层。文本分类模型的训练方法包括:将词向量分别输入卷积神经网络和分层注意力模型中进行训练,分别得到第一概率预测矩阵和第二概率预测矩阵;将第一概率预测矩阵和第二概率预测矩阵利用权值进行数据融合,得到融合后的数据;将融合后的数据输入到全连接层,预测出文本类别。本实施例中采用线性加权的方法将卷积神经网络模型和分层注意力模型进行融合,在训练的过程中通过调节权重大小来提高融合文本分类模型分类的准确性。
本发明实施例提供的一种基于深度学习的视频分段方法,通过将视频中的语音数据转化为文本信息,将文本信息输入文本分类模型中进行预测,输出文本类别,并将输出的文本类别与可视频分段的文本类别进行对比,根据符合分段的文本类别对视频数据进行分段,通过这种方式能快速、准确地对视频分段,提高视频分段的准确性。
在上述的第一实施例中,提供了一种基于深度学习的视频分段方法,与之相对应的,本申请还提供一种基于深度学习的视频分段系统。请参考图2,其为本发明第二实施例提供的一种基于深度学习的视频分段系统的结构框图。由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
第二方面,本发明实施例提供的一种基于深度学习的视频分段系统,包括:获取模块、数据预处理模块、文本分类模块、对比模块和分段模块;
所述获取模块用于获取待处理的视频数据,从视频数据中获取音频数据;
所述数据预处理模块用于将所述音频数据转化为文本信息,对文本信息进行预处理和文本向量化,得到词向量;
所述文本分类模块用于将词向量输入训练好的文本分类模型进行文本分类,输出识别的文本类别;
所述对比模块用于将识别的文本类别与预设的视频分段中的文本类别进行对比;
所述分段模块用于根据符合分段的文本类别对视频数据进行分段。
可选地,所述数据预处理模块包括数据清洗单元、分词单元和转化单元,
所述数据清洗单元用于将文本信息进行数据清洗,得到清洗后的文本信息;
所述分词单元用于将清洗后的文本信息进行分词处理得到文本数据;
所述转化单元用于将文本数据输入转化模型中转化为分布式表示的词向量。
可选地,所述转化模型为Word2vec模型。
可选地,所述文本分类模块包括模型训练单元,所述模型训练单元用于将词向量分别输入卷积神经网络和分层注意力模型中进行训练,分别得到第一概率预测矩阵和第二概率预测矩阵;
将第一概率预测矩阵和第二概率预测矩阵利用权值进行数据融合,得到融合后的数据;
将融合后的数据输入到全连接层,预测出文本类别。
以上,为本发明第二实施例提供的一种基于深度学习的视频分段系统的说明。
本发明提供的一种基于深度学习的视频分段系统与上述基于深度学习的视频分段方法出于相同的发明构思,具有相同的有益效果,此处不再赘述。
如图3所示,示出了本发明第三实施例提供的一种智能终端的结构框图,该终端包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述第一实施例描述的方法。
应当理解,在本发明实施例中,所称处理器可以是中央处理单元(CentralProcessing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
输入设备可以包括触控板、指纹采传感器(用于采集用户的指纹信息和指纹的方向信息)、麦克风等,输出设备可以包括显示器(LCD等)、扬声器等。
该存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如,存储器还可以存储设备类型的信息。
具体实现中,本发明实施例中所描述的处理器、输入设备、输出设备可执行本发明实施例提供的方法实施例所描述的实现方式,也可执行本发明实施例所描述的系统实施例的实现方式,在此不再赘述。
在本发明还提供一种计算机可读存储介质的实施例,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述实施例描述的方法。
所述计算机可读存储介质可以是前述实施例所述的终端的内部存储单元,例如终端的硬盘或内存。所述计算机可读存储介质也可以是所述终端的外部存储设备,例如所述终端上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等。进一步地,所述计算机可读存储介质还可以既包括所述终端的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述终端所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的终端和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露终端和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (10)

1.一种基于深度学习的视频分段方法,其特征在于,包括以下步骤:
获取待处理的视频数据,从视频数据中获取音频数据;
将所述音频数据转化为文本信息,对文本信息进行预处理和文本向量化,得到词向量;
将词向量输入训练好的文本分类模型进行文本分类,输出识别的文本类别;
将识别的文本类别与预设的视频分段中的文本类别进行对比;
根据符合分段的文本类别对视频数据进行分段。
2.如权利要求1所述的基于深度学习的视频分段方法,其特征在于,所述对文本信息进行预处理和文本向量化具体包括:
将文本信息进行数据清洗,得到清洗后的文本信息;
将清洗后的文本信息进行分词处理得到文本数据;
将文本数据输入转化模型中转化为分布式表示的词向量。
3.如权利要求2所述的基于深度学习的视频分段方法,其特征在于,所述转化模型为Word2vec模型。
4.如权利要求1所述的基于深度学习的视频分段方法,其特征在于,文本分类模型的训练方法包括:
将词向量分别输入卷积神经网络和分层注意力模型中进行训练,分别得到第一概率预测矩阵和第二概率预测矩阵;
将第一概率预测矩阵和第二概率预测矩阵利用权值进行数据融合,得到融合后的数据;
将融合后的数据输入到全连接层,预测出文本类别。
5.一种基于深度学习的视频分段系统,其特征在于,包括:获取模块、数据预处理模块、文本分类模块、对比模块和分段模块;
所述获取模块用于获取待处理的视频数据,从视频数据中获取音频数据;
所述数据预处理模块用于将所述音频数据转化为文本信息,对文本信息进行预处理和文本向量化,得到词向量;
所述文本分类模块用于将词向量输入训练好的文本分类模型进行文本分类,输出识别的文本类别;
所述对比模块用于将识别的文本类别与预设的视频分段中的文本类别进行对比;
所述分段模块用于根据符合分段的文本类别对视频数据进行分段。
6.如权利要求5所述的基于深度学习的视频分段系统,其特征在于,所述数据预处理模块包括数据清洗单元、分词单元和转化单元,
所述数据清洗单元用于将文本信息进行数据清洗,得到清洗后的文本信息;
所述分词单元用于将清洗后的文本信息进行分词处理得到文本数据;
所述转化单元用于将文本数据输入转化模型中转化为分布式表示的词向量。
7.如权利要求6所述的基于深度学习的视频分段系统,其特征在于,所述转化模型为Word2vec模型。
8.如权利要求5所述的基于深度学习的视频分段系统,其特征在于,所述文本分类模块包括模型训练单元,所述模型训练单元用于将词向量分别输入卷积神经网络和分层注意力模型中进行训练,分别得到第一概率预测矩阵和第二概率预测矩阵;
将第一概率预测矩阵和第二概率预测矩阵利用权值进行数据融合,得到融合后的数据;
将融合后的数据输入到全连接层,预测出文本类别。
9.一种智能终端,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,其特征在于,所述处理器被配置用于调用所述程序指令,执行如权利要求1-4任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-4任一项所述的方法。
CN202110748226.XA 2021-07-01 2021-07-01 一种基于深度学习的视频分段方法、系统、终端及介质 Pending CN113453065A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110748226.XA CN113453065A (zh) 2021-07-01 2021-07-01 一种基于深度学习的视频分段方法、系统、终端及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110748226.XA CN113453065A (zh) 2021-07-01 2021-07-01 一种基于深度学习的视频分段方法、系统、终端及介质

Publications (1)

Publication Number Publication Date
CN113453065A true CN113453065A (zh) 2021-09-28

Family

ID=77814771

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110748226.XA Pending CN113453065A (zh) 2021-07-01 2021-07-01 一种基于深度学习的视频分段方法、系统、终端及介质

Country Status (1)

Country Link
CN (1) CN113453065A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114222170A (zh) * 2021-12-06 2022-03-22 深圳Tcl新技术有限公司 电视节目推荐方法、装置、计算机设备及存储介质
WO2024091266A1 (en) * 2022-10-25 2024-05-02 Google Llc System and method for generating visual captions

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108664632A (zh) * 2018-05-15 2018-10-16 华南理工大学 一种基于卷积神经网络和注意力机制的文本情感分类算法
US20200185006A1 (en) * 2018-12-06 2020-06-11 Ran Tene System and method for presenting a visual instructional video sequence according to features of the video sequence
US20200195983A1 (en) * 2017-04-26 2020-06-18 Piksel, Inc. Multimedia stream analysis and retrieval
CN111651602A (zh) * 2020-06-03 2020-09-11 中南大学 一种文本分类方法及系统
CN112399269A (zh) * 2020-11-12 2021-02-23 广东小天才科技有限公司 视频分割方法、装置、设备及存储介质
CN112733660A (zh) * 2020-12-31 2021-04-30 支付宝(杭州)信息技术有限公司 一种视频拆条的方法和装置
CN112749299A (zh) * 2019-10-31 2021-05-04 北京国双科技有限公司 确定视频类型的方法、装置、电子设备及可读存储介质
US20210150224A1 (en) * 2019-11-19 2021-05-20 International Business Machines Corporation Video segmentation based on weighted knowledge graph
CN112929744A (zh) * 2021-01-22 2021-06-08 北京百度网讯科技有限公司 用于分割视频剪辑的方法、装置、设备、介质和程序产品

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200195983A1 (en) * 2017-04-26 2020-06-18 Piksel, Inc. Multimedia stream analysis and retrieval
CN108664632A (zh) * 2018-05-15 2018-10-16 华南理工大学 一种基于卷积神经网络和注意力机制的文本情感分类算法
US20200185006A1 (en) * 2018-12-06 2020-06-11 Ran Tene System and method for presenting a visual instructional video sequence according to features of the video sequence
CN112749299A (zh) * 2019-10-31 2021-05-04 北京国双科技有限公司 确定视频类型的方法、装置、电子设备及可读存储介质
US20210150224A1 (en) * 2019-11-19 2021-05-20 International Business Machines Corporation Video segmentation based on weighted knowledge graph
CN111651602A (zh) * 2020-06-03 2020-09-11 中南大学 一种文本分类方法及系统
CN112399269A (zh) * 2020-11-12 2021-02-23 广东小天才科技有限公司 视频分割方法、装置、设备及存储介质
CN112733660A (zh) * 2020-12-31 2021-04-30 支付宝(杭州)信息技术有限公司 一种视频拆条的方法和装置
CN112929744A (zh) * 2021-01-22 2021-06-08 北京百度网讯科技有限公司 用于分割视频剪辑的方法、装置、设备、介质和程序产品

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
BIU嘟: "结巴(jieba)分词", 《博客园,HTTPS://WWW.CNBLOGS.COM/LYQ-BIU/P/9641677.HTML》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114222170A (zh) * 2021-12-06 2022-03-22 深圳Tcl新技术有限公司 电视节目推荐方法、装置、计算机设备及存储介质
WO2024091266A1 (en) * 2022-10-25 2024-05-02 Google Llc System and method for generating visual captions

Similar Documents

Publication Publication Date Title
CN110096570B (zh) 一种应用于智能客服机器人的意图识别方法及装置
CN109409222B (zh) 一种基于移动端的多视角人脸表情识别方法
CN110188202B (zh) 语义关系识别模型的训练方法、装置及终端
CN109471945B (zh) 基于深度学习的医疗文本分类方法、装置及存储介质
KR20180125905A (ko) 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 문장이 속하는 클래스(class)를 분류하는 방법 및 장치
CN110990543A (zh) 智能对话的生成方法、装置、计算机设备及计算机存储介质
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN114511906A (zh) 基于跨模态动态卷积的视频多模态情感识别方法、装置及计算机设备
CN112818861A (zh) 一种基于多模态上下文语义特征的情感分类方法及系统
CN111475622A (zh) 一种文本分类方法、装置、终端及存储介质
CN113453065A (zh) 一种基于深度学习的视频分段方法、系统、终端及介质
CN115237255B (zh) 一种基于眼动和语音的自然图像共指目标定位系统及方法
CN111985243A (zh) 情感模型的训练方法、情感分析方法、装置及存储介质
CN114065848A (zh) 一种基于预训练情感嵌入的中文方面级别情感分类方法
US11250299B2 (en) Learning representations of generalized cross-modal entailment tasks
CN115312033A (zh) 基于人工智能的语音情感识别方法、装置、设备及介质
CN113051887A (zh) 一种公告信息元素抽取方法、系统及装置
CN114694255A (zh) 基于通道注意力与时间卷积网络的句子级唇语识别方法
CN110852071A (zh) 知识点检测方法、装置、设备及可读存储介质
CN112349294B (zh) 语音处理方法及装置、计算机可读介质、电子设备
CN111445545B (zh) 一种文本转贴图方法、装置、存储介质及电子设备
CN115618043B (zh) 文本操作图互检方法及模型训练方法、装置、设备、介质
CN114528373A (zh) 一种基于嵌入的新闻多标签分类方法及装置
CN116306612A (zh) 一种词句生成方法及相关设备
CN113627155A (zh) 一种数据筛选方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination