CN112733660A - 一种视频拆条的方法和装置 - Google Patents

一种视频拆条的方法和装置 Download PDF

Info

Publication number
CN112733660A
CN112733660A CN202011622533.5A CN202011622533A CN112733660A CN 112733660 A CN112733660 A CN 112733660A CN 202011622533 A CN202011622533 A CN 202011622533A CN 112733660 A CN112733660 A CN 112733660A
Authority
CN
China
Prior art keywords
sentence
text
video
unit
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011622533.5A
Other languages
English (en)
Other versions
CN112733660B (zh
Inventor
徐文强
林轩
董嘉文
陈龑豪
张可尊
李警卫
彭业飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ant Shengxin Shanghai Information Technology Co ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202011622533.5A priority Critical patent/CN112733660B/zh
Publication of CN112733660A publication Critical patent/CN112733660A/zh
Application granted granted Critical
Publication of CN112733660B publication Critical patent/CN112733660B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书披露一种视频拆条的方法和装置。所述方法包括:从待拆条的目标视频中提取出音频,并将所述音频转换为对应的文本;提取出所述文本中各句子单元的文本特征;在所述目标视频中确定所述句子单元对应的视频片段,并从所述视频片段中提取出所述句子单元对应的视频特征;基于各句子单元对应的文本特征和视频特征,将所述文本划分为若干文本段落;基于划分后得到的文本段落,将所述目标视频对应拆条为若干视频片段。

Description

一种视频拆条的方法和装置
技术领域
本说明书涉及视频处理技术领域,特别涉及一种视频拆条的方法和装置。
背景技术
视频拆条指的是将完整的一个视频按照特定的需求拆分为多条视频。例如,可以对电影、电视剧等视频进行拆条,以选取出精彩片段。如何提高视频拆条的准确性,成为业内关注的重点。
发明内容
有鉴于此,本说明书提供一种视频拆条的方法和装置。
具体地,本说明书是通过如下技术方案实现的:
一种视频拆条的方法,包括:
从待拆条的目标视频中提取出音频,并将所述音频转换为对应的文本;
提取出所述文本中各句子单元的文本特征;
在所述目标视频中确定所述句子单元对应的视频片段,并从所述视频片段中提取出所述句子单元对应的视频特征;
基于各句子单元对应的文本特征和视频特征,将所述文本划分为若干文本段落;
基于划分后得到的文本段落,将所述目标视频对应拆条为若干视频片段。
一种视频拆条的装置,包括:
文本获取单元,从待拆条的目标视频中提取出音频,并将所述音频转换为对应的文本;
文本特征提取单元,提取出所述文本中各句子单元的文本特征;
视频特征提取单元,在所述目标视频中确定所述句子单元对应的视频片段,并从所述视频片段中提取出所述句子单元对应的视频特征;
段落划分单元,基于各句子单元对应的文本特征和视频特征,将所述文本划分为若干文本段落;
视频拆条单元,基于划分后得到的文本段落,将所述目标视频对应拆条为若干视频片段。
一种视频拆条的装置,包括:
处理器;
用于存储机器可执行指令的存储器;
其中,通过读取并执行所述存储器存储的与视频拆条的逻辑对应的机器可执行指令,所述处理器被促使:
从待拆条的目标视频中提取出音频,并将所述音频转换为对应的文本;
提取出所述文本中各句子单元的文本特征;
在所述目标视频中确定所述句子单元对应的视频片段,并从所述视频片段中提取出所述句子单元对应的视频特征;
基于各句子单元对应的文本特征和视频特征,将所述文本划分为若干文本段落;
基于划分后得到的文本段落,将所述目标视频对应拆条为若干视频片段。
本说明书一个实施例实现了,可以从目标视频中提取得到音频,将该音频转换为文本,然后从文本中确定出若干文本单元,确定该文本单元对应的文本特征和视频特征,基于这些特征将所述文本划分为若干个文本段落,然后基于文本段落将目标视频对应拆条为若干视频片段。
采用上述方法,可以将目标视频转换为文本,基于文本划分的方式对目标视频进行拆条,可以在拆条过程中关注语义,提高拆条的准确度。并且在划分文本时不仅仅分析文本特征,还会分析对应的视频特征,可以综合多个维度来划分文本段落,也可以大大提高拆条的准确性,提升用户使用体验。
附图说明
图1是本说明书一示例性实施例示出的一种视频拆条的方法的流程示意图;
图2是本说明书一示例性实施例示出的一种文本段落的划分方法的流程示意图;
图3是本说明书一示例性实施例示出的一种文本段落划分的示意图;
图4是本说明书一示例性实施例示出的另一种文本段落的划分方法的流程示意图;
图5是本说明书一示例性实施例示出的另一种文本段落划分的示意图;
图6是本说明书一示例性实施例示出的一种分割句识别模型的训练方法的流程示意图;
图7是本说明书一示例性实施例示出的一种模型框架图;
图8是本说明书一示例性实施例示出的一种视频拆条的装置所在电子设备的一硬件结构图;
图9是本说明书一示例性实施例示出的一种视频拆条的装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。
在本说明书使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
生活中,各种电影、电视剧、新闻、广播、游戏、教育等资源都可以视频的形式进行展示共享,视频已成为人们生活中不可或缺的一部分。然而,随着生活节奏的不断加快,人们可能并不想花费过多的时间观看整个视频的内容,而是希望能够通过一些高效的方法快速地获取到视频中的关键信息。在这种背景下,对视频进行拆条的技术应运而生。
视频拆条可以理解为将完整的一个视频按照某种特定的需求拆分为若干个视频片段,比如,可以拆分出若干个精彩片段,这些片段的时长相比于原本完整的视频来说会大大减少,用户可以直接观看这些片段从而获知到所需的信息,而不需要浏览整个视频内容,可以大大提升效率,提高用户的使用体验。
本说明书提供了一种视频拆条的方法和装置,可以从视频转换得到对应的文本,然后获取文本中各个句子单元对应的文本特征和视频特征,根据文本特征和视频特征来划分得到文本段落,然后基于文本段落对视频进行拆条,可以大大提高拆条的准确度。
下面对本说明书提供的一种视频拆条的方法进行说明。
请参见图1,图1为本说明书一示例性实施例示出的一种视频拆条的方法的流程示意图。
所述方法应用于具有存储器、处理器的电子设备,例如服务器或服务器集群中。所述方法包括以下步骤:
步骤102,从待拆条的目标视频中提取出音频,并将所述音频转换为对应的文本。
本实施例中,可以先获取待拆条的目标视频,该目标视频可以是电影、电视剧、广播视频、新闻视频、游戏视频等各种类型的视频,本说明书对视频内容、视频时长均不作特殊限制。
可以从所述目标视频中提取出音频,具体的方法可参照相关技术,本说明书在此不过多说明。然后可以将所述音频转换为对应的文本,例如可以通过ASR(AutomaticSpeech Recognition,自动语音识别技术)将所述语音转换为对应的文本。
并且,由于该文本是从语音转换得到的,那么该文本中的每个字都可以携带与目标视频的播放时刻对应的时间戳。例如,某句子为“你好吗”,那么“你”的时间戳可以为0秒(指的是目标视频播放至0秒的时刻,下同),“好”的时间戳可以为0.1秒,“吗”的时间戳可以为0.2秒。事实上,该例子仅仅是便于理解的示例性说明,在实际应用中时间戳还可以是更加精确的,比如可以得到每个声母、韵母的时间戳,比如对于“你”,可以得到“n”的时间戳、“i”的时间戳。在此基础上可以得到不同精度的时间戳,比如词的时间戳、句子的时间戳、段落的时间戳等等,如句子的时间戳可以是该句子中第一个字的第一个声母或韵母的时间戳,本说明书在此不一一举例。
步骤104,提取出所述文本中各句子单元的文本特征。
本实施例中,可以基于NLP(Natural Language Processing,自然语音处理)技术对所述文本进行分句,得到若干条句子,然后从这些句子中确定出句子单元。每个句子单元中可以包含预设数量的句子,比如可以包含1个句子,也可以包含多个句子。然后可以针对每个句子单元,提取出该句子单元对应的文本特征。
例如,可以直接把句子单元自身作为文本特征。可以将这些文本转换为向量以便后续处理。其中,转换为向量的具体方法可参照相关技术,本实施例对此不作特殊限制。
再例如,也可以从句子单元中提取出关键词,将该关键词作为文本特征。关键词可以是预设的,比如可以根据目标视频的类型、领域来预设,如果目标视频是金融领域的视频,则可以选取金融相关的词作为关键词。类似的,同样可以将关键词转换为向量以进行后续处理。
当然,文本特征也可以是句子结构、句式类型、词性等等,具体可参照相关技术。
值得说明的是,虽然上述步骤中是从文本中确定出句子单元,但在其他实施例中,也可以从目标视频的音频中确定出句子单元,本说明书对此不作特殊限制。
步骤106,在所述目标视频中确定所述句子单元对应的视频片段,并从所述视频片段中提取出所述句子单元对应的视频特征。
本实施例中,可以针对每个句子单元,确定该句子单元在目标视频中对应的视频片段。比如可以根据该句子单元中第一个字的时间戳和最后一个字的时间戳来确定该句子单元对应的播放时间段。然后可以基于该视频片段提取出视频特征,并将该视频特征作为该句子单元对应的视频特征。比如,视频特征可以包括音频特征,也可以包括图像特征,视频特征的具体内容可参照相关技术,本实施例对此不作特殊限制。
步骤108,基于各句子单元对应的文本特征和视频特征,将所述文本划分为若干文本段落。
本实施例中,可以根据句子单元对应的文本特征和视频特征对由目标视频转换而来的文本进行划分。
比如,可以先基于文本特征将语意相近的句子单元进行合并,然后可以基于视频特征对合并后的句子单元进行调整,以提高合并的准确性。可以基于这些合并后的句子单元划分出若干文本段落。
再比如,也可以基于所述文本特征和视频特征计算出综合特征,然后基于综合特征确定各句子单元之间的相似度,然后将相似度较高的文本单元进行合并,以此划分文本段落,本实施例对此不作特殊限制。
类似的,虽然上述步骤中是对目标视频转换而来的文本划分文本段落,但在其他实施例中,当句子单元是由目标视频的音频得到时,也可以采用上述方法对音频划分得到音频段落,以基于划分出的音频段落对目标视频进行拆条。
步骤110,基于划分后得到的文本段落,将所述目标视频对应拆条为若干视频片段。
本实施例中,可以获取每个文本段落对应所述目标视频的播放时间段。例如,可以获取每个文本段落中第一个字的时间戳和最后一个字的时间戳,基于这两个时间戳确定所述文本段落对应的播放时间段。然后可以根据各个文本段落的播放时间段将所述目标视频拆条为若干个视频片段。
由以上描述可以看出,在本说明书的一个实施例中,可以从目标视频中提取得到音频,将该音频转换为文本,然后从文本中确定出若干文本单元,确定该文本单元对应的文本特征和视频特征,基于这些特征将所述文本划分为若干个文本段落,然后基于文本段落将目标视频对应拆条为若干视频片段。
采用上述方法,可以将目标视频转换为文本,基于文本划分的方式对目标视频进行拆条,可以在拆条过程中关注语义,提高拆条的准确度。并且在划分文本时不仅仅分析文本特征,还会分析对应的视频特征,可以综合多个维度来划分文本段落,也可以大大提高拆条的准确性,提升用户使用体验。
下面对本说明书提供的一种文本段落的划分方法进行说明。
本实施例所述方法可以应用在视频拆条的冷启动阶段,在这一阶段中由于视频拆条刚启动,技术人员可能对待拆条的视频类型、该类型视频的特点都不是十分了解,无法积累足够的样本,难以基于模型的方式来划分文本段落,因此可以采用本实施例所示方法来进行视频拆条。当然,本实施例所述方法并非只能用于冷启动阶段,对此不作特殊限制。
请参见图2,图2为本说明书一示例性实施例示出的一种文本段落的划分方法的流程示意图。
所述方法应用于具有存储器、处理器的电子设备,例如服务器或服务器集群中。所述方法包括以下步骤:
步骤202,采用指定大小的滑动窗口按照预设的步长遍历所述文本得到若干句子单元集合,所述句子单元集合按照对应播放时刻的先后顺序排列;
步骤204,针对每个句子单元集合,根据所述句子单元集合中各句子单元的综合特征确定所述句子单元集合的特征;
步骤206,基于所述句子单元集合的特征计算各个句子单元集合与其邻居句子单元集合之间的集合相似度;
步骤208,基于所述集合相似度将所述文本划分为若干文本段落。
下面结合图3对上述过程进行详细说明。
本实施例中,将目标视频的音频转换为文本并分句后,可以得到若干条句子,并且这些句子按照在目标视频中播放时刻从早到晚的顺序排列。下面以句子单元中包括1个句子为例进行描述。
请参见图3,假设文本中包含12个句子,这些句子按照对应播放时刻从早到晚排序,句子1对应的播放时刻最早,句子12对应的播放时刻最晚。可以采用指定大小的滑动窗口按照预设的步长遍历这些句子,得到若干句子单元集合。如图3所示,滑动窗口的大小为可以包含3个句子的固定大小,当然在其他实施例中,滑动窗口的大小也可以是不固定的,对此不作特殊限制。并且,除了可以根据滑动窗口来得到若干句子集合外,也可以根据其他方法得到若干句子集合,比如可以指定句子集合中句子的数量,然后按照该数量将文本均匀地拆分为若干句子集合。
本例中,可以从句子1开始遍历,假设步长为1,图3示意性地示出了滑动3次后得到的句子单元集合:第一次滑动可以得到句子单元集合a,包括句子1、2、3;第二次滑动时可以得到句子单元集合b,包括句子2、3、4。第三次滑动时可以得到句子单元集合c,包括句子3、4、5。可以采用上述方法遍历12个句子,那么一共可以得到10个句子单元集合,最后一个句子单元集合中包含的句子为10、11、12。
可以将这些句子单元集合按照集合中首句的播放时刻从早到晚的顺序排列,然后针对排列后的每个句子单元集合,根据该句子单元集合中各句子单一的综合特征确定句子单元集合的特征。
比如,可以对各句子单元的综合特征进行求和、求平均等得到句子单元集合的特征。
再比如,也可以判断每个句子单元集合中各个句子单元中是否包含关键词,基于关键词的占比来确定句子单元集合的集合特征。其中,关键词可以是预设的,比如可以根据目标视频的类型、领域来确定,如目标视频是金融领域的视频,则可以选取金融相关的关键词。关键词也可以是基于句子单元对应的播放时间段内的图像特征提取得到的,如目标视频的画面中可能会出现文本,比如授课类视频中老师可能会在黑板上写字、企业类视频中可能出现包含文本的幻灯片,那么可以采用OCR(Optical Character Recognition,光学字符识别)技术从这些视频图像帧中识别出文本,基于这些文本来确定关键词。可以基于这些关键词来确定关键词特征,将关键词特征作为句子单元集合的集合特征,比如关键词特征可以是关键词在句子单元集合中的占比、关键词本身、关键词在句子单元集合中数量等等。
当然,也可以结合上述两种方式来综合地确定集合特征,比如可以基于句子的综合特征确定出特征向量,基于关键词确定出关键词的特征向量,然后对这两个特征向量进行求和得到集合特征。或者也可以采取其他方式确定句子单元集合的特征,本实施例对此不作特殊限制。
本实施例中,可以基于句子单元集合的特征计算该句子单元集合与其邻居集合之间的集合相似度,其中,邻居集合可以是一阶邻居集合,也可以是二阶邻居集合或者多阶邻居集合。并且,邻居集合在目标视频中对应的播放时间段可以早于自身集合,也可以晚于自身集合。然后将相似度高的句子单元集合进行合并,依次划分出若干文本段落。
比如,计算出句子单元集合与其邻居集合之间的相似度之后,可以针对每个集合相似度,获取该集合相似度的邻居集合相似度,然后判断该集合相似度和邻居集合相似度之间的差值是否大于阈值,若大于,则从该集合相似度和其邻居集合相似度关联的句子单元集合中确定出分隔句,以该分隔句划分文本段落。其中,关联的句子单元集合指的是计算得到所述集合相似度和其邻居集合相似度的句子集合。仍以图3为例,假设集合相似度为Sab,其邻居集合相似度为Sbc,那么关联句子集合为句子集合a、b和c。
下面以一个例子对上述过程进行说明。
本例中,假设邻居集合为一阶邻居集合,可继续参见图3,句子单元集合a和句子单元集合b之间互为邻居集合。句子单元集合b和句子单元集合c之间也互为邻居集合。
可以计算各个邻居集合之间的相似度。假设计算得到句子单元集合a和句子单元集合b之间的相似度为Sab,句子单元集合b和句子单元集合c之间的相似度为Sbc。可以针对每个集合相似度,判断该集合相似度与其邻居集合相似度之间的差值是否大于阈值。若大于,这从所述集合相似度和其邻居集合相似度对应的句子单元集合中确定出分割句,以基于分割句划分文本段落。
在一个例子中,若当前以集合相似度为Sab为目标进行分析,假设邻居集合相似度为按照播放时间段早晚排列的下一集合相似度,则邻居集合相似度为Sbc,那么可以判断|s1-s2|的差值是否大于阈值,该阈值可以是预设的,若大于,则可以从Sab和Sbc关联的句子单元集合a、b和c中确定出一个分割句。分割句可以是文本段落的结尾句,也可以是起始句,或者也可以是其他位置的句子,对此不作特殊限制。若不大于,则认为句子单元集合a、b和c中不存在分割句。
(1)比如,当分割句为结尾句时,可以将该集合相似度Sab和Sbc之间的交集句子单元集合b中确定出结尾句,结尾句可以是句子单元集合b中的最后一个句子,如图3中的句子4。
(2)再比如,当分割句为起始句时,可以获取集合相似度Sab和Sbc关联的句子单元集合a、b和c中播放时间段排序最后的句子单元集合c,从句子单元集合c中确定出起始句,起始句可以是句子单元集合c中最后一个句子,如图3中的句子5。
在另一个例子中,若当前以集合相似度为Sbc为目标进行分析,假设邻居集合相似度为按照播放时间段早晚排列的上一集合相似度,则邻居集合相似度为Sab,那么可以判断|s1-s2|的差值是否大于阈值,该阈值可以是预设的,若大于,则同样可以从Sab和Sbc关联的句子单元集合a、b和c中确定出一个分割句。
(3)比如,当分割句为结尾句时,可以将该集合相似度Sab和Sbc之间的交集句子单元集合b中确定出结尾句,结尾句可以是句子单元集合b中的最后一个句子,如图3中的句子4。
(4)再比如,当分割句为起始句时,可以获取集合相似度Sab和Sbc关联的句子单元集合a、b和c中播放时间段排序最后的句子单元集合c,从句子单元集合c中确定出起始句,起始句可以是句子单元集合c中最后一个句子,如图3中的句子5。
本例中,若只采用上述方法确定出起始句,则可以将起始句作为文本段落中的第一个句子,以此划分出各个文本段落。比如,假设确定出的起始句为句子5、7和9,那么可以将句子1-4划分为一个文本段落,将句子5-6划分为一个文本段落,将句子7-8划分为一个文本段落,将句子9-12划分为一个文本段落。
若只采用上述方法确定出结尾句,则可以将结尾句作为文本段落中最后一个句子,以此划分出各个文本段落。
当然,也可以采用上述方法同时确定出起始句和结尾句,基于这些起始句和结尾句来综合地划分文本段落。本实施例在此不一一举例。
值得说明的是,上述步骤可以是在滑动窗口每次滑动时计算的,即每滑动一次,将当前的句子单元集合作为目标句子单元集合,然后计算出目标句子单元集合与其邻居句子单元集合之间的相似度,基于该相似度与其邻居集合相似度确定出本次滑动的分割句。上述步骤也可以是采用滑动窗口遍历所述文本得到句子单元集合,并计算出各句子单元集合与其邻居句子单元集合之间的相似度之后,基于这些相似度与其邻居集合相似度一起确定出分隔句,本实施例对此不作特殊限制。
本例中,还可以获取各个集合相似度与其邻居集合相似度之间的差值,基于这些差值来确定所述阈值。比如可以对这些差值从大到小排序,选择排序位置为中间或者靠前的差值作为阈值。
当然,上述例子仅仅是示例性的说明,在其他实施例中邻居集合也可以是目标句子单元集合的多阶邻居集合,本说明书在此不一一举例。
由以上描述可以看出,在本说明书的一个实施例中,可以采用滑动窗口按照预设的步长遍历目标视频转换得到的文本,得到若干句子单元集合,基于这些句子单元集合之间的相似度来划分文本段落,可以提高文本段落划分的准确度,从而提高目标视频拆条的准确度。并且采用上述方法可以解决冷启动阶段样本数据较少,无法构建模型的问题。
下面对本说明书提供的另一种文本段落的划分方法进行说明。
与前述应用在视频拆条冷启动阶段的方法不同,本实施例所述方法可以应用在积累有一定数量样本的阶段,所述数量可以预设。在这一阶段可以基于已积累的训练样本和样本标签训练模型,基于模型来实现文本段落的划分。
请参见图4,图4为本说明书一示例性实施例示出的另一种文本段落的划分方法的流程示意图。
所述方法应用于具有存储器、处理器的电子设备,例如服务器或服务器集群中。所述方法包括以下步骤:
步骤402,将各句子单元对应的文本特征和视频特征输入分割句识别模型,得到所述句子单元的分类结果,所述分类结果包括段落起始句、段落结束句;
步骤404,基于各段落起始句和/或各段落结束句,将所述文本划分为若干文本段落。
本实施例中,可以确定各句子单元的综合特征,综合特征可以是由文本特征、音频特征和图像特征确定的。
其中,文本特征可以是句子单元自身、句子单元中是否存在指定关键词、指定关键词的数量、指定关键词本身。也可以是所述句子单元在目标视频中对应播放时刻的评论信息,如评论的数量、点赞的数量、弹幕的数量等等。
其中,指定关键词可以是针对目标视频所属的类型、领域预设的,也可以是从句子单元对应的播放时间段内的图像中提取出来的,具体可参照前述实施例,在此不再赘述。
音频特征可以是语音停顿时长、声纹信息。也可以是过零率、短时能量等其他特征。
图像特征可以是图像中包含的关键词,也可以是颜色特征、纹理特征、形状特征、空间关系特征等其他特征。
可以把上述综合特征转换为向量,该向量可以包括多个维度,这些维度分别与上述多种特征对应。可以把该向量作为样本特征输入分割句识别模型。该分割句识别模型可以是多分类模型,能够识别出每个句子单元的分类结果。比如,分类结果可以是段落起始句、段落结尾句和段落中间句,可以基于这些分类结果进行划分文本段落。
可参见图5,假设目标视频对应的文本包括句子1-12,句子1和7的识别结果为段落起始句,句子4、9和11的识别结果为段落结尾句,其余未标注的句子识别结果为段落中间句。
在一个例子中,可以仅根据段落起始句来划分文本段落,即将起始句1和7作为文本段落中的第一句,将该文本划分为(1-6)、(7-13)这2个文本段落。
在另一个例子中,可以仅根据段落结尾句来划分文本段落,即将结尾句4、9和11作为文本段落中的最后一句,将该文本划分为(1-4)、(5-9)、(10-11)、(12)这4个文本段落。
在另一个例子中,也可以根据段落起始句和段落结尾句综合地划分文本段落。比如,可以划分得到文本段落(1-4)和(7-9)。而对于两个结尾句包含的句子,如句子9和句子11,可以将句子10作为一个文本段落,也可以认为句子10的内容无效,不将其归入任一文本段落。对于未被起始句和结尾句包含的句子,如句子5和6,同样可以将其归为一个文本段落,或者也可以不将其归入任一文本段落。
由以上描述可以看出,在本说明书的一个实施例中,可以将句子单元对应的文本特征和视频特征输入分割句识别模型,得到句子单元的分类结果,基于该分类结果对文本段落进行划分。采用这种方法可以基于分割句识别模型自动识别出文本中包含的段落起始句、段落结束句,不需要人工划分起始句和结束句,既可以提高效率,也可以提文本段落划分的准确度,使得视频拆条的准确度大大提高。
下面对分割句识别模型的训练过程进行说明。
本实施例中,分割句识别模型可以是单独训练的,其训练样本可以是句子单元的综合特征,样本标签可以是“段落起始句”、“段落结尾句”或“段落中间句”。当然,分割句识别模型也可以是与其他模型联合训练的。下面以联合训练的例子为例进行说明。
请参见图6,图6是本说明书一示例性实施例示出的一种分割句识别模型的训练方法的流程示意图。
所述方法可以应用于具有存储器、处理器的电子设备,例如服务器或服务器集群中,本实施例对此不作特殊限制。
所述方法包括以下步骤:
采用以下步骤进行迭代,直到满足所述分割句识别模型的迭代要求:
步骤602,基于所述分割句识别模型本次迭代的预测结果和所述第一损失函数确定本次迭代的第一损失;
步骤604,基于所述句型识别模型本次迭代的预测结果和所述第二损失函数确定本次迭代的第二损失;
步骤606,基于所述第一损失和所述第二损失确定本次迭代中的总损失;
步骤608,基于所述总损失判断是否迭代完成;
步骤610,若否,则基于所述总损失确定本次迭代中的总梯度;
步骤612,基于所述第一损失函数的权重从所述总损失中确定本次迭代中分割句识别模型的第一梯度,并利用所述第一梯度更新所述分割句识别模型的模型参数;
步骤614,基于所述第二损失函数的权重从所述总损失中确定本次迭代中句型识别模型的第二梯度,并利用所述第二梯度更新所述句型识别模型的模型参数。
下面对上述方法进行详细说明。
本实施例中,分割句识别模型可以是与句型识别模型联合训练的。句型识别模型可以用于识别出个句子的类型,如引起话题句、结束话题句、指定业务领域句子、闲聊句。这两个模型的训练样本可以相同,都可以是句子单元的文本特征。在联合训练中可以基于句型识别模型的损失函数和分割句识别模型的损失函数来确定综合损失函数,并且在综合损失函数中为这两个模型的损失函数分配不同的权重,比如,考虑到本申请实际上想要获得的是分割句识别模型的预测结果,那么可以为分割句识别模型的损失函数分配更大的权重,为句型识别模型的损失函数分配更小的权重。
经过测试发现,采用这样联合训练的方法可以将句型识别模型作为辅助,提高分割句识别模型的性能。并且,在其他实施例中,还可以根据句型识别模型识别出的引起话题句、结束话题句等来确定各文本段落的段落标题。
本实施例中,将分割句识别模型的损失函数记为第一损失函数,将句型识别模型的损失函数记为第二损失函数。可以采用以下迭代训练的方法对分割句识别模型和句型识别模型进行联合训练。
在每次迭代中,可以将句子单元对应的综合特征分别输入分割句识别模型,得到分割句识别模型的预测结果。将句子单元对应的综合特征输入句型识别模型,得到句型识别模型的预测结果。然后可以基于分割句识别模型本次迭代的预测结果和所述第一损失函数确定分割句识别模型本次迭代的第一损失;基于句型识别模型本次迭代的预测结果和所述第二损失函数确定句型识别模型本次迭代的第二损失。上述针对分割句识别模型和句型识别模型的步骤可以并行进行,也可以先后进行,对此不作特殊限制。
然后可以基于所述第一损失和所述第二损失确定本次迭代中的总损失,比如可以对第一损失和第二损失进行求和、加权求和等得到总损失,当然也可以采取其他方法得到总损失。
然后可以基于总损失判断是否迭代完成。比如可以判断总损失是否小于预设的损失阈值,若达到,则确定迭代完成。当然,在其他实施例中也可以采取其他方法判断是否迭代完成,比如判断迭代的次数是否达到次数阈值。
若未迭代完成,则可以基于总损失算出总梯度。计算梯度的方法参照相关技术,在此不一一说明。
本例中,可以根据所述第一损失函数的权重,从所述总损失中确定本次迭代中分割句识别模型的第一梯度,根据所述第二损失函数的权重,从所述总损失中确定本次迭代中分割句识别模型的第二梯度。其中,第一损失函数的权重大于第二损失函数的权重。
可以利用所述第一梯度更新所述分割句识别模型的模型参数;基于所述第二损失函数的权重从所述总损失中确定本次迭代中句型识别模型的第二梯度,并利用所述第二梯度更新所述句型识别模型的模型参数。
至此完成本次迭代。
可以采用上述方法对分割句识别模型进行迭代训练直到满足迭代要求。
值得说明的是,虽然上述实施例中分割句识别模型和句型识别模型是以两个模型来描述,但在其他实施例中,这两个模型也可以是总模型的中的两个任务,即也可以构造出一个总模型,该总模型可以包括段落划分任务和句型识别任务这两个任务。并且该总模型还可以是LSTM(Long Short-Term Memory,长短期记忆人工神经网络)模型。当然,在其他实施例中,该总模型也可以是其他模型,例如transformer模型,本说明书在此不一一举例。
请参见图7,图7示例性地示出了一种模型框架图。图7中可以将句子单元以词向量的形式表示,并且每个句子单元存在多模态的特征,多模态特征可以是文本特征、音频特征和图像特征。可以将句子单元的多模态特征输入模型,该模型可以通过LSTM前向和LSTM后向得到双向语义表示,并基于该双向语义表示得到各句子单元的分类结果。
由以上描述可以看出,在本说明书的一个实施例中,可以采用分割句识别模型和句型迭代模型联合训练,并且基于这两个模型的损失函数来构造总损失函数,且分割句识别模型的损失函数的权重大于句型识别模型的损失函数的权重。采用上述方法可以将句型识别模型作为辅助,使得训练得到的分割句识别模型的性能更优。
在本说明书的一个实施例中,划分得到文本段落之后,还可以确定各文本段落的段落标题。该段落标题可以表征文本段落主要阐述的内容,可以在后续对目标视频进行拆条后,为拆条的得到的各个视频片段添加对应文本段落的段落标题,作为视频片段的标题。
例如,可以对文本进行分句后,将每个句子分别输入话题句识别模型,该话题识别模型可以输出每个句子是话题句或者不是话题句,当然也可以输出是话题句或者不是话题句的概率,基于话题句识别模型的输出结果来确定该句子是否为话题句。其中,该话题句识别模型可以是二分类模型,其训练样本可以是预先收集好的大量的句子,这些句子的标签可以是“是话题句”或“不是话题句”。可以根据目标视频的类型来收集这些用于训练的句子,比如待打点的目标视频是电视剧、电影等影视作品,那么可以主要收集大量的台词;再比如待打点的目标视频为新闻视频、广播视频,那么可以主要收集和新闻、广播有关的句子。
在本说明书的一个实施例中,划分得到文本段落后,基于文本段落对目标视频进行拆条之前,还可以计算确定各文本段落的优先级,并按照优先级从高到低的顺序排序,选取排序靠前的若干个文本段落作为目标文本段落,基于目标文本段落从所述目标视频中拆分出对应的视频片段。
其中,可以通过以下的方法来计算各文本段落的优先级:
在一个例子中,可以将每个文本段落的段落内容和段落标题都转换为对应的向量,然后基于余弦定理计算向量之间的相似度,得到相关性因子,相关性因子的值越高,优先级也越高。
在另一个例子中,也可以计算每个文本段落中无效句的占比因子,若占比因子越大,则优先级越低。其中,可以将文本段落中的每个句子分别与无效字词句进行匹配,若匹配,说明该句子为无效句。
在另一个例子中,也可以获取各文本段落在目标视频中对应的播放时间段,计算时间衰减因子,时间衰减因子的值越高,则优先级越高。一般来说,一个视频中的开头、结尾部分的内容可能是用于暖场、总结,往往不会涉及过多的核心内容,而核心内容往往出现在视频的中间部分。即各文本段落的时间衰减因子沿着播放时间的维度呈高斯分布规律,可以根据视频片段对应的播放时间段,从高斯分布的曲线上确定对应的时间衰减因子。
当然,除上述例子外,也可以采取其他方法确定各文本段落的优先级,或者也可以结合上述多种方法综合确定各文本段落的优先级,比如可以对上述占比因子、相关性因子、时间衰减因子进行求和、加权求和等,确定综合的优先级因子,然后根据优先级因子来确定各文本段落的优先级。
与前述视频拆条的方法的实施例相对应,本说明书还提供了视频拆条的装置的实施例。
本说明书视频拆条的装置的实施例可以应用在服务器上。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在服务器的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图8所示,为本说明书视频拆条的装置所在电子设备的一种硬件结构图,除了图8所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的服务器通常根据该服务器的实际功能,还可以包括其他硬件,对此不再赘述。
图9是本说明书一示例性实施例示出的一种视频拆条的装置的框图。
请参考图9,所述视频拆条的装置可以应用在前述图8所示的服务器中,包括有:文本获取单元910、文本特征提取单元920、视频特征提取单元930、段落划分单元940、标题确定单元950和视频拆条单元960。
其中,文本获取单元910,从待拆条的目标视频中提取出音频,并将所述音频转换为对应的文本;
文本特征提取单元920,提取出所述文本中各句子单元的文本特征;
视频特征提取单元930,在所述目标视频中确定所述句子单元对应的视频片段,并从所述视频片段中提取出所述句子单元对应的视频特征;
段落划分单元940,基于各句子单元对应的文本特征和视频特征,将所述文本划分为若干文本段落;
视频拆条单元960,基于划分后得到的文本段落,将所述目标视频对应拆条为若干视频片段。
可选的,所述段落划分单元940,用于:
基于各句子单元对应的文本特征和视频特征,确定各句子单元的综合特征;
将所述文本划分为若干句子单元集合,每个句子单元集合中包括有若干句子单元;
针对每个句子单元集合,根据所述句子单元集合中各个句子单元的综合特征确定所述句子单元集合的集合特征;
基于所述集合特征计算所述句子单元集合与其邻居句子单元集合之间的集合相似度;
基于所述集合相似度将所述文本划分为若干文本段落。
可选的,所述段落划分单元940在将所述文本划分为若干句子单元集合时,用于:
采用指定大小的滑动窗口按照预设的步长遍历所述文本得到若干句子单元集合,所述句子单元集合按照对应播放时刻从早到晚的顺序排列。
可选的,所述段落划分单元940,用于:
针对每个集合相似度,执行以下操作:
计算所述集合相似度与其邻居集合相似度之间的差值是否大于阈值;
若是,则从所述集合相似度和其邻居集合相似度关联的句子单元集合中确定分割句,以基于所述分割句划分文本段落。
可选的,所述分割句为结尾句,所述段落划分单元940在确定结尾句时,用于:
当所述集合相似度与下一邻居集合相似度之间的差值大于阈值时,获取所述集合相似度与所述下一邻居集合相似度之间的交集句子单元集合;
将所述交集句子单元集合中的最后一句确定为所述结尾句。
可选的,所述分割句为起始句,所述段落划分单元940在确定起始句时,用于:
当所述集合相似度与下一邻居集合相似度之间的差值大于阈值时,获取所述集合相似度与所述下一邻居集合相似度关联的句子集合中播放时间段排序最后的句子单元集合;
将所述排序最后的句子单元集合中的最后一句确定为所述起始句。
可选的,所述段落划分单元940还用于:
若不大于阈值,则确定所述集合相似度与其邻居集合相似度关联的句子集合中不存在所述分割句。
可选的,所述段落划分单元940在确定所述阈值时,用于:
获取各个集合相似度和其邻居集合相似度之间的差值;
基于所述差值确定所述阈值。
可选的,所述句子单元的综合特征中包括关键词,所述段落划分单元940在针对每个句子单元集合,根据所述句子单元集合中各个句子单元的综合特征确定所述句子单元集合的集合特征时,用于:
针对每个句子单元集合,从各句子单元的综合特征中获取关键词;
基于所述关键词确定关键词特征,并将所述关键词特征确定为所述句子单元集合的集合特征。
可选的,所述段落划分单元940在从各句子单元的综合特征中获取关键词时,用于:
从所述句子单元的视频特征中确定关键词;
所述基于所述关键词确定关键词特征,包括:
判断所述句子单元集合中是否存在所述关键词;
若存在,则计算所述关键词在所述句子单元集合中的占比,将所述占比确定为所述关键词特征。
可选的,所述视频拆条单元960,用于:
将各句子单元对应的文本特征和视频特征输入分割句识别模型,得到所述句子单元的分类结果,所述分类结果包括段落起始句、段落结尾句和段落中间句;
基于所述分类结果将所述文本划分为若干文本段落。
可选的,所述分割句识别模型与句型识别模型联合训练,所述分割句识别模型设置有第一损失函数,所述句型识别模型设置有第二损失函数,所述分割句识别模型的训练过程,包括:
采用以下步骤进行迭代直到满足迭代要求:
基于所述分割句识别模型本次迭代的预测结果和所述第一损失函数确定本次迭代的第一损失;
基于所述句型识别模型本次迭代的预测结果和所述第二损失函数确定本次迭代的第二损失;
基于所述第一损失和所述第二损失确定本次迭代中的总损失;
基于所述总损失判断是否迭代完成;
若否,则基于所述总损失确定本次迭代中的总梯度;
基于所述第一损失函数的权重从所述总损失中确定本次迭代中分割句识别模型的第一梯度,并利用所述第一梯度更新所述分割句识别模型的模型参数;
基于所述第二损失函数的权重从所述总损失中确定本次迭代中句型识别模型的第二梯度,并利用所述第二梯度更新所述句型识别模型的模型参数。
可选的,所述第一损失函数的权重大于所述第二损失函数的权重。
可选的,所述句型识别模型用于识别以下一种或多种句型:引起话题句、结束话题句、指定业务领域句子、闲聊句。
可选的,所述段落拆分模型为长短期记忆人工神经网络LSTM模型。
可选的,所述文本特征包括以下一种或多种:
所述句子单元中是否包含指定关键词;
所述句子单元中包指定关键词的数量;
所述句子单元在目标视频中对应播放时刻的评论信息。
可选的,所述视频特征包括音频特征和图像特征,
所述图像特征包括以下一种或多种:图像中包含的文本、指定标识、指定肢体动作;
所述音频特征包括以下一种或多种:语音停顿时长、声纹信息。
可选的,还包括:
标题确定单元950,将所述文本段落输入到标题模型中,得到所述文本段落的段落标题,以将所述段落标题确定为拆分得到的视频片段的片段标题。
可选的,所述视频拆条单元960在基于划分后得到的文本段落,将所述目标视频对应拆条为若干视频片段之前,还用于:
确定划分得到的每个文本段落的优先级;
将各文本段落按照优先级从高到低进行排序,并获取排序靠前的若干个文本段落作为目标文本段落;
基于所述目标文本段落从所述目标视频中拆分出对应的视频片段,作为所述目标视频的拆条结果。
可选的,所述视频拆条单元960在确定划分得到的每个文本段落的优先级时,用于:
计算所述文本段落中的无效句的占比因子;
计算所述文本段落在所述目标视频中对应视频片段的时间衰减因子,所述时间衰减因子沿着目标视频播放时长增加的方向呈高斯分布规律;
基于所述占比因子和所述时间衰减因子确定所述段落的排序等级。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
与前述视频拆条的方法的实施例相对应,本说明书还提供一种视频拆条的装置,该装置包括:处理器以及用于存储机器可执行指令的存储器。其中,处理器和存储器通常借由内部总线相互连接。在其他可能的实现方式中,所述设备还可能包括外部接口,以能够与其他设备或者部件进行通信。
在本实施例中,通过读取并执行所述存储器存储的与视频拆条的逻辑对应的机器可执行指令,所述处理器被促使:
从待拆条的目标视频中提取出音频,并将所述音频转换为对应的文本;
提取出所述文本中各句子单元的文本特征;
在所述目标视频中确定所述句子单元对应的视频片段,并从所述视频片段中提取出所述句子单元对应的视频特征;
基于各句子单元对应的文本特征和视频特征,将所述文本划分为若干文本段落;
基于划分后得到的文本段落,将所述目标视频对应拆条为若干视频片段。
可选的,在基于各句子单元对应的文本特征和视频特征,将所述文本划分为若干文本段落时,所述处理器被促使:
基于各句子单元对应的文本特征和视频特征,确定各句子单元的综合特征;
将所述文本划分为若干句子单元集合,每个句子单元集合中包括有若干句子单元;
针对每个句子单元集合,根据所述句子单元集合中各个句子单元的综合特征确定所述句子单元集合的集合特征;
基于所述集合特征计算所述句子单元集合与其邻居句子单元集合之间的集合相似度;
基于所述集合相似度将所述文本划分为若干文本段落。
可选的,在将所述文本划分为若干句子单元集合时,所述处理器被促使:
采用指定大小的滑动窗口按照预设的步长遍历所述文本得到若干句子单元集合,所述句子单元集合按照对应播放时刻从早到晚的顺序排列。
可选的,在基于所述集合相似度将所述文本划分为若干文本段落时,所述处理器被促使:
针对每个集合相似度,执行以下操作:
计算所述集合相似度与其邻居集合相似度之间的差值是否大于阈值;
若是,则从所述集合相似度和其邻居集合相似度关联的句子单元集合中确定分割句,以基于所述分割句划分文本段落。
可选的,所述分割句为结尾句,在确定结尾句时,所述处理器被促使:
当所述集合相似度与下一邻居集合相似度之间的差值大于阈值时,获取所述集合相似度与所述下一邻居集合相似度之间的交集句子单元集合;
将所述交集句子单元集合中的最后一句确定为所述结尾句。
可选的,所述分割句为起始句,在确定起始句时,所述处理器被促使:
当所述集合相似度与下一邻居集合相似度之间的差值大于阈值时,获取所述集合相似度与所述下一邻居集合相似度关联的句子集合中播放时间段排序最后的句子单元集合;
将所述排序最后的句子单元集合中的最后一句确定为所述起始句。
可选的,所述处理器还被促使:
若不大于阈值,则确定所述集合相似度与其邻居集合相似度关联的句子集合中不存在所述分割句。
可选的,在确定所述阈值时,所述处理器被促使:
获取各个集合相似度和其邻居集合相似度之间的差值;
基于所述差值确定所述阈值。
可选的,所述句子单元的综合特征中包括关键词,在针对每个句子单元集合,根据所述句子单元集合中各个句子单元的综合特征确定所述句子单元集合的集合特征时,所述处理器被促使:
针对每个句子单元集合,从各句子单元的综合特征中获取关键词;
基于所述关键词确定关键词特征,并将所述关键词特征确定为所述句子单元集合的集合特征。
可选的,在从各句子单元的综合特征中获取关键词时,所述处理器被促使:
从所述句子单元的视频特征中确定关键词;
所述基于所述关键词确定关键词特征,包括:
判断所述句子单元集合中是否存在所述关键词;
若存在,则计算所述关键词在所述句子单元集合中的占比,将所述占比确定为所述关键词特征。
可选的,在基于各句子单元对应的文本特征和视频特征,将所述文本划分为若干文本段落时,所述处理器被促使:
将各句子单元对应的文本特征和视频特征输入分割句识别模型,得到所述句子单元的分类结果,所述分类结果包括段落起始句、段落结尾句和段落中间句;
基于所述分类结果将所述文本划分为若干文本段落。
可选的,所述分割句识别模型与句型识别模型联合训练,所述分割句识别模型设置有第一损失函数,所述句型识别模型设置有第二损失函数,所述分割句识别模型的训练过程,包括:
采用以下步骤进行迭代直到满足迭代要求:
基于所述分割句识别模型本次迭代的预测结果和所述第一损失函数确定本次迭代的第一损失;
基于所述句型识别模型本次迭代的预测结果和所述第二损失函数确定本次迭代的第二损失;
基于所述第一损失和所述第二损失确定本次迭代中的总损失;
基于所述总损失判断是否迭代完成;
若否,则基于所述总损失确定本次迭代中的总梯度;
基于所述第一损失函数的权重从所述总损失中确定本次迭代中分割句识别模型的第一梯度,并利用所述第一梯度更新所述分割句识别模型的模型参数;
基于所述第二损失函数的权重从所述总损失中确定本次迭代中句型识别模型的第二梯度,并利用所述第二梯度更新所述句型识别模型的模型参数。
可选的,所述第一损失函数的权重大于所述第二损失函数的权重。
可选的,所述句型识别模型用于识别以下一种或多种句型:引起话题句、结束话题句、指定业务领域句子、闲聊句。
可选的,所述段落拆分模型为长短期记忆人工神经网络LSTM模型。
可选的,所述文本特征包括以下一种或多种:
所述句子单元中是否包含指定关键词;
所述句子单元中包指定关键词的数量;
所述句子单元在目标视频中对应播放时刻的评论信息。
可选的,所述视频特征包括音频特征和图像特征,
所述图像特征包括以下一种或多种:图像中包含的文本、指定标识、指定肢体动作;
所述音频特征包括以下一种或多种:语音停顿时长、声纹信息。
可选的,所述处理器还被促使:
将所述文本段落输入到标题模型中,得到所述文本段落的段落标题,以将所述段落标题确定为拆分得到的视频片段的片段标题。
可选的,在基于划分后得到的文本段落,将所述目标视频对应拆条为若干视频片段之前,所述处理器被促使:
确定划分得到的每个文本段落的优先级;
将各文本段落按照优先级从高到低进行排序,并获取排序靠前的若干个文本段落作为目标文本段落;
基于所述目标文本段落从所述目标视频中拆分出对应的视频片段,作为所述目标视频的拆条结果。
可选的,在确定划分得到的每个文本段落的优先级时,所述处理器被促使:
计算所述文本段落中的无效句的占比因子;
计算所述文本段落在所述目标视频中对应视频片段的时间衰减因子,所述时间衰减因子沿着目标视频播放时长增加的方向呈高斯分布规律;
基于所述占比因子和所述时间衰减因子确定所述段落的排序等级。
与前述视频拆条的方法的实施例相对应,本说明书还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现以下步骤:
从待拆条的目标视频中提取出音频,并将所述音频转换为对应的文本;
提取出所述文本中各句子单元的文本特征;
在所述目标视频中确定所述句子单元对应的视频片段,并从所述视频片段中提取出所述句子单元对应的视频特征;
基于各句子单元对应的文本特征和视频特征,将所述文本划分为若干文本段落;
基于划分后得到的文本段落,将所述目标视频对应拆条为若干视频片段。
可选的,所述基于各句子单元对应的文本特征和视频特征,将所述文本划分为若干文本段落,包括:
基于各句子单元对应的文本特征和视频特征,确定各句子单元的综合特征;
将所述文本划分为若干句子单元集合,每个句子单元集合中包括有若干句子单元;
针对每个句子单元集合,根据所述句子单元集合中各个句子单元的综合特征确定所述句子单元集合的集合特征;
基于所述集合特征计算所述句子单元集合与其邻居句子单元集合之间的集合相似度;
基于所述集合相似度将所述文本划分为若干文本段落。
可选的,所述所述将所述文本划分为若干句子单元集合,包括:
采用指定大小的滑动窗口按照预设的步长遍历所述文本得到若干句子单元集合,所述句子单元集合按照对应播放时刻从早到晚的顺序排列。
可选的,所述基于所述集合相似度将所述文本划分为若干文本段落,包括:
针对每个集合相似度,执行以下操作:
计算所述集合相似度与其邻居集合相似度之间的差值是否大于阈值;
若是,则从所述集合相似度和其邻居集合相似度关联的句子单元集合中确定分割句,以基于所述分割句划分文本段落。
可选的,所述分割句为结尾句,所述结尾句的确定方法,包括:
当所述集合相似度与下一邻居集合相似度之间的差值大于阈值时,获取所述集合相似度与所述下一邻居集合相似度之间的交集句子单元集合;
将所述交集句子单元集合中的最后一句确定为所述结尾句。
可选的,所述分割句为起始句,所述起始句的确定方法,包括:
当所述集合相似度与下一邻居集合相似度之间的差值大于阈值时,获取所述集合相似度与所述下一邻居集合相似度关联的句子集合中播放时间段排序最后的句子单元集合;
将所述排序最后的句子单元集合中的最后一句确定为所述起始句。
可选的,还包括:
若不大于阈值,则确定所述集合相似度与其邻居集合相似度关联的句子集合中不存在所述分割句。
可选的,所述阈值的确定过程,包括:
获取各个集合相似度和其邻居集合相似度之间的差值;
基于所述差值确定所述阈值。
可选的,所述句子单元的综合特征中包括关键词,所述针对每个句子单元集合,根据所述句子单元集合中各个句子单元的综合特征确定所述句子单元集合的集合特征,包括:
针对每个句子单元集合,从各句子单元的综合特征中获取关键词;
基于所述关键词确定关键词特征,并将所述关键词特征确定为所述句子单元集合的集合特征。
可选的,所述从各句子单元的综合特征中获取关键词,包括:
从所述句子单元的视频特征中确定关键词;
所述基于所述关键词确定关键词特征,包括:
判断所述句子单元集合中是否存在所述关键词;
若存在,则计算所述关键词在所述句子单元集合中的占比,将所述占比确定为所述关键词特征。
可选的,所述基于各句子单元对应的文本特征和视频特征,将所述文本划分为若干文本段落,包括:
将各句子单元对应的文本特征和视频特征输入分割句识别模型,得到所述句子单元的分类结果,所述分类结果包括段落起始句、段落结尾句和段落中间句;
基于所述分类结果将所述文本划分为若干文本段落。
可选的,所述分割句识别模型与句型识别模型联合训练,所述分割句识别模型设置有第一损失函数,所述句型识别模型设置有第二损失函数,所述分割句识别模型的训练过程,包括:
采用以下步骤进行迭代直到满足迭代要求:
基于所述分割句识别模型本次迭代的预测结果和所述第一损失函数确定本次迭代的第一损失;
基于所述句型识别模型本次迭代的预测结果和所述第二损失函数确定本次迭代的第二损失;
基于所述第一损失和所述第二损失确定本次迭代中的总损失;
基于所述总损失判断是否迭代完成;
若否,则基于所述总损失确定本次迭代中的总梯度;
基于所述第一损失函数的权重从所述总损失中确定本次迭代中分割句识别模型的第一梯度,并利用所述第一梯度更新所述分割句识别模型的模型参数;
基于所述第二损失函数的权重从所述总损失中确定本次迭代中句型识别模型的第二梯度,并利用所述第二梯度更新所述句型识别模型的模型参数。
可选的,所述第一损失函数的权重大于所述第二损失函数的权重。
可选的,所述句型识别模型用于识别以下一种或多种句型:引起话题句、结束话题句、指定业务领域句子、闲聊句。
可选的,所述段落拆分模型为长短期记忆人工神经网络LSTM模型。
可选的,所述文本特征包括以下一种或多种:
所述句子单元中是否包含指定关键词;
所述句子单元中包指定关键词的数量;
所述句子单元在目标视频中对应播放时刻的评论信息。
可选的,所述视频特征包括音频特征和图像特征,
所述图像特征包括以下一种或多种:图像中包含的文本、指定标识、指定肢体动作;
所述音频特征包括以下一种或多种:语音停顿时长、声纹信息。
可选的,还包括:
将所述文本段落输入到标题模型中,得到所述文本段落的段落标题,以将所述段落标题确定为拆分得到的视频片段的片段标题。
可选的,所述基于划分后得到的文本段落,将所述目标视频对应拆条为若干视频片段之前,还包括:
确定划分得到的每个文本段落的优先级;
将各文本段落按照优先级从高到低进行排序,并获取排序靠前的若干个文本段落作为目标文本段落;
基于所述目标文本段落从所述目标视频中拆分出对应的视频片段,作为所述目标视频的拆条结果。
可选的,所述确定划分得到的每个文本段落的优先级,包括:
计算所述文本段落中的无效句的占比因子;
计算所述文本段落在所述目标视频中对应视频片段的时间衰减因子,所述时间衰减因子沿着目标视频播放时长增加的方向呈高斯分布规律;
基于所述占比因子和所述时间衰减因子确定所述段落的排序等级。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上所述仅为本说明书的较佳实施例而已,并不用以限制本说明书,凡在本说明书的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书保护的范围之内。

Claims (41)

1.一种视频拆条的方法,包括:
从待拆条的目标视频中提取出音频,并将所述音频转换为对应的文本;
提取出所述文本中各句子单元的文本特征;
在所述目标视频中确定所述句子单元对应的视频片段,并从所述视频片段中提取出所述句子单元对应的视频特征;
基于各句子单元对应的文本特征和视频特征,将所述文本划分为若干文本段落;
基于划分后得到的文本段落,将所述目标视频对应拆条为若干视频片段。
2.根据权利要求1所述方法,所述基于各句子单元对应的文本特征和视频特征,将所述文本划分为若干文本段落,包括:
基于各句子单元对应的文本特征和视频特征,确定各句子单元的综合特征;
将所述文本划分为若干句子单元集合,每个句子单元集合中包括有若干句子单元;
针对每个句子单元集合,根据所述句子单元集合中各个句子单元的综合特征确定所述句子单元集合的集合特征;
基于所述集合特征计算所述句子单元集合与其邻居句子单元集合之间的集合相似度;
基于所述集合相似度将所述文本划分为若干文本段落。
3.根据权利要求2所述方法,所述将所述文本划分为若干句子单元集合,包括:
采用指定大小的滑动窗口按照预设的步长遍历所述文本得到若干句子单元集合,所述句子单元集合按照对应播放时刻从早到晚的顺序排列。
4.根据权利要求3所述方法,所述基于所述集合相似度将所述文本划分为若干文本段落,包括:
针对每个集合相似度,执行以下操作:
计算所述集合相似度与其邻居集合相似度之间的差值是否大于阈值;
若是,则从所述集合相似度和其邻居集合相似度关联的句子单元集合中确定分割句,以基于所述分割句划分文本段落。
5.根据权利要求4所述方法,所述分割句为结尾句,所述结尾句的确定方法,包括:
当所述集合相似度与下一邻居集合相似度之间的差值大于阈值时,获取所述集合相似度与所述下一邻居集合相似度之间的交集句子单元集合;
将所述交集句子单元集合中的最后一句确定为所述结尾句。
6.根据权利要求4所述方法,所述分割句为起始句,所述起始句的确定方法,包括:
当所述集合相似度与下一邻居集合相似度之间的差值大于阈值时,获取所述集合相似度与所述下一邻居集合相似度关联的句子集合中播放时间段排序最后的句子单元集合;
将所述排序最后的句子单元集合中的最后一句确定为所述起始句。
7.根据权利要求4所述方法,还包括:
若不大于阈值,则确定所述集合相似度与其邻居集合相似度关联的句子集合中不存在所述分割句。
8.根据权利要求4-7任一项所述方法,所述阈值的确定过程,包括:
获取各个集合相似度和其邻居集合相似度之间的差值;
基于所述差值确定所述阈值。
9.根据权利要求2所述方法,所述句子单元的综合特征中包括关键词,所述针对每个句子单元集合,根据所述句子单元集合中各个句子单元的综合特征确定所述句子单元集合的集合特征,包括:
针对每个句子单元集合,从各句子单元的综合特征中获取关键词;
基于所述关键词确定关键词特征,并将所述关键词特征确定为所述句子单元集合的集合特征。
10.根据权利要求9所述方法,所述从各句子单元的综合特征中获取关键词,包括:
从所述句子单元的视频特征中确定关键词;
所述基于所述关键词确定关键词特征,包括:
判断所述句子单元集合中是否存在所述关键词;
若存在,则计算所述关键词在所述句子单元集合中的占比,将所述占比确定为所述关键词特征。
11.根据权利要求1所述方法,所述基于各句子单元对应的文本特征和视频特征,将所述文本划分为若干文本段落,包括:
将各句子单元对应的文本特征和视频特征输入分割句识别模型,得到所述句子单元的分类结果,所述分类结果包括段落起始句、段落结尾句和段落中间句;
基于所述分类结果将所述文本划分为若干文本段落。
12.根据权利要求11所述方法,所述分割句识别模型与句型识别模型联合训练,所述分割句识别模型设置有第一损失函数,所述句型识别模型设置有第二损失函数,所述分割句识别模型的训练过程,包括:
采用以下步骤进行迭代直到满足迭代要求:
基于所述分割句识别模型本次迭代的预测结果和所述第一损失函数确定本次迭代的第一损失;
基于所述句型识别模型本次迭代的预测结果和所述第二损失函数确定本次迭代的第二损失;
基于所述第一损失和所述第二损失确定本次迭代中的总损失;
基于所述总损失判断是否迭代完成;
若否,则基于所述总损失确定本次迭代中的总梯度;
基于所述第一损失函数的权重从所述总损失中确定本次迭代中分割句识别模型的第一梯度,并利用所述第一梯度更新所述分割句识别模型的模型参数;
基于所述第二损失函数的权重从所述总损失中确定本次迭代中句型识别模型的第二梯度,并利用所述第二梯度更新所述句型识别模型的模型参数。
13.根据权利要求12所述方法,所述第一损失函数的权重大于所述第二损失函数的权重。
14.根据权利要求12所述方法,所述句型识别模型用于识别以下一种或多种句型:引起话题句、结束话题句、指定业务领域句子、闲聊句。
15.根据权利要求11所述方法,所述段落拆分模型为长短期记忆人工神经网络LSTM模型。
16.根据权利要求1所述方法,所述文本特征包括以下一种或多种:
所述句子单元中是否包含指定关键词;
所述句子单元中包指定关键词的数量;
所述句子单元在目标视频中对应播放时刻的评论信息。
17.根据权利要求1所述方法,所述视频特征包括音频特征和图像特征,
所述图像特征包括以下一种或多种:图像中包含的文本、指定标识、指定肢体动作;
所述音频特征包括以下一种或多种:语音停顿时长、声纹信息。
18.根据权利要求1所述方法,还包括:
将所述文本段落输入到标题模型中,得到所述文本段落的段落标题,以将所述段落标题确定为拆分得到的视频片段的片段标题。
19.根据权利要求1所述方法,所述基于划分后得到的文本段落,将所述目标视频对应拆条为若干视频片段之前,还包括:
确定划分得到的每个文本段落的优先级;
将各文本段落按照优先级从高到低进行排序,并获取排序靠前的若干个文本段落作为目标文本段落;
基于所述目标文本段落从所述目标视频中拆分出对应的视频片段,作为所述目标视频的拆条结果。
20.根据权利要求19所述方法,所述确定划分得到的每个文本段落的优先级,包括:
计算所述文本段落中的无效句的占比因子;
计算所述文本段落在所述目标视频中对应视频片段的时间衰减因子,所述时间衰减因子沿着目标视频播放时长增加的方向呈高斯分布规律;
基于所述占比因子和所述时间衰减因子确定所述段落的排序等级。
21.一种视频拆条的装置,包括:
文本获取单元,从待拆条的目标视频中提取出音频,并将所述音频转换为对应的文本;
文本特征提取单元,提取出所述文本中各句子单元的文本特征;
视频特征提取单元,在所述目标视频中确定所述句子单元对应的视频片段,并从所述视频片段中提取出所述句子单元对应的视频特征;
段落划分单元,基于各句子单元对应的文本特征和视频特征,将所述文本划分为若干文本段落;
视频拆条单元,基于划分后得到的文本段落,将所述目标视频对应拆条为若干视频片段。
22.根据权利要求21所述装置,所述段落划分单元,用于:
基于各句子单元对应的文本特征和视频特征,确定各句子单元的综合特征;
将所述文本划分为若干句子单元集合,每个句子单元集合中包括有若干句子单元;
针对每个句子单元集合,根据所述句子单元集合中各个句子单元的综合特征确定所述句子单元集合的集合特征;
基于所述集合特征计算所述句子单元集合与其邻居句子单元集合之间的集合相似度;
基于所述集合相似度将所述文本划分为若干文本段落。
23.根据权利要求22所述装置,所述段落划分单元在将所述文本划分为若干句子单元集合时,用于:
采用指定大小的滑动窗口按照预设的步长遍历所述文本得到若干句子单元集合,所述句子单元集合按照对应播放时刻从早到晚的顺序排列。
24.根据权利要求23所述装置,所述段落划分单元,用于:
针对每个集合相似度,执行以下操作:
计算所述集合相似度与其邻居集合相似度之间的差值是否大于阈值;
若是,则从所述集合相似度和其邻居集合相似度关联的句子单元集合中确定分割句,以基于所述分割句划分文本段落。
25.根据权利要求24所述装置,所述分割句为结尾句,所述段落划分单元在确定结尾句时,用于:
当所述集合相似度与下一邻居集合相似度之间的差值大于阈值时,获取所述集合相似度与所述下一邻居集合相似度之间的交集句子单元集合;
将所述交集句子单元集合中的最后一句确定为所述结尾句。
26.根据权利要求24所述装置,所述分割句为起始句,所述段落划分单元在确定起始句时,用于:
当所述集合相似度与下一邻居集合相似度之间的差值大于阈值时,获取所述集合相似度与所述下一邻居集合相似度关联的句子集合中播放时间段排序最后的句子单元集合;
将所述排序最后的句子单元集合中的最后一句确定为所述起始句。
27.根据权利要求24所述装置,所述段落划分单元还用于:
若不大于阈值,则确定所述集合相似度与其邻居集合相似度关联的句子集合中不存在所述分割句。
28.根据权利要求24-27任一项所述装置,所述段落划分单元在确定所述阈值时,用于:
获取各个集合相似度和其邻居集合相似度之间的差值;
基于所述差值确定所述阈值。
29.根据权利要求22所述装置,所述句子单元的综合特征中包括关键词,所述段落划分单元在针对每个句子单元集合,根据所述句子单元集合中各个句子单元的综合特征确定所述句子单元集合的集合特征时,用于:
针对每个句子单元集合,从各句子单元的综合特征中获取关键词;
基于所述关键词确定关键词特征,并将所述关键词特征确定为所述句子单元集合的集合特征。
30.根据权利要求29所述装置,所述段落划分单元在从各句子单元的综合特征中获取关键词时,用于:
从所述句子单元的视频特征中确定关键词;
所述基于所述关键词确定关键词特征,包括:
判断所述句子单元集合中是否存在所述关键词;
若存在,则计算所述关键词在所述句子单元集合中的占比,将所述占比确定为所述关键词特征。
31.根据权利要求21所述装置,所述视频拆条单元,用于:
将各句子单元对应的文本特征和视频特征输入分割句识别模型,得到所述句子单元的分类结果,所述分类结果包括段落起始句、段落结尾句和段落中间句;
基于所述分类结果将所述文本划分为若干文本段落。
32.根据权利要求31所述装置,所述分割句识别模型与句型识别模型联合训练,所述分割句识别模型设置有第一损失函数,所述句型识别模型设置有第二损失函数,所述分割句识别模型的训练过程,包括:
采用以下步骤进行迭代直到满足迭代要求:
基于所述分割句识别模型本次迭代的预测结果和所述第一损失函数确定本次迭代的第一损失;
基于所述句型识别模型本次迭代的预测结果和所述第二损失函数确定本次迭代的第二损失;
基于所述第一损失和所述第二损失确定本次迭代中的总损失;
基于所述总损失判断是否迭代完成;
若否,则基于所述总损失确定本次迭代中的总梯度;
基于所述第一损失函数的权重从所述总损失中确定本次迭代中分割句识别模型的第一梯度,并利用所述第一梯度更新所述分割句识别模型的模型参数;
基于所述第二损失函数的权重从所述总损失中确定本次迭代中句型识别模型的第二梯度,并利用所述第二梯度更新所述句型识别模型的模型参数。
33.根据权利要求32所述装置,所述第一损失函数的权重大于所述第二损失函数的权重。
34.根据权利要求32所述装置,所述句型识别模型用于识别以下一种或多种句型:引起话题句、结束话题句、指定业务领域句子、闲聊句。
35.根据权利要求31所述装置,所述段落拆分模型为长短期记忆人工神经网络LSTM模型。
36.根据权利要求21所述装置,所述文本特征包括以下一种或多种:
所述句子单元中是否包含指定关键词;
所述句子单元中包指定关键词的数量;
所述句子单元在目标视频中对应播放时刻的评论信息。
37.根据权利要求21所述装置,所述视频特征包括音频特征和图像特征,
所述图像特征包括以下一种或多种:图像中包含的文本、指定标识、指定肢体动作;
所述音频特征包括以下一种或多种:语音停顿时长、声纹信息。
38.根据权利要求21所述装置,还包括:
标题确定单元,将所述文本段落输入到标题模型中,得到所述文本段落的段落标题,以将所述段落标题确定为拆分得到的视频片段的片段标题。
39.根据权利要求21所述装置,所述视频拆条单元在基于划分后得到的文本段落,将所述目标视频对应拆条为若干视频片段之前,还用于:
确定划分得到的每个文本段落的优先级;
将各文本段落按照优先级从高到低进行排序,并获取排序靠前的若干个文本段落作为目标文本段落;
基于所述目标文本段落从所述目标视频中拆分出对应的视频片段,作为所述目标视频的拆条结果。
40.根据权利要求39所述装置,所述视频拆条单元在确定划分得到的每个文本段落的优先级时,用于:
计算所述文本段落中的无效句的占比因子;
计算所述文本段落在所述目标视频中对应视频片段的时间衰减因子,所述时间衰减因子沿着目标视频播放时长增加的方向呈高斯分布规律;
基于所述占比因子和所述时间衰减因子确定所述段落的排序等级。
41.一种视频拆条的装置,包括:
处理器;
用于存储机器可执行指令的存储器;
其中,通过读取并执行所述存储器存储的与视频拆条的逻辑对应的机器可执行指令,所述处理器被促使:
从待拆条的目标视频中提取出音频,并将所述音频转换为对应的文本;
提取出所述文本中各句子单元的文本特征;
在所述目标视频中确定所述句子单元对应的视频片段,并从所述视频片段中提取出所述句子单元对应的视频特征;
基于各句子单元对应的文本特征和视频特征,将所述文本划分为若干文本段落;
基于划分后得到的文本段落,将所述目标视频对应拆条为若干视频片段。
CN202011622533.5A 2020-12-31 2020-12-31 一种视频拆条的方法和装置 Active CN112733660B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011622533.5A CN112733660B (zh) 2020-12-31 2020-12-31 一种视频拆条的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011622533.5A CN112733660B (zh) 2020-12-31 2020-12-31 一种视频拆条的方法和装置

Publications (2)

Publication Number Publication Date
CN112733660A true CN112733660A (zh) 2021-04-30
CN112733660B CN112733660B (zh) 2022-05-27

Family

ID=75609031

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011622533.5A Active CN112733660B (zh) 2020-12-31 2020-12-31 一种视频拆条的方法和装置

Country Status (1)

Country Link
CN (1) CN112733660B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113453065A (zh) * 2021-07-01 2021-09-28 深圳市中科网威科技有限公司 一种基于深度学习的视频分段方法、系统、终端及介质
CN113572977A (zh) * 2021-07-06 2021-10-29 上海哔哩哔哩科技有限公司 视频制作方法及装置
CN113987264A (zh) * 2021-10-28 2022-01-28 北京中科闻歌科技股份有限公司 视频摘要生成方法、装置、设备、系统及介质
CN113992944A (zh) * 2021-10-28 2022-01-28 北京中科闻歌科技股份有限公司 视频编目方法、装置、设备、系统及介质
CN114051154A (zh) * 2021-11-05 2022-02-15 新华智云科技有限公司 一种新闻视频拆条方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015150634A1 (en) * 2014-04-04 2015-10-08 Nokia Corporation Method and apparatus for processing a video file
CN107305541A (zh) * 2016-04-20 2017-10-31 科大讯飞股份有限公司 语音识别文本分段方法及装置
CN109241526A (zh) * 2018-08-22 2019-01-18 北京慕华信息科技有限公司 一种段落分割方法和装置
CN110881115A (zh) * 2019-12-24 2020-03-13 新华智云科技有限公司 会议视频的拆条方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015150634A1 (en) * 2014-04-04 2015-10-08 Nokia Corporation Method and apparatus for processing a video file
CN107305541A (zh) * 2016-04-20 2017-10-31 科大讯飞股份有限公司 语音识别文本分段方法及装置
CN109241526A (zh) * 2018-08-22 2019-01-18 北京慕华信息科技有限公司 一种段落分割方法和装置
CN110881115A (zh) * 2019-12-24 2020-03-13 新华智云科技有限公司 会议视频的拆条方法及系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113453065A (zh) * 2021-07-01 2021-09-28 深圳市中科网威科技有限公司 一种基于深度学习的视频分段方法、系统、终端及介质
CN113572977A (zh) * 2021-07-06 2021-10-29 上海哔哩哔哩科技有限公司 视频制作方法及装置
CN113572977B (zh) * 2021-07-06 2024-02-27 上海哔哩哔哩科技有限公司 视频制作方法及装置
CN113987264A (zh) * 2021-10-28 2022-01-28 北京中科闻歌科技股份有限公司 视频摘要生成方法、装置、设备、系统及介质
CN113992944A (zh) * 2021-10-28 2022-01-28 北京中科闻歌科技股份有限公司 视频编目方法、装置、设备、系统及介质
CN114051154A (zh) * 2021-11-05 2022-02-15 新华智云科技有限公司 一种新闻视频拆条方法和系统

Also Published As

Publication number Publication date
CN112733660B (zh) 2022-05-27

Similar Documents

Publication Publication Date Title
CN112733660B (zh) 一种视频拆条的方法和装置
CN109117777B (zh) 生成信息的方法和装置
CN108986186B (zh) 文字转化视频的方法和系统
US11776267B2 (en) Intelligent cataloging method for all-media news based on multi-modal information fusion understanding
Snoek et al. Multimedia event-based video indexing using time intervals
Dang et al. RPCA-KFE: Key frame extraction for video using robust principal component analysis
EP2641401B1 (en) Method and system for video summarization
KR20210104571A (ko) 멀티 모달리티를 기반으로 하는 주제 분류 방법, 장치, 기기 및 저장 매체
CN112511854B (zh) 一种直播视频精彩片段生成方法、装置、介质和设备
CN112733654B (zh) 一种视频拆条的方法和装置
CN113613065B (zh) 视频编辑方法、装置、电子设备以及存储介质
CN108419123B (zh) 一种教学视频的虚拟切片方法
CN109871464B (zh) 一种基于ucl语义标引的视频推荐方法与装置
Le et al. NII-HITACHI-UIT at TRECVID 2016.
WO2023197979A1 (zh) 一种数据处理方法、装置、计算机设备及存储介质
CN112989212B (zh) 媒体内容推荐方法、装置和设备及计算机存储介质
CN111783712A (zh) 一种视频处理方法、装置、设备及介质
CN104918060A (zh) 一种视频广告中插点位置的选择方法和装置
Bilkhu et al. Attention is all you need for videos: Self-attention based video summarization using universal transformers
CN107122393B (zh) 电子相册生成方法以及装置
CN111488813A (zh) 视频的情感标注方法、装置、电子设备及存储介质
Chen et al. Match cutting: Finding cuts with smooth visual transitions
CN113825012A (zh) 视频数据处理方法和计算机设备
Petersohn Temporal video segmentation
CN115278300A (zh) 视频处理方法、装置、电子设备、存储介质和程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220424

Address after: Room 610, floor 6, No. 618, Wai Road, Huangpu District, Shanghai 200010

Applicant after: Ant Shengxin (Shanghai) Information Technology Co.,Ltd.

Address before: 310000 801-11 section B, 8th floor, 556 Xixi Road, Xihu District, Hangzhou City, Zhejiang Province

Applicant before: Alipay (Hangzhou) Information Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant