CN112733654A - 一种视频拆条的方法和装置 - Google Patents

一种视频拆条的方法和装置 Download PDF

Info

Publication number
CN112733654A
CN112733654A CN202011617772.1A CN202011617772A CN112733654A CN 112733654 A CN112733654 A CN 112733654A CN 202011617772 A CN202011617772 A CN 202011617772A CN 112733654 A CN112733654 A CN 112733654A
Authority
CN
China
Prior art keywords
text
topic
paragraph
sentence
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011617772.1A
Other languages
English (en)
Other versions
CN112733654B (zh
Inventor
徐文强
林轩
董嘉文
陈龑豪
张可尊
李警卫
彭业飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ant Shengxin Shanghai Information Technology Co ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202011617772.1A priority Critical patent/CN112733654B/zh
Publication of CN112733654A publication Critical patent/CN112733654A/zh
Application granted granted Critical
Publication of CN112733654B publication Critical patent/CN112733654B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

说明书披露一种视频拆条的方法和装置。一种视频拆条的方法,包括:从待拆条的目标视频中提取出音频,并将所述音频转换为对应的文本;从所述文本中确定出若干条话题句;以各话题句为文本段落的起始句,将所述文本划分为若干文本段落;基于划分后得到的文本段落,将所述目标视频对应拆条为若干视频片段。

Description

一种视频拆条的方法和装置
技术领域
本说明书涉及视频处理技术领域,特别涉及一种视频拆条的方法和装置。
背景技术
视频拆条指的是将完整的一个视频按照特定的需求拆分为多条视频。例如,可以对电影、电视剧等视频进行拆条,以选取出精彩片段。相关技术中,可以基于图像处理技术,通过分析不同帧图像之间的差异进行拆条,然而对于一些画面变化较小的视频,采用这种方法进行拆条准确性较差。
发明内容
有鉴于此,本说明书提供一种视频拆条的方法和装置。
具体地,本说明书是通过如下技术方案实现的:
一种视频拆条的方法,包括:
从待拆条的目标视频中提取出音频,并将所述音频转换为对应的文本;
从所述文本中确定出若干条话题句;
基于确定出的各话题句将所述文本划分为若干文本段落;
基于划分后得到的文本段落,将所述目标视频对应拆条为若干视频片段。
一种视频拆条的装置,包括:
文本获取单元,从待拆条的目标视频中提取出音频,并将所述音频转换为对应的文本;
话题句确定单元,从所述文本中确定出若干条话题句;
文本划分单元,基于确定出的各话题句将所述文本划分为若干文本段落;
视频拆条单元,基于划分后得到的文本段落,将所述目标视频对应拆条为若干视频片段。
一种视频拆条装置,包括:
处理器;
用于存储机器可执行指令的存储器;
其中,通过读取并执行所述存储器存储的与视频拆条逻辑对应的机器可执行指令,所述处理器被促使:
从待拆条的目标视频中提取出音频,并将所述音频转换为对应的文本;
从所述文本中确定出若干条话题句;
基于确定出的各话题句将所述文本划分为若干文本段落;
基于划分后得到的文本段落,将所述目标视频对应拆条为若干视频片段。
本说明书一个实施例实现了,可以从目标视频中提取得到音频,将该音频转换为文本,然后从文本中提取得到若干条话题句,基于话题句将文本划分为若干个文本段落,然后基于文本段落将目标视频对应拆条为若干视频片段。
采用上述方法,可以从视频中提取到文本,并通过话题句来拆分文本,可以将文本拆分为不同话题的若干个段落,从而基于这些不同话题的段落对视频进行拆条,可以大大提高拆条的准确性,并且不会受到视频画面的影响,提升用户使用体验。
附图说明
图1是本说明书一示例性实施例示出的一种视频拆条的方法的流程示意图;
图2是本说明书一示例性实施例示出的另一种视频拆条的方法的流程示意图;
图3是本说明书一示例性实施例示出的一种段落标题的确定方法的流程示意图;
图4是本说明书一示例性实施例示出的一种段落合并的方法的流程示意图;
图5是本说明书一示例性实施例示出的一种视频拆条的装置所在服务器的一硬件结构示意图;
图6是本说明书一示例性实施例示出的一种视频拆条的装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。
在本说明书使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
生活中,各种电影、电视剧、新闻、广播、游戏、教育等资源都可以视频的形式进行展示共享,视频已成为人们生活中不可或缺的一部分。然而,随着生活节奏的不断加快,人们可能并不想花费过多的时间观看整个视频的内容,而是希望能够通过一些高效的方法快速地获取到视频中的关键信息。在这种背景下,对视频进行拆条的技术应运而生。
视频拆条可以理解为将完整的一个视频按照某种特定的需求拆分为若干个视频片段,比如,可以拆分出若干个精彩片段,这些片段的时长相比于原本完整的视频来说会大大减少,用户可以直接观看这些片段从而获知到所需的信息,而不需要浏览整个视频内容,可以大大提升效率,提高用户体验。
相关技术中,可以基于图像处理的方式来对视频进行拆条,可以从视频中提取出若干帧图像,基于这些图像之间的相似度来拆分得到若干视频片段。然而,对于一些视频画面变化较小的视频,比如主播讲解类的直播视频来说,采用这种方法进行拆条往往准确性较差。
本说明书提供了一种视频拆条的方法和装置,可以将视频转换得到对应的文本,然后基于文本划分来对视频进行拆条,不易受视频画面的影响,可以大大提高拆条的准确度。
下面对本说明书提供的一种视频拆条的方法进行说明。
请参见图1,图1为本说明书一示例性实施例示出的一种视频拆条的方法的流程示意图。
所述方法应用于具有存储器、处理器的电子设备,例如服务器或服务器集群中。所述方法包括以下步骤:
步骤102,从待拆条的目标视频中提取出音频,并将所述音频转换为对应的文本。
本实施例中,可以先获取待拆条的目标视频,该目标视频可以是电影、电视剧、广播视频、新闻视频、游戏视频等各种类型的视频,本说明书对视频内容、视频时长均不作特殊限制。
可以从所述目标视频中提取出音频,具体的方法可参照相关技术,本说明书在此不过多说明。然后可以将所述音频转换为对应的文本,例如可以通过ASR(AutomaticSpeech Recognition,自动语音识别技术)将所述语音转换为对应的文本。
并且,由于该文本是从语音转换得到的,那么该文本中的每个字都可以携带与目标视频的播放时刻对应的时间戳。例如,某句子为“你好吗”,那么“你”的时间戳可以为0秒(指的是目标视频播放至0秒的时刻,下同),“好”的时间戳可以为0.1秒,“吗”的时间戳可以为0.2秒。事实上,该例子仅仅是便于理解的示例性说明,在实际应用中时间戳还可以是更加精确的,比如可以得到每个声母、韵母的时间戳,比如对于“你”,可以得到“n”的时间戳、“i”的时间戳。在此基础上可以得到不同精度的时间戳,比如词的时间戳、句子的时间戳、段落的时间戳等等,如句子的时间戳可以是该句子中第一个字的第一个声母或韵母的时间戳,本说明书在此不一一举例。后续可以基于这些时间戳来对目标视频进行拆条。
步骤104,从所述文本中确定出若干条话题句;
步骤106,基于确定出的各话题句将所述文本划分为若干文本段落。
本实施例中,可以将所述文本划分为若干文本段落。
在一个例子中,可以基于NLP(Natural Language Processing,自然语音处理)技术对所述文本进行分句,然后可以基于语义将这些句子划分为若干个文本段落,使得属于同一主题的句子被划分到同一文本段落中。例如,某新闻视频包括主持人开场介绍、新闻1内容、新闻2内容、新闻3内容、主持人总结这5个部分,那么将该新闻视频转换为文本后,可以将该文本划分为对应上述5个部分的5个文本段落。当然,该例子仅仅是示意性的描述,在实际划分文本段落时并不会事先获知目标视频包含哪些主题。
在另一个例子中,也可以从所述文本中确定出若干条话题句,话题句指的是能够引起话题的句子。比如,“让我们来聊一聊今天的新闻”便是一句话题句,可想而知,在说完这句话之后,后边将会主要谈论和“新闻”有关的内容,这一话题句引起的话题就是“新闻”。可以基于话题句来划分文本段落,比如把提取得到的各个话题句作为文本段落的起始句,从而将文本段落划分为若干个文本片段。当然,也可以把话题句作为文本段落中的第二个句子、第三个句子、中间句子等等,本实施例对此不作特殊限制。
步骤108,基于划分后得到的文本段落,将所述目标视频对应拆条为若干视频片段。
本实施例中,可以获取每个文本段落对应所述目标视频的播放时间段。例如,可以获取每个文本段落中第一个字的时间戳和最后一个字的时间戳,基于这两个时间戳确定所述文本段落对应的播放时间段。然后可以根据各个文本段落的播放时间段将所述目标视频拆条为若干个视频片段。
由以上描述可以看出,在本说明书的一个实施例中,可以从目标视频中提取得到音频,将该音频转换为文本,然后从文本中提取得到若干条话题句,基于话题句
将该文本划分为若干个文本段落,然后基于文本段落将目标视频对应拆条为若干视频片段。
采用上述方法,可以从视频中提取到文本,并通过话题句来拆分文本,可以将文本拆分为不同话题的若干个段落,从而基于这些不同话题的段落对视频进行拆条,可以大大提高拆条的准确性,并且不会受到视频画面的影响,提升用户使用体验。
下面对本说明书提供的另一种目标视频的拆条方法进行说明。
请参见图2,图2为本说明书一示例性实施例示出的另一种视频拆条的方法的流程示意图。
所述方法应用于具有存储器、处理器的电子设备,例如服务器或服务器集群中。所述方法包括以下步骤:
步骤202,从待拆条的目标视频中提取出音频,并将所述音频转换为对应的文本。
步骤204,将所述文本输入话题句识别模型,得到所述文本中包含的若干条话题。
本实施例中,可以对步骤202得到的文本进行分句后,将每个句子分别输入话题句识别模型,该话题识别模型可以输出每个句子是话题句或者不是话题句,当然也可以输出是话题句或者不是话题句的概率,基于话题句识别模型的输出结果来确定该句子是否为话题句。其中,该话题句识别模型可以是二分类模型,其训练样本可以是预先收集好的大量的句子,这些句子的标签可以是“是话题句”或“不是话题句”。可以根据目标视频的类型来收集这些用于训练的句子,比如待打点的目标视频是电视剧、电影等影视作品,那么可以主要收集大量的台词;再比如待打点的目标视频为新闻视频、广播视频,那么可以主要收集和新闻、广播有关的句子。
步骤206,将所述话题句与预设的话题句模板进行匹配。
步骤208,过滤不匹配所述话题句模板的话题句。
本实施例中,可以将步骤204中识别得到的话题句分别与话题句模板进行匹配,并过滤不匹配话题句模板的话题句。
其中,话题句模板的形式可以是多样的。比如,话题句模板中可以包含话题词,若某句子中也包含该话题词,那么可以确定该句子匹配话题句模板。话题词比如可以是前述例子中的“新闻”,也可以为其他能够代表一个话题的词,本实施例对此不作特殊限制。当然,该例子仅仅是示例性的,在其他例子中,话题句模板还可以限定句式(如疑问句、陈述句)、句子中字的数量、句子的语法结构(比如主谓结构、动宾结构、动补结构)、句子中包含的话题词的数量等等。
下面以一个例子来介绍本说明书提供的一种话题句模板。该模板中可以包含第一已知模板词和第一未知话题词,其中,第一已知模板词是已经预设好的、固定的,第一已知模板词可以是与第一未知话题词构成某种语法关系后能够引起话题的词。第一未知话题词是未预设的、不固定的,只要第一未知话题词能够与第一已知模板词构成上述指定语法关系即可,例如,话题句模板可以是下面的形式:
话题句模板1:(聊一聊)[xxx];
话题句模板2:(今天的)[xxx](怎么样);
话题句模板3:(怎么看待)[xxx]和[xxx]。
上述话题句模板中,小括号()中的词语为第一已知模板词,中括号[]中的词为第一未知话题词,第一已知模板词已经预设好了,如上述例子中的“聊一聊”、“今天的”、“怎么样”、“怎么看待”。第一未知话题词未预设好,在上述例子中以“xxx”示例性说明,表示第一话题词是未知的,可以是任何类型的话题词,比如“新闻”、“衣服”、“科技”。并且,第一未知话题词可以是名词,也可以是动词、词组、短句等,如“跑步”、“赶飞机”、“双十一购物节”、“占座”,本说明书对此不作特殊限制。
第一已知模板词和第一未知话题词之间存在第一指定语法关系,比如主谓关系、动宾关系、动补关系等。如上述话题句模板1,第一已知模板词和第一未知话题词之间为动宾关系。当然,虽然此处描述了第一已知模板词与第一未知话题词之间的语法关系,但实际在匹配某句子是否匹配话题句模板时,可以分析出该句子的语法关系然后进行匹配,也可以不分析该句子的语法关系直接匹配,本说明书对此不作特殊限制。
其中,一个话题句模板中可以多个第一已知模板词(如前述话题句模板2),也可以包含多个第一未知话题词(如前述话题句模板3)。并且还可以将话题句模板归纳为下面的形式:
话题句模板4:(让我们聊一聊/接下来聊一聊/跟大家讲一讲)(xxx);
话题句模板5:(xxx)的(xxx)/(怎么样/最近怎么样/如何);
话题句模板6:(如何/怎么/怎么样)看待(xxx)和(xxx);
话题句模板7:有(什么/哪些/啥)(比较好/好/不错)的(xxx)。
对于上述话题句模板,可以通过以下的方法来判断某句子是否匹配话题句模板。可以将该句子与每个话题句模板逐一地进行匹配,判断该句子中是否存在所述话题句模板中的第一已知模板词,若存在,则进一步判断是否存在与所述第一已知模板词存在该话题句模板中第一指定语法关系的第一未知话题词,若存在,则确定该句子匹配所述话题句模板。
比如,假设某句子为“接下来让我们聊一聊天气吧”。那么可以将该句子与各个话题句模板进行匹配,当与上述话题句模板1进行匹配时,发现该句子中存在第一已知模板词“聊一聊”,并且在该第一已知模板词之后存在话题词“天气”,且“聊一聊”和“天气”之间的语法关系与话题句模板1中规定的第一指定语法关系相同,那么确定该句子匹配模板1。
当然,上述例子仅仅是示例性的说明,在其他例子中,也可以采取其他方法从文本中提取得到话题句,或者也可以结合上述多种方法来提取得到话题句:比如,可以先将文本输入话题句识别模型,识别出若干条话题句。但此时识别出的话题句可能不够准确,可能会将一些非话题句的句子也识别为话题句,那么还可以将这些话题句与话题句模板进行匹配,过滤不匹配的话题句。然后结合目标视频的评论,判断过滤得到的各话题句对应播放时段内评论的数量是否大于数量阈值,若大于,则确定为话题句;若不大于,则可以过滤这些句子,也可以获取与这些句子存在上下文关系的若干条候选句子,判断候选句子对应播放时间段内的评论数量是否大于阈值,若大于,则将对应的候选句子作为话题句。
步骤210,以过滤后的各话题句为文本段落的起始句,将所述文本划分为若干文本段落。
步骤212,确定各文本段落的段落标题。
本实施例中,还可以确定各文本段落的段落标题,该段落标题可以表征文本段落主要阐述的内容,可以在后续将目标视频拆分为若干个视频片段后,为各视频片段添加对应的段落标题,作为视频片段的标题。
在一个例子中,可以根据整个文本段落包含的文本内容来确定文本段落的标题,比如可以将每个文本段落分别输入标题模型中,得到该文本段落的段落标题。其中,标题模型的训练样本可以是预先收集好的大量的句子,这些句子的标签可以是“是标题”或“不是标题”。同样可以根据待打点的目标视频的类型来搜集这些用于训练的句子,具体可参照前述实施例,在此不再赘述。
在另一个例子中,也可以基于文本段落的话题句来确定段落标题。
比如,可以从话题句中提取出话题词,话题词指的是能够表达一个话题的词语,可以直接将该话题词作为段落标题。
再比如,也可以根据标题模板来确定段落标题。
请参见图3,确定段落标题的方法可以包括以下步骤:
步骤302,从匹配话题句模板的句子中提取话题词;
步骤304,获取所述句子匹配的话题句模板;
步骤306,获取所述话题句模板对应的标题模板,所述标题模板中包括第二已知模板词和第二未知话题词,所述第二已知模板词和所述第二未知话题词存在第二指定语法关系;
步骤308,将所述标题模板中的第二未知话题词确定为从所述句子中提取出的所述话题词,得到所述句子对应文本段落的段落标题。
下面对上述步骤进行详细说明:
如前述实施例所述,话题句模板中可以包括第一已知模板词和第一未知话题词。类似的,标题模板中可以包括第二已知模板词和第二未知话题词。其中,第二已知模板词可以是对第一已知模板词进行概括得到的,比如第一已知模板词可以是“聊一聊”、“让我们来聊聊”、“接下来讲一下”,那么第二已知模板词可以是“聊聊”。标题模板中的第二已知模板词与第二未知话题词存在第二指定语法关系,该第二指定语法关系同样可以是主谓关系、动宾关系、动补关系等。并且,标题模板和话题句模板之间存在对应关系。一个标题模板可以仅对应一个话题句模板,也可以对应多个话题句模板。标题模板中的第一指定语法关系可以与其对应的话题句模板中的第二指定语法关系相同,也可以不同。
比如,对于前述实施例中的话题句模板1,可以存在对应的标题模板a,如下:
话题句模板1:(聊一聊)[xxx];
标题模板a:(聊聊)[xxx]。
其中,标题模板中的“聊聊”为第二已知模板词,“xxx”为第二未知话题词。
再比如,对于前述实施例中的话题句模板2,可以存在对应的标题模板b和标题模板c,如下:
话题句模板2:(今天的)[xxx](怎么样);
标题模板b:(怎么看)[xxx];
标题模板c:(介绍)[xxx]。
当然,也可以把上述标题模板b和标题模板c归纳为下面的形式:
(怎么看/介绍)[xxx]。
在这一例子中,一个话题句模板可以对应多个标题模板。可以根据实际情况从中选择所需的标题模板。
本例中,可以针对每个话题句,确定该话题句匹配的话题句模板,并且基于该话题句模板从该话题句中提取得到话题词,找到与该话题句模板存在对应的关系的标题模板,将从所述话题句中提取出的话题词作为标题模板中的第二未知话题词,得到所述话题句所在文本段落的段落标题。
以上述话题句模板1和标题模板a为例,假设某话题句为“下面让我们聊一聊基金”,可知该话题句中存在话题句模板1中的第一已知模板词“聊一聊”,且该句子中存在话题词“今天的基金”,且该话题词与第一已知模板词之间存在语法关系,这与话题句模板1中第一已知模板词和第一未知话题词之间的第一指定语法关系相同,那么该句子匹配话题句模板1。则从该话题句中提取得到话题词“基金”,然后找到对应的标题模板a,将“基金”确定为标题模板a中的未知第二话题词,得到段落标题为“聊聊基金”。
当然,在其他例子中,也可以采取其他方法来确定各文本段落的标题,或者也可以结合上述多种方法来综合地确定段落标题。比如,一方面,可以先基于标题生成模型得到一些初级标题,另一方面,可以将各文本段落的话题句与标题模板进行匹配,得到另一些初级标题,然后基于这两种初级标题确定出最终的段落标题。
步骤214,对符合合并条件的文本段落进行合并。
本实施例中,划分得到文本段落之后,还可以对划分得到的文本段落进行优化,使得各个文本段落更加准确。
在一个例子中,可以对话题内容接近的文本段落进行合并。请参见图4,合并的方法可以包括以下步骤:
步骤402,确定文本段落的邻居段落;
步骤404,判断所述文本段落与所述邻居段落是否符合合并条件;
步骤406,若是,则将所述文本段落与其邻居段落进行合并。
其中,邻居段落可以是与该文本段落存在上下文关联关系的前N个段落和/或后N个段落,N为预设的大于等于1的整数。可以通过以下的方法判断文本段落和其邻居段落是否符合合并条件:
例如,可以基于相似度来判断是否符合合并条件。可以将所述文本段落与其邻居段落转换为向量,然后采用余弦定理计算得到向量之间的相似度。若相似度大于相似度阈值,则确定该文本段落与其邻居段落符合合并条件;若相似度小于相似度阈值,则确定该文本段落与其邻居段落不符合合并条件。当然,也可以采取其他方法计算相似度,本说明书在此不一一举例。
再例如,也可以基于段落对应的时长来判断是否符合合并条件。考虑到划分出的一些文本段落在目标视频中对应的播放时长可能较短,说明有可能是目标视频在播放某个话题的内容时,中间突然插入了其他话题,导致原本完整的一个话题被拆分为多个文本段落了,那么也可以对这些文本段落进行合并。同时,为了避免合并后的文本段落对应的播放时长过长,还可以设置时长阈值,使得合并后文本段落对应的播放时长可以控制在合理范围内。
可以获取文本段落在目标视频中对应视频片段的第一播放时间、获取邻居段落在目标视频中对应视频片段的第二播放时长,计算所述第一播放时长和所述第二播放时长之和,判断和值是否小于时长阈值,若小于;则确定该文本段落与其邻居段落符合合并条件;若大于,则确定该文本段落与其邻居段落不符合合并条件。
值得说明的是,本处可以是根据文本段落、邻居段落对应的时间戳,确定这些文本段落对应目标视频的视频片段,实际上此步骤中没有对目标视频拆分得到文本段落对应的视频片段、邻居段落对应的视频片段。
在其他例子中,也可以采用其他方法判断是否符合合并条件,或者也可以结合上述两种方法来判断是否符合合并条件,即只有在相似度小于相似度阈值,且时长小于时长阈值的情况下,才确定符合合并条件。
本例中,通过对相似的文本段落合并,可以将主题相似的段落合并在一起,使得相似的主题内容最终可以被划分到同一个视频片段中。
本实施例中,对文本段落与其邻居段落进行合并之后,还需要确定合并得到段落的段落标题。
举例来说,假设某文本段落a存在段落标题1、其邻居段落b存在段落标题2,将该文本段落和邻居段落合并之后,需要确定合并得到段落的标题。
在一个例子中,可以从该文本段落及其邻居段落的原有段落标题中确定合并后段落的标题。
比如,可以将文本段落、邻居段落中文本内容较多的段落的标题,确定为合并后段落的标题。如若文本段落a的文本内容多于文本段落b,那么选择段落标题1作为合并后段落的标题。
再比如,也可以选择准确度更高的段落标题。如,假设上述段落标题1和段落标题2是基于标题模型得到的,该标题模型预测得到段落标题1的分值为0.9、段落标题2的分值为0.7,那么选择段落标题1作为合并后段落的标题。
再比如,还可以基于标题和内容之间的相似度来确定标题。可以将段落标题1、段落标题2、合并后的文本段落均转换为向量,然后计算段落标题1与合并文本段落之间的相似度、计算段落标题2与合并文本段落之间的相似度,选择相似度高的段落标题作为合并后段落的标题。
在另一个例子中,也可以不选择原有的段落标题,而是重新确定一个段落标题。比如,可以把合并得到的文本段落输入标题模型,得到新的段落标题。再比如,也可以识别出合并后得到文本段落的话题句,基于该话题句和标题模板确定新的标题。
步骤216,对各文本段落的结尾部分进行调整。
由于本实施例中是将话题句作为文本段落的起始句来划分各文本段落的,那么每个文本段落中的最后一个句子是被动地基于下一段落的起始句来确定的,这种情况下确定出的最后一个句子实际上并不一定准确。那么可以针对每个文本段落的结尾部分(结尾部分可以包含段落最后的M个句子,M的数量可以预设),判断该结尾部分中是否存在无效句,若存在,则过滤这些无效句,然后基于过滤后的文本段落来重新确定文本段落的最后一个句子,这样可以得到更准确的结尾句,使得最终基于文本段落划分得到的视频片段也更加准确。
例如,可以基于目标视频的内容、类型设置不同的有效关键词和无效关键词,有效关键词可以是与所述内容、类型相关的词,无效关键词可以是与所述内容、类型无关的词,如闲聊相关词、广告相关词、互动相关词等。比如,当目标视频为直播视频,且该直播视频的内容和金融业务有关,那么有效关键词可以为和金融业务有关的关键词,如基金、股票、利息、利润、贷款等;无效关键词可以是主播与用户聊天的词,比如“今天”、“天气”、“心情”,也可以是互动相关词,比如“欢迎”、“你好”、“红包”等。可以判断每个文本段落中是否存在上述有效关键词、无效关键词,若有效关键词的数量达到数量阈值,则确定该段落有效;若无效关键词的数量达到数量阈值,则确定该段落无效。
再例如,也可以将文本段落输入到有效性模型,该有效性模型可以输出该文本段落为有效或者无效。当然也可以输出有效或无效的概率,基于该概率来确定文本段落是否有效。其中,该有效性模型的训练样本可以是预先收集好的大量的句子,这些句子的标签可以是“有效”或“无效”。同样可以根据待打点的目标视频的类型来收集这些用于训练的句子,比如待打点的目标视频是电视剧、电影等影视作品,那么可以主要收集大量的台词;再比如待打点的目标视频为新闻视频、广播视频,那么可以主要收集和新闻、广播有关的句子。
步骤218,确定各文本段落的优先级。
步骤220,基于各文本段落的优先级对目标视频进行拆条。
本实施例中,还可以计算划分得到的各视频片段的优先级。
在一个例子中,可以针对每个视频片段,将对应的文本段落的段落内容和段落标题都转换为对应的向量,然后基于余弦定理计算向量之间的相似度,得到相关性因子,相关性因子的值越高,优先级也越高。
在另一个例子中,也可以计算每个视频片段对应文本段落中,无效句的占比因子,若占比因子越大,则优先级越低。其中,可以将文本段落中的每个句子分别与无效字词句进行匹配,若匹配,说明该句子为无效句。
在另一个例子中,也获取各视频片段在目标视频中对应的播放时间段,计算时间衰减因子,时间衰减因子的值越高,则优先级越高。一般来说,一个视频中的开头、结尾部分的内容可能是用于暖场、总结,往往不会涉及过多的核心内容,而核心内容往往出现在视频的中间部分。即各视频片段的时间衰减因子沿着播放时间的维度呈高斯分布规律,可以根据视频片段对应的播放时间段,从高斯分布的曲线上确定对应的时间衰减因子。
当然,除上述例子外,也可以采取其他方法确定各文本段落的优先级,或者也可以结合上述多种方法综合确定各文本段落的优先级,比如可以对上述占比因子、相关性因子、时间衰减因子进行求和、加权求和等,确定综合的优先级因子,然后根据优先级因子来确定各文本段落的优先级。
由以上描述可以看出,在本说明书的一个实施例中,在从目标视频中提取得到文本并划分文本段落之后,还可以对文本段落进行合并、结尾部分进行优化,使得划分得到的文本段落更加准确,从而提高拆条的准确性。并且还可以确定每个文本段落的段落标题,可以为拆条得到的每个视频片段赋予对应的段落标题,那么可以直接根据该标题获知视频片段的主要内容,提升用户体验。
与前述视频拆条的方法的实施例相对应,本说明书还提供了视频拆条的装置的实施例。
本说明书视频拆条的装置的实施例可以应用在服务器上。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在服务器的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图5所示,为本说明书视频拆条的装置500所在服务器的一种硬件结构图,除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的视频拆条的装置通常根据该服务器的实际功能,还可以包括其他硬件,对此不再赘述。
图6是本说明书一示例性实施例示出的一种视频拆条的装置的框图。
请参考图6,所述视频拆条的装置500可以应用在前述图5所示的服务器中,包括有:文本获取单元510、话题句确定单元520、文本划分单元530、视频拆条单元540、模板匹配单元550、话题句过滤单元560、邻居段落确定单元570、判断单元580、合并单元590、无效句确定单元600、无效句过滤单元610、优先级确定单元620和排序单元630。
其中,文本获取单元510,从待拆条的目标视频中提取出音频,并将所述音频转换为对应的文本;
话题句确定单元520,从所述文本中确定出若干条话题句;
文本划分单元530,基于确定出的各话题句将所述文本划分为若干文本段落;
视频拆条单元540,基于划分后得到的文本段落,将所述目标视频对应拆条为若干视频片段。
可选的,所述话题句确定单元520:
将所述文本输入话题句识别模型,得到所述文本中包含的若干条话题。
可选的,还包括:
模板匹配单元550,将所述话题句与预设的话题句模板进行匹配;
话题句过滤单元560,过滤不匹配所述话题句模板的话题句,以基于过滤后得到的话题句划分文本段落。
可选的,每个话题句模板中包含第一已知模板词和第一未知话题词,所述第一已知模板词与所述第一未知话题词存在第一指定语法关系,所述模板匹配单元550:
判断所述话题句中是否存在所述第一已知模板词;
若存在,则判断是否存在与所述第一已知模板词存在所述第一指定语法关系的话题词;
若存在,则确定所述话题句匹配所述话题句模板。
可选的,所述模板匹配单元550在确定所述话题句匹配所述话题句模板之后,还:
从所述话题句中提取所述话题词;
获取与所述话题句匹配的话题句模板对应的标题模板,所述标题模板中包括第二已知模板词和第二未知话题词,所述第二已知模板词与所述第二未知话题词存在第二指定语法关系;
将所述标题模板中的第二未知话题词确定为从所述话题句中提取出的所述话题词,得到所述话题句对应文本段落的段落标题,以基于所述段落标题确定对应视频片段的片段标题。
可选的,还包括:
邻居段落确定单元570,确定所述文本段落的邻居段落;
判断单元580,判断所述文本段落与所述邻居段落是否符合合并条件;
合并单元590,若符合,则将所述文本段落与所述邻居段落进行合并,以基于合并后的段落对所述目标视频进行拆分。
可选的,所述判断单元580:
计算所述文本段落与所述邻居段落之间的相似度;
若所述相似度大于相似度阈值,则确定所述文本段落与所述邻居段落符合合并条件。
可选的,所述判断单元580:
获取所述文本段落在所述目标视频中对应视频片段的第一播放时长;
获取所述邻居段落在所述目标视频中对应视频片段的第二播放时长;
计算所述第一播放时长和所述第二播放时长的和值;
若所述和值小于时长阈值,则确定所述文本段落与所述邻居段落符合合并条件。
可选的,还包括:
无效句确定单元600,确定所述文本段落结尾部分中的无效句;
无效句过滤单元610,过滤所述无效句。
可选的,所述判断单元580在确定所述文本段落结尾部分中的无效句时:
基于有效和关键词和/或无效关键词确定所述文本段落结尾部中的无效句。
可选的,还包括:
优先级确定单元620,确定划分得到的每个文本段落的优先级;
排序单元630,将各文本段落按照优先级从高到低进行排序,并获取排序靠前的若干个文本段落;
所述视频拆条单元540:
将所述目标视频按照所述排序靠前的若干个文本段落拆分为对应的若干个视频片段。
可选的,每个文本段落存在对应的段落标题,所述优先级确定单元620:
计算所述文本段落中的无效句的占比因子;
计算所述文本段落的段落标题与文本内容之间的相关因子;
计算所述文本段落在所述目标视频中对应视频片段的时间衰减因子;
基于所述占比因子、所述相关因子和所述时间衰减因子确定所述段落的排序等级。
可选的,所述时间衰减因子沿着目标视频播放时长增加的方向呈高斯分布规律。
可选的,所述视频拆条单元540:
获取每个文本段落对应的播放时间段;
基于各文本段落对应的播放时间段将所述目标视频拆条为若干视频片段。
可选的,所述文本段落对应的播放时间段基于所述文本段落中第一个字对应的时间戳和最后一个字对应的时间戳确定。
可选的,所述文本划分单元530:
基于确定出的各话题句将所述文本划分为若干文本段落。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
与前述视频拆条的方法的实施例相对应,本说明书还提供一种视频拆条的装置,该装置包括:处理器以及用于存储机器可执行指令的存储器。其中,处理器和存储器通常借由内部总线相互连接。在其他可能的实现方式中,所述设备还可能包括外部接口,以能够与其他设备或者部件进行通信。
在本实施例中,通过读取并执行所述存储器存储的与视频拆条的逻辑对应的机器可执行指令,所述处理器被促使:
从待拆条的目标视频中提取出音频,并将所述音频转换为对应的文本;
从所述文本中确定出若干条话题句;
基于确定出的各话题句将所述文本划分为若干文本段落;
基于划分后得到的文本段落,将所述目标视频对应拆条为若干视频片段。
可选的,在从所述文本中确定出若干条话题句时,所述处理器被促使:
将所述文本输入话题句识别模型,得到所述文本中包含的若干条话题。
可选的,在将所述文本输入话题句识别模型,得到所述文本中包含的若干条话题句之后,所述处理器还被促使:
将所述话题句与预设的话题句模板进行匹配;
过滤不匹配所述话题句模板的话题句,以基于过滤后得到的话题句划分文本段落。
可选的,每个话题句模板中包含第一已知模板词和第一未知话题词,所述第一已知模板词与所述第一未知话题词存在第一指定语法关系,在将所述话题句与预设的标题句模板进行匹配时,所述处理器被促使:
判断所述话题句中是否存在所述第一已知模板词;
若存在,则判断是否存在与所述第一已知模板词存在所述第一指定语法关系的话题词;
若存在,则确定所述话题句匹配所述话题句模板。
可选的,在确定所述话题句匹配所述话题句模板之后,所述处理器还被促使:
从所述话题句中提取所述话题词;
获取与所述话题句匹配的话题句模板对应的标题模板,所述标题模板中包括第二已知模板词和第二未知话题词,所述第二已知模板词与所述第二未知话题词存在第二指定语法关系;
将所述标题模板中的第二未知话题词确定为从所述话题句中提取出的所述话题词,得到所述话题句对应文本段落的段落标题,以基于所述段落标题确定对应视频片段的片段标题。
可选的,在基于划分后得到的文本段落,将所述目标视频对应拆条为若干视频片段之前,所述处理器还被促使:
确定所述文本段落的邻居段落;
判断所述文本段落与所述邻居段落是否符合合并条件;
若符合,则将所述文本段落与所述邻居段落进行合并,以基于合并后的段落对所述目标视频进行拆分。
可选的,在判断所述文本段落与所述邻居段落是否符合合并条件时,所述处理器被促使:
计算所述文本段落与所述邻居段落之间的相似度;
若所述相似度大于相似度阈值,则确定所述文本段落与所述邻居段落符合合并条件。
可选的,在判断所述文本段落与所述邻居段落是否符合合并条件时,所述处理器被促使:
获取所述文本段落在所述目标视频中对应视频片段的第一播放时长;
获取所述邻居段落在所述目标视频中对应视频片段的第二播放时长;
计算所述第一播放时长和所述第二播放时长的和值;
若所述和值小于时长阈值,则确定所述文本段落与所述邻居段落符合合并条件。
可选的,在基于划分后得到的文本段落,将所述目标视频对应拆条为若干视频片段之前,所述处理器还被促使:
确定所述文本段落结尾部分中的无效句;
过滤所述无效句。
可选的,在确定所述文本段落结尾部分中的无效句时,所述处理器被促使:
基于有效和关键词和/或无效关键词确定所述文本段落结尾部中的无效句。
可选的,在基于划分后得到的文本段落,将所述目标视频对应拆条为若干视频片段之前,所述处理器还被促使:
确定划分得到的每个文本段落的优先级;
将各文本段落按照优先级从高到低进行排序,并获取排序靠前的若干个文本段落;
所述基于划分后得到的文本段落,将所述目标视频对应拆条为若干视频片段,包括:
将所述目标视频按照所述排序靠前的若干个文本段落拆分为对应的若干个视频片段。
可选的,每个文本段落存在对应的段落标题,在确定划分得到的每个文本段落的优先级时,所述处理器被促使:
计算所述文本段落中的无效句的占比因子;
计算所述文本段落的段落标题与文本内容之间的相关因子;
计算所述文本段落在所述目标视频中对应视频片段的时间衰减因子;
基于所述占比因子、所述相关因子和所述时间衰减因子确定所述段落的排序等级。
可选的,所述时间衰减因子沿着目标视频播放时长增加的方向呈高斯分布规律。
可选的,在基于划分后得到的文本段落,将所述目标视频对应拆条为若干视频片段时,所述处理器被促使:
获取每个文本段落对应的播放时间段;
基于各文本段落对应的播放时间段将所述目标视频拆条为若干视频片段。
可选的,所述文本段落对应的播放时间段基于所述文本段落中第一个字对应的时间戳和最后一个字对应的时间戳确定。
可选的,在基于确定出的各话题句将所述文本划分为若干文本段落时,所述处理器被促使:
以各话题句为文本段落的起始句,将所述文本划分为若干文本段落。
与前述视频拆条的方法的实施例相对应,本说明书还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现以下步骤:
从待拆条的目标视频中提取出音频,并将所述音频转换为对应的文本;
从所述文本中确定出若干条话题句;
基于确定出的各话题句将所述文本划分为若干文本段落;
基于划分后得到的文本段落,将所述目标视频对应拆条为若干视频片段。
可选的,所述从所述文本中确定出若干条话题句,包括:
将所述文本输入话题句识别模型,得到所述文本中包含的若干条话题。
可选的,所述将所述文本输入话题句识别模型,得到所述文本中包含的若干条话题句之后,还包括:
将所述话题句与预设的话题句模板进行匹配;
过滤不匹配所述话题句模板的话题句,以基于过滤后得到的话题句划分文本段落。
可选的,每个话题句模板中包含第一已知模板词和第一未知话题词,所述第一已知模板词与所述第一未知话题词存在第一指定语法关系,所述将所述话题句与预设的标题句模板进行匹配,包括:
判断所述话题句中是否存在所述第一已知模板词;
若存在,则判断是否存在与所述第一已知模板词存在所述第一指定语法关系的话题词;
若存在,则确定所述话题句匹配所述话题句模板。
可选的,所述确定所述话题句匹配所述话题句模板之后,还包括:
从所述话题句中提取所述话题词;
获取与所述话题句匹配的话题句模板对应的标题模板,所述标题模板中包括第二已知模板词和第二未知话题词,所述第二已知模板词与所述第二未知话题词存在第二指定语法关系;
将所述标题模板中的第二未知话题词确定为从所述话题句中提取出的所述话题词,得到所述话题句对应文本段落的段落标题,以基于所述段落标题确定对应视频片段的片段标题。
可选的,所述基于划分后得到的文本段落,将所述目标视频对应拆条为若干视频片段之前,还包括:
确定所述文本段落的邻居段落;
判断所述文本段落与所述邻居段落是否符合合并条件;
若符合,则将所述文本段落与所述邻居段落进行合并,以基于合并后的段落对所述目标视频进行拆分。
可选的,所述判断所述文本段落与所述邻居段落是否符合合并条件,包括:
计算所述文本段落与所述邻居段落之间的相似度;
若所述相似度大于相似度阈值,则确定所述文本段落与所述邻居段落符合合并条件。
可选的,所述判断所述文本段落与所述邻居段落是否符合合并条件,包括:
获取所述文本段落在所述目标视频中对应视频片段的第一播放时长;
获取所述邻居段落在所述目标视频中对应视频片段的第二播放时长;
计算所述第一播放时长和所述第二播放时长的和值;
若所述和值小于时长阈值,则确定所述文本段落与所述邻居段落符合合并条件。
可选的,所述基于划分后得到的文本段落,将所述目标视频对应拆条为若干视频片段之前,还包括:
确定所述文本段落结尾部分中的无效句;
过滤所述无效句。
可选的,所述确定所述文本段落结尾部分中的无效句,包括:
基于有效和关键词和/或无效关键词确定所述文本段落结尾部中的无效句。
可选的,所述基于划分后得到的文本段落,将所述目标视频对应拆条为若干视频片段之前,还包括:
确定划分得到的每个文本段落的优先级;
将各文本段落按照优先级从高到低进行排序,并获取排序靠前的若干个文本段落;
所述基于划分后得到的文本段落,将所述目标视频对应拆条为若干视频片段,包括:
将所述目标视频按照所述排序靠前的若干个文本段落拆分为对应的若干个视频片段。
可选的,每个文本段落存在对应的段落标题,所述确定划分得到的每个文本段落的优先级,包括:
计算所述文本段落中的无效句的占比因子;
计算所述文本段落的段落标题与文本内容之间的相关因子;
计算所述文本段落在所述目标视频中对应视频片段的时间衰减因子;
基于所述占比因子、所述相关因子和所述时间衰减因子确定所述段落的排序等级。
可选的,所述时间衰减因子沿着目标视频播放时长增加的方向呈高斯分布规律。
可选的,所述基于划分后得到的文本段落,将所述目标视频对应拆条为若干视频片段,包括:
获取每个文本段落对应的播放时间段;
基于各文本段落对应的播放时间段将所述目标视频拆条为若干视频片段。
可选的,所述文本段落对应的播放时间段基于所述文本段落中第一个字对应的时间戳和最后一个字对应的时间戳确定。
可选的,所述基于确定出的各话题句将所述文本划分为若干文本段落,包括:
以各话题句为文本段落的起始句,将所述文本划分为若干文本段落。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上所述仅为本说明书的较佳实施例而已,并不用以限制本说明书,凡在本说明书的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书保护的范围之内。

Claims (32)

1.一种视频拆条的方法,包括:
从待拆条的目标视频中提取出音频,并将所述音频转换为对应的文本;
从所述文本中确定出若干条话题句;
基于确定出的各话题句将所述文本划分为若干文本段落;
基于划分后得到的文本段落,将所述目标视频对应拆条为若干视频片段。
2.根据权利要求1所述方法,所述从所述文本中确定出若干条话题句,包括:
将所述文本输入话题句识别模型,得到所述文本中包含的若干条话题。
3.根据权利要求2所述方法,所述将所述文本输入话题句识别模型,得到所述文本中包含的若干条话题句之后,还包括:
将所述话题句与预设的话题句模板进行匹配;
过滤不匹配所述话题句模板的话题句,以基于过滤后得到的话题句划分文本段落。
4.根据权利要求3所述方法,每个话题句模板中包含第一已知模板词和第一未知话题词,所述第一已知模板词与所述第一未知话题词存在第一指定语法关系,所述将所述话题句与预设的标题句模板进行匹配,包括:
判断所述话题句中是否存在所述第一已知模板词;
若存在,则判断是否存在与所述第一已知模板词存在所述第一指定语法关系的话题词;
若存在,则确定所述话题句匹配所述话题句模板。
5.根据权利要求4所述方法,所述确定所述话题句匹配所述话题句模板之后,还包括:
从所述话题句中提取所述话题词;
获取与所述话题句匹配的话题句模板对应的标题模板,所述标题模板中包括第二已知模板词和第二未知话题词,所述第二已知模板词与所述第二未知话题词存在第二指定语法关系;
将所述标题模板中的第二未知话题词确定为从所述话题句中提取出的所述话题词,得到所述话题句对应文本段落的段落标题,以基于所述段落标题确定对应视频片段的片段标题。
6.根据权利要求1所述方法,所述基于划分后得到的文本段落,将所述目标视频对应拆条为若干视频片段之前,还包括:
确定所述文本段落的邻居段落;
判断所述文本段落与所述邻居段落是否符合合并条件;
若符合,则将所述文本段落与所述邻居段落进行合并,以基于合并后的段落对所述目标视频进行拆分。
7.根据权利要求6所述方法,所述判断所述文本段落与所述邻居段落是否符合合并条件,包括:
计算所述文本段落与所述邻居段落之间的相似度;
若所述相似度大于相似度阈值,则确定所述文本段落与所述邻居段落符合合并条件。
8.根据权利要求6所述方法,所述判断所述文本段落与所述邻居段落是否符合合并条件,包括:
获取所述文本段落在所述目标视频中对应视频片段的第一播放时长;
获取所述邻居段落在所述目标视频中对应视频片段的第二播放时长;
计算所述第一播放时长和所述第二播放时长的和值;
若所述和值小于时长阈值,则确定所述文本段落与所述邻居段落符合合并条件。
9.根据权利要求1所述方法,所述基于划分后得到的文本段落,将所述目标视频对应拆条为若干视频片段之前,还包括:
确定所述文本段落结尾部分中的无效句;
过滤所述无效句。
10.根据权利要求7所述方法,所述确定所述文本段落结尾部分中的无效句,包括:
基于有效和关键词和/或无效关键词确定所述文本段落结尾部中的无效句。
11.根据权利要求1所述方法,所述基于划分后得到的文本段落,将所述目标视频对应拆条为若干视频片段之前,还包括:
确定划分得到的每个文本段落的优先级;
将各文本段落按照优先级从高到低进行排序,并获取排序靠前的若干个文本段落;
所述基于划分后得到的文本段落,将所述目标视频对应拆条为若干视频片段,包括:
将所述目标视频按照所述排序靠前的若干个文本段落拆分为对应的若干个视频片段。
12.根据权利要求11所述方法,每个文本段落存在对应的段落标题,所述确定划分得到的每个文本段落的优先级,包括:
计算所述文本段落中的无效句的占比因子;
计算所述文本段落的段落标题与文本内容之间的相关因子;
计算所述文本段落在所述目标视频中对应视频片段的时间衰减因子;
基于所述占比因子、所述相关因子和所述时间衰减因子确定所述段落的排序等级。
13.根据权利要求12所述方法,所述时间衰减因子沿着目标视频播放时长增加的方向呈高斯分布规律。
14.根据权利要求1所述方法,所述基于划分后得到的文本段落,将所述目标视频对应拆条为若干视频片段,包括:
获取每个文本段落对应的播放时间段;
基于各文本段落对应的播放时间段将所述目标视频拆条为若干视频片段。
15.根据权利要求14所述方法,所述文本段落对应的播放时间段基于所述文本段落中第一个字对应的时间戳和最后一个字对应的时间戳确定。
16.根据权利要求1所述方法,所述基于确定出的各话题句将所述文本划分为若干文本段落,包括:
以各话题句为文本段落的起始句,将所述文本划分为若干文本段落。
17.一种视频拆条的装置,包括:
文本获取单元,从待拆条的目标视频中提取出音频,并将所述音频转换为对应的文本;
话题句确定单元,从所述文本中确定出若干条话题句;
文本划分单元,基于确定出的各话题句将所述文本划分为若干文本段落;
视频拆条单元,基于划分后得到的文本段落,将所述目标视频对应拆条为若干视频片段。
18.根据权利要求17所述装置,所述话题句确定单元:
将所述文本输入话题句识别模型,得到所述文本中包含的若干条话题。
19.根据权利要求18所述装置,还包括:
模板匹配单元,将所述话题句与预设的话题句模板进行匹配;
话题句过滤单元,过滤不匹配所述话题句模板的话题句,以基于过滤后得到的话题句划分文本段落。
20.根据权利要求19所述装置,每个话题句模板中包含第一已知模板词和第一未知话题词,所述第一已知模板词与所述第一未知话题词存在第一指定语法关系,所述模板匹配单元:
判断所述话题句中是否存在所述第一已知模板词;
若存在,则判断是否存在与所述第一已知模板词存在所述第一指定语法关系的话题词;
若存在,则确定所述话题句匹配所述话题句模板。
21.根据权利要求20所述装置,所述模板匹配单元在确定所述话题句匹配所述话题句模板之后,还:
从所述话题句中提取所述话题词;
获取与所述话题句匹配的话题句模板对应的标题模板,所述标题模板中包括第二已知模板词和第二未知话题词,所述第二已知模板词与所述第二未知话题词存在第二指定语法关系;
将所述标题模板中的第二未知话题词确定为从所述话题句中提取出的所述话题词,得到所述话题句对应文本段落的段落标题,以基于所述段落标题确定对应视频片段的片段标题。
22.据权利要求17所述装置,还包括:
邻居段落确定单元,确定所述文本段落的邻居段落;
判断单元,判断所述文本段落与所述邻居段落是否符合合并条件;
合并单元,若符合,则将所述文本段落与所述邻居段落进行合并,以基于合并后的段落对所述目标视频进行拆分。
23.根据权利要求22所述装置,所述判断单元:
计算所述文本段落与所述邻居段落之间的相似度;
若所述相似度大于相似度阈值,则确定所述文本段落与所述邻居段落符合合并条件。
24.根据权利要求22所述装置,所述判断单元:
获取所述文本段落在所述目标视频中对应视频片段的第一播放时长;
获取所述邻居段落在所述目标视频中对应视频片段的第二播放时长;
计算所述第一播放时长和所述第二播放时长的和值;
若所述和值小于时长阈值,则确定所述文本段落与所述邻居段落符合合并条件。
25.根据权利要求17所述装置,还包括:
无效句确定单元,确定所述文本段落结尾部分中的无效句;
无效句过滤单元,过滤所述无效句。
26.根据权利要求23所述装置,所述判断单元在确定所述文本段落结尾部分中的无效句时:
基于有效和关键词和/或无效关键词确定所述文本段落结尾部中的无效句。
27.根据权利要求17所述装置,还包括:
优先级确定单元,确定划分得到的每个文本段落的优先级;
排序单元,将各文本段落按照优先级从高到低进行排序,并获取排序靠前的若干个文本段落;
所述视频拆条单元:
将所述目标视频按照所述排序靠前的若干个文本段落拆分为对应的若干个视频片段。
28.根据权利要求27所述装置,每个文本段落存在对应的段落标题,所述优先级确定单元:
计算所述文本段落中的无效句的占比因子;
计算所述文本段落的段落标题与文本内容之间的相关因子;
计算所述文本段落在所述目标视频中对应视频片段的时间衰减因子;
基于所述占比因子、所述相关因子和所述时间衰减因子确定所述段落的排序等级。
29.根据权利要求28所述装置,所述时间衰减因子沿着目标视频播放时长增加的方向呈高斯分布规律。
30.根据权利要求17所述装置,所述视频拆条单元:
获取每个文本段落对应的播放时间段;
基于各文本段落对应的播放时间段将所述目标视频拆条为若干视频片段。
31.根据权利要求17所述装置,所述文本段落对应的播放时间段基于所述文本段落中第一个字对应的时间戳和最后一个字对应的时间戳确定。
32.一种视频拆条装置,包括:
处理器;
用于存储机器可执行指令的存储器;
其中,通过读取并执行所述存储器存储的与视频拆条逻辑对应的机器可执行指令,所述处理器被促使:
从待拆条的目标视频中提取出音频,并将所述音频转换为对应的文本;
从所述文本中确定出若干条话题句;
基于确定出的各话题句将所述文本划分为若干文本段落;
基于划分后得到的文本段落,将所述目标视频对应拆条为若干视频片段。
CN202011617772.1A 2020-12-31 2020-12-31 一种视频拆条的方法和装置 Active CN112733654B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011617772.1A CN112733654B (zh) 2020-12-31 2020-12-31 一种视频拆条的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011617772.1A CN112733654B (zh) 2020-12-31 2020-12-31 一种视频拆条的方法和装置

Publications (2)

Publication Number Publication Date
CN112733654A true CN112733654A (zh) 2021-04-30
CN112733654B CN112733654B (zh) 2022-05-24

Family

ID=75611154

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011617772.1A Active CN112733654B (zh) 2020-12-31 2020-12-31 一种视频拆条的方法和装置

Country Status (1)

Country Link
CN (1) CN112733654B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113225618A (zh) * 2021-05-06 2021-08-06 阿里巴巴新加坡控股有限公司 一种视频剪辑方法及装置
CN113766268A (zh) * 2021-11-08 2021-12-07 阿里巴巴达摩院(杭州)科技有限公司 视频处理方法、装置、电子设备和可读介质
CN114051154A (zh) * 2021-11-05 2022-02-15 新华智云科技有限公司 一种新闻视频拆条方法和系统
WO2023287360A3 (zh) * 2021-07-15 2023-04-13 脸萌有限公司 多媒体处理方法、装置、电子设备及存储介质
CN116886992A (zh) * 2023-09-06 2023-10-13 北京中关村科金技术有限公司 一种视频数据的处理方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080175556A1 (en) * 2005-08-24 2008-07-24 Chitra Dorai System and method for semantic video segmentation based on joint audiovisual and text analysis
CN109743589A (zh) * 2018-12-26 2019-05-10 百度在线网络技术(北京)有限公司 文章生成方法及装置
CN109902289A (zh) * 2019-01-23 2019-06-18 汕头大学 一种面向模糊文本挖掘的新闻视频主题分割方法
CN110399489A (zh) * 2019-07-08 2019-11-01 厦门市美亚柏科信息股份有限公司 一种聊天数据分段方法、装置及存储介质
CN111708915A (zh) * 2020-06-12 2020-09-25 腾讯科技(深圳)有限公司 内容推荐方法、装置、计算机设备和存储介质
CN111753089A (zh) * 2020-06-28 2020-10-09 深圳壹账通智能科技有限公司 话题聚类方法、装置、电子设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080175556A1 (en) * 2005-08-24 2008-07-24 Chitra Dorai System and method for semantic video segmentation based on joint audiovisual and text analysis
CN109743589A (zh) * 2018-12-26 2019-05-10 百度在线网络技术(北京)有限公司 文章生成方法及装置
CN109902289A (zh) * 2019-01-23 2019-06-18 汕头大学 一种面向模糊文本挖掘的新闻视频主题分割方法
CN110399489A (zh) * 2019-07-08 2019-11-01 厦门市美亚柏科信息股份有限公司 一种聊天数据分段方法、装置及存储介质
CN111708915A (zh) * 2020-06-12 2020-09-25 腾讯科技(深圳)有限公司 内容推荐方法、装置、计算机设备和存储介质
CN111753089A (zh) * 2020-06-28 2020-10-09 深圳壹账通智能科技有限公司 话题聚类方法、装置、电子设备及存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113225618A (zh) * 2021-05-06 2021-08-06 阿里巴巴新加坡控股有限公司 一种视频剪辑方法及装置
WO2023287360A3 (zh) * 2021-07-15 2023-04-13 脸萌有限公司 多媒体处理方法、装置、电子设备及存储介质
CN114051154A (zh) * 2021-11-05 2022-02-15 新华智云科技有限公司 一种新闻视频拆条方法和系统
CN113766268A (zh) * 2021-11-08 2021-12-07 阿里巴巴达摩院(杭州)科技有限公司 视频处理方法、装置、电子设备和可读介质
CN116886992A (zh) * 2023-09-06 2023-10-13 北京中关村科金技术有限公司 一种视频数据的处理方法、装置、电子设备及存储介质
CN116886992B (zh) * 2023-09-06 2023-12-01 北京中关村科金技术有限公司 一种视频数据的处理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN112733654B (zh) 2022-05-24

Similar Documents

Publication Publication Date Title
CN112733654B (zh) 一种视频拆条的方法和装置
US11197036B2 (en) Multimedia stream analysis and retrieval
CN109117777B (zh) 生成信息的方法和装置
CN108920497B (zh) 一种人机交互方法及装置
CN110020437B (zh) 一种视频和弹幕相结合的情感分析及可视化方法
CN110557659B (zh) 视频推荐方法、装置、服务器及存储介质
CN108292314B (zh) 信息处理装置、信息处理方法和程序
CN112733660B (zh) 一种视频拆条的方法和装置
US20190007711A1 (en) Named Entity Disambiguation for providing TV content enrichment
KR20120088650A (ko) 컴퓨터 실행 방법, 시스템 및 컴퓨터 판독 가능 매체
EP2585947A1 (en) A method for indexing multimedia information
JP4332700B2 (ja) マルチメディアの手掛かりを利用したテレビ番組をセグメント化及びインデクス化する方法及び装置
CN114465737B (zh) 一种数据处理方法、装置、计算机设备及存储介质
CN112511854A (zh) 一种直播视频精彩片段生成方法、装置、介质和设备
CN109558513A (zh) 一种内容推荐方法、装置、终端及存储介质
CN113035199B (zh) 音频处理方法、装置、设备及可读存储介质
CN110198482B (zh) 一种视频重点桥段标注方法、终端及存储介质
Lison et al. Automatic turn segmentation for movie & tv subtitles
CN114095749A (zh) 推荐及直播界面展示方法、计算机存储介质、程序产品
Bost A storytelling machine?: automatic video summarization: the case of TV series
CN114363714B (zh) 标题生成方法、设备及存储介质
Poignant et al. Naming multi-modal clusters to identify persons in TV broadcast
CN116567351B (zh) 一种视频处理方法、装置、设备及介质
CN112804580B (zh) 一种视频打点的方法和装置
US20230326369A1 (en) Method and apparatus for generating sign language video, computer device, and storage medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20220420

Address after: Room 610, floor 6, No. 618, Wai Road, Huangpu District, Shanghai 200010

Applicant after: Ant Shengxin (Shanghai) Information Technology Co.,Ltd.

Address before: 310000 801-11 section B, 8th floor, 556 Xixi Road, Xihu District, Hangzhou City, Zhejiang Province

Applicant before: Alipay (Hangzhou) Information Technology Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant