CN112104919B - 基于神经网络的内容标题生成方法、装置、设备、和计算机可读存储介质 - Google Patents

基于神经网络的内容标题生成方法、装置、设备、和计算机可读存储介质 Download PDF

Info

Publication number
CN112104919B
CN112104919B CN202010952667.7A CN202010952667A CN112104919B CN 112104919 B CN112104919 B CN 112104919B CN 202010952667 A CN202010952667 A CN 202010952667A CN 112104919 B CN112104919 B CN 112104919B
Authority
CN
China
Prior art keywords
encoder
content
text
word
title
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010952667.7A
Other languages
English (en)
Other versions
CN112104919A (zh
Inventor
陈小帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010952667.7A priority Critical patent/CN112104919B/zh
Publication of CN112104919A publication Critical patent/CN112104919A/zh
Application granted granted Critical
Publication of CN112104919B publication Critical patent/CN112104919B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/74Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种基于包括编码器—解码器网络的神经网络的内容标题生成方法,该方法包括:针对该内容的至少两种类型的信息,分别生成该至少两种类型的信息中的每一种类型的信息的向量表示;利用各个编码器分别处理该每一种类型的信息的向量表示;利用解码器对该各个编码器的输出进行处理,生成该内容的一个或多个标题词,解码器通过计算文本中词的注意力权重来计算词的拷贝概率,从而确定是从文本中的词中拷贝还是从文本的向量表示经编码器处理后生成的词表示来生成标题词;和基于该一个或多个标题词生成该内容标题。还公开了相应的装置等。

Description

基于神经网络的内容标题生成方法、装置、设备、和计算机可 读存储介质
技术领域
本申请涉及标题生成,更具体地,涉及基于神经网络的内容标题生成方法、装置、设备、和计算机可读存储介质。
背景技术
随着互联网的快速发展,文本、语音、图像和视频等内容数据进入了大爆炸时代。在数据量如此巨大的时代,吸收内容中的信息的速度变得非常重要。相对于文本和图像来说,音频、视频数据增加了时间维度,因此理解起来更加耗时。音频、视频的标题将一个视频片段转化为简单的文字描述,有效地加快了对视频的理解速度。同时,通过这种方法就将音频、视频检索问题转换成了文本检索的问题,也方便了在海量数据中检索目标。
一般长视频都具有标题,而对于在从长视频中选取精彩、优质片段来构建短视频时,一般不能将长视频的标题直接用作短视频的标题,一方面因为长视频标题一般具有剧名、集数等信息,而短视频的标题一般需要将此片段的主题内容体现出来,并且有一定的修饰、吸睛效果等,另一方面长视频即便有很好的标题,短鉴于视频一般只是长视频的一小部分,直接选用该长视频的标题作为短视频的标题会出现以偏概全、内容与标题不一致的问题。所以需要专门为从长视频中构建出来的精彩短视频创作标题,目前一般是通过数据标注人员人工观看生成的短视频片段,然后人工创作标题。这种标题创作方式存在很多缺点,例如,需要耗费人力和时间成本,无法适应海量的视频更新速度,还例如,对数据标注人员的知识储备、文学修养以及对用户的标题风格喜好理解有较高的要求,导致短视频标题创作难度较大,影响短视频的生产效率。
发明内容
采用机器学习,如果只针对一种视频输入(例如视频图像)获得输出,生成的标题可能是片面的。因此本发明采用两种或以上的视频输入(例如视频图像和文字,等等)。不同种类视频输入如果在解码器端分别处理,可能会错过其间的关联性。单纯靠编码器-解码器网络生成标题,可能会遗漏或改变一些原汁原味的表述,因此希望能够保留一些拷贝的可能性。
根据本发明第一方面,提供一种基于神经网络的内容标题生成方法,该神经网络包括编码器—解码器网络,该方法包括:针对该内容的至少两种类型的信息,分别生成该至少两种类型的信息中的每一种类型的信息的向量表示;利用编码器—解码器网络的各个编码器分别处理该每一种类型的信息的向量表示,其中所述至少两种类型的信息中的一种是文本;利用编码器—解码器网络的解码器对该编码器—解码器网络的各个编码器的输出进行处理,生成该内容的一个或多个标题词,其中该编码器—解码器网络的解码器通过计算该文本中的词的注意力权重来计算该文本中的词的拷贝概率,从而确定是从所述文本中的词中拷贝来生成标题词,还是从词表示中来生成标题词,词表示是所述文本的向量表示经编码器—解码器网络的编码器处理后生成的,其中注意力权重表示所述文本中的词对于内容标题的相关性,拷贝概率表示该文本中的词拷贝成为标题词的概率;以及基于该一个或多个标题词生成该内容的标题。
根据一个实施例,针对该一个或多个标题词中的每一个标题词,该编码器—解码器网络的解码器均执行一次以下计算步骤:通过计算该文本中的词的注意力权重来计算该文本中的词的拷贝概率,从而确定是从该文本中的词中拷贝来生成每一个标题词,还是从词表示中来生成每一个标题词。
根据一个实施例,该至少两种类型的信息中的一种类型的信息是文本,该编码器—解码器网络的解码器还采用了拷贝机制,用于确定该一个或多个标题词是否从相应的编码器—解码器网络的编码器处理该文本的向量表示后的输出中拷贝。
根据一个实施例,该内容中各个类型的信息包括文本、图像和音频。
根据一个实施例,该文本包括以下中的一个或多个:该内容的字幕、弹幕、评论和现有标题。
根据一个实施例,该至少两种类型的信息中的一种类型的信息是音频,该利用编码器—解码器网络的各个编码器分别处理所述每一种类型的信息的向量表示包括:获取该内容的音频帧序列;针对该音频帧序列中的每个音频帧,利用音频特征提取模型进行处理,以生成该每个音频帧的向量表示。
根据一个实施例,该音频特征提取模型包括VGGish或YAMNet。
根据一个实施例,该至少两种类型的信息中的一种类型的信息是图像,该利用编码器—解码器网络的各个编码器分别处理所述每一种类型的信息的向量表示包括:获取该内容的图像或图像序列;针对该图像或该图像序列中的每个图像,利用图像特征提取模型进行处理,以生成该图像或该图像序列中的每个图像的向量表示。
根据一个实施例,该图像特征提取模型包括残差网络或Inception卷积神经网络。
根据一个实施例,该编码器—解码器网络的编码器包括Transformer编码器,该编码器—解码器网络的解码器包括Transformer解码器。
根据一个实施例,该方法还包括步骤:基于以下一项或多项而选取该内容:一个统计时间段内该内容的播放量、播放完成度、观众互动程度。
根据一个实施例,该选取是从较长的内容中截取。
根据一个实施例,该基于该一个或多个标题词生成该内容的标题包括:选择该一个或多个标题词中生成概率最大的标题词作为该内容的标题,或者响应于基于该一个或多个标题词的编辑输入,生成该内容的标题。
根据一个实施例,该方法还包括步骤:基于以下一项或多项选取该神经网络的训练数据:一段时间内内容的播放量、播放完成度、观众互动程度。
根据一个实施例,其特征在于,该内容是短视频。
根据本发明的第二方面,提供一种基于神经网络的内容标题生成装置,神经网络包括编码器—解码器网络,该装置包括:向量生成模块,配置来针对该内容的至少两种类型的信息,分别生成该至少两种类型的信息中的每一种类型的信息的向量表示;编码器处理模块,配置来利用编码器—解码器网络的各个编码器分别处理该每一种类型的信息的向量表示;解码器处理模块,配置来利用编码器—解码器网络的解码器对该编码器—解码器网络的各个编码器的输出进行处理,生成该内容的一个或多个标题词,其中该编码器—解码器网络的解码器通过计算该文本中的词的注意力权重来计算该文本中的词的拷贝概率,从而确定是从所述文本中的词中拷贝来生成标题词,还是从词表示中来生成标题词,词表示是所述文本的向量表示经编码器—解码器网络的编码器处理后生成的,其中注意力权重表示所述文本中的词对于内容标题的相关性,拷贝概率表示该文本中的词拷贝成为标题词的概率;以及标题生成模块,配置来基于该一个或多个标题词生成该内容的标题。
根据本发明的第三方面,提供一种基于神经网络的内容标题生成设备,包括:处理器;以及存储器,其被配置为在其上存储有计算机可执行指令,该指令当在该处理器中执行时,使得该处理器实现根据本发明第一方面的方法。
根据本发明的第四方面,提供一种计算机可读存储介质,该指令当由计算设备执行时,使得该计算设备实现根据本发明第一方面的方法。
根据本发明的实施例,通过选取优质内容,例如播放量大、播放完成度高、观众互动程度高的短视频,来作为训练数据,有利于生成效果较好的内容标题生成模型。通过在内容标题生成模型中引入内容的多个类型的信息的向量的分别编码,使得在解码器处,来自于例如视频帧和音频帧的其他类型的信息能够辅助从文本信息中生成标题,有利于提高模型的精确性。同时,通过在编码器—解码器网络的解码器中引入拷贝机制,来决定标题词是否直接拷贝文本中的词,有利于文本中的关键信息保留到生成的内容标题中。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1图示了本发明实施例提供的内容标题生成模型示意图;
图2图示了本发明实施例提供的内容标题生成方法的流程图;
图3图示了本发明实施例提供的内容标题生成装置的框图;
图4图示了根据本发明实施例的硬件实施环境示意图。
具体实施方式
本申请实施例提供的方案基于神经网络的内容标题生成方法、装置、设备、和计算机可读存储介质,为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
人工智能中体现着各种工程和科学上的哲学思想,大的有集成学习、没有免费午餐、奥卡姆剃刀等,小的有最大化类间差异、最小化类内差异等。对于很多问题,存在着一类通行的解决思路,其中的一个典型代表就是“编码器-解码器”结构。编码器-解码器结构在我们的日常生活中并不陌生。电话就是最典型的例子,它将声音信号编制成电信号,经过传输之后,在另外一端再将电信号恢复成声音信号。这样,对方就能在千里之外听到你的声音。在这里,电信号是声音信号的另外一种表示,这是物理上的变换,解码和编码通过硬件实现。在机器学习中,很多问题可以抽象出类似的模型:机器翻译,将一种语言的句子转化成另外一种语言的句子;自动摘要,为一段文字提取出摘要;为图像生成文字解说,将图像数据转化成文字数据;根据一段文字描述生成图像,这是上面问题的反过程,将文字转化成图像,等。以上举例并非穷尽的,还包括许多其他的示例。在这些问题中,需要将输入数据转化成另外一种输出数据,二者之间有概率关系。例如,对于机器翻译来说,二者有相同的语义。直接用一个函数完成这个转化y=f(x)可能会存在困难。例如对机器翻译来说输入和输出的长度是不固定的,二者还可能不相等。因此需要曲线救国,先将输入数据X转化成一种中间数据Z,再从中间数据Z映射出输出数据Y。这就是编码器-解码器结构。人工智能中一些典型的编码器-解码器结构算法例如主成分分析(PCA)、自动编码器(AE)、变分自动编码器(VAE)、序列到序列学习(seq2seq)等等。
图1图示了本发明实施例提供的内容标题生成模型示意图。应注意,本文所指的网络,指的是人工智能领域的神经网络,除非明确地另有所指。文本所指的模型,也指的是人工智能领域的模型,除非明确地另有所指。在多数情况下,网络和模型这两个术语可以互换使用,而在一些业界惯用的术语方案,不宜互换使用,例如“神经网络”,一般不称作“神经模型”,但可以成为“神经网络模型”。还应注意,本发明所指的内容,包括但不限于视频、音频、FLASH、动画等,其包括文本、音频和/或图像等,以视频为例,其中包括字幕、弹幕、评论等文本,对于需要重新加工标题的视频,还具有文本形式的现有标题,对于从长视频中截取的视频,还具有文本形式的长视频的现有标题;视频中还包括视频帧,也即图像序列;视频中还包括音频帧。还应注意,本发明所指的视频,包括原始长度的视频,也包括从原始视频中截取的较短的视频,包括一个主题的视频,也可以包括多个主题的视频,包括传统的长视频,也包括近年来流行的短视频。对于“短视频”这个术语,业界并没有一个统一的定义,不同的产品对短视频的时长定义也不同,有15秒、10秒、57秒、4分钟等等,平台不同,对短视频的看法不同,关于横屏、竖屏的规定也不同。一般而言,时长较短的视频都可以视为短视频,不限拍摄设备、地点和后期处理。例如,符合以下四个方面的视频都可以称为短视频。第一,从拍摄内容看,内容高潮前置、拍摄流程简单、制作门槛低、参与性强,内容也可是技能分享、幽默搞怪、时尚潮流、社会热点、街头采访、公益教育、广告创意、商业定制等主题,基本上内容不限,时长不超十分钟。第二,从拍摄设备看,拍摄设备可以不需要太高端,手机自带软件都可拍摄,拍完之后还可进行简单的剪辑和滤镜处理,人人都能成为剪辑师。第三,从拍摄条件看,拍摄环境也不需要在高大上的摄影棚或者特效场所,生活中随处都是舞台,任何地方都能完成创作。第四,从传播性看,短视频因其短小、精悍的特征,相比传统的图文,短视频信息量大,表现力强、直观性好,人们可利用碎片时间浏览、分享,让短视频具备了病毒式传播潜力。当然,从长视频中截取的一些精彩片段也不排除可以视为短视频。
图1的整个模型的输入是待处理内容101。所述待处理内容101包括但不限于如上所述的视频、音频、FLASH、动画等。以下本发明的多个实施例以视频作为内容为例进行描述,这并不代表本发明仅限于处理视频内容。在一个示例中,该待处理内容101是从较长视频中截取的短视频,例如,基于以下一项或多项而选取:一个统计时间段内所述内容的播放量、播放完成度、观众互动程度。例如当月播放次数大于10000次、播放完成度大于0.9,和/或具有较好线上指标(即观众互动较好)的部分视频。一般而言,精彩的片段具有较多的用户观看或反复观看,且具有较高的用户互动量(诸如弹幕、评论等)。当然,本发明并不仅限于处理截取的短视频内容。
在一个实施例中,该待处理内容101包括文本、图像和音频等中至少两种类型的信息并且其中一种是文本。图1的示例中给出的内容标题生成模型能够处理文本、图像和音频三种信息。
在该实施例的一个方面,对于文本1021(诸如字幕、弹幕、评论、现有标题等),可能需要先进行分词(一般对于中文而言),然后根据词表转化为对应的序号(ID),再利用诸如自然语言处理的Word2vec模型转化成词向量1031。
分词的过程是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂得多、困难得多。现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。
分词之后,先要根据词表转化为对应的序号ID,这样Word2vec模型才知道转化的是哪个词。例如对于“中国哪家公司的人工智能最牛呢”这样的句子,分词后生成[“中国”、“哪家”、“公司”、“的”、“人工智能”、“最”、“牛”、“呢”],基于word2vec_skipgram附带的词表,生成ID:[38, 586, 99, 4, 3258, 115, 1721, 286]。
Word2vec 是谷歌公司在2013年开源的一款将词表征为实数值向量的高效工具,利用深度学习思想,通过训练,把对文本内容的处理简化为K维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。如果换个思路,把词当作特征,那么Word2vec就可以把特征映射到K维向量空间,可以为文本数据寻求更加深层次的特征表示。Word2vec使用的是分布式表示(Distributed representation)的词向量表示方式。分布式表示最早由Hinton在1986年提出,基本思想是通过训练将每个词映射成K维实数向量(K一般为模型中的超参数),通过词之间的距离(比如 cosine相似度、欧氏距离等)来判断它们之间的语义相似度。采用一个三层的神经网络“输入层-隐层-输出层”。有个核心的技术是根据词频用Huffman编码,使得所有词频相似的词隐藏层激活的内容基本一致,出现频率越高的词语,他们激活的隐藏层数目越少,这样有效的降低了计算的复杂度。而Word2vec大受欢迎的一个原因正是其高效性。这个三层神经网络本身是对语言模型进行建模,但也同时获得一种单词在向量空间上的表示,而这个副作用才是Word2vec的真正目标。与潜在语义分析(Latent Semantic Index, LSI)、潜在狄立克雷分配(Latent DirichletAllocation,LDA)的经典过程相比,Word2vec利用了词的上下文,语义信息更加地丰富。
生成的词向量1031输入文本编码器1041,生成各个词表示1051{词1表示,……,词m表示,……,词n表示},其中1<m<n。在一个示例中,所述文本编码器1041是Transformer编码器,由于Transformer编码器具有self-attention机制,因此其生成的词表示1051是具备上下文语境的表示。上文对编码器-解码器结构做过简单的描述,这里的词表示就是编码器-解码器结构中的中间数据。
在该实施例的另一个方面,对于从待处理内容101中提取的图像(或抽取的图像序列,例如视频帧)1022,需要利用图像特征提取模型处理所述图像或图像序列中的每个图像,转化成所述图像或图像序列的向量表示1032。所述图像特征提取模型是残差网络(Resnet)或者Inception卷积神经网络(Convolutional Neural Networks, CNN)模型,但本发明实施例并不限于此。
残差网络是由来自Microsoft Research的4位学者提出的卷积神经网络,在2015年的ImageNet大规模视觉识别竞赛(ImageNet Large Scale Visual RecognitionChallenge, ILSVRC)中获得了图像分类和物体识别的优胜。残差网络的特点是容易优化,并且能够通过增加相当的深度来提高准确率。其内部的残差块使用了跳跃连接,缓解了在深度神经网络中增加深度带来的梯度消失问题。该网络出自论文《Deep ResidualLearning for Image Recognition》。残差网络可以有不同的深度,常用的残差网络有ResNet50和ResNet101,其深度分别是50和101。本发明实施例不限于哪一种残差网络。
GoogLeNet是谷歌公司在2014年提出的一种卷积神经网络(CNN)深度学习方法,它赢得了2014年ILSVRC的冠军,其错误率要低于当时的VGGNet。它于2015年发表在CVPR上。GoogLeNet也称为Inception V1。因为后面它还提出了很多的改进版本,包括V2、V3、V4等。与之前的深度学习网络思路不同,之前的CNN网络的主要目标还是加深网络的深度。一般来说,同一个物体在不同图像中的位置差别很大,大小也不同。识别这种物体是很困难的。为了识别这种物体,需要准确的卷积操作。大的卷积核通常倾向于全局信息,而小的卷积核则主要捕获局部信息。为了解决这个问题,GoogLeNet的思路是在同一层使用多个不同大小的卷积核来捕捉信息,这种结构就是Inception。除此之外,GoogLeNet的主要目标是为了增加网络的宽度,并降低参数的数量。从结果来看,GoogLeNet利用Inception结构组成了一个22层的巨大的网络,但是其参数却比之前的如AlexNet网络低很多。是一种非常优秀的CNN结构。本发明实施例不限于哪一版本的Inception CNN。
生成的图像或图像序列的向量表示1032输入图像编码器1042,生成各个图像表示1052{图像1表示,……,图像m表示,……,图像p表示},其中1<m<p。在一个示例中,所述图像编码器1042是Transformer编码器,由于Transformer编码器具有self-attention机制,因此其生成的图像表示1052是具备上下文语境的表示。同样的,这里的图像表示也是编码器-解码器结构中的中间数据。
在该实施例的又一个方面,对于从待处理内容101中抽取的音频帧序列(音频帧)1023,需要利用音频特征提取模型处理所述音频帧序列1023中的每一个音频帧,转化成所述音频帧序列1023的向量表示1033。所述音频特征提取模型包括VGGish或者YAMNet,但本发明实施例并不限于此。
VGGish是一种经过预训练的深度网络,支持从音频波形中提取具有语义的128维embedding特征向量。其是在YouTube的AudioSet数据预训练得到的。AudioSet由谷歌公司的声音理解团队于2017年3月发布,旨在为音频事件检测提供常见的大规模评估任务,并为全面的声音事件词汇提供起点。AudioSet是一个由200万个人标记的10秒YouTube视频音轨组成的数据集,其标签来自600多个音频事件类的本体。
YAMNet是一种经过预训练的深度网络,由Dan Ellis在AudioSet数据预训练得到的。它采用Mobilenet_v1深度可分离的卷积架构来预测521个音频事件类,可以对521种不同的声音进行分类。
生成的音频帧序列向量表示1033输入音频编码器1043,生成各个音频表示1053{音频1表示,……,音频m表示,……,音频q表示},其中1<m<q。在一个示例中,所述音频编码器1043是Transformer编码器,由于Transformer编码器具有self-attention机制,因此其生成的音频表示1053是具备上下文语境的表示。同样的,这里的音频表示也是编码器-解码器结构中的中间数据。
应注意,取决于编码器的支持性,这里的文本编码器1041、图像编码器1042和音频编码器1043可以是同一类型的编码器,然而,因为输入内容类型不同,训练出的编码器参数也不同,不宜混用。
Transformer模型是谷歌公司在《Attention Is All You Need》一文中提出的一个全新的模型,抛弃了以往深度学习任务里面使用到的卷积神经网络和循环神经网络,Transformer模型中也采用了编码器-解码器结构。论文中编码器部分由6个编码器堆叠在一起,解码器部分也一样。而后发展为多个。本发明实施例不限于具体的堆叠个数。
这个模型广泛应用于自然语言处理(NLP)领域,例如机器翻译,问答系统,文本摘要和语音识别等等方向。
接下来,在解码器中,各个编码器——文本编码器1041、图像编码器1042和音频编码器1043的最后一步的状态共同作为解码器106的初始状态,而各个编码器输出的表示——词表示1051、图像表示1052、音频表示1053作为解码器106的输入。
在一个示例中,解码器106包括注意力(attention)机制,其能够结合输入的词表示1051、图像表示1052、音频表示1053进行attention处理,获取文本中各个词的注意力权重,其中注意力权重表示文本中的词对于内容标题的相关性,使解码器106能够利用该注意力权重来生成一个或多个标题词107{标题词1……标题词m…标题词h},其中1<m<h。一个利用该注意力权重来生成一个或多个标题词107的具体示例将在下文给出。这样的解码器有利于关注各个编码器中的关键信息,提升标题词的生成质量。在一个进一步的示例中,解码器106是Transformer解码器。
应注意,上文所述的n、p、q、h值可以相同、部分相同、也可以各不相同。本发明实施例对此不作限定。
在一个示例中,解码器106还包括拷贝机制,能够确定所述一个或多个标题词107是否从文本编码器1041输出的词表示1051中拷贝。拷贝机制由香港大学和华为诺亚方舟实验室合作在ACL 2016发表的《Incorporating Copying Mechanism in Sequence-to-Sequence Learning》中提出,生成还是复制基于概率最大来选择(这一点与门控机制类似),并加了一个简单的限制规则,如果在输入中没出现,那么肯定不会是拷贝,如果只在输入中出现,而词表中没有,那么肯定拷贝。
取决于概率,拷贝机制的结果可以包括各种情况:一个或多个标题词全部来自拷贝,一个或多个标题词全部不来自拷贝,一个或多个标题词中的部分标题词来自拷贝而部分标题词不来自拷贝。拷贝机制的参数是随着整个模型一起训练的。
通过在解码器中引入拷贝机制,有利于将诸如字幕、弹幕、评论、现有标题之类的文本中的关键信息保留到生成的内容标题中,提高内容标题的生成质量。
而后基于这些生成的标题词107,进一步生成内容的标题。例如,选择这些标题词107中生成概率最大的标题词作为所述内容的标题,或者响应于基于标题词107的编辑输入,生成内容的标题。
尽管本发明上述实施例描述了该待处理内容101包括文本、图像和音频三种类型的信息的情况的处理,然而,本领域技术人员理解,对于仅具有其中任意两种类型的信息的情况,处理方式也是类似,只是可能需要省略图1中的相应编码器。处理不同类型的内容的模型最好用相应类型的内容的数据分别训练,有利于提高模型的准确率。
替代的或可选的,所述内容中可能还存在其他类型的信息,本领域技术人员理解,可以用类似的方式,相应地处理成向量,并经相应的编码器—解码器网络的编码器处理,再输入编码器—解码器网络的解码器处理,参与标题词的生成。图1仅是根据本发明实施例的示例模型示意图,并非唯一模型示意图。
在一个示意性的示例中,待处理内容101包括文本、图像和音频,文本包括从视频中获取的字幕和评论,例如字幕经过分词后得到:
“其实 我 从来 没有 讲 过 , 就是 我 都 是 默默 在 做 事情 , 她 有 什么梦想 , 我 都去 完成 , 我 觉得 最大 的 是 , 生病 这 期间 她 有点 放弃 自己 ,但是 我 必须 要 很 开朗 的 帮助 她, 我 要 让 她 觉得 她 没有 工作 , 她 要 在家里 休养 , 她 的 老公 去 赚 很多 钱 赚 很多 钱 , 然后 让 她 觉得 没有 压力 ,就是 这样 , 谢谢 , 上星期 我 爱 的 太太 去 重新 拍 了 一个婚纱照 , 其实 是 我跟 她 结婚 十周年 照片 ,我们 结婚日 定在 儿子 的 生日 , 这次 的 婚纱 对 我 来讲 是 有点 亏欠 , 因为 结婚 时 我 没有 带 她 去 度过 蜜月 , 没关系 , 在 妈妈咪呀 的 舞台 上我 常常 为 妈妈 们 流泪 , 然后 第一 次 我 觉得 我 为 一个 先生有点 哽咽 了, 我 觉得 你 非常 的 优秀 , 我 觉得 你 是 个 好 丈夫 , 非常 的 好, 请 三 位 评委 分享 一下 你们 的 感觉, 金星 老师 , 开门见山 , 我 真是 惊艳到 了 , 我 一直 在 问 , 至少 我 第一 季 妈妈咪呀 没有 看到 这么 正式 的 表演”。
评论经过分词后得到:
“真 是 个 好 丈夫 我 怎么 就 没有 这样 的 老公”。
上面均用空格隔开了不同的词,分词的结果可以是多样的,这里只是一个示例结果。
上述文本经过相应的编码器后表示为:
[0.70027802, 0.34926009, 0.69466741, 0.14043335, ..., 0.77806696],
[0.25359041, 0.96139758, 0.1469904 , 0.28188396, ..., 0.53277494],
[0.12974953, 0.11940805, 0.72579745, 0.29715907, ..., 0.36063711],
...
[0.12648883, 0.56599613, 0.69149052, 0.73015856, ..., 0.78609878],
其中,每个词对应一行。
图像序列经过图像编码器1042后表示为:
[0.00357021, 0.64291696, 0.76038987, 0.74547353, ..., 0.87695165],
[0.92932357, 0.81140358, 0.45807061, 0.41684633, ..., 0.96664239],
...
[0.57492873, 0.29112181, 0.45597359, 0.52101758, ..., 0.00106385],
其中,每个图像对应一行。
音频帧序列经过音频编码器1043后表示为:
[0.58191945, 0.17274466, 0.0835829 , 0.23250825, ...,0.06755746],
[0.12660952, 0.77750734, 0.81938474, 0.16915989, ...,0.34554582],
[0.01658503, 0.01352568, 0.58942692, 0.4670967 , ...,0.26883872],
...
[0.41741834, 0.61476234, 0.6676938 , 0.14466261, 0.63374519],
其中,每个音频帧对应一行。
在解码器106的每一步生成阶段,也就是每生成一个标题词时,通过使用解码器106上一步输出的隐状态与原始的文本(即该例子中待处理内容101中的文本)中的词来计算注意力权重,注意力权重表示所述文本中的词对于内容标题的相关性,这个注意力权重经过例如一个全连接网络生成一个拷贝概率,所述拷贝概率表示所述文本中的词拷贝成为标题词的概率,比如生成了标题的一部分“妈妈咪呀 生病 休养 没 拍 ”(其中用空格分割了各个词)后,在生成下一个词时,算得拷贝概率为0.7,那么与之相对的、从编码器输出的词的表示生成的概率为1-0.7=0.3。将算得的拷贝概率分布到待处理内容101中文本的每个词上,即每个词的拷贝概率=0.7*注意力权重,例如,"婚纱照"的拷贝概率是0.7*0.12 =0.084,照此计算待处理内容101中的文本中的所有词的拷贝概率。另一方面,从编码器输出的各个词表示1051生成标题的概率计算方式例如为0.3*Softmax(Softmax用于多分类过程中,它将多个神经元的输出,映射到(0,1)区间内,映射值可以看成概率来理解,从而来进行多分类,当然,还可以采用其它分类函数),最终“婚纱照”的概率大,因此从待处理内容101中的文本中拷贝出“婚纱照”作为生成的标题的一部分。
这里,由于解码器的输入中还有各个图像表示和音频表示,这样图像帧、音频帧辅助了注意力权重与拷贝概率的计算,有利于提升生成的标题的准确度。
最终生成的标题词包括:
“妈妈咪呀 生病 休养 没 拍 婚纱照 觉得 有点 亏欠 把 金星 惊艳 到 了,觉得 他 是 个 好 丈夫”。
这里依然用空格分割了各个标题词,在后续处理的时候,可以去除标题词之间的空格,或者做简单的人工编辑。
图2图示了本发明实施例提供的内容标题生成方法的流程图。内容标题生成方法基于上文结合图1描述的包括编码器—解码器网络的神经网络来实行。首先,在模型搭建之后,需要对图1描述的包括编码器—解码器网络的神经网络进行训练,训练数据的选取影响到神经网络的性能。因此,在步骤201,选取训练数据。在一个示例中,训练数据使用的是真实的内容数据,可以基于以下一项或多项选取训练数据:一段时间内内容的播放量、播放完成度、观众互动程度。例如当月播放次数大于10000次、播放完成度大于0.9,和/或具有较好线上指标(即观众互动较好)的内容,特别是短视频。
当训练的神经网络收敛之后,就可以用来为待处理内容生成标题了。在步骤202,选取待处理内容。在一个示例中,待处理内容是从较长视频中截取的短视频,例如,基于以下一项或多项而选取:一个统计时间段内内容的播放量、播放完成度、观众互动程度。例如长视频中的当月播放次数大于10000次、播放完成度大于0.9,和/或具有较好线上指标(即观众互动较好)的部分视频。一般而言,精彩的片段具有较多的用户观看或反复观看,且具有较高的用户互动量(诸如弹幕、评论等)。当然,这并不代表本发明仅限于处理截取的短视频内容。
在进一步的处理之前,首先在步骤203中,将待处理内容转换为向量表示,待处理内容包括多种类型的信息,针对所述内容的至少两种类型的信息,分别生成所述至少两种类型的信息中的每一种类型的信息的向量表示。
在一个实施例中,待处理内容包括文本、图像和音频三种类型的信息。相应的,对这三种信息分别进行处理。对于文本(诸如字幕、弹幕、评论、现有标题等),可能需要先进行分词(一般对于中文而言),根据词表转化为对应的序号(ID),再利用诸如自然语言处理的Word2vec模型转化成词向量。对于从待处理内容中提取的图像(或抽取的图像序列,例如视频帧),需要利用图像特征提取模型处理所述图像或图像序列中的每个图像,转化成所述图像或图像序列的向量表示。所述图像特征提取模型可以是残差网络或者Inception CNN,但本发明实施例并不限于此。对于从待处理内容中抽取的音频帧序列(音频帧),需要利用音频特征提取模型处理音频帧序列中的每一个音频帧,转化成音频帧序列的向量表示。所述音频特征提取模型是VGGish或者YAMNet,但本发明实施例并不限于此。
在步骤204中,利用编码器—解码器网络的各个编码器分别处理步骤203得到的每一种类型的信息的向量表示。生成的词向量输入文本编码器,生成各个词表示。在一个示例中,文本编码器是Transformer编码器,由于Transformer编码器具有self-attention机制,因此其生成的词表示是具备上下文语境的表示。生成的图像或图像序列的向量表示输入图像编码器,生成各个图像表示。在一个示例中,图像编码器是Transformer编码器,由于Transformer编码器具有self-attention机制,因此其生成的图像表示是具备上下文语境的表示。生成的音频帧序列向量表示输入音频编码器,生成各个音频表示。在一个示例中,音频编码器是Transformer编码器,由于Transformer编码器具有self-attention机制,因此其生成的音频表示是具备上下文语境的表示。如前文所述,这里的词表示、图像表示和音频表示都是编码器-解码器结构中的中间数据。
应注意,取决于编码器的支持性,这里的文本编码器、图像编码器和音频编码器可以是同一类型的编码器,然而,因为输入内容类型不同,训练出的编码器参数也不同,不宜混用。
接下来在步骤205,利用编码器—解码器网络的解码器对所述编码器—解码器网络的各个编码器的输出进行处理,生成待处理内容的一个或多个标题词。在解码器中,各个编码器——例如,文本编码器、图像编码器和音频编码器的最后一步的状态共同作为解码器的初始状态,而各个编码器输出的表示——词表示、图像表示、音频表示作为解码器的输入。
在一个示例中,解码器包括注意力机制,其能够结合输入的词表示、图像表示、音频表示进行attention处理,获取文本中各个词的注意力权重,其中注意力权重表示文本中的词对于内容标题的相关性,使解码器106能够利用该注意力权重来生成一个或多个标题词。一个利用该注意力权重来生成一个或多个标题词的具体示例在上文关于图1的描述中给出了。这样的解码器有利于关注各个编码器中的关键信息,提升标题词的生成质量。在一个进一步的示例中,解码器是Transformer解码器。
在一个示例中,解码器还包括拷贝机制,能够确定一个或多个标题词是否从文本编码器输出的词表示中直接拷贝。取决于概率,拷贝机制的结果可以包括各种情况:一个或多个标题词全部来自拷贝,一个或多个标题词全部不来自拷贝,一个或多个标题词中的部分标题词来自拷贝而部分标题词不来自拷贝。拷贝机制的参数是随着整个模型一起训练的。解码器通过计算文本中的词的注意力权重来计算文本中的词的拷贝概率,从而确定是从文本中的词中拷贝还是从文本的向量表示经编码器—解码器网络的编码器处理后生成的词表示中来生成标题词,其中,注意力权重表示文本中的词对于内容标题的相关性,拷贝概率表示文本中的词拷贝成为标题词的概率。
通过在解码器中引入拷贝机制,有利于将诸如字幕、弹幕、评论、现有标题之类的文本中的关键信息保留到生成的内容标题中,提高内容标题的生成质量。
而后在步骤206,基于一个或多个标题词生成待处理内容的标题。例如,选择这些标题词中生成概率最大的标题词作为待处理内容的标题,或者响应于基于标题词的编辑输入,生成待处理内容的标题。
尽管本发明上述实施例描述了该待处理内容101包括文本、图像和音频三种类型的信息的情况的处理,然而,本领域技术人员理解,对于仅具有其中任意两种类型的信息的情况,处理方式也是类似。
替代的或可选的,所述内容中可能还存在其他类型的信息,本领域技术人员理解,可以用类似的方式,相应地处理成向量,并经相应的编码器—解码器网络的编码器处理,再输入编码器—解码器网络的解码器处理,参与标题词的生成。
图3图示了本发明实施例提供的内容标题生成装置的框图。内容标题生成装置300包括向量生成模块301、编码器处理模块302、解码器处理模块303和标题生成模块304。其中,向量生成模块301配置来针对内容的至少两种类型的信息,分别生成所述至少两种类型的信息中的每一种类型的信息的向量表示,其进一步具体的描述可以参见上面关于步骤203的描述。编码器处理模块302配置来利用编码器—解码器网络的各个编码器分别处理每一种类型的信息的向量表示,其进一步具体的描述可以参见上面关于步骤204的描述。解码器处理模块303配置来利用编码器—解码器网络的解码器对所述编码器—解码器网络的各个编码器的输出进行处理,生成所述内容的一个或多个标题词,其中所述编码器—解码器网络的解码器中采用了注意力机制,其进一步具体的描述可以参见上面关于步骤205的描述。标题生成模块304配置来基于一个或多个标题词生成所述内容的标题,其进一步具体的描述可以参见上面关于步骤206的描述。
图4图示了根据本发明实施例的硬件实施环境示意图。参见图4,在本发明的实施方式中,内容标题生成装置402包括处理器404,其中包括硬件原件410。处理器404例如包括一个或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效集成或离散逻辑电路等一个或多个处理器。如本文中所使用的术语“处理器”可指上述结构或适合于实施本文中所描述的技术的任一其它结构中的任一者。另外,在一些方面中,本文描述的功能性可提供于经配置以用于内容标题生成的专用硬件和/或软件模块内,或并入在组合式的硬件和/或软件模块中。并且,可将所述技术完全实施于一个或多个电路或逻辑元件中。本公开中的方法可以在各种组件、模块或单元中实现,但不一定需要通过不同硬件单元来实现。而是,如上所述,各种组件、模块或单元可组合或由互操作硬件单元(包含如上所述的一个或多个处理器)的集合结合合适软件和/或固件来提供。
在一个或多个示例中,以上结合图1-图3所描述的技术方案可以硬件、软件、固件或其任一组合来实施。如果以软件实施,那么功能可作为一个或多个指令或代码存储在计算机可读介质上或经由计算机可读介质406传输,且由基于硬件的处理器执行。计算机可读介质406可包含对应于例如数据存储介质等有形介质的计算机可读存储介质,或包含促进计算机程序例如根据通信协议从一处传送到另一处的任何介质的通信介质。以此方式,计算机可读介质406通常可对应于(1)非暂时性的有形计算机可读存储介质,或(2)例如信号或载波等通信介质。数据存储介质可为可由一个或多个计算机或者一个或多个处理器读取以检索用于实施本公开中描述的技术的指令、代码和/或数据结构的任何可用介质。计算机程序产品可包含计算机可读介质406。
举例来说且并非限制,此类计算机可读存储介质可包括RAM、ROM、EEPROM、CD_ROM或其它光盘等存储器、磁盘存储器或其它磁性存储器、快闪存储器或可用来以指令或数据结构的形式存储所要程序代码且可由计算机读取的任何其它存储器412。而且,恰当地将任何连接称作计算机可读介质406。举例来说,如果使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)或例如红外线、无线电及微波等无线技术从网站、服务器或其它远程源传输指令,则同轴电缆、光纤电缆、双绞线、DSL或例如红外线、无线电及微波等无线技术包含于介质的定义中。然而应了解,计算机可读存储介质和数据存储介质不包含连接、载波、信号或其它瞬时介质,而是针对非瞬时有形存储介质。如本文中所使用,磁盘及光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软磁盘及蓝光光盘,其中磁盘通常以磁性方式再生数据,而光盘使用激光以光学方式再生数据。上文的组合也应包含在计算机可读介质406的范围内。
内容标题生成装置402还可以与用于传输数据的I/O接口406、以及其他功能414一起设置在内容标题生成设备400中。内容标题生成设备400可以包括在不同的终端中,例如台式机、移动终端等,这里图示了台式机416、移动终端418和其它终端420。这些配置中的每个包括可以具有一般不同的构造和能力的设备,并且因此可以根据不同终端中的一个或多个配置内容标题生成设备400。此外本发明的技术还可以通过使用分布式系统、诸如通过如下所述的平台424在“云”422上全部或部分地实现。
云422包括和/或代表用于资源426的平台424。平台424抽象云422的硬件(例如,服务器)和软件资源的底层功能。资源426可以包括在远离计算设备402的服务器上执行计算机处理时可以使用的应用和/或数据。资源426还可以包括通过因特网和/或通过诸如蜂窝或Wi-Fi网络的订户网络提供的服务。
平台424可以抽象资源和功能以将计算设备402与其他计算设备连接。平台424还可以用于抽象资源的分级以提供遇到的对于经由平台424实现的资源426的需求的相应水平的分级。因此,在互连设备实施例中,本文描述的功能的实现可以分布在整个系统内。例如,功能可以部分地在计算设备402上以及通过抽象云422的功能的平台424来实现。
根据本发明的各实施例,通过选取优质内容,例如播放量大、播放完成度高、观众互动程度高的短视频,来作为训练数据,有利于生成效果较好的内容标题生成模型。通过在内容标题生成模型中引入内容的多个类型的信息的向量的分别编码,使得在解码器处,来自于例如视频帧和音频帧的其他类型的信息能够辅助从文本信息中生成标题,有利于提高模型的精确性。同时,通过在编码器—解码器网络的解码器中引入拷贝机制,来决定标题词是否直接拷贝文本中的词,有利于文本中的关键信息保留到生成的内容标题中。
需要说明,本公开中出现的“第一”、“第二”等表述不代表指示重要性或步骤的先后,仅是用于区分。方法步骤在没有特别说明或者没有前提约束(即一个步骤的执行需以另一个步骤的执行结果为前提)的情况下,方法步骤的描述先后不代表他们的执行先后,所描述的方法步骤可以以可能的、合理的顺序执行。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (14)

1.一种基于神经网络的内容标题生成方法,其特征在于:所述神经网络包括编码器—解码器网络,所述方法包括:
针对所述内容的至少两种类型的信息,分别生成所述至少两种类型的信息中的每一种类型的信息的向量表示,其中所述至少两种类型的信息中的一种是文本,所述内容中的所述至少两种类型的信息还包括图像和音频,以及所述文本包括以下中的一个或多个:所述内容的字幕、弹幕、评论和现有标题;
利用所述编码器—解码器网络的各个编码器分别处理所述每一种类型的信息的向量表示;
利用所述编码器—解码器网络的解码器对所述编码器—解码器网络的各个编码器的输出进行处理,生成所述内容的一个或多个标题词,其中所述编码器—解码器网络的解码器通过计算所述文本中的词的注意力权重来计算所述文本中的词的拷贝概率,其中基于所述每一种类型的信息的向量表示来计算所述文本中的词的注意力权重,从而确定是从所述文本中的词中拷贝来生成标题词,还是从词表示中来生成标题词,所述词表示是所述文本的向量表示经所述编码器—解码器网络的编码器处理后生成的,其中所述注意力权重表示所述文本中的词对于内容标题的相关性,所述拷贝概率表示所述文本中的词拷贝成为标题词的概率;以及
基于所述一个或多个标题词生成所述内容标题。
2.如权利要求1所述的方法,其特征在于,针对所述一个或多个标题词中的每一个标题词,所述编码器—解码器网络的解码器均执行一次以下计算步骤:通过计算所述文本中的词的注意力权重来计算所述文本中的词的拷贝概率,从而确定是从所述文本中的词中拷贝来生成每一个标题词,还是从词表示中来生成每一个标题词。
3.如权利要求1所述的方法,其特征在于:当所述至少两种类型的信息中的一种类型的信息是音频,所述利用所述编码器—解码器网络的各个编码器分别处理所述每一种类型的信息的向量表示包括:
获取所述内容的音频帧序列;
针对所述音频帧序列中的每个音频帧,利用音频特征提取模型进行处理,以生成所述每个音频帧的向量表示。
4.如权利要求3所述的方法,其特征在于:所述音频特征提取模型包括VGGish或YAMNet。
5.如权利要求1所述的方法,其特征在于:当所述至少两种类型的信息中的一种类型的信息是图像,所述利用所述编码器—解码器网络的各个编码器分别处理所述每一种类型的信息的向量表示包括:
获取所述内容的图像或图像序列;
针对所述图像或所述图像序列中的每个图像,利用图像特征提取模型进行处理,以生成所述图像或所述图像序列中的每个图像的向量表示。
6.如权利要求5所述的方法,其特征在于:所述图像特征提取模型包括残差网络或Inception卷积神经网络。
7.如权利要求1所述的方法,其特征在于,所述编码器—解码器网络的编码器包括Transformer编码器,所述编码器—解码器网络的解码器包括Transformer解码器。
8.如权利要求1所述的方法,其特征在于,还包括以下步骤中的至少一个:
基于以下一项或多项而选取所述内容:一个统计时间段内所述内容的播放量、播放完成度、观众互动程度;
基于以下一项或多项选取所述神经网络的训练数据:一段时间内内容的播放量、播放完成度、观众互动程度。
9.如权利要求8所述的方法,其特征在于,所述选取是从较长的内容中截取。
10.如权利要求1所述的方法,其特征在于,所述基于所述一个或多个标题词生成所述内容的标题包括:
选择所述一个或多个标题词中生成概率最大的标题词作为所述内容的标题,或者
响应于基于所述一个或多个标题词的编辑输入,生成所述内容的标题。
11.如权利要求1所述的方法,其特征在于,所述内容是短视频。
12.一种基于神经网络的内容标题生成装置,其特征在于:所述神经网络包括编码器—解码器网络,所述装置包括:
向量生成模块,配置来针对所述内容的至少两种类型的信息,分别生成所述至少两种类型的信息中的每一种类型的信息的向量表示;
编码器处理模块,配置来利用所述编码器—解码器网络的各个编码器分别处理所述每一种类型的信息的向量表示,其中所述至少两种类型的信息中的一种是文本,所述内容中各个类型的信息还包括图像和音频,以及所述文本包括以下中的一个或多个:所述内容的字幕、弹幕、评论和现有标题;
解码器处理模块,配置来利用所述编码器—解码器网络的解码器对所述编码器—解码器网络的各个编码器的输出进行处理,生成所述内容的一个或多个标题词,其中所述编码器—解码器网络的解码器通过计算所述文本中的词的注意力权重来计算所述文本中的词的拷贝概率,其中基于所述每一种类型的信息的向量表示来计算所述文本中的词的注意力权重,从而确定是从所述文本中的词中拷贝来生成标题词,还是从词表示中来生成标题词,所述词表示是所述文本的向量表示经所述编码器—解码器网络的编码器处理后生成的,其中所述注意力权重表示所述文本中的词对于内容标题的相关性,所述拷贝概率表示所述文本中的词拷贝成为标题词的概率;以及
标题生成模块,配置来基于所述一个或多个标题词生成所述内容标题。
13.一种基于神经网络的内容标题生成设备,其特征在于:包括:
处理器;以及
存储器,其被配置为在其上存储有计算机可执行指令,所述指令当在所述处理器中执行时,使得所述处理器实现如权利要求1-11中任一项所述的方法。
14.其上存储计算机可执行指令的计算机可读存储介质,其特征在于:所述指令当由计算设备执行时,使得所述计算设备实现如权利要求1-11中的任一项所述的方法。
CN202010952667.7A 2020-09-11 2020-09-11 基于神经网络的内容标题生成方法、装置、设备、和计算机可读存储介质 Active CN112104919B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010952667.7A CN112104919B (zh) 2020-09-11 2020-09-11 基于神经网络的内容标题生成方法、装置、设备、和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010952667.7A CN112104919B (zh) 2020-09-11 2020-09-11 基于神经网络的内容标题生成方法、装置、设备、和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN112104919A CN112104919A (zh) 2020-12-18
CN112104919B true CN112104919B (zh) 2022-05-06

Family

ID=73752342

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010952667.7A Active CN112104919B (zh) 2020-09-11 2020-09-11 基于神经网络的内容标题生成方法、装置、设备、和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN112104919B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113569068B (zh) * 2021-01-19 2023-09-29 腾讯科技(深圳)有限公司 描述内容生成方法、视觉内容的编码、解码方法、装置
CN113139575B (zh) * 2021-03-18 2022-03-01 杭州电子科技大学 一种基于条件嵌入预训练语言模型的图像标题生成方法
CN113408208B (zh) * 2021-06-25 2023-06-09 成都欧珀通信科技有限公司 模型训练方法、信息提取方法、相关装置及存储介质
CN113361284B (zh) * 2021-06-30 2024-03-26 北京百度网讯科技有限公司 目标内容的生成方法和装置
CN114357989B (zh) * 2022-01-10 2023-09-26 北京百度网讯科技有限公司 视频标题生成方法、装置、电子设备及存储介质
CN114363673B (zh) * 2022-01-10 2022-12-27 北京百度网讯科技有限公司 视频裁剪方法、模型训练方法及装置
CN114880520B (zh) * 2022-05-06 2023-03-10 北京百度网讯科技有限公司 视频标题生成方法、装置、电子设备和介质
CN116033207A (zh) * 2022-12-09 2023-04-28 北京奇艺世纪科技有限公司 视频标题的生成方法、装置、电子设备及可读存储介质
CN116156271A (zh) * 2022-12-14 2023-05-23 北京奇艺世纪科技有限公司 视频标题的生成方法、装置、电子设备及可读存储介质
CN117370934B (zh) * 2023-12-04 2024-03-22 环球数科集团有限公司 一种敏感信息发现模型的多模态数据增强方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992775A (zh) * 2019-03-25 2019-07-09 浙江大学 一种基于高级语义的文本摘要生成方法
CN110738026A (zh) * 2019-10-23 2020-01-31 腾讯科技(深圳)有限公司 用于生成描述文本的方法和设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105940395B (zh) * 2014-01-31 2019-07-16 谷歌有限责任公司 生成文档的矢量表示

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992775A (zh) * 2019-03-25 2019-07-09 浙江大学 一种基于高级语义的文本摘要生成方法
CN110738026A (zh) * 2019-10-23 2020-01-31 腾讯科技(深圳)有限公司 用于生成描述文本的方法和设备

Also Published As

Publication number Publication date
CN112104919A (zh) 2020-12-18

Similar Documents

Publication Publication Date Title
CN112104919B (zh) 基于神经网络的内容标题生成方法、装置、设备、和计算机可读存储介质
Chung et al. Speech2vec: A sequence-to-sequence framework for learning word embeddings from speech
Mei et al. Wavcaps: A chatgpt-assisted weakly-labelled audio captioning dataset for audio-language multimodal research
CN112749608B (zh) 视频审核方法、装置、计算机设备和存储介质
JP6967059B2 (ja) 映像を生成するための方法、装置、サーバ、コンピュータ可読記憶媒体およびコンピュータプログラム
US20220237222A1 (en) Information determining method and apparatus, computer device, and storage medium
CN112749326B (zh) 信息处理方法、装置、计算机设备及存储介质
CN112163122A (zh) 确定目标视频的标签的方法、装置、计算设备及存储介质
CN109697239B (zh) 用于生成图文信息的方法
CN111723295B (zh) 一种内容分发方法、装置和存储介质
CN112418011A (zh) 视频内容的完整度识别方法、装置、设备及存储介质
CN112131881B (zh) 信息抽取方法及装置、电子设备、存储介质
CN113704460A (zh) 一种文本分类方法、装置、电子设备和存储介质
CN113011126B (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
Manzoor et al. Multimodality representation learning: A survey on evolution, pretraining and its applications
CN113688231A (zh) 一种答案文本的摘要提取方法及装置、电子设备及介质
Yu et al. CgT-GAN: CLIP-guided Text GAN for Image Captioning
CN115169472A (zh) 针对多媒体数据的音乐匹配方法、装置和计算机设备
CN115273856A (zh) 语音识别方法、装置、电子设备及存储介质
CN117009578A (zh) 视频数据的标注方法、装置、电子设备及存储介质
CN112749553B (zh) 视频文件的文本信息处理方法、装置和服务器
Porwal et al. Video Transcription and Summarization using NLP
CN113407779A (zh) 一种视频检测方法、设备及计算机可读存储介质
Hammad et al. Characterizing the impact of using features extracted from pre-trained models on the quality of video captioning sequence-to-sequence models
CN116958997B (zh) 一种基于异质图神经网络的图文摘要方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40036298

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant