CN111866610B - 用于生成信息的方法和装置 - Google Patents
用于生成信息的方法和装置 Download PDFInfo
- Publication number
- CN111866610B CN111866610B CN201910277783.0A CN201910277783A CN111866610B CN 111866610 B CN111866610 B CN 111866610B CN 201910277783 A CN201910277783 A CN 201910277783A CN 111866610 B CN111866610 B CN 111866610B
- Authority
- CN
- China
- Prior art keywords
- video
- candidate material
- material resource
- target
- paragraph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 85
- 239000000463 material Substances 0.000 claims abstract description 310
- 239000013598 vector Substances 0.000 claims description 175
- 238000001514 detection method Methods 0.000 claims description 60
- 230000011218 segmentation Effects 0.000 claims description 39
- 238000005457 optimization Methods 0.000 claims description 26
- 238000004422 calculation algorithm Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 16
- 230000015572 biosynthetic process Effects 0.000 claims description 10
- 238000003786 synthesis reaction Methods 0.000 claims description 10
- 238000005516 engineering process Methods 0.000 claims description 5
- 230000004044 response Effects 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 5
- 238000012217 deletion Methods 0.000 claims description 2
- 230000037430 deletion Effects 0.000 claims description 2
- 238000012549 training Methods 0.000 description 43
- 238000004364 calculation method Methods 0.000 description 32
- 238000010586 diagram Methods 0.000 description 27
- 230000006870 function Effects 0.000 description 17
- 238000002372 labelling Methods 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 8
- 239000003795 chemical substances by application Substances 0.000 description 7
- 238000004891 communication Methods 0.000 description 7
- 238000011176 pooling Methods 0.000 description 6
- 230000005284 excitation Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 3
- 241000282817 Bovidae Species 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 2
- 241000282320 Panthera leo Species 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 238000002939 conjugate gradient method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
- H04N21/8549—Creating video summaries, e.g. movie trailer
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
- G06V20/43—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of news video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
- G06V20/47—Detecting features for summarising video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/233—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/23418—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
- H04N21/8456—Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computer Security & Cryptography (AREA)
- Television Signal Processing For Recording (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了用于生成信息的方法和装置。该方法的一具体实施方式包括:将对目标新闻簇所包括的各个视频进行语义分割所得到的至少一个视频片段确定为目标视频集合,其中,目标新闻簇内的各个新闻针对同一新闻事件;确定目标新闻簇的解说词;基于目标视频集合和目标图像集合,确定与解说词对应的候选素材资源集合,其中,目标图像集合由目标新闻簇所包括的各个图像组成;对于解说词中的每个段落,确定该段落与候选素材资源集合中每个候选素材资源的匹配度。该实施方式为后续使用候选素材资源为目标新闻簇的解说词生成对应的视频提供了数据来源,继而可以提高后续所生成的与解说词对应的视频与解说词之间的贴合度。
Description
技术领域
本申请实施例涉及计算机技术领域,具体涉及用于生成信息的方法和装置。
背景技术
随着网络技术的发展,世界各地的各类新闻可以通过各种媒体发布给用户。对于同一个新闻事件,各种媒体(例如新闻类网站或者新闻类应用)会编辑出不同的新闻,不同媒体发出的新闻的侧重点会存在一定的差异,但是报道同一新闻事件的各个新闻中也会存在或多或少的重合信息。
对于用户来说,可能需要阅读多篇新闻报道才能从中提取出自己想要的信息,这就会导致用户的获取新闻的效率较低。为了帮助用户提高新闻获取的效率,可以对同一新闻事件的多篇新闻进行聚合,去除多篇新闻中的冗余信息,提取针对新闻事件的解说词。
发明内容
本申请实施例提出了用于生成信息的方法和装置。
第一方面,本申请实施例提供了一种用于生成信息的方法,该方法包括:将对目标新闻簇所包括的各个视频进行语义分割所得到的至少一个视频片段确定为目标视频集合,其中,目标新闻簇内的各个新闻针对同一新闻事件;确定目标新闻簇的解说词;基于目标视频集合和目标图像集合,确定与解说词对应的候选素材资源集合,其中,目标图像集合由目标新闻簇所包括的各个图像组成;对于解说词中的每个段落,确定该段落与候选素材资源集合中每个候选素材资源的匹配度。
在一些实施例中,该方法还包括:基于解说词中各段落与各候选素材资源之间的匹配度、各候选素材资源的播放时长以及解说词中各段落的文本长度,确定与解说词中的每个段落对应的候选素材资源序列;基于解说词中的每个段落对应的候选素材资源序列,生成与解说词对应的视频。
在一些实施例中,该方法还包括:将与解说词对应的视频发送给终端设备,以供终端设备呈现所收到的视频。
在一些实施例中,基于解说词中的每个段落对应的候选素材资源序列,生成与解说词对应的视频,包括:对于解说词中的每个段落,利用语音合成技术生成与该段落对应的语音;基于解说词中的每个段落对应的语音和候选素材资源序列,生成与解说词对应的视频。
在一些实施例中,基于目标视频集合和目标图像集合,确定与解说词对应的候选素材资源集合,包括:合并目标视频集合和目标图像集合得到与解说词对应的候选素材资源集合。
在一些实施例中,基于目标视频集合和目标图像集合,确定与解说词对应的候选素材资源集合,包括:对于目标视频集合中的每个目标视频,将该目标视频输入预先训练的生动视频检测模型,得到与该目标视频对应的生动视频检测结果,其中,生动视频检测模型用于表征视频和用于表征是否是生动视频的生动视频检测结果之间的对应关系;将目标视频集合中对应的生动视频检测结果用于表征非生动视频的目标视频删除;合并目标视频集合和目标图像集合得到与解说词对应的候选素材资源集合。
在一些实施例中,在将目标视频集合中对应的生动视频检测结果用于表征非生动视频的目标视频删除之后,该方法还包括:将目标视频集合中视频播放时长小于预设最短候选视频时长的视频删除。
在一些实施例中,对于解说词中的每个段落,确定该段落与候选素材资源集合中每个候选素材资源的匹配度,包括:对于解说词中的每个段落,确定与该段落对应的语义向量;对于候选素材资源集合中的每个候选素材资源,确定与该候选素材资源对应的语义向量;将解说词中的每个段落对应的语义向量与候选素材资源集合中每个候选素材资源对应的语义向量之间的相似度,确定为相应段落与相应候选素材资源之间的匹配度。
在一些实施例中,对于候选素材资源集合中的每个候选素材资源,确定与该候选素材资源对应的语义向量,包括:响应于确定该候选素材资源为图像,对该图像候选素材资源进行语义分割,得到该图像候选素材资源对应的至少一个语义标注结果,以及根据所得到的至少一个语义标注结果中每个语义标注结果对应的语义向量确定与该候选素材资源对应的语义向量;响应于确定该候选素材资源为视频,对该视频候选素材资源进行下采样,得到至少一个样本图像;对于至少一个样本图像中的每个样本图像,对该样本图像进行语义分割,得到该样本图像对应的至少一个语义标注结果,以及根据所得到的至少一个语义标注结果中每个语义标注结果对应的语义向量确定与该样本图像对应的语义向量;根据各样本图像对应的语义向量,确定与该候选素材资源对应的语义向量。
在一些实施例中,根据各样本图像对应的语义向量,确定与该候选素材资源对应的语义向量,包括:将各样本图像对应的语义向量的均值向量确定为与该候选素材资源对应的语义向量。
在一些实施例中,根据各样本图像对应的语义向量,确定与该候选素材资源对应的语义向量,包括:将由各样本图像对应的语义向量的各维取值的中间值所对应的向量确定为与该候选素材资源对应的语义向量。
第二方面,本申请实施例提供了一种用于生成信息的装置,该装置包括:语义分割单元,被配置成将对目标新闻簇所包括的各个视频进行语义分割所得到的至少一个视频片段确定为目标视频集合,其中,目标新闻簇内的各个新闻针对同一新闻事件;解说词确定单元,被配置成确定目标新闻簇的解说词;候选素材资源集合确定单元,被配置成基于目标视频集合和目标图像集合,确定与解说词对应的候选素材资源集合,其中,目标图像集合由目标新闻簇所包括的各个图像组成;匹配度确定单元,被配置成对于解说词中的每个段落,确定该段落与候选素材资源集合中每个候选素材资源的匹配度。
在一些实施例中,该装置还包括:候选素材资源序列确定单元,被配置成基于解说词中各段落与各候选素材资源之间的匹配度、各候选素材资源的播放时长以及解说词中各段落的文本长度,确定与解说词中的每个段落对应的候选素材资源序列;视频生成单元,被配置成基于解说词中的每个段落对应的候选素材资源序列,生成与解说词对应的视频。
在一些实施例中,该装置还包括:视频发送单元,被配置成将与解说词对应的视频发送给终端设备,以供终端设备呈现所收到的视频。
在一些实施例中,视频生成单元包括:语音合成模块,被配置成对于解说词中的每个段落,利用语音合成技术生成与该段落对应的语音;视频生成模块,被配置成基于解说词中的每个段落对应的语音和候选素材资源序列,生成与解说词对应的视频。
在一些实施例中,候选素材资源集合确定单元进一步被配置成:合并目标视频集合和目标图像集合得到与解说词对应的候选素材资源集合。
在一些实施例中,候选素材资源集合确定单元进一步被配置成:对于目标视频集合中的每个目标视频,将该目标视频输入预先训练的生动视频检测模型,得到与该目标视频对应的生动视频检测结果,其中,生动视频检测模型用于表征视频和用于表征是否是生动视频的生动视频检测结果之间的对应关系;将目标视频集合中对应的生动视频检测结果用于表征非生动视频的目标视频删除;合并目标视频集合和目标图像集合得到与解说词对应的候选素材资源集合。
在一些实施例中,候选素材资源集合确定单元进一步被配置成:在将目标视频集合中对应的生动视频检测结果用于表征非生动视频的目标视频删除之后,将目标视频集合中视频播放时长小于预设最短候选视频时长的视频删除。
在一些实施例中,匹配度确定单元包括:段落语义向量确定模块,被配置成对于解说词中的每个段落,确定与该段落对应的语义向量;候选素材资源语义向量确定模块,被配置成对于候选素材资源集合中的每个候选素材资源,确定与该候选素材资源对应的语义向量;匹配度确定模块,被配置成将解说词中的每个段落对应的语义向量与候选素材资源集合中每个候选素材资源对应的语义向量之间的相似度,确定为相应段落与相应候选素材资源之间的匹配度。
在一些实施例中,候选素材资源语义向量确定模块进一步被配置成:响应于确定该候选素材资源为图像,对该图像候选素材资源进行语义分割,得到该图像候选素材资源对应的至少一个语义标注结果,以及根据所得到的至少一个语义标注结果中每个语义标注结果对应的语义向量确定与该候选素材资源对应的语义向量;响应于确定该候选素材资源为视频,对该视频候选素材资源进行下采样,得到至少一个样本图像;对于至少一个样本图像中的每个样本图像,对该样本图像进行语义分割,得到该样本图像对应的至少一个语义标注结果,以及根据所得到的至少一个语义标注结果中每个语义标注结果对应的语义向量确定与该样本图像对应的语义向量;根据各样本图像对应的语义向量,确定与该候选素材资源对应的语义向量。
在一些实施例中,根据各样本图像对应的语义向量,确定与该候选素材资源对应的语义向量,包括:将各样本图像对应的语义向量的均值向量确定为与该候选素材资源对应的语义向量。
在一些实施例中,根据各样本图像对应的语义向量,确定与该候选素材资源对应的语义向量,包括:将由各样本图像对应的语义向量的各维取值的中间值所对应的向量确定为与该候选素材资源对应的语义向量。
第三方面,本申请实施例提供了一种服务器,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器实现如第一方面中任一实现方式描述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其中,该计算机程序被一个或多个处理器执行时实现如第一方面中任一实现方式描述的方法。
第五方面,本申请实施例提供了另一种服务器,包括:接口;存储器,其上存储有一个或多个程序;以及一个或多个处理器,在操作上连接到上述接口和上述存储器,用于:将对目标新闻簇所包括的各个视频进行语义分割所得到的至少一个视频片段确定为目标视频集合,其中,目标新闻簇内的各个新闻针对同一新闻事件;确定目标新闻簇的解说词;基于目标视频集合和目标图像集合,确定与解说词对应的候选素材资源集合,其中,目标图像集合由目标新闻簇所包括的各个图像组成;对于解说词中的每个段落,确定该段落与候选素材资源集合中每个候选素材资源的匹配度。
第六方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其中,当上述计算机程序被一个或多个处理器执行时,使得上述一个或多个处理器:将对目标新闻簇所包括的各个视频进行语义分割所得到的至少一个视频片段确定为目标视频集合,其中,目标新闻簇内的各个新闻针对同一新闻事件;确定目标新闻簇的解说词;基于目标视频集合和目标图像集合,确定与解说词对应的候选素材资源集合,其中,目标图像集合由目标新闻簇所包括的各个图像组成;对于解说词中的每个段落,确定该段落与候选素材资源集合中每个候选素材资源的匹配度。
为了提高用户获取新闻的效率,现有技术中往往会为新闻簇生成解说词,用户需要阅读文字形式的解说词来获取新闻摘要,没有为解说词生成对应的视频。而本申请实施例提供的用于生成信息的方法和装置,通过基于对目标新闻簇所包括的各个视频进行语义分割所得到的至少一个视频片段和目标新闻簇所包括的各个图像,确定与目标新闻簇的解说词对应的候选素材资源集合,以及计算对于解说词中的每个段落与候选素材资源集合中每个候选素材资源的匹配度,为后续基于候选素材资源为目标新闻簇的解说词生成对应的视频提供了数据来源,继而可以提高后续所生成的与解说词对应的视频与解说词之间的贴合度。另外,现有技术中在确定与文本对应的候选素材资源时,往往直接计算素材资源(例如,视频或图像)与文本的匹配度,而本申请实施例提供的用于生成信息的方法和装置,通过先对目标新闻簇所包括的各视频进行语义分割得到目标视频集合,继而目标视频集合中的视频具有单独语义,在计算目标视频集合中的视频与解说词段落之间的匹配度时,可以提高计算所得的匹配度的准确率,并因此可以进一步提高后续所生成的与解说词对应的视频与解说词之间在更细粒度上的贴合度。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请的一个实施例可以应用于其中的示例性系统架构图;
图2A是根据本申请的用于生成信息的方法的一个实施例的流程图;
图2B是根据本申请的步骤202的一个实施例的分解流程图;
图2C是根据本申请的步骤2022的一个实施例的分解流程图;
图2D是根据本申请的步骤203的一个实施例的分解流程图;
图2E是根据本申请的步骤204的一个实施例的分解流程图;
图2F是根据本申请的步骤2042的一个实施例的分解流程图;
图3是根据本申请的用于生成信息的方法的一个应用场景的示意图;
图4A是根据本申请的用于生成信息的方法的又一个实施例的流程图;
图4B是根据本申请的步骤406的一个实施例的分解流程图;
图4C是根据本申请的步骤4062的一个实施例的分解流程图;
图4D是根据本申请的步骤4062的又一个实施例的分解流程图;
图5是根据本申请的用于生成信息的装置的一个实施例的结构示意图;
图6是适于用来实现本申请实施例的服务器的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的用于生成信息的方法或用于生成信息的装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块,也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的新闻类网站提供支持的后台网站服务器。后台网站服务器可以对接收到的新闻类页面请求等数据进行分析等处理,并将处理结果(例如新闻类网页页面数据)反馈给终端设备。
需要说明的是,本申请实施例所提供的用于生成信息的方法一般由服务器105执行,相应地,用于生成信息的装置一般设置于服务器105中。
需要说明的是,服务器105可以是硬件,也可以是软件。当服务器105为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器105为软件时,可以实现成多个软件或软件模块(例如用来提供新闻网页页面服务),也可以实现成单个软件或软件模块,在此不做具体限定。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2A,其示出了根据本申请的用于生成信息的方法的一个实施例的流程200。该用于生成信息的方法,包括以下步骤:
步骤201,将对目标新闻簇所包括的各个视频进行语义分割所得到的至少一个视频片段确定为目标视频集合。
在本实施例中,用于生成信息的方法的执行主体(例如图1所示的服务器105)可以首先本地或者远程地从与上述执行主体网络连接的电子设备获取目标新闻簇。这里,目标新闻簇由针对同一新闻事件的至少一个新闻组成。
这里,新闻事件是指最近第一预设时长内(例如,三个月之内)发生的事件。
这里,新闻可以是各种形式的针对新闻事件的电子数据,且新闻均可以对应标记有对应的生成时间。新闻可以包括以下至少一项:文本、图像、音频和视频。例如,新闻可以是网页,新闻也可以是各种文档,文档中可以包括以下至少一项:文本、图像、音频和视频。新闻还可以仅仅是文本、图像或者视频。实践中,所获取的新闻也可以标记有对应的新闻事件。
然后,上述执行主体可以将目标新闻簇所包括的各个新闻中的各个视频进行语义分割,得到至少一个视频片段,并将所得到的各个视频片段确定为目标视频集合。
需要说明的是,如何对视频进行语义分割是目前广泛研究和应用的现有技术,在此不再赘述。
步骤202,确定目标新闻簇的解说词。
在本实施例中,上述执行主体(例如图1所示的服务器)可以采用各种实现方式确定目标新闻簇的解说词。其中,上述解说词可以包括至少一个段落。
在本实施例的一些可选的实现方式中,步骤202可以包括如图2B所示的步骤2021到步骤2022。请参考图2B,其示出了根据本申请的步骤202的一个实施例的分解流程图:
步骤2021,对于目标新闻簇中的每个新闻,确定该新闻的适合生成解说词的得分。
这里,上述执行主体可以采用各种实现方式,对于目标新闻簇中的每个新闻,确定该新闻的适合生成解说词的得分。
在一些实现方式中,步骤2021可以如下进行:
首先,提取该新闻在至少一种特征下的特征值。
例如,至少一种特征可以包括但不限于以下特征:新闻所包括的文字字数、新闻所包括的不同词语的词语数量、新闻所包括的图像数量、新闻所包括的视频数量、新闻被阅读的次数、新闻被转发的次数、目标新闻簇中各个新闻所包括的文字字数之和、目标新闻簇中各个新闻所包括的不同词语的词语数量之和、目标新闻簇中各个新闻所包括的图像数量之和、目标新闻簇中各个新闻所包括的视频数量之和、目标新闻簇中各个新闻被阅读的次数之和、目标新闻簇中各个新闻被转发的次数之和。
其次,基于所提取的至少一种特征值,确定该新闻的适合生成解说词的得分。
这里,可以采用各种实现方式基于上述所提取的至少一种特征值,确定该新闻的适合生成解说词的得分。
例如,可以将上述所提取的至少一种特征值,按照为每种特征预先设定的权重进行加权求和,并将加权求和的结果确定为该新闻的适合生成解说词的得分。
又例如,还可以首先确定以下比值:
(1)新闻所包括的文字字数与目标新闻簇中各个新闻所包括的文字字数之和的比值;
(2)新闻所包括的不同词语的词语数量与目标新闻簇中各个新闻所包括的不同词语的词语数量之和的比值;
(3)新闻所包括的图像数量与目标新闻簇中各个新闻所包括的图像数量之和的比值;
(4)新闻所包括的视频数量与目标新闻簇中各个新闻所包括的视频数量之和的比值;
(5)新闻被阅读的次数与目标新闻簇中各个新闻被阅读的次数之和的比值;
(6)新闻被转发的次数与目标新闻簇中各个新闻被转发的次数之和的比值。
然后,可以将上述所确定的每个比值,按照为该比值预先确定的权重进行加权求和,并将加权求和的结果确定为该新闻的适合生成解说词的得分。
在一些实现方式中,步骤2021也可以如下进行:
将该新闻所包括的文本输入预先训练的得分计算模型,得到该新闻的适合生成解说词的得分。
这里,得分计算模型用于表征文本和文本适合生成解说词的得分之间的对应关系。
作为示例,得分计算模型可以是技术人员基于大量的对文本进行特征提取所得到的特征向量和该文本适合生成解说词的得分标注结果的统计而预先制定的、存储有多个特征向量与适合生成解说词的得分的对应关系的对应关系表;也可以是技术人员基于对大量数据的统计而预先设置并存储至上述电子设备中的、对文本进行特征提取所得到的特征向量中的一个或多个数值进行数值计算以得到用于表征该文本适合生成解说词的得分的计算公式。
在一些实现方式中,上述电子设备可以预先按照以下得分计算模型训练步骤训练得到得分计算模型:
首先,可以获取第一训练样本集。
这里,第一训练样本可以包括历史新闻所包括的文本和历史新闻对应的适合生成解说词的标注得分。例如,可以通过人工针对历史新闻标注适合生成解说词的标注得分。
其次,可以确定初始得分计算模型的模型结构以及初始化初始得分计算模型的模型参数。
这里,得分计算模型训练步骤的执行主体可以与用于生成信息的方法的执行主体相同或者不同。如果相同,则得分计算模型训练步骤的执行主体可以在训练得到得分计算模型后将训练好的得分计算模型的模型结构信息和模型参数的参数值存储在本地。如果不同,则得分计算模型训练步骤的执行主体可以在训练得到得分计算模型后将训练好的得分计算模型的模型结构信息和模型参数的参数值发送给用于生成信息的方法的执行主体。
这里,由于得分计算模型可以包括各种类型的计算模型,对于不同类型的计算模型,所需要确定的模型结构信息也不相同。
可选地,初始得分计算模型可以包括卷积神经网络。由于卷积神经网络是一个多层的神经网络,每层由多个二维平面组成,而每个平面由多个独立神经元组成,则这里需要确定卷积神经网络类型的初始特征提取模型包括哪些层(例如,卷积层,池化层,激励函数层等等),层与层之间的连接顺序关系,以及每个层都包括哪些参数(例如,权重weight、偏置bias、卷积的步长)等等。其中,卷积层可以用于提取特征。针对每个卷积层可以确定有多少个卷积核,每个卷积核的大小,每个卷积核中的各个神经元的权重,每个卷积核对应的偏置项,相邻两次卷积之间的步长,是否需要填充,填充多少像素点和填充用的数值(一般是填充为0)等等。而池化层可以用于对输入的信息进行下采样(Down Sample),以压缩数据和参数的量,减少过拟合。针对每个池化层可以确定该池化层的池化方法(例如,取区域平均值或者取区域最大值)。激励函数层用于对输入的信息进行非线性计算。针对每个激励函数层可以确定具体的激励函数。例如,激活函数可以是ReLU以及ReLU各种变种激活函数、Sigmoid函数、Tanh(双曲正切)函数、Maxout函数等等。
然后,可以初始化初始得分计算模型的模型参数。实践中,可以将初始得分计算模型的各个模型参数用一些不同的小随机数进行初始化。“小随机数”用来保证模型不会因权重过大而进入饱和状态,从而导致训练失败,“不同”用来保证模型可以正常地学习。
接着,可以将第一训练样本集中的第一训练样本中的历史新闻所包括的文本和历史新闻对应的适合生成解说词的得分分别作为初始得分计算模型的输入和期望输出,利用机器学习方法训练初始得分计算模型。
具体地,可以首先将第一训练样本集中的第一训练样本中的历史新闻所包括的文本输入初始得分计算模型,得到历史新闻所包括的文本对应的得分。然后,可以计算所得到的得分与该第一训练样本中的标注得分之间的差异。最后,可以基于计算所得的差异,调整初始得分计算模型的模型参数,并在满足预设的第一训练结束条件的情况下,结束训练。例如,这里预设的第一训练结束条件可以包括以下至少一项:训练时间超过第二预设时长,训练次数超过第一预设次数,计算所得的差异小于第一预设差异阈值。
这里,可以采用各种实现方式基于所得到的得分与该第一训练样本中的标注得分之间的差异调整初始得分计算模型的模型参数。例如,可以采用随机梯度下降(SGD,Stochastic Gradient Descent)、牛顿法(Newton's Method)、拟牛顿法(Quasi-NewtonMethods)、共轭梯度法(Conjugate Gradient)、启发式优化方法以及其他现在已知或者未来开发的各种优化算法。
最后,可以将训练得到的初始得分计算模型确定为预先训练的得分计算模型。
步骤2022,基于目标新闻,生成目标新闻簇的解说词。
在步骤2021已经确定了目标新闻簇中的每个新闻的适合生成解说词的得分,这里,上述执行主体可以首先将目标新闻簇中适合生成解说词的得分最高的新闻确定为目标新闻。然后,可以采用各种实现方式,基于目标新闻,生成目标新闻簇的解说词。
在一些实现方式中,步骤2022可以如下进行:对目标新闻所包括的文本进行摘要提取,并将摘要提取所得到的摘要文本确定为目标新闻簇的解说词。
在一些实现方式中,步骤2022也可以包括如图2C所示的步骤20221到步骤20224。
请参考图2C,其示出了根据本申请的步骤2022的一个实施例的分解流程图:
步骤20221,将目标新闻中所包括的文本确定为目标文本。
这里,上述执行主体可以首先将目标新闻簇中适合生成解说词的得分最高的新闻确定为目标新闻。然后,可以将目标新闻中所包括的文本确定为目标文本。
步骤20222,删除目标文本中所包括的不适合解说文本。
这里,上述执行主体可以删除目标文本中所包括的不适合解说文本。其中,不适合解说文本可以为预先确定的不适合解说文本集合中的文本。实践中,不适合解说文本集合可以是技术人员基于对大量历史新闻中所提取的不适合解说的文本(例如,“本报记者讯”,“请看上图”,“请看下图”,“来自前方记者的报道”,“来自前方记者的重大新闻”,“前方记者发来报道”,“新闻记者采访了现场观众”等)的统计而预先制定的文本集合。
经过步骤20222,可以减少目标文本中的无效信息,继而可以增加最后所生成的解说词的有效信息内容比例。
步骤20223,将目标文本中所包括的书面语替换为相同语义的口语。
这里,上述执行主体可以采用各种实现方式将目标文本中所包括的书面语替换为相同语义的口语。这里,上述书面语和口语可以分别为预先确定的书面语和口语对应关系表中的书面语和对应的口语。实践中,上述书面语和口语对应关系表可以是由技术人员基于对大量语料中所提取的书面语和对应相同语义的口语的统计而预先制定的对应关系表。
经过步骤20223,目标文本中的书面语被替换为口语,可以使得目标文本更适合解说使用。
步骤20224,将对目标文本进行提取摘要所得到的摘要文本确定为目标新闻簇的解说词。
在一些实现方式中,上述执行主体可以直接将对目标文本进行提取摘要所得到的摘要文本确定为目标新闻簇的解说词。
在一些实现方式中,步骤20224也可以如下进行:
首先,按照预设最快语速和预设最长音频时长确定解说词最多字数。
这里,预设最快语速用于表征如果要为解说词生成对应的语音,那么所生成的语音单位时间(例如,1秒)内所包括的最多字数。
这里,预设最长音频时长用于表征如果要为解说词生成对应的语音,那么所生成的语音的最长播放时长。例如,如果要为解说词生成对应的短视频,那么预设最长音频时长可以为90秒。
这里,预设最快语速和预设最长视频时长可以是由技术人员预先确定的,当然也可以提供修改预设最快语速和预设最长视频时长的界面,以对预设最快语速和预设最长视频时长进行修改。
有了预设最快语速和预设最长音频时长,即可以将预设最快语速和预设最长音频时长的乘积确定为解说词最多字数。
其次,对目标文本进行摘要提取。
这里,可以采用各种实现方式对目标文本进行摘要提取,且所提取的摘要文本的字数少于所确定的解说词最多字数。
最后,将所提取的摘要文本确定为目标新闻簇的解说词。
这里,可以将所提取的字数少于解说词最多字数的摘要文本确定为目标新闻簇的解说词。
按照上述实现方式确定的解说词的字数可以满足预设最快语速和预设最长音频时长的要求。
需要说明的是,对文本进行摘要提取是目前广泛研究和应用的现有技术,在此不再赘述。
采用图2C所示的可选实现方式实现的步骤2022,可以使得目标新闻所包括的文本减少不适合解说的文本比例,继而增加适合解说的文本比例,以及通过将书面语替换为口语,目标新闻所包括的文本更适合生成符合人类讲话习惯的解说词。
步骤203,基于目标视频集合和目标图像集合,确定与解说词对应的候选素材资源集合。
在本实施例中,上述执行主体可以采用各种实现方式,基于目标视频集合和目标图像集合,确定与解说词对应的候选素材资源集合。这里,目标图像集合由目标新闻簇所包括的各个图像组成。需要说明的是,所确定的候选素材资源集合中的候选素材资源可以为视频或图像。
在本实施例的一些可选的实现方式中,步骤203可以如下进行:合并目标视频集合和目标图像集合得到与解说词对应的候选素材资源集合。
在本实施例的一些可选的实现方式中,步骤203也可以包括如图2D所示的步骤2031到步骤2033。请参考图2D,其示出了根据本申请的步骤203的一个实施例的分解流程图:
步骤2031,对于目标视频集合中的每个目标视频,将该目标视频输入预先训练的生动视频检测模型,得到与该目标视频对应的生动视频检测结果。
需要说明的是,上述生动视频检测模型用于表征视频和用于表征是否是生动视频的生动视频检测结果之间的对应关系。这里,生动视频检测模型可以通过如下生动视频检测模型训练步骤预先训练得到的:
首先,可以获取第二训练样本集。
这里,生动视频检测模型训练步骤的执行主体可以与用于生成信息的方法的执行主体相同或者不同。如果相同,则生动视频检测模型训练步骤的执行主体可以在训练得到生动视频检测模型后将训练好的生动视频检测模型的模型结构信息和模型参数的参数值存储在本地。如果不同,则生动视频检测模型训练步骤的执行主体可以在训练得到生动视频检测模型后将训练好的生动视频检测模型的模型结构信息和模型参数的参数值发送给用于生成信息的方法的执行主体。
这里,第二训练样本可以包括历史新闻视频和用于表征历史视频是否是生动视频的标注结果。实践中,可以通过人工针对历史新闻视频是否是生动视频的标注结果。
这里,所谓生动视频即为用户感兴趣并希望观看的视频,而非生动视频为用户不感兴趣并不希望观看的视频。
例如,对于主持人坐在演播室中说道:“今天是2019年2月1日,星期五”这个视频片段可以标注为非生动视频,对于某国家领导人走下飞机并会见另外一个国家的领导人的视频片段可以标注为生动视频等等。
其次,可以确定初始生动视频检测模型的模型结构以及初始化生动视频检测模型的模型参数。
这里,由于生动视频检测模型可以包括各种类型的模型,对于不同类型的模型,所需要确定的模型结构信息也不相同。
可选地,初始生动视频检测模型可以包括神经网络,则这里需要确定初始生动视频检测模型哪些层(例如,卷积层,池化层,激励函数层等等),层与层之间的连接顺序关系,以及每个层都包括哪些参数(例如,权重weight、偏置bias、卷积的步长)等等。
然后,可以初始化初始生动视频检测模型的模型参数。实践中,可以将初始生动视频检测模型的各个模型参数用一些不同的小随机数进行初始化。“小随机数”用来保证模型不会因权重过大而进入饱和状态,从而导致训练失败,“不同”用来保证模型可以正常地学习。
接着,可以将第二训练样本集中的第二训练样本中的历史新闻视频和历史新闻视频对应的标注结果分别作为初始生动视频检测模型的输入和期望输出,利用机器学习方法训练初始生动视频检测模型。
具体地,可以首先将第二训练样本集中的第二训练样本中的历史新闻视频输入初始生动视频检测模型,得到历史新闻视频是否是生动视频的实际生动视频检测结果。然后,可以计算所得到的实际生动视频检测结果与该第二训练样本中的标注结果之间的差异。最后,可以基于计算所得的差异,调整初始生动视频检测模型的模型参数,并在满足预设的第二训练结束条件的情况下,结束训练。例如,这里预设的第二训练结束条件可以包括以下至少一项:训练时间超过第三预设时长,训练次数超过第二预设次数,计算所得的差异小于第二预设差异阈值。
这里,可以采用各种实现方式基于计算所得到的实际生动视频检测结果与该训练样本中的标注结果之间的差异调整初始生动视频检测模型的模型参数。例如,可以采用随机梯度下降、牛顿法、拟牛顿法、共轭梯度法、启发式优化方法以及其他现在已知或者未来开发的各种优化算法。
最后,可以将训练得到的初始生动视频检测模型确定为预先训练的生动视频检测模型。
步骤2032,将目标视频集合中对应的生动视频检测结果用于表征非生动视频的目标视频删除。
即,这里删除了目标视频集合中的非生动视频,保留了目标视频集合中的生动视频。
步骤2033,合并目标视频集合和目标图像集合得到与解说词对应的候选素材资源集合。
按照图2D所示的实现方式所得到的候选素材资源集合中的视频中去掉了非生动视频,保留了生动视频。由于候选素材资源集合中素材资源数量减少了,可以减少后续计算解说词中各个段落与候选素材资源集合中各素材资源之间匹配度的计算次数,继而减少计算机的资源(例如CPU资源、存储资源和I/O资源)消耗。
在一些实现方式中,上述执行主体还可以在执行步骤2033之前执行以下步骤2034:
步骤2034,将目标视频集合中视频播放时长小于预设最短候选视频时长的视频删除。
这里,对于目标视频集合中播放时长小于预设最短候选视频时长的视频,该视频所体现的内容太少,那么该视频可能没有存在价值,需要将该视频从目标视频集合中删除,以减少候选素材资源集合中素材资源数量,继而减少后续计算解说词中各个段落与候选素材资源集合中各素材资源之间匹配度的计算次数,继而减少计算机的计算资源(例如CPU资源、存储资源和I/O资源)消耗。
在本实施例的一些可选的实现方式中,步骤203还可以如下进行:
首先,将目标视频集合中视频播放时长小于预设最短候选视频时长的视频删除。
然后,合并目标视频集合和目标图像集合得到与解说词对应的候选素材资源集合。
步骤204,对于解说词中的每个段落,确定该段落与候选素材资源集合中每个候选素材资源的匹配度。
在本实施例中,上述执行主体可以采用各种实现方式,对于解说词中的每个段落,确定该段落与候选素材资源集合中每个候选素材资源的匹配度。
具体地,由于候选素材资源可以为视频或图像,这里可以采用各种计算文本与视频之间匹配度的方法计算解说词中的每个段落与候选素材资源集合中的视频之间的匹配度,以及可以采用各种计算文本与图像之间匹配度的方法计算解说词中的每个段落与候选素材资源集合中的图像之间的匹配度,本申请对此不做具体限定。
在本实施例的一些可选的实现方式中,步骤204可以包括如图2E所示的步骤2041到步骤2043。请参看图2E,其示出了根据本申请的步骤204的一个实施例的分解流程图:
步骤2041,对于解说词中的每个段落,确定与该段落对应的语义向量。
这里,可以采用各种实现方式确定段落对应的语义向量,即将段落表示成向量形式以便于计算。
例如,可以采用词袋模型来生成段落对应的语义向量。具体而言,设V是词袋模型中词典所包括的词语数目,那么,对于段落P而言,设P中所包括的词典中第1个词到第V个词的数目分别为x1到xV,那么段落P对应的语义向量即为{x1,x2,…,xV}。
又例如,还可以对段落进行分词处理,得到段落对应的分词序列,再对所得到的分词序列中的每个分词,在预先确定的词向量表中查询与该分词对应的词向量,然后再根据所得到的分词序列中的每个分词对应的词向量确定与该段落对应的语义向量。例如,可以将所得到的分词序列中的各个分词对应的词向量的均值向量确定为该段落对应的语义向量。又例如,还可以将所得到的分词序列中的各个分词对应的词向量的各维取值的中间值所对应的向量确定为该段落对应的语义向量。这里,词向量表用于表征词和词向量之间的对应关系。词向量表可以是预先训练得到的。例如,可以采用基于统计的方法或者基于语言模型的方法训练得到词向量表。
例如,基于统计的方法可以是共现矩阵法,其通过统计一个事先指定大小的窗口内的词语共现次数,以词语周边的共现词的次数做为当前词语的词向量。具体来说,可以通过从大量的语料文本中构建共现矩阵来定义该语料文本中所出现的词语中每个词语对应的词向量,继而得到词向量表。
又例如,基于统计的方法也可以是奇异值分解法。由于共现矩阵法存在高维和稀疏性的问题,奇异值分解法就是对共现矩阵法得到的矩阵,进行奇异值分解,得到正交矩阵,再对正交矩阵进行归一化即得到矩阵来定义该语料文本中所出现的词语中每个词语对应的词向量,继而得到词向量表。
基于语言模型生成词向量表是通过训练神经网络语言模型(NNLM,NeuralNetwork Language Model),词向量表作为语言模型的附带产出。NNLM背后的基本思想是对出现在上下文环境里的词进行预测,这种对上下文环境的预测本质上也是一种对共现统计特征的学习。作为示例,采用NNLM生成词向量的方法可以包括但不限于以下各种方法:Skip-gram、CBOW、LBL、NNLM、C&W、GloVe等。
步骤2042,对于候选素材资源集合中的每个候选素材资源,确定与该候选素材资源对应的语义向量。
这里,可以采用各种实现方式确定与候选素材资源对应的语义向量。
在一些实现方式中,步骤2042可以包括如图2F所示的步骤20421到步骤20423。请参考图2F,其示出了根据本申请的步骤2042的一个实施例的分解流程图:
步骤20421,确定该候选素材资源为图像还是视频。
如果确定该候选素材资源为图像,则转到步骤20422。
如果确定该候选素材资源为视频,则转到步骤20422’。
步骤20422,对该图像候选素材资源进行语义分割,得到该图像候选素材资源对应的至少一个语义标注结果。
这里,可以在步骤20421中确定该候选素材资源为图像的情况下,采用各种实现方式对该图像候选素材资源进行语义分割,得到该图像候选素材资源对应的至少一个语义标注结果,其中,每个语义标注结果可以是一个词语或者短语。例如,如果该图像候选素材资源是一张描述一只狮子在草原上追逐羚羊的图像,那么,对该图像进行语义分割所得到的至少一个语义标注结果可以为{“狮子”,“草原”,“羚羊”}。
需要说明的是,如何对图像进行语义分割是目前广泛研究和应用的现有技术,在此不再赘述。
步骤20423,根据所得到的至少一个语义标注结果中每个语义标注结果对应的语义向量确定与该候选素材资源对应的语义向量。
步骤20422中已经得到了至少一个语义标注结果,这里,可以首先确定步骤20422中所得到的至少一个语义标注结果中每个语义标注结果对应的语义向量。然后,可以根据至少一个语义标注结果中每个语义标注结果对应的语义向量确定与该候选素材资源对应的语义向量,例如可以采用均值向量或者中值向量的方法。
这里,确定每个语义标注结果对应的词向量的方法可以参考步骤2041中的相关描述。
经过步骤20423,就完成了步骤2042。
步骤20422’,对该视频候选素材资源进行下采样,得到至少一个样本图像。
这里,可以在步骤2041中确定该候选素材资源为视频的情况下,采用各种实现方式对该视频候选素材资源进行下采样,得到至少一个样本图像。例如,可以在该候选素材资源中每隔第一预设数目(例如,10)帧图像采样第二预设数目(例如,1)帧图像,得到至少一个样本图像。
步骤20423’,对于至少一个样本图像中的每个样本图像,对该样本图像进行语义分割,得到该样本图像对应的至少一个语义标注结果,以及根据所得到的至少一个语义标注结果中每个语义标注结果对应的语义向量确定与该样本图像对应的语义向量。
这里,步骤20423’中对每个样本图像进行语义分割,以及对每个样本图像,根据所得到的至少一个语义标注结果中每个语义标注结果对应的语义向量确定与该样本图像对应的语义向量的具体操作与步骤20423描述的相应具体操作基本相同,在此不再赘述。
步骤20424’,根据各样本图像对应的语义向量,确定与该候选素材资源对应的语义向量。
由于已经在步骤20423’中得到了每个样本图像对应的语义向量,这里可以根据步骤20423’所得到的各样本图像对应的语义向量,确定与该候选素材资源对应的语义向量。例如,可以将各样本图像对应的语义向量的均值向量确定为与该候选素材资源对应的语义向量。又例如,也可以将将各样本图像对应的语义向量的各维取值的中间值所对应的向量确定为与该候选素材资源对应的语义向量。
经过步骤20424’,就完成了步骤2042。
步骤2043,将解说词中的每个段落对应的语义向量与候选素材资源集合中每个候选素材资源对应的语义向量之间的相似度,确定为相应段落与相应候选素材资源之间的匹配度。
这里,可以采用各种计算向量与向量之间的相似度的方法计算解说词中的每个段落对应的语义向量与候选素材资源集合中每个候选素材资源对应的语义向量之间的相似度。例如,可以通过计算向量之间的欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、标准化欧氏距离、马氏距离、余弦相似度、汉明距离、杰卡德距离、杰卡德相似系数、相关系数、相关距离和信息熵等,确定向量之间的相似度。
继续参见图3,图3是根据本实施例的用于生成信息的方法的应用场景的一个示意图。在图3的应用场景中,对新闻类网站提供支持的服务器301可以将对目标新闻簇302所包括的各个视频进行语义分割所得到的至少一个视频片段确定为目标视频集合303;然后,服务器301可以确定目标新闻簇的解说词304;接着,服务器301可以基于目标视频集合和目标图像集合,确定与解说词对应的候选素材资源集合305;最后,服务器301可以对于解说词中的每个段落,确定该段落与候选素材资源集合中每个候选素材资源的匹配度306。
通常情况下,往往只为多篇针对同一新闻事件的新闻簇生成解说词,用户需要阅读文字形式的解说词来获取新闻摘要,以快速了解新闻事件内容,并没有为新闻簇生成对应的解说视频。本申请的上述实施例提供的用于生成信息的方法,通过基于对目标新闻簇所包括的各个视频进行语义分割所得到的至少一个视频片段和目标新闻簇所包括的各个图像,确定与目标新闻簇的解说词对应的候选素材资源集合,以及确定解说词中的每个段落与候选素材资源集合中每个候选素材资源的匹配度,为后续使用候选素材资源为解说词生成对应的视频提供了数据来源,继而可以提高后续所生成的与解说词对应的视频与解说词之间的贴合度。另外,现有技术中在确定与文本对应的候选素材资源时,往往直接计算素材资源(例如,视频或图像)与文本的匹配度,而本申请的上述实施例提供的用于生成信息的方法,通过先对目标新闻簇所包括的各视频进行语义分割得到目标视频集合,继而目标视频集合中的每个视频具有单独语义,在计算目标视频集合中的视频与解说词段落之间的匹配度时,可以提高计算所得的匹配度的准确率,并因此可以进一步提高后续所生成的与解说词对应的视频与解说词之间在更细粒度上的贴合度。
进一步参考图4A,其示出了用于生成信息的方法的又一个实施例的流程400。该用于生成信息的方法的流程400,包括以下步骤:
步骤401,将对目标新闻簇所包括的各个视频进行语义分割所得到的至少一个视频片段确定为目标视频集合。
步骤402,确定目标新闻簇的解说词。
步骤403,基于目标视频集合和目标图像集合,确定与解说词对应的候选素材资源集合。
步骤404,对于解说词中的每个段落,确定该段落与候选素材资源集合中每个候选素材资源的匹配度。
在本实施例中,步骤401、步骤402、步骤403和步骤404的具体操作与图2A所示的实施例中步骤201、步骤202、步骤203和步骤204的操作基本相同,在此不再赘述。
步骤405,基于解说词中各段落与各候选素材资源之间的匹配度、各候选素材资源的播放时长以及解说词中各段落的文本长度,确定与解说词中的每个段落对应的候选素材资源序列。
在本实施例中,用于生成信息的方法的执行主体(例如图1所示的服务器105)可以在步骤404中确定了解说词中的每个段落与候选素材资源集合中每个候选素材资源之间的匹配度后,基于解说词中各段落与各候选素材资源之间的匹配度、各候选素材资源的播放时长以及解说词中各段落的文本长度,确定与解说词中的每个段落对应的候选素材资源序列。需要说明的是,这里,视频类型的候选素材资源的播放时长是视频类型的候选素材资源的固有属性,是不变的。而对于图像类型的候选素材资源,实践中,可以将每个图像类型的候选素材资源的播放时长设定为固定不变的预设播放时长(例如,3秒钟)。这样所有的候选素材资源都可以具有固定的播放时长属性。
在本实施例的一些可选的实现方式中,步骤405可以如下进行:
对于解说词中的每个段落,利用第一预设优化算法,以与该段落对应的候选素材资源序列的播放时长等于该段落对应的播放时长为约束条件,以与该段落对应的候选素材资源序列与该段落的匹配度最大为优化目标,确定与该段落对应的候选素材资源序列。
即,分别对于解说词中的每个段落,从步骤403中所确定的候选素材资源集合中选取顺序排列的候选素材资源组成与该段落对应的候选素材资源序列,而且所选取的与该段落对应的候选素材资源序列的播放时长等于该段落对应的播放时长。
这里,候选素材资源序列的播放时长是候选素材资源序列中各候选素材资源的播放时长之和。而段落对应的播放时长是由段落中的字数以及预设语速所确定的。例如,设预设语速为每秒钟N个字,段落中的字数为M个字,则段落对应的播放时长为L秒,其中,L为M除以N所得到的比值。
这里,第一预设优化算法可以是各种可以解决带有约束条件和优化目标的优化算法。例如,第一预设优化算法可以包括但不限于:动态规划算法和路径最短优化算法。
在本实施例的一些可选的实现方式中,步骤405也可以如下进行:
利用第二预设优化算法,以与解说词中各段落对应的候选素材资源序列的播放时长等于该段落对应的播放时长为约束条件,以与解说词中各段落对应的候选素材资源序列与相应段落的匹配度之和最大为优化目标,确定与解说词中各段落对应的候选素材资源序列。
相比于上述可选实现方式,这里的优化目标与上述可选实现方式的优化目标不同。上述可选实现方式中分别对每个段落进行优化,以每个段落与该段落对应的候选素材资源序列的匹配度最大为优化目标。而这里的可选实现方式则对解说词中的各个段落总体进行优化,以解说词中各段落对应的候选素材资源序列与相应段落的匹配度之和最大为优化目标。
这里,第二预设优化算法也可以是各种可以解决带有约束条件和优化目标的优化算法。例如,第二预设优化算法可以包括但不限于:动态规划算法和路径最短优化算法。
在本实施例的一些可选的实现方式中,步骤405中所确定的解说词中各段落对应的候选素材资源序列中的候选素材资源可以互不相同。这样,在后续为解说词生成对应的视频中不会出现重复的图像或者视频,可以增加所生成的视频的可读性和生动性。可以理解的是,如果步骤405中所确定的解说词中各段落对应的候选素材资源序列中的候选素材资源互不相同,那么对于上述两种可选实现方式中的约束条件中需要加入所确定的解说词中各段落对应的候选素材资源序列中的候选素材资源互不相同这个约束条件。
步骤406,基于解说词中的每个段落对应的候选素材资源序列,生成与解说词对应的视频。
在本实施例中,上述执行主体可以基于步骤405中所确定的与解说词中的每个段落对应的候选素材资源序列,生成与解说词对应的视频。
在本实施例的一些可选的实现方式中,步骤406可以包括如图4B所示的步骤4061和步骤4062。请参考图4B,其示出了根据本申请的步骤406的一个实施例的分解流程图:
步骤4061,对于解说词中的每个段落,利用语音合成技术生成与该段落对应的语音。
需要说明的是,语音合成技术是目前广泛研究和应用的现有技术,在此不再赘述。
步骤4062,基于解说词中的每个段落对应的语音和候选素材资源序列,生成与解说词对应的视频。
在一些实现方式中,步骤4062可以如下进行:
首先,可以按照解说词中各段落从前到后的顺序,将与各段落对应的语音连接起来,得到第一音频。
其次,可以按照解说词中各段落从前到后的顺序,将与各段落对应的视频连接起来,得到第一视频。
这里,段落对应的视频是顺序连接该段落对应的候选素材资源序列中的候选素材资源得到的视频。
最后,将所得到的第一音频和第一视频分别确定为与解说词对应的视频中的音频部分和视频部分。
在一些实现方式中,步骤4062也可以包括如图4C所示的步骤40621到步骤40626。请参考图4C,其示出了根据本申请的步骤4062的一个实施例的分解流程图:
步骤40621,对于解说词中的每个段落,将该段落输入预先训练的视频提前播放时间确定模型,得到与该段落对应的视频提前播放时长。
这里,视频提前播放时长确定模型用于表征文本和文本对应的视频提前播放时长之间的对应关系。
实践中,人工剪辑的新闻视频中通常都是在主持人讲话之前,视频已经开始播放一小段时间。为了使得针对解说词生成的视频更符合人类观看习惯,更像人工剪辑的新闻视频,可以预先基于大量的第三训练样本训练视频提前播放时间确定模型,这里第三训练样本可以包括样本新闻视频中所包括的文本和该样本新闻视频中视频先于解说词语音的标注时长。训练视频提前播放时间确定模型的步骤可以与上述训练得分计算模型的步骤或者训练生动视频检测模型的步骤基本相同,在此不再赘述。
步骤40622,对于解说词中除最后一个段落以外的每个段落,按照该段落在解说词中从前到后的顺序,执行段落视频剪辑步骤。
这里,段落视频剪辑步骤可以包括以下操作:
第一,将该段落的下一个段落对应的视频提前播放时长确定为视频剪除时长。
第二,顺序连接与该段落对应的候选素材资源序列中的各候选素材资源,得到与该段落对应的视频。
第三,将与该段落对应的视频尾部剪除视频剪除时长的视频。
即,该方案是采用将解说词中除第一个段落以外的每个段落,将该段落对应的视频提前播放,并覆盖掉该段落的前一个段落的视频的尾部,而视频提前播放和视频覆盖的时长就是步骤40621中所确定的该段落对应的视频提前播放时长。
步骤40623,顺序连接解说词中的最后一个段落对应的候选素材资源序列中的各候选素材资源,得到与最后一段段落对应的视频。
步骤40624,按照解说词中各段落从前到后的顺序,将与各段落对应的视频连接起来,得到第二视频。
步骤40625,按照解说词中各段落从前到后的顺序,将与各段落对应的语音连接起来,得到第二音频。
步骤40626,将所得到的第二音频和第二视频分别确定为与解说词对应的视频中的音频和视频部分。
在一些实现方式中,步骤4062也可以包括如图4D所示的步骤40621’到步骤40625’。请参考图4D,其示出了根据本申请的步骤4062的又一个实施例的分解流程图:
步骤40621’,对于解说词中的每个段落,将该段落输入预先训练的视频提前播放时间确定模型,得到与该段落对应的视频提前播放时长。
这里,步骤40621’的具体操作与步骤40621的操作基本相同,在此不再赘述。
步骤40622’,对于解说词中除最后一个段落以外的每个段落,按照该段落在解说词中从前到后的顺序,执行段落音频延长步骤。
这里,段落音频延长步骤可以包括以下操作:
第一,将该段落的下一个段落对应的视频提前播放时长确定为音频延长时长。
第二,将与该段落对应的语音尾部添加所确定的音频延长时长的无声播放时长。
即,该方案是采用将解说词中除第一个段落以外的每个段落,将该段落对应的视频提前播放,并在该段落的前一个段落的音频的尾部增加无声播放时长,而视频提前播放和音频延长的时长就是步骤40621’中所确定的该段落对应的视频提前播放时长。
步骤40623’,按照解说词中各段落从前到后的顺序,将与各段落对应的语音连接起来,得到第三音频。
步骤40624’,按照解说词中各段落从前到后的顺序,将与各段落对应的视频连接起来,得到第三视频。
这里,段落对应的视频是顺序连接该段落对应的候选素材资源序列中的候选素材资源得到的视频。
步骤40625’,将所得到的第三音频和第三视频分别确定为与解说词对应的视频中的音频和视频部分。
步骤407,将与解说词对应的视频发送给终端设备。
在本实施例中,上述执行主体可以将步骤406中所生成的与解说词对应的视频发送给终端设备。这里,终端设备可以是与上述执行主体网络连接的电子设备。这样,上述终端设备可以响应于接收到上述执行主体发送的视频,呈现所收到的视频,继而实现了在终端设备上呈现目标新闻簇的解说词对应的视频。用户在终端设备上通过收看到所呈现的目标新闻簇的解说词对应的视频,就可以快速了解目标新闻簇所针对的新闻事件,而不需用户通过阅读文字来了解目标新闻簇所针对的新闻事件,提高了用户获取新闻事件的效率。
从图4A中可以看出,与图2A对应的实施例相比,本实施例中的用于生成信息的方法的流程400多出了确定与解说词中的每个段落对应的候选素材资源序列,基于解说词中的每个段落对应的候选素材资源序列,生成与解说词对应的视频,以及将与解说词对应的视频发送给终端设备的步骤。由此,本实施例描述的方案可以在终端设备呈现所收到的目标新闻簇对应的视频。用户在终端设备上收看到所呈现的目标新闻簇的解说词对应的视频,就可以快速了解目标新闻簇所针对的新闻事件,而不需用户通过阅读文字来了解目标新闻簇所针对的新闻事件,提高了用户通过终端设备获取新闻事件的效率,也就是扩展了终端设备的呈现信息的功能。
进一步参考图5,作为对上述各图所示方法的实现,本申请提供了一种用于生成信息的装置的一个实施例,该装置实施例与图2A所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图5所示,本实施例的用于生成信息的装置500包括:语义分割单元501、解说词确定单元502、候选素材资源集合确定单元503和匹配度确定单元504。其中,语义分割单元501,被配置成将对目标新闻簇所包括的各个视频进行语义分割所得到的至少一个视频片段确定为目标视频集合,其中,上述目标新闻簇内的各个新闻针对同一新闻事件;解说词确定单元502,被配置成确定上述目标新闻簇的解说词;候选素材资源集合确定单元503,被配置成基于上述目标视频集合和目标图像集合,确定与上述解说词对应的候选素材资源集合,其中,上述目标图像集合由上述目标新闻簇所包括的各个图像组成;而匹配度确定单元504,被配置成对于上述解说词中的每个段落,确定该段落与上述候选素材资源集合中每个候选素材资源的匹配度。
在本实施例中,用于生成信息的装置500的语义分割单元501、解说词确定单元502、候选素材资源集合确定单元503和匹配度确定单元504的具体处理及其所带来的技术效果可分别参考图2A对应实施例中步骤201、步骤202、步骤203和步骤204的相关说明,在此不再赘述。
在本实施例的一些可选的实现方式中,上述装置500还可以包括:候选素材资源序列确定单元505,被配置成基于上述解说词中各段落与各上述候选素材资源之间的匹配度、各上述候选素材资源的播放时长以及上述解说词中各段落的文本长度,确定与上述解说词中的每个段落对应的候选素材资源序列;视频生成单元506,被配置成基于上述解说词中的每个段落对应的候选素材资源序列,生成与上述解说词对应的视频。
在本实施例的一些可选的实现方式中,上述装置500还可以包括:视频发送单元507,被配置成将与上述解说词对应的视频发送给终端设备,以供上述终端设备呈现所收到的视频。
在本实施例的一些可选的实现方式中,上述视频生成单元506可以包括:语音合成模块5061,被配置成对于上述解说词中的每个段落,利用语音合成技术生成与该段落对应的语音;视频生成模块5062,被配置成基于上述解说词中的每个段落对应的语音和候选素材资源序列,生成与上述解说词对应的视频。
在本实施例的一些可选的实现方式中,上述候选素材资源集合确定单元503可以进一步被配置成:合并上述目标视频集合和上述目标图像集合得到与上述解说词对应的候选素材资源集合。
在本实施例的一些可选的实现方式中,上述候选素材资源集合确定单元503也可以进一步被配置成:对于上述目标视频集合中的每个目标视频,将该目标视频输入预先训练的生动视频检测模型,得到与该目标视频对应的生动视频检测结果,其中,上述生动视频检测模型用于表征视频和用于表征是否是生动视频的生动视频检测结果之间的对应关系;将上述目标视频集合中对应的生动视频检测结果用于表征非生动视频的目标视频删除;合并上述目标视频集合和上述目标图像集合得到与上述解说词对应的候选素材资源集合。
在本实施例的一些可选的实现方式中,上述候选素材资源集合确定单元还可以进一步被配置成:在将上述目标视频集合中对应的生动视频检测结果用于表征非生动视频的目标视频删除之后,将上述目标视频集合中视频播放时长小于预设最短候选视频时长的视频删除。
在本实施例的一些可选的实现方式中,上述匹配度确定单元504可以包括:段落语义向量确定模块5041,被配置成对于上述解说词中的每个段落,确定与该段落对应的语义向量;候选素材资源语义向量确定模块5042,被配置成对于上述候选素材资源集合中的每个候选素材资源,确定与该候选素材资源对应的语义向量;匹配度确定模块5043,被配置成将上述解说词中的每个段落对应的语义向量与上述候选素材资源集合中每个候选素材资源对应的语义向量之间的相似度,确定为相应段落与相应候选素材资源之间的匹配度。
在本实施例的一些可选的实现方式中,上述候选素材资源语义向量确定模块5042可以进一步被配置成:响应于确定该候选素材资源为图像,对该图像候选素材资源进行语义分割,得到该图像候选素材资源对应的至少一个语义标注结果,以及根据所得到的至少一个语义标注结果中每个语义标注结果对应的语义向量确定与该候选素材资源对应的语义向量;响应于确定该候选素材资源为视频,对该视频候选素材资源进行下采样,得到至少一个样本图像;对于上述至少一个样本图像中的每个样本图像,对该样本图像进行语义分割,得到该样本图像对应的至少一个语义标注结果,以及根据所得到的至少一个语义标注结果中每个语义标注结果对应的语义向量确定与该样本图像对应的语义向量;根据各上述样本图像对应的语义向量,确定与该候选素材资源对应的语义向量。
在本实施例的一些可选的实现方式中,上述根据各上述样本图像对应的语义向量,确定与该候选素材资源对应的语义向量,可以包括:将各上述样本图像对应的语义向量的均值向量确定为与该候选素材资源对应的语义向量。
在本实施例的一些可选的实现方式中,上述根据各上述样本图像对应的语义向量,确定与该候选素材资源对应的语义向量,可以包括:将由各上述样本图像对应的语义向量的各维取值的中间值所对应的向量确定为与该候选素材资源对应的语义向量。
需要说明的是,本申请实施例提供的用于生成信息的装置中各单元的实现细节和技术效果可以参考本申请中其它实施例的说明,在此不再赘述。
下面参考图6,其示出了适于用来实现本申请实施例的服务器的计算机系统600的结构示意图。图6示出的服务器仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,计算机系统600包括一个或多个中央处理单元(CPU,CentralProcessing Unit)601,其可以根据存储在只读存储器(ROM,Read Only Memory)602中的程序或者从存储部分608加载到随机访问存储器(RAM,Random Access Memory)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O,Input/Output)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT,Cathode Ray Tube)、液晶显示器(LCD,Liquid Crystal Display)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN(局域网,Local AreaNetwork)卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括语义分割单元、解说词确定单元、候选素材资源集合确定单元和匹配度确定单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,语义分割单元还可以被描述为“将对目标新闻簇所包括的各个视频进行语义分割所得到的至少一个视频片段确定为目标视频集合的单元”。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该装置执行时,使得该装置:将对目标新闻簇所包括的各个视频进行语义分割所得到的至少一个视频片段确定为目标视频集合,其中,目标新闻簇内的各个新闻针对同一新闻事件;确定目标新闻簇的解说词;基于目标视频集合和目标图像集合,确定与解说词对应的候选素材资源集合,其中,目标图像集合由目标新闻簇所包括的各个图像组成;对于解说词中的每个段落,确定该段落与候选素材资源集合中每个候选素材资源的匹配度。
作为又一方面,本申请实施例还提供了另一种服务器,包括:接口;存储器,其上存储有一个或多个程序;以及一个或多个处理器,在操作上连接到上述接口和上述存储器,用于:将对目标新闻簇所包括的各个视频进行语义分割所得到的至少一个视频片段确定为目标视频集合,其中,目标新闻簇内的各个新闻针对同一新闻事件;确定目标新闻簇的解说词;基于目标视频集合和目标图像集合,确定与解说词对应的候选素材资源集合,其中,目标图像集合由目标新闻簇所包括的各个图像组成;对于解说词中的每个段落,确定该段落与候选素材资源集合中每个候选素材资源的匹配度。
作为又一方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其中,当上述计算机程序被一个或多个处理器执行时,使得上述一个或多个处理器:将对目标新闻簇所包括的各个视频进行语义分割所得到的至少一个视频片段确定为目标视频集合,其中,目标新闻簇内的各个新闻针对同一新闻事件;确定目标新闻簇的解说词;基于目标视频集合和目标图像集合,确定与解说词对应的候选素材资源集合,其中,目标图像集合由目标新闻簇所包括的各个图像组成;对于解说词中的每个段落,确定该段落与候选素材资源集合中每个候选素材资源的匹配度。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (22)
1.一种用于生成信息的方法,包括:
将对目标新闻簇所包括的各个视频进行语义分割所得到的至少一个视频片段确定为目标视频集合,其中,所述目标新闻簇内的各个新闻针对同一新闻事件;
确定所述目标新闻簇的解说词;
基于所述目标视频集合和目标图像集合,确定与所述解说词对应的候选素材资源集合,其中,所述目标图像集合由所述目标新闻簇所包括的各个图像组成;
对于所述解说词中的每个段落,确定该段落与所述候选素材资源集合中每个候选素材资源的匹配度;
利用预设优化算法,以与所述解说词中各段落对应的候选素材资源序列的播放时长等于该段落对应的播放时长为约束条件,以与所述解说词中各段落对应的候选素材资源序列与相应段落的匹配度之和最大,或以与各段落对应的候选素材资源序列与该段落的匹配度最大为优化目标,确定与所述解说词中各段落对应的候选素材资源序列;
基于所述解说词中的每个段落对应的候选素材资源序列,生成与所述解说词对应的视频。
2.根据权利要求1所述的方法,其中,所述方法还包括:
将与所述解说词对应的视频发送给终端设备,以供所述终端设备呈现所收到的视频。
3.根据权利要求2所述的方法,其中,所述基于所述解说词中的每个段落对应的候选素材资源序列,生成与所述解说词对应的视频,包括:
对于所述解说词中的每个段落,利用语音合成技术生成与该段落对应的语音;
基于所述解说词中的每个段落对应的语音和候选素材资源序列,生成与所述解说词对应的视频。
4.根据权利要求3所述的方法,其中,所述基于所述目标视频集合和目标图像集合,确定与所述解说词对应的候选素材资源集合,包括:
合并所述目标视频集合和所述目标图像集合得到与所述解说词对应的候选素材资源集合。
5.根据权利要求3所述的方法,其中,所述基于所述目标视频集合和目标图像集合,确定与所述解说词对应的候选素材资源集合,包括:
对于所述目标视频集合中的每个目标视频,将该目标视频输入预先训练的生动视频检测模型,得到与该目标视频对应的生动视频检测结果,其中,所述生动视频检测模型用于表征视频和用于表征是否是生动视频的生动视频检测结果之间的对应关系;
将所述目标视频集合中对应的生动视频检测结果用于表征非生动视频的目标视频删除;
合并所述目标视频集合和所述目标图像集合得到与所述解说词对应的候选素材资源集合。
6.根据权利要求5所述的方法,其中,在将所述目标视频集合中对应的生动视频检测结果用于表征非生动视频的目标视频删除之后,所述方法还包括:
将所述目标视频集合中视频播放时长小于预设最短候选视频时长的视频删除。
7.根据权利要求3所述的方法,其中,所述对于所述解说词中的每个段落,确定该段落与所述候选素材资源集合中每个候选素材资源的匹配度,包括:
对于所述解说词中的每个段落,确定与该段落对应的语义向量;
对于所述候选素材资源集合中的每个候选素材资源,确定与该候选素材资源对应的语义向量;
将所述解说词中的每个段落对应的语义向量与所述候选素材资源集合中每个候选素材资源对应的语义向量之间的相似度,确定为相应段落与相应候选素材资源之间的匹配度。
8.根据权利要求7所述的方法,其中,所述对于所述候选素材资源集合中的每个候选素材资源,确定与该候选素材资源对应的语义向量,包括:
响应于确定该候选素材资源为图像,对该图像候选素材资源进行语义分割,得到该图像候选素材资源对应的至少一个语义标注结果,以及根据所得到的至少一个语义标注结果中每个语义标注结果对应的语义向量确定与该候选素材资源对应的语义向量;
响应于确定该候选素材资源为视频,对该视频候选素材资源进行下采样,得到至少一个样本图像;
对于所述至少一个样本图像中的每个样本图像,对该样本图像进行语义分割,得到该样本图像对应的至少一个语义标注结果,以及根据所得到的至少一个语义标注结果中每个语义标注结果对应的语义向量确定与该样本图像对应的语义向量;
根据各所述样本图像对应的语义向量,确定与该候选素材资源对应的语义向量。
9.根据权利要求8所述的方法,其中,所述根据各所述样本图像对应的语义向量,确定与该候选素材资源对应的语义向量,包括:
将各所述样本图像对应的语义向量的均值向量确定为与该候选素材资源对应的语义向量。
10.根据权利要求9所述的方法,其中,所述根据各所述样本图像对应的语义向量,确定与该候选素材资源对应的语义向量,包括:
将由各所述样本图像对应的语义向量的各维取值的中间值所对应的向量确定为与该候选素材资源对应的语义向量。
11.一种用于生成信息的装置,包括:
语义分割单元,被配置成将对目标新闻簇所包括的各个视频进行语义分割所得到的至少一个视频片段确定为目标视频集合,其中,所述目标新闻簇内的各个新闻针对同一新闻事件;
解说词确定单元,被配置成确定所述目标新闻簇的解说词;
候选素材资源集合确定单元,被配置成基于所述目标视频集合和目标图像集合,确定与所述解说词对应的候选素材资源集合,其中,所述目标图像集合由所述目标新闻簇所包括的各个图像组成;
匹配度确定单元,被配置成对于所述解说词中的每个段落,确定该段落与所述候选素材资源集合中每个候选素材资源的匹配度;
候选素材资源序列确定单元,被配置成利用预设优化算法,以与所述解说词中各段落对应的候选素材资源序列的播放时长等于该段落对应的播放时长为约束条件,以与所述解说词中各段落对应的候选素材资源序列与相应段落的匹配度之和最大,或以与各段落对应的候选素材资源序列与该段落的匹配度最大为优化目标,确定与所述解说词中各段落对应的候选素材资源序列;
视频生成单元,被配置成基于所述解说词中的每个段落对应的候选素材资源序列,生成与所述解说词对应的视频。
12.根据权利要求11所述的装置,其中,所述装置还包括:
视频发送单元,被配置成将与所述解说词对应的视频发送给终端设备,以供所述终端设备呈现所收到的视频。
13.根据权利要求12所述的装置,其中,所述视频生成单元包括:
语音合成模块,被配置成对于所述解说词中的每个段落,利用语音合成技术生成与该段落对应的语音;
视频生成模块,被配置成基于所述解说词中的每个段落对应的语音和候选素材资源序列,生成与所述解说词对应的视频。
14.根据权利要求13所述的装置,其中,所述候选素材资源集合确定单元进一步被配置成:
合并所述目标视频集合和所述目标图像集合得到与所述解说词对应的候选素材资源集合。
15.根据权利要求13所述的装置,其中,所述候选素材资源集合确定单元进一步被配置成:
对于所述目标视频集合中的每个目标视频,将该目标视频输入预先训练的生动视频检测模型,得到与该目标视频对应的生动视频检测结果,其中,所述生动视频检测模型用于表征视频和用于表征是否是生动视频的生动视频检测结果之间的对应关系;
将所述目标视频集合中对应的生动视频检测结果用于表征非生动视频的目标视频删除;
合并所述目标视频集合和所述目标图像集合得到与所述解说词对应的候选素材资源集合。
16.根据权利要求15所述的装置,其中,所述候选素材资源集合确定单元进一步被配置成:
在将所述目标视频集合中对应的生动视频检测结果用于表征非生动视频的目标视频删除之后,将所述目标视频集合中视频播放时长小于预设最短候选视频时长的视频删除。
17.根据权利要求13所述的装置,其中,所述匹配度确定单元包括:
段落语义向量确定模块,被配置成对于所述解说词中的每个段落,确定与该段落对应的语义向量;
候选素材资源语义向量确定模块,被配置成对于所述候选素材资源集合中的每个候选素材资源,确定与该候选素材资源对应的语义向量;
匹配度确定模块,被配置成将所述解说词中的每个段落对应的语义向量与所述候选素材资源集合中每个候选素材资源对应的语义向量之间的相似度,确定为相应段落与相应候选素材资源之间的匹配度。
18.根据权利要求17所述的装置,其中,所述候选素材资源语义向量确定模块进一步被配置成:
响应于确定该候选素材资源为图像,对该图像候选素材资源进行语义分割,得到该图像候选素材资源对应的至少一个语义标注结果,以及根据所得到的至少一个语义标注结果中每个语义标注结果对应的语义向量确定与该候选素材资源对应的语义向量;
响应于确定该候选素材资源为视频,对该视频候选素材资源进行下采样,得到至少一个样本图像;
对于所述至少一个样本图像中的每个样本图像,对该样本图像进行语义分割,得到该样本图像对应的至少一个语义标注结果,以及根据所得到的至少一个语义标注结果中每个语义标注结果对应的语义向量确定与该样本图像对应的语义向量;
根据各所述样本图像对应的语义向量,确定与该候选素材资源对应的语义向量。
19.根据权利要求18所述的装置,其中,所述根据各所述样本图像对应的语义向量,确定与该候选素材资源对应的语义向量,包括:
将各所述样本图像对应的语义向量的均值向量确定为与该候选素材资源对应的语义向量。
20.根据权利要求19所述的装置,其中,所述根据各所述样本图像对应的语义向量,确定与该候选素材资源对应的语义向量,包括:
将由各所述样本图像对应的语义向量的各维取值的中间值所对应的向量确定为与该候选素材资源对应的语义向量。
21.一种服务器,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-10中任一所述的方法。
22.一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被一个或多个处理器执行时实现如权利要求1-10中任一所述的方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910277783.0A CN111866610B (zh) | 2019-04-08 | 2019-04-08 | 用于生成信息的方法和装置 |
JP2019218380A JP7108259B2 (ja) | 2019-04-08 | 2019-12-02 | 情報を生成するための方法、装置、サーバー、コンピュータ可読記憶媒体およびコンピュータプログラム |
US16/702,886 US10878247B2 (en) | 2019-04-08 | 2019-12-04 | Method and apparatus for generating information |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910277783.0A CN111866610B (zh) | 2019-04-08 | 2019-04-08 | 用于生成信息的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111866610A CN111866610A (zh) | 2020-10-30 |
CN111866610B true CN111866610B (zh) | 2022-09-30 |
Family
ID=72663087
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910277783.0A Active CN111866610B (zh) | 2019-04-08 | 2019-04-08 | 用于生成信息的方法和装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10878247B2 (zh) |
JP (1) | JP7108259B2 (zh) |
CN (1) | CN111866610B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021248473A1 (en) * | 2020-06-12 | 2021-12-16 | Baidu.Com Times Technology (Beijing) Co., Ltd. | Personalized speech-to-video with three-dimensional (3d) skeleton regularization and expressive body poses |
US11587548B2 (en) | 2020-06-12 | 2023-02-21 | Baidu Usa Llc | Text-driven video synthesis with phonetic dictionary |
CN112312205B (zh) * | 2020-10-21 | 2024-03-22 | 腾讯科技(深圳)有限公司 | 一种视频处理方法、装置、电子设备和计算机存储介质 |
CN112288047B (zh) * | 2020-12-25 | 2021-04-09 | 成都索贝数码科技股份有限公司 | 基于概率分布转换聚类的广播电视新闻拆条方法 |
CN113127683B (zh) * | 2021-04-22 | 2024-09-17 | 北京百度网讯科技有限公司 | 内容推荐方法、装置、电子设备和介质 |
CN113517004B (zh) * | 2021-06-16 | 2023-02-28 | 深圳市中金岭南有色金属股份有限公司凡口铅锌矿 | 视频生成方法、装置、终端设备及介质 |
CN114880498B (zh) * | 2022-07-11 | 2022-11-29 | 北京百度网讯科技有限公司 | 事件信息展示方法及装置、设备和介质 |
CN117544822B (zh) * | 2024-01-09 | 2024-03-26 | 杭州任性智能科技有限公司 | 一种视频剪辑自动化方法和系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW200707336A (en) * | 2005-08-02 | 2007-02-16 | Mavs Lab Inc | Anchor person detection for television news segmentation based on audiovisual features |
CN103578013A (zh) * | 2012-08-06 | 2014-02-12 | 风网科技(北京)有限公司 | 移动广告平台智能定位装置及其方法 |
CN107688608A (zh) * | 2017-07-28 | 2018-02-13 | 合肥美的智能科技有限公司 | 智能语音问答方法、装置、计算机设备和可读存储介质 |
CN108924667A (zh) * | 2018-08-03 | 2018-11-30 | 阳雨哲 | 一种支持QoE最大化的可用带宽自适应视频分片请求方法 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6278446B1 (en) * | 1998-02-23 | 2001-08-21 | Siemens Corporate Research, Inc. | System for interactive organization and browsing of video |
JP2002132823A (ja) | 2000-10-19 | 2002-05-10 | Nippon Telegr & Teleph Corp <Ntt> | マルチメディア情報処理装置、マルチメディア情報処理方法およびそのプログラムが記録されたコンピュータ読み取り可能な記録媒体 |
JP4109185B2 (ja) | 2003-12-01 | 2008-07-02 | 日本電信電話株式会社 | 映像シーン区間情報抽出方法,映像シーン区間情報抽出装置,映像シーン区間情報抽出プログラムおよびそのプログラムを記録した記録媒体 |
US10375451B2 (en) * | 2009-05-29 | 2019-08-06 | Inscape Data, Inc. | Detection of common media segments |
US20150149600A1 (en) * | 2010-04-07 | 2015-05-28 | Limelight Networks, Inc. | Feedback loop for automatic content adjustment in digital presence controls |
CN102117313A (zh) * | 2010-12-29 | 2011-07-06 | 天脉聚源(北京)传媒科技有限公司 | 一种视频检索方法和系统 |
JP2014017677A (ja) | 2012-07-09 | 2014-01-30 | Sharp Corp | コンテンツ管理装置、電子機器、コンテンツ再生装置、コンテンツ管理方法、コンテンツ管理制御プログラム及び記録媒体 |
CN103020159A (zh) * | 2012-11-26 | 2013-04-03 | 百度在线网络技术(北京)有限公司 | 一种面向事件的新闻展现方法和装置 |
JP5886733B2 (ja) | 2012-12-05 | 2016-03-16 | 日本電信電話株式会社 | 映像群再構成・要約装置、映像群再構成・要約方法及び映像群再構成・要約プログラム |
CN104731959B (zh) * | 2015-04-03 | 2017-10-17 | 北京威扬科技有限公司 | 基于文本的网页内容生成视频摘要的方法、装置及系统 |
CN106649545A (zh) * | 2016-11-03 | 2017-05-10 | 广州凯耀资产管理有限公司 | 一种交通视频的检索方法及检索服务器 |
CN108227950B (zh) * | 2016-12-21 | 2022-06-10 | 北京搜狗科技发展有限公司 | 一种输入方法和装置 |
CN108241729A (zh) * | 2017-09-28 | 2018-07-03 | 新华智云科技有限公司 | 筛选视频的方法及设备 |
CN108334628A (zh) | 2018-02-23 | 2018-07-27 | 北京东润环能科技股份有限公司 | 一种新闻事件聚类的方法、装置、设备和储存介质 |
CN108829822B (zh) * | 2018-06-12 | 2023-10-27 | 腾讯科技(深圳)有限公司 | 媒体内容的推荐方法和装置、存储介质、电子装置 |
CN109344291B (zh) * | 2018-09-03 | 2020-08-25 | 腾讯科技(武汉)有限公司 | 一种视频生成方法及装置 |
CN109121021A (zh) * | 2018-09-28 | 2019-01-01 | 北京周同科技有限公司 | 一种视频集锦的生成方法、装置、电子设备及存储介质 |
-
2019
- 2019-04-08 CN CN201910277783.0A patent/CN111866610B/zh active Active
- 2019-12-02 JP JP2019218380A patent/JP7108259B2/ja active Active
- 2019-12-04 US US16/702,886 patent/US10878247B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW200707336A (en) * | 2005-08-02 | 2007-02-16 | Mavs Lab Inc | Anchor person detection for television news segmentation based on audiovisual features |
CN103578013A (zh) * | 2012-08-06 | 2014-02-12 | 风网科技(北京)有限公司 | 移动广告平台智能定位装置及其方法 |
CN107688608A (zh) * | 2017-07-28 | 2018-02-13 | 合肥美的智能科技有限公司 | 智能语音问答方法、装置、计算机设备和可读存储介质 |
CN108924667A (zh) * | 2018-08-03 | 2018-11-30 | 阳雨哲 | 一种支持QoE最大化的可用带宽自适应视频分片请求方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111866610A (zh) | 2020-10-30 |
JP2020174338A (ja) | 2020-10-22 |
US20200320306A1 (en) | 2020-10-08 |
US10878247B2 (en) | 2020-12-29 |
JP7108259B2 (ja) | 2022-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111798879B (zh) | 用于生成视频的方法和装置 | |
CN111866610B (zh) | 用于生成信息的方法和装置 | |
CN112115299B (zh) | 视频搜索方法、装置、推荐方法、电子设备及存储介质 | |
US10824874B2 (en) | Method and apparatus for processing video | |
CN109117777B (zh) | 生成信息的方法和装置 | |
US11409791B2 (en) | Joint heterogeneous language-vision embeddings for video tagging and search | |
CN109214386B (zh) | 用于生成图像识别模型的方法和装置 | |
CN107193792B (zh) | 基于人工智能的生成文章的方法和装置 | |
US20230077849A1 (en) | Content recognition method and apparatus, computer device, and storage medium | |
CN108989882B (zh) | 用于输出视频中的音乐片段的方法和装置 | |
CN109697239B (zh) | 用于生成图文信息的方法 | |
CN111800671B (zh) | 用于对齐段落和视频的方法和装置 | |
JP7394809B2 (ja) | ビデオを処理するための方法、装置、電子機器、媒体及びコンピュータプログラム | |
US11687711B2 (en) | Method and apparatus for generating commentary | |
CN109582825B (zh) | 用于生成信息的方法和装置 | |
CN112883731B (zh) | 内容分类方法和装置 | |
CN111225009B (zh) | 用于生成信息的方法和装置 | |
CN113360660B (zh) | 文本类别识别方法、装置、电子设备和存储介质 | |
JP2022075668A (ja) | ビデオ処理方法、装置、デバイスおよび記憶媒体 | |
CN111866609B (zh) | 用于生成视频的方法和装置 | |
CN113038175B (zh) | 视频处理方法、装置、电子设备及计算机可读存储介质 | |
CN111797273B (zh) | 用于调整参数的方法和装置 | |
Li et al. | Deep hierarchical attention network for video description | |
CN117131853A (zh) | 文本相似度确定方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |