CN109582945B

CN109582945B - 文章生成方法、装置及存储介质

Info

Publication number: CN109582945B
Application number: CN201811541751.9A
Authority: CN
Inventors: 蒋帅; 陈思姣; 梁海金; 罗雨; 刁世亮; 卞东海
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-12-17
Filing date: 2018-12-17
Publication date: 2022-06-03
Anticipated expiration: 2038-12-17
Also published as: CN109582945A

Abstract

本发明实施例提出一种文章生成方法、装置及计算机可读存储介质。其中文章生成方法包括：获取与指定内容相关的视频；对所述视频进行转换，得到视频关键信息；获取所述指定内容的评论数据；利用所述视频关键信息和所述评论数据，生成所述指定内容的文章。本发明实施例通过对视频进行转换以及获取评论数据，将视频关键信息与评论数据相结合，使得用于生成文章的数据更丰富、多样，数据来源更广泛，从而使生成的文章具有更广的内容覆盖度；同时该方法具有更高的时效性，节省了人力成本和时间成本。

Description

文章生成方法、装置及存储介质

技术领域

本发明涉及信息技术领域，尤其涉及一种文章生成方法、装置及计算机可读存储介质。

背景技术

在文章自动生成领域，文章生成的方法包括多媒体转写自动生成文章和人工编辑文章。多媒体转写自动生成的文章大多是根据结构化的文本数据来生成文章。这种方法数据来源单一，使得生成的文章内容不够丰富、题材不够广泛。而人工编辑多媒体文章的过程十分复杂，非常耗时和繁琐，造成不必要的人力、财力的开销。例如在动图文章生成的过程中，需要通过人工在网络或者原始视频中截取精彩的片段，然后生成相应的动图，最后人为地将相应的动图聚合到一起并配上相关的文字。再有，人工编辑过程中通过人工的方法对文章相关内容的挖掘也达不到理想的效果。如何根据相关视频自动生成内容丰富多样的文章，减少人力成本和时间成本，是目前亟待解决的问题。

发明内容

本发明实施例提供一种文章生成方法、装置及计算机可读存储介质，以至少解决现有技术中的一个或多个技术问题。

第一方面，本发明实施例提供了一种文章生成方法，包括：

获取与指定内容相关的视频；

对所述视频进行转换，得到视频关键信息；

获取所述指定内容的评论数据；

利用所述视频关键信息和所述评论数据，生成所述指定内容的文章。

在一种实施方式中，所述视频关键信息包括动图和动图对应的描述信息；对所述视频进行转换，得到视频关键信息，包括：

将所述视频进行视频切分，得到指定时长的视频片段；

调用视频精彩片段服务，从所述视频片段中提取视频精彩片段；

将所述视频精彩片段转换为所述动图；

根据所述视频精彩片段，生成所述动图对应的描述信息。

在一种实施方式中，将所述视频精彩片段转换为所述动图，包括：

以对象存储的方式保存所述视频精彩片段；

通过对象存储的地址调用视频内容识别服务，从所述视频精彩片段中识别出指定精彩片段，所述指定精彩片段是包含所述指定内容的所述视频精彩片段；

通过对象存储的地址调用视频转动图服务，将所述指定精彩片段转换为动图。

在一种实施方式中，根据所述视频精彩片段，生成所述动图对应的描述信息，包括：

以对象存储的方式保存所述视频精彩片段；

通过对象存储的地址调用视频语音识别服务和/或视频文字识别服务，生成所述动图对应的描述信息。

在一种实施方式中，获取所述指定内容的评论数据，包括：

从指定网站上爬取所述指定内容的评论页面数据；

从所述评论页面数据中对评论数据进行过滤；

将过滤后的评论页面数据作为所述指定内容的评论数据。

在一种实施方式中，从所述评论页面数据中对评论数据进行过滤，包括以下方式的至少一种：

统计所述评论页面数据中出现的指定词的词频，在所述指定词的词频大于等于预设词频阈值的情况下，将该评论页面数据过滤掉；

统计所述评论页面数据中的评论字数，在所述评论字数少于预设字数阈值的情况下，将该评论页面数据过滤掉；

统计所述评论页面数据中的点赞次数，在所述点赞次数少于预设点赞次数阈值的情况下，将该评论页面数据过滤掉。

在一种实施方式中，从所述评论页面数据中对评论数据进行过滤，包括：

利用机器学习模型评价所述评论页面数据，得到评价分数；

将评价分数低于预设分数阈值的评论页面数据过滤掉。

在一种实施方式中，利用所述视频关键信息和所述评论数据，生成所述指定内容的文章，包括：

通过文章模板以及话术语料，生成所述指定内容的文章。

在一种实施方式中，所述方法还包括：

获取所述指定内容的知识图谱；

获取与所述知识图谱相关的图谱内容数据；

利用所述视频关键信息、所述评论数据和所述图谱内容数据，生成所述指定内容的文章。

在一种实施方式中，利用所述视频关键信息和所述评论数据，生成所述指定内容的文章，还包括：

检测所述视频关键信息和所述评论数据的数据量；

在所述数据量达到预设的数据量阈值时，触发生成所述指定内容的文章。

第二方面，本发明实施例提供了一种文章生成装置，包括：

视频获取单元，用于获取与指定内容相关的视频；

视频转换单元，用于对所述视频进行转换，得到视频关键信息；

评论获取单元，用于获取所述指定内容的评论数据；

文章生成单元，用于利用所述视频关键信息和所述评论数据，生成所述指定内容的文章。

在一种实施方式中，所述视频关键信息包括动图和动图对应的描述信息；所述视频转换单元包括：

视频切分子单元，用于将所述视频进行视频切分，得到指定时长的视频片段；

视频精彩片段提取子单元，用于调用视频精彩片段服务，从所述视频片段中提取视频精彩片段；

动图转换子单元，用于将所述视频精彩片段转换为所述动图；

描述信息生成子单元，用于根据所述视频精彩片段，生成所述动图对应的描述信息。

在一种实施方式中，所述动图转换子单元还用于：

以对象存储的方式保存所述视频精彩片段；

在一种实施方式中，所述描述信息生成子单元还用于：

以对象存储的方式保存所述视频精彩片段；

在一种实施方式中，所述评论获取单元包括：

页面爬取子单元，用于从指定网站上爬取所述指定内容的评论页面数据；

数据过滤子单元，用于从所述评论页面数据中对评论数据进行过滤；

数据确定子单元，用于将过滤后的评论页面数据作为所述指定内容的评论数据。

在一种实施方式中，所述数据过滤子单元还用于采用以下方式的至少一种对评论数据进行过滤：

在一种实施方式中，所述数据过滤子单元还用于：

利用机器学习模型评价所述评论页面数据，得到评价分数；

将评价分数低于预设分数阈值的评论页面数据过滤掉。

在一种实施方式中，所述文章生成单元还用于：

通过文章模板以及话术语料，生成所述指定内容的文章。

在一种实施方式中，所述装置还包括图谱数据单元，用于：获取所述指定内容的知识图谱，获取与所述知识图谱相关的图谱内容数据；

所述文章生成单元还用于：利用所述视频关键信息、所述评论数据和所述图谱内容数据，生成所述指定内容的文章。

在一种实施方式中，所述文章生成单元包括触发子单元，所述触发子单元用于：

检测所述视频关键信息和所述评论数据的数据量；

在一个可能的设计中，文章生成装置的结构中包括处理器和存储器，所述存储器用于存储支持文章生成装置执行上述第一方面中文章生成方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。所述文章生成装置还可以包括通信接口，文章生成装置与其他设备或通信网络通信。

第三方面，本发明实施例提供了一种文章生成装置，包括：一个或多个处理器；存储装置，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述第一方面中任一所述的方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现上述第一方面中任一所述的方法。

上述技术方案具有如下优点或有益效果：通过对视频进行转换以及获取评论数据，将视频关键信息与评论数据相结合，使得用于生成文章的数据更丰富、多样，数据来源更广泛，从而使生成的文章具有更广的内容覆盖度；同时该方法具有更高的时效性，节省了人力成本和时间成本。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本发明进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本发明公开的一些实施方式，而不应将其视为是对本发明范围的限制。

图1为本发明实施例提供的文章生成方法的流程图。

图2为本发明实施例提供的文章生成方法的视频转换的流程图。

图3为本发明实施例提供的文章生成方法的人物介绍相关的文章生成的视频解析过程流程图。

图4为本发明实施例提供的文章生成方法的视频转换的流程图。

图5为本发明实施例提供的文章生成方法的视频转换的流程图。

图6为本发明实施例提供的文章生成方法的评论挖掘的流程图。

图7为本发明实施例提供的文章生成方法的评论挖掘的流程图。

图8为本发明实施例提供的文章生成方法的评论过滤的流程图。

图9为本发明实施例提供的文章生成方法的利用图谱内容数据生成文章的流程图。

图10为本发明实施例提供的文章生成方法的知识图谱示意图。

图11为本发明实施例提供的文章生成方法的触发生成文章的流程图。

图12为本发明实施例提供的文章生成方法的流程图。

图13为本发明实施例提供的文章生成装置的结构框图。

图14为本发明实施例提供的文章生成装置的视频转换单元的结构框图。

图15为本发明实施例提供的文章生成装置的评论获取单元的结构框图。

图16为本发明实施例提供的文章生成装置的结构框图。

图17为本发明实施例提供的文章生成装置的文章生成单元的结构框图。

图18为本发明实施例提供的文章生成装置的结构框图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

图1为本发明实施例提供的文章生成方法的流程图。如图1所示，本发明实施例的文章生成方法包括：

步骤S110，获取与指定内容相关的视频；

步骤S120，对所述视频进行转换，得到视频关键信息；

步骤S130，获取所述指定内容的评论数据；

步骤S140，利用所述视频关键信息和所述评论数据，生成所述指定内容的文章。

本发明实施例首先对与指定内容相关的视频进行转换，例如可以从视频中解析出优质的视频精彩片段，利用视频精彩片段生成对应的动图。然后将动图与指定内容的评论数据结合起来，生成带有动图的文章。

在一个示例中，指定内容可包括但不限于人物、影视作品、文学作品等，如明星、电视剧。如果指定内容为几个明星，从视频中解析出优质的视频精彩片段后，可以根据明星进行分类。然后生成各明星对应的精彩动图。最后通过明星来聚合相应动图，生成指定某明星的带有动图的文章。

在另一个示例中，指定内容还可包括其它主题内容，如产品、动植物等，可生成一种动植物介绍或一种产品介绍的文章等。

图2为本发明实施例提供的文章生成方法的视频转换的流程图。如图2所示，在一种实施方式中，所述视频关键信息包括动图和动图对应的描述信息；图1中的步骤S120，对所述视频进行转换，得到视频关键信息，具体可包括：

步骤S210，将所述视频进行视频切分，得到指定时长的视频片段；

步骤S220，调用视频精彩片段服务，从所述视频片段中提取视频精彩片段；

步骤S230，将所述视频精彩片段转换为所述动图；

步骤S240，根据所述视频精彩片段，生成所述动图对应的描述信息。

对所述视频进行转换的过程具体可包括：调用视频理解服务，进行视频解析，将指定内容的视频转换为动图和动图对应的描述信息。其中，视频理解服务主要包括视频语音识别服务(ASR，Automatic Speech Recognition)、视频文字识别服务(OCR，OpticalCharacter Recognition，中文名也称为光学字符识别)、视频内容识别服务、视频精彩片段服务(highlight)、视频转动图服务。

其中，视频内容识别服务可以采用图像识别技术，识别视频的各帧图像中是否存在想要生成文章的指定内容。例如想要生成关于某个明星的动图文章，则在视频内容识别服务中采用人脸识别技术(face_recognize)，识别视频的各帧图像中是否存在想要生成文章的该明星的人脸图像。

在视频转动图服务中采用音视频转码技术(MCT,Multimedia CloudTranscoder)。MCT为音视频文件提供高质量的转码计算服务，将源音视频文件转码为所需要的媒体文件格式。在这种实施方式中，利用MCT将视频精彩片段转换为动图，用于生成带有动图的文章。

在一种实施方式中，视频理解服务可采用RPC(Remote Procedure Call，远程过程调用)服务实施视频解析。例如，可基于shellrpc框架来实现RPC服务。

在步骤S210中，在实施视频解析之前需要进行视频切分。由于后续进行的highlight对视频时长有所限制，影视作品等视频的时长通常在半个小时以上，对于这类长视频需要进行小段切分。这里将长视频切分成指定时长的视频片段，例如将长视频按3分钟为时长限制进行切分。

在步骤S220中请求视频精彩片段服务。针对切分后的视频片段，调用highlight服务，然后提取视频精彩片段。例如，可训练机器学习模型，如神经网络模型，从视频片段的各帧图像中识别各种精彩动作，进而从视频片段中提取出关键帧，再根据提取出的关键帧进行自动剪辑处理得到视频精彩片段。

在后续的步骤S230和步骤S240中，再根据视频精彩片段，调用视频转动图服务、视频语音识别服务和视频文字识别服务，得到动图和动图对应的描述信息。

图3为本发明实施例提供的文章生成方法的人物介绍相关的文章生成的视频解析过程流程图。在一个示例中，想要生成一篇人物生平介绍的文章，如某位科学家的生平介绍，可以对该人物相关的影视视频进行视频解析。如图3所示，首先对获取的人物相关的影视视频进行长视频切分，得到指定时长的视频片段。然后利用highlight进行解析，提取出视频精彩片段。将提取出的视频精彩片段推送到云端。后续通过云端地址请求相关视频理解服务进行视频解析和转换。其中，相关视频理解服务包括face_recognize、ASR、OCR和MCT等。face_recognize用于识别视频片段的各帧图像中是否存在想要生成文章的该人物的人脸图像。通过ASR、OCR和MCT利用视频片段得到动图和动图对应的描述信息。将face_recognize识别出的人物的名字、ASR和OCR的识别结果，以及MCT转换后生成的动图等信息存储在视频数据库中。如图3所示，视频数据库可采用基于分布式文件存储的数据库mongo(蒙戈)。

图4为本发明实施例提供的文章生成方法的视频转换的流程图。如图4所示，在一种实施方式中，图2中步骤S230，将所述视频精彩片段转换为所述动图，具体可包括：

步骤S310，以对象存储的方式保存所述视频精彩片段；

步骤S320，通过对象存储的地址调用视频内容识别服务，从所述视频精彩片段中识别出指定精彩片段，所述指定精彩片段是包含所述指定内容的所述视频精彩片段；

步骤S330，通过对象存储的地址调用视频转动图服务，将所述指定精彩片段转换为动图。

其中，对象存储(Object Storage)也叫做基于对象的存储，是用来描述解决和处理离散单元的方法的通用术语，这些离散单元被称作为对象。对象存储是一种新的网络存储架构。在这种网络存储架构中，对象是系统中数据存储的基本单位。

在一个示例中，可采用百度对象存储(BOS，Baidu Object Storage)存储视频精彩片段。BOS可提供稳定、安全、高效、高可扩展的云存储服务。可以将任意数量和形式的数据存入BOS，并对数据进行管理和处理。在步骤S310中，可将视频精彩片段推送百度云端，存入到BOS中，方便后续的视频解析及视频转换。

在步骤S320中，可通过BOS地址请求视频内容识别服务。例如，想要生成关于某个明星的动图文章，则在视频内容识别服务中采用人脸识别技术(face_recognize)，识别视频精彩片段的各帧图像中是否存在想要生成文章的该明星的人脸图像。若视频精彩片段的某帧图像中存在想要生成文章的该明星的人脸图像，或者存在该明星的人脸图像的视频帧的数量达到预设帧数，则将该视频精彩片段确定为指定精彩片段。这一过程也就是识别视频精彩片段是否包含想要生成文章的指定内容。

再如，想要生成关于某种动物介绍的动图文章，如介绍蜜獾。则在视频内容识别服务中采用图像识别技术，识别视频精彩片段的各帧图像中是否存在蜜獾的图像。若视频精彩片段的某帧图像中存在蜜獾的图像，或者存在蜜獾的视频帧的数量达到预设帧数，则将该视频精彩片段确定为指定精彩片段。

在步骤S330中，可通过BOS地址请求视频转动图服务。在一个示例中，指定精彩片段可能是一个时长为5秒的视频，通过视频转动图服务从指定精彩片段中抽取其中的30帧图像，利用抽取出的图像生成动图。

在一个示例中，生成的动图的图片格式可包括GIF(Graphics InterchangeFormat)、Flash等。

图5为本发明实施例提供的文章生成方法的视频转换的流程图。如图5所示，在一种实施方式中，图2中的步骤S240，根据所述视频精彩片段，生成所述动图对应的描述信息，具体可包括：

步骤S410，以对象存储的方式保存所述视频精彩片段；

步骤S420，通过对象存储的地址调用视频语音识别服务和/或视频文字识别服务，生成所述动图对应的描述信息。

在一个示例中，可通过BOS地址请求视频语音识别服务，将视频精彩片段中的语音转换成文字，识别为计算机可读的输入，例如按键、二进制编码或者字符序列。步骤S230中已将视频精彩片段转换为动图，则在步骤S240中再利用视频精彩片段中的语音转换成的文字，生成所述动图对应的描述信息，并存入视频数据库中。在后续生成文章时，可在文章中的动图下面的文本中，插入动图对应的描述信息。

在另一个示例中，可通过BOS地址请求视频文字识别服务，识别视频精彩片段的各帧图像中的字幕和/或LOGO(商标/徽标)，将识别结果对应的文本信息保存到BOS中。步骤S230中已将视频精彩片段转换为动图，则在步骤S240中再利用从视频精彩片段中识别出的文本信息，生成所述动图对应的描述信息，并存入视频数据库中。同样地，在后续生成文章时，可在文章中的动图下面的文本中，插入动图对应的描述信息。

在又一个示例中，可结合以上两种方式，通过BOS地址，调用视频语音识别服务和视频文字识别服务，生成的动图对应的描述信息中即包括视频精彩片段中的语音转换成的文字，也包括从视频精彩片段中识别出的文本信息，使动图对应的描述信息更加丰富多样。

图6为本发明实施例提供的文章生成方法的评论挖掘的流程图。如图6所示，在一种实施方式中，图1中的步骤S130，获取所述指定内容的评论数据，具体可包括：

步骤S510，从指定网站上爬取所述指定内容的评论页面数据；

步骤S520，从所述评论页面数据中对评论数据进行过滤；

步骤S530，将过滤后的评论页面数据作为所述指定内容的评论数据。

在一个示例中，想要生成一篇关于某部电视剧的文章，则从影视评论相关的指定网站上获取评论页面数据。例如可以在指定网站的与该电视剧有关的贴子上获取评论页面数据，并对评论页面数据进行数据挖掘。如果想要生成的文章的指定内容是关于明星和/或电视剧的介绍，可将影评相关网站作为评论挖掘的数据来源，选择热门的影评相关网站作为指定网站。例如指定网站可包括豆瓣网、电视猫等。

具体地，可通过爬虫爬取指定站点的评论页面数据，再将评论页面数据进行清洗、归一后得到结构化的评论数据，最后对结构化的评论数据进行过滤，将其中的低质评论数据过滤掉，得到可用的评论数据。后续生成文章时可利用评论数据生成文本，再配上指定内容的动图，生成指定内容的动图文章。

图7为本发明实施例提供的文章生成方法的评论挖掘的流程图。如图7所示，在一个示例中，获取所述指定内容的评论数据的具体步骤如下：

步骤1：网页爬取。针对两个数据来源，利用两套不同的爬虫程序进行处理。分别根据豆瓣评论和电视猫评论网站这两个站点来源，爬取相应的HTML(HyperText MarkupLanguage，超级文本标记语言)数据。

由于不同数据来源的网页结构、内容以及HTML标签可能均不同，因此针对不同的指定站点，使用不同的爬虫程序进行处理。

步骤2：对爬取到的HTML数据进行解析。解析步骤具体可包括：

步骤2.1：网页解析，可包括解析网页的HTML布局、CSS(Cascading Style Sheets，层叠样式表)渲染等。通过网页解析将HTML数据转化为结构化数据。可根据需求将数据转化为自定义格式的结构化数据。

步骤2.2：数据清洗、过滤。数据清洗的任务是过滤掉不符合要求的数据，包括清洗、过滤掉杂质信息。例如某一条评论页面数据的数据不全，可能是无评论时间、无用户名、无点赞数等，则将这种数据不全的评论页面数据清洗、过滤掉。

步骤2.3：数据映射、归一。例如对于不同格式的字段名字进行SCHEMA对齐，使数据格式统一。其中，Schema也称XSD(XML Schema Definition，XML Schema定义)，是数据库对象的集合。数据库对象包括数据库的表，索引，视图，存储过程等。

步骤3：低质评论过滤。在一个示例中，可根据评论字数、得分、点赞数等特征训练评论低质模型，并通过低质模型对评论进行打分，得到优质评论。将优质评论作为评论数据保存到评论库中，用于生成文章。

在一种实施方式中，图6中的步骤S520，从所述评论页面数据中对评论数据进行过滤，包括以下方式的至少一种：

再参见图7，在这种实施方式中，从海量评论数据中筛选出有价值的优质评论数据，可采用低质模型从抓取的评论页面数据中过滤掉低质评论。图8为本发明实施例提供的文章生成方法的评论过滤的流程图。图7中的步骤3低质评论过滤的具体流程可参见图8所示。参见图7和图8，在低质模型中，首先构建指定词的词典，例如广告、黄反等词典。然后统计评论页面数据命中广告、黄反词典的词频。根据选取的广告、黄反等特征对评论页面数据进行分类，从而过滤掉低质的评论页面数据。例如，图8中若广告、黄反的词频大于等于1，也就是评论页面数据中广告、黄反的词出现了1次以上，则将该评论页面数据判做低质数据并过滤掉。

另外，可选取评论字数及评论的点赞数作为另外两个特征对评论页面数据进行分类。例如图8中，若评论字数少于15字，则将该评论页面数据判做低质数据并过滤掉。若点赞数低于点赞次数阈值，也将该评论页面数据判做低质数据并过滤掉。其中，点赞次数阈值可根据实际情况设定，例如评论页面数据的点赞次数从整体上看较多，则可将点赞次数阈值的数值设置为与实际情况匹配的较大数值。

利用机器学习模型评价所述评论页面数据，得到评价分数；

将评价分数低于预设分数阈值的评论页面数据过滤掉。

具体地，可训练机器学习模型，如神经网络模型，利用机器学习模型分析评论页面数据，给出评价分数。机器学习模型的特征可选择广告词频、黄反词频、评论字数、点赞数等，也可以选择其它指定词的词频，如不宜出现在文章中的敏感词和有意在文章中回避的内容相关词汇等。将评价分数高于预设分数阈值的评论页面数据确定为优质评论，将优质评论作为评论数据保存到评论库中，用于生成文章。将评价分数低于预设分数阈值的评论页面数据过滤掉。

通过文章模板以及话术语料，生成所述指定内容的文章。

仍以生成明星动图文章为例，基于视频解析后得到的精彩GIF片段及优质影视评论数据，并根据指定明星进行数据的聚合，再通过文章模板以及话术语料生成文章。

其中，语料即语言材料。可预先构建语料库，经科学取样和加工，将在语言的实际使用中真实出现过的语言材料储存在语料库中。另外，还可以收集和整理具有代表意义的典型范文。典型范文中通常具有撰写文章的成套的话术。可训练机器学习模型，利用机器学习模型学习典型范文中的话术，并且结合相关内容的语料形成话术语料库。

图9为本发明实施例提供的文章生成方法的利用图谱内容数据生成文章的流程图。如图9所示，在一种实施方式中，所述方法还包括：

步骤S610，获取所述指定内容的知识图谱；

步骤S620，获取与所述知识图谱相关的图谱内容数据；

步骤S630，利用所述视频关键信息、所述评论数据和所述图谱内容数据，生成所述指定内容的文章。

知识图谱(Knowledge Graph)又称为科学知识图谱，是显示知识发展进程与结构关系的一系列各种不同的图形。知识图谱旨在描述真实世界中存在的各种实体或概念及其关系，其构成一张语义网络图，节点表示实体或概念，边则由属性或关系构成。

在一个示例中，生成一篇介绍某个热门明星及其主演的热门电视剧的动图文章的具体步骤如下：

首先指定热门电视剧及热门明星，如《西游记》和六小龄童，并基于知识图谱获取电视剧及明星的百科数据，从百科数据中取出详细数据，也就是图谱内容数据。图10为本发明实施例提供的文章生成方法的知识图谱示意图。如图10所示，想要生成一篇介绍电视剧《西游记》及演员的文章，可基于知识图谱在百科网站上进一步查找《西游记》的导演、演员、原著、类型和拍摄地的百科数据，例如从百科数据中取出关于原著吴承恩的详细数据。借助知识图谱可以进一步充实文章的内容，使生成的文章更加丰富多样。

然后按照前述方法根据热门明星聚合精彩动图，根据热门电视剧聚合优质评论数据。

最后基于文章模板融合相关数据，再配上图片，生成一篇内容丰富的动图文章。

图11为本发明实施例提供的文章生成方法的触发生成文章的流程图。如图11所示，在一种实施方式中，图1中的步骤S140，利用所述视频关键信息和所述评论数据，生成所述指定内容的文章，具体可还包括：

步骤S710，检测所述视频关键信息和所述评论数据的数据量；

步骤S720，在所述数据量达到预设的数据量阈值时，触发生成所述指定内容的文章。

具体地，定期检测视频数据库中视频关键信息和评论库中评论数据的数据量。在指定内容的以上二种数据的数据量足够多时，达到预定的条件触发规则，则实施写作触发，生成指定内容的动图文章。

图12为本发明实施例提供的文章生成方法的流程图。如图12所示，利用视频理解技术解析指定内容的影视视频，得到视频关键信息，将视频关键信息作为视频数据存入数据库。对指定网站的评论页面数据进行评论挖掘，得到评论数据并存入数据库。当数据库中的数据量足够多时，触发生成指定内容的动图文章。

参见图12，文章生成的步骤可包括指定内容数据生成、精彩动图聚合、标题生成(模板)和段落生成。

其中，指定内容数据生成可包括基于知识图谱获取指定内容的百科数据，从百科数据中取出详细数据。

精彩动图聚合可包括将数据库中的指定内容的动图打乱顺序，然后分组，每一组动图用于生成一篇文章。这种方式既可实现随机选取动图，又可避免动图的重复使用。

标题生成(模板)包括利用标题模板生成文章的标题。一个示例性的标题模板如：“在某个电视剧中某个明星的精彩表演”。将指定内容对应的关键词组合添加到标题模板中，即可生成文章的标题。

段落生成可包括根据文章模板中定义的文章结构生成段落。例如在文章模板中可包括文章共分为几个段落、每个段落的内容等。一个示例性的文章模板中定义的文章结构为：文章共分四个段落；其中，第一段介绍电视剧的情况，第二段介绍明星的情况，第三段介绍剧情，第四段是结束语。在下面的步骤中还可在以上段落的适当位置插入精彩动图，使文章生动有趣。

参见图12，文章生成步骤之后再进行表层实现。表层实现可包括文章配图和文章润色。其中，文章配图包括给文章的封面配图和给文章的正文配图。在一个示例中，可以给文章的封面配置静态图片，给文章的正文配置动态图片，如GIF格式图片。文章润色可包括文章中词语的优化。例如将文章中口语化的词语进行书面化。可预先设置口语化的词语的词库，词库中存储用于替换掉该口语的书面语，例如将“脑门”替换成“额头”。根据词库中存储的口语化的词语遍历整个文章，如发现文章中出现口语化的词语，则用对应的书面语将口语替换掉。进行书面化可以使生成的文章言辞优美，给读者良好的阅读体验。

图13为本发明实施例提供的文章生成装置的结构框图。如图13所示，本发明实施例的文章生成装置包括：

视频获取单元100，用于获取与指定内容相关的视频；

视频转换单元200，用于对所述视频进行转换，得到视频关键信息；

评论获取单元300，用于获取所述指定内容的评论数据；

文章生成单元400，用于利用所述视频关键信息和所述评论数据，生成所述指定内容的文章。

图14为本发明实施例提供的文章生成装置的视频转换单元的结构框图。如图14所示，在一种实施方式中，所述视频关键信息包括动图和动图对应的描述信息；所述视频转换单元200包括：

视频切分子单元210，用于将所述视频进行视频切分，得到指定时长的视频片段；

视频精彩片段提取子单元220，用于调用视频精彩片段服务，从所述视频片段中提取视频精彩片段；

动图转换子单元230，用于将所述视频精彩片段转换为所述动图；

描述信息生成子单元240，用于根据所述视频精彩片段，生成所述动图对应的描述信息。

在一种实施方式中，所述动图转换子单元230还用于：

以对象存储的方式保存所述视频精彩片段；

在一种实施方式中，所述描述信息生成子单元240还用于：

以对象存储的方式保存所述视频精彩片段；

图15为本发明实施例提供的文章生成装置的评论获取单元的结构框图。如图15所示，在一种实施方式中，所述评论获取单元300包括：

页面爬取子单元310，用于从指定网站上爬取所述指定内容的评论页面数据；

数据过滤子单元320，用于从所述评论页面数据中对评论数据进行过滤；

数据确定子单元330，用于将过滤后的评论页面数据作为所述指定内容的评论数据。

在一种实施方式中，所述数据过滤子单元320还用于采用以下方式的至少一种对评论数据进行过滤：

在一种实施方式中，所述数据过滤子单元320还用于：

利用机器学习模型评价所述评论页面数据，得到评价分数；

将评价分数低于预设分数阈值的评论页面数据过滤掉。

在一种实施方式中，所述文章生成单元400还用于：

通过文章模板以及话术语料，生成所述指定内容的文章。

图16为本发明实施例提供的文章生成装置的结构框图。如图16所示，在一种实施方式中，所述装置还包括图谱数据单元500，用于：获取所述指定内容的知识图谱，获取与所述知识图谱相关的图谱内容数据；

所述文章生成单元400还用于：利用所述视频关键信息、所述评论数据和所述图谱内容数据，生成所述指定内容的文章。

图17为本发明实施例提供的文章生成装置的文章生成单元的结构框图。如

图17所示，在一种实施方式中，所述文章生成单元400包括触发子单元410，所述触发子单元410用于：

检测所述视频关键信息和所述评论数据的数据量；

本发明实施例的文章生成装置中各单元的功能可以参见上述方法的相关描述，在此不再赘述。

在一个可能的设计中，文章生成装置的结构中包括处理器和存储器，所述存储器用于存储支持文章生成装置执行上述文章生成方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。所述文章生成装置还可以包括通信接口，文章生成装置与其他设备或通信网络通信。

图18为本发明实施例提供的文章生成装置的结构框图。如图18所示，该装置包括：存储器101和处理器102，存储器101内存储有可在处理器102上运行的计算机程序。所述处理器102执行所述计算机程序时实现上述实施例中的文章生成方法。所述存储器101和处理器102的数量可以为一个或多个。

该装置还包括：

通信接口103，用于与外界设备进行通信，进行数据交互传输。

存储器101可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

如果存储器101、处理器102和通信接口103独立实现，则存储器101、处理器102和通信接口103可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，PeripheralComponent)总线或扩展工业标准体系结构(EISA，Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图18中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器101、处理器102及通信接口103集成在一块芯片上，则存储器101、处理器102及通信接口103可以通过内部接口完成相互间的通信。

又一方面，本发明实施例提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现上述文章生成方法中任一所述的方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种文章生成方法，其特征在于，包括：

获取与指定内容相关的视频；

对所述视频进行切分、切分结果的筛选和筛选结果的动图转换，得到视频关键信息；所述视频关键信息包括所述与指定内容相关的视频的动图，以及对所述动图的描述信息；

获取所述指定内容的评论数据；

获取所述指定内容的知识图谱；

获取与所述知识图谱相关的图谱内容数据；

利用所述视频关键信息、所述评论数据和所述图谱内容数据，生成所述指定内容的文章；

所述对所述视频进行切分、切分结果的筛选和筛选结果的动图转换，得到视频关键信息，包括：

将所述视频进行视频切分，得到指定时长的视频片段；

调用视频精彩片段服务，利用图像识别技术从所述视频片段中提取包含所述指定内容的视频精彩片段；

将所述视频精彩片段转换为所述动图；

根据所述视频精彩片段，生成所述动图对应的描述信息。

2.根据权利要求1所述的方法，其特征在于，将所述视频精彩片段转换为所述动图，包括：

以对象存储的方式保存所述视频精彩片段；

3.根据权利要求1所述的方法，其特征在于，根据所述视频精彩片段，生成所述动图对应的描述信息，包括：

以对象存储的方式保存所述视频精彩片段；

4.根据权利要求1-3中任一项所述的方法，其特征在于，获取所述指定内容的评论数据，包括：

从指定网站上爬取所述指定内容的评论页面数据；

从所述评论页面数据中对评论数据进行过滤；

将过滤后的评论页面数据作为所述指定内容的评论数据。

5.根据权利要求4所述的方法，其特征在于，从所述评论页面数据中对评论数据进行过滤，包括以下方式的至少一种：

6.根据权利要求4所述的方法，其特征在于，从所述评论页面数据中对评论数据进行过滤，包括：

利用机器学习模型评价所述评论页面数据，得到评价分数；

将评价分数低于预设分数阈值的评论页面数据过滤掉。

7.根据权利要求1-3中任一项所述的方法，其特征在于，利用所述视频关键信息和所述评论数据，生成所述指定内容的文章，包括：

通过文章模板以及话术语料，生成所述指定内容的文章。

8.根据权利要求1-3中任一项所述的方法，其特征在于，利用所述视频关键信息和所述评论数据，生成所述指定内容的文章，还包括：

检测所述视频关键信息和所述评论数据的数据量；

9.一种文章生成装置，其特征在于，包括：

视频获取单元，用于获取与指定内容相关的视频；

视频转换单元，用于对所述视频进行切分、切分结果的筛选和筛选结果的动图转换，得到视频关键信息；所述视频关键信息包括所述与指定内容相关的视频的动图，以及对所述动图的描述信息；

评论获取单元，用于获取所述指定内容的评论数据；

图谱数据单元，用于获取所述指定内容的知识图谱，获取与所述知识图谱相关的图谱内容数据；

文章生成单元，用于利用所述视频关键信息、所述评论数据和所述图谱内容数据，生成所述指定内容的文章；

所述视频转换单元包括：

视频精彩片段提取子单元，用于调用视频精彩片段服务，利用图像识别技术从所述视频片段中提取包含所述指定内容的视频精彩片段；

10.根据权利要求9所述的装置，其特征在于，所述动图转换子单元还用于：

以对象存储的方式保存所述视频精彩片段；

11.根据权利要求9所述的装置，其特征在于，所述描述信息生成子单元还用于：

以对象存储的方式保存所述视频精彩片段；

12.根据权利要求9-11中任一项所述的装置，其特征在于，所述评论获取单元包括：

13.根据权利要求12所述的装置，其特征在于，所述数据过滤子单元还用于采用以下方式的至少一种对评论数据进行过滤：

14.根据权利要求12所述的装置，其特征在于，所述数据过滤子单元还用于：

利用机器学习模型评价所述评论页面数据，得到评价分数；

将评价分数低于预设分数阈值的评论页面数据过滤掉。

15.根据权利要求9-11中任一项所述的装置，其特征在于，所述文章生成单元还用于：

通过文章模板以及话术语料，生成所述指定内容的文章。

16.根据权利要求9-11中任一项所述的装置，其特征在于，所述文章生成单元包括触发子单元，所述触发子单元用于：

检测所述视频关键信息和所述评论数据的数据量；

17.一种文章生成装置，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。

18.一种计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-8中任一所述的方法。