CN109508448A

CN109508448A - 基于长篇文章生成短资讯方法、介质、装置和计算设备

Info

Publication number: CN109508448A
Application number: CN201810782269.8A
Authority: CN
Inventors: 刘历歌; 陈保需; 蒋徐阳
Original assignee: Netease Media Technology Beijing Co Ltd
Current assignee: Netease Media Technology Beijing Co Ltd
Priority date: 2018-07-17
Filing date: 2018-07-17
Publication date: 2019-03-22

Abstract

本发明的实施方式提供了一种基于长篇文章生成短资讯的方法、介质、装置和计算设备。其中，该方法包括：获取文章的文本内容；分析获取到的所述文本内容，从中得到一个或多个关键词；基于所述一个或多个关键词选取部分文本内容；根据所述部分文本内容生成短资讯。本发明的实施方式，可以自动根据媒体用户编辑的长篇文章生成短资讯，将生成的短资讯和所述长篇文章同时向阅读用户群体分发，大大增加媒体用户的创作内容的曝光率。

Description

基于长篇文章生成短资讯方法、介质、装置和计算设备

技术领域

本发明的实施方式涉及互联网资讯技术领域，更具体地，本发明的实施方式涉及一种基于长篇文章生成短资讯的方法、介质、装置和计算设备。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

随着互联网的飞速发展，各个官方媒体和自媒体账号每天都会通过互联网在各个内容资讯平台发布大量的文章和资讯。不论是官方媒体，还是自媒体，在发布字数较多的长文章时，都会同时发布一篇相关联的字数较少的短资讯，方便阅读进行浏览

目前的内容资讯平台，不论是单独发布长篇文章或短篇资讯，还是同时发布长篇和短篇文章/资讯，都需要通过官方媒体或自媒体账号手动上传/编辑文章进行。

发明内容

现有技术中，一媒体在先发布了长文章的情况下，仍然需要手动编辑/上传，才能发布相关联的短资讯，这会给用户带来不便，是一个令人烦恼的过程。

为此，非常需要一种改进的基于长篇文章生成短资讯方法，以使媒体发布长文章后，能够自动生成并发布相应的短资讯。

在本上下文中，本发明的实施方式期望提供一种基于长篇文章生成短资讯方法、介质、装置和计算设备。

在本发明实施方式的第一方面中，提供了一种基于长篇文章生成短资讯的方法，包括：

获取文章的文本内容；

分析获取到的所述文本内容，从中得到一个或多个关键词；

基于所述一个或多个关键词选取部分文本内容；

根据所述部分文本内容生成短资讯。

在本发明的一个实施例中，所述分析获取到的所述文本内容，从中得到一个或多个关键词的步骤包括：

分析获取到的所述文本内容，识别出其中的各个词语；

获取各个词语在所述文章中的词频信息和在全网的热度信息；

基于所述词频信息和热度信息确定一个或多个关键词。

在本发明的又一个实施例中，当所述文章中的词语具有多个词性时，按照每个词性作为不同的子词语处理，统计与各子词语对应的词频信息和热度信息。

在本发明的又一个实施例中，当所述文章中的词语具有多个词义时，按照每个词义作为不同的子词语处理，统计与各子词语对应的词频信息和热度信息。

在本发明的又一个实施例中，所述词语为名词。

在本发明的又一个实施例中，基于所述一个或多个关键词选取部分文本内容的步骤包括：

分别获取所述文章的文本内容中各个段落的关键词词频信息、位置信息和长度信息中的一个或多个作为参考信息；

根据所述参考信息选取用于生成短资讯的段落。

在本发明的又一个实施例中，根据所述参考信息选取用于生成短资讯的段落的步骤包括：

获取所述关键词词频信息、位置信息和长度信息对应的权重；

根据所述权重得到所述文本内容中各个段落的分数；

按照分数由高到低的顺序对所述段落进行排序，根据排序结果选取所述用于生成短资讯的段落。

在本发明的又一个实施例中，基于所述一个或多个关键词选取部分文本内容的步骤之后，所述方法还包括：

获取所述文章的多媒体内容；

根据所述部分文本内容生成短资讯的步骤包括：

结合所述多媒体内容和部分文本内容生成短资讯。

在本发明的又一个实施例中，获取所述文章的多媒体内容的步骤包括：

读取所述文章的网址；

根据所述网址获取所述文章的多媒体内容。

在本发明的又一个实施例中，所述短资讯包括指向所述文章的链接，所述链接被配置为响应于用户的点击操作，从当前页面跳转到所述文章所在的页面。

在本发明的又一个实施例中，指向所述文章的链接包括所述文章的标题、所述短资讯的文本内容和多媒体内容中的一个或多个。

在本发明的又一个实施例中，根据所述部分文本内容生成短资讯的步骤之后还包括：

将所述文章和基于所述文章生成的短资讯向用户分发；其中

同一用户仅接收到所述文章和所述短资讯之一。

在本发明实施方式的第二方面中，提供了一种基于长篇文章生成短资讯的装置，包括：

文本内容获取模块，被配置为获取文章的文本内容；

关键词获取模块，被配置为分析获取到的所述文本内容，从中得到一个或多个关键词；

文本内容选取模块，被配置为基于所述一个或多个关键词选取部分文本内容；

短资讯生成模块，被配置为根据所述部分文本内容生成短资讯。

在本发明实施方式的第三方面中，提供了一种计算机可读存储介质，存储有程序代码，所述程序代码当被处理器执行时，实现本发明提供的任一项所述的基于长篇文章生成短资讯的方法。

在本发明实施方式的第四方面中，提供了一种计算设备，包括处理器和存储有程序代码的存储介质，所述程序代码当被处理器执行时，实现本发明提供的任一项所述的基于长篇文章生成短资讯的方法。

根据本发明实施方式的第一方面提供的基于长篇文章生成短资讯的方法，在接收到媒体用户编辑或上传的长文章时，获取所述长文章的文本内容；分析获取到的所述文本内容，从中得到一个或多个关键词；基于所述一个或多个关键词选取部分文本内容；根据所述部分文本内容生成短资讯；在本发明实施方式中，若媒体用户需要同时发布长篇文章和短篇资讯，仅仅手动编辑或上传长篇文章即可，短资讯可以自动根据所述长篇文章生成；另一方面，若媒体用户编辑或上传发布一长篇文章，可以自动根据所述长篇文章生成短资讯，将生成的短资讯和上传的长篇文章同时向阅读用户群体分发，大大增加媒体用户的创作内容的曝光率。

本发明实施方式第二方面提供的计算机可读存储介质、第三方面提供的基于长篇文章生成短资讯的装置和第四方面提供的计算设备，与上述第一方面提供的基于长篇文章生成短资讯的方法出于相同的发明构思，具有相同的有益效果。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1示意性地示出了根据本发明实施方式提供的一种基于长篇文章生成短资讯的方法应用场景的示意图；

图2示意性地示出了根据本发明实施方式提供的一种基于长篇文章生成短资讯的方法的流程图；

图3示意性示出了根据本发明实施方式提供的一种短资讯生成场景的示意图；

图4示意性示出了根据本发明实施方式生成的短资讯的示意图；

图5示意性地示出了根据本发明实施方式提供的一种基于长篇文章生成短资讯的装置的示意图；

图6示意性地示出了根据本发明实施方式提供的一种计算机可读存储介质的示意图；

图7示意性地示出了根据本发明实施方式提供的一种计算设备的示意图；

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本发明的实施方式，提出了一种基于长篇文章生成短资讯的方法、介质、装置和计算设备。

此外，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

发明概述

本发明人发现，目前的内容资讯平台，不论是单独发布长篇文章或短篇资讯，还是同时发布长篇和短篇文章/资讯，都需要通过官方媒体或自媒体账号手动上传/编辑文章进行。另外，在媒体用户单独发布长篇文章时，也不会对应生成短资讯向阅读用户分发；这些现有技术的方案，效率不高，还使得媒体用户的工作流程增加，非常不便。因此，发明人在本申请中提出了一种基于长篇文章生成短资讯的方法，能够根据媒体用户编辑或上传的长篇文章自动生成短资讯，将长篇文章和短资讯同时向阅读用户分发。并且，媒体用户编辑或上传的长篇文章中可能包含一些图片，视频等多媒体内容，进一步地，本方法还可以将长篇文章中的多媒体内容提取出来，结合文本内容生成图文并茂的短资讯，方便阅读用户阅读观看。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

应用场景总览

首先参考图1，其示意性地示出了根据本发明实施方式提供的基于长篇文章生成短资讯的方法的一种应用场景的示意图，如图所示，内容资讯平台的一侧与大量的媒体用户终端通信连接，另一侧与大量的阅读用户终端通信连接，内容资讯平台在接收到媒体用户发送的长篇文章发布请求后，按照所述的基于长篇文章生成短资讯的方法生成短资讯，之后将媒体用户上传的长篇文章和生成的短资讯同时向阅读用户群体分发。

可以理解的是，上述基于长篇文章生成短资讯的方法还可以应用于具备文本处理能力的媒体用户终端，媒体用户在终端设备将编辑好长文章，所述终端设备在接收到媒体用户的上传发布指令后，响应于接收到所述指令，按照所述的基于长篇文章生成短资讯的方法生成短资讯，之后将媒体用户指示上传发布的长篇文章和生成的短资讯上传至内容资讯平台，以便分发至阅读用户终端。

示例性方法

下面结合图1的应用场景，参考图2来描述根据本发明示例性实施方式的基于长篇文章生成短资讯的方法。需要注意的是，上述应用场景仅是为了便于理解本发明的精神和原理而示出，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于适用的任何场景。

请参考图2，其示意性地示出了根据本发明实施方式提供的一种基于长篇文章生成短资讯的方法的流程图，所述方法包括以下步骤：

步骤S101，获取文章的文本内容；

本发明的一种实施方式的执行主体为内容资讯平台，具体的，所述内容资讯平台可以是服务器、服务器集群或虚拟服务器等。媒体用户在需要发布文章和/或资讯时，可以向所述内容资讯平台发送内容发布服务请求信息，例如，媒体用户在编辑或上传文章后，需要发布编辑或上传的所述文章，则可以向内容资讯平台发送表示发布的服务请求信息，所述内容资讯平台在接收到所述发布服务请求信息及其对应的文章和/或资讯后，即可根据所述文章和/或资讯生成相应的短资讯。

其中，所述服务请求信息可以通过媒体用户使用的通信设备如手机、电脑等编辑或触发，例如，用户在手机上点击表示发布的按钮和/或图标，手机根据用户的点击操作自动生成发布服务请求信息并发送至所述内容资讯平台。

进一步地，本发明一个实施方式中，上述步骤S101获取文章的文本内容的具体实施方式还可以包括：对于包括图片和视频等数据的文章，可以考虑通过图像识别技术、视频解析技术等，将文章中的非文本数据转化为内容对应的文本数据，从而更全面的分析目标文件中的内容，以便提取文本内容。例如，上述内容资讯平台从收到的文章数据库中提取一个包括文本和图片的目标文章，具体包括200个文字和1张图片，该图片上有20个文字，内容资讯平台识别出图片中的20个文字，共获取目标文章中的220个文字内容。

或者考虑到媒体用户编辑或上传的文章可能包括一些与文章正文文本无关的无效信息，这些无效信息对生成短资讯并没有帮助，反而会浪费存储和/或计算资源，在本发明的一个实施方式中，在获取到媒体用户上传的文章时，可对所述文章进行预处理，去除掉无效信息，保留所述文章的正文文本；例如可过滤文章中的题记，图标题，推广链接以及网址等无效信息。

具体地，网页文件中，文本内容和网址链接，图片等的标签存在区别，例如，文本内容一般由标签<P>定义，而图片由标签<img>定义，超链接由<a>定义，通过不同的标签即可过滤非文本内容等无效信息。另一方面，在文章中，通常情况下题记和图标题的字号和字体等属性信息与正文都不同，通过所述文章中文字内容的字号和字体等属性信息，可以过滤掉其中的题记和图标题等无效信息；另外，文章中的题记和图标题的位置也会比较特殊，例如题记一般存在于文章标题的下方，图标题一般存在于图片的周围，因此通过文章中文字内容的位置信息也可以过滤掉其中的题记和图标题。并且即使网址存在于标签<P>中，推广网址的一般都是以“https://”或“http://”为头，后缀一串英文字母或数字的字符串文本，通过正则表达式匹配，也可以过滤掉文章中的推广网址，保留其正文文本。

在得到文章的正文文本后，可以进一步获取其中的关键词，并基于关键词获得文章中用于生成短资讯的文本内容。

步骤S102，分析获取到的所述文本内容，从中得到一个或多个关键词；

本步骤，可以基于上一步骤中获取到的文章的正文文本进行分析，从中得到用于选定生成短资讯的段落的关键词，具体地，在本实施方式中，所述步骤S102包括：

分析获取到的所述文本内容，识别出其中的各个词语；

在本步骤中，通过分析获取到的所述文本内容，识别出其中的词语。

众所周知，英文是以词为单位的，词和词之间是靠空格隔开，而中文是以字为单位，句子中所有的字连起来才能描述一个意思。例如，英文句‘I am a student’，用中文表示则为:“我是一个学生”。计算机可以很简单地通过空格识别出student是一个单词，但是不能很容易明白“学”、“生”两个字合起来才表示一个词。必须通过一定的方式把中文的汉字序列切分成有意义的词。例如“我是一个学生”，分词的结果是：我|是|一个|学生。

在本步骤中，在对获取到的中文文章的正文文本进行分词时，可以采用基于字符串匹配的分词方法(例如正向最大匹配法、逆向最大匹配法和最少切分法)，基于理解的分词方法，基于统计的分词方法，基于规则的分词方法(最小匹配算法、逐字匹配算法、神经网络分词算法、联想—回溯法、N-最短路径分词算法)等方式，本实施方式在此不作限定。具体的，例如通过逆向最大匹配法对获取到的中文文章的正文文本进行分词：

逆向最大匹配法RMM(Reverse Directional Maximum Matching Method)的基本思想是：假设词典中最大词条所含的汉字个数为n个，取待处理字符串的后n个字作为匹配字段，查找分词词典。若词典中含有该词，则匹配成功，分出该词，然后按照从后往前的顺序从被比较字符串的n+1处开始再取n个字组成的字段重新在词典中匹配；如果没有匹配成功，则将这n个字组成的字段的第一位剔除，用剩下的n-1个字组成的字段在词典中进行匹配，如此进行下去，直到切分成功为止。

比如对于字符串“处理机器发生的故障”，第一步，从字符串的右边取长度以步长(假设比较的步长为5，本文步长step都取5)为单位的字段“发生的故障”在词典中进行匹配，匹配不成功，去除“发”字，再取字段“生的故障”进行匹配，依次匹配，直到分出“故障”一词，最终使用RMM方法切分的结果为：故障、发生、机器、处理。

可以理解的是，单纯的使用一种分词方法仍然存在较大的错误率，在本发明的又一实施方式中可以同时采取多种分词算法，来提高正确率；或者改进扫描方式(称为特征扫描或标志切分),优先在文本字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将文本字符串分为较小的子字符串再来进行分词，从而减少匹配的错误率。

至此，本步骤对获取到的文章的正文文本分词完成，得到所述文章的正文文本的所有词语，下一步，获取各个词语在所述文章中的词频信息和在全网的热度信息；

在本步骤中，基于上一步骤获取到的所述文章正文文本中的所有词语，获取所述词语的在文章中的词频信息和在全网的热度信息，进而确定出一个或多个关键词。

其中，所述词频信息与词语在所述文章中出现的次数有关，例如一文章的正文文本分词后，共含词语100个，其中词语“baby”出现了5次。而所述热度信息可以是某一时间段内用户通过搜索引擎等渠道关注到某一人物或事件的关注度和搜索度，例如以内容资讯平台接收到所述文章为时间节点，在过去三小时内，全网搜索“baby”5000次，共搜索10000次。可以理解的是，所述热度信息也可以与某一时间段内用户通过内容资讯平台讨论到某一人物或事件的次数有关，例如以内容资讯平台接收到所述文章为时间节点，在过去三小时内，全网与“baby”有关的文章或资讯的阅读数，评论数和转发数。在本发明的一实施方式中，可以通过简单地计算“5/100”以及“5000/10000”分别确定“baby”的词频信息为0.05，热度信息为0.5。可以理解的是，本发明可以通过其他计算方法确定所述词语的词频信息和热度信息，本实施方式在此不作限定。

接下来，基于所述词频信息和热度信息确定一个或多个关键词。

在本步骤中，根据获取到的各个词语的词频信息和热度信息，从所述文章切分出的词语中确定一个或多个关键词。

本发明的一个实施方式中，可以基于所述词语的词频信息和热度信息对切分出的多个词语进行排序，例如从一段话中切分出A，B，C，D和E五个词语，分别对应获取到词频信息为X_A,X_B,X_C,X_D和X_E；热度信息为Y_A,Y_B,Y_C,Y_D和Y_E。可以通过对词频信息和热度信息的计算，得到其所对应的词语的关键词分数，进而根据分数从大到小进行排序，例如通过词频信息和热度信息两者相加(例如X_A+Y_A)得到词语的关键词分数，最终根据结果按照分数从大到小对A，B，C，D和E五个词语进行排序，进而从中确定关键词，例如对A，B，C，D和E五个词语进行排序为A>C>D>B>E,根据预设从中选取两个关键词，即A和C。可以理解的是，本发明可以通过其他计算方法确定所述词语的关键词分数，例如通过加权计算增大词频信息或热度信息对最终结果的影响，本实施方式在此不作限定。

考虑到一个词语往往具有多个词性，也即出现在文章中多次的词语，在不同的位置可能具有的词性不同，如果都将其作为一个词语处理，很显然是不合适的，会对选取关键词造成影响，最终无法精确的选取用于生成短资讯的段落。在本发明的一个实施方式中，当所述文章中的词语具有多个词性时，按照每个词性作为不同的子词语处理，统计与各子词语对应的词频信息和热度信息。例如在下面一句话中“小李用锤(名词)头锤(动词)了木板一锤(量词)”，“锤”在这句话中就有三个词性，此时可以将锤(名词)，锤(动词)和锤(量词)作为不同的子词语处理，统计与各子词语对应的词频信息和热度信息。相应的，在排序时，也作为不同的子词语处理，从而选取到合适的关键词。

考虑到同一个词语可指代含义概念不同的事物，也即出现在文章中多次的词语，在不同的位置可能具有不同的含义，如果都将其作为一个词语处理，显然不够合适，会对选取关键词造成影响，最终无法精确的选取用于生成短资讯的段落。在本发明的一个实施方式中，当所述文章中的词语具有多个词义时，按照每个词义作为不同的子词语处理，统计与各子词语对应的词频信息和热度信息。例如，“苹果”，既可以代表一种水果，也可以指代苹果公司，如果“苹果”出现在一篇文章中多次，且恰好两种含义都有表达，那么此时将其作为一个词语统计词频信息和热度信息是不合适的，此时可以将苹果(代表一种水果)和苹果(指代苹果公司)作为不同的子词语处理，统计与各子词语对应的词频信息和热度信息。相应的，在排序时，也作为不同的子词语处理，从而选取到合适的关键词。

发明人通过大量的实验和观察数据得到，通过文章中的名词词语确定的关键词，在选定用于生成短资讯的段落时最为恰当。在本发明的一个实施方式中，在完成分词时，识别出其中的名词词语，从名词中选出一个或多个关键词，也即获取各个名词在所述文章中的词频信息和在全网的热度信息；基于所述词频信息和热度信息确定一个或多个关键词。

在确定一个或多个关键词后，执行步骤S103，基于所述一个或多个关键词选取部分文本内容；

本步骤，以所述一个或多个关键词为根据，从所述文章中选出部分文本内容，以生成短资讯。具体的，步骤S103包括：

根据所述参考信息选取用于生成短资讯的段落。

在本发明的一个实施方式中，以所述一个或多个关键词为根据，分别获取所述关键词在各个段落中出现的次数，以此确定选取哪些段落生成短资讯。具体的，根据前述步骤获取到一文章的三个关键词：A、B和C，进一步地，统计在一个段落中A、B和C出现的总次数，记为所述段落的关键词词频信息，基于每个段落的关键词词频信息，选取用于生成短资讯的段落，例如可以根据每一段落的关键词词频信息对其排序，参照图3，假设文章中有5个段落，根据每一段落的关键词词频信息按照从大到小排序为第三段>第一段>第二段>第四段>第五段，根据预设规则选取两段生成短资讯，即第三段和第一段。

可以理解的是，在选取关键词时，关键词排名是可以分先后的，即关键词的重要性不同，那么在统计每一段落的关键词词频信息时，也可以参考关键词的重要程度对其加以相应的权重，以使得重要程度越高的关键词，对段落的选取结果的影响也越大。具体的，根据前述步骤获取到一文章的三个关键词：A、B和C，其中，就重要性而言B>A>C，假设文章中有5个段落，不再考虑关键词的重要性时，计算第一段的关键词词频信息TF_P1＝TF_A1+TF_B1+TF_C1，类似的得到TF_P2，TF_P3，TF_P4和TF_P5，此时TF_P2>TF_P3>TF_P1>TF_P5>TF_P4，那么按照预设规则选取两个段落应为第二段和第三段。考虑到关键词的重要性不同，在统计每一段落的关键词词频信息时，参考关键词的重要程度对其加以相应的权重，假设A、B和C分别对应权重α、β和γ，那么TF_P1＝αTF_A1+βTF_B1+γTF_C1，类似的得到TF_P2，TF_P3，TF_P4和TF_P5，此时排序结果出现变化TF_P4>TF_P2>TF_P3>TF_P1>TF_P5，那么按照预设规则选取两个段落应为第四段和第二段。

考虑到，文章中段落的位置和长度也能影响到段落的选取结果，例如考虑到作者在撰写文章时，会在前半部分后半部分描述文章的关键信息，可以优先在文章前一部分(如前三段)及后一部分(如后三段)中选择，并且考虑到文字内容较长的段落信息含量更大，传达的信息也更多，同时可以减少拼接的段落数，以克服前后不关联的段落内容在逻辑上的不连贯，可以优先选择文字长度在100字以上的段落。

更进一步地，根据所述参考信息选取用于生成短资讯的段落的步骤包括：

在本发明的一个实施方式中，通过获取所述关键词词频信息、位置信息和长度信息对应的权重得到所述文本内容中各个段落的分数，进而按照分数由高到低的顺序对所述段落进行排序，根据排序结果选取所述用于生成短资讯的段落，其中考虑到作者在撰写文章时，会在文章的前半部分和后半部分描述一些关键信息，可以给文章前一部分(如前三段)及后一部分(如后三段)预设较高的权重；考虑到文字内容较长的段落信息含量更大，传达的信息也更多，同时可以减少拼接的段落数，以克服前后不关联的段落内容在逻辑上的不连贯，可以优先选择给文字长度在100字以上的段落预设较高的权重。

在分别对应获取到所述关键词词频信息、位置信息和长度信息的权重之后，根据所述权重得到所述文本内容中各个段落的分数；

例如，假设文章中有5个段落，词频信息为TF_P1，对应的权重为A；位置信息对应的权重为D_P1，长度信息对应的权重为L_P1；计算第一段的分数S_P1＝A*TF_P1*D_P1*L_P1，类似的得到S_P2，S_P3，S_P4和S_P5。

按照分数由高到低的顺序对所述段落进行排序，根据排序结果选取所述用于生成短资讯的段落；

此时排序结果为S_P2>S_P3>S_P1>S_P5>S_P4，那么按照预设规则选取两个段落应为第二段和第三段。

考虑到短资讯的长度有限制，即生成的短资讯的字数不宜超过预设阈值。在本发明的一个实施方式中，若根据排序结果选出的多个段落的总字数超过预设阈值，则可以根据排序结果从后往前排除选择的段落，以使得生成的短资讯的字数不超过预设阈值，即排序结果为S_P2>S_P3>S_P1>S_P5>S_P4，那么按照预设规则选取三个段落应为第二段、第三段和第一段，但是这三段加起来的总字数超过了预设阈值，那么首先排除第一段，判断第二段和第三段是否满足预设阈值，若满足，则选取第二段和第三段生成短资讯。

在本发明的有又一实施方式中，若根据排序结果选出的多个段落的总字数超过预设阈值，则可以先选取一段，以使得生成的短资讯的字数不超过预设阈值，再改变长度的权重对剩下的段落重新计算分数排序，以选取到合适的段落，例如第一次排序结果为S_P2>S_P3>S_P1>S_P5>S_P4，那么按照预设规则选取三个段落应为第二段、第三段和第一段，但是这三段加起来的总字数超过了预设阈值，那么首先选取第二段，再改变长度权重，以使得较少字数的段落能够排序在前，对第一段、第三段、第四段和第五段重新计算分数，使得能够从中选取到合适的用于生成短资讯的段落。

步骤S104，根据所述部分文本内容生成短资讯。

考虑到媒体用户编辑或上传的长篇文章中可能包含一些图片，视频等多媒体内容，进一步地，本方法还可以将长篇文章中的多媒体内容提取出来，结合文本内容生成图文并茂的短资讯，方便阅读用户阅读观看。

在本发明的一个实施方式中，所述方法还包括：

获取所述文章的多媒体内容；

可以理解的是，网页文件中，文本内容和网址链接，图片等的标签存在区别，例如，声音内容一般由标签<audio>定义，而图片由标签<img>定义，视频由<video>定义，通过这些定义多媒体内容的标签即可获取到所述文章中有媒体用户插入的多媒体内容。具体的，获取所述文章的多媒体内容的步骤包括：

读取所述文章的网址；

在本实施方式中，可以根据所述文章的网址查找到所述文章的网页文件。

根据所述网址获取所述文章的多媒体内容。

通过所述网址查找到所述文章的网页文件后，即可根据定义多媒体内容的标签即可获取到所述文章中有媒体用户插入的多媒体内容

在获取到所述多媒体内容后，进一步地，根据所述部分文本内容生成短资讯的步骤包括：

结合所述多媒体内容和部分文本内容生成短资讯。

在本发明的又一实施方式中，所述短资讯包括指向所述文章的链接，所述链接被配置为响应于用户的点击操作，从当前页面跳转到所述文章所在的页面。可参考图4，其示意性的示出了本实施方式生成的短资讯，其中带有下划线的部分文字即为所述链接，即所述带有下划线的部分文字可以响应于用户的点击操作，从当前页面跳转到所述文章所在的页面，使得用户能够浏览到所述长篇文章。可以理解的是，指向所述文章的链接包括所述文章的标题、所述短资讯的文本内容和多媒体内容中的一个或多个，也即所述图片、文章的标题和所述短资讯的文本内容都能够响应于用户的点击操作，从当前页面跳转到所述文章所在的页面。

本发明的又一实施方式中，上述基于长篇文章生成短资讯的方法还可以应用于具备文本处理能力的媒体用户终端，上述终端可以包括但不限于：移动设备、笔记本、平板电脑、智能设备、穿戴式设备等等，上述终端可以运行塞班、安卓、WINDOWS、IOS(苹果公司开发的操作系统)等操作系统，本发明实施实施方式不做具体限定。

在本发明的一个实施方式中，根据所述部分文本内容生成短资讯的步骤之后还包括：

将所述文章和基于所述文章生成的短资讯向用户分发；其中

同一用户仅接收到所述文章和所述短资讯之一。

在本实施方式中，若执行主体为内容资讯平台，则可以直接将生成短资讯向用户分发，为了使得用户不看到重复的内容，在向用户分发时，仅仅选择所述文章和基于所述文章生成的短资讯之一。若执行主体为具备文本处理能力的媒体用户终端，则将所述文章和基于所述文章生成的短资讯上传至内容资讯平台，以将所述文章和基于所述文章生成的短资讯向用户分发。

可以理解的是，基于所述文章生成的短资讯，可以将生成的短资讯发送至媒体用户终端设备的显示屏幕中，输出显示生成的短资讯，以使得媒体用户能够对生成的短资讯进行编辑，以便媒体用户调整。

根据本发明实施方式的基于长篇文章生成短资讯的方法，在接收到媒体用户编辑或上传的长文章时，获取所述长文章的文本内容；分析获取到的所述文本内容，从中得到一个或多个关键词；基于所述一个或多个关键词选取部分文本内容；根据所述部分文本内容生成短资讯；在本发明实施方式中，若媒体用户需要同时发布长篇文章和短篇资讯，仅仅手动编辑或上传长篇文章即可，短资讯可以自动根据所述长篇文章生成；另一方面，若媒体用户编辑或上传发布一长篇文章，可以自动根据所述长篇文章生成短资讯，将生成的短资讯和上传的长篇文章同时向阅读用户群体分发，大大增加媒体用户的创作内容的曝光率。

示例性装置

在介绍了本发明示例性实施方式的方法之后，接下来，参考图5对本发明示例性实施方式的基于长篇文章生成短资讯的装置进行说明，由于装置实施例是与方法实施例对应的，因此仅作简要描述，具体实施时可以参照上述方法实施例的说明，部分内容此处不再赘述。

请参照图5，其示意性地示出了根据本发明实施方式提供的一种基于长篇文章生成短资讯的装置的示意图，附图中虚线框及虚线表示可选配的模块及连接关系，一种基于长篇文章生成短资讯的装置，包括：

文本内容获取模块510，被配置为获取文章的文本内容；

关键词获取模块520，被配置为分析获取到的所述文本内容，从中得到一个或多个关键词；

文本内容选取模块530，被配置为基于所述一个或多个关键词选取部分文本内容；

短资讯生成模块540，被配置为根据所述部分文本内容生成短资讯。

在本发明的又一个实施方式中，所述关键词获取模块520包括：

分词单元，被配置为分析获取到的所述文本内容，识别出其中的各个词语；

词频及热度获取单元，被配置为获取各个词语在所述文章中的词频信息和在全网的热度信息；

关键词确定单元，被配置为基于所述词频信息和热度信息确定一个或多个关键词。

在本发明的又一个实施方式中，当所述文章中的词语具有多个词性时，按照每个词性作为不同的子词语处理，统计与各子词语对应的词频信息和热度信息。

在本发明的又一个实施方式中，当所述文章中的词语具有多个词义时，按照每个词义作为不同的子词语处理，统计与各子词语对应的词频信息和热度信息。

在本发明的又一个实施方式中，所述词语为名词。

在本发明的又一个实施方式中，所述文本内容选取模块530包括：

参考信息获取单元，被配置为分别获取所述文章的文本内容中各个段落的关键词词频信息、位置信息和长度信息中的一个或多个作为参考信息；

段落选取单元，被配置为根据所述参考信息选取用于生成短资讯的段落。

权重获取单元，被配置为获取所述关键词词频信息、位置信息和长度信息对应的权重；

分数确定单元，被配置为根据所述权重得到所述文本内容中各个段落的分数；

段落排序确定单元，被配置为按照分数由高到低的顺序对所述段落进行排序，根据排序结果选取所述用于生成短资讯的段落。

在本发明的又一个实施方式中，所述装置还包括：

多媒体内容获取模块，被配置为获取所述文章的多媒体内容；

所述短资讯生成模块还被配置为结合所述多媒体内容和部分文本内容生成短资讯。

在本发明的又一个实施方式中，所述多媒体内容获取模块包括：

网址读取单元，被配置为读取所述文章的网址；

多媒体内容获取单元，被配置为根据所述网址获取所述文章的多媒体内容。

在本发明的又一个实施方式中，所述短资讯包括指向所述文章的链接，所述链接被配置为响应于用户的点击操作，从当前页面跳转到所述文章所在的页面。

在本发明的又一个实施方式中，指向所述文章的链接包括所述文章的标题、所述短资讯的文本内容和多媒体内容中的一个或多个。

在本发明的又一个实施方式中，所述装置还包括：

分发模块，被配置为将所述文章和基于所述文章生成的短资讯向用户分发；其中

同一用户仅接收到所述文章和所述短资讯之一。

以上为本发明实施方式提供的一种基于长篇文章生成短资讯的装置的说明，该基于长篇文章生成短资讯的装置与本发明提供的基于长篇文章生成短资讯的方法出于相同的发明构思，具有相同的有益效果

示例性介质

在介绍了本发明示例性实施方式的方法、装置之后，接下来，参考图6对本发明示例性实施方式的计算机可读存储介质进行说明，请参考图6，其示出的计算机可读存储介质为光盘60，其上存储有计算机程序(即程序产品)，所述计算机程序在被处理器运行时，会实现上述方法实施方式中所记载的各步骤，例如，获取文章的文本内容；分析获取到的所述文本内容，从中得到一个或多个关键词；基于所述一个或多个关键词选取部分文本内容；根据所述部分文本内容生成短资讯；各步骤的具体实现方式在此不再重复说明。

需要说明的是，所述计算机可读存储介质的例子还可以包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质，在此不再一一赘述。

示例性计算设备

在介绍了本发明示例性实施方式的方法、装置和介质之后，接下来，参考图7对本发明示例性实施方式的计算设备进行说明，图7示出了适于用来实现本发明实施方式的示例性计算设备70的框图，该计算设备70可以是计算机系统或服务器。图7显示的计算设备70仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，计算设备70的组件可以包括但不限于：一个或者多个处理器或者处理单元701，系统存储器702，连接不同系统组件(包括系统存储器702和处理单元701)的总线703。

系统存储器702可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)7021和/或高速缓存存储器7022。计算设备70可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，ROM7023可以用于读写不可移动的、非易失性磁介质(图7中未显示，通常称为“硬盘驱动器”)。尽管未在图7中示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线703相连。系统存储器702中可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块7024的程序/实用工具7025，可以存储在例如系统存储器702中，且这样的程序模块7024包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块7024通常执行本发明所描述的实施例中的功能和/或方法。

计算设备70也可以与一个或多个外部设备704(如键盘、指向设备、显示器等)通信。这种通信可以通过输入/输出(I/O)接口705进行。并且，计算设备70还可以通过网络适配器706与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图7所示，网络适配器706通过总线703与计算设备70的其它模块(如处理单元701等)通信。应当明白，尽管图7中未示出，可以结合计算设备70使用其它硬件和/或软件模块。

处理单元701通过运行存储在系统存储器702中的程序，从而执行各种功能应用以及数据处理，例如，执行并实现基于长篇文章生成短资讯的方法中的各步骤；例如，获取文章的文本内容；分析获取到的所述文本内容，从中得到一个或多个关键词；基于所述一个或多个关键词选取部分文本内容；根据所述部分文本内容生成短资讯；各步骤的具体实现方式在此不再重复说明。

应当注意，尽管在上文详细描述中提及了基于长篇文章生成短资讯的装置的若干单元/模块或子单元/子模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种基于长篇文章生成短资讯的方法，包括：

获取文章的文本内容；

分析获取到的所述文本内容，从中得到一个或多个关键词；

基于所述一个或多个关键词选取部分文本内容；

根据所述部分文本内容生成短资讯。

2.如权利要求1所述的方法，其中，所述分析获取到的所述文本内容，从中得到一个或多个关键词的步骤包括：

分析获取到的所述文本内容，识别出其中的各个词语；

基于所述词频信息和热度信息确定一个或多个关键词。

3.如权利要求2所述的方法，其中，当所述文章中的词语具有多个词性时，按照每个词性作为不同的子词语处理，统计与各子词语对应的词频信息和热度信息。

4.如权利要求2所述的方法，其中，当所述文章中的词语具有多个词义时，按照每个词义作为不同的子词语处理，统计与各子词语对应的词频信息和热度信息。

5.如权利要求2所述的方法，其中，所述词语为名词。

6.如权利要求1所述的方法，其中，基于所述一个或多个关键词选取部分文本内容的步骤包括：

根据所述参考信息选取用于生成短资讯的段落。

7.如权利要求1所述的方法，基于所述一个或多个关键词选取部分文本内容的步骤之后，所述方法还包括：

获取所述文章的多媒体内容；

根据所述部分文本内容生成短资讯的步骤包括：

结合所述多媒体内容和部分文本内容生成短资讯。

8.一种基于长篇文章生成短资讯的装置，包括：

文本内容获取模块，被配置为获取文章的文本内容；

9.一种计算机可读存储介质，存储有程序代码，所述程序代码当被处理器执行时，实现如权利要求1-7之一所述的方法。

10.一种计算设备，包括处理器和存储有程序代码的存储介质，所述程序代码当被处理器执行时，实现如权利要求1-7之一所述的方法。