具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在对本申请所示的各个实施例进行说明之前,首先对本申请涉及到的,以综述形式发布的新闻页面,以及本申请的实施例环境进行介绍。
综述形式的新闻页面是包含至少两条新闻文章的文章内容的新闻页面。其中,一个综述形式的新闻页面包含:总标题、至少两个新闻文章的标题以及各个新闻文章的摘要。可选的,若某一新闻文章包含附图,则综述形式的新闻页面也可以包含该文章的附图。
综述形式的新闻页面可以包含最近一段时间内的多种类型的新闻文章中的重要新闻文章对应的内容,即多种类型的新闻文章中的重要新闻在同一个综述形式的新闻页面中进行显示。其中,重要新闻文章是指按照预设的评分算法计算获得的重要性得分高于预设的得分数值的新闻文章,或者,按照重要性得分从高到低的顺序排列在前预设位数的新闻文章。
或者,综述形式的新闻页面也可以只包含最近一段时间内的同一类型的新闻文章中的重要新闻文章对应的内容,即每种类型的新闻文章中的重要新闻对应一个综述形式的新闻页面,比如,财经类型的重要新闻对应在一个综述形式的新闻页面显示,体育类型的重要新闻对应在另一个综述形式的新闻页面显示。
请参考图1,其示出了本申请各个实施例涉及的一种综述形式的新闻页面的页面示意图。以每种类型的新闻文章中的重要新闻对应一个综述形式的新闻页面为例,请参考图1,其中,图1中的(a)部分示出了新闻类型为“大公司新闻”的综述形式的新闻页面,图1中的(b)部分示出了新闻类型为“财经新闻”的综述形式的新闻页面。并且,图1中的综述形式的新闻页面中包含总标题101、各个新闻文章的标题102、新闻文章的摘要103、新闻文章的附图104以及导语等。
请参考图2,其示出了本申请各个实施例涉及的一种新闻发布系统的系统构成图。如图2所示,该系统包括服务器220、数据库240以及若干个终端260。
服务器220是一台服务器,或者由若干台服务器,或者是一个虚拟化平台,或者是一个云计算服务中心。
服务器220可以由一个或多个功能单元组成。可选的,如图2所示,服务器220可以包括新闻页面生成单元220a、新闻页面发布单元220b以及新闻文章管理单元220c。
新闻页面生成单元220a用于根据新闻供应商的编排人员人工编排的新闻文章,生成非综述形式的新闻页面。
新闻页面发布单元220b用于向终端发送上述非综述形式的新闻页面,以便终端260获取非综述形式的新闻页面并展示。
新闻文章管理单元220c收集非综述形式的新闻页面中的各篇新闻文章在各个终端260中的点展数据,并将收集到的点展数据存储至数据库240中。
其中,上述各篇新闻文章在各个终端260中的点展数据可以包括各篇新闻文章在终端260中被曝光的信息、各篇新闻文章在终端260中被点击的信息以及各篇新闻文章在终端260中被展示的信息等。
此外,新闻文章管理单元220c还将各篇新闻文章的文章内容,以及各篇新闻文章的发布时间等信息也存储至数据库240中。
可选的,新闻文章管理单元220c将各篇新闻文章按照各自对应的新闻类型在数据库240中进行存储。比如,如图2所示,新闻文章管理单元220c将各篇新闻文章按照“财经新闻”、“体育新闻”以及“大公司新闻”等新闻类型进行归类存储。
此外,上述的新闻页面生成单元220a,还用于根据数据库240中存储的新闻文章,以及新闻文章的点展数据等信息生成综述形式的新闻页面,并由新闻页面发布单元220b将生成的综述形式的新闻页面发布至网络中,以便终端260获取综述形式的新闻页面并展示。其中,点展数据是指示对应的新闻文章被曝光、被点击以及被展示的情况的数据。
终端260可以是具有网络连接功能以及界面展示功能的终端设备,比如,终端260可以是手机、平板电脑、电子书阅读器、智能眼镜、智能手表、MP3播放器(Moving PictureExperts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(MovingPicture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
终端260与服务器220之间通过通信网络相连。可选的,该通信网络是有线网络或无线网络。
可选的,该系统还可以包括管理设备(图2未示出),该管理设备与服务器220之间通过通信网络相连。可选的,通信网络是有线网络或无线网络。
可选的,上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络,包括但不限于局域网(Local Area Network,LAN)、城域网(Metropolitan Area Network,MAN)、广域网(Wide Area Network,WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合)。在一些实施例中,使用包括超文本标记语言(Hyper TextMark-upLanguage,HTML)、可扩展标记语言(Extensible MarkupLanguage,XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer,SSL)、传输层安全(Transport Layer Security,TLS)、虚拟专用网络(Virtual Private Network,VPN)、网际协议安全(Internet ProtocolSecurity,IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中,还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。
请参考图3,其示出了本申请一示例性实施例提供的一种生成新闻页面的流程示意图,该生成新闻页面的流程可以由计算机设备执行以生成综述形式的新闻页面,该计算机设备可以是如图2所示系统中的服务器220。如图3所示,该生成新闻页面的流程可以如下:
计算机设备获取数据库中的各篇新闻文章和该各篇新闻文章的点展数据(31)。计算机设备根据该各篇新闻文章的文章内容和该各篇新闻文章的点展数据获取该各篇新闻文章的重要性得分(32)。计算机设备获取N篇新闻文章,该N篇新闻文章是该各篇新闻文章按照对应的重要性得分从高到低进行排序后的前N篇新闻文章,N是大于等于2的整数(33)。计算机设备根据该N篇新闻文章的文章内容生成该N篇新闻文章各自的摘要,以及该N篇新闻文章的总标题(34)。计算机设备生成包含该N篇新闻文章各自的摘要,以及该N篇新闻文章的总标题的新闻页面(35)。
通过图3所示的流程,计算机设备可以根据新闻文章及其点展数据对新闻文章进行排序并提取其中重要性高的至少两篇新闻文章,生成至少两篇新闻文章各自的摘要以及至少两篇新闻文章的总标题,再生成包含上述摘要和总标题的新闻页面,实现了综述形式的新闻页面的自动生成。由于上述过程中生成的新闻页面中的新闻文章由计算机设备根据新闻文章及其点展数据自动筛选并生成,避免了新闻文章的筛选受主观影响较大的问题,能够提高综述形式的新闻页面中的新闻文章的筛选准确性,从而提高重要新闻的发布效果。
在上述图3所示流程的基础上,计算机设备在生成综述形式的新闻页面时,还可以对综述形式的新闻页面中的新闻文章的摘要进行配图以及排序等处理,本申请后续实施例将对计算机设备生成综述形式的新闻页面的过程进行进一步的说明介绍。
请参考图4,其示出了本申请一示例性实施例提供的一种生成新闻页面的方法的流程图,该生成新闻页面的方法可以由计算机设备执行以生成综述形式的新闻页面,该计算机设备可以是如图2所示系统中的服务器220。如图4所示,该生成新闻页面的方法可以包括如下步骤:
步骤401,获取数据库中的各篇新闻文章和该各篇新闻文章的点展数据。
其中,该点展数据用于指示对应的新闻文章被曝光的信息、对应的新闻文章被点击的信息以及对应的新闻文章被展示的信息中的至少一种。
上述新闻文章被曝光的信息可以包含新闻文章被曝光的次数,比如,可以包含新闻文章在最近一段时间内的被曝光的次数,以及新闻文章至发布之后被曝光的总次数中的至少一种。上述新闻文章被点击的信息,可以包含新闻文章被点击的次数,比如,可以包含新闻文章在最近一段时间内的被点击的次数,以及新闻文章至发布之后被点击的总次数中的至少一种。上述新闻文章被展示的信息可以包含新闻文章每次被展示的时长,比如,可以包含新闻文章被点击的次数,比如,可以包含新闻文章在最近一段时间内每次被展示的时长、新闻文章至发布之后每次被展示的时长、新闻文章在最近一段时间内被展示的平均时长以及新闻文章至发布之后被展示的平均时长中的至少一种。
其中,上述新闻文章被曝光,可以是指包含新闻文章对应的入口链接的新闻页面被终端在屏幕中进行展示。比如,用户使用终端时,点击某一新闻供应商提供的新闻页面的入口后,终端展示该新闻页面,此时,该新闻页面中的各个文章链接对应的新闻文章可以认为被曝光一次。
在实际应用中,一些新闻页面中可能包含多个标签,每个标签下包含多个新闻文章的链接,在同一时间,新闻页面中只显示其中一个标签下的新闻文章的链接。在一种可能的实现方式中,当包含多个标签的新闻页面被终端展示时,在新闻页面中显示的标签下的文章链接对应的新闻文章可以认为是被曝光的新闻文章,而未在新闻页面中显示的标签下的文章链接对应的新闻文章可以认为是未被曝光的新闻文章。或者,在另一种可能的实现方式中,当包含多个标签的新闻页面被终端展示时,无论是否有标签下的文章链接未被显示,都可以认为该新闻页面中的各个标签下的文章链接对应的新闻文章被展示。
比如,某一新闻供应商提供的新闻页面包含“财经”、“体育”以及“大公司”等多个标签,当该新闻页面被展示时,若只显示了“财经”标签,则该“财经”标签下的各个文章链接对应的新闻文章认为被曝光一次,而其它标签下的各个文章链接对应的新闻文章则被认为未被曝光。或者,当该新闻页面被展示时,无论有几个标签被显示,可以认为该新闻页面中的各个标签下的文章链接对应的新闻文章被曝光一次。
上述新闻文章被点击,可以是终端接收到用户点击新闻文章的文章链接的操作。其中,新闻文章被点击的信息可以是该新闻文章的点击率,比如,新闻文章的点击率可以是该新闻文章被点击的次数与该新闻文章被曝光的次数之间的比值。
上述新闻文章被展示,可以是终端接收到用户点击新闻文章的文章链接的操作后,跳转并展示该新闻文章的文章详情页面。
终端在展示新闻页面、接收到对新闻页面中的文章链接的点击操作或者在新闻文章的详情页面被关闭时,可以向服务器发送相应的响应,该响应中可以包含相应类型(用于指示被曝光、被点击或者被显示),以及响应时间等,服务器接收到该响应后,可以更新对应的新闻文章的点展数据。
在本申请实施例中,计算机设备从数据库中获取各个新闻文章以及各个新闻文章的点展数据等信息时,可以按照新闻文章的类型进行获取,比如,当需要生成的综述形式的新闻页面是某一个或者部分类型的新闻文章的综述页面时,计算机设备可以只获上述一个或者部分类型的新闻文章。
或者,计算机设备从数据库中获取各个新闻文章以及各个新闻文章的点展数据等信息时,可以不分类型获取各个新闻文章,比如,当需要生成的综述形式的新闻页面是不分类型的新闻文章的综述页面时,计算机设备可以获取所有类型的新闻文章。
可选的,计算机设备在获取新闻文章时,也可以按照发布时间获取各个新闻文章,比如,当需要生成的综述形式的新闻页面是最近一段时间内的新闻文章的综述页面时,计算机设备可以从数据库中获取最近一段时间内发布的各个新闻文章。
在一种可能的实现方式中,计算机设备在获取新闻文章时,可以结合新闻文章的类型和发布时间获取新闻文章,比如,当需要生成的综述形式的新闻页面是最近一段时间内某一类型的新闻文章的综述页面时,计算机设备可以从数据库中获取最近一段时间内发布的上述类型的各个新闻文章。
其中,上述新闻文章的文章链接,可以时文字形式的链接、图像形式的链接或者视频形式的链接等,本申请实施例对于新闻文章的文章链接的表现形式不做限定。
步骤402,根据该各篇新闻文章的文章内容和该各篇新闻文章的点展数据获取该各篇新闻文章的重要性得分。
可选的,在根据该各篇新闻文章的文章内容和该各篇新闻文章的点展数据获取该各篇新闻文章的重要性得分时,计算机设备对该各篇新闻文章的至少一项指定信息进行量化,并将该各篇新闻文章各自的至少一项指定信息的量化值进行加权求和,获得该各篇新闻文章的重要性得分,该指定信息包括对应的新闻文章的正文内容、对应的新闻文章的点展数据、对应的新闻文章的话题热度以及对应的新闻文章的发布时间中的至少一种。
本申请实施例可以使用预设的排序算法,对新闻文章的文章内容、点展数据以及文章话题热度打分等特征进行量化,并综合上述特征计算得到新闻文章的重要性排序得分。其中,使用点展数据用于衡量新闻文章的重要性,可以通过实际的用户反馈来定义新闻文章,更具合理性和准确性。对上述至少一项指定信息进行量化的方式可以如下:
1)新闻文章的文章内容的量化。
新闻文章的文章内容可以包含新闻文章的标题、正文文本、附图或者相关视频等,在对新闻文章的文章内容进行量化时,计算机设备可以提取新闻文章的标题和正文文本中的关键词,并根据新闻文章的标题和正文文本中的关键词,对新闻文章的文章内容进行量化。
在一种可能的实现方式中,计算机设备中可以预先设置一个词表,该词表中包含可量化的各个词,计算机设备在提取到一篇新闻文章的标题和正文文本中的关键词后,可以将提取到的各个关键词与词表中的词进行比对,以确定提取到的各个关键词中,属于该词表的关键词的个数,并将提取到的各个关键词中,属于该词表的关键词的个数作为对该新闻文章的文章内容的量化值。
在另一种可能的实现方式中,上述词表中的各个词还可以分别对应各自的权重,计算机设备提取到的各个关键词后,根据提取到的各个关键词中,属于该词表的关键词对应的权重进行加权求和,获得该新闻文章的文章内容的量化值。
2)新闻文章的点展数据的量化。
在本申请实施例中,计算机设备可以将一篇新闻文章的被曝光次数、被点击次数、点击率以及被展示时长中的至少一种作为该新闻文章的点展数据的量化值。
3)新闻文章的话题热度的量化。
在本申请实施例中,计算机设备可以将各个新闻文章中,属于同一话题的新闻文章的点展数据的量化值进行平均计算,获得各个新闻文章的话题热度的量化值。
其中,计算机设备可以根据各个新闻文章的标题和正文文本中的关键词确定新闻文章所属的话题。
4)新闻文章的发布时间的量化。
在本申请实施例中,对于上述各个新闻文章中的任一新闻文章,计算机设备可以获取该新闻文章的发布时间距离当前时间之间的时长,并根据获取的时长确定该新闻文章的发布时间的量化值。
在一种可能的实现方式中,上述新闻文章的发布时间的量化值,可以随着新闻文章的发布时间距离当前时间之间的时长的增加而衰减。
比如,计算机设备中可以预先设置一个时间量化对应表,该时长量化对应表中包含各个时长区间与新闻文章的发布时间的量化值之间的对应关系。例如,该时长量化对应表可以如下述表1所示。
表1
如表1所示,对于上述各篇新闻文章中的任意新闻文章,当该新闻文章的发布时间距离当前时间之间的时长处于24小时之内时,计算机设备可以确定该新闻文章的发布时间的量化值为4,对应的,该新闻文章的发布时间距离当前时间之间的时长处于2~7天内时,计算机设备可以确定该新闻文章的发布时间的量化值为3,以此类推。
在本申请实施例中,计算机设备获取上述至少一项指定信息的量化值之后,可以将上述至少一项指定信息的量化值进行加权求和,获得对应的新闻文章的重要性得分。即:
score_i = ∑feature_i_k * weight_k;
其中,score_i表示第i篇新闻文章的重要性得分,feature_i_k表示第i篇新闻文章的第k项指定信息的特量化值,weight_k表示第k项指定信息的权重。
其中,上述weight_k可以由开发人员或者编排人员预先设置。
步骤403,获取N篇新闻文章,该N篇新闻文章是该各篇新闻文章按照对应的重要性得分从高到低进行排序后的前N篇新闻文章。
其中,N是大于等于2的整数。
基于上述各篇新闻文章的重要性得分,计算机设备可以通过获取其中前top N篇排序得分靠前的新闻文章的方式,得到用于生成综述形式的新闻页面的新闻文章列表。
在本申请实施例中,为了进一步提高获取的N篇新闻文章的准确性,还可以引入人工校审机制。比如,在一种可能的实现方式中,计算机设备可以按照各篇新闻文章各自的重要性得分对各篇新闻文章进行排序,获得包含各篇新闻文章的新闻文章列表;计算机设备展示该包含各篇新闻文章的新闻文章列表;当接收到针对包含各篇新闻文章的新闻文章列表的调整操作时,根据调整操作对各篇新闻文章的排列顺序进行调整。当接收到对针对包含各篇新闻文章的新闻文章列表的调整完成操作时,计算机设备根据调整完成后的各篇新闻文章的顺序,获取上述N篇新闻文章。
比如,以计算机设备是上述图2所示的实施环境中的服务器为例,服务器在对各篇新闻文章进行排序后,可以通过管理设备显示一个文章列表,该文章列表中包含排序后的各篇新闻文章的标题,其中,每篇新闻文章的标题对应有各自的顺序调整按钮,该顺序调整按钮可以用于将对应的新闻文章的在列表中的顺序向前调整或者向后调整,服务器检测到编排人员对列表中的某一篇新闻文章的标题对应的顺序调整按钮的触发操作时,根据该触发操作将该新闻文章在列表中的顺序向前或向后调整。上述文章列表还对应有一个调整确认按钮,当服务器检测到编排人员对该调整确认按钮的触发操作时,服务器可以提取调整后的文章列表中处于前列的Top N篇新闻文章,获得用于生成综述形式的新闻页面的新闻文章列表。
或者,在另一种可能的实现方式中,计算机设备基于上述各篇新闻文章的重要性得分,通过获取其中前top N篇重要性得分靠前的新闻文章的方式,得到用于生成综述形式的新闻页面的新闻文章列表之后,可以展示该用于生成综述形式的新闻页面的新闻文章列表,在接收到对该用于生成综述形式的新闻页面的新闻文章列表中的新闻文章自行的调整操作时,对该新闻文章列表中的新闻文章进行调整,并将调整后的新闻文章列表中的新闻文章作为上述N篇新闻文章。
其中,上述调整操作可以包括对新闻文章列表中的新闻文章进行删除、增加或者顺序调整等。
比如,假设N的数值为5,计算机设备是服务器为例,服务器按照重要性得分从高到低的顺序筛选出10篇重要性较高的新闻文章,并通过管理设备将该10篇新闻文章以列表的形式展示给编排人员,服务器检测到编排人员对该10篇新闻文章中的5篇新闻文章的删除操作后,将该删除操作对应的新闻文章从列表中删除,并将列表中剩余的5篇新闻文章获取为用于生成综述形式的新闻页面的新闻文章。
步骤404,根据该N篇新闻文章的文章内容生成该N篇新闻文章各自的摘要。
在一种可能的实现方式中,计算机设备可以根据该N篇新闻文章的正文文本,生成该N篇新闻文章各自的摘要。
比如,请参考图5,其示出了本申请实施例涉及的一种摘要生成流程示意图。如图5所示,计算机设备生成N篇新闻文章各自的摘要的过程可以如下:
步骤404a,对于第一新闻文章,计算机设备对该第一新闻文章的正文文本进行切分,获得该第一新闻文章的正文文本中的各个句子。
其中,该第一新闻文章是该N篇新闻文章中的任意新闻文章;计算机设备可以通过分词、分句等预处理手段对该第一新闻文章进行切分,以句子作为摘要的候选单元。
步骤404b,获取该各个句子各自的句子统计特征、该各个句子各自的句子语义特征以及该各个句子各自的句间语义特征。
其中,该句子统计特征包括句子长度、句子在新闻文章中的位置、句子在段落中的位置、句子所属的段落长度、句子所属段落在新闻文章中的位置、句末标点符号类型、句子中包含的时间指示词、句子是否属于黑名单、句子是否属于白名单以及句子中包含的表示主旨的提示词中的至少一种。
该句子语义特征包括句子与对应的新闻文章的标题的语义相似度以及句子与对应的新闻文章的语义相似度中的至少一种。
该句间语义特征包括句子与对应的新闻文章中的其它句子的相似度(比如TextRank得分等),以及句子与下文的语义相似度中的至少一种。
步骤404c,根据该各个句子各自的句子统计特征、该各个句子各自的句子语义特征以及该各个句子各自的句间语义特征获取该各个句子各自的重要性得分。
在本申请实施例中,计算机设备在获得各个句子各自的重要性得分时,可以将各个句子的各自的句子统计特征、该各个句子各自的句子语义特征以及该各个句子各自的句间语义特征,输入预先训练好的机器学习模型,以获得机器学习模型输出的各个句子各自的重要性得分。
在一种可能的实现方式中,上述机器学习模型可以通过GBDT(Gradient BoostingDecision Tree,梯度迭代提升树)模型+LR(Logistic Regression,逻辑回归)模型来实现。其中,GBDT模型可以对上述各个句子的各自的句子统计特征、该各个句子各自的句子语义特征以及该各个句子各自的句间语义特征进行特征组合,以扩展各个句子的特征数量,LR模型可以根据GBDT模型组合获得的各项特征输出各个句子各自的重要性得分。
步骤404d,将该各个句子中的m个句子按照各自的重要性得分从高到低的顺序组合生成该第一新闻文章的摘要,该m个句子是该各个句子按照对应的重要性得分从高到低进行排序后的前m个句子,m是大于等于2的整数。
计算机设备获取到各个句子的各自的重要性得分之后,可以将各个句子按照重要性得分从高到低的顺序进行排列,获取排在前m位的句子,并将前m位的句子按照在新闻文本中的顺序组合获得该新闻文本的摘要。
其中,上述m的数值可以预先设置的固定值,该固定值可以由开发人员或者编排人员设置。
或者,上述m的数值也可以根据按照重要性得分从高到低的顺序排列后的各个句子的字数确定。
比如,由于篇幅的约束限制,抽取句子的个数根据实际要求的摘要长度而不同。具体比如,假设要求的摘要长度为l,每个句子按照重要性得分排序以后,句子的长度分别为l_1, l_2, l_3, ……,则实际抽取的句子可以满足刚刚超过摘要要求长度限制的要求,即,当∑l_m-1<l<∑l_m时,计算机设备取排序后的第m个句子为最后的句子,即取出排序后的第1至m的句子。或者,实际抽取的句子可以满足刚好不超过摘要要求长度限制的要求,即,当∑l_m<l<∑l_m+1时,计算机设备取排序后的第m个句子为最后的句子,即取出排序后的第1至m的句子。其中,上述∑l_m-1为排序后的前m-1个句子的字数之和,∑l_m为排序后的前m个句子的字数之和,∑l_m+1为排序后的前m+1个句子的字数之和。
可选的,除了上述自动生成新闻文章的摘要的方式之外,还可以通过其它方式自动生成新闻文章的摘要,比如,计算机可以通过TextRank、LexRank、Textteaser等方式自动生成新闻文章的摘要,或者,计算机设备可以基于深度学习网络(比如Textsum网络)自动生成新闻文章的摘要。
步骤405,从N个新闻文章的附图中确定目标配图。
考虑到综述形式的新闻页面中的文章形式的多样性,本申请实施例可以为新闻页面中的新闻文章提供符合文章大意的配图。其中,计算机设备可以从新闻文章的配图中进行提取,比如,直接将新闻文章的首图或尺寸最大的附图作为新闻文章的配图。这种方式很好地实现了文档配图的要求,具备工程级别的可用性。
在本申请实施例中,在从N个新闻文章的附图中确定目标配图时,对于第二新闻文章,计算机设备还可以获取该第二新闻文章的各个附图分别与该第二新闻文章的摘要之间的匹配度,该第二新闻文章是该N篇新闻文章中包含附图的新闻文章;将该第二新闻文章的各个附图中,与该第二新闻文章的摘要之间的匹配度最高的附图作为该第二新闻文章的目标配图。
由于直接将新闻文章的首图或大图作为新闻文章的配图的方式在语义层面上有所欠缺,事实上,文章的首图与上述步骤中抽取出来的摘要之间可能存在一定的分歧(gap),造成图文无法呼应的情况。因此,在本申请实施例中,计算机设备还可以通过将新闻文档与附图进行匹配的方式选择配图。
比如,上述将新闻文档与附图进行匹配的方式可以通过预先训练好的图文语义匹配模型来实现,该图文语义匹配模型可以对输入的摘要提取语音表示,并对输入的附图提取语音表示,然后计算摘要的语义表示与附图的语义表示之间的相似度(即上述匹配度),将新闻文档的各个附图中,与摘要的相似度最高的附图作为目标配图。
可选的,在另一种可能的实现方式中,计算机设备从N个新闻文章的附图中确定目标配图时,也可以将新闻文章中,距离摘要所在段落最近的附图作为上述目标配图。
步骤406,根据该N篇新闻文章的文章内容生成该N篇新闻文章的总标题。
在本申请实施例中,计算机设备可以根据该N篇新闻文章的标题,生成该篇新闻文章的总标题。
一个综述形式的新闻页面中,除了对文章列表中内容的解析和分析得到摘要与配图之外,还需要生成新闻页面的总标题。一般来说,总标题包含综述形式的新闻页面中各篇新闻文章的报头以及几个重要内容的挈领。举例来说,本申请提供的综述形式的新闻页面,具有统一的报头,即所有由计算机设备发布的综述形式的新闻页面,当对应的新闻类型相同时,在总标题中均有统一的报头。此外,报头后面的内容,则通过N篇新闻文章的标题生成获得。
由于系统限制,新闻页面的总标题存在最长字数限制和最短字数限制,有这些限制作为约束,通常无法将N篇新闻文章的标题内容全部浓缩进总标题中,只能选择几个有代表性的标题来生成上述总标题。
在一种可能的实现方式中,请参考图6,其示出了本申请实施例涉及的一种总标题生成流程图。如图6所示,计算机设备可以根据N篇新闻文章按照重要性得分排序的结果,依次将N篇新闻文章的标题添加到总标题中(步骤61),并判断添加后的总标题长度是否达到最长字数要求(步骤62),当添加后的总标题长度未达到最长字数要求时,则继续添加下一篇新闻文章的标题(步骤63)。当新加入一篇新闻文章的标题后,若总标题超过最长字数限制,则对当前总标题进行截取,将超出字数限制的部分用省略号“……”代替(步骤64)。
在另一种可能的实现方式中,计算机设备可以提取该N篇新闻文章各自的标题中主干部分,该主干部分包含对应的新闻文章的标题中的核心谓语动词,以及该核心谓语动词对应的主语成分;并根据该N篇新闻文章各自的标题中主干部分,生成该N篇新闻文章的总标题。
新闻文章的标题作为独立一篇文档的标题,除包括最基本的文章要素外,还会包含一些报头或修饰性的成分。而上述总标题的字数有限,因此,直接对新闻文章的标题进行填加的方式组合成的总标题,可能会携带较多的细节成分。为了在标题中尽可能多的体现主要内容而非细节,在本申请实施例中,计算机设备在生成总标题时,可以先对新闻文章的标题进行压缩,压缩的原则是只保留关键成分,然后根据压缩后的新闻文章的标题组合生成上述总标题。
比如,本申请实施例可以采用依存句法对新闻文章的标题进行成分分析,并提取标题中的核心谓语动词,以及核心谓语动词对应的主语成分,对于宾语和宾语补足语部分,根据实际情况设置取舍规则,指定了在一些特定的谓语动词(比如及物动词)下衔接的宾语以及宾语补足语成分需要保留,其余部分则可以删除。
例如,请参考图7,其示出了本申请实施例涉及的一种标题压缩示意图。如图7所示,对于原文标题为“吉林省完成首例机器人骨科手术,误差仅为0.1-0.2毫米”的新闻文章,经过依存句法分析得到“完成”是核心的谓语动词,进而抽取出完整的主谓宾结构“吉林省完成首例机器人骨科手术”作为压缩后的标题内容,原标题后面的细节说明部分则可以删除。
步骤407,生成包含该N篇新闻文章各自的摘要、该N篇新闻文章的总标题以及该第二新闻文章的目标配图的新闻页面。
在本申请实施例中,计算机设备可以按照预设的模板,将上述步骤获得的N篇新闻文章各自的摘要、该N篇新闻文章各自的标题、总标题以及目标配图进行组合,获得综述形式的新闻页面。
在一种可能的实现方式中,计算机设备在生成新闻页面时,将属于同一新闻文章的内容(即新闻文章的标题和摘要,可选的还包括该新闻文章对应的目标配图)集中设置,比如,某一新闻文章中包含附图,则在生成的新闻页面中,计算机设备可以将首先将该新闻文章的标题添加至新闻页面在,然后在该新闻文章的标题下方紧接着添加该新闻文章的目标配图,并紧接在该新闻文章的目标配图下方添加该新闻文章的摘要。
可选的,在本申请实施例中,为了便于用户查看新闻页面中的新闻文章的详情页面,在本申请实施例中,生成的新闻页面中除了包含新闻文章各自的摘要、新闻文章各自的标题、总标题以及目标配图之外,还可以包含各个新闻文章的文章链接,该新闻文章的文章链接可以设置在对应的摘要处,比如,该新闻文章的文章链接可以设置在紧接着对应的摘要的位置。
比如,请参考图8,其示出了本申请实施例涉及的单篇新闻文章的内容在新闻页面中的组合示意图。如图8所示,在一个综述形式的新闻页面中,一篇新闻文章的相关内容在新闻页面中自上而下按照标题801、配图802和摘要803的顺序排列,并且,摘要803的末尾紧接着该新闻文章的文章链接804。
其中,上述预设的模板可以由开发人员或者编排人员预先设置。可选的,上述预设的模板还支持编排人员对新闻页面中的内容进行添加、删除或者修改等编辑操作。具体的,计算机设备可以展示可编辑状态的新闻页面,在接收到在可编辑状态的新闻页面中的编辑操作时,根据该编辑操作对新闻页面中的内容进行编辑。
比如,在一种可能的实现方式中,以计算机设备是上述图2所示系统中的服务器为例,服务器将新闻文章各自的摘要、新闻文章各自的标题、总标题以及目标配图添加至预设的模板中之后,可以通过管理设备显示添加上述内容后获得的新闻页面的预览界面,该预览界面中还包含有编辑按钮和确认按钮,当检测到对编辑按钮的触发操作时,服务器可以通过管理设备显示可编辑状态的模板,当检测到编辑人员在可编辑状态的模板中的编辑操作时,服务器按照该编辑操作对模板中的内容进行编辑。其中,上述对模板中的内容进行编辑,可以包括但不限于添加导语、对模板中的文本进行增删修改或字体修改、对模板中的附图进行增删修改或者尺寸修改等。
可选的,在生成包含该N篇新闻文章各自的摘要,以及该N篇新闻文章的总标题的新闻页面时,计算机设备可以按照预设排序规则对该N篇新闻文章各自的摘要进行排序;并按照预设的生成模板,生成包含该N篇新闻文章的总标题,以及排序后的该N篇新闻文章各自的摘要的该新闻页面。
其中,上述预设排序规则包括以下规则中的至少一种:
1)按照对应的新闻文章的重要性得分进行排序。
在一种可能的实现方式中,计算机设备在生成上述新闻页面时,可以按照新闻页面涉及的N篇新闻文章各自的重要性得分从高到低的顺序,作为该N篇新闻文章各自的相关内容(包括标题、配图、摘要以及文章链接等)在生成的新闻页面中的展示顺序。比如,假设该新闻页面中的新闻文章的相关内容的展示顺序是从上到下进行展示,则在总标题和导语的下方,按照对应的重要性得分从高到低的顺序,依次排列N篇新闻文章的相关内容。
2)按照对应的新闻文章涉及的对象的优先级进行排序。
其中,上述新闻文章涉及的对象可以包括新闻文章涉及的个人、集体、动物或者物品等等。在一种可能的实现方式中,计算机设备中可以预先存储有对象优先级对应表,每个可能在新闻中出现的对象在该对象优先级对应表中对应有各自的优先级,在生成上述新闻页面时,计算机设备可以获取N篇新闻文章分别涉及的对象,并在对象优先级对应表中查询N篇新闻文章分别涉及的对象的优先级,并按照N篇新闻文章分别涉及的对象的优先级从高到低的顺序,在总标题和导语的下方依次排列N篇新闻文章的相关内容。
其中,上述对象优先级对应表可以由开发人员或者编排人员定期进行更新和维护。
3)按照对应的新闻文章涉及的地理位置的优先级进行排序。
在本申请实施例中,新闻文章涉及的地理位置可以分为国内和国际,且国际新闻文章和国内新闻文章的优先级不同,比如,国际新闻文章的优先级高于国内新闻文章的优先级,或者,国际新闻文章的优先级低于国内新闻文章的优先级。
以国际新闻文章的优先级低于国内新闻文章的优先级为例,在一种可能的实现方式中,计算机设备可以在总标题和导语的下方,优先排列地理位置对应的优先级高的新闻文章(即国内新闻文章),然后再排列地理位置对应的优先级低的新闻文章(即国际新闻文章)。
其中,计算机设备在生成新闻页面时,可以使用上述三种预设排序方式中的任意一种排序方式对N篇新闻文章的相关内容进行排序,或者,计算机设备也可以结合上述三种预设排序方式中的任意两种排序方式对N篇新闻文章的相关内容进行排序,或者,计算机设备也可以结合上述三种预设排序方式对N篇新闻文章的相关内容进行排序。
在生成上述综述形式的新闻页面后,计算机设备可以向终端发送该新闻页面,或者在门户网站发布该新闻页面,以便终端获取并展示该综述形式的新闻页面。
综上所述,通过本申请实施例所示的方案,计算机设备可以根据新闻文章及其点展数据对新闻文章进行排序并提取其中重要性高的至少两篇新闻文章,生成至少两篇新闻文章各自的摘要以及至少两篇新闻文章的总标题,再生成包含上述摘要和总标题的新闻页面,实现了综述形式的新闻页面的自动生成。由于上述过程中生成的新闻页面中的新闻文章由计算机设备根据新闻文章及其点展数据自动筛选并生成,避免了新闻文章的筛选受主观影响较大的问题,能够提高综述形式的新闻页面中的新闻文章的筛选准确性,从而提高重要新闻的发布效果。
以上述图3或图4所示的方案应用于服务器为某新闻供应商生成早晚报综述文章页面为例,请参考图9,其示出了本申请一示例性实施例涉及的一种综述文章页面生成及发布的流程示意图。如图9所示,综述文章页面生成及发布的流程可以如下:
步骤91,服务器在各个频道垂类下对重要新闻文章进行排序,生成适合于生成早晚报综述文章页面的新闻文章列表。
新闻供应商的新闻文章包含多个不同的文章池,每个文章池对应一个频道,比如经济频道、体育频道等等,早晚报对新闻文章的质量要求很高,但每个频道下每天会产生大量的新闻文章,早晚报无法涵盖全部新闻文章的内容信息,因此,需要从大量的优质新闻文章中再挑选出最具话题、热度的重要文章,作为生成早晚报综述文章页面的新闻文章列表。
步骤92,编排人员对新闻文章列表进行人工校审。
其中,编排人员可以对新闻文章列表中的各篇新闻文章进行人工校对和审核,比如,对新闻文章列表中的各篇新闻文章的重要性得分排序进行调整,或者,对新闻文章列表中的新闻文章进行添加或者删除。
步骤93,对于新闻文章列表中的每一篇新闻文章,服务器自动生成该新闻文章的摘要。
步骤94,对于每一篇新闻文章的摘要,服务器自动进行语义配图。
步骤95,服务器基于新闻文章列表中的全部新闻文章的标题,生成综述文章页面的总标题。
在上述步骤中,计算机设备分别从摘要、配图和标题部分的角度补充了综述文章页面所需要的素材,此外,计算机设备还可以直接从新闻文章列表中获取到新闻文章的标题以及新闻文章的链接等信息,作为综述文章页面的素材。
步骤96,服务器基于指定的样式生成早晚报综述文章页面。
步骤97,编排人员对早晚报的综述文章页面进行人工校审。
在该步骤中,编排人员可以对生成的早晚报综述文章页面中的内容进行编辑,比如修改或者删除,或者,编排人员也可以在生成的早晚报综述文章页面中添加额外的内容。
其中,早晚报综述文章页面的行文样式可以根据实际场景进行切换,本申请提供了一种样式,包括总标题、导语、综述正文三个部分。其中,总标题即步骤84中系统生成的综述文章页面的总标题,导语部分通过编排人员人工撰写得到,主要目的是宣传和引导作用,并且,导语部分可以省略。综述正文部分则通过统一的格式,将文章列表中的每一篇新闻文章的相关内容逐个罗列出来,本申请提供的格式包括,首段部分高亮标记文章标题,接着,在文章标题下方添加配图,然后再在下方添加文章摘要内容,并在最后添加可以用于浏览原文的链接地址。
步骤98,服务器向网络发布该早晚报综述文章页面。
本申请上述方案中,由服务器执行的部分可以通过AI(ArtificialIntelligence,人工智能)算法在上下游的智能介入提升运营侧工作效率,将编辑的生产力从重复性、低智类日常工作中解放出来,以投入到更多内容原创和深度观点的挖掘与创作中,最大化资讯产业的价值输出。在工作流程上,通过算法自动完成标题提炼、智能配图和要闻精编,编排人员只需根据推荐热点选择新闻素材,即可一键生成完整早晚报稿件后发布推送,其生产过程大大节约了人力成本。
也就是说,通过本申请所示的方案,一方面,通过运用排序算法,从中新闻资源池中抽取出适合早晚报的重要文章列表。另一方面,通过自动摘要和语义配图等技术,对重要文章资源进行结构化处理,并取得较高的准确度,从而实现机器自动生成早晚报综述文章。
请参考图10,其示出了本申请一示例性实施例提供的一种生成新闻页面的装置的结构方框图。该生成新闻页面的装置可以通过硬件或者软硬结合的方式实现为计算机设备或者计算机设备的一部分,以执行图3或图4所示实施例提供的方法中由计算机设备执行的全部或者部分步骤,其中,该计算机设备可以是如图2所示系统中的服务器220。该生成新闻页面的装置可以包括:
文章数据获取模块1001,用于获取数据库中的各篇新闻文章和所述各篇新闻文章的点展数据,所述点展数据用于指示对应的新闻文章被曝光的信息、对应的新闻文章被点击的信息以及对应的新闻文章被展示的信息;
重要性得分获取模块1002,用于根据所述各篇新闻文章的文章内容和所述各篇新闻文章的点展数据获取所述各篇新闻文章的重要性得分;
文章获取模块1003,用于获取N篇新闻文章,所述N篇新闻文章是所述各篇新闻文章按照对应的重要性得分从高到低进行排序后的前N篇新闻文章,N是大于等于2的整数;
第一生成模块1004,用于根据所述N篇新闻文章的文章内容生成所述N篇新闻文章各自的摘要,以及所述N篇新闻文章的总标题;
第二生成模块1005,用于生成包含所述N篇新闻文章各自的摘要,以及所述N篇新闻文章的总标题的新闻页面。
可选的,所述N篇新闻文章的文章内容包括所述N篇新闻文章的标题以及所述N篇新闻文章的正文文本;
所述第一生成模块1004,具体用于根据所述N篇新闻文章的正文文本,生成所述N篇新闻文章的摘要,并根据所述N篇新闻文章的标题,生成所述篇新闻文章的总标题。
可选的,在根据所述N篇新闻文章的正文文本,生成所述N篇新闻文章的摘要时,所述第一生成模块1004,具体用于,
对于第一新闻文章,对所述第一新闻文章的正文文本进行切分,获得所述第一新闻文章的正文文本中的各个句子,所述第一新闻文章是所述N篇新闻文章中的任意新闻文章;
获取所述各个句子各自的句子统计特征、所述各个句子各自的句子语义特征以及所述各个句子各自的句间语义特征;
根据所述各个句子各自的句子统计特征、所述各个句子各自的句子语义特征以及所述各个句子各自的句间语义特征获取所述各个句子各自的重要性得分;
将所述各个句子中的m个句子按照各自的重要性得分从高到低的顺序组合生成所述第一新闻文章的摘要,所述m个句子是所述各个句子按照对应的重要性得分从高到低进行排序后的前m个句子,m是大于等于2的整数。
可选的,所述句子统计特征包括句子长度、句子在新闻文章中的位置、句子在段落中的位置、句子所属的段落长度、句子所属段落在新闻文章中的位置、句末标点符号类型、句子中包含的时间指示词、句子是否属于黑名单、句子是否属于白名单以及句子中包含的表示主旨的提示词中的至少一种;
所述句子语义特征包括句子与对应的新闻文章的标题的语义相似度以及句子与对应的新闻文章的语义相似度中的至少一种;
所述句间语义特征包括句子与对应的新闻文章中的其它句子的相似度,以及句子与下文的语义相似度中的至少一种。
可选的,在根据所述N篇新闻文章的标题,生成所述N篇新闻文章的总标题时,所述第一生成模块1004,具体用于,
提取所述N篇新闻文章各自的标题中主干部分,所述主干部分包含对应的新闻文章的标题中的核心谓语动词,以及所述核心谓语动词对应的主语成分;
根据所述N篇新闻文章各自的标题中主干部分,生成所述N篇新闻文章的总标题。
可选的,所述重要性得分获取模块1002,具体用于,
对所述各篇新闻文章的至少一项指定信息进行量化,所述指定信息包括对应的新闻文章的正文内容、对应的新闻文章的点展数据、对应的新闻文章的话题热度以及对应的新闻文章的发布时间中的至少一种;
将所述各篇新闻文章各自的至少一项指定信息的量化值进行加权求和,获得所述各篇新闻文章的重要性得分。
可选的,所述装置还包括:
匹配度获取模块,用于对于第二新闻文章,获取所述第二新闻文章的各个附图分别与所述第二新闻文章的摘要之间的匹配度,所述第二新闻文章是所述N篇新闻文章中包含附图的新闻文章;
目标配图获取模块,用于将所述第二新闻文章的各个附图中,与所述第二新闻文章的摘要之间的匹配度最高的附图作为所述第二新闻文章的目标配图;
所述第二生成模块1005,具体用于生成包含所述N篇新闻文章各自的摘要、所述N篇新闻文章各自的标题、所述N篇新闻文章的总标题以及所述第二新闻文章的目标配图的所述新闻页面。
可选的,所述第二生成模块1005,具体用于按照预设排序规则对所述N篇新闻文章各自的摘要进行排序,按照预设的生成模板,生成包含所述N篇新闻文章的总标题,以及排序后的所述N篇新闻文章各自的摘要的所述新闻页面。
可选的,所述预设排序规则包括以下规则中的至少一种:
按照对应的新闻文章的重要性得分进行排序;
按照对应的新闻文章涉及的对象进行排序;
以及,按照对应的新闻文章涉及的地理位置进行排序。
请参考图11,其示出了本申请一示例性实施例提供的计算机设备1100的结构框图。所述计算机设备1100包括中央处理单元(CPU)1101、包括随机存取存储器(RAM)1102和只读存储器(ROM)1103的系统存储器1104,以及连接系统存储器1104和中央处理单元1101的系统总线1105。所述计算机设备1100还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)1106,和用于存储操作系统1113、应用程序1114和其他程序模块1115的大容量存储设备1107。
所述基本输入/输出系统1106包括有用于显示信息的显示器1108和用于用户输入信息的诸如鼠标、键盘之类的输入设备1109。其中所述显示器1108和输入设备1109都通过连接到系统总线1105的输入输出控制器1110连接到中央处理单元1101。所述基本输入/输出系统1106还可以包括输入输出控制器1110以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器1110还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备1107通过连接到系统总线1105的大容量存储控制器(未示出)连接到中央处理单元1101。所述大容量存储设备1107及其相关联的计算机可读介质为计算机设备1100提供非易失性存储。也就是说,所述大容量存储设备1107可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。
不失一般性,所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术,CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1104和大容量存储设备1107可以统称为存储器。
计算机设备1100可以通过连接在所述系统总线1105上的网络接口单元1111连接到互联网或者其它网络设备。
所述存储器还包括一个或者一个以上的程序,所述一个或者一个以上程序存储于存储器中,中央处理单元1101通过执行该一个或一个以上程序来实现图3或图4任一所示的方法中由服务器执行的全部或者部分步骤。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括计算机程序(指令)的存储器,上述程序(指令)可由计算机设备的处理器执行以完成本申请各个实施例所示的方法中,由服务器执行的方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。