CN105183718B

CN105183718B - 一种用于出版行业的热点选题获取方法及其系统

Info

Publication number: CN105183718B
Application number: CN201510623621.XA
Authority: CN
Inventors: 胡守文
Original assignee: SUZHOU TIANTI EXCELLENT MEDIA Co Ltd
Current assignee: SUZHOU TIANTI EXCELLENT MEDIA Co Ltd
Priority date: 2015-09-25
Filing date: 2015-09-25
Publication date: 2018-02-02
Anticipated expiration: 2035-09-25
Also published as: CN105183718A

Abstract

本发明公开了一种用于出版行业的热点选题获取方法及其系统，可以根据从素材中心获取的热点信息，分析得出第一候选热点选题，而后根据不同的出版单位的出版方向和关注规则对第一候选热点选题进行筛选，得到适合该出版单位的目标热点选题。不仅节约了手工选题的人工成本和时间成本，同时提高了热点选题的有效性和针对性，填补了计算机辅助出版行业进行选题优化的空白，有利于出版行业的快速发展，市场应用前景广泛。

Description

一种用于出版行业的热点选题获取方法及其系统

技术领域

本发明涉及出版技术领域，具体地是涉及一种用于出版行业的热点选题获取方法及其系统。

背景技术

出版业生存发展一个决定因素是出版的内容，而高质量内容的首要条件是高质量的选题，离开一流的选题，很难产生出一流的出版内容。因此，获得及时准确的热点选题，对出版物的优质高效起着至关重要的作用。

目前选题优化都是由编辑人员手工进行的，面对海量的信息去筛选优化为具体的选题，工作量巨大，制约选题优化的进一步发展，迫切需求计算机辅助来进行选题优化工作。

因此，本发明的发明人亟需构思一种新技术以改善其问题。

发明内容

本发明旨在提供一种用于出版行业的热点选题获取方法及其系统，其可以提高计算机辅助出版行业进行选题优化，保证了热点选题的有效性和针对性。

为解决上述技术问题，本发明的技术方案是：

一种用于出版行业的热点选题获取方法，包括如下步骤：

S1：从素材中心获取热点信息，分析生成第一候选热点选题。

S2：根据不同的出版单位的出版方向和关注规则对第一候选热点选题进行筛选，得到适合该出版单位的目标热点选题。

S3：将得到的目标热点选题推送至相应出版单位的媒体终端。

优选地，在所述步骤S1之前还包括步骤S0：

实时抓取图书，并将抓取到的图书按照图书分类法区隔，按照不同类型书籍将书名作常用词分词和高频词由高到低排序，获得热频词和冷频词。

建立专家学科前沿知识的热词库。

编辑人员通过编辑或者互动游戏来输入和获得属意选词。

优选地，所述步骤S1包括：

获取属意选词与热频词、冷频词以及热词库中的热词，并将属意选词与热频词、冷频词以及热词库中的热词分别混搭，生成第一候选热点选题。

优选地，所述步骤S2具体包括：

S21：把符合出版单位的出版方向和关注规则的第一候选热点选题筛选出来，标记为第二候选热点选题。

S22：依据关联度、读者信息、作者、来源信息进行评分，把得分排在前N名的第二候选热点选题标记为目标热点选题，其中N为大于或者等于1的整数。

优选地，所述步骤S2还包括：

S20：依据出版单位的出版方向和关注规则制定规则。

一种用于出版行业的热点选题获取系统，包括：

第一候选热点选题生成模块，用于从素材中心获取热点信息，分析生成第一候选热点选题。

筛选模块，用于根据不同的出版单位的出版方向和关注规则对第一候选热点选题进行筛选，得到适合该出版单位的目标热点选题。

推送模块，用于将得到的目标热点选题推送至相应出版单位的媒体终端。

优选地，还包括素材中心建立模块，其具体包括：

图书抓取单元，用于实时抓取图书，并将抓取到的图书按照图书分类法区隔，按照不同类型书籍将书名作常用词分词和高频词由高到低排序，获得热频词和冷频词。

热词库建立单元，用于建立专家学科前沿知识的热词库。

编辑单元，用于供编辑人员通过编辑或者互动游戏来输入和获得属意选词。

优选地，所述第一候选热点选题生成模块具体包括：

获取单元，用于获取属意选词与热频词、冷频词以及热词库中的热词。

生成单元，用于将属意选词与热频词、冷频词以及热词库中的热词分别混搭，生成第一候选热点选题。

优选地，所述筛选模块具体包括：

筛选与标记单元，用于把符合出版单位的出版方向和关注规则的第一候选热点选题筛选出来，标记为第二候选热点选题。

第二候选热点选题分析单元，用于依据关联度、读者信息、作者、来源信息进行评分，把得分排在前N名的第二候选热点选题标记为目标热点选题，其中N为大于或者等于1的整数。

优选地，所述筛选模块还包括：

制定单元，用于依据出版单位的出版方向和关注规则制定规则。

采用上述技术方案，本发明至少包括如下有益效果：

本发明所述的用于出版行业的热点选题获取方法及其系统，可以根据从素材中心获取的热点信息，分析得出第一候选热点选题，而后根据不同的出版单位的出版方向和关注规则对第一候选热点选题进行筛选，得到适合该出版单位的目标热点选题。不仅节约了手工选题的人工成本和时间成本，同时提高了热点选题的有效性和针对性，填补了计算机辅助出版行业进行选题优化的空白，有利于出版行业的快速发展，市场应用前景广泛。

附图说明

图1为本发明所述的用于出版行业的热点选题获取方法的流程图；

图2为本发明所述的用于出版行业的热点选题获取系统的结构示意图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

实施例1

如图1所示，为符合本实施例的一种用于出版行业的热点选题获取方法，包括如下步骤：

S1：从素材中心获取热点信息，分析生成第一候选热点选题，

S3：将得到的目标热点选题推送至相应出版单位的媒体终端。各个出版单位的编辑人员可以根据推荐的目标热点选题进行选择和分析，并在该目标热点选题的提示下形成出版创意。由于其不是通过人工搜索和分析，没有添加人的主观性，分析的更加客观和全面，有利于出版行业准确分析市场动态，提高市场竞争力。

优选地，在所述步骤S1之前还包括步骤S0：

实时抓取图书，并将抓取到的图书按照图书分类法区隔，按照不同类型书籍将书名作常用词分词和高频词由高到低排序，获得热频词和冷频词。如将排序前100位的词称之为热频词，100位后的词称之为冷频词。

上述所述的图书包含了当前已经出版的各种图书、报纸、期刊，每一个出版物的信息包括图书的名称、出版单位、出版时间、类别、作者、内容等。本实施例将根据出版内容之间的相关性，采用文本分类、聚类算法，结合出版单位名称、作者、出版时间特征，生成第一候选热点选题。具体地，面对海量的文本，以及文本的长短不同的情况下，本实施例将针对长文本运用SimHash相似性计算的方法。针对短文本，首先识别出关键词集合，来表征该短文本，然后在整个数据库中检索这些关键词，获得包含一个或者若干个关键词的句子，形成候选推荐集。最后，计算候选推荐集中的出版物信息与热点数据的相似度。由于候选推荐集远远小于整个数据库，从而将大幅度提高计算速度。

建立专家学科前沿知识的热词库。本实施例定期从出版物资源和互联网上自动收集分析国内外知名专家对自己领域前沿新颖问题观点(同时，支持人工修正和增删)，并把这些观点入库，形成热词库，热词库的引入使得判定更加精准。

编辑人员通过编辑或者互动游戏来输入和获得属意选词。所述互动游戏优选为拼词游戏、接词游戏、诗语游戏。所述拼词游戏，是指编辑人员和自己的粉丝圈、微信朋友圈玩。给定条件，拼出短句，拼出好句。互晒。如：主体词：某一动物；背景：运动状态中；条件：戏谑化表述。所述接词游戏，是指和自己的粉丝圈、微信群朋友玩。出题如AB，接词须…A，B…，或…AB，AB…。所述诗语游戏，是将一句话改写为一句诗意语言、禅语或古文表述或相反。上述游戏，是编辑人员与自己在互联网中的社交圈、朋友圈、粉丝圈之间的互动游戏。编辑人员自身的目的性很明确，就是将自己的选题意图深藏字词游戏之中，在长此以往乐此不疲的互动游戏中，寻找属意字词的关系词组，从而完成出版选题的智慧众筹。也使一个严肃、刻板、紧张、单纯的工作平台变得有趣、生动、轻松而厚重起来，为用户提供了较好的体验。

优选地，所述步骤S1包括：

进一步地，所述步骤S2具体包括：

进一步地，所述步骤S2还包括：

S20：依据出版单位的出版方向和关注规则制定规则。本实施例通过线索敏感词知识库来依据不同出版行业制定规则，如果是新闻出版，知识库将包含如事故、涨价、调控、造价等词。对于少儿出版单位则将包含小孩、喜羊羊、宝宝等词。通过针对不同出版单位的规则定制来对热点选题进行过滤和筛选，针对性更强，更贴合出版单位的需求。本领域技术人员可以根据实际的使用需求进行相应的设定和调整，本实施例对此不做限定。

在另一优选实施例中，所述素材中心还包括线索库、舆情库、网络素材库，所述热点信息还包括热点线索、热点舆情、热点话题。

所述步骤S1还包括：

S11：从线索库获取一个或者多个热点线索，从舆情库获取多个热点舆情，从网络素材库获取多个热点话题。

S12：对热点线索和热点舆情进行数据分类、聚类分析处理，把相似的素材合并，生成第一候选热点选题。本实施例通过接口调用，从线索库获取每天、每周、每月的热点线索，由于热点线索较短，概念不全，语义往往不明确，需要对热点线索进行语义扩展后才能进行后续处理。然后对线索地行过滤，包括无用信息过滤和有用信息过滤。接着会对线索进行特征抽取，之后将通过文本聚类技术，把相似的线索合并，生成第一候选热点选题。由于文本聚类技术较为常规，此处不再赘述。

热点选题的另一个重要来源是热点舆情。对采集到的新闻、评论、博客、论坛、短信、书刊、报纸等内容进行整合分析，获得当前出版领域的热点舆情，并深入分析话题观点、话题传播演化过程和发展趋势，其中每一条热点信息不仅包含热点的标题、内容、时间，还包含相关报道数、访问数量、大众评价等内容。本实施例通过接口调用，从舆情库获取每天、每周、每月的热点舆情，作为素材来源，之后将通过文本聚类技术，把相似的素材合井，生成第一候选热点选题。

对热点话题进行信息量化处理，生成第一候选热点选题。所述信息量化处理包括统计关注上升速度、判断是否含有敏感词、分析来源网站可信度、获取来源网站访问量。所述网络素材库包括但不限于个人网站、博客、微博、论坛。热点话题能够对尚未引起大众广泛关注、仅露出些许迹象的主题进行挖掘，为编辑人员提供选题依据，使得抢先策划出版明日热点成为可能。本实施例拟综合考虑待处理热点话题在小范围关注度的上升速度、来源网站的可信度和总访问量等量化信息，以及是否含有人工整理的线索敏感词知识库中敏感词等因素的基础上，对其进行话题线索挖掘。同时，为了提高话题线索识别准确性，本实施例一方面仅选用话题线索最常出现的信息来源，如个人网站、博客、微博、论坛，作为数据来源，以减小干扰数据。另一方面，还支持用户指定的有线索报料倾向的数据来源，如方舟子的博客，以提高热点话题的针对性。

更为优选的，所述步骤S1还包括选题追踪步骤，在步骤S11之后，当编辑人员在发现某一热点信息之后，可以把它加入热点信息追踪，对相关信息的发展情况进行动态跟踪，包括出版资源库中后续添加入该选题的出版物信息，同时还包括由舆情库提供的后续舆情变化情况，并预测其发展走势。通过热点信息追踪，编辑人员可以获得该选题的变化情况，包括大众是否持续关注、该信息的深入演化、是否有同选题的出版物已经开始出版等情况，从而深化对该选题的理解，印证甚至调整对该选题的认识。因此通过选题追踪步骤保证了热点选题分析的质量。由于话题追踪与检测技术本领域技术人员应当知晓，故此处不做赘述。

本实施例可以根据从素材中心获取的热点信息，分析得出第一候选热点选题，而后根据不同的出版单位的出版方向和关注规则对第一候选热点选题进行筛选，得到适合该出版单位的目标热点选题。不仅节约了手工选题的人工成本和时间成本，同时提高了热点选题的有效性和针对性，填补了计算机辅助出版行业进行选题优化的空白，有利于出版行业的快速发展，市场应用前景广泛。

实施例2

如图2所示，为符合本实施例的一种用于出版行业的热点选题获取系统，包括：

第一候选热点选题生成模块201，用于从素材中心获取热点信息，分析生成第一候选热点选题，

筛选模块202，用于根据不同的出版单位的出版方向和关注规则对第一候选热点选题进行筛选，得到适合该出版单位的目标热点选题。

推送模块203，用于将得到的目标热点选题推送至相应出版单位的媒体终端。各个出版单位的编辑人员可以根据推荐的目标热点选题进行选择和分析，并在该目标热点选题的提示下形成出版创意。由于其不是通过人工搜索和分析，没有添加人的主观性，分析的更加客观和全面，有利于出版行业准确分析市场动态，提高市场竞争力。

本实施例还包括素材中心建立模块，其具体包括：

图书抓取单元，用于实时抓取图书，并将抓取到的图书按照图书分类法区隔，按照不同类型书籍将书名作常用词分词和高频词由高到低排序，获得热频词和冷频词。如将排序前100位的词称之为热频词，100位后的词称之为冷频词。

热词库建立单元，用于建立专家学科前沿知识的热词库。本实施例定期从出版物资源和互联网上自动收集分析国内外知名专家对自己领域前沿新颖问题观点(同时，支持人工修正和增删)，并把这些观点入库，形成热词库，热词库的引入使得判定更加精准。

编辑单元，用于供编辑人员通过编辑或者互动游戏来输入和获得属意选词。所述互动游戏优选为拼词游戏、接词游戏、诗语游戏。所述拼词游戏，是指编辑人员和自己的粉丝圈、微信朋友圈玩。给定条件，拼出短句，拼出好句。互晒。如：主体词：某一动物；背景：运动状态中；条件：戏谑化表述。所述接词游戏，是指和自己的粉丝圈、微信群朋友玩。出题如AB，接词须…A，B…，或…AB，AB…。所述诗语游戏，是将一句话改写为一句诗意语言、禅语或古文表述或相反。上述游戏，是编辑人员与自己在互联网中的社交圈、朋友圈、粉丝圈之间的互动游戏。编辑人员自身的目的性很明确，就是将自己的选题意图深藏字词游戏之中，在长此以往乐此不疲的互动游戏中，寻找属意字词的关系词组，从而完成出版选题的智慧众筹。也使一个严肃、刻板、紧张、单纯的工作平台变得有趣、生动、轻松而厚重起来，为用户提供了较好的体验。

所述第一候选热点选题生成模块201具体包括：

进一步地，所述筛选模块202具体包括：

进一步地，所述筛选模块202还包括：

制定单元，用于依据出版单位的出版方向和关注规则制定规则。本实施例通过线索敏感词知识库来依据不同出版行业制定规则，如果是新闻出版，知识库将包含如事故、涨价、调控、造价等词。对于少儿出版单位则将包含小孩、喜羊羊、宝宝等词。通过针对不同出版单位的规则定制来对热点选题进行过滤和筛选，针对性更强，更贴合出版单位的需求。本领域技术人员可以根据实际的使用需求进行相应的设定和调整，本实施例对此不做限定。

进一步地，所述第一候选热点选题生成模块201具体包括：

热点信息获取单元，用于从线索库获取一个或者多个热点线索，从舆情库获取多个热点舆情，从网络素材库获取多个热点话题。

第一分析单元，用于对热点线索和热点舆情进行数据分类、聚类分析处理，把相似的素材合并，生成第一候选热点选题。本实施例通过接口调用，从线索库获取每天、每周、每月的热点线索，由于热点线索较短，概念不全，语义往往不明确，需要对热点线索进行语义扩展后才能进行后续处理。然后对线索地行过滤，包括无用信息过滤和有用信息过滤。接着会对线索进行特征抽取，之后将通过文本聚类技术，把相似的线索合并，生成第一候选热点选题。由于文本聚类技术较为常规，此处不再赘述。

第二分析单元，用于对热点话题进行信息量化处理，生成第一候选热点选题。所述信息量化处理包括统计关注上升速度、判断是否含有敏感词、分析来源网站可信度、获取来源网站访问量。所述网络素材库包括但不限于个人网站、博客、微博、论坛。热点话题能够对尚未引起大众广泛关注、仅露出些许迹象的主题进行挖掘，为编辑人员提供选题依据，使得抢先策划出版明日热点成为可能。本实施例拟综合考虑待处理热点话题在小范围关注度的上升速度、来源网站的可信度和总访问量等量化信息，以及是否含有人工整理的线索敏感词知识库中敏感词等因素的基础上，对其进行话题线索挖掘。同时，为了提高话题线索识别准确性，本实施例一方面仅选用话题线索最常出现的信息来源，如个人网站、博客、微博、论坛，作为数据来源，以减小干扰数据。另一方面，还支持用户指定的有线索报料倾向的数据来源，如方舟子的博客，以提高热点话题的针对性。

更为优选的，所述第一候选热点选题生成模块201还包括选题追踪单元，当编辑人员在发现某一热点信息之后，可以把它加入热点信息追踪，对相关信息的发展情况进行动态跟踪，包括出版资源库中后续添加入该选题的出版物信息，同时还包括由舆情库提供的后续舆情变化情况，并预测其发展走势。通过热点信息追踪，编辑人员可以获得该选题的变化情况，包括大众是否持续关注、该信息的深入演化、是否有同选题的出版物已经开始出版等情况，从而深化对该选题的理解，印证甚至调整对该选题的认识。因此通过选题追踪单元保证了热点选题分析的质量。由于话题追踪与检测技术本领域技术人员应当知晓，故此处不做赘述。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种用于出版行业的热点选题获取方法，其特征在于，包括如下步骤：

S0：实时抓取图书，并将抓取到的图书按照图书分类法区隔，按照不同类型书籍将书名作常用词分词和高频词由高到低排序，获得热频词和冷频词；建立专家学科前沿知识的热词库；编辑人员通过编辑或者互动游戏来输入和获得属意选词；

S1：从素材中心获取热点信息，分析生成第一候选热点选题；

S2：根据不同的出版单位的出版方向和关注规则对第一候选热点选题进行筛选，得到适合该出版单位的目标热点选题；

2.如权利要求1所述的用于出版行业的热点选题获取方法，其特征在于，所述步骤S1包括：

3.如权利要求1或2所述的用于出版行业的热点选题获取方法，其特征在于，所述步骤S2具体包括：

S21：把符合出版单位的出版方向和关注规则的第一候选热点选题筛选出来，标记为第二候选热点选题；

4.如权利要求3所述的用于出版行业的热点选题获取方法，其特征在于，所述步骤S2还包括：

S20：依据出版单位的出版方向和关注规则制定规则。

5.一种用于出版行业的热点选题获取系统，其特征在于，包括：

素材中心建立模块，所述素材中心建立模块包括：图书抓取单元，用于实时抓取图书，并将抓取到的图书按照图书分类法区隔，按照不同类型书籍将书名作常用词分词和高频词由高到低排序，获得热频词和冷频词；热词库建立单元，用于建立专家学科前沿知识的热词库；编辑单元，用于供编辑人员通过编辑或者互动游戏来输入和获得属意选词；第一候选热点选题生成模块，用于从素材中心获取热点信息，分析生成第一候选热点选题；

筛选模块，用于根据不同的出版单位的出版方向和关注规则对第一候选热点选题进行筛选，得到适合该出版单位的目标热点选题；

6.如权利要求5所述的用于出版行业的热点选题获取系统，其特征在于，所述第一候选热点选题生成模块具体包括：

获取单元，用于获取属意选词与热频词、冷频词以及热词库中的热词；

7.如权利要求5或6所述的用于出版行业的热点选题获取系统，其特征在于，所述筛选模块具体包括：

筛选与标记单元，用于把符合出版单位的出版方向和关注规则的第一候选热点选题筛选出来，标记为第二候选热点选题；

8.如权利要求7所述的用于出版行业的热点选题获取系统，其特征在于，所述筛选模块还包括：