CN105069177B - 一种用于出版行业的选题优化系统及其方法 - Google Patents

一种用于出版行业的选题优化系统及其方法 Download PDF

Info

Publication number
CN105069177B
CN105069177B CN201510622206.2A CN201510622206A CN105069177B CN 105069177 B CN105069177 B CN 105069177B CN 201510622206 A CN201510622206 A CN 201510622206A CN 105069177 B CN105069177 B CN 105069177B
Authority
CN
China
Prior art keywords
hot spot
selected topic
topic
publication
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510622206.2A
Other languages
English (en)
Other versions
CN105069177A (zh
Inventor
胡守文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SUZHOU TIANTI EXCELLENT MEDIA Co Ltd
Original Assignee
SUZHOU TIANTI EXCELLENT MEDIA Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SUZHOU TIANTI EXCELLENT MEDIA Co Ltd filed Critical SUZHOU TIANTI EXCELLENT MEDIA Co Ltd
Priority to CN201510622206.2A priority Critical patent/CN105069177B/zh
Publication of CN105069177A publication Critical patent/CN105069177A/zh
Application granted granted Critical
Publication of CN105069177B publication Critical patent/CN105069177B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种用于出版行业的选题优化系统及其方法,包括热点选题获取模块、热点选题筛选模块、新颖性判定模块、分析模块、关联推荐模块。其根据不同的出版单位的出版方向和关注规则对第一候选热点选题进行筛选,得到适合该出版单位的目标热点选题。将选题分类统计与专家新颖知识库两种策略进行判定,更加准确和高效,同时附带关联选题推荐功能,使得分析更加全面。对选题的多个属性进行统计,并结合时间和用户行为进行分析,给出选题随时间的演变情况、关联内容推荐。不仅节约了手工选题的人工成本和时间成本,同时提高了选题的有效性和针对性,填补了计算机辅助出版行业进行选题优化的空白,有利于出版行业的快速发展。

Description

一种用于出版行业的选题优化系统及其方法
技术领域
本发明涉及出版技术领域,具体地是涉及一种用于出版行业的选题优化系统及其方法。
背景技术
出版业生存发展一个决定因素是出版的内容,而高质量内容的首要条件是高质量的选题,离开一流的选题,很难产生出一流的出版内容。因此,获得及时准确、具有市场价值的热点选题,对出版物的优质高效起着至关重要的作用。
而目前对选题的优化都需要借助编辑人员手工进行,面对海量的信息去筛选优化为具体的选题,工作量巨大,制约选题优化的进一步发展,迫切需求计算机辅助来进行选题优化工作。而且人工判断选题时过分依赖于人的主观性,同时缺乏足够的数据支撑,使得其判断不够客观公正,在指导出版方向时难免会出现偏差,不利于出版行业的快速发展。
因此,本发明的发明人亟需构思一种新技术以改善其问题。
发明内容
本发明旨在提供一种用于出版行业的选题优化系统及其方法,其可以精准快速的获取适合不同出版单位的选题。
为解决上述技术问题,本发明的技术方案是:
一种用于出版行业的选题优化系统,包括:
热点选题获取模块,用于从素材中心获取热点信息,分析生成第一候选热点选题,所述素材中心包括线索库、舆情库、出版物资源库、网络素材库,所述热点信息包括热点线索、热点舆情、热点数据、热点话题。
热点选题筛选模块,用于根据不同的出版单位的出版方向和关注规则对第一候选热点选题进行筛选,得到适合该出版单位的目标热点选题。
新颖性判定模块,用于判断该目标热点选题是否具有新颖性,若其具有新颖性,则将其标记为新颖选题。
分析模块,用于对该新颖选题进行统计分析,并将统计和分析结果以数据、图表的形式发送至媒体终端。
关联推荐模块,用于从素材中心获取与该新颖选题相似、相关的出版物信息和素材信息,并推送至媒体终端。
优选地,所述热点选题获取模块具体包括:
热点信息获取单元,用于从线索库获取一个或者多个热点线索,从舆情库获取多个热点舆情,从出版物资源库中获取多组热点数据,从网络素材库获取多个热点话题。
热点信息第一处理单元,用于对热点线索和热点舆情进行数据分类、聚类分析处理,把相似的素材合并,生成第一候选热点选题。
热点信息第二处理单元,用于根据出版内容之间的相关性,对热点数据采用文本分类、聚类算法,同时结合出版单位名称、作者、出版时间特征,生成第一候选热点选题。
热点信息第三处理单元,用于对热点话题进行信息量化处理,生成第一候选热点选题。
优选地,所述热点选题筛选模块具体包括:
筛选与标记单元,用于把符合出版单位的出版方向和关注规则的第一候选热点选题筛选出来,标记为第二候选热点选题。
第二候选热点选题分析单元,用于依据关联度、读者信息、作者、来源信息进行评分,把得分排在前N名的第二候选热点选题标记为目标热点选题,其中N为大于或者等于1的整数。
优选地,所述新颖性判定模块具体包括:
统计和划分单元,用于获取出版物资源库中所有出版物的主题,并确定其对应的主题类别,统计每一主题类别下对应的出版物数量。
根据对应出版物数量的不同将主题类别进行划分,包括第一主题类别和第二主题类别,其中所述第一主题类别下对应的出版物数量小于所述第二主题类别下对应的出版物数量。
判定单元,用于确定目标热点选题所在的主题类别,当该主题类别为第一主题类别时,判定其具有新颖性,标记为第一新颖选题。
关联选题挖掘单元,用于对第一新颖选题通过关联挖掘的方法得到与该第一新颖选题相关联的一个或者多个关联选题,而后确定该关联选题所在的主题类别,当该主题类别为第一主题类别时,判定其具有新颖性,标记为第二新颖选题。
优选地,还包括设定模块,其具体包括:
规则制定单元,用于依据出版单位的出版方向和关注规则制定规则。
类别设定单元,用于设定多个主题类别,其设定方式包括人工预定义和自动聚类生成。
一种用于出版行业的选题优化方法,包括如下步骤:
S1:从素材中心获取热点信息,分析生成第一候选热点选题,所述素材中心包括线索库、舆情库、出版物资源库、网络素材库,所述热点信息包括热点线索、热点舆情、热点数据、热点话题。
S2:根据不同的出版单位的出版方向和关注规则对第一候选热点选题进行筛选,得到适合该出版单位的目标热点选题。
S3:判断该目标热点选题是否具有新颖性,若其具有新颖性,则将其标记为新颖选题。
S4:对该新颖选题进行统计分析,并将统计和分析结果以数据、图表的形式发送至媒体终端。
S5:从素材中心获取与该新颖选题相似、相关的出版物信息和素材信息,并推送至媒体终端。
优选地,所述步骤S1具体包括:
S11:从线索库获取一个或者多个热点线索,从舆情库获取多个热点舆情,从出版物资源库中获取多组热点数据,从网络素材库获取多个热点话题。
S12:对热点线索和热点舆情进行数据分类、聚类分析处理,把相似的素材合并,生成第一候选热点选题。
根据出版内容之间的相关性,对热点数据采用文本分类、聚类算法,同时结合出版单位名称、作者、出版时间特征,生成第一候选热点选题。
对热点话题进行信息量化处理,生成第一候选热点选题。
优选地,所述步骤S2具体包括:
S21:把符合出版单位的出版方向和关注规则的第一候选热点选题筛选出来,标记为第二候选热点选题。
S22:依据关联度、读者信息、作者、来源信息进行评分,把得分排在前N名的第二候选热点选题标记为目标热点选题,其中N为大于或者等于1的整数。
优选地,所述步骤S3具体包括:
S31:获取出版物资源库中所有出版物的主题,并确定其对应的主题类别,统计每一主题类别下对应的出版物数量。
根据对应出版物数量的不同将主题类别进行划分,包括第一主题类别和第二主题类别,其中所述第一主题类别下对应的出版物数量小于所述第二主题类别下对应的出版物数量。
S32:确定目标热点选题所在的主题类别,当该主题类别为第一主题类别时,判定其具有新颖性,标记为第一新颖选题。
S33:对第一新颖选题通过关联挖掘的方法得到与该第一新颖选题相关联的一个或者多个关联选题,而后确定该关联选题所在的主题类别,当该主题类别为第一主题类别时,判定其具有新颖性,标记为第二新颖选题。
优选地,还包括步骤S0:
依据出版单位的出版方向和关注规则制定规则。
设定多个主题类别,其设定方式包括人工预定义和自动聚类生成。
采用上述技术方案,本发明至少包括如下有益效果:
1、本发明所述的用于出版行业的选题优化系统及其方法,根据不同的出版单位的出版方向和关注规则对第一候选热点选题进行筛选,得到适合该出版单位的目标热点选题。不仅节约了手工选题的人工成本和时间成本,同时提高了热点选题的有效性和针对性,填补了计算机辅助出版行业进行选题优化的空白,有利于出版行业的快速发展,市场应用前景广泛。
2、本发明所述的用于出版行业的选题优化系统及其方法,将选题分类统计与专家新颖知识库两种策略进行判定,更加准确和高效,同时附带关联选题推荐功能,使得分析更加全面,具有较大的市场应用价值。
3、本发明所述的用于出版行业的选题优化系统及其方法,通过对选题的多个属性进行统计,并结合时间和用户行为进行分析,给出选题随时间的演变情况、关联内容推荐,实现海量文档的快速相似判断,在出版资源的编辑加工过程中向编辑人员推荐内容相关的出版物和素材等。
附图说明
图1为本发明所述的用于出版行业的选题优化系统的结构示意图;
图2为本发明所述的用于出版行业的选题优化方法流程图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
实施例1
如图1所示,为符合本实施例的一种用于出版行业的选题优化系统,包括:
热点选题获取模块101,用于从素材中心获取热点信息,分析生成第一候选热点选题,所述素材中心包括线索库、舆情库、出版物资源库、网络素材库,所述热点信息包括热点线索、热点舆情、热点数据、热点话题;
热点选题筛选模块102,用于根据不同的出版单位的出版方向和关注规则对第一候选热点选题进行筛选,得到适合该出版单位的目标热点选题;
新颖性判定模块103,用于判断该目标热点选题是否具有新颖性,若其具有新颖性,则将其标记为新颖选题;
分析模块104,用于对该新颖选题进行统计分析,并将统计和分析结果优选以数据、图表的形式发送至媒体终端;
关联推荐模块105,用于从素材中心获取与该新颖选题相似、相关的出版物信息和素材信息,并推送至媒体终端。
优选地,所述热点选题获取模块101具体包括:
热点信息获取单元,用于从线索库获取一个或者多个热点线索,从舆情库获取多个热点舆情,从出版物资源库中获取多组热点数据,从网络素材库获取多个热点话题;
热点信息第一处理单元,用于对热点线索和热点舆情进行数据分类、聚类分析处理,把相似的素材合并,生成第一候选热点选题;
热点信息第二处理单元,用于根据出版内容之间的相关性,对热点数据采用文本分类、聚类算法,同时结合出版单位名称、作者、出版时间特征,生成第一候选热点选题;
热点信息第三处理单元,用于对热点话题进行信息量化处理,生成第一候选热点选题。所述信息量化处理包括统计关注上升速度、判断是否含有敏感词、分析来源网站可信度、获取来源网站访问量。所述网络素材库包括但不限于个人网站、博客、微博、论坛。热点话题能够对尚未引起大众广泛关注、仅露出些许迹象的主题进行挖掘,为编辑人员提供选题依据,使得抢先策划出版明日热点成为可能 。本实施例拟综合考虑待处理热点话题在小范围关注度的上升速度、来源网站的可信度和总访问量等量化信息,以及是否含有人工整理的线索敏感词知识库中敏感词等因素的基础上,对其进行话题线索挖掘。同时,为了提高话题线索识别准确性,本实施例一方面仅选用话题线索最常出现的信息来源,如个人网站、博客、微博、论坛,作为数据来源,以减小干扰数据。另一方面,还支持用户指定的有线索报料倾向的数据来源,以提高热点话题的针对性。
针对素材中心的海量信息,现有技术中的基于相似度的聚类算法难以达到要求,本实施例优选结合基于语义度的快速文本聚类算法,将建立一种基于语义特征并体现特征分类强度的文本表示模型,而后将文本表示为一组特征词的集合,在利用特征词间的语义相似度计算文本间的相似度,然后根据相似度进行聚类。在文本表示为特征词的集合之前,将过滤掉无关的特征词和选择对文本重要的关键词,以加快聚类速度。
更为优选地,所述热点选题获取模块101还包括选题追踪单元,当编辑人员在发现某一热点信息之后,可以把它加入热点信息追踪,对相关信息的发展情况进行动态跟踪,包括出版资源库中后续添加入该选题的出版物信息,同时还包括由舆情库提供的后续舆情变化情况,并预测其发展走势。通过热点信息追踪,编辑人员可以获得该选题的变化情况,包括大众是否持续关注、该信息的深入演化、是否有同选题的出版物已经开始出版等情况,从而深化对该选题的理解,印证甚至调整对该选题的认识。因此通过选题追踪单元保证了热点选题分析的质量。由于话题追踪与检测技术本领域技术人员应当知晓,故此处不做赘述。
优选地,所述热点选题筛选模块102具体包括:
筛选与标记单元,用于把符合出版单位的出版方向和关注规则的第一候选热点选题筛选出来,标记为第二候选热点选题;
第二候选热点选题分析单元,用于依据关联度、读者信息、作者、来源信息进行评分,把得分排在前N名的第二候选热点选题标记为目标热点选题,其中N为大于或者等于1的整数。
根据不同的出版单位的出版方向和关注规则对第一候选热点选题进行筛选,得到适合该出版单位的目标热点选题。不仅节约了手工选题的人工成本和时间成本,同时提高了热点选题的有效性和针对性,填补了计算机辅助出版行业进行选题优化的空白,有利于出版行业的快速发展,市场应用前景广泛。
优选地,所述新颖性判定模块103具体包括:
统计和划分单元,用于获取出版物资源库中所有出版物的主题,并确定其对应的主题类别,统计每一主题类别下对应的出版物数量;
根据对应出版物数量的不同将主题类别进行划分,包括第一主题类别和第二主题类别,其中所述第一主题类别下对应的出版物数量小于所述第二主题类别下对应的出版物数量;本实施例中所述第一主题类别优选指代为出版物分布数量较少的主题类别,其可以包括出版物分布数量较少的主题类别中的一个或者多个,具体数量的划分可以结合实际的使用需求进行设定,本实施例对此不做限定。
判定单元,用于确定目标热点选题所在的主题类别,当该主题类别为第一主题类别时,判定其具有新颖性,标记为第一新颖选题;
关联选题挖掘单元,用于对第一新颖选题通过关联挖掘的方法得到与该第一新颖选题相关联的一个或者多个关联选题,而后确定该关联选题所在的主题类别,当该主题类别为第一主题类别时,判定其具有新颖性,标记为第二新颖选题。
进一步地,还包括:
前沿选题判定单元,用于将所述新颖选题与专家新颖知识库中的数据进行相似度的比较,如果相似度高于预设阈值,则判定其新颖性高,标记为前沿选题并推送至出版单位所在的媒体终端。针对学科的前沿问题、难点问题、热点问题,本实施例充分考虑国内外专家对该选题的观点。本实施例定期从出版物资源库和互联网上自动收集分析国内外知名专家对自己领域前沿新颖问题观点(同时,支持人工修正和增删),并把这些观点入库,形成专家新颖知识库。专家新颖知识库的引入使得判定更加精准。
在另一优选实施例中,所述统计和划分单元还包括:
趋势分析子单元,用于获取出版物资源库中所有出版物的出版时间,统计每一主题类别中出版物数量随时间变化的趋势,该趋势包括稳定、上升和下降。
所述判定单元还包括:
趋势判定子单元,用于确定热点选题所在的主题类别,当该主题类别中出版物数量随时间变化的趋势为上升,则判定其具有新颖性,标记为新颖选题。
本实施例将选题分类统计与专家新颖知识库两种策略进行判定,更加准确和高效,同时附带关联选题推荐功能,使得分析更加全面,具有较大的市场应用价值。
为了对选题策划等提供选题方面的各种量化参考,本系统将通过分析模块104提供对出版选题的类型、分布、状态等的统计分析,将提供对出版物的总量 、布局、分布、发稿等多种数据进行统计分析。具体地,如从出版物资源库中,分别对出版物进行总量、各类别分布、布局、发稿等数据进行正太统计、t统计、X2统计等。同时,还统计他们虽时间推移的变化情况,如某个选题在十年内的统计变化情况,当前与一年前的统计对比分析等。同时,本系统还对基于用户行为理解的互动服务系统提供的用户行为进行各种统计。从而将获得量化的用户信息和舆情信息,将能够使编辑人员了解选题所在的状态和发展趋势以及读者对某选题的反应,作为选题策划的参考。
在确定某选题为新颖选题后,本实施例主要提供关联推荐模块105针对该选题进行出版物推荐和相关素材推荐。其优选按照如下步骤:
首先利用相似性计算、聚类和关联分析得到新颖选题的关联对象;基于语义上的关联分析得到新颖选题的关联对象;利用用户行为分析和同群用户行为分析得到新颖选题的关联对象;最后根据用户兴趣对关联对象进行排序。具体地对应于出版物推荐是指推荐在出版物资源库中与目标选题相似、相关的各个出版物。在进行出版物推荐时,需要把该选题信息与出版资源库中的出版物信息进行相似、相关判断,综合生成关联度,取关联度超过给定阀值的作为推荐的出版物。由于出版物信息不仅包含该标题、出版单位、内容、出版时间等信息,还将包含通过出版舆情分析系统获得的大众对该出版物的反响,具体指标包括:点击数、评论、支持率,从而将为编辑人员评价该出版物的质量提供依据,同时,编制人员也可以借鉴大众对该出版物的评论,完善自己的编辑内容。
素材推荐是指推荐系统所能获得各种与目标选题相似、相关的各类信息。系统在进行推荐时,需要把该选题信息与素材中心所能获得的各种信息进行相似、相关判断,综合生成关联度,取关联度超过给定阀值的作为推荐的出素材信息。
本实施例通过对选题的多个属性进行统计,并结合时间和用户行为进行分析,给出选题随时间的演变情况、关联内容推荐,实现海量文档的快速相似判断,在出版资源的编辑加工过程中向编辑人员推荐内容相关的出版物和素材等。
优选地,本实施例还包括设定模块,其具体包括:
规则制定单元,用于依据出版单位的出版方向和关注规则制定规则;本实施例通过线索敏感词知识库来依据不同出版行业制定规则,如果是新闻出版,知识库将包含如事故、涨价、调控、造价等词。对于少儿出版单位则将包含小孩、喜羊羊、宝宝等词。通过针对不同出版单位的规则定制来对热点选题进行过滤和筛选,针对性更强,更贴合出版单位的需求。本领域技术人员可以根据实际的使用需求进行相应的设定和调整,本实施例对此不做限定。
类别设定单元,用于设定多个主题类别,其设定方式包括人工预定义和自动聚类生成。
更为优选地,所述设定模块还包括权限设定单元,用于根据不同的用户设定不同的权限,由于其为本领域技术人员的常规技术手段,故此处不再赘述。
更为优选地,本实施例还包括编辑模块,用于供编辑人员通过编辑或者互动游戏来输入和获得属意选词,所述属意选词作为热点信息,供热点选题获取模块101来生成第一候选热点选题。所述互动游戏优选为拼词游戏、接词游戏、诗语游戏。所述拼词游戏,是指编辑人员和自己的粉丝圈、微信朋友圈玩。给定条件,拼出短句,拼出好句。互晒。如:主体词:某一动物;背景:运动状态中;条件:戏谑化表述。所述接词游戏,是指和自己的粉丝圈、微信群朋友玩。出题如AB,接词须…A,B…,或…AB,AB…。所述诗语游戏,是将一句话改写为一句诗意语言、禅语或古文表述或相反。上述游戏,是编辑人员与自己在互联网中的社交圈、朋友圈、粉丝圈之间的互动游戏。编辑人员自身的目的性很明确,就是将自己的选题意图深藏字词游戏之中,在长此以往乐此不疲的互动游戏中,寻找属意字词的关系词组,从而完成出版选题的智慧众筹。也使一个严肃、刻板、紧张、单纯的工作平台变得有趣、生动、轻松而厚重起来,为用户提供了较好的体验。
更为优选地,本实施例还包括选题修饰模块,通过修辞法对热点选题、新颖选题等进行情绪感染,从而达到选题表情优化的目的。修辞法主要是调用相关修辞手段(如比喻、比拟等),来达到对特定选题名称优化目的。
实施例2
如图2所示,为符合本实施例的一种用于出版行业的选题优化方法,包括如下步骤:
S1:从素材中心获取热点信息,分析生成第一候选热点选题,所述素材中心包括线索库、舆情库、出版物资源库、网络素材库,所述热点信息包括热点线索、热点舆情、热点数据、热点话题;
S2:根据不同的出版单位的出版方向和关注规则对第一候选热点选题进行筛选,得到适合该出版单位的目标热点选题;
S3:判断该目标热点选题是否具有新颖性,若其具有新颖性,则将其标记为新颖选题;
S4:对该新颖选题进行统计分析,并将统计和分析结果以数据、图表的形式发送至媒体终端;
S5:从素材中心获取与该新颖选题相似、相关的出版物信息和素材信息,并推送至媒体终端。
优选地,所述步骤S1具体包括:
S11:从线索库获取一个或者多个热点线索,从舆情库获取多个热点舆情,从出版物资源库中获取多组热点数据,从网络素材库获取多个热点话题;
S12:对热点线索和热点舆情进行数据分类、聚类分析处理,把相似的素材合并,生成第一候选热点选题;
根据出版内容之间的相关性,对热点数据采用文本分类、聚类算法,同时结合出版单位名称、作者、出版时间特征,生成第一候选热点选题;
对热点话题进行信息量化处理,生成第一候选热点选题。所述信息量化处理包括统计关注上升速度、判断是否含有敏感词、分析来源网站可信度、获取来源网站访问量。所述网络素材库包括但不限于个人网站、博客、微博、论坛。热点话题能够对尚未引起大众广泛关注、仅露出些许迹象的主题进行挖掘,为编辑人员提供选题依据,使得抢先策划出版明日热点成为可能 。本实施例拟综合考虑待处理热点话题在小范围关注度的上升速度、来源网站的可信度和总访问量等量化信息,以及是否含有人工整理的线索敏感词知识库中敏感词等因素的基础上,对其进行话题线索挖掘。同时,为了提高话题线索识别准确性,本实施例一方面仅选用话题线索最常出现的信息来源,如个人网站、博客、微博、论坛,作为数据来源,以减小干扰数据。另一方面,还支持用户指定的有线索报料倾向的数据来源,以提高热点话题的针对性。
针对素材中心的海量信息,现有技术中的基于相似度的聚类算法难以达到要求,本实施例优选结合基于语义度的快速文本聚类算法,将建立一种基于语义特征并体现特征分类强度的文本表示模型,而后将文本表示为一组特征词的集合,在利用特征词间的语义相似度计算文本间的相似度,然后根据相似度进行聚类。在文本表示为特征词的集合之前,将过滤掉无关的特征词和选择对文本重要的关键词,以加快聚类速度。
更为优选地,所述步骤S1还包括选题追踪步骤,当编辑人员在发现某一热点信息之后,可以把它加入热点信息追踪,对相关信息的发展情况进行动态跟踪,包括出版资源库中后续添加入该选题的出版物信息,同时还包括由舆情库提供的后续舆情变化情况,并预测其发展走势。通过热点信息追踪,编辑人员可以获得该选题的变化情况,包括大众是否持续关注、该信息的深入演化、是否有同选题的出版物已经开始出版等情况,从而深化对该选题的理解,印证甚至调整对该选题的认识。因此通过选题追踪步骤保证了热点选题分析的质量。由于话题追踪与检测技术本领域技术人员应当知晓,故此处不做赘述。
优选地,所述步骤S2具体包括:
S21:把符合出版单位的出版方向和关注规则的第一候选热点选题筛选出来,标记为第二候选热点选题;
S22:依据关联度、读者信息、作者、来源信息进行评分,把得分排在前N名的第二候选热点选题标记为目标热点选题,其中N为大于或者等于1的整数。
根据不同的出版单位的出版方向和关注规则对第一候选热点选题进行筛选,得到适合该出版单位的目标热点选题。不仅节约了手工选题的人工成本和时间成本,同时提高了热点选题的有效性和针对性,填补了计算机辅助出版行业进行选题优化的空白,有利于出版行业的快速发展,市场应用前景广泛。
优选地,所述步骤S3具体包括:
S31:获取出版物资源库中所有出版物的主题,并确定其对应的主题类别,统计每一主题类别下对应的出版物数量;
根据对应出版物数量的不同将主题类别进行划分,包括第一主题类别和第二主题类别,其中所述第一主题类别下对应的出版物数量小于所述第二主题类别下对应的出版物数量;本实施例中所述第一主题类别优选指代为出版物分布数量较少的主题类别,其可以包括出版物分布数量较少的主题类别中的一个或者多个,具体数量的划分可以结合实际的使用需求进行设定,本实施例对此不做限定。
S32:确定目标热点选题所在的主题类别,当该主题类别为第一主题类别时,判定其具有新颖性,标记为第一新颖选题;
S33:对第一新颖选题通过关联挖掘的方法得到与该第一新颖选题相关联的一个或者多个关联选题,而后确定该关联选题所在的主题类别,当该主题类别为第一主题类别时,判定其具有新颖性,标记为第二新颖选题。
进一步地,所述步骤S3还包括:
将所述新颖选题与专家新颖知识库中的数据进行相似度的比较,如果相似度高于预设阈值,则判定其新颖性高,标记为前沿选题并推送至出版单位所在的媒体终端。针对学科的前沿问题、难点问题、热点问题,本实施例充分考虑国内外专家对该选题的观点。本实施例定期从出版物资源库和互联网上自动收集分析国内外知名专家对自己领域前沿新颖问题观点(同时,支持人工修正和增删),并把这些观点入库,形成专家新颖知识库。专家新颖知识库的引入使得判定更加精准。
在另一优选实施例中,所述步骤S31还包括:
获取出版物资源库中所有出版物的出版时间,统计每一主题类别中出版物数量随时间变化的趋势,该趋势包括稳定、上升和下降。
所述步骤S32还包括:
确定热点选题所在的主题类别,当该主题类别中出版物数量随时间变化的趋势为上升,则判定其具有新颖性。
本实施例将选题分类统计与专家新颖知识库两种策略进行判定,更加准确和高效,同时附带关联选题推荐功能,使得分析更加全面,具有较大的市场应用价值。
为了对选题策划等提供选题方面的各种量化参考,本系统将通过分析模块提供对出版选题的类型、分布、状态等的统计分析,将提供对出版物的总量 、布局、分布、发稿 等多种数据进行统计分析。具体地,如从出版物资源库中,分别对出版物进行总量、各类别分布、布局、发稿等数据进行正太统计、t统计、X2统计等。同时,还统计他们虽时间推移的变化情况,如某个选题在十年内的统计变化情况,当前与一年前的统计对比分析等。同时,本系统还对基于用户行为理解的互动服务系统提供的用户行为进行各种统计。从而将获得量化的用户信息和舆情信息,将能够使编辑人员了解选题所在的状态和发展趋势以及读者对某选题的反应,作为选题策划的参考。
在确定某选题为新颖选题后,本实施例主要提供关联推荐模块针对该选题进行出版物推荐和相关素材推荐。其优选按照如下步骤:
首先利用相似性计算、聚类和关联分析得到新颖选题的关联对象;基于语义上的关联分析得到新颖选题的关联对象;利用用户行为分析和同群用户行为分析得到新颖选题的关联对象;最后根据用户兴趣对关联对象进行排序。具体地对应于出版物推荐是指推荐在出版物资源库中与目标选题相似、相关的各个出版物。在进行出版物推荐时,需要把该选题信息与出版资源库中的出版物信息进行相似、相关判断,综合生成关联度,取关联度超过给定阀值的作为推荐的出版物。由于出版物信息不仅包含该标题、出版单位、内容、出版时间等信息,还将包含通过出版舆情分析系统获得的大众对该出版物的反响,具体指标包括:点击数、评论、支持率,从而将为编辑人员评价该出版物的质量提供依据,同时,编制人员也可以借鉴大众对该出版物的评论,完善自己的编辑内容。
素材推荐是指推荐系统所能获得各种与目标选题相似、相关的各类信息。系统在进行推荐时,需要把该选题信息与素材中心所能获得的各种信息进行相似、相关判断,综合生成关联度,取关联度超过给定阀值的作为推荐的出素材信息。
本实施例通过对选题的多个属性进行统计,并结合时间和用户行为进行分析,给出选题随时间的演变情况、关联内容推荐,实现海量文档的快速相似判断,在出版资源的编辑加工过程中向编辑人员推荐内容相关的出版物和素材等。
优选地,还包括步骤S0:
依据出版单位的出版方向和关注规则制定规则;本实施例通过线索敏感词知识库来依据不同出版行业制定规则,如果是新闻出版,知识库将包含如事故、涨价、调控、造价等词。对于少儿出版单位则将包含小孩、喜羊羊、宝宝等词。通过针对不同出版单位的规则定制来对热点选题进行过滤和筛选,针对性更强,更贴合出版单位的需求。本领域技术人员可以根据实际的使用需求进行相应的设定和调整,本实施例对此不做限定。
设定多个主题类别,其设定方式包括人工预定义和自动聚类生成。
更为优选地,所述步骤S0还包括根据不同的用户设定不同的权限。由于其为本领域技术人员的常规技术手段,故此处不再赘述。
更为优选地,本实施例还包括编辑模块,用于供编辑人员通过编辑或者互动游戏来输入和获得属意选词,所述属意选词作为热点信息,供热点选题获取模块来生成第一候选热点选题。所述互动游戏优选为拼词游戏、接词游戏、诗语游戏。所述拼词游戏,是指编辑人员和自己的粉丝圈、微信朋友圈玩。给定条件,拼出短句,拼出好句。互晒。如:主体词:某一动物;背景:运动状态中;条件:戏谑化表述。所述接词游戏,是指和自己的粉丝圈、微信群朋友玩。出题如AB,接词须…A,B…,或…AB,AB…。所述诗语游戏,是将一句话改写为一句诗意语言、禅语或古文表述或相反。上述游戏,是编辑人员与自己在互联网中的社交圈、朋友圈、粉丝圈之间的互动游戏。编辑人员自身的目的性很明确,就是将自己的选题意图深藏字词游戏之中,在长此以往乐此不疲的互动游戏中,寻找属意字词的关系词组,从而完成出版选题的智慧众筹。也使一个严肃、刻板、紧张、单纯的工作平台变得有趣、生动、轻松而厚重起来,为用户提供了较好的体验。
更为优选地,本实施例还包括选题修饰模块,通过修辞法对热点选题、新颖选题等进行情绪感染,从而达到选题表情优化的目的。修辞法主要是调用相关修辞手段(如比喻、比拟等),来达到对特定选题名称优化目的。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims (4)

1.一种用于出版行业的选题优化系统,其特征在于,包括:
热点选题获取模块,用于从素材中心获取热点信息,分析生成第一候选热点选题,所述素材中心包括线索库、舆情库、出版物资源库、网络素材库,所述热点信息包括热点线索、热点舆情、热点数据、热点话题;
热点选题筛选模块,用于根据不同的出版单位的出版方向和关注规则对第一候选热点选题进行筛选,得到适合该出版单位的目标热点选题;
新颖性判定模块,用于判断该目标热点选题是否具有新颖性,若其具有新颖性,则将其标记为新颖选题;
分析模块,用于对该新颖选题进行统计分析,并将统计和分析结果以数据、图表的形式发送至媒体终端;
关联推荐模块,用于从素材中心获取与该新颖选题相似、相关的出版物信息和素材信息,并推送至媒体终端;
所述热点选题筛选模块具体包括:
筛选与标记单元,用于把符合出版单位的出版方向和关注规则的第一候选热点选题筛选出来,标记为第二候选热点选题;
第二候选热点选题分析单元,用于依据关联度、读者信息、作者、来源信息进行评分,把得分排在前N名的第二候选热点选题标记为目标热点选题,其中N为大于或者等于1的整数;
所述热点选题获取模块具体包括:
热点信息获取单元,用于从线索库获取一个或者多个热点线索,从舆情库获取多个热点舆情,从出版物资源库中获取多组热点数据,从网络素材库获取多个热点话题;热点信息第一处理单元,用于对热点线索和热点舆情进行数据分类、聚类分析处理,把相似的素材合并,生成第一候选热点选题;热点信息第二处理单元,用于根据出版内容之间的相关性,对热点数据采用文本分类、聚类算法,同时结合出版单位名称、作者、出版时间特征,生成第一候选热点选题;热点信息第三处理单元,用于对热点话题进行信息量化处理,生成第一候选热点选题;
所述新颖性判定模块具体包括:
统计和划分单元,用于获取出版物资源库中所有出版物的主题,并确定其对应的主题类别,统计每一主题类别下对应的出版物数量;根据对应出版物数量的不同将主题类别进行划分,包括第一主题类别和第二主题类别,其中所述第一主题类别下对应的出版物数量小于所述第二主题类别下对应的出版物数量;判定单元,用于确定目标热点选题所在的主题类别,当该主题类别为第一主题类别时,判定其具有新颖性,标记为第一新颖选题;关联选题挖掘单元,用于对第一新颖选题通过关联挖掘的方法得到与该第一新颖选题相关联的一个或者多个关联选题,而后确定该关联选题所在的主题类别,当该主题类别为第一主题类别时,判定其具有新颖性,标记为第二新颖选题。
2.如权利要求1所述的用于出版行业的选题优化系统,其特征在于,还包括设定模块,其具体包括:
规则制定单元,用于依据出版单位的出版方向和关注规则制定规则;
类别设定单元,用于设定多个主题类别,其设定方式包括人工预定义和自动聚类生成。
3.一种用于出版行业的选题优化方法,其特征在于,包括如下步骤:
S1:从素材中心获取热点信息,分析生成第一候选热点选题,所述素材中心包括线索库、舆情库、出版物资源库、网络素材库,所述热点信息包括热点线索、热点舆情、热点数据、热点话题;
S2:根据不同的出版单位的出版方向和关注规则对第一候选热点选题进行筛选,得到适合该出版单位的目标热点选题;
S3:判断该目标热点选题是否具有新颖性,若其具有新颖性,则将其标记为新颖选题;
S4:对该新颖选题进行统计分析,并将统计和分析结果以数据、图表的形式发送至媒体终端;
S5:从素材中心获取与该新颖选题相似、相关的出版物信息和素材信息,并推送至媒体终端;
所述步骤S2具体包括:
S21:把符合出版单位的出版方向和关注规则的第一候选热点选题筛选出来,标记为第二候选热点选题;
S22:依据关联度、读者信息、作者、来源信息进行评分,把得分排在前N名的第二候选热点选题标记为目标热点选题,其中N为大于或者等于1的整数;
所述步骤S1具体包括:
S11:从线索库获取一个或者多个热点线索,从舆情库获取多个热点舆情,从出版物资源库中获取多组热点数据,从网络素材库获取多个热点话题;
S12:对热点线索和热点舆情进行数据分类、聚类分析处理,把相似的素材合并,生成第一候选热点选题;根据出版内容之间的相关性,对热点数据采用文本分类、聚类算法,同时结合出版单位名称、作者、出版时间特征,生成第一候选热点选题;对热点话题进行信息量化处理,生成第一候选热点选题;
所述步骤S3具体包括:
S31:获取出版物资源库中所有出版物的主题,并确定其对应的主题类别,统计每一主题类别下对应的出版物数量;根据对应出版物数量的不同将主题类别进行划分,包括第一主题类别和第二主题类别,其中所述第一主题类别下对应的出版物数量小于所述第二主题类别下对应的出版物数量;
S32:确定目标热点选题所在的主题类别,当该主题类别为第一主题类别时,判定其具有新颖性,标记为第一新颖选题;
S33:对第一新颖选题通过关联挖掘的方法得到与该第一新颖选题相关联的一个或者多个关联选题,而后确定该关联选题所在的主题类别,当该主题类别为第一主题类别时,判定其具有新颖性,标记为第二新颖选题。
4.如权利要求3所述的用于出版行业的选题优化方法,其特征在于,还包括步骤S0:
依据出版单位的出版方向和关注规则制定规则;
设定多个主题类别,其设定方式包括人工预定义和自动聚类生成。
CN201510622206.2A 2015-09-25 2015-09-25 一种用于出版行业的选题优化系统及其方法 Expired - Fee Related CN105069177B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510622206.2A CN105069177B (zh) 2015-09-25 2015-09-25 一种用于出版行业的选题优化系统及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510622206.2A CN105069177B (zh) 2015-09-25 2015-09-25 一种用于出版行业的选题优化系统及其方法

Publications (2)

Publication Number Publication Date
CN105069177A CN105069177A (zh) 2015-11-18
CN105069177B true CN105069177B (zh) 2018-07-17

Family

ID=54498546

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510622206.2A Expired - Fee Related CN105069177B (zh) 2015-09-25 2015-09-25 一种用于出版行业的选题优化系统及其方法

Country Status (1)

Country Link
CN (1) CN105069177B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106227735A (zh) * 2016-07-11 2016-12-14 苏州天梯卓越传媒有限公司 一种用于出版行业的词云选题方法及系统
CN106934049B (zh) * 2017-03-16 2020-08-07 天闻数媒科技(北京)有限公司 一种新闻选题分析方法及装置
CN107103038A (zh) * 2017-03-24 2017-08-29 武汉理工数字传播工程有限公司 一种基于大数据的选题策划系统
CN107038156A (zh) * 2017-04-28 2017-08-11 北京清博大数据科技有限公司 一种基于大数据的舆论热点预测方法
CN107220389A (zh) * 2017-07-12 2017-09-29 广州市昊链信息科技股份有限公司 一种物流知识智能问答系统及方法
CN107545461A (zh) * 2017-08-01 2018-01-05 云天弈(北京)信息技术有限公司 一种出版物选题及发行的分析系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104516961A (zh) * 2014-12-18 2015-04-15 北京牡丹电子集团有限责任公司数字电视技术中心 一种基于地域的话题挖掘及话题走势分析方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8073682B2 (en) * 2007-10-12 2011-12-06 Palo Alto Research Center Incorporated System and method for prospecting digital information

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104516961A (zh) * 2014-12-18 2015-04-15 北京牡丹电子集团有限责任公司数字电视技术中心 一种基于地域的话题挖掘及话题走势分析方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
出版社选题定位必须关注的三个方面;陈小兵;《出版发行研究》;20120615;第41-42页 *
跟踪新闻热点 策划优秀科普图书;赵晖;《优秀出版物价值论:中国编辑学会第十三届年会优秀文集》;20081031;第332-336页 *

Also Published As

Publication number Publication date
CN105069177A (zh) 2015-11-18

Similar Documents

Publication Publication Date Title
CN105069177B (zh) 一种用于出版行业的选题优化系统及其方法
Hedayatnia et al. Policy-driven neural response generation for knowledge-grounded dialogue systems
Davis et al. Indicators as a technology of global governance
Zhou Understanding user behaviors of creative practice on short video sharing platforms-a case study of TikTok and Bilibili
CN112153426B (zh) 一种内容账号管理方法、装置、计算机设备及存储介质
CA2697989A1 (en) System and method for managing and optimizing advertising campaigns managed on the internet
CN105183718A (zh) 一种用于出版行业的热点选题获取方法及其系统
Kelly The continuing evolution of publishing in the biological sciences
Ehrich et al. The film festival sector and its networked structures of gender inequality
Poplavskyi Entrepreneurship in the field of art business in the European union
Cutler ChatGPT and search engine optimisation: the future is here
Hansen Disrupting the news
Hutchinson et al. Asia and the middle-income trap
Ziaie A model for context in the design of open production communities
Pratama Indonesian legal framework to support innovation sustainability
Clark et al. JMS at 50: Trends over Time
Kang et al. Friend relationships recommendation algorithm in online education platform
Ghebremusse Good governance and development in Botswana–The democracy conundrum
CN105335467A (zh) 一种用于出版行业热点选题的新颖性判断方法与系统
Erickson User illusion: ideological construction of ‘user-generated content’in the EC consultation on copyright
Stevenson Slashdot, open news and informated media: exploring the intersection of imagined futures and web publishing technology
Fatas‐Villafranca et al. Stock and mobility of researchers and industrial leadership
Roy Labour–Capital Conflict and Permeation of Class in Marxian Categories
Hlazunova et al. MODEL OF ART ENTREPRENEURSHIP & EDUCATION IN CREATIVE ECONOMY
Reus In Search of Good Ancestors/Ahnen in Arbeit

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180717

Termination date: 20200925

CF01 Termination of patent right due to non-payment of annual fee