CN114841155A

CN114841155A - 主题内容智能聚合方法、装置、电子设备及存储介质

Info

Publication number: CN114841155A
Application number: CN202210422675.XA
Authority: CN
Inventors: 邵德奇; 石聪; 关培培; 李腾飞; 冯超; 段治平; 赵诗阳; 赵喆; 田兴亚; 彭佳
Original assignee: Science And Technology Daily
Current assignee: Science And Technology Daily
Priority date: 2022-04-21
Filing date: 2022-04-21
Publication date: 2022-08-02

Abstract

本公开提供一种主题内容智能聚合方法、装置、电子设备及存储介质。该方法包括：对源数据平台中的原始稿件数据的使用频次进行监控并对原始稿件数据进行采集；对原始稿件数据执行预处理操作，得到预处理后的原始稿件数据对应的文本内容数据，并利用预设的知识加工方式对文本内容数据进行加工；基于预定的主题定制页面，获取用户输入的与主题相关的定制条件，利用定制条件对稿件数据进行筛选，得到筛选后的待推送稿件；基于预定的稿件推送页面，获取用户针对主题配置的推送条件，按照推送条件将待推送稿件推送至系统平台，以使系统平台基于推送的稿件进行主题内容的聚合。本公开能够实现快捷地定制化主题内容推送，实现主题内容的快速聚合。

Description

主题内容智能聚合方法、装置、电子设备及存储介质

技术领域

本公开涉及数据处理技术领域，尤其涉及一种主题内容智能聚合方法、装置、电子设备及存储介质。

背景技术

随着网络信息技术以及信息化媒体的高速发展，各大媒体网站平台中的信息量急剧增加，其中大部分媒体信息以文本形式存在。为了便于用户能够快速的获取主题信息，全面了解与主题内容相关的信息，深度理解主题内容的内涵，需要对媒体中的资讯内容进行智能化聚合，实现对主题内容的快速聚合和推送。

现有技术中，一些媒体平台虽然能够在一定程度上对资讯内容按照主题进行聚合，但是由于互联网中存在海量的数据，数据源具有多样化的特点，使得传统的聚合方法无法对主题内容进行有效地挖掘，无法实现精准主题内容的筛选，也无法实现定制主题内容的推送，导致传统媒体平台的主题内容比较缺乏，主题专栏的快建和维护过程比较繁琐，无法为用户提供智能化的资讯服务。

基于现有技术，需要提供一种能够对源数据进行有效挖掘，实现主题内容的快速推送和聚合，方便用户实现精准主题内容的定制，提升资讯服务智能化水平的主题内容智能聚合方案。

发明内容

有鉴于此，本公开实施例提供了一种主题内容智能聚合方法、装置、电子设备及存储介质，以解决现有技术存在的无法对主题内容进行有效地挖掘，无法实现精准主题内容的筛选，无法实现定制主题内容的推送，导致主题内容比较缺乏，资讯服务智能化比较低的问题。

本公开实施例的第一方面，提供了一种主题内容智能聚合方法，包括：对源数据平台中的原始稿件数据的使用频次进行监控并对原始稿件数据进行采集，获得待处理的原始稿件数据；对原始稿件数据执行预处理操作，得到预处理后的原始稿件数据对应的文本内容数据，并利用预设的知识加工方式对文本内容数据进行加工，得到加工后的稿件数据；基于预定的主题定制页面，获取用户输入的与主题相关的定制条件，利用定制条件对稿件数据进行筛选，得到筛选后的待推送稿件；基于预定的稿件推送页面，获取用户针对主题配置的推送条件，按照推送条件将待推送稿件推送至系统平台，以使系统平台基于推送的稿件进行主题内容的聚合。

本公开实施例的第二方面，提供了一种主题内容智能聚合装置，包括：采集模块，被配置为对源数据平台中的原始稿件数据的使用频次进行监控并对原始稿件数据进行采集，获得待处理的原始稿件数据；加工模块，被配置为对原始稿件数据执行预处理操作，得到预处理后的原始稿件数据对应的文本内容数据，并利用预设的知识加工方式对文本内容数据进行加工，得到加工后的稿件数据；筛选模块，被配置为基于预定的主题定制页面，获取用户输入的与主题相关的定制条件，利用定制条件对稿件数据进行筛选，得到筛选后的待推送稿件；推送模块，被配置为基于预定的稿件推送页面，获取用户针对主题配置的推送条件，按照推送条件将待推送稿件推送至系统平台，以使系统平台基于推送的稿件进行主题内容的聚合。

本公开实施例的第三方面，提供了一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现上述方法的步骤。

本公开实施例的第四方面，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

本公开实施例采用的上述至少一个技术方案能够达到以下有益效果：

通过对源数据平台中的原始稿件数据的使用频次进行监控并对原始稿件数据进行采集，获得待处理的原始稿件数据；对原始稿件数据执行预处理操作，得到预处理后的原始稿件数据对应的文本内容数据，并利用预设的知识加工方式对文本内容数据进行加工，得到加工后的稿件数据；基于预定的主题定制页面，获取用户输入的与主题相关的定制条件，利用定制条件对稿件数据进行筛选，得到筛选后的待推送稿件；基于预定的稿件推送页面，获取用户针对主题配置的推送条件，按照推送条件将待推送稿件推送至系统平台，以使系统平台基于推送的稿件进行主题内容的聚合。本公开能够对源数据平台中的数据进行有效挖掘，实现定制主题内容的快速推送和聚合，使用户能够实现精准主题内容的定制化操作，提升资讯服务智能化水平。

附图说明

为了更清楚地说明本公开实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本公开实施例在实际场景下涉及系统整体架构的结构示意图；

图2是本公开实施例提供的主题内容智能聚合方法的流程示意图；

图3是本公开实施例提供的主题内容智能聚合装置的结构示意图；

图4是本公开实施例提供的电子设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本公开实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本公开。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本公开的描述。

随着互联网的快速发展，特别是新媒体的发展，对传统媒体带来了巨大的挑战。一是公众的需求发生了变化。面对互联网繁杂的海量信息，需要快速获取主题信息，同时需要全面了解与主题内容相关的信息，深度理解主题内容的内涵。二是媒体发展的需求发生了变化。近年来新媒体发展迅速，如移动端、微信微博、百家号等新媒体对内容呈现差异化的需求，新闻的传播方式也不再是刻板、固定、一成不变的，而是将越来越向连续、不间断、实时更新的新型模式方向发展，媒体需求的这个变化对主题内容的快速反应要求更高。三是主题内容建设的需求发生了变化。现在对于突发的重大事件，需要快速形成主题专栏内容且需要对专栏内容进行全方位、实时、高效的维护更新，及时为受众提供真实可靠资讯，避免错误信息传播引发不必要的恐慌。

本公开实施例通过大数据、AI等技术实现资讯内容的智能聚合、精准分类和特征提取，使资讯内容智能化，实现主题内容快速聚合，解决主题内容的缺乏、主题专栏的快建和维护、聚合内容的版权等媒体发展的痛点，通过智能算法实现精准主题内容制作与定制主题内容的推送，从而实现内容主题智能化聚合的目标。本公开通过建设主题内容聚合平台，利用大数据、AI等技术实现资讯的“智能化”加工，利用知识图谱、NLP等技术实现资讯的“智慧化”服务。利用主题内容聚合技术实现了主题的聚合应用。

下面结合附图对本公开实施例所涉及系统的整体架构进行说明。图1是本公开实施例在实际场景下涉及系统整体架构的结构示意图，如图1所示，主题内容智能聚合系统具体可以包括以下内容：

为了实现主题内容的智能聚合，首先要建立相关领域的智能化资讯数据库，通过分类、标注、自动聚类、深度学习等信息化技术，将资讯内容智能化，形成智能化资讯数据库。在智能化资讯数据库的基础上，通过主题内容定制与内容加工，实现主题内容聚合服务。主题内容聚合平台由基础设施层、系统层、数据中心层和应用层组成。其中，基础设施层由服务器、存储、网络、安全设备组成；系统层由操作系统、中间件、数据库和虚拟化服务器组成；数据中心层由主题内容采集接入系统、主题内容智能处理系统、主题内容知识加工系统、主题内容数据管理系统4个系统组成；应用层由智能主题内容服务、主题内容加工、主题内容定制服务、主题内容推送组成。

下面结合具体实施例对主题内容智能聚合系统中的数据中心层和应用层进行详细介绍，具体可以包括以下内容：

一、数据中心层在主题内容聚合平台的构建中起着至关重要的作用。数据中心层的任务为完成数据的聚合、语义分析、知识加工、大数据管理等功能，为上层应用提供数据支持与算法能力。

其中，主题内容采集接入系统重点解决数据源的接入问题，针对多源异构数据的接入，将推送数据进行多源、多时态、多尺度的整合。主题内容采集接入系统包括但不限于以下功能模块：

1)数据接入和采集功能模块。数据接入是指将已构建的资讯数据接入进来。数据接入服务功能可提供数据传输服务，在统一数据标准及存储逻辑的基础上，通过多种数据接入渠道，支持数据文件、数据库、表、字段及数据内容片段的接入。实现对新闻、报刊、社交媒体、移动客户端、网站、公众号等平台的实时监控和自动采集，满足对海量互联网信息资源的快速获取需求。

2)数据清洗和校验排重功能模块。实现数据清洗功能，处理字段的残缺、错误和重复等数据问题。实现在接入数据时对数据进行有效性检验、数据质量校验和过滤排重标记等数据预处理工作，确保数据质量。

3)标准化数据转换和校验功能模块。对清洗之后的数据进行标准化处理，实现将不同格式的数据按照统一数据格式规范转换后接入系统，包括实时数据和离线数据的标准化定义。

主题内容智能处理系统通过大数据智能处理技术手段进行自动分词、关键词提取、信息分类、聚类等。重点解决数据的智能化问题，主题内容智能处理系统包括但不限于以下功能模块：

1)自动分词功能模块。提供基于融合了词典和CRF、HMM分词模型的文本自动分词功能，实现对文本的分词操作，返回正确的处理结果。

2)关键词提取功能模块。提供文本的关键词提取功能，利用文档中词语的统计信息、词性和位置信息进行权重的综合计算，将文本中语义最相关的若干核心词语抽取出来。

3)知识图谱功能模块。提供实体识别、事件抽取等功能，可以从半结构化、结构化的文本中识别出与目标相关的实体与事件元素。

4)文本分类模块。提供基于Word2vec，BERT算法的文本分类能力，可实现基于文本内容语义的自动抽取与分类功能。文本分类模块协助构建了基于相关领域的内容分类体系，对于文本内容打标、主题内容的快速形成、用户画像与用户个性化推荐提供了关键支撑。

5)稿件聚类模块。提供基于新闻热点、语义、新闻事件的文本聚类能力。通过热点追踪、事件识别、语义聚类等算法，自动挖掘热点新闻、系列事件新闻等，可快速的实现对突发大事件的新闻主题生成与追踪报道。

6)热词分析功能模块。在文本预处理的基础上，提供候选热词评估、面向热点表征的热词甄选等算法，利用多机数据交互技术智能分析出可以表征文本内容的短语或短句。

大数据管理子系统主要是解决数据的存储管理、检索服务与数据管理，大数据管理子系统包括但不限于以下功能模块：

1)数据存储功能模块。数据存储要求采用分布式存储框架及分布式数据库，提供大规模稀疏数据的存储方案和技术方法，并实现大规模稀疏数据的有效存储。

2)数据管理功能模块。一是数据质量管理。系统应能够对整个数据链路的数据质量进行管理，从数据的完整性、一致性、唯一性等多个层面轻松实现对数据的全面稽核和预警，提高数据使用质量，指导决策者的决定。二是元数据管理。实现数据服务平台全局的数据预览，血缘分析和影响性分析，不同组织的数据共享以及系统数据的健康监控。用户可通过元数据分析直观了解到数据的来源、数据之间的关系、数据流向、数据被引用次数等重要信息，便于用户直观的把握数据资产状况。三是统一数据生命周期管理。系统应提供数据的采集处理应用和分析服务的各个阶段提供统一处理流程和中间状态的调度、管理和监控，主要是对数据质量进行检查和分析，定期形成报告，并管理质量规则，使数据创建、获取、加工、使用、维护的全流程质量可控。四是资源调度与任务管理。数据服务平台通过统一资源调度和任务管理，实现对所有计算和查询等操作任务管理，实现对任务所需CPU、内存和网络等资源调度，保障所有任务平稳、快速地运行，状态可监控可管理。五是要求实现数据检索功能。能够对文本进行快速切词，并采用多种索引技术和索引管理、校验技术，完成对数据文本信息检索。

3)上传下载功能模块。用户可单个或批量上传和下载稿件、图片、视频、主题内容、音频、pdf、word、PPT等资讯。一方面满足各种数据接入管理、主题定制、资源上传、数据统计等功能的交互要求，另一方面对数据接入管理的内容、主题内容定制的结果、资源上传的结果进行良好的展示。

知识加工子系统主要是进行知识的信息收集及关键数据抽取，构建主题内容所需的基础信息知识库，并提供数据查询展示，为主题内容提供数据和业务支撑。知识加工子系统包括但不限于以下功能模块：

1)知识标注和任务管理功能模块。通过知识图谱技术实现知识的自动抽取扩充，支持机器自动抽取与人机结合方式形成准确的知识库构建；支持多人协同标注；支持对主题内容的属性进行标注，例如资讯分类、关键词、摘要等。提供知识条目级和属性级的知识加工功能,实现标注的具体要求与标注内容,支持协同标注的任务分发，对标注任务实现全流程监控与管理。在知识标注的过程中，实现具备知识新鲜度的知识更新功能。

2)粗知识管理功能模块。提供粗知识管理功能，系统支持已有粗知识的导入，以及导入粗知识的有效管理和协同标注任务发布；支持已有结构化知识的导入，对于用户已有的结构化知识需要导入到知识库，与现有知识库进行融合。

3)知识库管理功能模块。对知识加工平台实现系统的配置管理，包括知识库标注字段配置、用户管理、关系管理、分类管理、关键词管理。对知识标注任务的结果实现导出，支持批量导出功能。

二、应用层是主题内容聚合平台的应用，包括智能主题内容服务、主题内容定制服务、主题内容加工与主题内容推送。平台通过聚合、众筹、创作、融合等智能化内容生产方式，汇聚国内外相关主题资讯，利用大数据、AI等技术实现资讯的“智能化”加工，利用知识图谱、NLP等技术实现资讯的“智慧化”服务。

其中，智能主题内容服务使用事件识别、热点识别等算法实现热门事件内容的自动发现与捕捉功能。通过自动聚类算法，汇聚主题内容，自动聚合、生产相近内容主题。通过深度学习分类模型，构建基于行业垂类的分类体系，智能计算稿件所属类别，快速形成各领域专栏与相关主题。

智能内容定制服务支持用户录入相关条件(关键词、来源、媒体类型、分类标签、属性、发稿时间等)，系统自动启动数据汇聚工作，支持实时数据与历史数据的汇聚，支持人工设定汇聚条件，包括是否去重、是否是可信源、汇聚条数、汇聚频次等，提供主题内容定制服务。

主题内容加工提供主题内容创建、修改、删除、检索等操作。可以录入主题内容标签、关键词、起止时间、主题内容文字描述等主题属性数据。可维护主题中的稿件，按日期、分类进行内容加工。支持主题页面生成模板，主题制作成功后平台可实时显示主题内容列表与详情。

主题内容生产完后可推送至全媒体采编系统、网站发布系统、APP管理系统等其他平台与系统，可实现基于规定时间段的推送频次。支持数据查询接口与推送接口，协助媒体各环节展开主题内容定制工作。

图2是本公开实施例提供的主题内容智能聚合方法的流程示意图。图2的主题内容智能聚合方法可以由服务器执行。如图2所示，该主题内容智能聚合方法具体可以包括：

S201，对源数据平台中的原始稿件数据的使用频次进行监控并对原始稿件数据进行采集，获得待处理的原始稿件数据；

S202，对原始稿件数据执行预处理操作，得到预处理后的原始稿件数据对应的文本内容数据，并利用预设的知识加工方式对文本内容数据进行加工，得到加工后的稿件数据；

S203，基于预定的主题定制页面，获取用户输入的与主题相关的定制条件，利用定制条件对稿件数据进行筛选，得到筛选后的待推送稿件；

S204，基于预定的稿件推送页面，获取用户针对主题配置的推送条件，按照推送条件将待推送稿件推送至系统平台，以使系统平台基于推送的稿件进行主题内容的聚合。

具体地，源数据平台可以认为是原始稿件数据的来源，源数据平台可以包括制定站点、频道、栏目等对应的平台，比如新闻网站平台、公众号平台、移动客户端平台等。不同源数据平台中原始稿件数据的格式可能存在区别，因此在进行数据接入时，需要对原始稿件数据进行统一标准化处理，即将原始稿件数据存储为具有相同数据标准和存储逻辑的数据结构。

进一步地，本公开实施例涉及的主题内容智能聚合系统，可以理解为集数据采集、数据预处理、数据加工、数据管理、数据推送为一体的主题聚合平台。基于该主题聚合平台，用户可以定制化主题内容，基于用户设置的定制条件对主题内容数据库中的稿件数据进行筛选，并进一步基于用户配置的推送条件，实现稿件数据的定时、定量推送，从而实现自动化主题内容定制服务。

根据本公开实施例提供的技术方案，本公开通过大数据、AI等技术实现资讯内容的智能聚合、精准分类和特征提取，使资讯内容智能化，实现主题内容快速聚合，解决主题内容的缺乏、主题专栏的快建和维护、聚合内容的版权等媒体发展的痛点，通过智能算法实现精准主题内容制作与定制主题内容推送，从而实现内容主题智能化聚合的目标。本公开通过建设主题内容聚合平台，利用大数据、AI等技术实现资讯的“智能化”加工，利用知识图谱、NLP等技术实现资讯的“智慧化”服务。利用主题内容聚合技术实现了主题内容的聚合应用。

在一些实施例中，对源数据平台中的原始稿件数据的使用频次进行监控并对原始稿件数据进行采集，包括：构建与源数据平台中的原始稿件数据之间的数据传输通道，基于数据传输通道，对源数据平台中的原始稿件数据的使用频次进行统计，对统计结果中使用频次大于阈值的原始稿件数据及其对应的互动数据的采集频率进行增加，以获得使用频次更高的源数据平台中的原始稿件数据；其中，原始稿件数据为多源异构数据，在采集原始稿件数据之后，将原始稿件数据按照统一数据存储模型存储到主题内容数据库中。

具体地，在对源数据平台中的原始稿件数据进行采集之前，需要建立主题内容智能聚合平台与源数据平台之间的数据传输通道，通过该数据传输通道接入源数据平台中的原始稿件数据，并且在接入原始稿件数据时，需要将多源异构的原始稿件数据转化为统一数据标准和存储逻辑的数据模型或数据结构，并将统一格式后的原始稿件数据存储到主题内容数据库中。

进一步地，在利用数据传输通道接入原始稿件数据时，还可以对各个源数据平台中的原始稿件数据的使用情况进行统计和监控，即统计并监控各个站点、频道、栏目等来源内容的使用情况，对于使用频次比较高的来源内容，增大对这部分内容的采集频率，采集的数据包括原始稿件数据和互动数据，互动数据为稿件对应的点赞、评论、收藏、转发等。本公开实施例通过对源数据平台中的原始稿件数据进行监控，根据对原始稿件数据使用情况的统计结果，来改变原始稿件数据的采集频次，从而提高内容的实时性和准确性。

在一些实施例中，对原始稿件数据执行预处理操作，得到预处理后的原始稿件数据对应的文本内容数据，包括：对原始稿件数据进行数据清洗，并去除原始稿件数据的标签和页面干扰信息，在利用数据传输通道接入原始稿件数据时，对原始稿件数据进行有效性检验、数据质量校验和过滤排重标记，以得到预处理后的文本内容数据。

具体地，对于采集到的原始稿件数据，首先需要对其进行内容处理，在实际应用中，原始稿件数据的内容预处理过程包括但不限于以下内容：首先对原始稿件数据进行数据清洗，处理原始稿件数据中的字段残缺、错误和重复等问题，其次，对清洗后的原始稿件数据进行去标签、去除页面干扰信息(如广告等)获取稿件的内容数据，最后，还可以对数据进行有效性检验、数据质量校验和过滤排重标记等预处理操作，从而确保数据质量。需要说明的是，上述预处理过程可以依次全部执行，也可以按照需求选择执行。

进一步地，对于预处理后的文本内容数据，可以进行标准化处理，将不同格式的数据按照统一数据格式规范转换后接入到主题内容智能聚合系统中，其中，统一数据格式包括实时数据和离线数据的标准化定义。

在一些实施例中，利用预设的知识加工方式对文本内容数据进行加工，得到加工后的稿件数据，包括：利用预设的知识加工方式中的一种或多种方式对文本内容数据进行加工，得到加工后的稿件数据，其中，预设的文本知识加工方式包括以下知识加工方式中的一种或多种的组合：自动分词、关键词提取、摘要提取、实体识别、事件抽取、关系提取、文本分类、词性标注、以及地域识别。

具体地，在对原始稿件数据进行预处理之后，利用预先配置好的知识加工方式对文本内容数据做进一步的分析，在实际应用中，本公开实施例预先配置好的知识加工方式包括上述方式中的一种或几种的组合，应当理解的是，上述知识加工方式不必全部执行，可以根据需求选择其中的一种或多种方式来执行。下面结合具体实施例，对上述知识加工方式的具体内容进行详细说明，具体可以包括以下内容：

自动分词是指利用预设的自然语言处理模型对文本内容数据进行处理，得到分词结构，比如基于融合了词典、CRF和HMM分词模型的文本自动分词算法，实现对文本内容数据的自动分词操作。CRF(Conditional Random Fields，条件随机场模型)以及HMM(HiddenMarkov Model，隐含马尔科夫模型)是自然语言处理中的常规模型，可用于解决文本序列标注问题，如分词、实体识别、词性标注等。

关键词提取是指对文本内容数据中的关键词进行提取，比如利用文档中词语的统计信息、词性和位置信息进行权重的综合计算，将文本中语义最相关的若干核心词语抽取出来。在实际应用中，通过对目标文本进行分词处理，得到词语集合，通过生成词语的词向量来生成文本向量，根据词向量、文本向量，从词语集合中确定出关键词，从而达到有效提取文本中的关键词的目的。

实体识别及事件抽取是指从半结构化、结构化的文本中识别出与目标相关的实体元素与事件元素，利用识别出的实体元素与事件元素，构建实体元素与事件元素之间的知识图谱。

文本分类是指基于词向量计算工具Word2vec或者预训练的语言表征模型BERT，实现基于文本内容语义的自动抽取与分类功能，以BERT算法为例，将文本先采用N-Gram切词算法进行处理得到新词组合，再基于BERT浅层网络提取新词组句法与词法信息，并计算新词组合的左右信息熵、互信息、tf-idf等离散特征，最后利用DNN二分类模型，使用上述特征对新词进行识别，从而实现准确识别词语的目的，可以对文本内容进行准确的语义识别。基于BERT算法的识别结果，可以实现对文本的主题内容进行打标，实现主题内容的划分。

地域识别是指根据文本中与地域相关的词语确定文本的内容地域，以及根据文本的来源确定媒体来源地域，即本公开实施例的地域识别包含两个不同维度的内容，即文本的内容地域和媒体来源地域。基于地域识别结果可以对文本内容数据做进一步的区分和聚类。

进一步地，在对文本的内容地域进行识别时，首先利用文本识别算法提取地域名称，根据地域名称在文本中的所属位置(比如标题、摘要、正文等)以及地域名称与文章内容的语义关系特征，利用预置的分类模型，比如GBDT或者支持向量机模型SVM等，计算出文章所属的内容地域。

在一些实施例中，该方法还包括：关键词提取包括基于对文本内容数据中词语的统计信息、词性和位置信息进行权重计算，根据权重计算结果，从文本内容数据中提取出若干个核心词语；实体识别及事件抽取包括从半结构化或结构化的文本内容数据中识别出与目标相关的实体元素和事件元素，并利用实体元素和事件元素生成知识图谱；文本分类包括利用预训练的语言表征模型对文本内容数据进行主题分类，并根据分类结果对文本内容数据按照主题进行打标，并生成文本内容数据对应的主题内容；地域识别包括对文本内容数据对应的地域进行识别，以便根据识别结果为文本内容数据设置相应的地域标签，其中地域识别包括内容地域识别和媒体来源地域识别。

具体地，除上述知识加工方式以外，本公开实施例还可以对文本内容数据执行以下智能化处理，例如进行稿件聚类，提供基于新闻热点、语义、新闻事件的文本聚类能力，通过热点追踪、事件识别、语义聚类等算法，自动挖掘热点新闻、系列事件新闻等，可快速的实现对突发大事件的新闻主题生成与追踪报道。另外，还可以提供热词分析功能，在文本预处理的基础上，提供候选热词评估、面向热点表征的热词甄选等算法，利用多机数据交互技术智能分析出可以表征文本内容的短语或短句。

在一些实施例中，基于预定的主题定制页面，获取用户输入的与主题相关的定制条件，利用定制条件对稿件数据进行筛选，包括：响应于用户针对主题定制页面中的输入框的内容输入操作，确定用户所输入的定制条件，利用定制条件对稿件数据进行筛选，其中，定制条件包括以下条件中的一种或多种：关键词、稿件来源、主题分类、地域标签、发稿时间、媒体类型、多媒体属性、以及内容属性。

具体地，在完成原始稿件数据的预处理以及知识加工处理之后，可以利用主题内容智能聚合系统中的应用层进行主题内容的定制与推送。本公开实施例提供主题定制页面，通过该主题定制页面中各个定制条件对应的输入框，用户可以自定义不同的定制条件，根据用户录入的相关定制条件，比如关键词、稿件来源、媒体类型、主题分类标签、多媒体属性、发稿时间等，系统自动启动数据汇聚工作，从主题内容数据库中筛选出符合定制条件的稿件数据。在实际应用中，用户在设置定制条件时，定制条件中的关键词可以采用与、或、非等逻辑组合方式进行筛选。

进一步地，定制条件的关键词中包括三种不同的条件，即“包含全部关键词”、“包含任意关键词”以及“不包含的关键词”，“包含全部关键词”表示稿件中必须包含的关键词，“包含任意关键词”表示稿件中可以存在的关键词，当存在这类关键词时，将提高稿件的权重，“不包含的关键词”表示稿件中不能存在的关键词。

定制条件的主题分类是指稿件主题对应的类别，比如“人文”、“社会”、“游戏”、“科技”等；地域标签是指稿件内容或者稿件主题的所属地区；发稿时间也称为发布时间，是指稿件对应的发布时间，可以选择一定时间范围内的稿件；多媒体属性是指“包含图像”或者“包含视频”的稿件；内容属性是指稿件是否为原创，是否为头版，以及是否为10W以上点击量的文章。本公开实施例通过为用户提供专题定制页面(即主题定制页面)，用户可以在页面上通过选择来源、关键词、主题分类、地域标签等组合信息对稿件进行筛选，实现稿件的个性化分类。

在一些实施例中，基于预定的稿件推送页面，获取用户针对主题配置的推送条件，按照推送条件将待推送稿件推送至系统平台，包括：响应于用户针对稿件推送页面中的选择项的选择操作，确定用户所选择的推送条件，基于推送条件将待推送稿件推送至系统平台，其中，推送条件包括以下条件中的一种或多种：对接系统、推送时间、推送频率、推送数量、排序方式、历史数据、以及新增数据。

具体地，在利用专题定制页面中的组合条件对稿件进行筛选之后，可以对筛选后的稿件进一步设置推送条件，以便当满足推送条件的要求时，自动向指定系统或平台推送相关稿件。通过本公开实施例提供的稿件推送页面，用户可以自定义推送条件的组合，其中，推送条件中的对接系统是指稿件推送的系统或者平台，比如报社网站CMS、全媒体采编平台等。

进一步地，推送时间是指稿件推送到对接系统的时间，推送时间可以设置为时间段；推送频率可以是每天推送或者每周推送等，推送数量是指在设置的推送频率内推送的稿件数量；排序方式包括按时间排序以及按相关度排序，历史数据是指在首次推送时，将利用定制条件筛选后的稿件数据进行全量推送，新增数据是指系统在推送周期内利用定制条件所筛选到的新的稿件数据。

需要强调的是，本公开实施例在对稿件进行推送时，实际包含两个不同维度的稿件数据，即历史数据(历史稿件)和新增数据(新增稿件)。在利用定制条件对稿件进行筛选完成之后，基于推送条件对稿件进行推送时，此时定制条件中的稿件发布时间只将影响第一次推送时的稿件时间跨度，当后面进行稿件的二次推送时，后面稿件推送的发布时间为上次推送时间到这次推送时间段内满足筛选条件的新增稿件。

进一步地，通过主题内容推送，用户可以定制推送平台、推送频率、推送数量等内容，当系统判断满足用户设置的全部推送条件时，将稿件数据定时、定量的推送到其他平台数据中心供选稿使用。

在一个具体实施例中，以青少年科普作为主题内容为例，围绕青少年科普内容需求，通过自动分类、自动聚类、事件识别、热点识别等能力挖掘科普主题内容。在此基础上，通过使用关键词、分类、热点、事件等组合条件汇聚形成涵盖定制内容的青少年科普主题内容库。再通过主题内容加工、推送等技术手段将主题内容推送到中国科普网相关栏目与频道中，从而实现自动化主题内容定制服务。

下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

图3是本公开实施例提供的主题内容智能聚合装置的结构示意图。如图3所示，该主题内容智能聚合装置包括：

采集模块301，被配置为对源数据平台中的原始稿件数据的使用频次进行监控并对原始稿件数据进行采集，获得待处理的原始稿件数据；

加工模块302，被配置为对原始稿件数据执行预处理操作，得到预处理后的原始稿件数据对应的文本内容数据，并利用预设的知识加工方式对文本内容数据进行加工，得到加工后的稿件数据；

筛选模块303，被配置为基于预定的主题定制页面，获取用户输入的与主题相关的定制条件，利用定制条件对稿件数据进行筛选，得到筛选后的待推送稿件；

推送模块304，被配置为基于预定的稿件推送页面，获取用户针对主题配置的推送条件，按照推送条件将待推送稿件推送至系统平台，以使系统平台基于推送的稿件进行主题内容的聚合。

在一些实施例中，图3的采集模块301构建与源数据平台中的原始稿件数据之间的数据传输通道，基于数据传输通道，对源数据平台中的原始稿件数据的使用频次进行统计，对统计结果中使用频次大于阈值的原始稿件数据及其对应的互动数据的采集频率进行增加，以获得使用频次更高的源数据平台中的原始稿件数据；其中，原始稿件数据为多源异构数据，在采集原始稿件数据之后，将原始稿件数据按照统一数据存储模型存储到主题内容数据库中。

在一些实施例中，图3的加工模块302对原始稿件数据进行数据清洗，并去除原始稿件数据的标签和页面干扰信息，在利用数据传输通道接入原始稿件数据时，对原始稿件数据进行有效性检验、数据质量校验和过滤排重标记，以得到预处理后的文本内容数据。

在一些实施例中，图3的加工模块302利用预设的知识加工方式中的一种或多种方式对文本内容数据进行加工，得到加工后的稿件数据，其中，预设的文本知识加工方式包括以下知识加工方式中的一种或多种的组合：自动分词、关键词提取、摘要提取、实体识别、事件抽取、关系提取、文本分类、词性标注、以及地域识别。

在一些实施例中，关键词提取包括基于对文本内容数据中词语的统计信息、词性和位置信息进行权重计算，根据权重计算结果，从文本内容数据中提取出若干个核心词语；实体识别及事件抽取包括从半结构化或结构化的文本内容数据中识别出与目标相关的实体元素和事件元素，并利用实体元素和事件元素生成知识图谱；文本分类包括利用预训练的语言表征模型对文本内容数据进行主题分类，并根据分类结果对文本内容数据按照主题进行打标，并生成文本内容数据对应的主题内容；地域识别包括对文本内容数据对应的地域进行识别，以便根据识别结果为文本内容数据设置相应的地域标签，其中地域识别包括内容地域识别和媒体来源地域识别。

在一些实施例中，图3的筛选模块303响应于用户针对主题定制页面中的输入框的内容输入操作，确定用户所输入的定制条件，利用定制条件对稿件数据进行筛选，其中，定制条件包括以下条件中的一种或多种：关键词、稿件来源、主题分类、地域标签、发稿时间、媒体类型、多媒体属性、以及内容属性。

在一些实施例中，图3的推送模块304响应于用户针对稿件推送页面中的选择项的选择操作，确定用户所选择的推送条件，基于推送条件将待推送稿件推送至系统平台，其中，推送条件包括以下条件中的一种或多种：对接系统、推送时间、推送频率、推送数量、排序方式、历史数据、以及新增数据。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本公开实施例的实施过程构成任何限定。

图4是本公开实施例提供的电子设备4的结构示意图。如图4所示，该实施例的电子设备4包括：处理器401、存储器402以及存储在该存储器402中并且可以在处理器401上运行的计算机程序403。处理器401执行计算机程序403时实现上述各个方法实施例中的步骤。或者，处理器401执行计算机程序403时实现上述各装置实施例中各模块/单元的功能。

示例性地，计算机程序403可以被分割成一个或多个模块/单元，一个或多个模块/单元被存储在存储器402中，并由处理器401执行，以完成本公开。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序403在电子设备4中的执行过程。

电子设备4可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备4可以包括但不仅限于处理器401和存储器402。本领域技术人员可以理解，图4仅仅是电子设备4的示例，并不构成对电子设备4的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如，电子设备还可以包括输入输出设备、网络接入设备、总线等。

处理器401可以是中央处理单元(Central Processing Unit，CPU)，也可以是其它通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器402可以是电子设备4的内部存储单元，例如，电子设备4的硬盘或内存。存储器402也可以是电子设备4的外部存储设备，例如，电子设备4上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，存储器402还可以既包括电子设备4的内部存储单元也包括外部存储设备。存储器402用于存储计算机程序以及电子设备所需的其它程序和数据。存储器402还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。

在本公开所提供的实施例中，应该理解到，所揭露的装置/计算机设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/计算机设备实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本公开实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可以存储在计算机可读存储介质中，该计算机程序在被处理器执行时，可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如，在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上实施例仅用以说明本公开的技术方案，而非对其限制；尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围，均应包含在本公开的保护范围之内。

Claims

1.一种主题内容智能聚合方法，其特征在于，包括：

对源数据平台中的原始稿件数据的使用频次进行监控并对所述原始稿件数据进行采集，获得待处理的原始稿件数据；

对所述原始稿件数据执行预处理操作，得到预处理后的原始稿件数据对应的文本内容数据，并利用预设的知识加工方式对所述文本内容数据进行加工，得到加工后的稿件数据；

基于预定的主题定制页面，获取用户输入的与主题相关的定制条件，利用所述定制条件对所述稿件数据进行筛选，得到筛选后的待推送稿件；

基于预定的稿件推送页面，获取用户针对所述主题配置的推送条件，按照所述推送条件将所述待推送稿件推送至系统平台，以使所述系统平台基于推送的稿件进行主题内容的聚合。

2.根据权利要求1所述的方法，其特征在于，所述对源数据平台中的原始稿件数据的使用频次进行监控并对所述原始稿件数据进行采集，包括：

构建与所述源数据平台中的所述原始稿件数据之间的数据传输通道，基于所述数据传输通道，对所述源数据平台中的所述原始稿件数据的使用频次进行统计，对统计结果中使用频次大于阈值的原始稿件数据及其对应的互动数据的采集频率进行增加，以获得使用频次更高的所述源数据平台中的原始稿件数据；

其中，所述原始稿件数据为多源异构数据，在采集所述原始稿件数据之后，将所述原始稿件数据按照统一数据存储模型存储到主题内容数据库中。

3.根据权利要求1所述的方法，其特征在于，所述对所述原始稿件数据执行预处理操作，得到预处理后的原始稿件数据对应的文本内容数据，包括：

对所述原始稿件数据进行数据清洗，并去除所述原始稿件数据的标签和页面干扰信息，在利用数据传输通道接入所述原始稿件数据时，对所述原始稿件数据进行有效性检验、数据质量校验和过滤排重标记，以得到预处理后的文本内容数据。

4.根据权利要求1所述的方法，其特征在于，所述利用预设的知识加工方式对所述文本内容数据进行加工，得到加工后的稿件数据，包括：

利用所述预设的知识加工方式中的一种或多种方式对所述文本内容数据进行加工，得到加工后的稿件数据，其中，所述预设的文本知识加工方式包括以下知识加工方式中的一种或多种的组合：自动分词、关键词提取、摘要提取、实体识别、事件抽取、关系提取、文本分类、词性标注、以及地域识别。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

所述关键词提取包括基于对所述文本内容数据中词语的统计信息、词性和位置信息进行权重计算，根据权重计算结果，从所述文本内容数据中提取出若干个核心词语；

所述实体识别及所述事件抽取包括从半结构化或结构化的所述文本内容数据中识别出与目标相关的实体元素和事件元素，并利用所述实体元素和事件元素生成知识图谱；

所述文本分类包括利用预训练的语言表征模型对所述文本内容数据进行主题分类，并根据分类结果对所述文本内容数据按照主题进行打标，并生成所述文本内容数据对应的主题内容；

所述地域识别包括对所述文本内容数据对应的地域进行识别，以便根据识别结果为所述文本内容数据设置相应的地域标签，其中所述地域识别包括内容地域识别和媒体来源地域识别。

6.根据权利要求1所述的方法，其特征在于，所述基于预定的主题定制页面，获取用户输入的与主题相关的定制条件，利用所述定制条件对所述稿件数据进行筛选，包括：

响应于用户针对所述主题定制页面中的输入框的内容输入操作，确定用户所输入的定制条件，利用所述定制条件对所述稿件数据进行筛选，其中，所述定制条件包括以下条件中的一种或多种：关键词、稿件来源、主题分类、地域标签、发稿时间、媒体类型、多媒体属性、以及内容属性。

7.根据权利要求1所述的方法，其特征在于，所述基于预定的稿件推送页面，获取用户针对所述主题配置的推送条件，按照所述推送条件将所述待推送稿件推送至系统平台，包括：

响应于用户针对所述稿件推送页面中的选择项的选择操作，确定用户所选择的推送条件，基于所述推送条件将所述待推送稿件推送至系统平台，其中，所述推送条件包括以下条件中的一种或多种：对接系统、推送时间、推送频率、推送数量、排序方式、历史数据、以及新增数据。

8.一种主题内容智能聚合装置，其特征在于，包括：

采集模块，被配置为对源数据平台中的原始稿件数据的使用频次进行监控并对所述原始稿件数据进行采集，获得待处理的原始稿件数据；

加工模块，被配置为对所述原始稿件数据执行预处理操作，得到预处理后的原始稿件数据对应的文本内容数据，并利用预设的知识加工方式对所述文本内容数据进行加工，得到加工后的稿件数据；

筛选模块，被配置为基于预定的主题定制页面，获取用户输入的与主题相关的定制条件，利用所述定制条件对所述稿件数据进行筛选，得到筛选后的待推送稿件；

推送模块，被配置为基于预定的稿件推送页面，获取用户针对所述主题配置的推送条件，按照所述推送条件将所述待推送稿件推送至系统平台，以使所述系统平台基于推送的稿件进行主题内容的聚合。

9.一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法。