CN116108020A

CN116108020A - 包含复杂信源的媒体资讯库的数据解析和存储方法及装置

Info

Publication number: CN116108020A
Application number: CN202310369111.9A
Authority: CN
Inventors: 邵德奇; 李腾飞; 赵光伟; 关培培; 冯超; 段治平; 王理瑞; 陈琳; 贾少帅
Original assignee: Science And Technology Daily
Current assignee: Science And Technology Daily
Priority date: 2023-04-10
Filing date: 2023-04-10
Publication date: 2023-05-12
Anticipated expiration: 2043-04-10
Also published as: CN116108020B

Abstract

本公开涉及计算机技术领域，提供了一种包含复杂信源的媒体资讯库的数据解析和存储方法及装置。该方法包括：根据结构化全维度的解析对象请求全媒体资讯库，得到业务数据；将业务数据的概要串行存入业务数据库的业务概要表；查询业务数据库中业务概要表中的第一时间段的业务概要对应的业务数据的正文内容，得到查询结果；在响应于查询结果表征正文内容为空，根据业务概要在全媒体资讯库中查询业务概要对应的业务数据内容后，根据业务数据内容对应的第一业务实现类对业务数据内容进行加工，再并行存入到业务数据库中业务概要表对应的正文内容，其中，第一业务实现类根据组合枚举类的业务处理标记在预先建立的策略库中查询得到。

Description

包含复杂信源的媒体资讯库的数据解析和存储方法及装置

技术领域

本公开涉及计算机技术领域，尤其涉及一种包含复杂信源的媒体资讯库的数据解析和存储方法及装置。

背景技术

信源是产生各类信息的实体，即信号的产生者。在计算机网络中，发布信息的机构或者个人都可以称作信源。信源的发布渠道众多，常见的发布渠道包括：电子报、网站、微信、微博、app（应用程序）、抖音、头条等。信源传播的载体众多，例如，融合的广电网络、电信网络以及互联网络等。

全媒体资讯库中存储的业务数据由多载体全媒体信源产生，数据来源各不相同，数据结构各异，且数据量较大，从而导致业务数据的解析和存储过程较为繁琐。

发明内容

有鉴于此，本公开实施例提供了一种包含复杂信源的媒体资讯库的数据解析和存储方法、装置、电子设备及计算机可读存储介质，以解决现有技术中全媒体多信源场景下业务数据解析和存储过程较为繁琐的问题。

本公开实施例的第一方面，提供了一种包含复杂信源的媒体资讯库的数据解析和存储方法，该方法包括：根据结构化全维度的解析对象请求全媒体资讯库，得到业务数据，其中，解析对象通过阶梯方式遍历组合枚举类的维度构建，组合枚举类的维度包括常规维度和高阶维度，常规维度的元素采用常规key-value键值对赋值或JSON聚合处理，高阶维度的元素包括根据高阶维度枚举类构建的高阶维度映射关系集合；将业务数据的概要串行存入业务数据库的业务概要表；查询业务数据库中业务概要表中的第一时间段的业务概要对应的业务数据的正文内容，得到查询结果；在响应于查询结果表征正文内容为空，根据业务概要在全媒体资讯库中查询业务概要对应的业务数据内容后，根据业务数据内容对应的第一业务实现类对业务数据内容进行加工，再并行存入到业务数据库中业务概要表对应的正文内容，其中，第一业务实现类根据组合枚举类的业务处理标记在预先建立的策略库中查询得到，策略库中保存有针对不同业务处理标记建立的业务实现类。

本公开实施例的第二方面，提供了一种包含复杂信源的媒体资讯库的数据解析和存储装置，该装置包括：业务数据查询模块，用于根据结构化全维度的解析对象请求全媒体资讯库，得到业务数据，其中，解析对象通过阶梯方式遍历组合枚举类的维度构建，组合枚举类的维度包括常规维度和高阶维度，常规维度的元素采用常规key-value赋值或JSON聚合处理，高阶维度的元素包括根据高阶维度枚举类构建的高阶维度映射关系集合；概要存储模块，用于将业务数据的概要串行存入业务数据库的业务概要表；正文查询模块，用于查询业务数据库中业务概要表中的第一时间段的业务概要对应的业务数据的正文内容，得到查询结果；正文存储模块，用于在响应于查询结果表征正文内容为空，根据业务概要在全媒体资讯库中查询业务概要对应的业务数据内容后，根据业务数据内容对应的第一业务实现类对业务数据内容进行加工，再并行存入到业务数据库中业务概要表对应的正文内容，其中，第一业务实现类根据组合枚举类的业务处理标记在预先建立的策略库中查询得到，策略库中保存有针对不同业务处理标记建立的业务实现类。

本公开实施例的第三方面，提供了一种电子设备，包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序，该处理器执行计算机程序时实现上述方法的步骤。

本公开实施例的第四方面，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

本公开实施例与现有技术相比存在的有益效果是：采用组合枚举类查询语句查询全媒体资讯库的数据接口获取业务数据，并先串行将业务数据的概要存储到业务数据库，再根据第一业务实现类对业务数据内容进行加工然后并行存储业务数据的正文内容，从而可以提高全媒体资讯库中的业务数据的解析和存储的处理效率。

附图说明

为了更清楚地说明本公开实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本公开实施例提供的一种包含复杂信源的媒体资讯库的数据解析和存储方法的流程示意图；

图2是本公开实施例提供的一种组合枚举类的维度的示意图；

图3是本公开实施例提供的一种建立业务实现的简要类图的示意图；

图4是本公开实施例提供的另一种包含复杂信源的媒体资讯库的数据解析和存储方法的流程示意图；

图5是本公开实施例提供的一种包含复杂信源的媒体资讯库的数据解析和存储装置的结构示意图；

图6是本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本公开实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本公开。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本公开的描述。

以下为本公开实施例中的技术术语的解释：

全媒体，指采用文字、声音、影像、动画、网页等多种媒体表现手段，利用广播、电视、音像、电影、出版、报纸、杂志、网站等不同媒介形态，通过融合的广电网络、电信网络以及互联网络进行传播，最终实现用户以电视、电脑、手机等多种终端均可完成信息的融合接收，实现任何人、任何时间、任何地点、以任何终端获得任何想要的信息。

资讯库，指通过生产和汇聚国内外多信源有价值资讯，而形成的高价值资讯库。资讯库具有信源众多、内容广泛、数据海量等特点。资讯库可以作为数据二次加工的基础库。

下面将结合附图详细说明根据本公开实施例的包含复杂信源的媒体资讯库的数据解析和存储方法及装置。

图1是本公开实施例提供的一种包含复杂信源的媒体资讯库的数据解析和存储方法的流程示意图。本公开实施例提供的方法可以由任意具备计算机处理能力的电子设备执行，例如终端或服务器。如图1所示，该包含复杂信源的媒体资讯库的数据解析和存储方法包括：

步骤S101，根据结构化全维度的解析对象请求全媒体资讯库，得到业务数据，其中，解析对象通过阶梯方式遍历组合枚举类的维度构建，组合枚举类的维度包括常规维度和高阶维度，常规维度的元素采用常规key-value键值对赋值或JSON（JavaScript ObjectNotation，JS对象简谱）聚合处理，高阶维度的元素包括根据高阶维度枚举类构建的高阶维度映射关系集合。

具体地，枚举类数据是计算机编程语言中的一种数据类型。这种数据类型只包含自定义的特定数据，是一组有共同特性的数据的集合。在实际问题中，有些变量的取值被限定在一个有限的范围内，当一个变量有几个固定的可能取值时，可以将这个变量定义为枚举类型。在本公开实施例中，可以根据多信源产生的业务数据的特点构建多级的组合枚举类数据，其可以设计第一级为多信源枚举类数据，并进一步根据发布渠道的不同构建多信源枚举类数据下一级的发布渠道枚举类数据。通过阶梯方式遍历组合枚举类的维度构建的解析对象，可以理解为一种组合枚举类查询语句。通过该组合枚举类查询语句，可以查询全媒体资讯库的数据接口，得到上述业务数据。

根据多信源枚举类数据和发布渠道枚举类数据构建组合枚举类查询语句，可以利用“多载体+全媒体”两个动态参数配置文件配置不同全媒体多载体解析请求，该解析请求用于请求对全媒体资讯库特定信源数据的获取，可以提高数据解析效率和准确率。其中，多载体对应多个发布渠道，全媒体对应多信源。发布渠道可以为电子报、网站、微信、微博、小程序、抖音、头条，每个渠道都有对应的独特的查询标记，从而可以根据发布渠道的不同构建发布渠道枚举类数据。

步骤S102，将业务数据的概要串行存入业务数据库的业务概要表。

具体地，考虑到业务数据的文档的正文占用空间较大，存储耗时，此时可以不处理，只将业务数据中的频道栏目、发布时间、文章真实源、作者等概要信息保存。直接将业务数据的正文存入业务数据库，会导致处理效率较低。先采用串行方式写入小字段的概要信息，可以保证存入的业务数据有完整的外壳。

步骤S103，查询业务数据库中业务概要表中的第一时间段的业务概要对应的业务数据的正文内容，得到查询结果。

具体地，查询过程即为查询业务概要对应的业务数据的正文内容是否为空。若正文内容为空，则对正文内容进行填充；若正文内容不为空，则不对正文内容进行填充。

步骤S104，在响应于查询结果表征正文内容为空，根据业务概要在全媒体资讯库中查询业务概要对应的业务数据内容后，根据业务数据内容对应的第一业务实现类对业务数据内容进行加工，再并行存入到业务数据库中业务概要表对应的正文内容，其中，第一业务实现类根据组合枚举类的业务处理标记在预先建立的策略库中查询得到，策略库中保存有针对不同业务处理标记建立的业务实现类。

具体地，在步骤S102之后，业务数据库中的正文内容（content_full）字段没有填充，为空值。在步骤S104中，采用并行更新大字段的方式将业务数据内容存入该正文内容字段，可以提高处理效率。即使并行存储过程中出现异常，但是因为有完整的外壳，通过不断的重试可以避免错误，保证存储过程的准确性。

本公开实施例的技术方案，通过构建多信源枚举类数据和枚举类查询语句，可以对不同信源和不同发布渠道的业务数据进行针对解析和存储，同时采用先存储业务数据的概要，再根据概要存储业务数据内容，提高了数据存储的效率。本公开实施例的技术方案可以实现大量全媒体多载体信源的海量数据的快速解析和存储，可以增强数据解析和存储系统的稳定性和扩展性，从而提高了解析和存储的处理效率，节省了人力成本。

在本公开实施例中，如图2所示，组合枚举类的维度可以包括常规维度和高阶维度。常规维度的元素采用常规key-value键值对赋值或JSON聚合处理，高阶维度的元素包括根据高阶维度枚举类构建的高阶维度映射关系集合。

具体地，如图2所示的根据组合枚举类构建解析对象的过程中，构建了一个有20个维度的结构化全维度的信源解析对象A。其中，在维度1至维度8中，可以根据分析海量信源得到的信源标识符、单位名称和发布渠道等维度构建信源枚举类。

进一步地，对信源解析对象A的维度进行阶梯解析，可以得到以下数据：维度1为常规维度，将其值直接绑定至信源解析对象A中。维度2为高阶维度，其值由维度9至维度12组成的高阶维度枚举类来确定。维度9至维度11为常规维度，将其值直接绑定至信源解析对象A中。假定维度12又为高阶维度，则再根据维度13至维度16组成的高阶维度枚举类来确定。最终将其对应的维度13至维度15的对应值绑定至信源解析对象A。维度3为高阶维度，采用维度2的方式将维度17至维度20的对应值绑定至信源解析对象A。维度4为常规维度，采用维度1相同的处理方式处理。维度5至维度8都为常规维度，它们的常规元素可构成一个分组进行聚合处理，采用JSON方式表达，将其维度的对应值都绑定至信源解析对象A中。至此，信源解析对象A的信源相关的20个维度都已经填充完成。根据信源解析对象A请求全媒体资讯库，即可以获得对应的结果集即业务数据。

在本公开实施例中，信源解析对象用于请求对全媒体资讯库特定信源数据的获取，并指定该信源的业务处理方式，根据该信源的业务处理方式可以将获得的信源数据进行相应的逻辑处理并存储入库。该业务处理方式可以根据业务处理标记确定。本公开实施例的技术方案能够实现全媒体信源的快速解析存储，增强了可扩展性，从而提高了处理效率，节省了人力成本。

全媒体资讯库中收集了众多媒体信源，并且在不断地动态新增。从全媒体资讯库中汇总分析信源的数据特性，兼顾其可扩展性，可以构建其对应的发布渠道枚举类，该发布渠道枚举类包含如下六个属性：code（代码）、name（名称）、queryJson（构建动态组合的参数集）、serviceName（服务名）、keyInRedis（时间标记主键）、desc（备注）。

例如，针对其中“电子报”发布渠道类型的定义如下：

枚举项=ELEC_PAPER，

code=10（即发布渠道代码），

name=elec_paper，

queryJson="{'navId':'szb_007','infoType':'5','mediaAreaCodes':'001'}"，serviceName="dimInfoTypeElecPaperCibstGaojianServiceImpl"，keyInRedis="dim_elec_paper_start_date"，

desc="电子报"。

其它的发布渠道类型也可以参照如上方式定义。

在本公开实施例中，在构建发布渠道枚举类之外，还需要构建策略实现类集合。定义一个发布渠道维度的接口，比如：DimGaojianBaseService，其中包含必需的方法：queryCIBSTAndInsert()，用于查询全媒体资讯库中数据并写入用于对发布渠道维度解析和存储搭建的业务平台。针对不同的发布渠道，编写不同的实现类，比如针对“电子报”的实现类，命名为"dimInfoTypeElecPaperCibstGaojianServiceImpl"，则在策略实现类集合中构建如下一条记录：

key="dimInfoTypeElecPaperCibstGaojianServiceImpl"，value=电子报实现类。通过手工构建写入集合亦可，但为充分发挥Spring框架的优势，可以采用Map对象通过依赖注入直接将多个实现类自动收集，格式如下：

Map<String,DimGaojianBaseService>dimGaojianBaseServiceMap；

解析枚举类中的任一发布渠道，提取其中的queryJson动态参数集，通过JSON对象转换为查询全媒体资讯库的查询对象，然后根据此查询对象调用全媒体资讯库查询应用程序接口，获得针对此发布渠道的结果集。

获得针对此发布渠道的结果集后，可以依据枚举类中serviceName字段，从上述技术方案构建的策略实现类集合中查找对应的实现类，将获取到的结果集相关信息以及发布渠道代码等存储至媒体信源结果表中。

本公开实施例的技术方案可以处理众多发布渠道，如图3所示，为展示方便，GaojianProcessEnum枚举类只展示“电子报|网站|APP|视频”四个发布渠道。此外，可以实现DimGaojianBaseService接口，添加针对其他发布渠道的通用处理方法。

如图3所示的类图主要涉及发布渠道相关维度的策略工厂类、处理接口和多个不同的实现类，需要构建维度表对象：DimInfoTypeCibstGaojian，然后构建与之对应的Mapper（映射器）接口和通用实现类，方便操作业务平台的相关维度表。

在本公开实施例中，可以为每一个具体的发布渠道构建其实现类。如图3所示，电子报的实现类为DimInfoTypeElePaperCibstGaojianServiceImpl。每个发布渠道的实现类都与同表的通用实现类关联。其它的网站（Website）、APP和视频（Svideo）等发布渠道在该类图中都有体现。

在本公开实施例中，如图3所示，可以通过IBSTGonggaoStrategyFactory类构建策略工厂，将实现DimGaojianBaseService接口的所有实现类都放至策略工厂中的dimGaojianBaseServiceMap集合对象中。通过发布渠道对应代码也可获得相应的实现类。

在步骤S101中构建枚举类时，在构建多信源枚举类的基础上，因为每个发布渠道都有自己独特的查询标记，为避免冗余，可以从多信源枚举类中抽取出来构建发布渠道枚举类。因此，本公开实施例中，可以构建用于解析的两个枚举类：MultiSourceEnum（多信源枚举类）和DistributionChannelEnum（发布渠道枚举类）。其中，多信源枚举类可以记录如下属性：code（信源代码）、siteId（机构Id）、distributionId（渠道Id）、queryJson（查询JSON串）、desc（备注）。发布渠道枚举类可以记录如下属性：id（渠道唯一标记）、initQueryJson（初始化查询JSON串）。

遍历多信源枚举类数据，通过上述两个枚举类的initQueryJson和queryJson构建查询语句。由于读取的数据后续要执行insert（签入）入库操作，所以此时采用串行处理。

在步骤S101中，可以根据解析请求，定时调用全媒体资讯库的数据接口，以进行第二时间段的业务数据查询。

具体地，可以采用T-1方式每天定时调用全媒体资讯库接口查询数据。T代表today，即当天，T-1代表提取任务执行日期前一天的数据。比如，今天执行提取任务，T=20XX0209，则可以调用全媒体资讯库接口提取T-1=20XX0208的数据。

在步骤S102之前，可以将业务数据保存到数据集合中，并将业务数据按照业务数据的文档标识符排序；将排序后的业务数据根据业务数据的网页地址或者正文内容生成指纹，以进行数据过滤。

具体地，可以将分页查询的结果集汇总保存至数据集合中，根据数据的唯一标记即文档标识符（docId）排序，再根据去重规则过滤。

在本公开实施例中，进行数据过滤时，一种方法是根据业务数据的网页地址采用srcUrlMd5算法生成指纹进行对比，srcUrlMd5算法是一种搜索对象网页地址哈希算法。另一种方法是根据业务数据的正文内容采用simHash算法生成指纹进行对比。SimHash算法是一种最常用的用于进行网页去重的哈希（hash）方法，具有较高的速度。

在将业务数据过滤后，可以将过滤后的数据集合存入业务数据库。

在本公开实施例中，业务数据库可以采用mySql数据库，在将数据存储到业务数据库之前，可以先保存到缓冲数据库。其中，缓存数据库可以采用Redis（Remote dictionaryserver，远程字典服务）数据库。Redis是一种基于内存的高性能key-value（键-值）数据库。

根据缓冲数据库和业务数据库中是否存在文档标识符（docId）可以判断该文档标识符对应的业务数据是否存在。

在步骤S102中，可以响应于缓存数据库的签入开关打开，且缓存数据库中不存在当前文档标识符，则将当前文档标识符存入缓存数据库；响应于业务数据库的签入开关打开，且业务数据库中不存在当前文档标识符，则将当前文档标识符对应的业务数据的概要存入业务数据库的业务概要表。

具体地，缓存数据库的签入开关可以为验证开关checkInRedisSwitch。若验证开关checkInRedisSwitch为false，则不执行Redis数据库检查，即不检查Redis数据库中是否存在当前文档标识符。若验证开关checkInRedisSwitch为true，同时在Redis数据库中存在当前文档标识符，则不插入当前文档标识符。若验证开关checkInRedisSwitch为true，同时在Redis数据库中不存在当前文档标识符，则插入当前文档标识符。

业务数据库的签入开关可以为验证开关checkInDbSwitch。若验证开关checkInDbSwitch为false，则不执行业务数据库检查，即不检查业务数据库中是否存在当前文档标识符。若验证开关checkInDbSwitch为true，同时在mySql等业务数据库中存在当前文档标识符，则不插入当前文档标识符对应的业务数据。若验证开关checkInDbSwitch为true，同时在mySql等业务数据库中不存在当前文档标识符，则插入当前文档标识符对应的业务数据。

在步骤S103中，针对异常的解析请求，可以采用三秒三次二倍速重试查询法查询第一时间段的业务概要对应的业务数据的正文内容；响应于查询响应异常，将当前业务数据的文档标识符存入缓存数据库的异常文档队列；在步骤S104之后，可以将异常文档队列中的文档标识符存入数据集合中，以再次进行业务数据内容更新。

具体地，网络异常等原因可以导致多媒体资讯库查询异常。三秒三次二倍速重试查询法又称三三查询法，在该查询方法中，每间隔3秒重试3次查询过程，每次查询的间隔时间2倍速，第一次3秒，第二次6秒，第三次12秒。

在查询出现异常时，可以将当前业务数据的文档标识符存入Redis数据库的异常文档队列RV_DOC_ID_SET。

在步骤S104之后，检查Redis数据库的异常文档队列RV_DOC_ID_SET，弹出所有的元素存入数据集合，然后再次执行更新文档操作。如果队列元素为0或者循环超过10次，则跳出循环，放弃更新文档操作。

在跳出循环之后，可以做最后一次数据校正，针对异常多次重试仍无法处理的请求，则将当前业务数据的文档标识符以及异常记录存入缓存数据库的邮件（mail）缓存区，以为后续人工处理提供数据资料。将异常记录保存入库，后期通过人工方式处理。

在步骤S103中，可以得到业务数据库中的当天的content_full（正文内容）为空的所有文档标识符。根据这些正文内容为空的文档标识符，并行查询多媒体资讯库的稿件详情接口，然后更新业务数据库中的biz_news（商业新闻）表中的content_full字段。

在步骤S102之后，记录期望存入的业务数据数量和实际存入的业务数据数量到缓存数据库的邮件缓存区；在步骤S104之后，记录期望更新的业务数据内容的数量和实际更新的业务数据内容的数量到邮件缓存区；根据邮件缓存区中的缓存内容发送邮件，通过邮件发送完整的解析报告，以通知业务数据处理结果。

在本公开实施例中，针对解析完成之后全媒体资讯库后期追加的新数据，可以使用新旧数据对比过滤功能，重新执行解析任务。具体地，在步骤S104之后，响应于全媒体资讯库中新增业务数据，对新增的业务数据的文档标识符之外的部分，根据业务数据的网页地址或者正文内容生成指纹，以进行数据过滤，得到对比过滤结果；根据对比过滤结果重新执行解析任务，进行业务数据内容更新。

本公开实施例的技术方案中，采用组合多枚举类灵活配置、重试、定时以及邮件通知等组合方式来解决全媒体资讯库中全媒体多载体信源产生的海量数据因信源增加而导致数据解析繁琐的问题。具体地，如图4所示，可以利用“多载体+全媒体”两个动态参数配置文件，即步骤S401，利用多信源枚举类数据和发布渠道枚举类数据配置不同全媒体多载体解析请求，该解析请求用于请求对资讯库特定信源数据的获取。步骤S402，根据解析请求，每天定时从资讯库获得对应信源的数据并存储入库。步骤S403，判断是否有异常的解析请求；若有，执行步骤S404；若无，执行步骤S406；步骤S404，针对异常的解析请求，采用重试机制来处理判断；步骤S405，针对异常多次重试仍无法处理的请求，将异常记录保存入库，以待后期通过人工方式处理。步骤S406，信源数据保存入库之后，通过邮件发送完整的解析报告。步骤S407，针对解析完成之后资讯库后期追加的新数据，添加了新旧数据对比过滤功能，重新执行解析任务即可避免数据重复。

根据本公开实施例的包含复杂信源的媒体资讯库的数据解析和存储方法，采用组合枚举类查询语句查询全媒体资讯库的数据接口获取业务数据，并先串行将业务数据的概要存储到业务数据库，再根据第一业务实现类对业务数据内容进行加工然后并行存储业务数据的正文内容，从而可以提高全媒体资讯库中的业务数据的解析和存储的处理效率。

下述为本公开装置实施例，可以用于执行本公开方法实施例。下文描述的包含复杂信源的媒体资讯库的数据解析和存储装置与上文描述的包含复杂信源的媒体资讯库的数据解析和存储方法可相互对应参照。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

图5是本公开实施例提供的一种包含复杂信源的媒体资讯库的数据解析和存储装置的示意图。如图5所示，该包含复杂信源的媒体资讯库的数据解析和存储装置包括：

业务数据查询模块501，用于根据结构化全维度的解析对象请求全媒体资讯库，得到业务数据，其中，解析对象通过阶梯方式遍历组合枚举类的维度构建，组合枚举类的维度包括常规维度和高阶维度，常规维度的元素采用常规key-value赋值或JSON聚合处理，高阶维度的元素包括根据高阶维度枚举类构建的高阶维度映射关系集合。

具体地，在本公开实施例中，可以根据多信源产生的业务数据的特点构建多级的组合枚举类数据，其可以设计第一级为多信源枚举类数据，并进一步根据发布渠道的不同构建多信源枚举类数据下一级的发布渠道枚举类数据。通过阶梯方式遍历组合枚举类的维度构建的解析对象，可以理解为一种组合枚举类查询语句。通过该组合枚举类查询语句，可以查询全媒体资讯库的数据接口，得到上述业务数据。根据多信源枚举类数据和发布渠道枚举类数据构建组合枚举类查询语句，可以利用“多载体+全媒体”两个动态参数配置文件配置不同全媒体多载体解析请求，该解析请求用于请求对全媒体资讯库特定信源数据的获取，可以提高数据解析效率和准确率。

概要存储模块502，用于将业务数据的概要串行存入业务数据库的业务概要表。

具体地，考虑到业务数据的文档的正文占用空间较大，存储耗时，此时可以不处理，只将业务数据中的频道栏目、发布时间、文章真实源、作者等概要信息保存。先采用串行方式写入小字段的概要信息，可以保证存入的业务数据有完整的外壳。

正文查询模块503，用于查询业务数据库中业务概要表中的第一时间段的业务概要对应的业务数据的正文内容，得到查询结果。

正文存储模块504，用于在响应于查询结果表征正文内容为空，根据业务概要在全媒体资讯库中查询业务概要对应的业务数据内容后，根据业务数据内容对应的第一业务实现类对业务数据内容进行加工，再并行存入到业务数据库中业务概要表对应的正文内容，其中，第一业务实现类根据组合枚举类的业务处理标记在预先建立的策略库中查询得到，策略库中保存有针对不同业务处理标记建立的业务实现类。

采用并行更新大字段的方式将业务数据内容存入该正文内容字段，可以提高处理效率。即使并行存储过程中出现异常，但是因为有完整的外壳，通过不断的重试可以避免错误，保证存储过程的准确性。

业务数据查询模块501可以根据解析请求，定时调用全媒体资讯库的数据接口，以进行第二时间段的业务数据查询。

在本公开实施例中，该包含复杂信源的媒体资讯库的数据解析和存储装置还可以包括过滤模块，用于将业务数据保存到数据集合中，并将业务数据按照业务数据的文档标识符排序；将排序后的业务数据根据业务数据的网页地址或者正文内容生成指纹，以进行数据过滤。

根据缓冲数据库和业务数据库中是否存在文档标识符可以判断该文档标识符对应的业务数据是否存在。

概要存储模块502可以用于响应于缓存数据库的签入开关打开，且缓存数据库中不存在当前文档标识符，则将当前文档标识符存入缓存数据库；响应于业务数据库的签入开关打开，且业务数据库中不存在当前文档标识符，则将当前文档标识符对应的业务数据的概要存入业务数据库的业务概要表。

在本公开实施例中，该包含复杂信源的媒体资讯库的数据解析和存储装置还可以包括异常处理模块，用于针对异常的解析请求，可以采用三秒三次二倍速重试查询法查询第一时间段的业务概要对应的业务数据的正文内容；响应于查询响应异常，将当前业务数据的文档标识符存入缓存数据库的异常文档队列；并可以将异常文档队列中的文档标识符存入数据集合中，以再次进行业务数据内容更新。

在进行一次业务数据内容更新后，可以检查Redis数据库的异常文档队列RV_DOC_ID_SET，弹出所有的元素存入数据集合，然后再次执行更新文档操作。如果队列元素为0或者循环超过10次，则跳出循环，放弃更新文档操作。

正文查询模块503可以得到业务数据库中的当天的content_full（正文内容）为空的所有文档标识符。根据这些正文内容为空的文档标识符，并行查询多媒体资讯库的稿件详情接口，然后更新业务数据库中的biz_news（商业新闻）表中的content_full字段。

在存储完业务数据的概要后，记录期望存入的业务数据数量和实际存入的业务数据数量到缓存数据库的邮件缓存区；在存储完业务数据的正文内容后，记录期望更新的业务数据内容的数量和实际更新的业务数据内容的数量到邮件缓存区；根据邮件缓存区中的缓存内容发送邮件，通过邮件发送完整的解析报告，以通知业务数据处理结果。

在本公开实施例中，针对解析完成之后全媒体资讯库后期追加的新数据，可以使用新旧数据对比过滤功能，重新执行解析任务。具体地，在存储完业务数据的正文内容之后，响应于全媒体资讯库中新增业务数据，对新增的业务数据的文档标识符之外的部分，根据业务数据的网页地址或者正文内容生成指纹，以进行数据过滤，得到对比过滤结果；根据对比过滤结果重新执行解析任务，进行业务数据内容更新。

本公开实施例的技术方案中，采用组合多枚举类灵活配置、重试、定时以及邮件通知等组合方式来解决全媒体资讯库中全媒体多载体信源产生的海量数据因信源增加而导致数据解析繁琐的问题。具体地，可以利用“多载体+全媒体”两个动态参数配置文件配置不同全媒体多载体解析请求，该解析请求用于请求对资讯库特定信源数据的获取；根据解析请求，每天定时从资讯库获得对应信源的数据并存储入库；针对异常的解析请求，采用重试机制来处理；针对异常多次重试仍无法处理的请求，将异常记录保存入库，以待后期通过人工方式处理；信源数据保存入库之后，通过邮件发送完整的解析报告；针对解析完成之后资讯库后期追加的新数据，添加了新旧数据对比过滤功能，重新执行解析任务即可避免数据重复。

由于本公开的示例实施例的包含复杂信源的媒体资讯库的数据解析和存储装置的各个功能模块与上述包含复杂信源的媒体资讯库的数据解析和存储方法的示例实施例的步骤对应，因此对于本公开装置实施例中未披露的细节，请参照本公开上述的包含复杂信源的媒体资讯库的数据解析和存储方法的实施例。

根据本公开实施例的包含复杂信源的媒体资讯库的数据解析和存储装置，采用组合枚举类查询语句查询全媒体资讯库的数据接口获取业务数据，并先串行将业务数据的概要存储到业务数据库，再根据所述第一业务实现类对所述业务数据内容进行加工然后并行存储业务数据的正文内容，从而可以提高全媒体资讯库中的业务数据的解析和存储的处理效率。

图6是本公开实施例提供的电子设备6的示意图。如图6所示，该实施例的电子设备6包括：处理器601、存储器602以及存储在该存储器602中并且可在处理器601上运行的计算机程序603。处理器601执行计算机程序603时实现上述各个方法实施例中的步骤。或者，处理器601执行计算机程序603时实现上述各装置实施例中各模块的功能。

电子设备6可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备6可以包括但不仅限于处理器601和存储器602。本领域技术人员可以理解，图6仅仅是电子设备6的示例，并不构成对电子设备6的限定，可以包括比图示更多或更少的部件，或者不同的部件。

处理器601可以是中央处理单元（Central Processing Unit，CPU），也可以是其它通用处理器、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application SpecificIntegrated Circuit，ASIC）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

存储器602可以是电子设备6的内部存储单元，例如，电子设备6的硬盘或内存。存储器602也可以是电子设备6的外部存储设备，例如，电子设备6上配备的插接式硬盘，智能存储卡（Smart Media Card，SMC），安全数字（Secure Digital，SD）卡，闪存卡（Flash Card）等。存储器602还可以既包括电子设备6的内部存储单元也包括外部存储设备。存储器602用于存储计算机程序以及电子设备所需的其它程序和数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本公开实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可以存储在计算机可读存储介质中，该计算机程序在被处理器执行时，可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如，在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上实施例仅用以说明本公开的技术方案，而非对其限制；尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围，均应包含在本公开的保护范围之内。

Claims

1.一种包含复杂信源的媒体资讯库的数据解析和存储方法，其特征在于，所述方法包括：

根据结构化全维度的解析对象请求全媒体资讯库，得到业务数据，其中，所述解析对象通过阶梯方式遍历组合枚举类的维度构建，所述组合枚举类的维度包括常规维度和高阶维度，所述常规维度的元素采用常规key-value键值对赋值或JSON聚合处理，所述高阶维度的元素包括根据高阶维度枚举类构建的高阶维度映射关系集合；

将所述业务数据的概要串行存入业务数据库的业务概要表；

查询所述业务数据库中业务概要表中的第一时间段的业务概要对应的所述业务数据的正文内容，得到查询结果；

在响应于所述查询结果表征所述正文内容为空，根据所述业务概要在所述全媒体资讯库中查询所述业务概要对应的业务数据内容后，根据所述业务数据内容对应的第一业务实现类对所述业务数据内容进行加工，再并行存入到所述业务数据库中所述业务概要表对应的正文内容，其中，所述第一业务实现类根据所述组合枚举类的业务处理标记在预先建立的策略库中查询得到，所述策略库中保存有针对不同业务处理标记建立的业务实现类。

2.根据权利要求1所述的方法，其特征在于，将所述业务数据的概要串行存入业务数据库的业务概要表之前，所述方法还包括：

将所述业务数据保存到数据集合中，并将所述业务数据按照所述业务数据的文档标识符排序；

将排序后的所述业务数据根据所述业务数据的网页地址或者正文内容生成指纹，以进行数据过滤。

3.根据权利要求2所述的方法，其特征在于，将所述业务数据的概要串行存入业务数据库的业务概要表，包括：

响应于缓存数据库的签入开关打开，且所述缓存数据库中不存在当前文档标识符，则将所述当前文档标识符存入所述缓存数据库；

响应于所述业务数据库的签入开关打开，且所述业务数据库中不存在所述当前文档标识符，则将所述当前文档标识符对应的业务数据的概要存入所述业务数据库的所述业务概要表。

4.根据权利要求3所述的方法，其特征在于，将所述业务数据的概要串行存入业务数据库的业务概要表之后，所述方法还包括：记录期望存入的业务数据数量和实际存入的业务数据数量到所述缓存数据库的邮件缓存区；

将所述业务数据内容并行存入到所述业务数据库中所述业务概要表对应的正文内容之后，所述方法还包括：记录期望更新的业务数据内容的数量和实际更新的业务数据内容的数量到所述邮件缓存区；

根据所述邮件缓存区中的缓存内容发送邮件，以通知业务数据处理结果。

5.根据权利要求3所述的方法，其特征在于，查询所述业务数据库中业务概要表中的第一时间段的业务概要对应的所述业务数据的正文内容，包括：

采用三秒三次二倍速重试查询法查询所述第一时间段的业务概要对应的所述业务数据的正文内容；

响应于查询响应异常，将当前业务数据的文档标识符存入所述缓存数据库的异常文档队列；

将所述业务数据内容并行存入到所述业务数据库中所述业务概要表对应的正文内容之后，所述方法还包括：

将所述异常文档队列中的文档标识符存入所述数据集合中，以再次进行业务数据内容更新。

6.根据权利要求1所述的方法，其特征在于，并行存入到所述业务数据库中所述业务概要表对应的正文内容之后，所述方法还包括：

响应于所述全媒体资讯库中新增业务数据，对新增的业务数据与对应时段的原有业务数据的文档标识符之外的部分，根据所述业务数据的网页地址或者正文内容生成指纹，以进行数据过滤，得到对比过滤结果；

根据所述对比过滤结果进行业务数据内容更新。

7.根据权利要求1所述的方法，其特征在于，根据结构化全维度的解析对象请求全媒体资讯库，包括：

定时调用所述全媒体资讯库的数据接口，以进行第二时间段的业务数据查询。

8.一种包含复杂信源的媒体资讯库的数据解析和存储装置，其特征在于，所述装置包括：

业务数据查询模块，用于根据结构化全维度的解析对象请求全媒体资讯库，得到业务数据，其中，所述解析对象通过阶梯方式遍历组合枚举类的维度构建，所述组合枚举类的维度包括常规维度和高阶维度，所述常规维度的元素采用常规key-value赋值或JSON聚合处理，所述高阶维度的元素包括根据高阶维度枚举类构建的高阶维度映射关系集合；

概要存储模块，用于将所述业务数据的概要串行存入业务数据库的业务概要表；

正文查询模块，用于查询所述业务数据库中业务概要表中的第一时间段的业务概要对应的所述业务数据的正文内容，得到查询结果；

正文存储模块，用于在响应于所述查询结果表征所述正文内容为空，根据所述业务概要在所述全媒体资讯库中查询所述业务概要对应的业务数据内容后，根据所述业务数据内容对应的第一业务实现类对所述业务数据内容进行加工，再并行存入到所述业务数据库中所述业务概要表对应的正文内容，其中，所述第一业务实现类根据所述组合枚举类的业务处理标记在预先建立的策略库中查询得到，所述策略库中保存有针对不同业务处理标记建立的业务实现类。

9.一种电子设备，包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。