CN110569406A

CN110569406A - 一种可配置化的热点数据自动分析方法、装置、系统及介质

Info

Publication number: CN110569406A
Application number: CN201910677173.XA
Authority: CN
Inventors: 王少飞; 喻波; 王志海; 董晓斌; 董爱华
Original assignee: Beijing Wondersoft Technology Co Ltd
Current assignee: Beijing Wondersoft Technology Co Ltd
Priority date: 2019-07-25
Filing date: 2019-07-25
Publication date: 2019-12-13
Anticipated expiration: 2039-07-25
Also published as: CN110569406B

Abstract

本发明提供一种互联网信息的热点数据分析方法、装置、系统及介质，所述方法包括：获取外部数据；创建Kafka生产者对象，建立热点数据配置模板；判断所述外部数据是否属于热点数据，若是，创建Kafka消费者对象，建立热度等级阈值配置模板,读取所述热点数据；根据所述热度等级阈值配置模板，对读取的所述热点数据进行匹配归类，确定所述热点数据对应的热度等级；对所述热点数据进行相应的处理。根据本发明的方案，实现了对热点数据进行动态分析处理，降低了开发成本，减少了后期再次维护的工作量，降低了代码的冗余度，提高了处理性能与容错率，解耦了热点数据的过滤、分析、审核的业务处理逻辑，降低了人力与时间的工作成本。

Description

一种可配置化的热点数据自动分析方法、装置、系统及介质

技术领域

本发明涉及信息处理领域，尤其涉及一种互联网信息的热点数据分析方法、装置、系统及介质，具体涉及一种可配置化的热点数据自动分析方法、装置、系统及介质。

背景技术

随着时代的发展与科技的进步，互联网已全民普及，现代社会已经全面进入了信息化时代，移动互联网让我们每时每刻都在生产与消费信息，在这样的大环境下，获取热点信息及确保数据信息安全变得尤为重要，其中对于数据的分析处理更是重中之重。

以往的工程项目中，在数据同步、数据采集、数据审核等阶段，若想对其中包含热点信息的数据进行特殊处理，需要在传输部分的代码中将具体操作行为写死。但在实际应用中，由于不同的数据所包含的信息量的多少、数据整体的重要程度都是不同的，无法采取统一的处理方式，为此，有时需要对热点数据做更特殊的处理与审核。

Kafka是由Apache软件基金会开发的一个开源流处理平台，由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统。

现有技术CN107943864A提出了一种多媒体内容媒体上安全可控的智能推荐系统，采用热点内容推荐、基于用户喜好的个性化推荐向用户推荐内容，根据推荐引擎输出的内容对热点内容进行了处理，但仍存在诸多缺陷：(1)采用人工处理热点数据，无法对热点数据进行自动分析与审核；(2)无法在数据传输时对热点数据进行动态分析处理；(3)重复代码编写量大。

发明内容

为解决上述技术问题，本发明提出了一种互联网信息的热点数据分析方法、装置、系统及介质，所述方法、装置、系统及介质，创新性的将Kafka处理机制应用于热点数据分析，用以解决现有技术中无法在数据传输时对热点数据进行动态分析处理、无法对热点数据进行自动分析与审核的技术问题。

根据本发明的第一方面，提供一种互联网信息的热点数据分析方法，包括：

步骤S101：获取外部数据；

步骤S102：创建Kafka生产者对象，建立热点数据配置模板；

步骤S103：所述Kafka生产者对象判断所述外部数据是否属于热点数据，若是，执行步骤S104；若否，存储所述外部数据，方法结束；

步骤S104：创建Kafka消费者对象，建立热度等级阈值配置模板,读取所述热点数据；

步骤S105：所述Kafka消费者对象根据所述热度等级阈值配置模板，对读取的所述热点数据进行匹配归类，确定所述热点数据对应的热度等级；

步骤S106：根据热度等级，对所述热点数据进行相应的处理。

进一步地，所述建立热点数据配置模板包括：

步骤S1021：针对应用场景事先配置所述数据配置模板；

步骤S1022：根据使用情况动态调整所述数据配置文件。

进一步地，所述数据配置模板包括以下属性信息：

所述热点数据关键字、匹配所述热点数据的正则表达式、每类所述热点数据对应的权重系数。

进一步地，所述Kafka生产者对象判断所述外部数据是否属于热点数据，若是，执行步骤S104；若否，存储所述外部数据，方法结束，包括：

步骤S1031：根据所述热点数据配置模板对所述步骤S101获取的外部数据进行过滤、清洗；

步骤S1032：判断所述外部数据是否属于热点数据；若属于，执行步骤S1033；若不属于，执行步骤S1034；

步骤S1033：若所述外部数据属于热点数据，对所述热点数据统计其参数信息，将所述热点数据发送至Kafka与所述热点数据对应的热点主题中；

步骤S1034：若所述外部数据不属于热点数据，则将所述外部数据推送至存储部件中存储。

根据本发明第二方面，提供一种互联网信息的热点数据分析装置，包括：

数据获取模块：用于获取外部数据；

创建配置模板模块：用于创建Kafka生产者对象，建立热点数据配置模板；

判断模块：用于使所述Kafka生产者对象判断所述外部数据是否属于热点数据；

读取热点数据模块：用于创建Kafka消费者对象，建立热度等级阈值配置模板,读取所述热点数据；

确定热度等级模块：用于由所述Kafka消费者对象根据所述热度等级阈值配置模板，对读取的所述热点数据进行匹配归类，确定所述热点数据对应的热度等级；

处理模块：用于根据热度等级，对所述热点数据进行相应的处理。

进一步地，所述创建配置模板模块包括：

建立配置模板子模块一：用于针对应用场景事先配置所述数据配置模板；

调整子模块二：用于根据使用情况动态调整所述数据配置文件。

进一步地，所述数据配置模板包括以下属性信息：所述热点数据关键字、匹配所述热点数据的正则表达式、每类所述热点数据对应的权重系数。

进一步地，所述判断模块包括：

判断子模块：用于判断所述外部数据是否属于热点数据；

统计子模块：用于对所述热点数据统计其参数信息，将所述热点数据发送至Kafka与所述热点数据对应的热点主题中；

存储子模块：用于将所述外部数据推送至存储部件中存储。

根据本发明第三方面，提供一种互联网信息的热点数据分析系统，包括：

处理器，用于执行多条指令；

存储器，用于存储多条指令；

其中，所述多条指令，用于由所述存储器存储，并由所述处理器加载并执行如前所述的互联网信息的热点数据分析方法。

根据本发明第四方面，提供一种计算机可读存储介质，所述存储介质中存储有多条指令；所述多条指令，用于由处理器加载并执行如前所述的互联网信息的热点数据分析应用方法。

根据本发明的上述方案，通过预置配置文件的方式实现了对热点数据的自动分析过滤与审核，实现了对热点数据进行动态分析处理，降低了开发成本，减少了后期再次维护的工作量，降低了代码的冗余度，提高了处理性能与容错率，简化了重复代码编写，解耦了热点数据的过滤、分析、审核的业务处理逻辑，降低了人力与时间的工作成本。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。

附图说明

构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明提供如下附图进行说明。在附图中：

图1为本发明提出的互联网信息的热点数据分析方法流程图；

图2为本发明一个实施方式的Kafka生产者对象判断外部数据是否属于热点数据的方法流程图；

图3为本发明提出的互联网信息的热点数据分析装置组成框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

首先结合图1说明本发明的互联网信息的热点数据分析方法，图1示出了根据本发明的互联网信息的热点数据分析方法流程图。如图1所示，所述方法包括以下步骤：

步骤S101：获取外部数据；

获取外部数据源推送的外部数据，所述外部数据源包括普通日志库、热点数据日志库。

步骤S102：创建Kafka生产者对象，建立热点数据配置模板；

所述建立热点数据配置模板包括：

步骤S1021：针对应用场景事先配置所述数据配置模板，所述数据配置模板包括但不限于以下属性：

所述热点数据关键字，例如新闻、体育等；

匹配所述热点数据的正则表达式，所述正则表达式可以设置多种选项软开关，用于匹配所述热点数据和/或过滤所述热点数据。在本实施例中，当不能确定所述热点数据的热点数据关键字时，若能确定所述热点数据所属类型，可以设置所述数据配置模板具有热点数据所属类型这一属性，在所述正则表达式中，将所属类型对应的部分的软开关打开，进而根据所述正则表达式对所述热点数据进行匹配和/或过滤；当需要获取特定的所述热点数据时，例如，需要过滤筛选出所述热点数据中的特殊数据或敏感数据时，可以在所述正则表达式中，将所述热点数据的具体数据值对应的部分的软开关打开，进而根据所述正则表达式对所述热点数据进行匹配和/或过滤。例如，当确定网站域名为所述数据配置模板属性时，可以将所述正则表达式中与所述网站域名对应的部分的软开关打开，通过具有网站域名部分的正则表达式对网站域名进行匹配和/或过滤，以实现对所述热点数据进行匹配和/或过滤。又如，当确定所述热点数据的具体数据值为所述数据配置模板属性时，可以将所述正则表达式中与所述热点数据的具体数据值对应的部分的软开关打开，通过具有网站域名部分的正则表达式对所述热点数据进行匹配和/或过滤，例如，所述热点数据的具体数据值为手机号，则由正则表达式对手机号码进行匹配和/或过滤，以实现对所述热点数据的匹配和/或过滤。

步骤S1022：根据使用情况动态调整所述数据配置文件；

以下结合图2说明本发明的所述Kafka生产者对象判断所述外部数据是否属于热点数据的方法。所述Kafka生产者对象判断所述外部数据是否属于热点数据，若是，执行步骤S104；若否，存储所述外部数据，方法结束，包括：

所述参数信息包括：热点数据的命中信息、命中次数，根据所述参数信息计算所述热点数据的最终热度值。

所述存储部件包括：ElasticSearch或Mysql等其他存储部件。

步骤S104:创建Kafka消费者对象，建立热度等级阈值配置模板,读取所述热点数据；

所述建立热度等级阈值配置模板，包括：事先配置所述热度等级阈值配置模板，所述热度等级阈值配置模板包括但不限于以下属性：热度等级、各热度等级对应的阈值、与各热度等级对应的处理方式；

所述配置所述热度等级阈值配置模板，还包括对热度等级、各热度等级对应的阈值进行配置，例如，设置热度等级包括低热度等级、中热度等级、高热度等级，再设置如前所述各热度等级对应的阈值。所述阈值可以是数值范围，例如，设置低热度等级对应的阈值的数值范围为1-4，中热度等级对应的阈值的数值范围为5-8，高热度等级对应的阈值的数值范围是9-10。

所述读取所述热点数据，包括：读取所述Kafka与所述热点数据对应的热点主题中的所述热点数据；

步骤S105:所述Kafka消费者对象根据所述热度等级阈值配置模板，对读取的所述热点数据进行匹配归类，确定所述热点数据对应的热度等级；

包括：对读取的所述热点数据进行计算，获得所述热点数据的最终热度值，再将所述最终热度值进行映射，与所述热度等级阈值配置模板进行匹配、对比，确定所述热点数据对应的热度等级。

所述对读取的所述热点数据进行计算，例如，

获取到所述热点数据中各热点数据关键字Key_i(其中i表示各热度关键字的序号，1≤i≤n，n为所述热点数据中热点数据关键字的个数)，查找所述各热点数据关键字Key_i对应的权重系数X_i，再获取到所述各热度关键字Key_i出现的频率Y_i，

按如下公式计算所述热点数据的数据热度值：

将所述热点数据的最终热度值映射到所述热度等级对应的阈值的数值范围中；

根据映射值，参照所述热度等级阈值配置模板中的阈值，确定所述热点数据对应的热度等级。

步骤S106：根据热度等级，对所述热点数据进行相应的处理。

所述根据热度等级，对所述热点数据进行相应的处理，包括：对低热度等级的热点数据，进行前台页面展示；对中热度等级的热点数据，发送邮件进行告警操作；对高热度等级的热点数据，上报上级领导进行审阅，以完成对所述热点数据的记录、展示与处理。

请参考图3，其为本发明提出的互联网信息的热点数据分析装置组成框图。如图所示，该装置包括：

数据获取模块：用于获取外部数据；

进一步地，所述创建配置模板模块包括：

进一步地，所述判断模块包括：

判断子模块：用于判断所述外部数据是否属于热点数据；

存储子模块：用于将所述外部数据推送至存储部件中存储。

本发明实施例进一步给出一种互联网信息的热点数据分析系统，包括：

处理器，用于执行多条指令；

存储器，用于存储多条指令；

其中，所述多条指令，用于由所述存储器存储，并由所述处理器加载并执行如上所述的互联网信息的热点数据分析方法。

本发明实施例进一步给出一种计算机可读存储介质，所述存储介质中存储有多条指令；所述多条指令，用于由处理器加载并执行如上所述的互联网信息的热点数据分析方法。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，实体机服务器，或者网络云服务器等，需安装Windows或者Windows Server操作系统)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种互联网信息的热点数据分析方法，其特征在于，所述方法包括：

步骤S101：获取外部数据；

步骤S102：创建Kafka生产者对象，建立热点数据配置模板；

步骤S106：根据热度等级，对所述热点数据进行相应的处理。

2.如权利要求1所述的互联网信息的热点数据分析方法，其特征在于，所述建立热点数据配置模板包括：

步骤S1021：针对应用场景事先配置所述数据配置模板；

步骤S1022：根据使用情况动态调整所述数据配置文件。

3.如权利要求2所述的互联网信息的热点数据分析方法，其特征在于，所述数据配置模板包括以下属性信息：所述热点数据关键字、匹配所述热点数据的正则表达式、每类所述热点数据对应的权重系数。

4.如权利要求1所述的互联网信息的热点数据分析方法，其特征在于，所述Kafka生产者对象判断所述外部数据是否属于热点数据，若是，执行步骤S104；若否，存储所述外部数据，方法结束，包括：

5.一种互联网信息的热点数据分析装置，其特征在于，所述装置包括：

数据获取模块：用于获取外部数据；

6.如权利要求5所述的互联网信息的热点数据分析装置，其特征在于，所述创建配置模板模块包括：

7.如权利要求6所述的互联网信息的热点数据分析装置，其特征在于，所述数据配置模板包括以下属性信息：所述热点数据关键字、匹配所述热点数据的正则表达式、每类所述热点数据对应的权重系数。

8.如权利要求5所述的互联网信息的热点数据分析装置，其特征在于，所述判断模块包括：

判断子模块：用于判断所述外部数据是否属于热点数据；

存储子模块：用于将所述外部数据推送至存储部件中存储。

9.一种互联网信息的热点数据分析系统，其特征在于，包括：

处理器，用于执行多条指令；

存储器，用于存储多条指令；

其中，所述多条指令，用于由所述存储器存储，并由所述处理器加载并执行如权利要求1-4任一所述的互联网信息的热点数据分析方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有多条指令；所述多条指令，用于由处理器加载并执行如权利要求1-4任一所述的互联网信息的热点数据分析方法。