CN110502684A

CN110502684A - 一种基于互联网的智慧数据推荐方法、装置及系统

Info

Publication number: CN110502684A
Application number: CN201910595790.5A
Authority: CN
Inventors: 徐超
Original assignee: Terminus Beijing Technology Co Ltd
Current assignee: Terminus Beijing Technology Co Ltd
Priority date: 2019-07-03
Filing date: 2019-07-03
Publication date: 2019-11-26
Anticipated expiration: 2039-07-03
Also published as: CN110502684B

Abstract

本申请公开了一种基于互联网的智慧数据推荐方法、装置及系统，属于数据处理技术领域。所述方法包括：采集节点获取发布时间在预设时段内的各状态的关注数据，并在具有多个节点的数据网络中广播获取的关注数据；各统计节点获取具有多个节点的数据网络中的关注数据，根据获取的关注数据统计对应状态的发布者的受关注度，验证统计的受关注度，并在验证通过时，保存关注数据及受关注度。本申请中，不仅能够为文娱行业挖掘潜在的表演者提供了有利依据；而且避免了数据处理过程中伪造数据的现象；同时，将统计的数据保存至具有多个节点的数据网络，既保障了数据的安全稳定，又便于数据的查询和再利用。

Description

一种基于互联网的智慧数据推荐方法、装置及系统

技术领域

本申请涉及数据处理技术领域，尤其涉及一种数据处理方法、装置及系统。

背景技术

随着信息时代的到来，大数据广泛的应用在各领域。通过分析用户数据，能够得知用户偏好，从而提供更优质的服务器；同样的，通过分析用户数据，还能得知用户的潜在特质。特别是在互联网领域，当前抖音、快视频等具有视频录制功能的直播应用炙手可热的时代，形形色色的人物通过这些直播应用录制各种视频并发布到网络，供大众观赏、评论。而这无形中也为互联网文娱行业提供了有价值的信息，如何有效的利用这些有价值的信息挖掘具有表演力的人才值得思量，同时，挖掘人才是一个长期监视以及评测的过程，一旦中途有数据丢失都将是前功尽弃，因此，如何有效维护该过程中的数据也是一件值得关注的事情。

发明内容

为解决现有技术的不足，本申请提出一种数据处理方法、装置及系统。

第一方面，本申请提出一种用于采集节点的数据处理方法，包括：

获取发布时间在预设时段内的各状态的关注数据；

在具有多个节点的数据网络中广播所述关注数据，以供各统计节点统计各状态的发布者的受关注度。

可选的，所述获取预设时段内各状态的关注数据，包括：

通过网络爬虫抓取发布时间在预设时段内的各状态的全文数据；

提取各全文数据中的发布者标识和关注数据；

根据提取的数据生成各状态的关注记录；

所述在具有多个节点的数据网络中广播所述关注数据，具体为：在具有多个节点的数据网络中广播所述关注记录。

第二方面，本申请提出一种用于统计节点的数据处理方法，包括：

获取具有多个节点的数据网络中的关注数据；

根据所述关注数据统计对应状态的发布者的受关注度；

验证所述受关注度，并在验证通过时，保存所述关注数据及所述受关注度。

可选的，所述获取具有多个节点的数据网络中的关注数据，具体为：获取具有多个节点的数据网络中的关注记录，所述关注记录包括各状态的发布者标识和关注数据。

可选的，所述根据所述关注数据统计对应状态的发布者的受关注度，包括：

对所述关注数据进行清洗得到有效关注数据；

对所述有效关注数据进行归类，得到各发布者标识对应的所有有效关注数据；

依次调用预置分析模型分析所述各发布者标识对应的所有有效关注数据，得到各发布者标识对应的各发布者的标签；

根据所述各发布者的标签确定各发布者的受关注度。

可选的，所述验证所述受关注度，具体为：采用实用拜占庭容错机制验证所述受关注度。

可选的，所述保存所述关注数据及所述受关注度，包括：

由预设统计节点生成所述关注数据的摘要值；

识别当前的最后一个主数据包，对识别的主数据包的报头进行加密运算，得到第一加密值；

生成新的主数据包，将所述第一加密值保存至所述新的主数据包的报头中，并将所述摘要值保存至所述新的主数据包中；

生成所述新的主数据包的从数据包，将所述受关注度保存至所述从数据包。

可选的，所述生成所述新的主数据包的从数据包，将所述受关注度保存至所述从数据包，包括：

对所述新的主数据包的报头进行加密运算，得到第二加密值；

对所述第二加密值进行加密运算，得到第三加密值；

生成所述新的主数据包的从数据包，将所述第三加密值保存至所述从数据包的报头中，并将所述受关注度保存至所述从数据包中。

第三方面，本申请提出一种数据处理装置，包括：

第一获取模块，用于获取发布时间在预设时段内的各状态的关注数据；

广播模块，用于在具有多个节点的数据网络中广播所述第一获取模块获取的关注数据，以供各统计节点统计各状态的发布者的受关注度。

可选的，所述第一获取模块包括：抓取子模块、提取子模块和生成子模块；

所述抓取子模块，用于通过网络爬虫抓取发布时间在预设时段内的各状态的全文数据；

所述提取子模块，用于提取各全文数据中的发布者标识和关注数据；

所述生成子模块，用于根据提取的数据生成各状态的关注记录；

所述广播模块，具体用于在具有多个节点的数据网络中广播所述关注记录。

第四方面，本身请提出一种数据处理装置，包括：

第二获取模块，用于获取具有多个节点的数据网络中的关注数据；

统计模块，用于根据所述关注数据统计对应状态的发布者的受关注度；

验证模块，用于验证所述受关注度；

保存模块，用于在所述验证模块验证通过时，保存所述关注数据及所述受关注度。

可选的，所述第二获取模块，具体用于获取具有多个节点的数据网络中的关注记录，所述关注记录包括各状态的发布者标识和关注数据。

可选的，所述统计模块包括：清洗子模块、归类子模块、调用子模块和确定子模块；

所述清洗子模块，用于对所述第二获取模块获取的关注数据进行清洗得到有效关注数据；

所述归类子模块，用于对所述有效关注数据进行归类，得到各发布者标识对应的所有有效关注数据；

所述调用子模块，用于依次调用预置分析模型分析所述各发布者标识对应的所有有效关注数据，得到各发布者标识对应的各发布者的标签；

所述确定子模块，用于根据所述各发布者的标签确定各发布者的受关注度。

可选的，所述验证模块，具体用于采用实用拜占庭容错机制验证所述受关注度。

可选的，所述保存模块包括：生成子模块、识别子模块、第一计算子模块、第一保存子模块和第二保存子模块；

所述生成子模块，用于预设统计节点生成所述关注数据的摘要值；

所述识别子模块，用于识别当前的最后一个主数据包；

所述第一计算子模块，用于对识别的主数据包的报头进行加密运算，得到第一加密值；

所述第一保存子模块，用于生成新的主数据包，将所述第一加密值保存至所述新的主数据包的报头中，并将所述摘要值保存至所述新的主数据包中；

所述第二保存子模块，用于生成所述新的主数据包的从数据包，将所述受关注度保存至所述从数据包。

可选的，所述第二保存子模块包括：第一计算单元、第二计算单元和保存单元；

所述第一计算单元，用于对所述新的主数据包的报头进行加密运算，得到第二加密值；

所述第二计算单元，用于对所述第二加密值进行加密运算，得到第三加密值；

所述保存单元，用于生成所述新的主数据包的从数据包，将所述第三加密值保存至所述从数据包的报头中，并将所述受关注度保存至所述从数据包中。

第五方面，本申请提出一种数据处理系统，包括：本申请第三方面及第四方面任一所述的装置。

第六方面，本申请提出一种数据处理设备，包括：

一个或多个处理器，存储一个或多个程序的存储装置；

当所述一个或多个程序被所述一个或多个处理器执行时，实现如本申请第一方面及第二方面任一所述的方法。

第七方面，本申请提出一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序被处理器执行时，实现如本申请第一方面及第二方面任一所述的方法。

本申请的优点在于：

本申请中，将大数据与互联网相结合，一方面为文娱行业挖掘潜在的表演者提供了有利依据；另一方面，避免了智慧数据推荐过程中伪造数据的现象；同时，将统计的数据保存至具有多个节点的数据网络，既保障了数据的安全稳定，又便于数据的查询和再利用。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

附图1为根据本申请实施方式的一种用于采集节点的数据处理方法流程图；

附图2为根据本申请实施方式的一种用于统计节点的数据处理方法流程图；

附图3为根据本申请实施方式的一种数据处理方法流程图；

附图4为根据本申请实施方式的一种数据处理装置框图；

附图5为根据本申请实施方式的另一种数据处理装置框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

以下对本申请中的方法进行详述。

实施例一

根据本申请的实施方式，提出一种用于采集节点的数据处理方法，如图1所示，包括：

步骤101：获取发布时间在预设时段内的各状态的关注数据；

其中，预设时段可以根据需求自行设定，各状态优选为各发布者录制并发布的视频；关注数据包括各关注者标识及对应的评论数据和/或点赞等。

根据本申请的实施方式，步骤101包括：

步骤101-1：通过网络爬虫抓取发布时间在预设时段内的各状态的全文数据；

其中，全文数据包括：发布者标识(例如为册时分配的唯一标识码)、发布时间、关注数据等。

例如，每日凌晨通过网络爬虫抓取发布时间在前48小时内的各状态的全文数据。

步骤101-2：提取各全文数据中的发布者标识和关注数据；

步骤101-3：根据提取的数据生成各状态的关注记录；

具体的，将各状态对应的发布者标识和关注数据建立关联关系，作为一条关注记录。

步骤102：在具有多个节点的数据网络中广播获取的关注数据，以供各统计节点统计各状态对应发布者的受关注度。

具体的，在具有多个节点的数据网络中广播生成的各关注记录。

进一步的，在具有多个节点的数据网络中广播生成的各关注记录之前，还可以包括：对各关注记录打包，得到数据包；对应的，在具有多个节点的数据网络中广播该数据包。

实施例二

根据本申请的实施方式，还提出一种用于统计节点的数据处理方法，如图2所示，包括：

步骤201：获取具有多个节点的数据网络中的关注数据；

具体的，获取采集节点在具有多个节点的数据网络中广播的各关注记录；

其中，关注记录包括状态对应的发布者标识和关注数据，关注数据包括各关注者标识及对应的评论和/或点赞等。

进一步的，当采集节点在具有多个节点的数据网络中广播数据包时，对应的，步骤201具体为获取具有多个节点的数据网络中的数据包；其中，数据包中包括各关注记录。

步骤202：根据获取的关注数据统计对应状态的发布者的受关注度；

根据本申请的实施方式，步骤202包括：

步骤201-1：对关注数据进行清洗得到有效关注数据；

具体的，对同一个关注记录中同一关注者标识对应的多条相同的评论数据进行删减，仅保留一条。

考虑到有些关注者习惯刷屏式的评论，将同一条评论数据进行连续的多次评论，而这容易在后续的模型分析过程中产生误导；通过对关注数据进行清洗，能够避免该误导产生，保障分析结果的准确性。

步骤202-2：对有效关注数据进行归类，得到各发布者标识对应的所有有效关注数据；

具体的，提取各有效关注数据中的发布者标识，并将相同发布者标识对应的各有效关注数据归类到同一个集合，得到各发布者对应的所有有效关注数据。

步骤202-3：依次调用预置分析模型分析各发布者标识对应的所有有效关注数据，得到各发布者标识对应的各发布者的标签。

其中，预置分析模型为预先采集大量的关注数据作为样本进行机器学习或者神经网络训练而得，具体的学习或者训练过程在此不再详述。

步骤202-4：根据得到的各发布者的标签，确定各发布者的受关注度。

具体的，不同的标签对应不同的权重，计算各发布者的标签的权重总和，并根据权重总和与受关注度的对应关系，确定各发布者的受关注度。

例如，权重总和为0-0.3，对应一级关注度；权重总和为0.4-0.6，对应二级关注度；权重总和为0.6-0.8，对应三级关注度；权重总和为0.9-1.0，对应四级关注度，且级别越高表示越受欢迎。

步骤203：验证统计的受关注度，并在验证通过时，保存获取的关注数据及统计的受关注度。

其中，验证统计的受关注度，具体为：采用实用拜占庭容错机制(PBFT)验证统计的受关注度。

具体的，当某个统计节点得到全部发布者的受关注度时，将其作为统计结果发送给其他各统计节点，该其他各统计节点验证接收到的统计结果是否合理，并发送验证结果给预设的统计节点，当预设的统计节点接收到预设数量的验证结果时，根据接收到的验证结果判定统计结果是否合理。

其中，预设数量可以根据需求自行设定；且根据接收到的验证结果判定统计结果是否合理，具体为按照少数服从多数的原则判定统计结果是否合理；

例如，预设数量为统计节点总个数的70％，当前有10个统计节点，则接收到7个验证结果时，统计验证通过的数量，当验证通过的数量至少为4个时，判定统计结果合理。

进一步的，步骤203中，保存获取的关注数据及统计的受关注度，包括：

步骤A1：由预设统计节点生成获取的关注数据的摘要值；

步骤A2：识别当前的最后一个主数据包，并对识别的主数据包的报头进行加密运算，得到第一加密值；

其中，识别当前最后一个主数据包，具体为：识别最长的数据包，并将最长的数据包的倒数第二个数据包作为当前的最后一个主数据包；

加密运算具体使用对称加密算法或者非对称加密算法或者散列算法，其中，对称算法包括DES、3DES、AES，非对称算法包括RSA、DSA，散列算法包括SHA-1、MD5。

步骤A3：生成新的主数据包，将得到的第一加密值保存至所述新的主数据包的报头中，并将摘要值保存至新的主数据包中；

其中，报头中还包括时间信息。

步骤A4：生成所述新的主数据包的从数据包，将统计的受关注度保存至生成的从数据包。

根据本申请的实施方式，步骤A4包括：

步骤A4-1：对所述新的主数据包的报头进行加密运算，得到第二加密值；

步骤A4-2：对得到的第二加密值进行加密运算，得到第三加密值；

其中，步骤A4-2中加密运算所使用的算法与步骤A4-1中所使用的算法可以相同也可以不同。

步骤A4-3：生成所述新的主数据包的从数据包，将得到的第三加密值保存至生成的从数据包的报头中，并将统计的受关注度保存至从数据包中。

其中，从数据包的报头中还包括时间信息。

由于保存统计的受关注度需要占用较大的存储空间，本申请中通过生成每个主数据包的从数据包，以实现为主数据包扩容的目的；同时，将关注数据的加密值保存至主数据包，将对应统计的受关注度保存至对应的从数据包，形成了分布式的统计总账，主数据包相当于统计总账的目录，便于查询在不同时间点的统计记录，而从数据包相当于目录中每个统计记录的详情，可以查阅各发布者的受关注度。

根据本申请的实施方式，方法还包括：每隔预设时间对各从数据包中的受关注度进行统计，得到各发布者受关注度的波动情况。

根据本申请的实施方式，方法还包括：奖励受关注度高的发布者。

本申请中的受关注度，是基于大众对各状态(主要为录制的视频)的评论数据而来，具有广泛性和真实性，并反应了大众对于发布者的表演能力或者说唱能力的认同程度，从而能够根据该受关注度挖掘潜在的具有突出表演力或者具有突出说唱力的发布者，为文娱行业的发展输送力量。同时，将统计的受关注度保存至具有多个节点的数据网络，既能保障数据的安全稳定，又便于查询和再利用。

实施例三

根据本申请的实施方式，还提出一种数据处理方法，如图3所示，包括：

步骤301：采集节点获取发布时间在预设时段内的各状态的关注数据，并在具有多个节点的数据网络中广播获取的关注数据；

步骤302：统计节点获取具有多个节点的数据网络中的关注数据；

步骤303：统计节点根据获取的关注数据统计对应状态的发布者的受关注度，验证统计的受关注度，并在验证通过时，保存关注数据及受关注度。

本实施例中各步骤的实现方法可参见实施例一及实施例二中的相关描述，在此不再赘述。

实施例四

根据本申请的实施方式，还提出一种数据处理装置，如图4所示，包括：

第一获取模块401，用于获取发布时间在预设时段内的各状态的关注数据；

广播模块402，用于在具有多个节点的数据网络中广播第一获取模块401获取的关注数据，以供各统计节点统计各状态的发布者的受关注度。

根据本申请的实施方式，第一获取模块401包括：抓取子模块、提取子模块和生成子模块，其中：

抓取子模块，用于通过网络爬虫抓取发布时间在预设时段内的各状态的全文数据；

提取子模块，用于提取抓取子模块抓取的各全文数据中的发布者标识和关注数据；

生成子模块，用于根据提取子模块提取的数据生成各状态的关注记录；

对应的，广播模块402，具体用于在具有多个节点的数据网络中广播生成子模块生成的关注记录。

实施例五

根据本申请的实施方式，还提出一种数据处理装置，如图5所示，包括：

第二获取模块501，用于获取具有多个节点的数据网络中的关注数据；

统计模块502，用于根据第二获取模块501获取的关注数据统计对应状态的发布者的受关注度；

验证模块503，用于验证统计模块502统计的受关注度；

保存模块504，用于在验证模块503验证通过时，保存第二获取模块501获取的关注数据及统计模块502统计的受关注度。

根据本申请的实施方式，第二获取模块501，具体用于获取具有多个节点的数据网络中的关注记录，关注记录包括各状态的发布者标识和关注数据。

根据本申请的实施方式，统计模块502包括：清洗子模块、归类子模块、调用子模块和确定子模块，其中：

清洗子模块，用于对第二获取模块501获取的关注数据进行清洗得到有效关注数据；

归类子模块，用于对清洗子模块得到的有效关注数据进行归类，得到各发布者标识对应的所有有效关注数据；

调用子模块，用于依次调用预置分析模型分析各发布者标识对应的所有有效关注数据，得到各发布者标识对应的各发布者的标签；

确定子模块，用于根据各发布者的标签确定各发布者的受关注度。

根据本申请的实施方式，验证模块503，具体用于采用实用拜占庭容错机制验证统计模块502统计的受关注度。

根据本申请的实施方式，保存模块包括：生成子模块、识别子模块、第一计算子模块、第一保存子模块和第二保存子模块，其中：

生成子模块，用于预设统计节点生成关注数据的摘要值；

识别子模块，用于识别当前的最后一个主数据包；

第一计算子模块，用于对识别子模块识别的主数据包的报头进行加密运算，得到第一加密值；

第一保存子模块，用于生成新的主数据包，将第一加密值保存至所述新的主数据包的报头中，并将摘要值保存至所述新的主数据包中；

第二保存子模块，用于生成所述新的主数据包的从数据包，将受关注度保存至从数据包。

根据本申请的实施方式，第二保存子模块包括：第一计算单元、第二计算单元和保存单元，其中：

第一计算单元，用于对所述新的主数据包的报头进行加密运算，得到第二加密值；

第二计算单元，用于对第二加密值进行加密运算，得到第三加密值；

保存单元，用于生成所述新的主数据包的从数据包，将第三加密值保存至从数据包的报头中，并将受关注度保存至从数据包中。

本申请中，还提出一种数据处理系统，包括：实施例四及实施例五任一所述的装置。

本申请中，还提出一种数据处理设备，包括：一个或多个处理器，存储一个或多个程序的存储装置；当所述一个或多个程序被所述一个或多个处理器执行时，实现如实施例一及实施例二任一所述的方法。

本申请中，还提出一种计算机可读存储介质，其上存储有计算机程序，当该计算机程序被处理器执行时，实现如实施例一及实施例二任一所述的方法。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参考即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请中，基于大众对各状态(主要为录制的视频)的评论数据统计各状态发布者的受关注度，由于评论数据具有广泛性和真实性，反应了大众对于发布者的表演能力或者说唱能力的认同程度，因此能够根据该受关注度挖掘潜在的具有突出表演力或者具有突出说唱力的发布者，为文娱行业的发展输送力量。此外，将大数据与互联网技术相结合，统计过程公开透明，避免了伪造数据的现象；同时将统计的受关注度保存至具有多个节点的数据网络，既保障了数据的安全稳定，又便于数据的查询和再利用。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于互联网的智慧数据推荐方法，其特征在于，用于采集节点，包括：

获取发布时间在预设时段内的各状态的关注数据；

2.根据权利要求1所述的方法，其特征在于，所述获取预设时段内各状态的关注数据，包括：

提取各全文数据中的发布者标识和关注数据；

根据提取的数据生成各状态的关注记录；

3.一种基于互联网的智慧数据推荐数据处理方法，其特征在于，用于统计节点，包括：

获取具有多个节点的数据网络中的关注数据；

根据所述关注数据统计对应状态的发布者的受关注度；

4.根据权利要求3所述的方法，其特征在于，所述获取具有多个节点的数据网络中的关注数据，具体为：获取具有多个节点的数据网络中的关注记录，所述关注记录包括各状态的发布者标识和关注数据。

5.根据权利要求4所述的方法，其特征在于，所述根据所述关注数据统计对应状态的发布者的受关注度，包括：

对所述关注数据进行清洗得到有效关注数据；

根据所述各发布者的标签确定各发布者的受关注度。

6.根据权利要求3所述的方法，其特征在于，所述验证所述受关注度，具体为：采用实用拜占庭容错机制验证所述受关注度。

7.根据权利要求3所述的方法，其特征在于，所述保存所述关注数据及所述受关注度，包括：

由预设统计节点生成所述关注数据的摘要值；

8.根据权利要求7所述的方法，其特征在于，所述生成所述新的主数据包的从数据包，将所述受关注度保存至所述从数据包，包括：

对所述第二加密值进行加密运算，得到第三加密值；

9.一种基于互联网的智慧数据推荐装置，其特征在于，包括：

10.根据权利要求9所述的装置，其特征在于，所述第一获取模块包括：抓取子模块、提取子模块和生成子模块；