CN111125584B

CN111125584B - 一种基于舆情分析的消费返利平台识别方法

Info

Publication number: CN111125584B
Application number: CN201911337778.0A
Authority: CN
Inventors: 陈和国; 范渊
Original assignee: DBAPPSecurity Co Ltd
Current assignee: DBAPPSecurity Co Ltd
Priority date: 2019-12-23
Filing date: 2019-12-23
Publication date: 2023-06-06
Anticipated expiration: 2039-12-23
Also published as: CN111125584A

Abstract

本申请公开了一种基于舆情分析的消费返利平台识别方法、装置、设备及可读存储介质，包括：利用jsoup请求URL，获取html页面数据；利用xpath节点解析html页面数据，得到页面内容；根据已知的消费返利平台样本和非消费返利平台样本，利用LOF算法对页面内容中的舆情信息进行分析，得到当前平台的识别结果，以确定当前平台是否为消费返利平台。可见，本申请能够自动采集平台页面数据，并通过智能分析页面内容中的舆情信息，判别当前平台是否为消费返利平台，是一种自动化识别消费返利平台的方案，避免了人工识别费时费力的问题，提升了消费返利平台的识别效率。

Description

一种基于舆情分析的消费返利平台识别方法

技术领域

本申请涉及计算机技术领域，特别涉及一种基于舆情分析的消费返利平台识别方法、装置、设备及可读存储介质。

背景技术

随着生活水平的提高，各种大型商场也如雨后春笋一般出现。为了吸引到新客户并维持老客户，商场往往推出会员机制，在用户消费了一定金额时返回实物或者代金卷。

近些年伴随着Internet的普及和业务发展电商平台悄然兴起，各种电商平台之间的竞争更加激烈，从原来只能辐射周围几公里几十公里，到现在全国范围进行购物购物。因此很多平台会推出消费返利模式，如淘宝的淘金币就是一种其抵用比例是100:1，也就是一百淘金币可以在买商品时当做一块钱使用且每次使用均有上限。消费返利本身是对于消费者的一种回报，各类型的商场、电商平台均有消费返利的模式，其本身是可以维持的，但有一些平台的消费返利运营模式是不可持续的。通常不可持续的模式为了更快的吸收资金，会打出100％返现、买多少返多少的噱头，误导消费者。因此，需要一种可以识别消费返利平台的方法。

目前，一般通过人工识别平台是否为消费返利平台，该方案费时费力，且效率低下。

发明内容

本申请的目的是提供一种基于舆情分析的消费返利平台识别方法、装置、设备及可读存储介质，用以解决传统的消费返利平台识别方案通过人工实现，因此存在费时费力，效率低下的问题。其具体方案如下：

第一方面，本申请提供了一种基于舆情分析的消费返利平台识别方法，包括：

利用jsoup请求URL，获取html页面数据；

利用xpath节点解析所述html页面数据，得到页面内容；

根据已知的消费返利平台样本和非消费返利平台样本，利用LOF算法对所述页面内容中的舆情信息进行分析，得到当前平台的识别结果，以确定所述当前平台是否为消费返利平台。

优选的，所述利用jsoup请求URL，获取html页面数据，包括：

利用jsoup请求待采集队列中的URL，获取html页面数据。

优选的，在所述利用xpath节点解析所述html页面数据，得到页面内容之后，还包括：

从所述页面内容中提取二级URL，并将所述二级URL加入待采集队列。

优选的，所述利用LOF算法对所述页面内容中的舆情信息进行分析，包括：

判断所述页面内容中的舆情信息中是否包含预设的关键字；

若是，则利用LOF算法对所述页面内容中的舆情信息进行分析；

若否，则丢弃所述页面内容。

优选的，在所述利用LOF算法对所述页面内容中的舆情信息进行分析之前，还包括：

对所述页面内容进行数据清洗，并从中提取得到平台基础信息、平台归属企业信息、网站工商信息、舆情信息。

优选的，所述利用LOF算法对所述页面内容中的舆情信息进行分析，得到当前平台的识别结果，包括：

确定所述页面内容中的舆情信息的特征，以作为待测点；

通过LOF算法，确定所述待测点的邻域点的局部可达密度与所述待测点的局部可达密度的比值；

根据所述比值，确定当前平台的识别结果。

优选的，在所述利用LOF算法对所述页面内容中的舆情信息进行分析之后，还包括：

通过curl命令获取所述当前平台的存活状态，得到存活状态检测结果。

第二方面，本申请提供了一种基于舆情分析的消费返利平台识别装置，包括：

页面获取模块：用于利用jsoup请求URL，获取html页面数据；

内容解析模块：用于利用xpath节点解析所述html页面数据，得到页面内容；

舆情分析模块：用于根据已知的消费返利平台样本和非消费返利平台样本，利用LOF算法对所述页面内容中的舆情信息进行分析，得到当前平台的识别结果，以确定所述当前平台是否为消费返利平台。

第三方面，本申请提供了一种基于舆情分析的消费返利平台识别设备，包括：

存储器：用于存储计算机程序；

处理器：用于执行所述计算机程序，以实现如上所述的基于舆情分析的消费返利平台识别方法的步骤。

第四方面，本申请提供了一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时用于实现如上所述的基于舆情分析的消费返利平台识别方法的步骤。

本申请所提供的一种基于舆情分析的消费返利平台识别方法，包括：利用jsoup请求URL，获取html页面数据；利用xpath节点解析html页面数据，得到页面内容；根据已知的消费返利平台样本和非消费返利平台样本，利用LOF算法对页面内容中的舆情信息进行分析，得到当前平台的识别结果，以确定当前平台是否为消费返利平台。可见，该方法能够自动采集平台页面数据，并通过智能分析页面内容中的舆情信息，判别当前平台是否为消费返利平台，是一种自动化识别消费返利平台的方案，避免了人工识别费时费力的问题，提升了消费返利平台的识别效率。

此外，本申请还提供了一种基于舆情分析的消费返利平台识别装置、设备及可读存储介质，其技术效果与上述方法的技术效果相对应，这里不再赘述。

附图说明

为了更清楚的说明本申请实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请所提供的一种基于舆情分析的消费返利平台识别方法实施例一的实现流程图；

图2为本申请所提供的一种基于舆情分析的消费返利平台识别方法实施例二的实现流程图；

图3为本申请所提供的一种基于舆情分析的消费返利平台识别方法实施例二中数据采集过程的实现流程图；

图4为本申请所提供的一种基于舆情分析的消费返利平台识别方法实施例二中舆情分析过程的实现流程图；

图5为本申请所提供的一种基于舆情分析的消费返利平台识别装置实施例的功能框图；

图6为本申请所提供的一种基于舆情分析的消费返利平台识别设备实施例的结构示意图。

具体实施方式

本申请的核心是提供一种基于舆情分析的消费返利平台识别方法、装置、设备及可读存储介质，实现了自动化识别消费返利平台的目的，避免了人工识别费时费力的问题，提升了消费返利平台的识别效率。

为了使本技术领域的人员更好地理解本申请方案，下面结合附图和具体实施方式对本申请作进一步的详细说明。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

下面对本申请提供的一种基于舆情分析的消费返利平台识别方法实施例一进行介绍，参见图1，实施例一包括：

S101、利用jsoup请求URL，获取html页面数据；

S102、利用xpath节点解析所述html页面数据，得到页面内容；

S103、根据已知的消费返利平台样本和非消费返利平台样本，利用LOF算法对所述页面内容中的舆情信息进行分析，得到当前平台的识别结果，以确定所述当前平台是否为消费返利平台。

首先进行数据采集，数据采集主要目的是为了获取消费返利平台的数据，其数据来源可以根据实际需求来设置。上述jsoup是一款Java的HTML解析器，可直接解析URL地址和HTML文本内容。上述xpath是一门在XML文档中查找信息的语言，本实施例中xpath节点用于在XML文档中通过元素和属性进行导航。

对于采集得到的页面数据，首先存储至爬虫数据库，然后对爬虫数据库中的页面数据进行机器分析，从而筛选出符合消费返利平台的页面数据，以便在后续过程中进行舆情分析。作为一种具体的实施方式，可以预先设置消费返利平台的关键字，通过将爬虫数据库中的页面数据与关键字进行匹配，判断当前平台是否可能为消费返利平台。

舆情是指在一定的社会空间内，围绕中介性社会事件的发生、发展和变化，作为主体的民众对作为客体的社会管理者、企业、个人及其他各类组织及其政治、社会、道德等方面的取向产生和持有的社会态度。本实施例中舆情信息是指反映用户对当前平台的认知、情感、态度、喜好程度、行为倾向的文本数据。

LOF算法(Local Outlier Factor，局部离群因子检测方法)是一种无监督的离群检测方法，常用于异常值检测。LOF算法原理主要是通过比较每个处在n维空间中的数据点p与其邻域点的密度来判断该点是否为异常点，点p的密度越低，越有可能被认定为异常点。而密度的计算，通过点之间的距离衡量，点之间距离越远，密度越低，距离越近，密度越高。

上述利用LOF算法对所述页面内容中的舆情信息进行分析，包括以下步骤：确定所述页面内容中的舆情信息的特征，以作为待测点；通过LOF算法，确定所述待测点的邻域点的局部可达密度与所述待测点的局部可达密度的比值；根据所述比值，确定当前平台的识别结果。

本实施例所提供一种基于舆情分析的消费返利平台识别方法，包括：利用jsoup请求URL，获取html页面数据；利用xpath节点解析html页面数据，得到页面内容；根据已知的消费返利平台样本和非消费返利平台样本，利用LOF算法对页面内容中的舆情信息进行分析，得到当前平台的识别结果，以确定当前平台是否为消费返利平台。可见，该方法能够自动采集平台页面数据，并通过智能分析页面内容中的舆情信息，判别当前平台是否为消费返利平台，是一种自动化识别消费返利平台的方案，避免了人工识别费时费力的问题，提升了消费返利平台的识别效率。

下面开始详细介绍本申请提供的一种基于舆情分析的消费返利平台识别方法实施例二，实施例二基于前述实施例一实现，并在实施例一的基础上进行了一定程度上的拓展。

图2为实施例二的实现流程图，图3为实施例二中数据采集过程的实现流程图，图4为实施例二中舆情分析过程的实现流程图。下面参照图2、图3、图4对实施例二进行介绍。

参见图2，实施例二具体包括：

S201、利用jsoup请求待采集队列中的URL，获取html页面数据，并存储至爬虫数据库；

如图3所示，本实施例的数据来源可以包括：

来源1、相关监管部门所掌握的网站；

来源2、提前握有的一批网站，进行一个重新爬取补全；

来源3、通过分析消费返利网站特征对互联网公开信息进行一个获取，近期上新平台名称以及平台网。

具体的，如果针对无法获取某个URL的html页面数据，则重复向该URL发起访问请求，直至失败次数达到预设次数，为该URL增加标签，以表示该网站疑似关闭。

S202、利用xpath节点解析所述html页面数据，得到页面内容；

S203、判断所述页面内容是否包含预设的关键字；若是，则跳转至S204；若否，则丢弃所述页面内容；

上述预设的关键字主要指反映消费返利平台特性的关键字，例如“1:1”，“全返”，“让利”，“消费送积分”等。

S204、将所述页面内容加入总数据库，并生成入库提示信息；

S205、从所述页面内容中提取二级URL，将所述二级URL加入待采集队列，并跳转至S201；

如图4所示，作为一种优选的实施方式，本实施例针对获取到的html页面，进行扩散一级页面和二级页面，并分别对网站内的一级页面和二级页面进行关键字分析。

S206、对数据库中所述页面内容进行数据清洗，并从中提取得到平台基础信息、平台归属企业信息、网站工商信息、舆情信息；

作为具体的实施方式，本实施例从页面内容中提取以下信息：

平台基础信息：平台名称、注册&上线时间、ICP备案号、是否已关停、是否存在风险、网页快照；

平台归属企业信息：名称、组织机构代码、归属地、法人、注册时间、注册资金、经营范围、实际控股人、重要人员、股东信息、年报、股权变更信息、曾用名、资质信息、注销情况、纳税人数、纳税总额、行政处罚信息、经营异常名录信息、严重违法失信企业信息、抽查检查结果信息、双随机抽查结果信息、司法协助信息；

网站工商信息：名称、域名、首页、备案号、所有人、企业名称、企业类型、验证时间、访问情况、上次更新时间、是否关停、关停时间、是否是僵尸网站、是否存在服务器迁移、原始服务器地址、迁移目标服务器地址；

新闻&舆情信息：新闻标题、新闻内容、内容来源、新闻时间、新闻、新闻关注度、是否是负面舆情、是否是热门新闻；

返利折扣信息：购物平台、返利比例。

S207、根据已知的消费返利平台样本和非消费返利平台样本，利用LOF算法对所述页面内容中的舆情信息进行分析，得到当前平台的识别结果，以确定所述当前平台是否为消费返利平台；

S208、通过curl命令获取所述当前平台的存活状态，得到存活状态检测结果。

本实施例中，舆情分析主要包括以下三个方面的分析：

方面1，指数分析：使用LOF算法计算监测平台是否出现互联网舆情激增情况。

方面2，互联网舆情导向分析：对互联网舆情做一个关键词分析，之中是否有出现“全返”、“崩盘跑路”、“提现困难”、“非法集资”、“涉嫌”、“曝光”一些关键词。

方面3，平台网站存活状态分析：通过扫描端口、ping网站域名、curl命令扫描网站响应码，来分析消费返利平台的存活状态。若网站消亡则代表平台消失，相应的对该平台风险下降。

可见，本实施例提供的一种基于舆情分析的消费返利平台识别方法，预先构建搜索关键词，从庞大的互联网信息中提取出与消费返利相关的舆情信息，自动采集和智能分析技术保证了从大量的舆情信息中分析出消费返利运营模式，准确性更强，以机器代替人力，克服传统方式的不足，可自动识别并输出消费返利运营模式的平台信息，节省时间成本和人力成本，识别效率高。

下面对本申请实施例提供的一种基于舆情分析的消费返利平台识别装置进行介绍，下文描述的一种基于舆情分析的消费返利平台识别装置与上文描述的一种基于舆情分析的消费返利平台识别方法可相互对应参照。

如图5所示，该消费返利平台识别装置包括：

页面获取模块501：用于利用jsoup请求URL，获取html页面数据；

内容解析模块502：用于利用xpath节点解析所述html页面数据，得到页面内容；

舆情分析模块503：用于根据已知的消费返利平台样本和非消费返利平台样本，利用LOF算法对所述页面内容中的舆情信息进行分析，得到当前平台的识别结果，以确定所述当前平台是否为消费返利平台。

本实施例的基于舆情分析的消费返利平台识别装置用于实现前述的基于舆情分析的消费返利平台识别方法，因此该装置中的具体实施方式可见前文中的基于舆情分析的消费返利平台识别方法的实施例部分，例如，页面获取模块501、内容解析模块502、舆情分析模块503，分别用于实现上述基于舆情分析的消费返利平台识别方法中步骤S101，S102，S103。所以，其具体实施方式可以参照相应的各个部分实施例的描述，在此不再展开介绍。

另外，由于本实施例的基于舆情分析的消费返利平台识别装置用于实现前述的基于舆情分析的消费返利平台识别方法，因此其作用与上述方法的作用相对应，这里不再赘述。

此外，本申请还提供了一种基于舆情分析的消费返利平台识别设备，如图6所示，包括：

存储器100：用于存储计算机程序；

处理器200：用于执行所述计算机程序，以实现如上文所述的基于舆情分析的消费返利平台识别方法的步骤。

最后，本申请提供了一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时用于实现如上文所述的基于舆情分析的消费返利平台识别方法的步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本申请所提供的方案进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种基于舆情分析的消费返利平台识别方法，其特征在于，包括：

利用jsoup请求URL，获取html页面数据；

利用xpath节点解析所述html页面数据，得到页面内容；

根据已知的消费返利平台样本和非消费返利平台样本，利用LOF算法对所述页面内容中的舆情信息进行分析，得到当前平台的识别结果，以确定所述当前平台是否为消费返利平台；

所述利用LOF算法对所述页面内容中的舆情信息进行分析包括：指数分析：使用LOF算法计算监测平台是否出现互联网舆情激增情况；

互联网舆情导向分析：对互联网舆情做关键词分析；

平台网站存活状态分析：通过扫描端口、ping网站域名、curl命令扫描网站响应码，来分析消费返利平台的存活状态。

2.如权利要求1所述的方法，其特征在于，所述利用jsoup请求URL，获取html页面数据，包括：

利用jsoup请求待采集队列中的URL，获取html页面数据。

3.如权利要求2所述的方法，其特征在于，在所述利用xpath节点解析所述html页面数据，得到页面内容之后，还包括：

4.如权利要求1所述的方法，其特征在于，所述利用LOF算法对所述页面内容中的舆情信息进行分析，包括：

判断所述页面内容中的舆情信息中是否包含预设的关键字；

若否，则丢弃所述页面内容。

5.如权利要求4所述的方法，其特征在于，在所述利用LOF算法对所述页面内容中的舆情信息进行分析之前，还包括：

6.如权利要求1所述的方法，其特征在于，所述利用LOF算法对所述页面内容中的舆情信息进行分析，得到当前平台的识别结果，包括：

确定所述页面内容中的舆情信息的特征，以作为待测点；

根据所述比值，确定当前平台的识别结果。

7.如权利要求1-6任意一项所述的方法，其特征在于，在所述利用LOF算法对所述页面内容中的舆情信息进行分析之后，还包括：

8.一种基于舆情分析的消费返利平台识别装置，其特征在于，包括：

页面获取模块：用于利用jsoup请求URL，获取html页面数据；

舆情分析模块：用于根据已知的消费返利平台样本和非消费返利平台样本，利用LOF算法对所述页面内容中的舆情信息进行分析，得到当前平台的识别结果，以确定所述当前平台是否为消费返利平台；所述利用LOF算法对所述页面内容中的舆情信息进行分析包括：指数分析：使用LOF算法计算监测平台是否出现互联网舆情激增情况；

互联网舆情导向分析：对互联网舆情做关键词分析；

9.一种基于舆情分析的消费返利平台识别设备，其特征在于，包括：

存储器：用于存储计算机程序；

处理器：用于执行所述计算机程序，以实现如权利要求1-7任意一项所述的基于舆情分析的消费返利平台识别方法的步骤。

10.一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时用于实现如权利要求1-7任意一项所述的基于舆情分析的消费返利平台识别方法的步骤。