CN117668389A

CN117668389A - 一种基于浏览器的供电所台账数据获取方法及系统

Info

Publication number: CN117668389A
Application number: CN202311735401.7A
Authority: CN
Inventors: 颜玮康; 李勇; 王彪; 张凌; 郑永建; 郝隽阳; 张敏; 黄显斌
Original assignee: Tianfu New Area Power Supply Company State Grid Sichuan Electric Power Co
Current assignee: Tianfu New Area Power Supply Company State Grid Sichuan Electric Power Co
Priority date: 2023-12-14
Filing date: 2023-12-14
Publication date: 2024-03-08

Abstract

本发明公开了一种基于浏览器的供电所台账数据获取方法及系统，涉及网页数据获取领域，该方法包括：在目标网站中确定用于数据下载的目标网页；获取目标网页的网址URL，得到网址URL的第一格式和第一参数；设置向目标网页发送的网络请求的请求参数，并将设置好请求参数的网络请求按照预置的请求方式发送到目标网页；获取目标网页在接收网络请求后反馈的请求状态码，根据请求状态码得到网络请求的请求结果；若请求结果为请求成功，获取对应的数据源代码，将解码处理后的数据源代码确定为台账数据；本网页数据的获取方式相比于多个其他的工作人工开展，不仅容易出错，还需要层层审核，效率低下，因此通过此方式可以实现高效准确开展工作。

Description

一种基于浏览器的供电所台账数据获取方法及系统

技术领域

本发明涉及网页数据获取领域，更具体地说，它涉及一种基于浏览器的供电所台账数据获取方法及系统。

背景技术

供电所的台账数据可以了解当前配网的转供电能力，对加强薄弱环节的配网建设提供数据的支持；目前台账数据需要在相应的网页中得到，而台账数据的获取存在以下的问题：有的获取方式必须需要和目标网站开发人员密切沟通，获取详细的协议接口规范，开发难度大，如果没有接口规范则难以实现；对于另一种获取方式，需要对网页元素进行定位，一旦网页改变，程序也必须更新后才能使用，同时基于浏览器导致资源占用大、运行速度较慢，部分网页元素无法定位可能导致无法开发。

发明内容

本发明的目的在于提供一种基于浏览器的供电所台账数据获取方法及系统，以解决上述背景技术中存在的问题。

本发明的上述技术目的是通过以下技术方案得以实现的：

第一方面，本申请实施例提供了一种基于浏览器的供电所台账数据获取方法，包括以下步骤：

登录供数据下载的目标网站，并在目标网站中确定一个或多个用于数据下载的目标网页；

获取目标网页的网址URL，并解析得到网址URL的第一格式和第一参数；

根据第一格式和第一参数，设置向目标网页发送的网络请求的请求参数，并将设置好请求参数的网络请求按照预置的请求方式发送到目标网页；

获取目标网页在接收网络请求后反馈的请求状态码，并根据请求状态码得到网络请求的请求结果，请求结果包括请求成功和请求失败；

若请求结果为请求成功，获取请求结果对应的数据源代码，并对数据源代码按照预置的解码格式进行解码处理，并将解码处理后的数据源代码确定为台账数据。

本发明的有益效果是：本方案中，通过得到目标网站中目标网页的网址URL，并根据网址URL的第一格式和第一参数生成对应的网络请求，即网络请求与网址URL的格式和参数一致，从而将设置好请求参数的网络请求发送到目标网页，目标网页根据网络请求从而生成反馈的请求状态码，根据请求状态码即可了解到当前网页是否能够完成网络请求的需求，据此再进行数据的下载和获取，对于获取到的数据源代码再根据预置的解码格式进行解码即可，对于解码完成的数据，可以是txt文本格式的数据，也可以是xls等其他形式的数据，依据解码格式来确定，最终实现对供电所台账数据的获取。

本方案中，通过新的网页数据的获取方式，相比传统的网页数据的下载，本获取方式无需与目标网站的开发人员密切沟通，并不需要获取详细的协议接口规范，极大的降低了开发难度，且对于没有接口规范则也可以实现；并且不需要对网页元素进行定位，当网页发生改变时，也不会涉及程序更新后才能使用，同时占用浏览器的资源相对较少，可以提升浏览器的运行速度。

本方案中，对于供电所的台账数据的获取，除此之外还存在大量的如管理体系运行、实验室药品管理、报告管理等繁杂琐碎的工作；本网页数据的获取方式相比于多个其他的工作人工开展，不仅容易出错，还需要层层审核，效率低下，因此通过此方式可以实现高效准确开展工作。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步，上述将设置好请求参数的网络请求按照预置的请求方式发送到目标网页前，方法还包括：

设置网络请求的数据区间，数据区间包括时间区间、空间区间、类别区间中的至少一项。

采用上述进一步方案的有益效果是：即实现对需要下载的数据进行选择，从时间上、肯空间上以及类别上进行数据的选择性获取。

进一步，上述方法还包括：

若请求结果为请求失败，根据第一格式和第一参数，重新设置向目标网页发送的网络请求的请求参数，直到请求结果为请求成功。

进一步，上述请求失败包括资源寻找失败、解析失败、内部错误失败中的至少一项。

采用上述进一步方案的有益效果是：对于请求结果为请求失败，导致这样的结果的问题存在多种，可能是由于没有寻找到与请求对应的数据，可以是是网页中与请求对应的数据不能进行正常的解析或通过解析不能得到与请求对应的数据，还可以是网站系统存在异常导致的；当出现此种情况后，可以基于网络请求重新设置请求参数，在不断的调整后找出问题所在，最终使请求结果为请求成功。

进一步，上述获取请求结果对应的数据源代码，具体为：

将一个或多个目标网页的网址URL放入预置的请求队列中，并将一个或多个网址URL依次分配至预置的线程池中的各个线程；

每个线程基于设置好的请求参数向目标网页发送对应的网络请求，并得到与各个网络请求对应的第一源代码；

将各个第一源代码放入预置的数据获取队列中，并根据各个线程的核心参数对各个第一源代码进行解析；

将进行解析后的各个第一源代码进行关键词的匹配，将匹配合格的一个或多个解析后的第一源代码确定为数据源代码。

采用上述进一步方案的有益效果是：利用多个线程同时执行多个网页的数据下载，当出现需要获取多个网页数据信息时，可以提高数据的获取效率，有效的缩短数据获取时间。

进一步，上述方法还包括：

基于K均值算法对台账数据进行分类处理，得到台账数据中不同类别的多个目标数据。

采用上述进一步方案的有益效果是：供电所的台账数据中存在对个数据类别，例如配电情况、维护情况、项目开支等等，通过K均值算法对台账数据进行分类处理，可以将台账数据中的各个类别数据进行分别，最终得到不同类别的各个目标数据，一方面，大幅度缩短数据处理时间，另一方面，提高数据处理的准确度，便于工作人员进行反馈和处理。

进一步，上述分类处理的目标函数通过第一公式表示，第一公式为：

式中，(a_j(c_i))表示第c_i样本对第j类的隶属度，c_i表示数据集合C中的第i个数据，m_i表示第i个簇的中心，b表示模糊度控制因子。

进一步，上述在第一公式中：

其中，j＝1，2，3，…k；

进一步，上述在第一公式中：

其中，i＝1，2，3，…n；j＝1，2，3，…k；

式中，(a_j(c_i))表示第c_i样本对第j类的隶属度，C表示数据集合，m_i或m_j表示第i个簇或第j个簇的中心，b表示模糊度控制因子。

采用上述进一步方案的有益效果是：在算法的实现过程中，算法的输入参数包括四个，分别是台账数据、台账数据包含N条数据记录、用户期望得到的K个簇、模糊度控制因子b，最终得到不同类别的K个簇的目标数据。

第二方面，本申请实施例提供了一种基于浏览器的供电所台账数据获取系统，应用于第一方面中任一项的一种基于浏览器的供电所台账数据获取方法，包括：

第一模块，用于登录供数据下载的目标网站，并在目标网站中确定一个或多个用于数据下载的目标网页；

第二模块，用于获取目标网页的网址URL，并解析得到网址URL的第一格式和第一参数；

第三模块，用于根据第一格式和第一参数，设置向目标网页发送的网络请求的请求参数，并将设置好请求参数的网络请求按照预置的请求方式发送到目标网页；

第四模块，用于获取目标网页在接收网络请求后反馈的请求状态码，并根据请求状态码得到网络请求的请求结果，请求结果包括请求成功和请求失败；

第五模块，用于若请求结果为请求成功，获取请求结果对应的数据源代码，并对数据源代码按照预置的解码格式进行解码处理，并将解码处理后的数据源代码确定为台账数据。

第三方面，本申请实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现第一方面中任一项的方法。

第四方面，本申请实施例提供了一种非暂态计算机可读存储介质，非暂态计算机可读存储介质存储计算机指令，计算机指令使计算机执行第一方面中任一项的方法。

与现有技术相比，本发明至少具有以下的有益效果：

在本申请中，通过得到目标网站中目标网页的网址URL，并根据网址URL的第一格式和第一参数生成对应的网络请求，即网络请求与网址URL的格式和参数一致，从而将设置好请求参数的网络请求发送到目标网页，目标网页根据网络请求从而生成反馈的请求状态码，根据请求状态码即可了解到当前网页是否能够完成网络请求的需求，据此再进行数据的下载和获取，对于获取到的数据源代码再根据预置的解码格式进行解码即可，对于解码完成的数据，可以是txt文本格式的数据，也可以是xls等其他形式的数据，依据解码格式来确定，最终实现对供电所台账数据的获取。

在本申请中，通过新的网页数据的获取方式，相比传统的网页数据的下载，本获取方式无需与目标网站的开发人员密切沟通，并不需要获取详细的协议接口规范，极大的降低了开发难度，且对于没有接口规范则也可以实现；并且不需要对网页元素进行定位，当网页发生改变时，也不会涉及程序更新后才能使用，同时占用浏览器的资源相对较少，可以提升浏览器的运行速度；对于供电所的台账数据的获取，除此之外还存在大量的如管理体系运行、实验室药品管理、报告管理等繁杂琐碎的工作；本网页数据的获取方式相比于多个其他的工作人工开展，不仅容易出错，还需要层层审核，效率低下，因此通过此方式可以实现高效准确开展工作。

在本申请中，供电所的台账数据中存在对个数据类别，例如配电情况、维护情况、项目开支等等，通过K均值算法对台账数据进行分类处理，可以将台账数据中的各个类别数据进行分别，最终得到不同类别的各个目标数据，一方面，大幅度缩短数据处理时间，另一方面，提高数据处理的准确度，便于工作人员进行反馈和处理。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。在附图中：

图1为本发明实施例中获取方法的方法流程图；

图2为本发明实施例中获取系统的连接示意图；

图3为本发明实施例中电子设备的连接示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本发明实施例的描述中，“多个”代表至少2个。

实施例1：

本实施例提供一种基于浏览器的供电所台账数据获取方法及系统，如图1所示，包括以下步骤：

S1，登录供数据下载的目标网站，并在目标网站中确定一个或多个用于数据下载的目标网页。

其中，登录目标网站后，在目标网站中进行筛选和查询，找出需要进行数据下载的目标网页，进而在目标网页中再进行相应的操作。

S2，获取目标网页的网址URL，并解析得到网址URL的第一格式和第一参数。

其中，网址URL通用格式为：

<scheme>://<host>:<port>/<path>/<params>？<query>#<frag>；翻译为中文为：

<方案>://<主机>:<端口>/<路径>/<参数>？<查询>#<锚点>。

其中：<scheme>表示访问服务器获取资源所使用的协议，例如http、https、ftp等；<host>表示资源宿主服务器的主机名、ip地址或域名；<port>表示资源宿主服务器正在监听的端口号，例如http默认为80、https默认是443等；<path>表示服务器上资源的路径，由斜杠(/)与前面URL组件分隔开；<params>表示服务器上资源规定的参数；<query>表示资源的查找条件，用问号(？)与URL其余组件分隔开；<frag>表示网页锚点，用于标记一个网页中部分内容。

S3，根据第一格式和第一参数，设置向目标网页发送的网络请求的请求参数，并将设置好请求参数的网络请求按照预置的请求方式发送到目标网页。

其中，在确定好要爬取的网页URL后，查看网页URL的标头里面的UserAgent，即是需要设置的网络请求参数；具体地，User Agent简称UA，表示用户代理，是提供的一个标识自己身份的标识符，包含了用户正在使用的设备以及软件的一些信息，例如浏览器、版本、浏览器渲染引擎等。不同的浏览器其User Agent不同，因此需要在发送请求之前设置好该参数。

其中，预置的请求方式可以包括GET、POST、HEAD、PUT、DELETE、TRACE、CONNECT、OPTIONS等，本实施例中，可以采用POST请求方式，POST请求执行提交信息、传输信息的操作，对服务器上资源会产生影响，一般用于例如注册、登录、上传文件等操作；POST请求传递的一些数据和参数不是直接拼接在URL后的，而是放在Http请求Body里，相对GET请求来说，POST请求比较安全，并且传递的数据大小和格式是无限制的。

可选的，上述将设置好请求参数的网络请求按照预置的请求方式发送到目标网页前，方法还包括：

其中，即实现对需要下载的数据进行选择，从时间上、肯空间上以及类别上进行数据的选择性获取。

S4，获取目标网页在接收网络请求后反馈的请求状态码，并根据请求状态码得到网络请求的请求结果，请求结果包括请求成功和请求失败。

可选的，上述方法还包括：

可选的，上述请求失败包括资源寻找失败、解析失败、内部错误失败中的至少一项。

其中，对于请求结果为请求失败，导致这样的结果的问题存在多种，可能是由于没有寻找到与请求对应的数据，可以是是网页中与请求对应的数据不能进行正常的解析或通过解析不能得到与请求对应的数据，还可以是网站系统存在异常导致的；当出现此种情况后，可以基于网络请求重新设置请求参数，在不断的调整后找出问题所在，最终使请求结果为请求成功。

S5，若请求结果为请求成功，获取请求结果对应的数据源代码，并对数据源代码按照预置的解码格式进行解码处理，并将解码处理后的数据源代码确定为台账数据。

可选的，上述获取请求结果对应的数据源代码，具体为：

将一个或多个目标网页的网址URL放入预置的请求队列中，并将一个或多个网址URL依次分配至预置的线程池中的各个线程。

每个线程基于设置好的请求参数向目标网页发送对应的网络请求，并得到与各个网络请求对应的第一源代码。

将各个第一源代码放入预置的数据获取队列中，并根据各个线程的核心参数对各个第一源代码进行解析。

其中，利用多个线程同时执行多个网页的数据下载，当出现需要获取多个网页数据信息时，可以提高数据的获取效率，有效的缩短数据获取时间。

具体地，通过得到目标网站中目标网页的网址URL，并根据网址URL的第一格式和第一参数生成对应的网络请求，即网络请求与网址URL的格式和参数一致，从而将设置好请求参数的网络请求发送到目标网页，目标网页根据网络请求从而生成反馈的请求状态码，根据请求状态码即可了解到当前网页是否能够完成网络请求的需求，据此再进行数据的下载和获取，对于获取到的数据源代码再根据预置的解码格式进行解码即可，对于解码完成的数据，可以是txt文本格式的数据，也可以是xls等其他形式的数据，依据解码格式来确定，最终实现对供电所台账数据的获取。其中，通过新的网页数据的获取方式，相比传统的网页数据的下载，本获取方式无需与目标网站的开发人员密切沟通，并不需要获取详细的协议接口规范，极大的降低了开发难度，且对于没有接口规范则也可以实现；并且不需要对网页元素进行定位，当网页发生改变时，也不会涉及程序更新后才能使用，同时占用浏览器的资源相对较少，可以提升浏览器的运行速度。其中，对于供电所的台账数据的获取，除此之外还存在大量的如管理体系运行、实验室药品管理、报告管理等繁杂琐碎的工作；本网页数据的获取方式相比于多个其他的工作人工开展，不仅容易出错，还需要层层审核，效率低下，因此通过此方式可以实现高效准确开展工作。

可选的，上述方法还包括：

其中，供电所的台账数据中存在对个数据类别，例如配电情况、维护情况、项目开支等等，通过K均值算法对台账数据进行分类处理，可以将台账数据中的各个类别数据进行分别，最终得到不同类别的各个目标数据，一方面，大幅度缩短数据处理时间，另一方面，提高数据处理的准确度，便于工作人员进行反馈和处理。

可选的，上述分类处理的目标函数通过第一公式表示，第一公式为：

可选的，上述在第一公式中：

其中，j＝1，2，3，…k；

可选的，上述在第一公式中：

其中，i＝1，2，3，…n；j＝1，2，3，…k；

其中，在算法的实现过程中，算法的输入参数包括四个，分别是台账数据、台账数据包含N条数据记录、用户期望得到的K个簇、模糊度控制因子b，最终得到不同类别的K个簇的目标数据。

实施例2：

本申请实施例提供了一种基于浏览器的供电所台账数据获取系统，应用于实施例1中任一项的一种基于浏览器的供电所台账数据获取方法，如图2所示，包括：

第一模块，用于登录供数据下载的目标网站，并在目标网站中确定一个或多个用于数据下载的目标网页。

第二模块，用于获取目标网页的网址URL，并解析得到网址URL的第一格式和第一参数。

第三模块，用于根据第一格式和第一参数，设置向目标网页发送的网络请求的请求参数，并将设置好请求参数的网络请求按照预置的请求方式发送到目标网页。

第四模块，用于获取目标网页在接收网络请求后反馈的请求状态码，并根据请求状态码得到网络请求的请求结果，请求结果包括请求成功和请求失败。

可选的，上述第五模块可以包括：

第一子模块，用于将一个或多个目标网页的网址URL放入预置的请求队列中，并将一个或多个网址URL依次分配至预置的线程池中的各个线程。

第二子模块，用于每个线程基于设置好的请求参数向目标网页发送对应的网络请求，并得到与各个网络请求对应的第一源代码。

第三子模块，用于将各个第一源代码放入预置的数据获取队列中，并根据各个线程的核心参数对各个第一源代码进行解析。

第四子模块，用于将进行解析后的各个第一源代码进行关键词的匹配，将匹配合格的一个或多个解析后的第一源代码确定为数据源代码。

可选的，上述系统还可以包括：

第六模块，用于若请求结果为请求失败，根据第一格式和第一参数，重新设置向目标网页发送的网络请求的请求参数，直到请求结果为请求成功。

可选的，上述第六模块中，请求失败包括资源寻找失败、解析失败、内部错误失败中的至少一项。

可选的，上述系统还可以包括：

第七模块，用于基于K均值算法对台账数据进行分类处理，得到台账数据中不同类别的多个目标数据。

实施例3：

本申请实施例提供了一种电子设备，如图3所示，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现实施例1中任一项的方法。

实施例4：

本申请实施例提供了一种非暂态计算机可读存储介质，非暂态计算机可读存储介质存储计算机指令，计算机指令使计算机执行实施例1中任一项的方法。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于浏览器的供电所台账数据获取方法，其特征在于，包括以下步骤：

登录供数据下载的目标网站，并在所述目标网站中确定一个或多个用于数据下载的目标网页；

获取所述目标网页的网址URL，并解析得到所述网址URL的第一格式和第一参数；

根据所述第一格式和所述第一参数，设置向目标网页发送的网络请求的请求参数，并将设置好请求参数的网络请求按照预置的请求方式发送到目标网页；

获取目标网页在接收所述网络请求后反馈的请求状态码，并根据所述请求状态码得到网络请求的请求结果，所述请求结果包括请求成功和请求失败；

若所述请求结果为请求成功，获取所述请求结果对应的数据源代码，并对所述数据源代码按照预置的解码格式进行解码处理，并将解码处理后的数据源代码确定为台账数据。

2.根据权利要求1所述的一种基于浏览器的供电所台账数据获取方法，其特征在于，将设置好请求参数的网络请求按照预置的请求方式发送到目标网页前，所述方法还包括：

设置所述网络请求的数据区间，所述数据区间包括时间区间、空间区间、类别区间中的至少一项。

3.根据权利要求1所述的一种基于浏览器的供电所台账数据获取方法，其特征在于，所述方法还包括：

若所述请求结果为请求失败，根据所述第一格式和所述第一参数，重新设置向目标网页发送的网络请求的请求参数，直到所述请求结果为请求成功。

4.根据权利要求3所述的一种基于浏览器的供电所台账数据获取方法，其特征在于，所述请求失败包括资源寻找失败、解析失败、内部错误失败中的至少一项。

5.根据权利要求1所述的一种基于浏览器的供电所台账数据获取方法，其特征在于，所述获取所述请求结果对应的数据源代码，具体为：

将一个或多个所述目标网页的网址URL放入预置的请求队列中，并将一个或多个所述网址URL依次分配至预置的线程池中的各个线程；

每个线程基于设置好的请求参数向目标网页发送对应的网络请求，并得到与各个所述网络请求对应的第一源代码；

将各个所述第一源代码放入预置的数据获取队列中，并根据各个线程的核心参数对各个第一源代码进行解析；

将进行解析后的各个第一源代码进行关键词的匹配，将匹配合格的一个或多个解析后的第一源代码确定为所述数据源代码。

6.根据权利要求1-5中任一项所述的一种基于浏览器的供电所台账数据获取方法，其特征在于，所述方法还包括：

基于K均值算法对所述台账数据进行分类处理，得到所述台账数据中不同类别的多个目标数据。

7.根据权利要求6所述的一种基于浏览器的供电所台账数据获取方法，其特征在于，所述分类处理的目标函数通过第一公式表示，所述第一公式为：

8.根据权利要求7所述的一种基于浏览器的供电所台账数据获取方法，其特征在于，在所述第一公式中：

其中，j＝1，2，3，…k；

9.根据权利要求7所述的一种基于浏览器的供电所台账数据获取方法，其特征在于，在所述第一公式中：

其中，i＝1，2，3，…n；j＝1，2，3，…k；

10.一种基于浏览器的供电所台账数据获取系统，应用于权利要求1-9中任一项所述的一种基于浏览器的供电所台账数据获取方法，包括：

第一模块，用于登录供数据下载的目标网站，并在所述目标网站中确定一个或多个用于数据下载的目标网页；

第二模块，用于获取所述目标网页的网址URL，并解析得到所述网址URL的第一格式和第一参数；

第三模块，用于根据所述第一格式和所述第一参数，设置向目标网页发送的网络请求的请求参数，并将设置好请求参数的网络请求按照预置的请求方式发送到目标网页；

第四模块，用于获取目标网页在接收所述网络请求后反馈的请求状态码，并根据所述请求状态码得到网络请求的请求结果，所述请求结果包括请求成功和请求失败；

第五模块，用于若所述请求结果为请求成功，获取所述请求结果对应的数据源代码，并对所述数据源代码按照预置的解码格式进行解码处理，并将解码处理后的数据源代码确定为台账数据。