CN113849718A

CN113849718A - 互联网烟草科技情报信息自动采集装置、方法与存储介质

Info

Publication number: CN113849718A
Application number: CN202111144693.8A
Authority: CN
Inventors: 曾令杰; 张乾; 谢雯燕; 施隽明; 余叶琦; 沈璐婕; 张侃弘
Original assignee: Shanghai Tobacco Group Co Ltd
Current assignee: Shanghai Tobacco Group Co Ltd
Priority date: 2021-09-28
Filing date: 2021-09-28
Publication date: 2021-12-28

Abstract

本发明提供互联网烟草科技情报信息自动采集装置、方法、存储介质及电子设备。其中，互联网烟草科技情报信息自动采集装置包括：任务控制模块，用于设置采集任务，并控制所述采集任务的执行；信息采集模块，用于在所述采集任务开始执行时，模拟访问目标网页，分析所述目标网页的结构，根据各目标网页标签确定各目标网页元素的位置，获取各所述目标网页元素的数据；信息存储模块，用于按预设规则存储各所述目标网页元素的数据。本发明可以根据需求配置后自动采集烟草行业互联网科技情报信息，并按规则自动存储至计算机设备和介质中，免去了人工监护，提高了信息采集效率，为科技创新活动提供了高效的科技情报信息服务。

Description

互联网烟草科技情报信息自动采集装置、方法与存储介质

技术领域

本发明涉及科技情报信息技术领域，特别是涉及互联网烟草科技情报信息自动采集装置、方法、存储介质及电子设备。

背景技术

互联网信息自动采集方法多见于计算机与网络技术领域，通常采用网络爬虫技术自动采集互联网信息。网络爬虫，又称网页蜘蛛、网络机器人，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。通过网络爬虫采集信息后，科技情报信息人员再结合业务需要对信息进行分析、应用。互联网信息自动采集系统则需进一步建立任务管理、信息存储等系统功能。

我国是全世界最大的烟草生产国与消费国，烟草行业是国民经济支柱产业之一，中国烟草行业实行统一领导、垂直管理、专卖专营的管理体制。近年来烟草行业利税总额保持增长，自主创新能力显著增强，市场掌控能力稳步上升，产业体系日趋完善，竞争实力不断增强。但也面临增长速度回落、工商库存增加、结构空间变窄、需求拐点逼近的“四大难题”，以及竞争不断加剧，产业技术变革速度明显加快的外部形势；同时，近年来传统卷烟也面临新型烟草制品蓬勃发展带来的压力。为应对竞争，烟草工商企业及配套企业开始关注国际国内烟草行业发展动态和宏观经济社会政策环境，加强产业链上下游协同，持续加强产品与技术创新，开展科技情报信息研究支撑主体业务。科技情报信息研究是以获取公开的科技信息为基础，经情报分析形成情报产品，供科技管理和决策参考。由于烟草行业垂直管理的特殊性，所涉及的领域具有浓厚行业自身特点，通常通过科技情报信息业务人员人工访问并获取目标信息，人工编辑形成简报等科技情报信息产品供技术人员使用，开展信息分析形成研究报告供决策参考，尚未见互联网烟草科技情报信息自动采集方法与计算机设备的相关报道，智能化程度有待提高。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供互联网烟草科技情报信息自动采集装置、方法、存储介质及电子设备，满足互联网时代从海量互联网信息中自动采集烟草科技情报信息，并将信息存储于计算机设备和介质中，为情报分析奠定基础。

为实现上述目的及其他相关目的，本发明提供一种互联网烟草科技情报信息自动采集装置，包括以下模块：

任务控制模块，用于设置采集任务，并控制所述采集任务的执行；

信息采集模块，用于在所述采集任务开始执行时，模拟访问目标网页，分析所述目标网页的结构，根据各目标网页标签确定各目标网页元素的位置，获取各所述目标网页元素的数据；

信息存储模块，用于按预设规则存储各所述目标网页元素的数据。

在一实施例中，所述任务控制模块还用于：提供互联网烟草科技情报信息源列表的查看、修改及维护功能；提供各所述采集任务的排程编辑功能，以及各所述采集任务的开启及终止功能；提供各所述采集任务的执行情况查看功能。

在一实施例中，各所述目标网页元素的位置分别采用超链接的形式。

在一实施例中，所述信息采集模块根据各所述目标网页元素的超链接构建Xpath表达式或正则表达式，并利用所述Xpath表达式或正则表达式来获取各所述目标网页元素的数据。

在一实施例中，所述信息采集模块还用于：提供各所述目标网页标签的修改功能，包括修改目标网页标签的数量、目标网页标签的名称；和/或提供各所述目标网页元素的修改功能，包括修改目标网页元素的数量、目标网页元素的类型。

在一实施例中，所述信息存储模块还用于：提供数据库类型、数据关系、数据库访问接口方式的修改功能。

在一实施例中，所述信息存储模块按预设规则存储各所述目标网页元素的数据，包括：按照预设分类或主题，将获取的各所述目标网页元素的数据分类或分主题存储于本地。

为实现上述目的及其他相关目的，本发明提供一种互联网烟草科技情报信息自动采集方法，包括以下步骤：

设置采集任务，并控制所述采集任务的执行；

在所述采集任务开始执行时，模拟访问目标网页，分析所述目标网页的结构，根据各目标网页标签确定各目标网页元素的位置，获取各所述目标网页元素的数据；

按预设规则存储各所述目标网页元素的数据。

为实现上述目的及其他相关目的，本发明提供一种计算机可读存储介质，其中存储有计算机程序，所述计算机程序被处理器加载执行时，实现如上所述的方法。

为实现上述目的及其他相关目的，本发明提供一种电子设备，包括：处理器及存储器；其中，所述存储器用于存储计算机程序；所述处理器用于加载执行所述计算机程序，以使所述电子设备执行如上所述的方法。

如上所述，本发明的互联网烟草科技情报信息自动采集装置、方法、存储介质及电子设备，与现有技术相比，具有如下优势：

(1)本发明所建立的任务控制模块，实现了对信息源的一次输入和动态管理，有利于积累形成互联网烟草科技情报信息资源池；该模块具有的任务排程、触发及中止等管理功能，有效提高了信息采集速率，免去了人工监护，实现了信息采集任务自动化；

(2)本发明所建立的信息采集模块，相比于传统的互联网烟草科技情报信息人工采集方式，避免了传统人工方式信息采集面局限，省去了人工信息采集繁重工作量，避免了人工采集造成的信息错漏，改善了被采集科技情报信息的本地管理及后续应用；

(3)本发明所建立的信息存储模块，相比于传统人工管理互联网烟草科技情报信息，快速建立了本地信息数据库，快速积累形成互联网烟草科技情报信息数据资产；通过预设规则实现信息快速分类，并为后续的信息共享展示、信息价值分析挖掘提供了便利。

附图说明

图1显示为本发明一实施例中互联网烟草科技情报信息自动采集系统的架构图。

图2显示为本发明一实施例中信息采集模块的工作过程示意图。

图3显示为本发明一实施例中任务控制模块的工作过程示意图。

图4显示为本发明一实施例中信息存储模块的工作过程示意图。

图5显示为本发明一实施例中互联网烟草科技情报信息自动采集方法的示意图。

图6显示为本发明一实施例中电子设备的结构示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图示中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

如图1所示，显示为本发明一实施例中互联网烟草科技情报信息自动采集系统的架构，包括与互联网相连的服务器、PC端，以及与服务器及PC端通信相连的互联网烟草科技情报信息自动采集装置1。一般的，如1所示架构中计算机设备技术参数信息如下：

1)PC端采用C/S架构，前端使用Java Swing为客户端提供友好的控制界面来操作程序；

2)服务器可以通知操作系统指令来执行运行程序。

管理员可以在PC端通过界面操作或者直接在Linux操作系统通过指令来控制互联网烟草科技情报信息自动采集装置1自动采集互联网烟草科技情报信息。

以下将详细介绍本申请提出的互联网烟草科技情报信息自动采集装置1，以下简称自动采集装置1。

自动采集装置1包括：任务控制模块101、信息采集模块102、信息存储模块103。部署于具有网络访问功能、任务并发管理、数据库存储与管理的计算机设备上，如图1所示的PC端。

任务控制模块101主要用于设置采集任务，并控制所述采集任务的执行。

参阅图2，详细而言，任务控制模块101管理互联网烟草科技情报信息源，管理信息采集模块102提取的网页链接，管理信息采集任务的触发与终止、排程与进度等。通过任务控制模块101，用户可以查看互联网烟草科技情报信息源列表，对信息源列表进行修改维护；可以查看信息采集模块102提取的网页链接，管理网页链接是否进入任务；可以查看采集任务排程情况，并根据自己的需求改变任务排程，手动触发或中止某个任务等。

参阅图3，信息采集模块102主要用于在所述采集任务开始执行时，模拟访问目标网页，分析所述目标网页的结构，根据各目标网页标签确定各目标网页元素的位置，获取各所述目标网页元素的数据。

详细而言，信息采集模块102负责发送访问请求获取信息源网页结构，确定访问获取目标网站数据的方式；解析目标信息源网站的网页结构，确定目标数据的网页标签；根据各目标网页元素的超链接构建Xpath表达式或写成正则表达式，采集目标元素内容。

需要说明的是，信息采集模块102从互联网下载到网页是第一步。拿到网页数据后，需要从中提取目标信息，例如标题、内容、时间、作者等。最常见的提取方式是XPath和正则表达式。XPath即为XML路径语言(XML Path Language)，它是一种用来确定XML文档中某部分位置的语言。XPath基于XML的树状结构，提供在数据结构树中找寻节点的能力。XPath主要是用来处理XML格式文档的，它是基于XML文档的层次结构来确定一个到达指定节点的路径，特别适合处理层级结构明显的数据。正则表达式(英语：Regular Expression，在代码中常简写为regex、regexp或RE)，可以处理任何格式的字符串文档。它是基于文本的特征来匹配、查找指定数据。

除此之外，用户还可以通过信息采集模块102修改目标网页标签，如修改目标网页标签的数量、目标网页标签的名称等；可以修改各目标网页元素，如修改目标网页元素的数量、目标网页元素的类型等。

参阅图4，信息存储模块103主要用于按预设规则存储各所述目标网页元素的数据。

详细而言，信息存储模块103负责建立和管理本地存储规则；按本地存储规则存储信息采集模块102采集的目标网页元素内容，如按照预设分类或主题，将获取的各目标网页元素的数据分类或分主题存储于本地；对存储后信息进行本地化管理操作。另外，信息存储模块103还可以根据需求设定数据库类型，改变数据关系，设定数据库访问接口方式等。

以下通过一具体示例详细说明自动采集装置1的工作原理。

自动采集装置1主要是通过调用本地浏览器来模拟访问，在整个系统的运行中自动通过模拟访问→获取内容→钻取网页链接→再模拟访问，不停的轮询直到网站页面尽头。在获取内容的过程中还会通过解析来获得有价值的数据内容并存储下来。

假设本示例要获取以下互联网烟草科技情报信息：

国际烟草科学研究合作中心(Cooperation Center for Scientific ResearchRelative to Tobacco，简写CORESTA)大会论文

CORESTA是成立于1956年，总部位于巴黎，其宗旨是促进烟草科学研究合作与交流。CORESTA现有会员单位为152个，由来自41个国家和地区从事烟草科研活动的企业、大学及科研单位组成。CORESTA每两年举办大会CORESTA Congress，大会收录的论文代表了国际烟草科研界的较高水准且对全球公开，对国内烟草行业技术人员开展技术创新具有极高的参考价值。采用本系统自动采集CORESTA Congress收录论文。

网址：https://www.coresta.org/abstracts/search/？f％5B0％5D＝im_field_source％3A19

本地PC端的准备：

(1)本地安装FireFox(火狐)浏览器，作为后续可供本地驱动的浏览器。FireFox(火狐)浏览器由Mozilla开发的自由及开放源代码的网页浏览器，具有隐私、实用、跨平台的特点。支持标准通用标记语言下的子集HTML和XML、XHTML、SVG 1.1(部分的)、CSS(除了标准之外，还有扩充的支持)、ECMAScript(JavaScript)、DOM、MathML、DTD、XSLT、XPath和PNG图像文件(包含透明度支持)。

(2)Selenium是一个用于web应用程序自动化测试的工具，直接运行在浏览器当中，支持包括IE(7,8,9,10,11)，Mozilla Firefox，Safari，Google Chrome，Opera等主流浏览器。可以通过代码控制与页面上元素进行交互(点击、输入等)，也可以获取指定元素的内容。

为使Selenium驱动Firefox浏览器，本地安装GeckoDriver.exe。Gecko是由Mocilla开发的Web浏览器引擎。WebDriver是兼容客户端的一种代理，与Gecko核心浏览器交互。火狐浏览器用可执行程序GeckoDriver.exe的方式执行WebDriver协议，所有的测试脚本都通过GeckoDriver来执行。

信息采集模块采用JAVA语言调用Selenium库来实现模拟浏览器访问的过程。当需要爬取多个网站地址的时候，可以模拟打开多个浏览器及调用多个WebDriver来爬取网站。

任务控制模块：

设定初始网页链接及提取网页链接：

url＝”https://www.coresta.org/abstracts/search/？f％5B0％5D＝im_field_source％3A19”

通过定义count、recount参数，设定爬取次数，显示爬取任务完成情况；

通过调用Cons.logger.append()函数，实时显示任务进行情况；

通过process()函数爬取当前页面的文章列表超链以及对下一页超链的获取；

通过webDriver.remove设置任务关闭参数条件，并通过driver.close()函数、drive.quit()、webDriver.close()函数实现任务关闭；

下一页的列表超链地址无法获取时即爬取任务完成，调用driver.quit()来关闭整个模拟浏览器。

信息采集模块：

访问网站地址后，确定需要获取的版面内容为文章列表与分页栏。使用浏览器的开发者模式根据版面内的网页结构分析后得到两个元素：

当前页面的文章列表超链：//*[@id＝"main-content"]/section/ol/li/article/a

下一页列表：//*[@id＝"main-content"]/div[2]/ul。

假定当前爬取的目标网页为：

https://www.coresta.org/4th-proficiency-test-2020-diffusion-capacity-cigarette-papers-34205.html。

分析HTML结构后得到标题、文本、图片以及发表时间元素的位置，构建XPATH表达式如下：

标题：//*[@id＝\"node-34205\"]/div/div[1]/div[2]/h1

XPATH表达式为：By.xpath("//*[@id＝\"node-34205\"]/div/div[1]/div[2]/h1")

文本：//*[@id＝\"node-34205\"]/div/div[1]/div[4]

XPATH表达式为：By.xpath("//*[@id＝\"node-34205\"]/div/div[1]/div[4]")

图片：无

发表时间：//*[@id＝\"node-34205\"]/div/div[1]/div[3]/span[1]

XPATH表达式为：By.xpath("//*[@id＝\"node-34205\"]/div/div[1]/div[3]/span[1]")

通过正则表达式过滤特殊字符：先定义regEx＝"[\n`～！@#$％^&*()+＝|{}':；',\\[\\].<>/？～！@#￥％……&*()——+|{}【】‘；：”“’。通过Pattern.compile(regEx)函数实现过滤。

由采集处理函数analysis(WebDriver webDrive)来提取符合表达式的对应内容。

信息存储模块：

调用入口函数write()方法来存储爬取内容并将其存储到本地存储介质中，其中使用函数this.getFilePath(host)+"/"+this.title的方式根据分类/主题的结构来规范命名路径。在文件命名时并通过Pattern.compile(regEx)函数来过滤一些特殊字符。最后使用FileUtil.writeFile函数来实现本地化存储。

如图5所示，与上述装置实施例对应的，本申请还提供一种互联网烟草科技情报信息自动采集方法，包括以下步骤：

S51：设置采集任务，并控制所述采集任务的执行；

S52：在所述采集任务开始执行时，模拟访问目标网页，分析所述目标网页的结构，根据各目标网页标签确定各目标网页元素的位置，获取各所述目标网页元素的数据；

其中，各所述目标网页元素的位置分别采用超链接的形式。根据各所述目标网页元素的超链接构建Xpath表达式或正则表达式，并利用所述Xpath表达式或正则表达式来获取各所述目标网页元素的数据。

较佳的，在一实施例中，本方法还提供各所述目标网页标签的修改功能，包括修改目标网页标签的数量、目标网页标签的名称；和/或提供各所述目标网页元素的修改功能，包括修改目标网页元素的数量、目标网页元素的类型；提供数据库类型、数据关系、数据库访问接口方式的修改功能。

S53：按预设规则存储各所述目标网页元素的数据。

例如，按照预设分类或主题，如HTML、文本、图片、音频、多媒体、视频等，将获取的各所述目标网页元素的数据分类或分主题存储于本地。

由于本方法实施例的实施方式与前述装置的相似，因而于此不再对重复的技术细节做详细介绍。

实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。基于这样的理解，本发明还提供一种计算机程序产品，包括一个或多个计算机指令。所述计算机指令可以存储在计算机可读存储介质中。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(如：软盘、硬盘、磁带)、光介质(如：DVD)、或者半导体介质(如：固态硬盘Solid State Disk(SSD))等。

参阅图6，本实施例提供一种电子设备，电子设备可以是台式机、便携式电脑、智能手机等设备。详细的，电子设备至少包括通过总线连接的：存储器、处理器，其中，存储器用于存储计算机程序，处理器用于执行存储器存储的计算机程序，以执行前述方法实施例中的全部或部分步骤。

上述提到的系统总线可以是外设部件互连标准(Peripheral PomponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其他设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(Random Access Memory，简称RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

综上，本发明的互联网烟草科技情报信息自动采集装置、方法、存储介质及电子设备，可以根据需求配置后自动采集烟草行业互联网科技情报信息，并按规则自动存储至计算机设备和介质中，免去了人工监护，提高了信息采集效率，为科技创新活动提供了高效的科技情报信息服务，有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种互联网烟草科技情报信息自动采集装置，其特征在于，包括：

2.根据权利要求1所述的装置，其特征在于，所述任务控制模块还用于：

提供互联网烟草科技情报信息源列表的查看、修改及维护功能；

提供各所述采集任务的排程编辑功能，以及各所述采集任务的开启及终止功能；

提供各所述采集任务的执行情况查看功能。

3.根据权利要求1所述的装置，其特征在于，各所述目标网页元素的位置分别采用超链接的形式。

4.根据权利要求3所述的装置，其特征在于，所述信息采集模块根据各所述目标网页元素的超链接构建Xpath表达式或正则表达式，并利用所述Xpath表达式或正则表达式来获取各所述目标网页元素的数据。

5.根据权利要求1所述的装置，其特征在于，所述信息采集模块还用于：

提供各所述目标网页标签的修改功能，包括修改目标网页标签的数量、目标网页标签的名称；和/或

提供各所述目标网页元素的修改功能，包括修改目标网页元素的数量、目标网页元素的类型。

6.根据权利要求1所述的装置，其特征在于，所述信息存储模块还用于：

提供数据库类型、数据关系、数据库访问接口方式的修改功能。

7.根据权利要求1所述的装置，其特征在于，所述信息存储模块按预设规则存储各所述目标网页元素的数据，包括：

按照预设分类或主题，将获取的各所述目标网页元素的数据分类或分主题存储于本地。

8.一种互联网烟草科技情报信息自动采集方法，其特征在于，包括：

设置采集任务，并控制所述采集任务的执行；

按预设规则存储各所述目标网页元素的数据。

9.一种计算机可读存储介质，其中存储有计算机程序，其特征在于，所述计算机程序被处理器加载执行时，实现如权利要求8所述的方法。

10.一种电子设备，其特征在于，包括：处理器及存储器；其中，

所述存储器用于存储计算机程序；

所述处理器用于加载执行所述计算机程序，以使所述电子设备执行如权利要求8所述的方法。