CN115098755A

CN115098755A - 一种科技信息服务平台构建方法及科技信息服务平台

Info

Publication number: CN115098755A
Application number: CN202210696876.9A
Authority: CN
Inventors: 赵金雄; 马志程; 狄磊; 白万荣; 马宏忠; 赵红
Original assignee: STATE GRID GASU ELECTRIC POWER RESEARCH INSTITUTE
Current assignee: STATE GRID GASU ELECTRIC POWER RESEARCH INSTITUTE
Priority date: 2022-06-20
Filing date: 2022-06-20
Publication date: 2022-09-23

Abstract

本发明提供了一种科技信息服务平台构建方法及科技信息服务平台，涉及数据处理技术领域，具体步骤包括：数据预处理：进行数据清洗、数据整理，获取含有标的物及标的物分类特征的关键数据；标的物提取：利用知识抽取模型，从所述关键数据中提取标的物；文本特征提取：提取所述标的物的文本特征，为所述文本特征中的词语按照分类结果影响程度赋予权重；分类树自动定位：建立分类树模型，在知识搜索引擎中输入所述文本特征，获取所述标的物在分类树模型上的定位。本发明提供的构建方法实现外网数据的自动采集，并针对外网数据进行进行数据预处理、标的物提取和文本特征提取，且实现企业项目数据的自动解析，提供高质量多类型的决策支持服务。

Description

一种科技信息服务平台构建方法及科技信息服务平台

技术领域

本发明属于数据处理技术领域，特别是涉及一种科技信息服务平台构建方法及科技信息服务平台。

背景技术

互联网、物联网和电力行业长期积累了海量数据，其中蕴含着巨大的潜在价值，使用大数据技术进行挖掘分析，为决策参考提供及时准确的信息，对于提升科学决策水平是十分必要的。尤其在科研领域，科研方向的选择决定了科研的价值，科研技术路径的选择则决定了科研的成败，但这些都需要建立在坚实的数据基础之上。

目前，行业内已经涌现出大量的行业信息数据库供企业使用，同时，在企业的运营过程中，科研活动的进行过程中，也在不断的产生企业内部数据。但是，目前行业数据或以结构化数据形式存储于关系数据库中，或以报告、论文等形式的非结构化数据存储于文档库内，仅能通过数据库查询接口进行简单的查询筛选，并不能对相关数据进行进一步的深入聚合分析，从而无法直接服务于决策支持。企业内部形成的数据，也分散在各个业务系统中，同样无法进行深入的挖掘。对行业数据价值挖掘不深，使科研活动决策者无法充分掌握全局信息从而作出准确判断，严重制约了科研决策制定的水平；也使科研活动的执行者无法迅速发现合理科研路径，影响了科研活动开展的效果与进度。

申请号为CN201910302302.7的中国专利提供了一种电力企业大数据平台中数据的查询与展示方法，建立大数据平台，所述大数据平台中包括顺次相连的数据采集单元、数据存储单元、数据分析与处理单元和数据应用单元；利用语音采集器获取用户发出的自然语音命令，并对接收到的自然语音命令进行分析提取出查询用关键信息；利用人机交互模块将查询用关键信息发送至大数据平台中的数据应用单元中，经由大数据平台中的数据分析与处理单元处理后，从数据存储单元中获取相应的数据信息，并返回相应的查询信息至人机交互模块，通过人机交互界面显示该返回的查询信息。该发明充分利用语音交互技术，实现了从输入、识别到执行的自动化操作，降低用户的沟通和办公成本，高效提升操作性。

申请号为CN201911400649.1的中国专利提供了一种企业数据分析方法、装置及服务器，能够对企业端的多种当前企业数据进行分析，并确定出每种当前企业数据的数据结构清单在企业端数据结构池中对应的区域的第一发展轨迹权重系数，进一步确定样本发展轨迹信息；然后对样本发展轨迹信息对应的样本数据结构清单以及每个数据结构清单进行数据特征提取，从而基于得到的第二目标特征向量和第一特征向量确定出当前企业数据对应的当前发展轨迹信息；最后在当前发展轨迹信息存在异常时生成与当前发展轨迹信息对应的当前风控策略。

由于电网数据结构多样，有效数据信息的提取和应用分析比较复杂，电网行业新知信息的采集、维护和分享的不及时，新型电网技术的应用、推广的不一致，及现有人工智能在电力行业应用的零散性等，都缺乏统一的智能化平台支撑。为更好的推进电网行业新型基础设施建设，需要结合当下人工智能技术的先进研究成果解决电力领域的业务痛点，提供一种实现外网数据的自动采集，企业项目数据的自动解析，开发科技消息订阅、内容推送、智能查询、智慧推荐等功能，为项目布局、方案设计等工作提供支持的科技信息服务平台。

发明内容

基于以上问题，本发明公开了一种科技信息服务平台构建方法及科技信息服务平台。

为实现上述目的，本发明提供如下技术方案：

一种科技信息服务平台构建方法，所述科技信息服务平台进行对数据的采集和解析，具体步骤包括：

步骤一、数据采集；

步骤二、数据预处理：进行数据清洗、数据整理，获取含有标的物及标的物分类特征的关键数据；

步骤三、标的物提取：从所述关键数据中提取标的物的文本特征，进行语料分析，为所述文本特征中的词语按照分类结果影响程度赋予权重；

步骤四、建立数据库，分类树自动定位：建立数据库并构建分类树模型，在知识搜索引擎中输入所述文本特征，获取所述标的物在分类树模型上的定位。

优选地，所述数据采集的来源至少包括新闻资讯网站和论文资源网站。

优选地，所述新闻资讯网站中数据采集的方法为：将待数据采集的网页放入调度器，并发送爬虫请求；下载器访问所述网页中的网络数据，并交付响应至引擎。

优选地，所述论文资源网站中数据采集的方法为：根据关键词搜索，设置筛选项，获取并解析论文资源网站页面数据；提取页面内容并保存。

优选地，所述数据清洗及数据整理至少包括：删除空格符、换行符和冗余数据；统一文本格式。

优选地，所述提取所述标的物的文本特征的方法为：使用N-Gram和TF-IDF算法对文本特征进行提取。

本发明还提供一种科技信息服务平台，包括展现层、业务逻辑层和数据层；

所述展现层用于用户交互；所述业务逻辑层包括核心业务模块和业务支撑模块，所述数据层用于访问和管理数据库；

外部数据经所述业务支撑模块进行数据处理后录入所述数据层；

所述业务逻辑层通过业务支撑模块调用所述数据层，并进行数据预处理、标的物提取和文本特征提取，获取所述标的物的定位，通过所述展现层提供所述核心业务模块中的服务。

优选地，所述核心业务层为用户提供系统管理、知识管理、科技动态管理和行业科技动态服务；

所述系统管理用于管理用户访问，所述知识管理用于提供数据爬虫管理和知识标注的功能，所述科技动态管理用于管理动态文档，所述行业科技动态服务向用户提供科技信息服务。

优选地，所述科技动态管理包括企业内部动态管理和外部动态文档管理，所述企业内部动态库管理用于上传企业内部文件，外部动态文档管理用于上传一些未在数据爬取目标网站内的科技动态作为补充。

优选地，所述数据库至少包括关系型数据库、全文检索数据库和图形数据库中的一种。

与现有技术相比，本发明有以下优势：

本发明提出了一种科技信息服务平台构建方法及科技信息服务平台，业务逻辑层基于分布式爬虫系统，实现外网数据的自动采集，并针对外网数据进行进行数据预处理、标的物提取和文本特征提取，实现企业项目数据的自动解析，并录入至数据层作为企业数据库，且本发明提供的一种科技信息服务平台向用户提供核心业务，具体包括开发科技消息订阅、内容推送、智能查询、智慧推荐等功能，为项目布局、方案设计等工作提供支持的科技信息服务平台。

附图说明

附图1是本发明一种科技信息服务平台的逻辑架构图；

附图2是本发明一种科技信息服务平台构建方法的数据处理方法；

附图3是本发明一种科技信息服务平台构建方法中新闻资讯网站中数据采集的方法；

附图4是本发明一种科技信息服务平台构建方法中论文资源网站中数据采集的方法；

附图5是本发明一种科技信息服务平台的系统功能结构图。

具体实施方式

为使本发明实施例的目的和技术方案更加清楚，下面将结合本发明实施例，对本发明的技术方案进行清楚、完整地描述。

本系统使用Java作为主要开发语言对系统后端的业务进行开发，并封装由Python/C++完成的部分爬虫脚本与算法模型，并使用HTML,CSS,JavaScript完成前端页面的开发。

科技信息服务平台采用三层B/S架构设计。三层B/S模式在逻辑上将系统功能分为展现层、业务逻辑层和数据层三部分。其中业务逻辑层还可细分为核心业务和业务支撑两部分。其中系统逻辑架构图如附图1所示。

第一层是展现层，是系统用户直观体验界面，主要对用户的操作以请求都方式与后端交互，并将服务器响应数据返回渲染到网页上。通过展现界面，用户可以操作系统的各个功能。

第二层是业务逻辑层，其中核心业务部分是系统架构中面向使用者提供核心服务的部分。主要为最终向用户提供丰富的文档资源和全方位的检索结果的功能需求而进行相关设计。另一部分，支撑层是系统架构中的核心部分，是业务逻辑层的实际服务提供者。外部数据在支撑层的处理后形成可被系统管理的知识进入系统数据层，数据层的数据也是通过支撑层的组织成为可被使用者阅读的知识，通过业务逻辑层和展示层展示。逻辑层在架构体系中的处在最为关键的位置，它连接着数据层和展现层，起到了数据交换的承上启下作用。

第三层是数据层，是用于对数据库进行操作，对数据进行访问，可以访问数据库系统、文本文档或是XML文档等。数据层所做的事务事直接操作数据库，针对数据库进行增加、删除、修改、更新、查找等操作。

展现层用于用户交互；所述业务逻辑层包括核心业务模块和业务支撑模块，所述数据层用于访问和管理数据库；外部数据经所述业务支撑模块进行数据处理后录入所述数据层；所述业务逻辑层通过业务支撑模块调用所述数据层，并进行数据预处理、标的物提取和文本特征提取，获取所述标的物的定位，通过所述展现层提供所述核心业务模块中的服务。

本系统主要对性能的需求在于数据查询响应速度，该需求指标主要对于IO和数据库的性能提出了要求，对于服务端处理请求性能本身并不敏感，而且Java在服务端开发领域发展时间长，其服务端框架的完备程度与文档较为成熟。Php与Java在服务端开发地位最为相近，Php与Java同年诞生，与Java相同均为面向对象型语言，且其在设计初即是为服务端开发而设计的，弱类型的支持也有着开发效率方面的优势，但是其相较Java在计算密集型任务方面有一定弱势。在本项目中对于Java的选型过程中对于其服务端性能要求并不是最高的，但是考虑到备选技术栈中有一些Java语言实现的组件，而Java语言实现的后端与数据库的兼容性就有比较明显的优势。

在爬虫与算法模型的选取上，Python相较其他语言都有着绝对的优势，Scrapy库对分布式爬虫的支持，requests库对于Http请求的封装，以及其他网页解析库都大幅提高了爬虫开发效率。另一方面，无论是Tensorflow、PyTorch还是其他算法开发平台都是使用Python开发的，而解释型语言和单线程的限制带来的性能问题也由这些平台通过封装C++开发的核心算法大幅优化。

因此，本系统使用Java作为主要开发语言对系统后端的业务进行开发，并封装由Python/C++完成的部分爬虫脚本与算法模型，并使用HTML,CSS,JavaScript完成前端页面的开发。

本系统功能中业务逻辑层的支撑组件推荐算法、知识抽取算法和后台管理模块并不相互依赖，可拆分为多个模块分别独立提供服务，本系统对性能与存储空间都有着较高的要求，代码层面的耦合无论从软件还是从硬件方面都会为未来的扩展带来困难。所以本系统总体上使用微服务体系架构对软件进行完成设计，对服务进行拆分。而每个独立的服务可根据具体实现的功能使用数据流、MVC等其他体系结构进行实现。

构建科技信息服务平台的关键在于实现对外网数据的自动采集，企业项目数据的自动解析，开发科技消息订阅、内容推送、智能查询、智慧推荐等功能，为项目布局、方案设计等工作提供支持。

首先要对企业的数据进行预处理，预处理包括数据清洗，数据整理，数据存储。首先数据清洗的数据源包括企业内部数据，行业数据库的数据。要清洗企业内部的数据，需要通过专业的工作人员梳理业务流程，识别过程处理前数据，过程处理中数据，处理后数据，界定企业内部数据产生过程中沉淀的的价值数据。企业内部数据的数据清洗包括对期刊杂志，招标文件，行业数据库数据的清洗，主要是结合业务需求界定数据库的分类范围，信息分类范围。按照本项目要求的数据梳理的存储格式和文本格式进行对企业内部数据和行业数据进行数据整理，最后结合大数据存储技术，按照结构化数据，半结构化数据，非结构化数据三种数据类型存储到数据库，内外部数据的融合。根据元数据内容，元数据结构，元数据结构，元数据目的构建元数据集成的信息，信息资源池将包括企业内外部数据，按照元数据的标准化融合结构化和非结构化的数据，打通企业内部外数据，实现全网的信息共享。依托大数据技术构架了大数据基础设施平台，并建立了标准的的元数据库。然后结合自然语言处理和知识图谱，机器学习算法和搜索技术，在元数据集成的信息资源池基础上。首先通过建立的标准元数据库，利用知识图谱进行知识融合和知识推理，进行知识的融合，形成高质量的知识库。

因此，本发明中提供的科技信息服务平台进行对数据的采集和解析，如附图2所示，具体步骤包括：

步骤一、数据采集；

所述数据采集的来源至少包括新闻资讯网站和论文资源网站。

所述新闻资讯网站中数据采集的方法为：采用scrapy爬虫框架；scrapy爬虫框架包含调度器(Scheduler)、下载器(Downloader)、爬虫(Spider)和实体管道(ItemPipeline)、Scrapy引擎(Scrapy Engine)等五个组件，将待数据采集的网页放入调度器，并逐个出队发起爬虫请求；下载器访问所述网页中的网页数据，并交付响应至引擎，在网页数据中快速定位并提取所需内容，包括但不限于标题、链接、关键词、正文等。

所述论文资源网站中数据采集的方法为：采用了请求头、动态网页、验证码等多种措施复合的反爬虫机制，选择Selenium+BeautifulSoup进行数据采集和解析。访问网页、根据关键词搜索，设置筛选项，点击搜索、点击下一页、输入验证码、获取并解析论文资源网站页面数据；提取页面内容并保存，提取内容包括论文标题、作者、机构、发布时间、摘要等。

步骤二、数据预处理：进行数据清洗、数据整理，获取含有标的物及标的物分类特征的关键数据；所述数据清洗及数据整理至少包括：删除空格符、换行符和冗余数据；统一文本格式。其中，论文资源网站数据本身格式分明，提取后无需进行数据预处理即可保存

基于深度神经网络，已可以极高的精度实现文本的分词、词性标注、命名实体识别等基础人物，并以较高的精度实现文本的分类、关键词提取、自动文本摘要等任务，并可以一定的精度实现内容推荐、自动问答等。利用上述技术，可以在传统的以关键词检索为主要工具的数据分析方法之上，进行行业数据的类型标签自动标注、基于热度与权威度的技术趋势分析、关联技术挖掘推荐等任务。

所述提取所述标的物的文本特征的方法为：使用N-Gram和TF-IDF算法对文本特征进行提取，对电网数据进行自然语言解析，获取电网关注的关键词，关键技术，实现数据库中实体/概念的自动化识别与实体关系的自动化抽取。并进一步生成动态实时更新数据库，实现对电力行业信息的高度智能化的深度挖据，尤其是为科研工作者梳理电力技术发展脉络，选择合理地科研路径等提供直接帮助。

在本系统中，供搭建了三种数据库，具体包括关系型数据库、全文检索数据库和图数据库。

第一种，关系型数据库。在本系统中，配置信息以及一些用户对系统的使用情况所对应的查询场景并不复杂，且并没有复杂的数据分析需求，只需存储在关系型数据库中即可。而在开源的关系型数据库中，MySQL是当前应用最为广泛的开源关系型数据库，也是OLTP场景的首选数据库。

第二种，全文检索数据库。电力行业科技动态知识图谱所存储的核心数据之一就是科技动态文档，这些文档大多以非结构化数据的形式存在着，而这些非结构化数据还需要依靠可能并不完全一致的语句检索到，这使得全文检索技术成为了必须。关系型数据库MySQL的MyISAM存储引擎和5.6版本后的InnoDB存储引擎均支持全文检索，但是其全文检索性能十分不稳定，且随着检索语句的变长，查询时间会大幅增加。Elasticsearch是一个分布式全文搜索引擎，底层基于Lucene(一种全文搜索引擎)实现。Elasticsearch屏蔽了Lucene的底层细节，提供了分布式特性，同时对外提供了Restful API。Elasticsearch以其易用性迅速被市场接受，并拥有了活跃的社区，其被广泛应用在网站搜索、日志分析等诸多方面。且其强大的横向扩展能力，十分适用于本系统中不断扩大的数据存储需求，所以本系统使用Elasticsearch对科技动态文档进行存储。

第三种、图数据库-OLTP。本系统的核心功能均基于知识图谱实现，而知识图谱为了在保障一定查询性能的基础上支持大量且复杂的关系检索，需要支持高效图遍历的存储引擎对知识进行存储。Neo4j是一个高性能的NoSQL图形数据库，它将结构化数据存储在网络上而不是表中。它是一个嵌入式的、基于磁盘的、具备完全的事务特性的Java持久化引擎，但是它将结构化数据存储在网络(从数学角度叫做图)上而不是表中。Neo4j也可以被看作是一个高性能的图引擎，该引擎具有成熟数据库的所有特性。目前Neo4j在图数据库领域占有率达70％以上，占绝对主导地位，但是因为其使用GPLv3开源协议而被一些需要商业化的产品放弃。本系统主要为国网甘肃电科院内用，所以不受该开源协议的限制，且目前估算的知识规模单机环境下的Neo4j也完全可以支撑。后续若知识规模提升到单机无法处理的程度，可以购买Neo4j企业版完成分布式部署，实现水平扩展。

基于上述科技信息服务平台，可向用户提供的服务如附图3所示，科技信息服务平台的功能总体可划分为为四个模块，分别为系统管理模块、知识管理模块、语料库管理模块、行业科技信息服务模块。

面向使用者方面，个人信息管理模块向访客提供昵称、邮箱、登录密码等个人信息的修改功能和科技动态历史访问记录的功能，信息查阅模块向访客提供科技信息服务，包括科技动态查阅、综合搜索引擎，和定制信息推送功能；

而面向管理者，系统管理模块提供用户管理、角色管理和权限管理的功能，知识管理模块提供数据爬虫管理和知识标注的功能，科技动态管理模块提供企业内部动态管理和外部动态文档管理的功能，企业内部动态库管理功能供上传国网内部文件，外部补充动态库管理功能供上传一些未在数据爬取目标网站内的科技动态作为数据的补充。

以上仅为本发明的实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些均属于本发明的保护范围。

Claims

1.一种科技信息服务平台构建方法，其特征在于：

所述科技信息服务平台进行对数据的采集和解析，具体步骤包括：

步骤一、数据采集；

2.如权利要求1所述的一种科技信息服务平台构建方法，其特征在于：所述数据采集的来源至少包括新闻资讯网站和论文资源网站。

3.如权利要求2所述的一种科技信息服务平台构建方法，其特征在于：所述新闻资讯网站中数据采集的方法为：将待数据采集的网页放入调度器，并发送爬虫请求；下载器访问所述网页中的网络数据，并交付响应至引擎。

4.如权利要求2所述的一种科技信息服务平台构建方法，其特征在于：所述论文资源网站中数据采集的方法为：根据关键词搜索，设置筛选项，获取并解析论文资源网站页面数据；提取页面内容并保存。

5.如权利要求1所述的一种科技信息服务平台构建方法，其特征在于：所述数据清洗及数据整理至少包括：删除空格符、换行符和冗余数据；统一文本格式。

6.如权利要求1所述的一种科技信息服务平台构建方法，其特征在于：

提取所述标的物的文本特征的方法为：使用N-Gram和TF-IDF算法对文本特征进行提取。

7.一种科技信息服务平台，其特征在于：

包括展现层、业务逻辑层和数据层；

8.如权利要求7所述的一种科技信息服务平台，其特征在于：所述核心业务层为用户提供系统管理、知识管理、科技动态管理和行业科技动态服务；

9.如权利要求8所述的一种科技信息服务平台，其特征在于：

所述科技动态管理包括企业内部动态管理和外部动态文档管理，所述企业内部动态库管理用于上传企业内部文件，外部动态文档管理用于上传一些未在数据爬取目标网站内的科技动态作为补充。

10.根据权利要求7中所述的一种科技信息服务平台，其特征在于：

所述数据库至少包括关系型数据库、全文检索数据库和图形数据库中的一种。