CN113590808B

CN113590808B - 一种基于科技资源的知识抽取方法

Info

Publication number: CN113590808B
Application number: CN202110895695.4A
Authority: CN
Inventors: 杜丰
Original assignee: Suzhou Industrial Park Enterprise Development Service Center
Current assignee: Suzhou Industrial Park Enterprise Development Service Center
Priority date: 2021-08-05
Filing date: 2021-08-05
Publication date: 2023-10-10
Anticipated expiration: 2041-08-05
Also published as: CN113590808A

Abstract

本发明涉及知识抽取技术领域，尤其涉及一种基于科技资源的知识抽取方法。本发明构建科技资源本体库、本体库解析、待解析文本预处理、句子的矩阵化表示、剩余残差网络获取结构化信息、评价标准计算、判断预设的收敛条件。本发明基于科技资源本体，通过剩余残差网络有效地抽取非结构化文本中的知识并形成结构化信息,采用这种抽取方法,极大地提高了结构化信息抽取的效率,有助于丰富已有的知识图谱资源,进而为各种智能化应用更好地服务。

Description

一种基于科技资源的知识抽取方法

技术领域

本发明涉及知识抽取技术领域，尤其涉及一种基于科技资源的知识抽取方法。

背景技术

随着网络和计算机的发展，信息资源更新速度快且数量庞大，其中蕴含着丰富的可用知识和很高的研究价值。在这样的大数据且信息资源低密度的前提下，知识抽取具有很大的研究意义。这些网络化、数字化的信息资源的存在形式大多是自由、半结构化或者非结构化的，信息数量繁杂且实时更新，而知识抽取则能够利用相关技术和方法从信息中抽取出用户所需要的知识，从而实现信息资源的有效利用。

本体是一种元模型，提供各个领域的标准术语和要领。本体能将知识体系化、结构化、标准化，也使存在于客观世界的无意识的隐性知识形式化。本体的分析澄清了领域知识的结构，确定该领域内共同认可的词汇术语，通过构建统一的规范模型来缩小概念和术语上的差异性，基于本体的知识抽取技术将在未来的知识抽取发展中成为不可或缺的重要技术。

发明内容

有鉴于此，本发明的目的是提供一种基于科技资源的知识抽取方法，本发明具体按以下步骤执行：

S₁:按照知识抽取的需求，由科技领域工作人员完成科技资源本体库的构建，使用该本体作为知识抽取的基础；

S₂:利用本体解析工具，对建好的在科技资源本体中所描述概念以及概念之间的层次关系进行解析，把解析出来的概念和关系结构存入记录表中，得到本体中定义的概念、分类层次、关系和实例；

S₃:生成包括各种类型的数据资源的待解析文本；

S₄:通过预处理去噪进行文本预处理，并生成编码和格式统一的格式化文档；在预处理去噪包括用爬虫收集的语料数据，去掉内容中的html的标签，然后进行处理中文编码、中文分词、引入停用词、特征处理和建立分析模型。

S₅:把经过预处理后的文本用句子的矩阵化表示；

S₆:根据句子的矩阵化表示，以及本体中已定义的概念和关系类型集合，经过剩余残差网络模型ResNet，获取经过预处理的待解析文本中的结构化信息；当输入为x时其学习到的特征记为H(x)，设置其学习到残差F(x)＝H(x)-x，原始的学习特征是F(x)+x，一个残差单元的公式如式(1)所示：

后面的x前面也需要经过参数Ws变换，从而使得和前面部分的输出形状相同，可以进行加法运算。

S₇:判断结构化信息是否达到预设的收敛条件，根据具体的评价标准，判断是否达到收敛条件，若达到则停止，若未达到，则可调整网络模型的参数或对科技资源本体库进行修改和完善，直到达到预设收敛条件为止。

进一步，在步骤S₁中，科技资源本体库包括项目标题、作者、内容关键词、仪器名称、地点、归属、用途和价格信息。

进一步，步骤S₃的各种类型根据实际需求，特定生成针对设备、项目或者人员信息的待解析文本。

本发明的一种基于科技资源的知识抽取方法的有益效果为：本发明是基于科技资源本体的知识抽取技术，适用于科技资源服务平台领域。通过结合科技资源分类和科技服务平台环境中的资源特点，提出了基于本体的剩余残差网络模型的知识抽取方案，该方案通过构建科技资源本体库、本体解析、待解析文本预处理、剩余残差网络模型获取结构化信息的方式，实现本体在科技服务领域中的知识获取，也有效实现了科技服务资源的高效组织和管理，为科技资源查询、管理、选择、聚合等提供支持。

附图说明

图1是本发明的方法流程图；

具体实施方式

以下将结合附图和具体实施例对本发明进行详细说明，显然，所描述的实施例仅仅只是本申请一部分实施例，而不是全部的实施例，基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本实施例中，如图1所示本发明具体按以下步骤执行：

S₃:生成包括各种类型的数据资源的待解析文本；

S₅:把经过预处理后的文本用句子的矩阵化表示；

本实施例中，在步骤S₁中，科技资源本体库包括项目标题、作者、内容关键词、仪器名称、地点、归属、用途和价格信息。

本实施例中，步骤S₃的各种类型根据实际需求，特定生成针对设备、项目或者人员信息的待解析文本。

以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。本发明未详细描述的技术、形状、构造部分均为公知技术。

Claims

1.一种基于科技资源的知识抽取方法，其特征在于：具体按以下步骤执行：

S₃:生成包括各种类型的数据资源的待解析文本；

S₄:通过预处理去噪进行文本预处理，并生成编码和格式统一的格式化文档；

S₅:把经过预处理后的文本用句子的矩阵化表示；

S₆:根据句子的矩阵化表示，以及本体中已定义的概念和关系类型集合，经过剩余残差网络模型ResNet，获取经过预处理的待解析文本中的结构化信息；

当输入为x时其学习到的特征记为H(x)，设置其学习到残差F(x)＝H(x)-x，原始的学习特征是F(x)+x，一个残差单元的公式如式(1)所示：

后面的x前面也需要经过参数Ws变换，从而使得和前面部分的输出形状相同，可以进行加法运算；

2.根据权利要求1所述的一种基于科技资源的知识抽取方法，其特征在于：在步骤S₁中，科技资源本体库包括项目标题、作者、内容关键词、仪器名称、地点、归属、用途和价格信息。

3.根据权利要求1所述的一种基于科技资源的知识抽取方法，其特征在于：在步骤S₄预处理去噪包括用爬虫收集的语料数据，去掉内容中的html的标签，然后进行处理中文编码、中文分词、引入停用词、特征处理和建立分析模型。

4.根据权利要求1所述的一种基于科技资源的知识抽取方法，其特征在于：步骤S₃的各种类型根据实际需求，特定生成针对设备、项目或者人员信息的待解析文本。