CN113590808B - 一种基于科技资源的知识抽取方法 - Google Patents

一种基于科技资源的知识抽取方法 Download PDF

Info

Publication number
CN113590808B
CN113590808B CN202110895695.4A CN202110895695A CN113590808B CN 113590808 B CN113590808 B CN 113590808B CN 202110895695 A CN202110895695 A CN 202110895695A CN 113590808 B CN113590808 B CN 113590808B
Authority
CN
China
Prior art keywords
knowledge extraction
science
ontology
method based
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110895695.4A
Other languages
English (en)
Other versions
CN113590808A (zh
Inventor
杜丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Industrial Park Enterprise Development Service Center
Original Assignee
Suzhou Industrial Park Enterprise Development Service Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Industrial Park Enterprise Development Service Center filed Critical Suzhou Industrial Park Enterprise Development Service Center
Priority to CN202110895695.4A priority Critical patent/CN113590808B/zh
Publication of CN113590808A publication Critical patent/CN113590808A/zh
Application granted granted Critical
Publication of CN113590808B publication Critical patent/CN113590808B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明涉及知识抽取技术领域,尤其涉及一种基于科技资源的知识抽取方法。本发明构建科技资源本体库、本体库解析、待解析文本预处理、句子的矩阵化表示、剩余残差网络获取结构化信息、评价标准计算、判断预设的收敛条件。本发明基于科技资源本体,通过剩余残差网络有效地抽取非结构化文本中的知识并形成结构化信息,采用这种抽取方法,极大地提高了结构化信息抽取的效率,有助于丰富已有的知识图谱资源,进而为各种智能化应用更好地服务。

Description

一种基于科技资源的知识抽取方法
技术领域
本发明涉及知识抽取技术领域,尤其涉及一种基于科技资源的知识抽取方法。
背景技术
随着网络和计算机的发展,信息资源更新速度快且数量庞大,其中蕴含着丰富的可用知识和很高的研究价值。在这样的大数据且信息资源低密度的前提下,知识抽取具有很大的研究意义。这些网络化、数字化的信息资源的存在形式大多是自由、半结构化或者非结构化的,信息数量繁杂且实时更新,而知识抽取则能够利用相关技术和方法从信息中抽取出用户所需要的知识,从而实现信息资源的有效利用。
本体是一种元模型,提供各个领域的标准术语和要领。本体能将知识体系化、结构化、标准化,也使存在于客观世界的无意识的隐性知识形式化。本体的分析澄清了领域知识的结构,确定该领域内共同认可的词汇术语,通过构建统一的规范模型来缩小概念和术语上的差异性,基于本体的知识抽取技术将在未来的知识抽取发展中成为不可或缺的重要技术。
发明内容
有鉴于此,本发明的目的是提供一种基于科技资源的知识抽取方法,本发明具体按以下步骤执行:
S1:按照知识抽取的需求,由科技领域工作人员完成科技资源本体库的构建,使用该本体作为知识抽取的基础;
S2:利用本体解析工具,对建好的在科技资源本体中所描述概念以及概念之间的层次关系进行解析,把解析出来的概念和关系结构存入记录表中,得到本体中定义的概念、分类层次、关系和实例;
S3:生成包括各种类型的数据资源的待解析文本;
S4:通过预处理去噪进行文本预处理,并生成编码和格式统一的格式化文档;在预处理去噪包括用爬虫收集的语料数据,去掉内容中的html的标签,然后进行处理中文编码、中文分词、引入停用词、特征处理和建立分析模型。
S5:把经过预处理后的文本用句子的矩阵化表示;
S6:根据句子的矩阵化表示,以及本体中已定义的概念和关系类型集合,经过剩余残差网络模型ResNet,获取经过预处理的待解析文本中的结构化信息;当输入为x时其学习到的特征记为H(x),设置其学习到残差F(x)=H(x)-x,原始的学习特征是F(x)+x,一个残差单元的公式如式(1)所示:
后面的x前面也需要经过参数Ws变换,从而使得和前面部分的输出形状相同,可以进行加法运算。
S7:判断结构化信息是否达到预设的收敛条件,根据具体的评价标准,判断是否达到收敛条件,若达到则停止,若未达到,则可调整网络模型的参数或对科技资源本体库进行修改和完善,直到达到预设收敛条件为止。
进一步,在步骤S1中,科技资源本体库包括项目标题、作者、内容关键词、仪器名称、地点、归属、用途和价格信息。
进一步,步骤S3的各种类型根据实际需求,特定生成针对设备、项目或者人员信息的待解析文本。
本发明的一种基于科技资源的知识抽取方法的有益效果为:本发明是基于科技资源本体的知识抽取技术,适用于科技资源服务平台领域。通过结合科技资源分类和科技服务平台环境中的资源特点,提出了基于本体的剩余残差网络模型的知识抽取方案,该方案通过构建科技资源本体库、本体解析、待解析文本预处理、剩余残差网络模型获取结构化信息的方式,实现本体在科技服务领域中的知识获取,也有效实现了科技服务资源的高效组织和管理,为科技资源查询、管理、选择、聚合等提供支持。
附图说明
图1是本发明的方法流程图;
具体实施方式
以下将结合附图和具体实施例对本发明进行详细说明,显然,所描述的实施例仅仅只是本申请一部分实施例,而不是全部的实施例,基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本实施例中,如图1所示本发明具体按以下步骤执行:
S1:按照知识抽取的需求,由科技领域工作人员完成科技资源本体库的构建,使用该本体作为知识抽取的基础;
S2:利用本体解析工具,对建好的在科技资源本体中所描述概念以及概念之间的层次关系进行解析,把解析出来的概念和关系结构存入记录表中,得到本体中定义的概念、分类层次、关系和实例;
S3:生成包括各种类型的数据资源的待解析文本;
S4:通过预处理去噪进行文本预处理,并生成编码和格式统一的格式化文档;在预处理去噪包括用爬虫收集的语料数据,去掉内容中的html的标签,然后进行处理中文编码、中文分词、引入停用词、特征处理和建立分析模型。
S5:把经过预处理后的文本用句子的矩阵化表示;
S6:根据句子的矩阵化表示,以及本体中已定义的概念和关系类型集合,经过剩余残差网络模型ResNet,获取经过预处理的待解析文本中的结构化信息;当输入为x时其学习到的特征记为H(x),设置其学习到残差F(x)=H(x)-x,原始的学习特征是F(x)+x,一个残差单元的公式如式(1)所示:
后面的x前面也需要经过参数Ws变换,从而使得和前面部分的输出形状相同,可以进行加法运算。
S7:判断结构化信息是否达到预设的收敛条件,根据具体的评价标准,判断是否达到收敛条件,若达到则停止,若未达到,则可调整网络模型的参数或对科技资源本体库进行修改和完善,直到达到预设收敛条件为止。
本实施例中,在步骤S1中,科技资源本体库包括项目标题、作者、内容关键词、仪器名称、地点、归属、用途和价格信息。
本实施例中,步骤S3的各种类型根据实际需求,特定生成针对设备、项目或者人员信息的待解析文本。
以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。本发明未详细描述的技术、形状、构造部分均为公知技术。

Claims (4)

1.一种基于科技资源的知识抽取方法,其特征在于:具体按以下步骤执行:
S1:按照知识抽取的需求,由科技领域工作人员完成科技资源本体库的构建,使用该本体作为知识抽取的基础;
S2:利用本体解析工具,对建好的在科技资源本体中所描述概念以及概念之间的层次关系进行解析,把解析出来的概念和关系结构存入记录表中,得到本体中定义的概念、分类层次、关系和实例;
S3:生成包括各种类型的数据资源的待解析文本;
S4:通过预处理去噪进行文本预处理,并生成编码和格式统一的格式化文档;
S5:把经过预处理后的文本用句子的矩阵化表示;
S6:根据句子的矩阵化表示,以及本体中已定义的概念和关系类型集合,经过剩余残差网络模型ResNet,获取经过预处理的待解析文本中的结构化信息;
当输入为x时其学习到的特征记为H(x),设置其学习到残差F(x)=H(x)-x,原始的学习特征是F(x)+x,一个残差单元的公式如式(1)所示:
后面的x前面也需要经过参数Ws变换,从而使得和前面部分的输出形状相同,可以进行加法运算;
S7:判断结构化信息是否达到预设的收敛条件,根据具体的评价标准,判断是否达到收敛条件,若达到则停止,若未达到,则可调整网络模型的参数或对科技资源本体库进行修改和完善,直到达到预设收敛条件为止。
2.根据权利要求1所述的一种基于科技资源的知识抽取方法,其特征在于:在步骤S1中,科技资源本体库包括项目标题、作者、内容关键词、仪器名称、地点、归属、用途和价格信息。
3.根据权利要求1所述的一种基于科技资源的知识抽取方法,其特征在于:在步骤S4预处理去噪包括用爬虫收集的语料数据,去掉内容中的html的标签,然后进行处理中文编码、中文分词、引入停用词、特征处理和建立分析模型。
4.根据权利要求1所述的一种基于科技资源的知识抽取方法,其特征在于:步骤S3的各种类型根据实际需求,特定生成针对设备、项目或者人员信息的待解析文本。
CN202110895695.4A 2021-08-05 2021-08-05 一种基于科技资源的知识抽取方法 Active CN113590808B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110895695.4A CN113590808B (zh) 2021-08-05 2021-08-05 一种基于科技资源的知识抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110895695.4A CN113590808B (zh) 2021-08-05 2021-08-05 一种基于科技资源的知识抽取方法

Publications (2)

Publication Number Publication Date
CN113590808A CN113590808A (zh) 2021-11-02
CN113590808B true CN113590808B (zh) 2023-10-10

Family

ID=78255384

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110895695.4A Active CN113590808B (zh) 2021-08-05 2021-08-05 一种基于科技资源的知识抽取方法

Country Status (1)

Country Link
CN (1) CN113590808B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020234457A1 (en) * 2019-05-23 2020-11-26 Deepmind Technologies Limited Neural network-based memory system with variable recirculation of queries using memory content
CN112015900A (zh) * 2020-09-07 2020-12-01 平安科技(深圳)有限公司 医学属性知识图谱构建方法、装置、设备及介质
CN112100401A (zh) * 2020-09-14 2020-12-18 北京大学 面向科技服务的知识图谱构建方法、装置、设备及存储介质
CN112200317A (zh) * 2020-09-28 2021-01-08 西南电子技术研究所(中国电子科技集团公司第十研究所) 多模态知识图谱构建方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020234457A1 (en) * 2019-05-23 2020-11-26 Deepmind Technologies Limited Neural network-based memory system with variable recirculation of queries using memory content
CN112015900A (zh) * 2020-09-07 2020-12-01 平安科技(深圳)有限公司 医学属性知识图谱构建方法、装置、设备及介质
CN112100401A (zh) * 2020-09-14 2020-12-18 北京大学 面向科技服务的知识图谱构建方法、装置、设备及存储介质
CN112200317A (zh) * 2020-09-28 2021-01-08 西南电子技术研究所(中国电子科技集团公司第十研究所) 多模态知识图谱构建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘杰 ; 秦春秀 ; 赵捧未 ; 刘怀亮 ; .基于知识元的科技文本资源内容组织方法.情报理论与实践.2018,(04),全文. *

Also Published As

Publication number Publication date
CN113590808A (zh) 2021-11-02

Similar Documents

Publication Publication Date Title
CN110298033B (zh) 关键词语料标注训练提取系统
Hegewald et al. XStruct: efficient schema extraction from multiple and large XML documents
JP3266586B2 (ja) データ分析システム
CN101710343A (zh) 一种基于文本挖掘的本体自动构建系统及方法
CN103544255A (zh) 基于文本语义相关的网络舆情信息分析方法
CN112417891B (zh) 一种基于开放式信息抽取的文本关系自动标注方法
WO2008021561A2 (en) Joint optimization of wrapper generation and template detection
CN111967761A (zh) 一种基于知识图谱的监控预警方法、装置及电子设备
CN110008463B (zh) 用于事件抽取的方法、装置和计算机可读介质
CN111859969B (zh) 数据分析方法及装置、电子设备、存储介质
CN115186654B (zh) 一种公文文本摘要生成方法
CN116628173B (zh) 一种基于关键字提取的智能客服信息生成系统及生成方法
CN111951079B (zh) 一种基于知识图谱的信用评级方法、装置及电子设备
CN114579104A (zh) 数据分析场景的生成方法、装置、设备及存储介质
CN111177401A (zh) 一种电网自由文本知识抽取方法
CN111291573A (zh) 有向图意义导向模型驱动的短语语义挖掘方法
CN113590808B (zh) 一种基于科技资源的知识抽取方法
CN110633468A (zh) 一种关于对象特征提取的信息处理方法及装置
CN107818078B (zh) 汉语自然语言对话的语义关联与匹配方法
CN106055702B (zh) 一种面向互联网的数据服务统一描述方法
CN112488593B (zh) 一种用于招标的辅助评标系统及方法
CN112613315B (zh) 一种文本知识自动抽取方法、装置、设备及存储介质
Degeratu et al. Building automatically a business registration ontology
Sithole et al. Attributes extraction for fine-grained differentiation of the Internet of Things patterns
Liang et al. Knowledge representation framework of accounting event in corpus-based financial report text

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant