CN104331473A - 一种基于知网节的学术知识获取方法及系统 - Google Patents

一种基于知网节的学术知识获取方法及系统 Download PDF

Info

Publication number
CN104331473A
CN104331473A CN201410610044.6A CN201410610044A CN104331473A CN 104331473 A CN104331473 A CN 104331473A CN 201410610044 A CN201410610044 A CN 201410610044A CN 104331473 A CN104331473 A CN 104331473A
Authority
CN
China
Prior art keywords
text section
knowledge
academic
data
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410610044.6A
Other languages
English (en)
Inventor
韩文
刘畅
薛利超
张灼
彭桂斌
冯自强
张振海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TONGFANG KNOWLEDGE NETWORK (BEIJING) TECHNOLOGY Co Ltd
Original Assignee
TONGFANG KNOWLEDGE NETWORK (BEIJING) TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TONGFANG KNOWLEDGE NETWORK (BEIJING) TECHNOLOGY Co Ltd filed Critical TONGFANG KNOWLEDGE NETWORK (BEIJING) TECHNOLOGY Co Ltd
Priority to CN201410610044.6A priority Critical patent/CN104331473A/zh
Publication of CN104331473A publication Critical patent/CN104331473A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于知网节的学术知识获取方法及系统,所述方法包括:采集学术知识载体并进行标引,提取学术知识中的知识对象数据;存储知识对象数据,并对知识对象数据进行索引;根据索引后的知识对象数据类型建立知网节关系模型;根据物理存储中的数据,建立知识网络节点;将关联性的知网节节点进行连接。所述系统包括采集器、标引装置、数据存储和索引装置及连接建立模块。本发明提供的方法及系统从任意一个节点出发,通过节点间的关联特性可以遍历整个知识网络,弥补了检索系统在知识获取上产生信息孤岛的问题,为读者提供一个信息全面、互联互通、可遍历的学术知识获取方法及系统。

Description

一种基于知网节的学术知识获取方法及系统
技术领域
本发明涉及学术知识获取技术领域,尤其涉及一种基于知网节的可遍历的学术知识获取方法及系统。
背景技术
学术知识是指对客观事物认识研究的深入程度,即揭示其所反映的客观规律性。学术知识是科学研究的基础。
目前,我国学术知识的获取方法主要是通过检索来获得,并以文献为主要的知识载体。这种方法可以快速获取目标明确文献,但对于检索目标不明确的情况,会产生信息孤岛,而且信息载体形式单一,忽略了学术中的客观对象如作者、关键词、机构、期刊、基金以及它们之间的关联关系,不能形成一个完整的学术知识网络,给读者提供的信息量有限,信息质量较低。
发明内容
为解决上述技术问题,本发明的目的是提供一种基于知网节的可遍历的学术知识获取系统及方法,该系统和方法通过知网节的互联互通,形成可遍历的学术知识网络,弥补检索系统产生信息孤岛的不足,并提供多种形式的知网节作为知识载体,丰富了学术知识获取方式。
本发明的目的通过以下的技术方案来实现:
一种基于知网节的学术知识获取方法,包括:
采集学术知识载体并进行标引,提取学术知识中的知识对象数据;
存储知识对象数据,并对知识对象数据进行索引;
根据索引后的知识对象数据类型建立知网节关系模型;及
根据物理存储中的数据,建立知识网络节点;
将关联性的知网节节点进行连接。
一种基于知网节的学术知识获取系统,包括:
采集器、标引装置、数据存储和索引装置及连接建立模块;所述
采集器,用于采集学术知识的载体;
标引装置,用于将采集到的学术知识载体进行标引,并提取学术知识中的知识对象;
数据存储和索引装置,将采集标引后的知识对象数据进行物理存储并索引;
根据存储中的数据,建立知识网络节点;
连接建立模块,将关联性的知识网络节点进行连接。
与现有技术相比,本发明的一个或多个实施例可以具有如下优点:
提供一种互联互通的学术知识网络,通过各个知网节之间的关联关系,可以遍历整个学术知识,解决了检索系统产生信息孤岛的问题;提供了多种知识载体,每种知网节都是一类学术知识载体,解决以往只有文献作为知识载体的问题,整个基于知网节的可遍历的学术网络系统为读者提供了一种知识全面、载体丰富、可遍历的新的知识获取方法。
附图说明
图1是基于知网节的学术知识获取方法流程图;
图2是基于知网节的学术知识获取系统结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合实施例及附图对本发明作进一步详细的描述。
如图1所示,为基于知网节的学术知识获取方法,该方法包括:
步骤10采集学术知识载体并进行标引,提取学术知识中的知识对象数据;
学术知识的载体包括期刊论文、博硕士论文、会议论文、报纸、年鉴、统计数据、专利、标准、法律、图书、词典、百科知识及网络上对学术研究有价值的信息。
上述学术知识载体的采集方式包括:与专业出版机构合作获得、互联网采集获得及通过已有的信息统计分析获得。
标引学术知识对象为客观的知识对象,是指对学术研究有价值的信息,如文献题名、关键词、作者信息、机构信息、期刊信息、基金信息等。
步骤20存储知识对象数据,并对知识对象数据进行索引;
对知识数据存储主要采用物理存储,由于是海量数据,可采用支持海量数据存储、标引,支持分布式部署,以及快速检索的专业数据库。此外,还要建立完善的更新机制、安全机制、保证数据的即时更新以及恢复。
步骤30根据索引后的知识对象数据类型建立知网节关系模型;
知网节类型包括文献知网节、关键词知网节、作者知网节、机构知网节、期刊知网节和基金知网节。根据每种类型知网节之间的客观规律,建立知网节关系模型。如文献都有作者、关键词,则文献知网节与作者知网节、关键词知网节存在着关联关系;再如,文献有参考文献,则文献知网节与文献知网节本身也存在着关联关系。
知网节关系模型用二维矩阵表示如下(1代表有关系,0代表无关系):
表1
步骤40根据物理存储中的数据,建立知识网络节点;
每种知网节结构上都包含两部分:节点本身信息以及与其他节点的关联信息。节点本身的信息是自然信息,如文献的关键词、作者、机构信息,或是作者的职称、研究领域、发表文献信息;与其他节点的关联信息既有同类型知网节之间的关系,如文献之间参考关系,如作者发表的文献,机构获得的基金。
步骤50将关联性的知网节节点进行连接。
利用知网节关系模型,如果两种知网节在模型中的关系值为1,则表示两种知网节存在关联关系,通过连接建立模块建立连接;如果关系值为0,则表示不存在关联关系。
如图2所示,本实施例还提供了一种基于知网节的学术知识获取系统,该系统包括采集器、标引装置、数据存储和索引装置及连接建立模块;所述
采集器,用于采集学术知识的载体;
标引装置,用于将采集到的学术知识载体进行标引,并提取学术知识中的知识对象;
数据存储和索引装置,将采集标引后的知识对象数据进行物理存储并索引;及
根据存储中的数据,建立知识网络节点;
连接建立模块,将关联性的知识网络节点进行连接。
对上述索引后的知识对象数据类型建立知网节关系模型。且知识网络节点间的关联性是根据知网节在知网节关系模型中的关系值确定。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (10)

1.一种基于知网节的学术知识获取方法,其特征在于,所述方法包括:
采集学术知识载体并进行标引,提取学术知识中的知识对象数据;
存储知识对象数据,并对知识对象数据进行索引;
根据索引后的知识对象数据类型建立知网节关系模型;及
根据物理存储中的数据,建立知识网络节点;
将关联性的知网节节点进行连接。
2.根据权利要求1所述的基于知网节的学术知识获取方法,其特征在于,所述学术知识载体包括:期刊论文、博硕士论文、会议论文、报纸、年鉴、统计数据、专利、标准、法律、图书、词典、百科知识及网络上对学术研究有价值的信息。
3.根据权利要求1所述的基于知网节的学术知识获取方法,其特征在于,所述知识对象数据存储包括本地存储和云存储。
4.根据权利要求1所述的基于知网节的学术知识获取方法,其特征在于,所述知网节包括文献知网节、关键词知网节、作者知网节、机构知网节、期刊知网节和基金知网节。
5.根据权利要求1所述的基于知网节的学术知识获取方法,其特征在于,所述知网节关系模型包括:
文献知网节,与文献知网节、关键词知网节、作者知网节、机构知网节、期刊知网节、基金知网节进行关联;
关键词知网节,与关键词知网节、作者知网节、文献知网节进行关联;
作者知网节,与文献知网节、关键词知网节、作者知网节、机构知网节、期刊知网节、基金知网节进行关联;
机构知网节,与文献知网节、作者知网节、机构知网节、基金知网节进行关联;
期刊知网节,与文献知网节、作者知网节、期刊知网节、基金知网节进行关联;
基金知网节,与文献知网节、作者知网节、机构知网节、期刊知网节、基金知网节进行关联。
6.根据权利要求1所述的基于知网节的学术知识获取方法,其特征在于,所述知网节节点连接包括URI网络连接。
7.根据权利要求1所述的基于知网节的学术知识获取方法,其特征在于,所述知网节节点间的关联性是根据知网节在知网节关系模型中的关系值确定。
8.一种基于知网节的学术知识获取系统,其特征在于,所述系统包括采集器、标引装置、数据存储和索引装置及连接建立模块;所述
采集器,用于采集学术知识的载体;
标引装置,用于将采集到的学术知识载体进行标引,并提取学术知识中的知识对象;
数据存储和索引装置,将采集标引后的知识对象数据进行物理存储并索引;
根据存储中的数据,建立知识网络节点;
连接建立模块,将关联性的知识网络节点进行连接。
9.根据权利要求8所述的基于知网节的学术知识获取系统,其特征在于,根据索引后的知识对象数据类型建立知网节关系模型。
10.根据权利要求8所述的基于知网节的学术知识获取系统,其特征在于,知识网络节点间的关联性是根据知网节在知网节关系模型中的关系值确定。
CN201410610044.6A 2014-11-03 2014-11-03 一种基于知网节的学术知识获取方法及系统 Pending CN104331473A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410610044.6A CN104331473A (zh) 2014-11-03 2014-11-03 一种基于知网节的学术知识获取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410610044.6A CN104331473A (zh) 2014-11-03 2014-11-03 一种基于知网节的学术知识获取方法及系统

Publications (1)

Publication Number Publication Date
CN104331473A true CN104331473A (zh) 2015-02-04

Family

ID=52406200

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410610044.6A Pending CN104331473A (zh) 2014-11-03 2014-11-03 一种基于知网节的学术知识获取方法及系统

Country Status (1)

Country Link
CN (1) CN104331473A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106940726A (zh) * 2017-03-22 2017-07-11 山东大学 一种基于知识网络的创意自动生成方法与终端
CN107862028A (zh) * 2017-10-27 2018-03-30 湖北三新文化传媒有限公司 建立标准学术模型方法、服务器及存储介质
CN108170784A (zh) * 2017-12-26 2018-06-15 佛山市道静科技有限公司 一种提取互联网上内容信息的方法及系统
CN109086399A (zh) * 2018-07-30 2018-12-25 中国人民解放军军事科学院系统工程研究院 一种综合贡献度分析与一体可视化表现方法
CN112231522A (zh) * 2020-09-24 2021-01-15 北京奥鹏远程教育中心有限公司 一种在线课程知识树的生成关联方法
CN116501972A (zh) * 2023-05-06 2023-07-28 兰州柒禾网络科技有限公司 基于大数据在线服务的内容推送方法及ai智能推送系统
CN117217308A (zh) * 2023-11-08 2023-12-12 中国标准化研究院 一种设计理性知识网络的构建方法、装置及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100174675A1 (en) * 2007-03-30 2010-07-08 Albert Mons Data Structure, System and Method for Knowledge Navigation and Discovery
CN102682107A (zh) * 2012-05-08 2012-09-19 《中国学术期刊(光盘版)》电子杂志社 基于知网节形式的学术知识表现方法
CN103744846A (zh) * 2013-08-13 2014-04-23 北京航空航天大学 一种多维度动态局部知识地图及其构建方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100174675A1 (en) * 2007-03-30 2010-07-08 Albert Mons Data Structure, System and Method for Knowledge Navigation and Discovery
CN102682107A (zh) * 2012-05-08 2012-09-19 《中国学术期刊(光盘版)》电子杂志社 基于知网节形式的学术知识表现方法
CN103744846A (zh) * 2013-08-13 2014-04-23 北京航空航天大学 一种多维度动态局部知识地图及其构建方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106940726A (zh) * 2017-03-22 2017-07-11 山东大学 一种基于知识网络的创意自动生成方法与终端
CN106940726B (zh) * 2017-03-22 2020-09-01 山东大学 一种基于知识网络的创意自动生成方法与终端
CN107862028A (zh) * 2017-10-27 2018-03-30 湖北三新文化传媒有限公司 建立标准学术模型方法、服务器及存储介质
CN108170784A (zh) * 2017-12-26 2018-06-15 佛山市道静科技有限公司 一种提取互联网上内容信息的方法及系统
CN109086399A (zh) * 2018-07-30 2018-12-25 中国人民解放军军事科学院系统工程研究院 一种综合贡献度分析与一体可视化表现方法
CN109086399B (zh) * 2018-07-30 2019-09-10 中国人民解放军军事科学院系统工程研究院 一种综合贡献度分析与一体可视化表现方法
CN112231522A (zh) * 2020-09-24 2021-01-15 北京奥鹏远程教育中心有限公司 一种在线课程知识树的生成关联方法
CN112231522B (zh) * 2020-09-24 2021-09-14 北京奥鹏远程教育中心有限公司 一种在线课程知识树的生成关联方法
CN116501972A (zh) * 2023-05-06 2023-07-28 兰州柒禾网络科技有限公司 基于大数据在线服务的内容推送方法及ai智能推送系统
CN116501972B (zh) * 2023-05-06 2024-01-05 广州市巨应信息科技有限公司 基于大数据在线服务的内容推送方法及ai智能推送系统
CN117217308A (zh) * 2023-11-08 2023-12-12 中国标准化研究院 一种设计理性知识网络的构建方法、装置及存储介质
CN117217308B (zh) * 2023-11-08 2024-02-27 中国标准化研究院 一种设计理性知识网络的构建方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN104331473A (zh) 一种基于知网节的学术知识获取方法及系统
CN110750599B (zh) 一种基于实体建模的关联信息抽取和显示方法
CN103631909B (zh) 对大规模结构化和非结构化数据联合处理的系统及方法
CN105843965B (zh) 一种基于url主题分类的深层网络爬虫表单填充方法和装置
CN102411617B (zh) 一种对海量url进行存储和查询方法
CN102662974A (zh) 一种基于邻接节点树的网络图索引方法
CN103744954B (zh) 一种词关联网模型的构建方法及其构建器
CN101388022A (zh) 一种融合文本语义和视觉内容的Web人像检索方法
CN110970112B (zh) 一种面向营养健康的知识图谱构建方法和系统
CN104679827A (zh) 一种基于大数据的公开信息关联方法及挖掘引擎
CN106980651B (zh) 一种基于知识图谱的爬取种子列表更新方法及装置
CN103699591A (zh) 一种基于示例页面的网页正文提取方法
CN104615734B (zh) 一种社区管理服务大数据处理系统及其处理方法
CN103853770B (zh) 一种抽取论坛网页中帖子内容的方法及系统
CN110287379B (zh) 一种基于逻辑树的表格拆分与数据提取方法
CN106294358A (zh) 一种信息的检索方法及系统
CN102081649A (zh) 一种搜索电脑文件的方法及其系统
Chu et al. Automatic data extraction of websites using data path matching and alignment
CN102831187A (zh) 基于内容的图像检索系统
CN105718457A (zh) 基于电子票据的信息推送方法及系统
CN110647673A (zh) 一种实现生态环境空间大数据集成共享的方法
CN105956070A (zh) 一种整合重复记录的方法及系统
CN107657067B (zh) 一种基于余弦距离的前沿科技信息快速推送方法及系统
CN109710814A (zh) 一种多源遥感数据归档处理方法及装置
CN109948015A (zh) 一种元搜索列表结果抽取方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150204