CN116090560B - 基于教材的知识图谱建立方法、装置及系统 - Google Patents

基于教材的知识图谱建立方法、装置及系统 Download PDF

Info

Publication number
CN116090560B
CN116090560B CN202310357857.8A CN202310357857A CN116090560B CN 116090560 B CN116090560 B CN 116090560B CN 202310357857 A CN202310357857 A CN 202310357857A CN 116090560 B CN116090560 B CN 116090560B
Authority
CN
China
Prior art keywords
information
text
graphic
document
textbook
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310357857.8A
Other languages
English (en)
Other versions
CN116090560A (zh
Inventor
魏炜
唐筱筠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University Shenzhen Graduate School
Original Assignee
Peking University Shenzhen Graduate School
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Shenzhen Graduate School filed Critical Peking University Shenzhen Graduate School
Priority to CN202310357857.8A priority Critical patent/CN116090560B/zh
Publication of CN116090560A publication Critical patent/CN116090560A/zh
Application granted granted Critical
Publication of CN116090560B publication Critical patent/CN116090560B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/027Frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明适用于自然语言处理技术领域,具体提供一种基于教材的知识图谱建立方法、装置及系统,方法包括从教科书文档中提取出文本信息和图形信息;使用训练至收敛的深度学习模型对文本信息进行信息提取,得到预设文本类别的文本提取信息,并对图形信息进行图形分类,得到预设图形类别的图形分类信息;对文本提取信息和图形分类信息结构化处理,得到文本信息所记载内容和/或图形信息所记载内容之间的层级关系数据和关联关系数据;将层级关系数据和关联关系数据转换成属性结构三元组数据和关系结构三元组数据;根据属性结构三元组数据和关系结构三元组数据生成与教科书文档对应的知识结构关系图谱并展示。本发明对文本内容进行信息提取准确率高。

Description

基于教材的知识图谱建立方法、装置及系统
技术领域
本发明属于自然语言处理技术领域,尤其涉及一种基于教材的知识图谱建立方法、装置及知识图谱系统。
背景技术
随着计算机、网络等技术的发展以及电子教学资源的日益丰富,教学过程不再局限于传统的实体书本的方式,越来越多的学校和教育机构使用多媒体和电子书本的方式进行教学,能充分发挥电子教学技术的作用,帮忙学生在学习过程中建立科学的知识结构。
使用多媒体教学就需要将实体课本的内容转换成电子格式内容,现有的方式是基于正则表达式提取文本信息。但是正则表达式准确率较低,容易出现较多正文提取错漏,文本之间的关联信息容易丢失的情况。另外,课本中通常包括大量的图形信息,例如插图、表格、分布图以及流程图等,这些图形信息无法通过正则表达式提取,这就需要人工处理进行提取,导致人工成本高且效率低的缺陷。
发明内容
本发明提供一种基于教材的知识图谱建立方法,解决现有技术中基于正则表达式提取文本信息容易错漏导致信息丢失、准确率低以及部分图形信息需要人工处理导致人工成本高且效率低的问题。
本发明是这样实现的,一种基于教材的知识图谱建立方法,包括:
从教科书文档中提取出文本信息和图形信息;
使用训练至收敛的深度学习模型对文本信息进行信息提取,得到预设文本类别的文本提取信息,并对图形信息进行图形分类,得到预设图形类别的图形分类信息;
对文本提取信息和图形分类信息结构化处理,得到文本信息所记载内容和/或图形信息所记载内容之间的层级关系数据和关联关系数据;
将层级关系数据和关联关系数据转换成属性结构三元组数据和关系结构三元组数据;
根据属性结构三元组数据和关系结构三元组数据生成与教科书文档对应的知识结构关系图谱并展示。
进一步地,从教科书文档中提取出文本信息和图形信息的步骤包括:
判断教科书文档是否符合预设的文档格式,其中,文档格式包括可编辑文本格式和/或文字版不可编辑文本格式;
若是,提取教科书文档中的文本信息和图形信息。
进一步地,判断教科书文档是否符合预设的文档格式,其中,文档格式包括可编辑文本格式和/或文字版不可编辑文本格式的步骤之后,方法还包括:
当判断教科书文档不符合文档格式时,判断教科书文档是否符合预设的扫描版不可编辑文本格式;
若是,将教科书文档转换成图片,并利用光学字符识别技术提取图片中的文本信息,以及利用深度学习模型提取图片中的图形信息。
进一步地,文本类别包括学科、书名、作者、目录、章节标题、小标题、正文、页码、边栏和注释中的至少一种。
进一步地,图形类别包括公式、表格、流程图和其他类型图中的至少一种。
第二方面,本申请还提供一种基于教材的知识图谱建立装置,包括:
信息提取单元,用于从教科书文档中提取出文本信息和图形信息;
信息处理单元,用于使用训练至收敛的深度学习模型对文本信息进行信息提取,得到预设文本类别的文本提取信息,并对图形信息进行图形分类,得到预设图形类别的图形分类信息;
结构化处理单元,用于对文本提取信息和图形分类信息结构化处理,得到文本信息所记载内容和/或图形信息所记载内容之间的层级关系数据和关联关系数据;
数据转换单元,用于将层级关系数据和关联关系数据转换成属性结构三元组数据和关系结构三元组数据;
知识图谱生成单元,用于根据属性结构三元组数据和关系结构三元组数据生成与教科书文档对应的知识结构关系图谱并展示。
进一步地,信息提取单元包括:
第一判断子单元,用于判断教科书文档是否符合预设的文档格式,其中,文档格式包括可编辑文本格式和/或文字版不可编辑文本格式;
第一提取子单元,用于当第一判断子单元判断为是时,提取教科书文档中的文本信息和图形信息。
进一步地,信息提取单元还包括:
第二判断子单元,用于当判断教科书文档不符合文档格式时,判断教科书文档是否符合预设的扫描版不可编辑文本格式;
第二提取子单元,用于当第二判断子单元判断为是时,将教科书文档转换成图片,并利用光学字符识别技术提取图片中的文本信息,以及利用深度学习模型提取图片中的图形信息。
进一步地,文本类别包括学科、书名、作者、目录、章节标题、小标题、正文、页码、边栏和注释中的至少一种。
进一步地,图形类别包括公式、表格、流程图和其他类型图中的至少一种。
第三方面,本申请还提供一种知识图谱系统,知识图谱系统包括如上述的基于教材的知识图谱建立装置。
本发明的有益效果在于,通过从教科书文档中提取出文本信息和图形信息,然后使用深度学习模型对本文新和图形信息进行提取和分类,在对提取的信息进行结构化处理,得到文本信息所记载内容和/或图形信息中所记载内容之间的层级关系数据和关联关系数据,再对层级关系数据和关联关系数据构建三元组数据,以生成与教科书文档对应的知识结构关系图谱进行可视化展示。所有的文本信息和图形信息都可以通过深度学习模型自动识别提取进行结构化,保留教科书文档章节之间以及章节内的层级和联系,以及图片和文本信息的联系,避免出现文本之间、图形之间以及文本和图形之间的关联信息丢失的情况,提高信息提取准确率和效率,全程不需要人工参与,减少人工成本投入。
附图说明
图1是本发明基于教材的知识图谱建立方法一个实施例的流程示意图;
图2是本发明基于教材的知识图谱建立方法另一个实施例的流程示意图;
图3是本发明基于教材的知识图谱建立装置一个实施例的模块结构示意图;
图4是本发明一个实施例摘自《经济学原理(微观)》一文的部分内容示意图;
图5是本发明另一个实施例摘自《经济学原理(微观)》一文的部分内容示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的文本信息和图形信息都可以通过深度学习模型自动识别提取进行结构化,保留教科书文档章节之间以及章节内的层级和联系,以及图片和文本信息的联系,避免出现文本之间、图形之间以及文本和图形之间的关联信息丢失的情况,提高信息提取准确率和效率,全程不需要人工参与,减少人工成本投入。
实施例一
如图1所示,本实施例提供一种基于教材的知识图谱建立方法,包括:
S1100、从教科书文档中提取出文本信息和图形信息;
在实施时,教科书文档由用户自行上传到知识图谱系统中,该知识图谱系统设置有处理器,本申请提供的基于教材的知识图谱建立方法由该处理器执行实现。可选地,该处理器可以是设置于知识图谱系统中的实际处理器,也可以是云端的虚拟处理器,在此不做限定。
可选地,用户可以通过与知识图谱系统通信连接的智能终端上传教科书文档,智能终端包括但不限于台式电脑、笔记本电脑、智能手机以及平板电脑等电子设备,能与知识图谱系统通信连接即可。
可选地,教科书文档的格式包括但不限于可编辑文本格式和不可编辑文本格式,其中,可编辑文本格式包括但不限于world、TXT等,可编辑文本是指可以对文本进行编辑,例如增删改查等编辑操作。不可编辑文本格式包括点不限于PDF,不可编辑文本是指无法直接在文本上进行编辑操作,在此不做赘述。
可选地,world和PDF均是Microsoft Office的组件,Microsoft Office是由Microsoft(微软)公司开发的一套办公软件套装,Microsoft Office的常用组件还包括Excel、PowerPoint等,TXT(文本格式)是微软在操作系统上附带的一种文本格式,在此不做赘述。
可选地,当教科书文档为可编辑文本格式时,可以直接从教科书文档中提取文本信息和图形信息。当教科书文档为不可编辑文本格式时,可以通过内容提取工具从教科书文档中提取文本信息和图形信息。例如通过OCR(Optical Character Recognition,光学字符识别)识别工具提取文本信息和图形信息。
可选地,文本信息是指教科书文档中的文字信息,图形信息是指教科书文档中的图档信息,例如图片、表格、公式以及流程图等,在此不做限定。
S1200、使用训练至收敛的深度学习模型对文本信息进行信息提取,得到预设文本类别的文本提取信息,并对图形信息进行图形分类,得到预设图形类别的图形分类信息;
在提取教科书文档的文本信息和图形信息后,处理器使用深度学习模型对提取得到的所有信息进行信息提取。可选地,信息提取是指按照预设的类别对文本信息和图形信息进行分类提取,包括对文本信息按照预设的文本类别进行分类提取,以及对图像信息按照预设的图形类别进行分类提取。在一些实施例中,预设的文本类别包括但不限于学科、书名、作者、目录、章节标题、小标题、正文、页码、边栏和注释中的至少一种,预设的图形类别包括但不限于公式、表格、流程图和其他类型图中的至少一种,其他类型图是指除公式、表格、流程图之外的其他图形,例如分布图、饼图、统计图、波形图等,在此不做限定。
可选地,使用训练至收敛的深度学习模型可以准确对输入的文档进行信息分类和提取。在实施时,深度学习模型需要经过训练得到,可以通过爬虫技术从网络上爬取一定数据量(例如100万、200万或者1000万条数据)的训练数据集,其中,每条数据包括标注好的文本、图形和类别信息。可选地,训练数据集的数据量越多,训练出来的深度学习模型的信息提取越准确,效果越好。在实施时,可以将提取得到的文本提取信息和图形分类信息作为训练数据加入到训练数据集中,从而不断提高深度学习模型的准确度。
S1300、对文本提取信息和图形分类信息结构化处理,得到文本信息所记载内容和/或图形信息所记载内容之间的层级关系数据和关联关系数据;
在提取得到文本提取信息和图形分类信息后,处理器对文本提取信息和图形分类信息进行结构化处理。可选地,结构化处理是指将提取得到的信息加以归纳和整理,使之条理化和纲领化,从而得到文本信息所记载内容和/或图形信息所记载内容之间的层级关系数据和关联关系数据,包括文本信息所记载内容之间的层级关系数据和关联关系数据,图形信息所记载内容之间的层级关系数据和关联关系数据,以及文本信息所记载内容和图形信息所记载内容之间的层级关系数据和关联关系数据。
可选地,文本信息所记载内容是指教科书文档的文字内容,例如上述的学科、书名、作者、目录、章节标题、小标题、正文、页码、边栏和注释等内容。图形信息所记载内容是指教科书文档的附图内容,例如上述的公式、表格、流程图和其他图等内容。在实施时,文本信息所记载内容之间存在相互联系,例如层级关系、上下文呼应关系等。图形信息所记载内容之间也可以存在相互联系,例如a图用于对b图中的部分内容进行细化说明。图形信息所记载内容通常用于对文本内容进行解释、归纳,所以与文本信息所记载内容之间也存在相互联系。
可选地,对文本提取信息和图形分类信息进行结构化处理包括但不限于:从文本中提取概念,并分析概念与概念之间的关系;章节正文上下页拼接;连接章节标题、副标题与章节正文,保留相关的变化和层级关系;图形信息与正文对应,在此不做限定。
S1400、将层级关系数据和关联关系数据转换成属性结构三元组数据和关系结构三元组数据;
在实施时,属性结构三元组数据是指概念、定义/相关案例、文本内容,关系结构三元组数据是指概念1、关系、概念2。
可选地,如图4和图5所示,图4和图5摘抄自《经济学原理(微观)》(2015年3月机械工业出版社出版图书,作者是佟琼、杨旭)一文。通过对图4所示内容进行上述步骤S1100至步骤S1300处理后,得到的结构化信息如下:
概念——绝对优势;
概念定义——绝对优势:用比另一个生产者更少的投入生产某种物品的能力;
正文——考察生产土豆的成本的一个方法是比较两个生产者所需要的投入。当比较一个人、一个企业或一个国家与另一个人、另一个企业或另一个国家的生产率时,经济学家用了绝对优势(absolute advantage)这个术语。如果生产者生产一种物品所需要的投人较少,就可以说该生产者在生产这种物品上有绝对优势。
在我们的例子中,时间是唯一的投人,因此我们可以通过考察每种类型的生产所需要的时间来确定绝对优势。牧牛人无论在生产土豆还是生产牛肉上都有绝对优势,因为他生产1单位这两种物品需要的时间都少于农民。牧牛人生产1蛊司牛肉只需要20分钟,而农民需要60分钟,同样,牧牛人生产1蛊司土豆只需要10分钟,而农民需要15分钟。根据这一信息,我们可以得出结论,如果我们用投入量来衡量成本,则牧牛人生产土豆的成本较低。
上述的结构化数据包括了文本信息所记载内容的层级关系数据和关联关系数据,转换成属性结构三元组数据如下所示:
{
概念: 绝对优势,
信息: 定义,
文本内容: 用比另一个生产者更少的投入生产某种物品的能力,
}
{
概念: 绝对优势,
信息: 相关案例,
文本内容: 在我们的例子中,时间是唯一的投人,因此我们可以通过考察每种类型的生产所需要的时间来确定绝对优势。牧牛人无论在生产土豆还是生产牛肉上都有绝对优势,因为他生产1单位这两种物品需要的时间都少于农民。牧牛人生产1蛊司牛肉只需要20分钟,而农民需要60分钟,同样,牧牛人生产1蛊司土豆只需要10分钟,而农民需要15分钟。根据这一信息,我们可以得出结论,如果我们用投入量来衡量成本,则牧牛人生产土豆的成本较低。
}
可选地,通过对图5所示内容进行上述步骤S1100至步骤S1400处理后,抽取得到多个关系结构三元组数据如下:
{
概念1: 需求价格弹性,
关系: 决定因素,
概念2:相近替代品可得性,
}
{
概念1: 需求价格弹性,
关系: 决定因素,
概念2:必需品与奢侈品,
}
S1500、根据属性结构三元组数据和关系结构三元组数据生成与教科书文档对应的知识结构关系图谱并展示。
在提取得到属性结构三元组数据和关系结构三元组数据后,处理器根据该属性结构三元组数据和关系结构三元组数据生成知识结构关系图谱,该知识结构关系图谱反映了教科书文档的知识结构关系,该知识结构关系图谱保留了教科书文档中章节之间的层级和联系、章节内的层级和联系、图片和文本信息的联系,通过展示该知识结构关系图谱,方便用户直观地获取教科书文档的知识并建立自己的知识体系。
在一些实施例中,在生成知识结构关系图谱后还可以将该知识结构关系图谱保存至本地数据库或者云端中,当识别提及的概念时,例如用户通过智能终端输入检索词,系统自动识别检索词对应的概念,然后在数据库中快速检索与概念相对应的知识结构关系图谱并展示,便于用户快速获取与检索词相关的知识和资料。
在一些实施例中,同一学科的不同教科书文档的知识结构关系图谱还可以进行融合,以生成对应学科的知识图谱,帮助用户从整体上建立学科知识体系。
在一些可能的实施例中,知识结构关系图谱还可以用于辅助教学,例如根据课堂主体检索相关概念,生成辅助教学资料,例如概念图谱、教学案例等,辅助用户更好地搭建知识体系。
本申请实施例通过从教科书文档中提取出文本信息和图形信息,然后使用深度学习模型对本文新和图形信息进行提取和分类,在对提取的信息进行结构化处理,得到文本信息所记载内容和/或图形信息中所记载内容之间的层级关系数据和关联关系数据,再对层级关系数据和关联关系数据构建三元组数据,以生成与教科书文档对应的知识结构关系图谱进行可视化展示。所有的文本信息和图形信息都可以通过深度学习模型自动识别提取进行结构化,保留教科书文档章节之间以及章节内的层级和联系,以及图片和文本信息的联系,避免出现文本之间、图形之间以及文本和图形之间的关联信息丢失的情况,提高信息提取准确率和效率,全程不需要人工参与,减少人工成本投入。
实施例二
在一些实施例中,如图2所示,从教科书文档中提取出文本信息和图形信息的步骤包括:
S1110、判断教科书文档是否符合预设的文档格式;
可选地,预设的文档格式包括上述的可编辑文本格式和/或文字版不可编辑文本格式。在提取文本信息和图形信息时,需要根据教科书文档的格式选择对应的提取方式。具体地,可以通过获取文档后缀和文档内容类别来判别文档格式。示例性地,当教科书文档的后缀与可编辑文本格式相匹配时,例如当教科书文档的后缀为“.doc”或者“.docx”时,确定该教科书文档符合文档格式。
可选地,当教科书文档的后缀与不可编辑文本格式相匹配时,例如当教科书文档的后缀为“.PDF”时,确定该教科书文档为PDF格式。进一步地,PDF格式的文档还包括文字版PDF和扫描版PDF,其中,文字版PDF属于文字版不可编辑文本格式,扫描版PDF属于扫描版不可编辑文本格式。当识别到教科书文档为文字版PDF时,确定该教科书文档符合预设的文档格式。
可选地,当确定教科书文档符合预设的文档格式时,执行步骤S1120,否则,执行步骤S1130。
S1120、提取教科书文档中的文本信息和图形信息。
当教科书文档为可编辑文本格式时,可以直接提取教科书文档中的文本信息和图形信息。而当教科书文档为文字版PDF时,可以通过文件编辑工具先将教科书文档转换成TXT格式或者转换成RTF(Rich Text Format,富文本格式)格式,进而可以直接使用TXT格式或者RTF格式的教科书文档提取文本信息和图形信息。
实施例三
在一些实施例中,步骤S1110之后,当确定教科书文档不符合预设的文档格式时,本申请提供的基于教材的知识图谱建立方法还包括:
S1130、判断教科书文档是否符合预设的扫描版不可编辑文本格式;
扫描版不可编辑文本格式为上述的扫描版PDF,当检测到教科书文档不符合预设的文档格式时,处理器进一步对该教科书文档是否为扫描版PDF进行判定,当确定为扫描版PDF时,执行步骤S1140,否则,执行步骤S1500、进行报错。
S1140、将教科书文档转换成图片,并利用光学字符识别技术提取图片中的文本信息,以及利用深度学习模型提取图片中的图形信息。
扫描版PDF是一种通过扫描方式生成的PDF文档,可先将扫描版PDF转换成图片,然后通过OCR技术对图片进行识别提取文本信息,并利用深度学习模型对图片中的图像信息进行提取。
可选地,OCR(Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。
在执行步骤S1140提取得到文本信息和图形信息后,其中,文本信息和图形信息可以分别看成是步骤S1200中的文本提取信息和图形分类信息,然后执行步骤S1300,以对提取的文本信息和图形信息进行结构化处理。
实施例四
在一些可选实施例中,如图3所示,本申请还提供一种基于教材的知识图谱建立装置,包括:
信息提取单元2100,用于从教科书文档中提取出文本信息和图形信息;
信息处理单元2200,用于使用训练至收敛的深度学习模型对文本信息进行信息提取,得到预设文本类别的文本提取信息,并对图形信息进行图形分类,得到预设图形类别的图形分类信息;
结构化处理单元2300,用于对文本提取信息和图形分类信息结构化处理,得到文本信息所记载内容和/或图形信息所记载内容之间的层级关系数据和关联关系数据;
数据转换单元2400,用于将层级关系数据和关联关系数据转换成属性结构三元组数据和关系结构三元组数据;
知识图谱生成单元2500,用于根据属性结构三元组数据和关系结构三元组数据生成与教科书文档对应的知识结构关系图谱并展示。
本申请实施例通过从教科书文档中提取出文本信息和图形信息,然后使用深度学习模型对本文新和图形信息进行提取和分类,在对提取的信息进行结构化处理,得到文本信息所记载内容和/或图形信息中所记载内容之间的层级关系数据和关联关系数据,再对层级关系数据和关联关系数据构建三元组数据,以生成与教科书文档对应的知识结构关系图谱进行可视化展示。所有的文本信息和图形信息都可以通过深度学习模型自动识别提取进行结构化,保留教科书文档章节之间以及章节内的层级和联系,以及图片和文本信息的联系,避免出现文本之间、图形之间以及文本和图形之间的关联信息丢失的情况,提高信息提取准确率和效率,全程不需要人工参与,减少人工成本投入。
在一些实施例中,信息提取单元2100包括:
第一判断子单元,用于判断教科书文档是否符合预设的文档格式,其中,文档格式包括可编辑文本格式和/或文字版不可编辑文本格式;
第一提取子单元,用于当第一判断子单元判断为是时,提取教科书文档中的文本信息和图形信息。
在一些实施例中,信息提取单元2100还包括:
第二判断子单元,用于当判断教科书文档不符合文档格式时,判断教科书文档是否符合预设的扫描版不可编辑文本格式;
第二提取子单元,用于当第二判断子单元判断为是时,将教科书文档转换成图片,并利用光学字符识别技术提取图片中的文本信息,以及利用深度学习模型提取图片中的图形信息。
在一些实施例中,文本类别包括学科、书名、作者、目录、章节标题、小标题、正文、页码、边栏和注释中的至少一种。
在一些实施例中,图形类别包括公式、表格、流程图和其他图中的至少一种。
所属领域的技术人员可以清楚地了解到,为描述的方便和间接,上述描述的装置的结构和实现原理,可以参考前述实施例一至三中的对应结构和实现原理,在此不再赘述。
实施例五
在一些可选实施例中,本申请还提供一种知识图谱系统,知识图谱系统包括如上述的基于教材的知识图谱建立装置。
在实施时,知识图谱系统包括信息提取单元2100、信息处理单元2200、结构化处理单元2300、数据转换单元2400和知识图谱生成单元2500,信息提取单元2100用于从教科书文档中提取出文本信息和图形信息;信息处理单元2200用于使用训练至收敛的深度学习模型对文本信息进行信息提取,得到预设文本类别的文本提取信息,并对图形信息进行图形分类,得到预设图形类别的图形分类信息;结构化处理单元2300用于对文本提取信息和图形分类信息结构化处理,得到文本信息所记载内容和/或图形信息所记载内容之间的层级关系数据和关联关系数据;数据转换单元2400用于将层级关系数据和关联关系数据转换成属性结构三元组数据和关系结构三元组数据;知识图谱生成单元2500用于根据属性结构三元组数据和关系结构三元组数据生成与教科书文档对应的知识结构关系图谱并展示。
本申请实施例通过从教科书文档中提取出文本信息和图形信息,然后使用深度学习模型对本文新和图形信息进行提取和分类,在对提取的信息进行结构化处理,得到文本信息所记载内容和/或图形信息中所记载内容之间的层级关系数据和关联关系数据,再对层级关系数据和关联关系数据构建三元组数据,以生成与教科书文档对应的知识结构关系图谱进行可视化展示。所有的文本信息和图形信息都可以通过深度学习模型自动识别提取进行结构化,保留教科书文档章节之间以及章节内的层级和联系,以及图片和文本信息的联系,避免出现文本之间、图形之间以及文本和图形之间的关联信息丢失的情况,提高信息提取准确率和效率,全程不需要人工参与,减少人工成本投入。
所属领域的技术人员可以清楚地了解到,为描述的方便和间接,上述描述的知识图谱系统的结构和实现原理,可以参考前述实施例一至四中的对应结构和实现原理,在此不再赘述。
以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于教材的知识图谱建立方法,其特征在于,包括:
从教科书文档中提取出文本信息和图形信息;
使用训练至收敛的深度学习模型对所述文本信息进行信息提取,得到预设文本类别的文本提取信息,并对所述图形信息进行图形分类,得到预设图形类别的图形分类信息;
对所述文本提取信息和所述图形分类信息结构化处理,得到所述文本信息所记载内容和/或所述图形信息所记载内容之间的层级关系数据和关联关系数据;
将所述层级关系数据和关联关系数据转换成属性结构三元组数据和关系结构三元组数据;
根据所述属性结构三元组数据和关系结构三元组数据生成与所述教科书文档对应的知识结构关系图谱并展示。
2.如权利要求1所述的基于教材的知识图谱建立方法,其特征在于,所述从教科书文档中提取出文本信息和图形信息的步骤包括:
判断所述教科书文档是否符合预设的文档格式,其中,所述文档格式包括可编辑文本格式和/或文字版不可编辑文本格式;
若是,提取所述教科书文档中的文本信息和图形信息。
3.如权利要求2所述的基于教材的知识图谱建立方法,其特征在于,所述判断所述教科书文档是否符合预设的文档格式,其中,所述文档格式包括可编辑文本格式和/或文字版不可编辑文本格式的步骤之后,所述方法还包括:
当判断所述教科书文档不符合所述文档格式时,判断所述教科书文档是否符合预设的扫描版不可编辑文本格式;
若是,将所述教科书文档转换成图片,并利用光学字符识别技术提取所述图片中的文本信息,以及利用深度学习模型提取所述图片中的图形信息。
4.如权利要求1所述的基于教材的知识图谱建立方法,其特征在于,所述文本类别包括学科、书名、作者、目录、章节标题、小标题、正文、页码、边栏和注释中的至少一种。
5.如权利要求1所述的基于教材的知识图谱建立方法,其特征在于,所述图形类别包括公式、表格、流程图和其他类型图中的至少一种。
6.一种基于教材的知识图谱建立装置,其特征在于,包括:
信息提取单元,用于从教科书文档中提取出文本信息和图形信息;
信息处理单元,用于使用训练至收敛的深度学习模型对所述文本信息进行信息提取,得到预设文本类别的文本提取信息,并对所述图形信息进行图形分类,得到预设图形类别的图形分类信息;
结构化处理单元,用于对所述文本提取信息和所述图形分类信息结构化处理,得到所述文本信息所记载内容和/或所述图形信息所记载内容之间的层级关系数据和关联关系数据;
数据转换单元,用于将所述层级关系数据和关联关系数据转换成属性结构三元组数据和关系结构三元组数据;
知识图谱生成单元,用于根据所述属性结构三元组数据和关系结构三元组数据生成与所述教科书文档对应的知识结构关系图谱并展示。
7.如权利要求6所述的基于教材的知识图谱建立装置,其特征在于,所述信息提取单元包括:
第一判断子单元,用于判断所述教科书文档是否符合预设的文档格式,其中,所述文档格式包括可编辑文本格式和/或文字版不可编辑文本格式;
第一提取子单元,用于当所述第一判断子单元判断为是时,提取所述教科书文档中的文本信息和图形信息。
8.如权利要求7所述的基于教材的知识图谱建立装置,其特征在于,所述信息提取单元还包括:
第二判断子单元,用于当判断所述教科书文档不符合所述文档格式时,判断所述教科书文档是否符合预设的扫描版不可编辑文本格式;
第二提取子单元,用于当所述第二判断子单元判断为是时,将所述教科书文档转换成图片,并利用光学字符识别技术提取所述图片中的文本信息,以及利用深度学习模型提取所述图片中的图形信息。
9.如权利要求6所述的基于教材的知识图谱建立装置,其特征在于,所述文本类别包括学科、书名、作者、目录、章节标题、小标题、正文、页码、边栏和注释中的至少一种。
10.一种知识图谱系统,其特征在于,所述知识图谱系统包括如权利要求6至9中任一项所述的基于教材的知识图谱建立装置。
CN202310357857.8A 2023-04-06 2023-04-06 基于教材的知识图谱建立方法、装置及系统 Active CN116090560B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310357857.8A CN116090560B (zh) 2023-04-06 2023-04-06 基于教材的知识图谱建立方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310357857.8A CN116090560B (zh) 2023-04-06 2023-04-06 基于教材的知识图谱建立方法、装置及系统

Publications (2)

Publication Number Publication Date
CN116090560A CN116090560A (zh) 2023-05-09
CN116090560B true CN116090560B (zh) 2023-08-01

Family

ID=86187210

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310357857.8A Active CN116090560B (zh) 2023-04-06 2023-04-06 基于教材的知识图谱建立方法、装置及系统

Country Status (1)

Country Link
CN (1) CN116090560B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117743558B (zh) * 2024-02-20 2024-05-24 青岛海尔科技有限公司 基于大模型的知识加工、知识问答方法、装置及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197119A (zh) * 2018-02-05 2018-06-22 成都卓观信息技术有限公司 基于知识图谱的纸质档案数字化方法
CN111241295A (zh) * 2020-01-03 2020-06-05 浙江大学 基于语义句法交互网络的知识图谱关系数据抽取方法
CN113326797A (zh) * 2021-06-17 2021-08-31 上海电气集团股份有限公司 一种pdf文档提取的表格信息转换为结构化知识的方法
CN115099409A (zh) * 2022-06-22 2022-09-23 南京航空航天大学 一种文本-图像增强的多模态知识图谱嵌入方法
EP4086808A2 (en) * 2021-08-30 2022-11-09 Beijing Baidu Netcom Science Technology Co., Ltd. Text checking method and apparatus based on knowledge graph, electronic device, and medium
CN115687655A (zh) * 2022-11-14 2023-02-03 新华智云科技有限公司 一种基于pdf文档的知识图谱构建方法、系统、设备及存储介质

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SG11202008351PA (en) * 2018-03-06 2020-09-29 Agency Science Tech & Res Method and system for generating a structured knowledge data for a text
CN111274327B (zh) * 2020-01-09 2021-08-03 浙江工业大学 一种面向非结构化表格文档的实体与关系抽取方法
CN111444351B (zh) * 2020-03-24 2023-09-12 清华苏州环境创新研究院 一种行业工艺领域知识图谱构建方法及装置
CN111581376B (zh) * 2020-04-17 2024-04-19 中国船舶重工集团公司第七一四研究所 一种知识图谱自动构建系统及方法
KR102543703B1 (ko) * 2020-11-16 2023-06-16 주식회사 솔트룩스 과학 기술 논문을 위한 지식 추출 시스템
CN113220878A (zh) * 2021-05-06 2021-08-06 西安电子科技大学 一种基于知识图谱的ocr识别结果分类方法
CN113569054A (zh) * 2021-05-12 2021-10-29 浙江工业大学 多源中文金融公告文书的知识图谱构建方法及系统
CN113486193A (zh) * 2021-07-26 2021-10-08 国网经济技术研究院有限公司 一种基于机器学习的电网基建工程数据知识图谱构建方法
CN113946684A (zh) * 2021-09-16 2022-01-18 国网四川省电力公司 电力基建知识图谱构建方法
CN114064915A (zh) * 2021-10-22 2022-02-18 北京仿真中心 一种基于规则与深度学习的领域知识图谱构建方法及系统
CN113918512A (zh) * 2021-10-22 2022-01-11 国家电网公司华中分部 电网运行规则知识图谱构建系统及方法
CN113688256B (zh) * 2021-10-27 2022-02-22 上海柯林布瑞信息技术有限公司 临床知识库的构建方法、装置
CN114417012A (zh) * 2022-01-20 2022-04-29 上海弘玑信息技术有限公司 一种生成知识图谱的方法和电子设备
CN115455935A (zh) * 2022-09-14 2022-12-09 华东师范大学 一种文本信息智能处理系统
CN115757831A (zh) * 2022-11-28 2023-03-07 南开大学 一种领域知识图谱半自动化构建的方法及装置
CN115905538A (zh) * 2022-12-13 2023-04-04 浙江大华技术股份有限公司 基于知识图谱的事件多标签分类方法、装置、设备及介质
CN115994230A (zh) * 2022-12-29 2023-04-21 南京烽火星空通信发展有限公司 一种融合人工智能和知识图谱技术的智慧档案构建方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197119A (zh) * 2018-02-05 2018-06-22 成都卓观信息技术有限公司 基于知识图谱的纸质档案数字化方法
CN111241295A (zh) * 2020-01-03 2020-06-05 浙江大学 基于语义句法交互网络的知识图谱关系数据抽取方法
CN113326797A (zh) * 2021-06-17 2021-08-31 上海电气集团股份有限公司 一种pdf文档提取的表格信息转换为结构化知识的方法
EP4086808A2 (en) * 2021-08-30 2022-11-09 Beijing Baidu Netcom Science Technology Co., Ltd. Text checking method and apparatus based on knowledge graph, electronic device, and medium
CN115099409A (zh) * 2022-06-22 2022-09-23 南京航空航天大学 一种文本-图像增强的多模态知识图谱嵌入方法
CN115687655A (zh) * 2022-11-14 2023-02-03 新华智云科技有限公司 一种基于pdf文档的知识图谱构建方法、系统、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于深度学习的档案知识图谱构建研究;易黎等;《中国档案》;第33-35页 *
基于知识图谱构建5G协议知识库;徐健;《移动通信》;44(08);第73-79页 *

Also Published As

Publication number Publication date
CN116090560A (zh) 2023-05-09

Similar Documents

Publication Publication Date Title
CN111930966B (zh) 一种用于数字政务的智能政策匹配方法及系统
CN109918351B (zh) 一种Beamer演示文稿向PowerPoint演示文稿转换的方法及系统
US9703759B2 (en) Footnote zone detection in a fixed format document using number of paragraphs in footnote description
US11341319B2 (en) Visual data mapping
CN116090560B (zh) 基于教材的知识图谱建立方法、装置及系统
US20200175268A1 (en) Systems and methods for extracting and implementing document text according to predetermined formats
Lee et al. The architecture of trueviz: A groundtruth/metadata editing and visualizing toolkit
CN115828874A (zh) 基于图像识别技术的行业表格数字化处理方法
US20140258852A1 (en) Detection and Reconstruction of Right-to-Left Text Direction, Ligatures and Diacritics in a Fixed Format Document
CN111897781A (zh) 一种知识图谱数据抽取方法和系统
Oelen et al. Creating a scholarly knowledge graph from survey article tables
JP2009110500A (ja) ドキュメント処理装置、ドキュメント処理方法、ドキュメント処理装置のプログラム
JP2004178010A (ja) 文書処理装置並びにその方法及びプログラム
Golub et al. Knowledge organisation for digital humanities: An introduction
CN112464907A (zh) 一种文档处理系统及方法
CN117095419A (zh) 一种pdf文档数据处理与信息抽取装置及方法
CN115713775B (zh) 一种从文档中提取表格的方法、系统和计算机设备
CN114564938A (zh) 文档的解析方法及装置、存储介质和处理器
Deshpande et al. Summarization of graph using question answer approach
CN111753555B (zh) 一种基于MathML的数学公式到盲文的翻译方法及系统
CN113065316A (zh) 将方正小样文件动态转换成html并录入题库、从题库选题组稿并生成小样文件的方法
Hast et al. Making large collections of handwritten material easily accessible and searchable
Homburga et al. From an Analog to a Digital Workflow: An Introductory Approach to Digital Editions in Assyriology
Iwashokun et al. Structural vetting of academic proposals
US20230046344A1 (en) Systems, Methods, and Devices for a Form Converter

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant