CN116821376B - 煤矿安全生产领域的知识图谱构建方法及系统 - Google Patents

煤矿安全生产领域的知识图谱构建方法及系统 Download PDF

Info

Publication number
CN116821376B
CN116821376B CN202311103688.1A CN202311103688A CN116821376B CN 116821376 B CN116821376 B CN 116821376B CN 202311103688 A CN202311103688 A CN 202311103688A CN 116821376 B CN116821376 B CN 116821376B
Authority
CN
China
Prior art keywords
entity
entities
coal mine
safety production
mine safety
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311103688.1A
Other languages
English (en)
Other versions
CN116821376A (zh
Inventor
王兆辉
李征仁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Huaqi Yuanhang International Consulting Co ltd
Original Assignee
Beijing Huaqi Yuanhang International Consulting Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Huaqi Yuanhang International Consulting Co ltd filed Critical Beijing Huaqi Yuanhang International Consulting Co ltd
Priority to CN202311103688.1A priority Critical patent/CN116821376B/zh
Publication of CN116821376A publication Critical patent/CN116821376A/zh
Application granted granted Critical
Publication of CN116821376B publication Critical patent/CN116821376B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供的一种煤矿安全生产领域知识图谱构建方法及系统,该方法包括根据煤矿安全生产领域文档特征构建本体结构,本体结构包括文本本体结构、图片本体结构和表格本体结构;根据文本本体结构获取煤矿安全生产领域文档中文本的实体、实体属性及实体之间的隶属关系;根据图片本体结构获取煤矿安全生产领域文档中图片的实体、实体属性及实体之间的隶属关系;根据表格本体结构获取煤矿安全生产领域文档中表格的实体、实体属性及实体之间的隶属关系;根据上述信息构建煤矿安全生产领域知识图谱。实现了自动获取煤矿安全生产领域文档的实体、实体属性及实体之间的隶属关系,尤其是表格实体和图片实体,提高了构建知识图谱的效率和准确性。

Description

煤矿安全生产领域的知识图谱构建方法及系统
技术领域
本发明涉及煤矿知识图谱领域,尤其涉及一种煤矿安全生产领域知识图谱构建方法及系统。
背景技术
随着社会由纸质化办公向电子化办公的转变,在煤矿安全生产领域,需要以电子文档形式记录的情况也日益增多,对数据的处理变得越来越重要,当数据量非常大的时候,分析和检索的工作量就会变得非常大,目前主要通过构建知识图谱对煤矿安全生产领域文档进行检索分析,但是由于煤矿安全生产领域文档中存在大量有意义的表格以及图片。为更清楚明了地展示设备操作规范、设备参数等信息,此领域文档中会补充大量的表格和图片进行说明。例如“牵引机构的传动系统参数”“冷却水管组件”“摇臂外形图”等,与常规文档不同,表格和图片信息是实质信息,对于文档起到的大多不是简单的补充解释作用,所以煤矿安全生产领域文档中的表格和图片对知识理解有很大意义。而现有知识图谱构建方法中,不能实现从文档中自动获取实体,尤其是图片实体和表格实体,导致煤矿安全生产领域的实体与实体关系存在遗漏,并且,该行业领域缺少历史标注数据,因此,需要通过人工标注提取煤矿安全生产领域文档中实体、实体属性及实体之间的隶属关系,再导入软件生成知识图谱,人工标注耗费时间和人力,且存在不可控的失误,导致构建知识图谱效率低且准确性低。
发明内容
本发明提供一种针对煤矿安全生产领域文档的知识图谱构建方法及系统,用以解决现有技术中无法自动获取文档实体,尤其是表格实体和图片实体,且人工标注耗费时间和人力,并存在不可控的失误,导致构建知识图谱效率低且准确性低的缺陷。
本发明提供一种煤矿安全生产领域知识图谱构建方法,包括:
根据煤矿安全生产领域文档特征构建本体结构,所述本体结构包括文本本体结构、图片本体结构和表格本体结构;
根据所述文本本体结构获取煤矿安全生产领域文档中文本的实体、实体属性及实体之间的隶属关系;
根据所述图片本体结构获取煤矿安全生产领域文档中图片的实体、实体属性及实体之间的隶属关系;
根据所述表格本体结构获取煤矿安全生产领域文档中表格的实体、实体属性及实体之间的隶属关系;
根据所述文本的实体、实体属性及实体之间的隶属关系、图片的实体、实体属性及实体之间的隶属关系以及表格的实体、实体属性及实体之间的隶属关系构建煤矿安全生产领域知识图谱。
根据本发明提供的一种煤矿安全生产领域知识图谱构建方法,所述根据所述文本本体结构获取煤矿安全生产领域文档中文本的实体、实体属性及实体之间的隶属关系,包括:
通过python中docx库识别所述煤矿安全生产领域文档的大纲层级结构,根据所述大纲层级结构得到所述煤矿安全生产领域文档中文本的一级标题实体、二级标题实体、三级标题实体、三级标题的段落内容实体及实体之间的隶属关系;
基于所述三级标题的段落内容实体提取段落关键词,得到所述段落内容的关键词实体,并根据所述文本本体结构得到所述段落内容关键词对应的段落内容的标签属性;
将煤矿安全生产领域文档转换成PDF文件,对PDF文件每页进行文本对比,得到段落文本内容的属性页码。
根据本发明提供的一种煤矿安全生产领域知识图谱构建方法,所述基于所述三级标题的段落内容实体提取段落关键词,得到所述段落内容的关键词实体,包括:
建立煤矿安全生产领域词库;
基于煤矿安全生产领域词库,基于TFIDF文本分析算法提取所述三级标题的段落内容的段落关键词及每个关键词的权重;
通过预设词库过滤关键词,得到名词及名词短语词性的关键词;
从所述名词及名词短语词性的关键词中选择所述权重排名靠前的预设数量关键词作为段落关键词;
获取段落所属的一级标题、二级标题、三级标题关键词,并将所述一级标题、二级标题、三级标题关键词合并到所述段落关键词,得到段落内容的关键词实体。
根据本发明提供的一种煤矿安全生产领域知识图谱构建方法,所述根据所述图片本体结构获取煤矿安全生产领域文档中图片的实体、实体属性及实体之间的隶属关系,包括:
将所述煤矿安全生产领域文档中的图片标题输入python程序中re模块,通过编写re表达式提取图片标题实体及与所属三级标题实体的隶属关系;
对段落元素xpath解析是否存在图片元素,当存在图片元素时,将图片内容保存到对应文件路径,得到图片内容实体及图片标题实体的图片内容属性。
根据本发明提供的一种煤矿安全生产领域知识图谱构建方法,所述根据所述表格本体结构获取煤矿安全生产领域文档中表格的实体、实体属性及实体之间的隶属关系,包括:
将所述煤矿安全生产领域文档中的表格标题输入python程序中re模块,通过编写re表达式提取表格标题实体及与所属三级标题实体的隶属关系;
通过python中的docx库对所述煤矿安全生产领域文档中的表格进行提取,按照表格标题进行命名并保存到对应文件路径,得到表格内容实体及表格标题实体的表格内容属性。
根据本发明提供的一种煤矿安全生产领域知识图谱构建方法,所述通过python中的docx库对所述煤矿安全生产领域文档中的表格进行提取,包括:
通过python中的docx库对所述煤矿安全生产领域文档中的表格进行统一提取,得到所述煤矿安全生产领域文档中的所有表格;
对提取后的每个表格第一行的序号和名称行判断是否为空;
若不为空,则将当前表格作为提取到的表格;
若为空,则将当前表格与上一个表格进行拼接,并去除空白行得到提取到的表格。
根据本发明提供的一种煤矿安全生产领域知识图谱构建方法,所述根据所述文本的实体、实体属性及实体之间的隶属关系、图片的实体、实体属性及实体之间的隶属关系以及表格的实体、实体属性及实体之间的隶属关系构建煤矿安全生产领域知识图谱,包括:
将所述文本的实体、实体属性及实体之间的隶属关系、图片的实体、实体属性及实体之间的隶属关系以及表格的实体、实体属性及实体之间的隶属关系,导入关系数据库,生成实体表、属性表及关系表;
将所述实体表、属性表及关系表输入图形数据库进行图形转化,得到所述煤矿安全生产领域的知识图谱。
本发明还提供一种煤矿安全生产领域知识图谱构建系统,包括:
构建模块,用于根据煤矿安全生产领域文档特征构建本体结构,所述本体结构包括文本本体结构、图片本体结构和表格本体结构;
文本模块,用于根据所述文本本体结构获取煤矿安全生产领域文档中文本的实体、实体属性及实体之间的隶属关系;
图片模块,用于根据所述图片本体结构获取煤矿安全生产领域文档中图片的实体、实体属性及实体之间的隶属关系;
表格模块,用于根据所述表格本体结构获取煤矿安全生产领域文档中表格的实体、实体属性及实体之间的隶属关系;
建图模块,用于根据所述文本的实体、实体属性及实体之间的隶属关系、图片的实体、实体属性及实体之间的隶属关系以及表格的实体、实体属性及实体之间的隶属关系构建煤矿安全生产领域知识图谱。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述煤矿安全生产领域知识图谱构建方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述煤矿安全生产领域知识图谱构建方法。
本发明提供的一种煤矿安全生产领域知识图谱构建方法,该方法包括根据煤矿安全生产领域文档特征构建本体结构,本体结构包括文本本体结构、图片本体结构和表格本体结构;根据文本本体结构获取煤矿安全生产领域文档中文本的实体、实体属性及实体之间的隶属关系;根据图片本体结构获取煤矿安全生产领域文档中图片的实体、实体属性及实体之间的隶属关系;根据表格本体结构获取煤矿安全生产领域文档中表格的实体、实体属性及实体之间的隶属关系;根据文本的实体、实体属性及实体之间的隶属关系、图片的实体、实体属性及实体之间的隶属关系以及表格的实体、实体属性及实体之间的隶属关系构建煤矿安全生产领域知识图谱。实现了自动获取煤矿安全生产领域文档的实体、实体属性及实体之间的隶属关系,尤其是表格实体和图片实体,提高了构建知识图谱的效率和准确性。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的煤矿安全生产领域知识图谱构建方法的流程示意图之一;
图2是本发明提供的本体结构设计图;
图3是本发明提供的煤矿安全生产领域知识图谱构建方法的流程示意图之二;
图4是本发明提供的煤矿安全生产领域知识图谱构建方法的流程示意图之三;
图5是本发明提供的煤矿安全生产领域知识图谱构建方法的流程示意图之四;
图6是本发明提供的煤矿安全生产领域知识图谱构建方法的流程示意图之五;
图7是本发明提供的煤矿安全生产领域知识图谱构建方法的流程示意图之六;
图8是本发明提供的煤矿安全生产领域知识图谱构建系统的结构示意图;
图9是本发明提供的电子设备的实体结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的煤矿安全生产领域知识图谱构建方法的流程图,如图1所示,本发明实施例提供的煤矿安全生产领域知识图谱构建方法包括:
步骤101、根据煤矿安全生产领域文档特征构建本体结构,本体结构包括文本本体结构、图片本体结构和表格本体结构;
在本发明实施例中,考虑到煤矿安全生产领域的文档基本为docx类型的文档,且含有大量专有词汇以及图片和表格数据,使用传统的实体识别和关系抽取方式无法充分利用煤矿安全生产领域的特色数据。因此,结合专家意见并利用文档本身存在的层级结构,提出通过设计本体结构构建知识图谱的方法。
煤矿安全生产领域文档与常规文档数据相比具有鲜明的行业特色,主要特征如下:
(1)煤矿安全生产领域文档中存在大量专业行业术语及专业词汇。例如煤矿企业在对矿区的工作地区命名时,常采用“数字编号+工作区类别名称”或者“海拔+高度单位+工作区类别名称”等形式,如“煤矿井下安排有110505采煤工作面”“张三分别去了-50m水平二石门辅助下山、四石门11轨道下山掘进工作面”,其中“110505采煤工作面”和“-50m水平二石门”是两个采矿工作区的名称,属于煤矿安全生产领域的行业术语;煤矿生产工作中会使用很多领域内的专业词汇包括各种仪器设备、职位名称、工作方法等,如“隔爆兼本安型直流稳压电源”“液压支架电液控制装置控制器”“副矿长”“施工钻孔”等,这些词汇与常规文档中词汇有很大差异。
(2)煤矿安全生产领域文档中存在一些特殊语句结构。在描述煤矿安全行业标准和设计规范的文本中,经常使用长句尽可能详细地描述系统或者所设计的功能,如“智能化综采工作面设备选型配套和生产系统设计除应符合GB/T 34679、GB/ T37611、GB/T 37768、GB/T 37815等标准要求之外,还应满足:智能化综采工作面应具备自主感知、自主控制和自主执行功能;具备远程监测、视频智能化控制协同控制故障诊断、预警预报等能力”,该段文本除了和当前文件内容相关,还涉及到其他标准文件;而在法律规章的文本数据中,常包含大量缺乏主语的表达命令或建议的语句,如“(一)建立、健全安全生产责任制,制定完备的安全生产规章制度和操作规程;(二)安全投入符合安全生产要求;(三)设置安全生产管理机构,配备专职安全生产管理人员。”这些特殊的语句结构使得煤矿安全生产领域的文本数据更加具有特色,同时也更加复杂,分析起来更具难度。
(3)煤矿安全生产领域文档中存在大量有意义的表格以及图片。为更清楚明了地展示设备操作规范、设备参数等信息,会补充大量的表格和图片进行说明。例如“牵引机构的传动系统参数”“冷却水管组件”“摇臂外形图”等,与常规文档不同,表格和图片信息是实质信息,对于文档起到的大多不是简单的补充解释作用,所以提取煤矿安全生产领域文档中的表格和图片的信息对知识理解有很大意义。
基于上述差异,使用传统的实体识别和关系抽取方式无法准确提取煤矿安全生产领域的特色数据,因此,提出通过设计本体结构构建知识图谱的方法,本体结构设计如图2所示,根据文档的大纲层级及相关属性,设计文档中的实体包括文件名、主题分类、发布单位、一级标题、图片标题、表格标题、页码等,其中,主题分类为文件的主题分类,例如为政策文件或者说明书等,内容类型例如为jpg、PDF或者Word类型等,文档中实体与实体间对应的关系为包含关系构成{实体1,包含,实体2}结构,如{文件名,包含,一级标题}、{一级标题,包含,二级标题}、{三级标题,包含,表格标题}等,具体见图1所示,对于单个实体设计描述性的属性,构成{实体,属性,属性值}结构,如{文件名,所属主题,主题分类}、{三级标题,内容属性,具体内容}、{三级标题,标签属性,关键词}、{表格标题,表格内容,URL}等。
步骤102、根据文本本体结构获取煤矿安全生产领域文档中文本的实体、实体属性及实体之间的隶属关系;
步骤103、根据图片本体结构获取煤矿安全生产领域文档中图片的实体、实体属性及实体之间的隶属关系;
步骤104、根据表格本体结构获取煤矿安全生产领域文档中表格的实体、实体属性及实体之间的隶属关系;
步骤105、根据文本的实体、实体属性及实体之间的隶属关系、图片的实体、实体属性及实体之间的隶属关系以及表格的实体、实体属性及实体之间的隶属关系构建煤矿安全生产领域知识图谱。
在本发明实施例中,知识图谱本质上是一种以结构化的角度体现实体之间关系的语义网络,实际上是一个蕴含着实体间关系的知识库。知识图谱目前已被广泛应用于语义搜索、智能问答系统、个性化推荐及文献分析等领域。在本发明实施例中,通过构建知识图谱用于后续对煤矿安全生产领域知识的检索分析、知识推理及质量评估,进而实现对知识图谱的丰富和优化。其中,知识推理是指根据知识图谱雏形进一步推理发现知识,质量评估是对知识的可信度进行量化,通过舍弃质量差的知识来保障知识图谱的质量。一般来说,知识图谱的构建过程包括:
(1)本体构建,本体包含某个学科内的基本实体和实体之间的关系,是描述领域知识的通用概念模型。本体可以借助本体编辑软件手动构建,也可以以数据驱动的自动化方式构建。
(2)知识抽取,对于非结构化数据或半结构化数据,进行实体抽取、实体属性提取、实体间关系抽取(实体指人名、机构名、地名等以名称为标识的实体,更广泛的还包括数字、日期、货币、地址等等),得到结构化数据,若初始数据为结构化数据,则省去此步骤。
(3)知识融合,将上述非结构化、半结构化、结构化数据清理和整合,进行指代消解和实体消歧,以去除冗余和错误信息。指代消解是指将代表同一实体对象的不同指称划分到一个实体集合,实体消歧是指将拥有相同指称的不同实体区分开。
(4)构建图谱,根据以上数据构建知识图谱。
(5)知识加工,包括知识推理和质量评估,知识推理指根据知识图谱雏形进一步推理发现知识,质量评估是对知识的可信度进行量化,通过舍弃质量差的知识来保障知识图谱的质量,通过知识推理与质量评估,进而实现对知识图谱的丰富和优化。
目前主要通过构建知识图谱对煤矿安全生产领域文档进行检索分析,但是由于煤矿安全生产领域文档中存在大量有意义的表格以及图片。为更清楚明了地展示设备操作规范、设备参数等信息,此领域文档中会补充大量的表格和图片进行说明。例如“牵引机构的传动系统参数”“冷却水管组件”“摇臂外形图”等,与常规文档不同,表格和图片信息是实质信息,对于文档起到的大多不是简单的补充解释作用,所以煤矿安全生产领域文档中的表格和图片对知识理解有很大意义。而现有知识图谱构建方法中,不能实现从文档中自动获取实体,尤其是图片实体和表格实体,导致煤矿安全生产领域的实体与实体关系存在遗漏,并且,该行业领域缺少历史标注数据,因此,需要通过人工标注提取煤矿安全生产领域文档中实体、实体属性及实体之间的隶属关系,再导入软件生成知识图谱,人工标注耗费时间和人力,且存在不可控的失误,导致构建知识图谱效率低且准确性低。
本发明提供的一种煤矿安全生产领域知识图谱构建方法,该方法包括根据煤矿安全生产领域文档特征构建本体结构,本体结构包括文本本体结构、图片本体结构和表格本体结构;根据文本本体结构获取煤矿安全生产领域文档中文本的实体、实体属性及实体之间的隶属关系;根据图片本体结构获取煤矿安全生产领域文档中图片的实体、实体属性及实体之间的隶属关系;根据表格本体结构获取煤矿安全生产领域文档中表格的实体、实体属性及实体之间的隶属关系;根据文本的实体、实体属性及实体之间的隶属关系、图片的实体、实体属性及实体之间的隶属关系以及表格的实体、实体属性及实体之间的隶属关系构建煤矿安全生产领域知识图谱。实现了自动获取煤矿安全生产领域文档的实体、实体属性及实体之间的隶属关系,尤其是表格实体和图片实体,提高了构建知识图谱的效率和准确性。
基于上述任一实施例,本发明提供一种煤矿安全生产领域知识图谱构建方法,如图3所示,根据文本本体结构获取煤矿安全生产领域文档中文本的实体、实体属性及实体之间的隶属关系,包括:
步骤301、通过python中docx库识别煤矿安全生产领域文档的大纲层级结构,根据大纲层级结构得到煤矿安全生产领域文档中文本的一级标题实体、二级标题实体、三级标题实体、三级标题的段落内容实体及实体之间的隶属关系;
在本发明实施例中,根据文档本身存在的大纲级别,通过python中docx库对每段文本进行解析,判断段落文本所属的大纲级别“style.name”为“Heading 1”“Heading 2”“Heading 3”等,从而提取出文档的一级标题、二级标题、三级标题实体,同时按照文档存在的大纲层级结构和文档本体设计的关系对以上几类实体进行关系分类,得到文档各级标题实体和其上下隶属关系。
步骤302、基于三级标题的段落内容实体提取段落关键词,得到段落内容的关键词实体,并根据文本本体结构得到段落内容关键词对应的段落内容的标签属性;
步骤303、将煤矿安全生产领域文档转换成PDF文件,对PDF文件每页进行文本对比,得到段落文本内容的属性页码。
在本发明实施例中,为了便于后续知识图谱的检索应用,在对文档段落内容进行解析时,同时提取出每段文本对应的页码。在解析过程中,将Word类型的文档转换成PDF文件,在Word文档提取段落文本及其关键词并去除特殊字符,特殊字符是指提取的段落文本中的空格、换行符、制表符等,然后将PDF文件与Word文档的文本进行对比,获取文本在PDF文件中的位置,作为段落文本内容的文档位置属性,也就是页码,并将上述信息存储至本地Excel表格中。
基于上述任一实施例,如图4所示,基于三级标题的段落内容实体提取段落关键词,得到段落内容的关键词实体,包括:
步骤401、建立煤矿安全生产领域词库;
在本发明实施例中,为了有效地利用文本中丰富内容信息,完善知识图谱结构,利于后续知识图谱的应用分析,提取出每段文本的语义关键词作为文本的属性标签。考虑到煤矿安全生产领域文本的特殊性,以百度词库、哈工大词库、搜狗词库为基础与人工识别相结合方法建立煤矿专业领域词库和停用词库,停用词库的内容为“啊、了、啦、的”等无意义的词汇。
步骤402、基于煤矿安全生产领域词库,基于TFIDF文本分析算法提取三级标题的段落内容的段落关键词及每个关键词的权重;
在本发明实施例中,基于专业领域词库,使用python中文本分析工具jieba库中的TFIDF(term frequency–inverse document frequency)文本分析算法提取内容关键词,TFIDF是一种用于信息检索与数据挖掘的常用加权技术,jieba是一种中文分词第三方库,由于中文文本之间每个汉字都是连续书写的,需要通过特定的手段来获得其中的每个词组,这种手段叫做分词,通过jieba库来完成分词。
步骤403、通过预设词库过滤关键词,得到名词及名词短语词性的关键词;
在本发明实施例中,通过停用词库过滤关键词,保留名词、名词短语等词性的关键词。
步骤404、从名词及名词短语词性的关键词中选择权重排名靠前的预设数量关键词作为段落关键词;
步骤405、获取段落所属的一级标题、二级标题、三级标题关键词,并将一级标题、二级标题、三级标题关键词合并到段落关键词,得到段落内容的关键词实体。
在本发明实施例中,将得到的段落关键词存储至本地Excel表格中。
基于上述任一实施例,如图5所示,根据图片本体结构获取煤矿安全生产领域文档中图片的实体、实体属性及实体之间的隶属关系,包括:
步骤501、将煤矿安全生产领域文档中的图片标题输入python程序中re模块,通过编写re表达式提取图片标题实体及与所属三级标题实体的隶属关系;
在本发明实施例中,图片的解析包括两部分,图片标题和图片内容。图片标题在文本中的表现格式一般为“图+数字+标题”的格式,因此通过设计文本规则的方法进行提取,提取图片标题表达式为:'^图\s?[0-9]+\s.*|\W图\s?[0-9]+\s.*',提取得到图片标题并与所在三级标题匹配隶属关系。
步骤502、对段落元素xpath解析是否存在图片元素,当存在图片元素时,将图片内容保存到对应文件路径,得到图片内容实体及图片标题实体的图片内容属性。
在本发明实施例中,对于图片内容本身,对段落元素xpath解析是否含有图片元素'pic',如果存在,将图片内容保存到对应文件路径,图片对应的文件路径即为图片内容属性,并将上述信息存储至本地Excel表中。
基于上述任一实施例,如图6所示,根据表格本体结构获取煤矿安全生产领域文档中表格的实体、实体属性及实体之间的隶属关系,包括:
步骤601、将煤矿安全生产领域文档中的表格标题输入python程序中re模块,通过编写re表达式提取表格标题实体及与所属三级标题实体的隶属关系;
在本发明实施例中,表格的解析包括三部分,表格标题、表格内容和表格具体内容。re表达式为'^表\s?[0-9]+\s.*|\W表\s?[0-9]+\s.*',提取得到表格标题并与所在三级标题匹配隶属关系。
步骤602、通过python中的docx库对煤矿安全生产领域文档中的表格进行提取,按照表格标题进行命名并保存到对应文件路径,得到表格内容实体及表格标题实体的表格内容属性。
在本发明实施例中,将上述信息存储至本地Excel表中。通过python中的docx库对煤矿安全生产领域文档中的表格进行提取,包括:
通过python中的docx库对煤矿安全生产领域文档中的表格进行统一提取,得到煤矿安全生产领域文档中的所有表格;
对提取后的每个表格第一行的序号和名称行判断是否为空;
若不为空,则将当前表格作为提取到的表格;
若为空,则将当前表格与上一个表格进行拼接,并去除空白行得到提取到的表格。
在本发明实施例中,表格内容使用python程序docx库对文档表格进行统一提取,得到文档中的所有表格,并按照表格标题次序进行命名并保存到对应文件路径。为了解决部分表格存在的跨页问题,即原本为同一个表格,但由于处于不同的页面,在表格提取时被分割为两个的表格的问题,对提取后的每个表格第一行的序号和名称行判断是否有空白,如有空白,则将整个表与上一个表进行拼接,并去除空白行得到完整的表格。
在对原始表格进行解析时,无法按行直接获取到除名称列之外每列的信息,为了更进一步利用表格数据,将煤矿安全生产领域文档的原始表格按行进行逐列解析,以表格表头的行号加上名称列数据得到新的实体,属性为表格表头的其他列,属性值为属性列对应的具体内容,得到新表格,对新表格进行知识提取,得到更多的表格实体、属性和关系,并存储至本地另一个Excel表格。原始表格如表1所示,新表格如表2所示。
表 1原始表格
表 2新表格
基于上述任一实施例,如图7所示,根据文本的实体、实体属性及实体之间的隶属关系、图片的实体、实体属性及实体之间的隶属关系以及表格的实体、实体属性及实体之间的隶属关系构建煤矿安全生产领域知识图谱,包括:
步骤701、将文本的实体、实体属性及实体之间的隶属关系、图片的实体、实体属性及实体之间的隶属关系以及表格的实体、实体属性及实体之间的隶属关系,导入关系数据库,生成实体表、属性表及关系表;
在本发明实施例中,通过将上述数据导入关系数据库,例如为MySQL数据库,生成实体表、属性表及关系表,需要说明的是,在本发明实施例中,对关系型数据库不做限制,也可以将上述数据导入SQL Server,Oracle等数据库。通过MySQL提取整理文档拆解后得到的Excel中的信息,按照本体构建设计,将“文件”“发布单位”“一级标题”“二级标题”“三级标题”“图片标题”“表格标题”等字段,作为后续知识图谱的实体,并对实体编码,确定节点类型,生成实体节点表,如表3所示,按照本体构建设计提取整合实体与其属性、实体与实体之间关系,生成属性表和关系表,如表4、表5所示,其中“节点”表示知识图谱中的实体或概念,“边”表示知识图谱中节点间的语义关系:
表 3实体表
表 4属性表
表 5关系表
步骤702、将实体表、属性表及关系表输入图形数据库进行图形转化,得到煤矿安全生产领域的知识图谱。
在本发明实施例中,将上述数据通过python程序使用Cypher语言写入图形数据库,例如为Neo4j,构建知识图谱。
在本发明实施例中,通过使用Cypher语言利于后续知识图谱检索,Cypher是一种声明式图数据库查询语言,它具有丰富的表现力,能高效地查询和更新图数据,Cypher借鉴了SQL语言的结构——查询可由各种各样的语句组合。Neo4j是一个高性能的NOSQL图形数据库,它将结构化数据存储在网络上而不是表中。它是一个嵌入式的、基于磁盘的、具备完全的事务特性的Java持久化引擎,但是它将结构化数据存储在网络(从数学角度叫做图)上而不是表中。Neo4j也可以被看作是一个高性能的图引擎,该引擎具有成熟数据库的所有特性。NoSQL(non-relational SQL)泛指非关系型的数据库,区别于关系数据库,易扩展,NoSQL数据库种类繁多,但是一个共同的特点都是去掉关系数据库的关系型特性。数据之间无关系,这样就非常容易扩展。无形之间也在架构的层面上带来了可扩展的能力。大数据量,高性能,NoSQL数据库都具有非常高的读写性能,尤其在大数据量下,同样表现优秀。这得益于它的无关系性,数据库的结构简单。
通过使用python、MySQL数据库及Neo4j,实现自动化提取煤矿安全生产领域文档的结构化知识并构建知识图谱,节省时间及人工资源,同时充分考虑煤矿安全生产领域文档特点并能够较好地捕捉煤矿文档中的有用知识,避免人工出错,从而提高知识提取的准确性,实现自动化构建煤矿安全生产领域知识图谱。
下面对本发明提供的煤矿安全生产领域知识图谱构建系统进行描述,下文描述的煤矿安全生产领域知识图谱构建系统与上文描述的煤矿安全生产领域知识图谱构建方法可相互对应参照。
图8为本发明实施例提供的煤矿安全生产领域知识图谱构建系统的结构示意图,如图8所示,本发明实施例提供的煤矿安全生产领域知识图谱构建系统包括:
构建模块801,用于根据煤矿安全生产领域文档特征构建本体结构,本体结构包括文本本体结构、图片本体结构和表格本体结构;
文本模块802,用于根据文本本体结构获取煤矿安全生产领域文档中文本的实体、实体属性及实体之间的隶属关系;
图片模块803,用于根据图片本体结构获取煤矿安全生产领域文档中图片的实体、实体属性及实体之间的隶属关系;
表格模块804,用于根据表格本体结构获取煤矿安全生产领域文档中表格的实体、实体属性及实体之间的隶属关系;
建图模块805,用于根据文本的实体、实体属性及实体之间的隶属关系、图片的实体、实体属性及实体之间的隶属关系以及表格的实体、实体属性及实体之间的隶属关系构建煤矿安全生产领域知识图谱。
本技术方案提出了一种针对煤矿安全生产领域文档的自动化构建知识图谱的方法,该方法基于python对各类型文档的处理方法,于Word、pdf文档中自动化提取文档的结构化信息,并将数据导入MySQL,最后通过Neo4j构建知识图谱。本方法更加适用于煤矿安全生产领域的文档数据,且无需人工标注工作,自动化提取知识能够减少时间消耗,同时提高知识抽取的准确性。本方法在煤矿生产领域具有一定的实用性。
图9示例了一种电子设备的实体结构示意图,如图9所示,该电子设备可以包括:处理器(processor)910、通信接口(Communications Interface)920、存储器(memory)930和通信总线940,其中,处理器910,通信接口920,存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储器930中的逻辑指令,以执行煤矿安全生产领域知识图谱构建方法,该方法包括:根据煤矿安全生产领域文档特征构建本体结构,本体结构包括文本本体结构、图片本体结构和表格本体结构;根据文本本体结构获取煤矿安全生产领域文档中文本的实体、实体属性及实体之间的隶属关系;根据图片本体结构获取煤矿安全生产领域文档中图片的实体、实体属性及实体之间的隶属关系;根据表格本体结构获取煤矿安全生产领域文档中表格的实体、实体属性及实体之间的隶属关系;根据文本的实体、实体属性及实体之间的隶属关系、图片的实体、实体属性及实体之间的隶属关系以及表格的实体、实体属性及实体之间的隶属关系构建煤矿安全生产领域知识图谱。
此外,上述的存储器930中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的煤矿安全生产领域知识图谱构建方法,该方法包括:根据煤矿安全生产领域文档特征构建本体结构,本体结构包括文本本体结构、图片本体结构和表格本体结构;根据文本本体结构获取煤矿安全生产领域文档中文本的实体、实体属性及实体之间的隶属关系;根据图片本体结构获取煤矿安全生产领域文档中图片的实体、实体属性及实体之间的隶属关系;根据表格本体结构获取煤矿安全生产领域文档中表格的实体、实体属性及实体之间的隶属关系;根据文本的实体、实体属性及实体之间的隶属关系、图片的实体、实体属性及实体之间的隶属关系以及表格的实体、实体属性及实体之间的隶属关系构建煤矿安全生产领域知识图谱。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (6)

1.一种煤矿安全生产领域知识图谱构建方法,其特征在于,包括:
根据煤矿安全生产领域文档特征构建本体结构,所述本体结构包括文本本体结构、图片本体结构和表格本体结构;
根据所述文本本体结构获取煤矿安全生产领域文档中文本的实体、实体属性及实体之间的隶属关系;
根据所述图片本体结构获取煤矿安全生产领域文档中图片的实体、实体属性及实体之间的隶属关系;
根据所述表格本体结构获取煤矿安全生产领域文档中表格的实体、实体属性及实体之间的隶属关系;
根据所述文本的实体、实体属性及实体之间的隶属关系、图片的实体、实体属性及实体之间的隶属关系以及表格的实体、实体属性及实体之间的隶属关系构建煤矿安全生产领域知识图谱;
所述根据所述图片本体结构获取煤矿安全生产领域文档中图片的实体、实体属性及实体之间的隶属关系,包括:
将所述煤矿安全生产领域文档中的图片标题输入python程序中re模块,通过编写re表达式提取图片标题实体及与所属三级标题实体的隶属关系;其中,图片的解析包括两部分:图片标题和图片内容;
对段落元素xpath解析是否存在图片元素,当存在图片元素时,将图片内容保存到对应文件路径,得到图片内容实体及图片标题实体的图片内容属性;
所述根据所述文本的实体、实体属性及实体之间的隶属关系、图片的实体、实体属性及实体之间的隶属关系以及表格的实体、实体属性及实体之间的隶属关系构建煤矿安全生产领域知识图谱,包括:
将所述文本的实体、实体属性及实体之间的隶属关系、图片的实体、实体属性及实体之间的隶属关系以及表格的实体、实体属性及实体之间的隶属关系,导入关系数据库,生成实体表、属性表及关系表;
将所述实体表、属性表及关系表输入图形数据库进行图形转化,得到所述煤矿安全生产领域的知识图谱;
所述根据所述表格本体结构获取煤矿安全生产领域文档中表格的实体、实体属性及实体之间的隶属关系,包括:
将所述煤矿安全生产领域文档中的表格标题输入python程序中re模块,通过编写re表达式提取表格标题实体及与所属三级标题实体的隶属关系;
通过python中的docx库对所述煤矿安全生产领域文档中的表格进行提取,得到所述煤矿安全生产领域文档中的所有表格;
对提取后的每个表格第一行的序号和名称行判断是否为空;
若不为空,则将当前表格作为提取到的表格;
若为空,则将当前表格与上一个表格进行拼接,并去除空白行得到提取到的表格;
按照表格标题进行命名并保存到对应文件路径,得到表格内容实体及表格标题实体的表格内容属性;
在对煤矿安全生产领域文档的原始表格进行解析时,将煤矿安全生产领域文档的原始表格按行进行逐列解析,以表格表头的行号加上名称列数据得到新的实体,属性为表格表头的其他列,属性值为属性列对应的具体内容,得到新表格,对新表格进行知识提取,得到更多的表格实体、属性和关系。
2.根据权利要求1所述的一种煤矿安全生产领域知识图谱构建方法,其特征在于,所述根据所述文本本体结构获取煤矿安全生产领域文档中文本的实体、实体属性及实体之间的隶属关系,包括:
通过python中docx库识别所述煤矿安全生产领域文档的大纲层级结构,根据所述大纲层级结构得到所述煤矿安全生产领域文档中文本的一级标题实体、二级标题实体、三级标题实体、三级标题的段落内容实体及实体之间的隶属关系;
基于所述三级标题的段落内容实体提取段落关键词,得到所述段落内容的关键词实体,并根据所述文本本体结构得到所述段落内容关键词对应的段落内容的标签属性;
将煤矿安全生产领域文档转换成PDF文件,对PDF文件每页进行文本对比,得到段落文本内容的属性页码。
3.根据权利要求2所述的一种煤矿安全生产领域知识图谱构建方法,其特征在于,所述基于所述三级标题的段落内容实体提取段落关键词,得到所述段落内容的关键词实体,包括:
建立煤矿安全生产领域词库;
基于煤矿安全生产领域词库,基于TFIDF文本分析算法提取所述三级标题的段落内容的段落关键词及每个关键词的权重;
通过预设词库过滤关键词,得到名词及名词短语词性的关键词;
从所述名词及名词短语词性的关键词中选择所述权重排名靠前的预设数量关键词作为段落关键词;
获取段落所属的一级标题、二级标题、三级标题关键词,并将所述一级标题、二级标题、三级标题关键词合并到所述段落关键词,得到段落内容的关键词实体。
4.一种煤矿安全生产领域知识图谱构建系统,其特征在于,包括:
构建模块,用于根据煤矿安全生产领域文档特征构建本体结构,所述本体结构包括文本本体结构、图片本体结构和表格本体结构;
文本模块,用于根据所述文本本体结构获取煤矿安全生产领域文档中文本的实体、实体属性及实体之间的隶属关系;
图片模块,用于根据所述图片本体结构获取煤矿安全生产领域文档中图片的实体、实体属性及实体之间的隶属关系;
表格模块,用于根据所述表格本体结构获取煤矿安全生产领域文档中表格的实体、实体属性及实体之间的隶属关系;
建图模块,用于根据所述文本的实体、实体属性及实体之间的隶属关系、图片的实体、实体属性及实体之间的隶属关系以及表格的实体、实体属性及实体之间的隶属关系构建煤矿安全生产领域知识图谱;
所述图片模块,具体用于:将所述煤矿安全生产领域文档中的图片标题输入python程序中re模块,通过编写re表达式提取图片标题实体及与所属三级标题实体的隶属关系;其中,图片的解析包括两部分:图片标题和图片内容;
对段落元素xpath解析是否存在图片元素,当存在图片元素时,将图片内容保存到对应文件路径,得到图片内容实体及图片标题实体的图片内容属性;
所述建图模块,具体用于:将所述文本的实体、实体属性及实体之间的隶属关系、图片的实体、实体属性及实体之间的隶属关系以及表格的实体、实体属性及实体之间的隶属关系,导入关系数据库,生成实体表、属性表及关系表;
将所述实体表、属性表及关系表输入图形数据库进行图形转化,得到所述煤矿安全生产领域的知识图谱;
所述表格模块,具体用于:将所述煤矿安全生产领域文档中的表格标题输入python程序中re模块,通过编写re表达式提取表格标题实体及与所属三级标题实体的隶属关系;
通过python中的docx库对所述煤矿安全生产领域文档中的表格进行统一提取,得到所述煤矿安全生产领域文档中的所有表格;
对提取后的每个表格第一行的序号和名称行判断是否为空;
若不为空,则将当前表格作为提取到的表格;
若为空,则将当前表格与上一个表格进行拼接,并去除空白行得到提取到的表格;
按照表格标题进行命名并保存到对应文件路径,得到表格内容实体及表格标题实体的表格内容属性;
在对煤矿安全生产领域文档的原始表格进行解析时,将煤矿安全生产领域文档的原始表格按行进行逐列解析,以表格表头的行号加上名称列数据得到新的实体,属性为表格表头的其他列,属性值为属性列对应的具体内容,得到新表格,对新表格进行知识提取,得到更多的表格实体、属性和关系。
5.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至3任一项所述煤矿安全生产领域知识图谱构建方法。
6.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至3任一项所述煤矿安全生产领域知识图谱构建方法。
CN202311103688.1A 2023-08-30 2023-08-30 煤矿安全生产领域的知识图谱构建方法及系统 Active CN116821376B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311103688.1A CN116821376B (zh) 2023-08-30 2023-08-30 煤矿安全生产领域的知识图谱构建方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311103688.1A CN116821376B (zh) 2023-08-30 2023-08-30 煤矿安全生产领域的知识图谱构建方法及系统

Publications (2)

Publication Number Publication Date
CN116821376A CN116821376A (zh) 2023-09-29
CN116821376B true CN116821376B (zh) 2024-03-08

Family

ID=88117004

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311103688.1A Active CN116821376B (zh) 2023-08-30 2023-08-30 煤矿安全生产领域的知识图谱构建方法及系统

Country Status (1)

Country Link
CN (1) CN116821376B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117494811B (zh) * 2023-11-20 2024-05-28 南京大经中医药信息技术有限公司 中医典籍的知识图谱构建方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021196520A1 (zh) * 2020-03-30 2021-10-07 西安交通大学 一种面向税务领域知识图谱的构建方法及系统
CN115422372A (zh) * 2022-09-01 2022-12-02 中国人民解放军国防科技大学 一种基于软件测试的知识图谱构建方法和系统
CN115858801A (zh) * 2022-09-15 2023-03-28 应急管理部大数据中心 基于空间知识地图的煤矿安全知识图谱构建方法及装置
CN116127090A (zh) * 2022-12-28 2023-05-16 中国航空综合技术研究所 基于融合和半监督信息抽取的航空系统知识图谱构建方法
CN116628172A (zh) * 2023-07-24 2023-08-22 北京酷维在线科技有限公司 基于知识图谱的政务服务领域多策略融合的对话方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021196520A1 (zh) * 2020-03-30 2021-10-07 西安交通大学 一种面向税务领域知识图谱的构建方法及系统
CN115422372A (zh) * 2022-09-01 2022-12-02 中国人民解放军国防科技大学 一种基于软件测试的知识图谱构建方法和系统
CN115858801A (zh) * 2022-09-15 2023-03-28 应急管理部大数据中心 基于空间知识地图的煤矿安全知识图谱构建方法及装置
CN116127090A (zh) * 2022-12-28 2023-05-16 中国航空综合技术研究所 基于融合和半监督信息抽取的航空系统知识图谱构建方法
CN116628172A (zh) * 2023-07-24 2023-08-22 北京酷维在线科技有限公司 基于知识图谱的政务服务领域多策略融合的对话方法

Also Published As

Publication number Publication date
CN116821376A (zh) 2023-09-29

Similar Documents

Publication Publication Date Title
CN111708773B (zh) 一种多源科创资源数据融合方法
CN111723215B (zh) 基于文本挖掘的生物技术信息知识图谱构建装置与方法
CN109992645B (zh) 一种基于文本数据的资料管理系统及方法
CN107180045B (zh) 一种互联网文本蕴含地理实体关系的抽取方法
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
Jayram et al. Avatar information extraction system.
CN111753099A (zh) 一种基于知识图谱增强档案实体关联度的方法及系统
CN102609512A (zh) 异构信息知识挖掘与可视化分析系统及方法
CN113987212A (zh) 一种数控加工领域工艺数据的知识图谱构建方法
CN105608232B (zh) 一种基于图形数据库的bug知识建模方法
JP2005526317A (ja) ドキュメントコーパスからコンセプト階層構造を自動に捜索する方法及びシステム
CN109947897B (zh) 司法案件事件树构建方法
CN114003791B (zh) 基于深度图匹配的医疗数据元自动化分类方法及系统
CN111061882A (zh) 一种知识图谱构建方法
CN111967761A (zh) 一种基于知识图谱的监控预警方法、装置及电子设备
CN116821376B (zh) 煤矿安全生产领域的知识图谱构建方法及系统
WO2020074017A1 (zh) 基于深度学习的医学文献中关键词筛选方法及装置
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
WO2017193472A1 (zh) 一种东巴经典古籍数字化释读库的建立方法
CN115344666A (zh) 政策匹配方法、装置、设备与计算机可读存储介质
CN115827862A (zh) 一种多元费用凭证数据关联采集方法
CN116467291A (zh) 一种知识图谱存储与搜索方法及系统
CN113297844B (zh) 一种基于doc2vec模型与最小编辑距离的重复性数据检测方法
CN112668836B (zh) 一种面向风险图谱的关联风险证据高效挖掘与监控方法和装置
CN115658919A (zh) 一种文化信息数字化存储方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant