CN112395427A - 一种技术标准知识图谱的构建方法及系统 - Google Patents

一种技术标准知识图谱的构建方法及系统 Download PDF

Info

Publication number
CN112395427A
CN112395427A CN202011387180.5A CN202011387180A CN112395427A CN 112395427 A CN112395427 A CN 112395427A CN 202011387180 A CN202011387180 A CN 202011387180A CN 112395427 A CN112395427 A CN 112395427A
Authority
CN
China
Prior art keywords
document
technical standard
knowledge point
entity
standard knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011387180.5A
Other languages
English (en)
Inventor
胡学勇
骆智鹏
潘格
杨洋
胡爱宇
李�杰
王瑞杰
赵章
张�荣
张溪石
李华勤
赵蕾
付兰梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing China Power Information Technology Co Ltd
Original Assignee
Beijing China Power Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing China Power Information Technology Co Ltd filed Critical Beijing China Power Information Technology Co Ltd
Priority to CN202011387180.5A priority Critical patent/CN112395427A/zh
Publication of CN112395427A publication Critical patent/CN112395427A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种技术标准知识图谱的构建方法及系统,基于技术标准文档的格式,对技术标准文档按照预设拆分标准进行拆解得到多个技术标准知识点文档,对每个技术标准知识点文档进行实体识别和句子切分,并对识别出的每个实体标注对应的实体相关信息得到目标实体,基于各个目标实体以及句子切分得到的各个技术标准知识点子文档之间的关联关系构建得到技术标准知识图谱。本发明在构建技术标准知识图谱之前,将技术标准文档拆解为多个技术标准知识点文档,通过对每个技术标准知识点文档进行实体识别、实体标注以及句子切分,使得构建得到的技术标准知识图谱可以精细描述技术标准文档中各个实体的关联关系,从而用户可以快速提取到所需的知识点。

Description

一种技术标准知识图谱的构建方法及系统
技术领域
本发明涉及互联网技术领域,更具体的说,涉及一种技术标准知识图谱的构建方法及系统。
背景技术
知识图谱是一种基于图的数据结构,本质上是语义网络。知识图谱旨在描述真实世界中存在的各种实体或概念及实体之间的关系,其构成一张巨大的语义网络图,节点表示实体或概念,边则由属性或关系构成。随着计算机科学的发展,人工智能领域的兴起,知识图谱的应用也越发广泛,如搜索领域的Google搜索、百度搜索等。
目前,技术标准知识图谱的构建可以帮助用户提高对技术标准信息搜索的速度,以及知识获取的精准度,因此成为知识图谱构建的一个重要研究方向。传统的技术标准知识图谱的构建,通常是将文档数据整体直接入库,文档数据的精细程度不高,这样,当用户需要对文档数据中的知识点进行提取时,通常还需要遍历整个文档数据。
发明内容
有鉴于此,本发明公开一种技术标准知识图谱的构建方法及系统,以实现用户在对文档数据中的知识点进行提取时,可以快速提取到所需的知识点,并且无需遍历整个文档数据。
一种技术标准知识图谱的构建方法,包括:
基于技术标准文档的格式,对所述技术标准文档按照预设拆分标准进行拆解,得到多个技术标准知识点文档;
对每个所述技术标准知识点文档进行实体识别,并对识别出的每个实体标注对应的实体相关信息得到目标实体;
对每个所述技术标准知识点文档进行句子切分,得到多个技术标准知识点子文档;
基于各个所述目标实体以及各个所述技术标准知识点子文档之间的关联关系,构建得到技术标准知识图谱。
可选的,所述预设拆分标准包括:文档来源、文档名称、文档内容和三元组。
可选的,所述实体相关信息包括:业务专业实体内容、条件动作类以及约束中心类。
可选的,所述技术标准文档的格式包括:范围、规范性引用文件、总则和正文。
可选的,所述技术标准知识点文档包括:范围知识点文档、规范性引用文件知识点文档、总则知识点文档和正文知识点文档。
一种技术标准知识图谱的构建系统,包括:
拆解单元,用于基于技术标准文档的格式,对所述技术标准文档按照预设拆分标准进行拆解,得到多个技术标准知识点文档;
实体识别单元,用于对每个所述技术标准知识点文档进行实体识别,并对识别出的每个实体标注对应的实体相关信息得到目标实体;
句子切分单元,用于对每个所述技术标准知识点文档进行句子切分,得到多个技术标准知识点子文档;
图谱构建单元,用于基于各个所述目标实体以及各个所述技术标准知识点子文档之间的关联关系,构建得到技术标准知识图谱。
可选的,所述预设拆分标准包括:文档来源、文档名称、文档内容和三元组。
可选的,所述实体相关信息包括:业务专业实体内容、条件动作类以及约束中心类。
可选的,所述技术标准文档的格式包括:范围、规范性引用文件、总则和正文。
可选的,所述技术标准知识点文档包括:范围知识点文档、规范性引用文件知识点文档、总则知识点文档和正文知识点文档。
从上述的技术方案可知,本发明公开了一种技术标准知识图谱的构建方法及系统,基于技术标准文档的格式,对技术标准文档按照预设拆分标准进行拆解,得到多个技术标准知识点文档,对每个技术标准知识点文档进行实体识别,并对识别出的每个实体标注对应的实体相关信息得到目标实体,并且,对每个技术标准知识点文档进行句子切分,得到多个技术标准知识点子文档,基于各个目标实体以及各个技术标准知识点子文档之间的关联关系,构建得到技术标准知识图谱。由于本发明在构建技术标准知识图谱之前,将技术标准文档拆解为多个技术标准知识点文档,因此实现了对技术标准文档中知识点的提取,通过对每个技术标准知识点文档进行实体识别、实体标注以及句子切分,使得在基于实体标注得到的各个目标实体以及句子切分得到的各个技术标准知识点子文档之间的关联关系构建得到的技术标准知识图谱,可以精细描述技术标准文档中各个实体的关联关系,实现实体的链接,并能够提供精准搜索,从而用户在对文档数据中的知识点进行提取时,可以快速提取到所需的知识点,并且无需遍历整个文档数据,从而解决了现有技术中的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据公开的附图获得其他的附图。
图1为本发明实施例公开的一种技术标准知识图谱的构建方法流程图;
图2为本发明实施例公开的一种技术标准知识图谱的构建系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种技术标准知识图谱的构建方法及系统,基于技术标准文档的格式,对技术标准文档按照预设拆分标准进行拆解,得到多个技术标准知识点文档,对每个技术标准知识点文档进行实体识别,并对识别出的每个实体标注对应的实体相关信息得到目标实体,并且,对每个技术标准知识点文档进行句子切分,得到多个技术标准知识点子文档,基于各个目标实体以及各个技术标准知识点子文档之间的关联关系,构建得到技术标准知识图谱。由于本发明在构建技术标准知识图谱之前,将技术标准文档拆解为多个技术标准知识点文档,因此实现了对技术标准文档中知识点的提取,通过对每个技术标准知识点文档进行实体识别、实体标注以及句子切分,使得在基于实体标注得到的各个目标实体以及句子切分得到的各个技术标准知识点子文档之间的关联关系构建得到的技术标准知识图谱,可以精细描述技术标准文档中各个实体的关联关系,实现实体的链接,并能够提供精准搜索,从而用户在对文档数据中的知识点进行提取时,可以快速提取到所需的知识点,并且无需遍历整个文档数据,从而解决了现有技术中的问题。
参见图1,本发明实施例公开的一种技术标准知识图谱的构建方法流程图,该方法包括:
步骤S101、基于技术标准文档的格式,对所述技术标准文档按照预设拆分标准进行拆解,得到多个技术标准知识点文档;
一般情况下,技术标准文档的格式基本固定,包括:范围、规范性引用文件、总则和正文等。因此,本实施例对技术标准文档按照预设拆分标准进行拆解,得到多个技术标准知识点文档。
技术标准知识点文档可以包括:范围知识点文档、规范性引用文件知识点文档、总则知识点文档和正文知识点文档。
技术标准知识点文档中的知识点包括但不限于:涉及产品、过程或服务方面的所有特性;可以量化特性所要求的限值;引用或直接给出的试验方法、作业方法;标准以要求、推荐和陈述等方式给出的规定;名词和术语、符号、代号和缩略语的定义;标准适用范围、规范性引用文件等。
其中,预设拆分标准可以包括:文档来源、文档名称、文档内容和三元组。在实际应用中,预设拆分标准还可以包括:文档号。
以电力行业某技术标准为例,分别对范围、规范性引用文件、总则和正文按照预设拆分标准进行拆解,得到多个技术标准知识点文档的过程如下:
(1)范围-知识点拆解
第1步:拆解规定内容(即文档内容):
拆解结果:Q/GDW**8*—2014标准的范围。
本标准规定了±**kV换流站换流变压器施工及验收的技术要求。
本标准适用于±**kV换流站换流变压器的施工及验收。
拆解说明:“本标准规定了±800kV换流站换流变压器施工及验收的技术要求。
本标准适用于±800kV换流站换流变压器的施工及验收。”是标准中范围的内容。
第2步:拆解规定来源(即文档来源):
拆解结果:标准号:Q/GDW***—2014
中文名称:±**kV换流站换流变压器施工及验收规范
来源条款:1范围
拆解说明:来源是指本规定的出处,因此要包含三个要素“标准号”、“标准名称”、“来源条款”即:该规定来自哪本标准的哪个章节条目。
第3步:拆解规定名称(即文档名称):
拆解结果:±**kV换流站换流变压器施工及验收标准的使用范围。
拆解说明:根据拆解规定的内容,总结提炼拆解规定的名称。
第4步:用三元组形式拆分规定内容拆解知识点。
拆解结果
Figure BDA0002810014710000051
Figure BDA0002810014710000061
拆解说明:由于拆解规定内容是针对整体标准的,因此本实施例用三元组的形式拆分规定内容。
(2)规范性引用文件-知识点拆解
第1步:拆解规定内容(即文档内容):
拆解结果:Q/GDW 1220—2014标准的规范性引用文件。
GB/T**高压**子瓷件技术条件。
GB/T**交流电压高压**的绝缘套管。
第2步:拆解规定来源(即文档来源):
拆解结果:标准号:Q/GDW**—2014
中文名称:±**kV换流站换流变压器施工及验收规范
来源条款:2规范性引用文件
拆解说明:来源是指本规定的出处,因此要包含三个要素“标准号”、“标准名称”、“来源条款”即:该规定来自哪本标准的哪个章节条目。
第3步:拆解规定名称(即文档名称):
拆解结果:±**V换流站换流变压器施工及验收规范标准的规范性引用文件。
拆解说明:根据拆解规定的内容,总结提炼拆解规定的名称。
第4步:用三元组形式拆分规定内容拆解知识点。
拆解结果:
实体 关系 实体
Q/GDW**—2014 引用 GB/T**高压**子瓷件技术条件
Q/GDW**—2014 引用 GB/T**交流电压高压**V的绝缘套管
(3)总则-知识点拆解
第1步:拆解规定内容(即文档内容):
拆解结果:±**kV换流站换流变压器施工及验收规标准的总则
1为保证±**kV换流站换流变压器(以下简称换流变压器)的施工安装质量,促进工程施工技术水平的进步,确保设备安全运行,制定本标准。
2换流变压器的施工及验收除按本标准的规定执行外,尚应执行现行有关国家、行业标准的规定。
3施工前应编制施工方案。所编制的施工方案应符合本标准和其他相关国家现行标准的规定及产品技术文件的要求。
4施工单位应遵守有关环境保护的法律法规,并应采取有效措施控制施工现场的各种粉尘、废气、废水、废油、固体废弃物、噪声、振动等对周围环境造成的污染和危害。
备注:如果规定原文存在下级嵌套关系如8/9下面仍有a/b/c/d,需对该细则总结归纳一个标题或短句表述,下级内容不需列出,但需要作为知识点单独拆解,见知识点4。
第2步:拆解规定来源(即文档来源):
拆解结果:标准号:Q/GDW**—2014
中文名称:±800kV换流站换流变压器施工及验收规范
来源条款:3总则
拆解说明:来源是指本规定的出处,因此要包含三个要素“标准号”、“标准名称”、“来源条款”即:该规定来自哪本标准的哪个章节条目。
第3步:拆解规定名称(即文档名称):
拆解结果:±800kV换流站换流变压器施工及验收规范的总则。
拆解说明:根据拆解规定的内容,总结提炼拆解规定的名称。
第4步:用三元组形式拆分规定内容拆解知识点。
拆解结果
Figure BDA0002810014710000071
Figure BDA0002810014710000081
拆解说明:由于拆解规定内容是针对整体标准的,因此本实施例用三元组的形式拆分规定内容。
(4)正文-知识点拆解
第1步:拆解规定内容(即文档内容):
拆解结果:换流变压器安装前,换流变压器区域应具备下列条件:
a)混凝土基础达到允许安装的强度;
b)基础中心线、标高及表面平整度应符合设计和制造厂要求,无规定时基础中心线偏差不应大于**mm,标高偏差不应大于*mm,表面平整度不应大于*mm;
c)预埋件及预留孔符合设计要求,预埋件应牢固;
d)建筑施工设施应拆除,场地应清理干净;
备注:该规定是接总则,对总则第8条细则进一步拆解。
第2步:拆解规定来源(即文档来源):
拆解结果:标准号:Q/GDW**—2014。
中文名称:±**kV换流站换流变压器施工及验收规范。
来源条款:3.8换流变压器安装前,换流变压器区域应具备下列条件。
拆解说明:来源是指本规定的出处,因此要包含三个要素“标准号”、“标准名称”、“来源条款”即:该规定来自哪本标准的哪个章节条目。
第3步:拆解规定名称(即文档名称):
拆解结果:换流变压器安装前,换流变压器区域应具备条件。
拆解说明:根据拆解规定的内容,总结提炼拆解规定的名称。
第4步:用三元组形式拆分规定内容拆解知识点。
拆解结果
Figure BDA0002810014710000091
步骤S102、对每个所述技术标准知识点文档进行实体识别,并对识别出的每个实体标注对应的实体相关信息得到目标实体;
本实施例中的实体指的是:现实世界中的事物,比如人、地名、公司、电话、动物等。
其中,所述实体相关信息包括:业务专业实体内容、条件动作类以及约束中心类。
约束中心是一个句子的中心词,可以是一个设备、部件、技术参数。例如:变压器检修的环境温度是25摄氏度。其中:环境温度就是约束中心。设置约束中心,为了更好的理解用户对于非结构化文档知识点内容的需求,给出精准解答。
本实施例在对每个技术标准知识点文档进行实体识别时,主要对每个技术标准知识点文档中国的三元组中的实体进行识别。
在实际应用中,可以对每个技术标准知识点文档采用实体识别算法进行实体识别。
实体识别算法是通过算法,结合规则,将一个自然语言句子,可以进行分词、词性标注、实体识别、新词发现等处理,将句子拆分为词,并对不同的词标注其属性。
本实施例中实体识别算法是跟业务相关的,例如,涉及运检、营销领域的词典数据、语了数据、模型在训练、业务分析抽象代码化规则、针对分析结果对算法代码进行定向调优,针对算法分析效果替换算法或者做算法组合模型等处理,从而实现不同电网20多个业务领域知识图谱数据的精准化抽取。
步骤S103、对每个所述技术标准知识点文档进行句子切分,得到多个技术标准知识点子文档;
具体的,在实际应用中,对每个技术标准知识点文件按照句号、分号等断句符号,进行句子切分,得到多个技术标准知识点子文档。
需要特别说明的是,步骤S102和步骤S103的执行顺序包括但不限于图1所示实施例,在实际应用中,也可以先执行步骤S103,再执行步骤S102,或者步骤S102和步骤S103两个步骤同时执行,具体依据实际需要而定,本发明在此不做限定。
步骤S104、基于各个所述目标实体以及各个所述技术标准知识点子文档之间的关联关系,构建得到技术标准知识图谱。
其中,各个技术标准知识点子文档之间的关联关系包括但不限于因果关系、并列关系等等。
综上可知,本发明公开一种技术标准知识图谱的构建方法,基于技术标准文档的格式,对技术标准文档按照预设拆分标准进行拆解,得到多个技术标准知识点文档,对每个技术标准知识点文档进行实体识别,并对识别出的每个实体标注对应的实体相关信息得到目标实体,并且,对每个技术标准知识点文档进行句子切分,得到多个技术标准知识点子文档,基于各个目标实体以及各个技术标准知识点子文档之间的关联关系,构建得到技术标准知识图谱。由于本发明在构建技术标准知识图谱之前,将技术标准文档拆解为多个技术标准知识点文档,因此实现了对技术标准文档中知识点的提取,通过对每个技术标准知识点文档进行实体识别、实体标注以及句子切分,使得在基于实体标注得到的各个目标实体以及句子切分得到的各个技术标准知识点子文档之间的关联关系构建得到的技术标准知识图谱,可以精细描述技术标准文档中各个实体的关联关系,实现实体的链接,并能够提供精准搜索,从而用户在对文档数据中的知识点进行提取时,可以快速提取到所需的知识点,并且无需遍历整个文档数据,从而解决了现有技术中的问题。
与上述方法实施例相对应,本发明还公开了一种技术标准知识图谱的构建系统。
参见图2,本发明实施例公开的一种技术标准知识图谱的构建系统的结构示意图,该系统包括:
拆解单元201,用于基于技术标准文档的格式,对所述技术标准文档按照预设拆分标准进行拆解,得到多个技术标准知识点文档;
一般情况下,技术标准文档的格式基本固定,包括:范围、规范性引用文件、总则和正文等。因此,本实施例对技术标准文档按照预设拆分标准进行拆解,得到多个技术标准知识点文档。
技术标准知识点文档可以包括:范围知识点文档、规范性引用文件知识点文档、总则知识点文档和正文知识点文档。
技术标准知识点文档中的知识点包括但不限于:涉及产品、过程或服务方面的所有特性;可以量化特性所要求的限值;引用或直接给出的试验方法、作业方法;标准以要求、推荐和陈述等方式给出的规定;名词和术语、符号、代号和缩略语的定义;标准适用范围、规范性引用文件等。
其中,预设拆分标准可以包括:文档来源、文档名称、文档内容和三元组。在实际应用中,预设拆分标准还可以包括:文档号。
实体识别单元202,用于对每个所述技术标准知识点文档进行实体识别,并对识别出的每个实体标注对应的实体相关信息得到目标实体;
本实施例中的实体指的是:现实世界中的事物,比如人、地名、公司、电话、动物等。
其中,所述实体相关信息包括:业务专业实体内容、条件动作类以及约束中心类。
约束中心是一个句子的中心词,可以是一个设备、部件、技术参数。例如:变压器检修的环境温度是25摄氏度。其中:环境温度就是约束中心。设置约束中心,为了更好的理解用户对于非结构化文档知识点内容的需求,给出精准解答。
本实施例在对每个技术标准知识点文档进行实体识别时,主要对每个技术标准知识点文档中国的三元组中的实体进行识别。
在实际应用中,可以对每个技术标准知识点文档采用实体识别算法进行实体识别。
实体识别算法是通过算法,结合规则,将一个自然语言句子,可以进行分词、词性标注、实体识别、新词发现等处理,将句子拆分为词,并对不同的词标注其属性。
本实施例中实体识别算法是跟业务相关的,例如,涉及运检、营销领域的词典数据、语了数据、模型在训练、业务分析抽象代码化规则、针对分析结果对算法代码进行定向调优,针对算法分析效果替换算法或者做算法组合模型等处理,从而实现不同电网20多个业务领域知识图谱数据的精准化抽取。
句子切分单元203,用于对每个所述技术标准知识点文档进行句子切分,得到多个技术标准知识点子文档;
具体的,在实际应用中,对每个技术标准知识点文件按照句号、分号等断句符号,进行句子切分,得到多个技术标准知识点子文档。
需要特别说明的是,实体识别单元202和句子切分单元203的执行顺序包括但不限于图2所示实施例中的顺序,也可以先执行句子切分单元203,后执行实体识别单元202,或者实体识别单元202和句子切分单元203同时执行,具体依据实际需要而定,本发明在此不做限定。
图谱构建单元204,用于基于各个所述目标实体以及各个所述技术标准知识点子文档之间的关联关系,构建得到技术标准知识图谱。
其中,各个技术标准知识点子文档之间的关联关系包括但不限于因果关系、并列关系等等。
综上可知,本发明公开一种技术标准知识图谱的构建系统,基于技术标准文档的格式,对技术标准文档按照预设拆分标准进行拆解,得到多个技术标准知识点文档,对每个技术标准知识点文档进行实体识别,并对识别出的每个实体标注对应的实体相关信息得到目标实体,并且,对每个技术标准知识点文档进行句子切分,得到多个技术标准知识点子文档,基于各个目标实体以及各个技术标准知识点子文档之间的关联关系,构建得到技术标准知识图谱。由于本发明在构建技术标准知识图谱之前,将技术标准文档拆解为多个技术标准知识点文档,因此实现了对技术标准文档中知识点的提取,通过对每个技术标准知识点文档进行实体识别、实体标注以及句子切分,使得在基于实体标注得到的各个目标实体以及句子切分得到的各个技术标准知识点子文档之间的关联关系构建得到的技术标准知识图谱,可以精细描述技术标准文档中各个实体的关联关系,实现实体的链接,并能够提供精准搜索,从而用户在对文档数据中的知识点进行提取时,可以快速提取到所需的知识点,并且无需遍历整个文档数据,从而解决了现有技术中的问题。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用倀本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种技术标准知识图谱的构建方法,其特征在于,包括:
基于技术标准文档的格式,对所述技术标准文档按照预设拆分标准进行拆解,得到多个技术标准知识点文档;
对每个所述技术标准知识点文档进行实体识别,并对识别出的每个实体标注对应的实体相关信息得到目标实体;
对每个所述技术标准知识点文档进行句子切分,得到多个技术标准知识点子文档;
基于各个所述目标实体以及各个所述技术标准知识点子文档之间的关联关系,构建得到技术标准知识图谱。
2.根据权利要求1所述的构建方法,其特征在于,所述预设拆分标准包括:文档来源、文档名称、文档内容和三元组。
3.根据权利要求1所述的构建方法,其特征在于,所述实体相关信息包括:业务专业实体内容、条件动作类以及约束中心类。
4.根据权利要求1所述的构建方法,其特征在于,所述技术标准文档的格式包括:范围、规范性引用文件、总则和正文。
5.根据权利要求1所述的构建方法,其特征在于,所述技术标准知识点文档包括:范围知识点文档、规范性引用文件知识点文档、总则知识点文档和正文知识点文档。
6.一种技术标准知识图谱的构建系统,其特征在于,包括:
拆解单元,用于基于技术标准文档的格式,对所述技术标准文档按照预设拆分标准进行拆解,得到多个技术标准知识点文档;
实体识别单元,用于对每个所述技术标准知识点文档进行实体识别,并对识别出的每个实体标注对应的实体相关信息得到目标实体;
句子切分单元,用于对每个所述技术标准知识点文档进行句子切分,得到多个技术标准知识点子文档;
图谱构建单元,用于基于各个所述目标实体以及各个所述技术标准知识点子文档之间的关联关系,构建得到技术标准知识图谱。
7.根据权利要求6所述的构建系统,其特征在于,所述预设拆分标准包括:文档来源、文档名称、文档内容和三元组。
8.根据权利要求6所述的构建系统,其特征在于,所述实体相关信息包括:业务专业实体内容、条件动作类以及约束中心类。
9.根据权利要求6所述的构建系统,其特征在于,所述技术标准文档的格式包括:范围、规范性引用文件、总则和正文。
10.根据权利要求6所述的构建系统,其特征在于,所述技术标准知识点文档包括:范围知识点文档、规范性引用文件知识点文档、总则知识点文档和正文知识点文档。
CN202011387180.5A 2020-12-01 2020-12-01 一种技术标准知识图谱的构建方法及系统 Pending CN112395427A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011387180.5A CN112395427A (zh) 2020-12-01 2020-12-01 一种技术标准知识图谱的构建方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011387180.5A CN112395427A (zh) 2020-12-01 2020-12-01 一种技术标准知识图谱的构建方法及系统

Publications (1)

Publication Number Publication Date
CN112395427A true CN112395427A (zh) 2021-02-23

Family

ID=74604082

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011387180.5A Pending CN112395427A (zh) 2020-12-01 2020-12-01 一种技术标准知识图谱的构建方法及系统

Country Status (1)

Country Link
CN (1) CN112395427A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113190687A (zh) * 2021-05-08 2021-07-30 上海爱数信息技术股份有限公司 知识图谱的确定方法、装置、计算机设备及存储介质
WO2023274047A1 (zh) * 2021-06-30 2023-01-05 中国电子技术标准化研究院 标准知识图谱构建、标准查询方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156083A (zh) * 2015-03-31 2016-11-23 联想(北京)有限公司 一种领域知识处理方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156083A (zh) * 2015-03-31 2016-11-23 联想(北京)有限公司 一种领域知识处理方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113190687A (zh) * 2021-05-08 2021-07-30 上海爱数信息技术股份有限公司 知识图谱的确定方法、装置、计算机设备及存储介质
WO2023274047A1 (zh) * 2021-06-30 2023-01-05 中国电子技术标准化研究院 标准知识图谱构建、标准查询方法及装置

Similar Documents

Publication Publication Date Title
CN104809176A (zh) 藏语实体关系抽取方法
KR102452123B1 (ko) 비정형 사이버 위협 정보 빅데이터 구축 장치, 사이버 위협 정보 빅데이터 구축 및 연관성 분석 방법
CN112395427A (zh) 一种技术标准知识图谱的构建方法及系统
CN110781670B (zh) 基于百科知识库和词向量的中文地名语义消歧方法
RU2704531C1 (ru) Способ и устройство для анализа семантической информации
CN111950264B (zh) 文本数据增强方法及知识元抽取方法
CN112100322B (zh) 一种基于知识图谱的api元素比较结果自动生成方法
CN110377901B (zh) 一种针对配电线路跳闸填报案例的文本挖掘方法
CN107301163B (zh) 包含公式的文本语义解析方法及装置
CN107169079A (zh) 一种基于Deepdive的领域文本知识抽取方法
CN115858758A (zh) 一种多非结构化数据识别的智慧客服知识图谱系统
CN111597420A (zh) 基于深度学习的轨道交通规范关系抽取方法
CN113191148A (zh) 一种基于半监督学习和聚类的轨道交通实体识别方法
CN110390049B (zh) 一种面向软件开发问题的答案自动生成方法
CN111831794A (zh) 一种基于知识图谱的综合管廊行业知识问答系统构建方法
CN103246644A (zh) 一种网络舆情信息处理方法和装置
CN112926345A (zh) 基于数据增强训练的多特征融合神经机器翻译检错方法
CN107577713A (zh) 基于电力词典的文本处理方法
CN103092855B (zh) 探测地址更新的方法及装置
CN102968669A (zh) 对负荷进行预测的方法和装置
CN116757498A (zh) 一种惠企政策推送方法、设备及介质
CN103699568A (zh) 一种从维基中抽取领域术语间上下位关系的方法
Vicentiy et al. The technology of spatial relations visualization based on the analysis of natural language texts
CN110569504A (zh) 一种关系词确定方法及装置
Perez et al. Assessing four automatic term recognition methods: Are they domain-dependent?

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination