CN112732945A - 标准知识图谱构建、标准查询方法及装置 - Google Patents

标准知识图谱构建、标准查询方法及装置 Download PDF

Info

Publication number
CN112732945A
CN112732945A CN202110337471.1A CN202110337471A CN112732945A CN 112732945 A CN112732945 A CN 112732945A CN 202110337471 A CN202110337471 A CN 202110337471A CN 112732945 A CN112732945 A CN 112732945A
Authority
CN
China
Prior art keywords
standard
data
extraction
knowledge graph
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110337471.1A
Other languages
English (en)
Other versions
CN112732945B (zh
Inventor
郝文建
王立玺
胡晨
高艳炫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING SAIXI TECHNOLOGY DEVELOPMENT CO LTD
China Electronics Standardization Institute
Original Assignee
BEIJING SAIXI TECHNOLOGY DEVELOPMENT CO LTD
China Electronics Standardization Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING SAIXI TECHNOLOGY DEVELOPMENT CO LTD, China Electronics Standardization Institute filed Critical BEIJING SAIXI TECHNOLOGY DEVELOPMENT CO LTD
Priority to CN202110337471.1A priority Critical patent/CN112732945B/zh
Publication of CN112732945A publication Critical patent/CN112732945A/zh
Application granted granted Critical
Publication of CN112732945B publication Critical patent/CN112732945B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种标准知识图谱构建、标准查询方法及装置,所述标准知识图谱构建方法包括:基于结构化模板,对样本标准文本数据中的标准要素进行数据抽取,得到第一抽取数据;基于样本标准文本数据携带的非标要素标签,对样本标准文本数据中的非标要素进行数据抽取,得到第二抽取数据;分别对第一抽取数据和第二抽取数据进行实体链接,构建标准知识图谱。本发明通过对样本标准文本数据的标准要素进行数据抽取,以及对样本标准文本数据中的非标要素进行数据抽取构建标准知识图谱,从而可以快速基于标准知识图谱准确获取标准的相关数据信息,避免传统方法中需要人工阅读提取标准数据信息导致效率较低的问题。

Description

标准知识图谱构建、标准查询方法及装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种标准知识图谱构建、标准查询方法及装置。
背景技术
标准是对重复性事物和概念所做的统一规定,它以科学、技术和实践经验的综合为基础,作为共同遵守的准则和依据。标准的制定和类型按内容划分有基础标准(一般包括名词术语、符号、代号、机械制图、公差与配合等)、产品标准、辅助产品标准(工具、模具、量具、夹具等)、原材料标准、方法标准(包括工艺要求、过程、要素、工艺说明等)。
在对标准进行查询或宣贯学习时,目前多采用在标准文档(如PDF文档)中输入关键字,定位到文档中关键字所处的位置,然后人工阅读文档上下文提取相关数据信息,但该方法在每次需要进行标准查询或宣贯时,均需人工重复阅读提取相关数据信息,效率较低。
发明内容
本发明提供一种标准知识图谱构建、标准查询方法及装置,用以解决现有技术中提取标准中的数据信息效率低下的缺陷。
本发明提供一种标准知识图谱构建方法,包括:
获取样本标准文本数据;
基于结构化模板,对所述样本标准文本数据中的标准要素进行数据抽取,得到第一抽取数据;
基于所述样本标准文本数据携带的非标要素标签,对所述样本标准文本数据中的非标要素进行数据抽取,得到第二抽取数据;
分别对所述第一抽取数据和所述第二抽取数据进行实体链接,构建标准知识图谱。
根据本发明提供的一种标准知识图谱构建方法,所述结构化模板包括标准文本中各标准要素的位置信息;
所述基于结构化模板,对所述样本标准文本数据中的标准要素进行数据抽取,得到第一抽取数据,包括:
基于所述标准文本中各标准要素的位置信息,对所述样本标准文本数据中的标准要素进行数据抽取,得到所述第一抽取数据。
根据本发明提供的一种标准知识图谱构建方法,所述分别对所述第一抽取数据和所述第二抽取数据进行实体链接,包括:
基于所述第一抽取数据的标准要素标签,对所述第一抽取数据进行实体链接,所述标准要素标签是基于所述第一抽取数据在所述样本标准文本数据中的位置,以及所述结构化模板确定的;
基于所述第二抽取数据的非标要素标签,对所述第二抽取数据进行实体链接。
根据本发明提供的一种标准知识图谱构建方法,所述标准要素包括标准名称、标准章节、标准起草单位、标准指标以及标准术语中的至少一种。
根据本发明提供的一种标准知识图谱构建方法,在分别对所述第一抽取数据和所述第二抽取数据进行实体链接之后,还包括:
基于SQL脚本,将所述实体链接导入至所述标准知识图谱的数据库。
本发明还提供一种标准知识图谱构建装置,包括:
获取单元,用于获取样本标准文本数据;
第一抽取单元,用于基于结构化模板,对所述样本标准文本数据中的标准要素进行数据抽取,得到第一抽取数据;
第二抽取单元,用于基于所述样本标准文本数据携带的非标要素标签,对所述样本标准文本数据中的非标要素进行数据抽取,得到第二抽取数据;
构建单元,用于分别对所述第一抽取数据和所述第二抽取数据进行实体链接,构建标准知识图谱。
本发明还提供一种标准查询方法,包括:
确定待查询标准的关键字;
在标准知识图谱中,基于标准的关键字与标准数据之间的映射关系,确定所述待查询标准的数据;
其中,所述标准知识图谱为采用如上所述的标准知识图谱构建方法构建得到。
本发明还提供一种标准查询装置,包括:
确定单元,用于确定待查询标准的关键字;
查询单元,用于在标准知识图谱中,基于标准的关键字与标准数据之间的映射关系,确定所述待查询标准的数据;
其中,所述标准知识图谱为采用如上所述的标准知识图谱构建方法构建得到。
本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述标准知识图谱构建方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述标准知识图谱构建方法的步骤。
本发明提供的标准知识图谱构建、标准查询方法及装置,通过对样本标准文本数据的标准要素进行数据抽取,以及对样本标准文本数据中的非标要素进行数据抽取构建标准知识图谱,从而可以快速基于标准知识图谱准确获取标准的相关数据信息,避免传统方法中需要人工阅读提取标准数据信息导致效率较低的问题。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的标准知识图谱构建方法的流程示意图;
图2是本发明提供的又一标准知识图谱构建方法的流程示意图;
图3是本发明提供的标准知识图谱构建装置的结构示意图;
图4是本发明提供的标准查询方法的流程示意图;
图5是本发明提供的标准查询装置的结构示意图;
图6是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在对标准进行查询或宣贯学习时,目前多采用在标准文档(如PDF文档)中输入关键字,定位到文档中关键字所处的位置,然后人工阅读文档上下文提取相关数据信息,但该方法在每次需要进行标准查询或宣贯时,均需人工重复阅读提取相关数据信息,效率较低。例如,在查询标准A的起草单位时,需要输入关键字“起草单位”,然后定位到文档中的“起草单位”栏目下,人工阅读上下文信息提取起草单位的数据信息。同时,该方法也可能会由于人工失误导致漏查或错误查询相关数据信息。
对此,本发明提供一种标准知识图谱构建方法。图1是本发明提供的标准知识图谱构建方法的流程示意图,如图1所示,该方法包括如下步骤:
步骤110、获取样本标准文本数据。
具体地,样本标准为符合标准格式规范的文件,可以是已发布的标准,也可以是待查询或宣贯的标准。由于样本标准多数为PDF版本或Word版本,则可以通过OCR文字识别PDF文本或Word文本获取样本标准文本数据,从而使得获取的样本标准文本数据能机器识别。
步骤120、基于结构化模板,对样本标准文本数据中的标准要素进行数据抽取,得到第一抽取数据。
具体地,结构化模板为包含有标准格式规范中各标准要素属性信息的文件,如结构化模板中包含各标准要素的位置、字体大小、字体颜色、段落行距等信息。标准要素指各标准中通用的要素,例如大多标准中包含范围、规范性引用文件、术语和定义等要素,则范围、规范性引用文件、术语和定义为标准要素。由于样本标准也是符合标准格式规范的文件,即样本标准中包含的标准要素属性与结构化模板中的标准要素属性一致,因此结合结构化模板中标准要素的属性信息,从样本标准文本中可以对标准要素进行数据抽取,得到第一抽取数据。
举例来说,可以在标准知识图谱中建立若干个标准要素数据库,如标准目录库、标准指标库、标准术语库等,其中标准目录库用于存储从标准数据中得到的系列标准数据列表,标准指标库用于存储指标要素、指标对象以及指标内容,名词术语库用于存储术语词条以及术语定义。对于样本标准A,可以将提取出的规范性引用文件数据存储至标准目录库,从而可以快速获取样本标准A的引用标准数据列表;将提取出的标准指标数据存储至标准指标库,从而可以快速获取样本标准A的标准指标;将提取出的标准术语存储至标准术语库,从而可以快速获取样本标准A的标准术语。
由此可见,本发明实施例通过对样本标准文本数据的标准要素进行数据抽取,从而可以快速获取标准与标准的关系(引用关系),标准内容关系(标准指标对应的内容,标准术语对应的内容等),避免传统方法中需要人工阅读提取标准数据信息导致效率较低的问题。
步骤130、基于样本标准文本数据携带的非标要素标签,对样本标准文本数据中的非标要素进行数据抽取,得到第二抽取数据。
具体地,非标要素指样本标准特有的要素,例如样本标准文本A的章节4.1中引用了标准1、标准2和标准3,而样本标准文本B的章节4.1中引用了标准2、标准3和标准4,即样本标准文本A的章节4.1和样本标准文本B的章节4.1引用的标准不同,因此章节引用的标准信息可以作为非标要素。因此,对于样本标准文本里面的详细内容,机器无法抽象定义和抽取的本体和关系,为了能够使得标准知识图谱全面覆盖样本标准数据,可以通过人工标注样本标准文本数据中的非标要素标签,然后按照非标要素标签抽取出非标要素数据,即第二抽取数据,如用户上传标准文本pdf,鼠标选择一段文字,创建实体和关系,进行人工在线标注。
步骤140、分别对第一抽取数据和第二抽取数据进行实体链接,构建标准知识图谱。
具体地,实体链接就是将样本标准文本数据中的某些字符串映射到标准知识图谱中对应的实体上。比如对于文本“本标准起草单位:A公司”,则“A公司”应该映射到标准知识图谱中“起草单位”这一实体。在分别对第一抽取数据和第二抽取数据进行实体链接之后,即建立了实体与实体之间的映射关系,从而可以通过待查询或宣贯标准的关键字或词快速且准确获取标准的相关数据信息。
举例来说,对标准文本中的标准名称、章节、起草单位、名词术语、指标等基本通用信息可以进行自动构建图谱,建立以实体-关系-实体三元组为模型的关系图谱,从而形成标准中技术指标的、标准间的技术指标、标准间引用的关联关系。具体的关联关系构建方式包括:
(1)通过标准题录信息,建立标准-起草人(起草)、标准-技术组织(归口)、标准-起草单位(起草)、标准-标准(引用、采用、参考)、标准-主管部门(发布)、标准-技术领域(属于)、标准-标准化对象(规范)等一系列关系。
(2)标准章节号与标准文档之间的关系:标准文档由多个不同的标准章节号组成,而同一项标准章节号可能被多个不同的标准文档引用,因此标准文档与标准章节号之间的关系为多对多的包含或引用关系。
(3)标准章节号与标准化要素的对应关系。标准化要素作为产品和标准间的纽带,在标准章节号中作为具体的规范目标。因此,标准章节号与标准化要素之间的关系为规范关系。举例来说,标准章节2.1中规范的是产品A的相关内容,则章节2.1与产品A之间的规范关系为标准章节号与标准化要素之间的关系
(4)标准化要素与标准对象的约束/规范关系。标准化要素对标准化对象做出了具体的约束条件,从不同的维度提出了对标准化对象的技术要求,因此标准化要素与标准对象之间的关系为约束/规范关系。以GB150为例,标准对象“钢制压力容器”的设计压力不大于35MPa,即“设计压力不大于35MPa”对“钢制压力容器”做出了约束,即“设计压力不大于35MPa”是标准化要素。
(5)标准对象之间的构成关系。以电动自行车为例,该标准化对象由多个组件、模块组装而成,而电动自行车和构成它的组件、模块都属于标准化对象,都受被有关的标准化要素约束/规范,从而可以看出标准对象之间存在构成关系,并且整体产品的技术指标受组件、模块的技术指标直接影响。
如图2所示,对于标准文本pdf进行ocr处理,然后提取标准文本的标准目录库、指标库、名词术语库等,同时对于标准本身的内容进行人工标注,根据提取出的数据定义知识图谱的本体和关系,通过定义sql脚本,导入标准知识图谱的实体和实体之间的关系存入图数据库之中,形成标准知识图谱。
由此可见,本发明实施例提供的标准知识图谱构建方法,通过对样本标准文本数据的标准要素进行数据抽取,以及对样本标准文本数据中的非标要素进行数据抽取构建标准知识图谱,从而可以快速基于标准知识图谱准确获取标准的相关数据信息,避免传统方法中需要人工阅读提取标准数据信息导致效率较低的问题。
基于上述实施例,结构化模板包括标准文本中各标准要素的位置信息。
对样本标准文本数据中的标准要素进行数据抽取,得到第一抽取数据,包括:
基于标准文本中各标准要素的位置信息,对样本标准文本数据中的标准要素进行数据抽取,得到第一抽取数据。
具体地,结构化模板包含有标准文本中各标准要素的位置信息,标准要素指各标准中通用的要素,例如大多标准中包含范围、规范性引用文件、术语和定义等要素,则范围、规范性引用文件、术语和定义为标准要素,因此结构化模板中会包含范围、规范性引用文件、术语和定义等标准要素的位置信息。
由于样本标准是符合标准格式规范的文件,即样本标准中包含的标准要素位置与结构化模板中的标准要素位置一致,因此结合结构化模板中标准要素的位置信息,从样本标准文本中可以对标准要素进行数据抽取,得到第一抽取数据。
举例来说,结构化模板中包含范围、规范性引用文件、术语和定义的位置信息,则基于该位置信息可以从样本标准文本数据中抽取范围对应的数据、规范性引用文件对应的数据以及术语和定义对应的数据。
基于上述任一实施例,分别对第一抽取数据和第二抽取数据进行实体链接,包括:
基于第一抽取数据的标准要素标签,对第一抽取数据进行实体链接,标准要素标签是基于第一抽取数据在样本标准文本数据中的位置,以及结构化模板确定的;
基于第二抽取数据的非标要素标签,对第二抽取数据进行实体链接。
具体地,基于结构化模板中携带的标准要素的位置信息,可以从样本标准文本数据中得到第一抽取数据,即第一抽取数据的位置与标准要素的位置信息一致,也即标准要素标签与结构化模板的标签一致。举例来说,对于样本标准文本“起草单位:A公司”,通过结构化模板可以定位到标签“起草单位”,然后抽取“A公司”作为第一抽取数据,进而建立起草单位与A公司的实体链接。同样地,基于第二抽取数据的非标要素标签,可以建立非标要素标签与第二抽取数据的实体链接。
基于上述任一实施例,标准要素包括标准名称、标准章节、标准起草单位、标准指标以及标准术语中的至少一种。
具体地,标准要素指各标准中通用的要素,如标准名称、标准章节、标准起草单位、标准指标、标准术语等。可以理解的是,基于标准要素可以在标准知识图谱中建立若干个数据库,如标准名称库、标准章节库、标准起草单位库、标准指标库、标准术语库等,在对样本标准文本数据进行数据抽取之后,将抽取后的数据存储至相应的数据库。
需要说明的是,在将抽取好的数据存储至相应的数据库中之后,既可以通过关键字查找标准信息,如输入标准名称查找,也可以通过调用显示任一库中的所有数据,如标准起草单位库中可以统计标准起草单位。
基于上述任一实施例,在分别对第一抽取数据和第二抽取数据进行实体链接之后,还包括:
基于SQL脚本,将实体链接导入至标准知识图谱的数据库。
具体地,在标准知识图谱中可以基于标准要素建立若干个数据库,如标准名称库、标准章节库、标准起草单位库、标准指标库、标准术语库等,通过定义SQL脚本,将实体链接(标准的实体、关联关系所形成的三元组群)通过计算机语言写入到相应的数据库中,构建标准知识图谱。
下面对本发明提供的标准知识图谱构建装置进行描述,下文描述的标准知识图谱构建装置与上文描述的标准知识图谱构建方法可相互对应参照。
基于上述任一实施例,如图3所示,本发明还提供一种标准知识图谱构建装置,该装置包括:
获取单元310,用于获取样本标准文本数据;
第一抽取单元320,用于基于结构化模板,对样本标准文本数据中的标准要素进行数据抽取,得到第一抽取数据;
第二抽取单元330,用于基于样本标准文本数据携带的非标要素标签,对样本标准文本数据中的非标要素进行数据抽取,得到第二抽取数据;
构建单元340,用于分别对第一抽取数据和第二抽取数据进行实体链接,构建标准知识图谱。
本发明实施例提供的标准知识图谱构建装置,通过对样本标准文本数据的标准要素进行数据抽取,以及对样本标准文本数据中的非标要素进行数据抽取构建标准知识图谱,从而可以快速基于标准知识图谱准确获取标准的相关数据信息,避免传统方法中需要人工阅读提取标准数据信息导致效率较低的问题。
基于上述任一实施例,结构化模板包括标准文本中各标准要素的位置信息。
第一抽取单元320,具体用于:
基于标准文本中各标准要素的位置信息,对样本标准文本数据中的标准要素进行数据抽取,得到第一抽取数据。
基于上述任一实施例,构建单元340,具体用于:
基于第一抽取数据的标准要素标签,对第一抽取数据进行实体链接,标准要素标签是基于第一抽取数据在样本标准文本数据中的位置,以及结构化模板确定的;
基于第二抽取数据的非标要素标签,对第二抽取数据进行实体链接。
基于上述任一实施例,标准要素包括标准名称、标准章节、标准起草单位、标准指标以及标准术语中的至少一种。
基于上述任一实施例,还包括导入单元,用于:
在分别对第一抽取数据和第二抽取数据进行实体链接之后,基于SQL脚本,将实体链接导入至标准知识图谱的数据库。
基于上述任一实施例,如图4所示,本发明还提供一种标准查询方法,该方法包括如下步骤:
步骤410、确定待查询标准的关键字;
步骤420、在标准知识图谱中,基于标准的关键字与标准数据之间的映射关系,确定待查询标准的数据。
其中,标准知识图谱为采用如上任一实施例所述的标准知识图谱构建方法构建得到。
具体地,待查询标准的关键字可以为标准中章节号,也可以为标准中的指标,还可以标准的名称,本发明实施例对此不作具体限定。在输入标准的关键字后,基于标准的关键字与标准数据之间的映射关系,可以在标准知识图谱中快速且准确获取标准的相关数据,避免传统方法中需要人工阅读提取标准数据信息导致效率较低的问题。
下面对本发明提供的标准查询装置进行描述,下文描述的标准查询装置与上文描述的标准查询方法可相互对应参照。
基于上述任一实施例,如图5所示,本发明还提供一种标准查询装置,该装置包括:
确定单元510,用于确定待查询标准的关键字;
查询单元520,用于在标准知识图谱中,基于标准的关键字与标准数据之间的映射关系,确定待查询标准的数据。
其中,标准知识图谱为采用如上任一实施例所述的标准知识图谱构建方法构建得到。
图6是本发明提供的电子设备的结构示意图,如图6所示,该电子设备可以包括:处理器(processor)610、存储器(memory)620、通信接口(Communications Interface)630和通信总线640,其中,处理器610,存储器620,通信接口630通过通信总线640完成相互间的通信。处理器610可以调用存储器620中的逻辑指令,以执行标准知识图谱构建方法,该方法包括:获取样本标准文本数据;基于结构化模板,对所述样本标准文本数据中的标准要素进行数据抽取,得到第一抽取数据;基于所述样本标准文本数据携带的非标要素标签,对所述样本标准文本数据中的非标要素进行数据抽取,得到第二抽取数据;分别对所述第一抽取数据和所述第二抽取数据进行实体链接,构建标准知识图谱。和/或,以执行标准查询方法,该方法包括:确定待查询标准的关键字;在标准知识图谱中,基于标准的关键字与标准数据之间的映射关系,确定所述待查询标准的数据;其中,所述标准知识图谱为采用如上所述的标准知识图谱构建方法构建得到。
此外,上述的存储器620中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,计算机能够执行上述各方法所提供的标准知识图谱构建方法,该方法包括:获取样本标准文本数据;基于结构化模板,对所述样本标准文本数据中的标准要素进行数据抽取,得到第一抽取数据;基于所述样本标准文本数据携带的非标要素标签,对所述样本标准文本数据中的非标要素进行数据抽取,得到第二抽取数据;分别对所述第一抽取数据和所述第二抽取数据进行实体链接,构建标准知识图谱。和/或,以执行标准查询方法,该方法包括:确定待查询标准的关键字;在标准知识图谱中,基于标准的关键字与标准数据之间的映射关系,确定所述待查询标准的数据;其中,所述标准知识图谱为采用如上所述的标准知识图谱构建方法构建得到。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的标准知识图谱构建方法,该方法包括:获取样本标准文本数据;基于结构化模板,对所述样本标准文本数据中的标准要素进行数据抽取,得到第一抽取数据;基于所述样本标准文本数据携带的非标要素标签,对所述样本标准文本数据中的非标要素进行数据抽取,得到第二抽取数据;分别对所述第一抽取数据和所述第二抽取数据进行实体链接,构建标准知识图谱。和/或,以执行标准查询方法,该方法包括:确定待查询标准的关键字;在标准知识图谱中,基于标准的关键字与标准数据之间的映射关系,确定所述待查询标准的数据;其中,所述标准知识图谱为采用如上所述的标准知识图谱构建方法构建得到。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种标准知识图谱构建方法,其特征在于,包括:
获取样本标准文本数据;
基于结构化模板,对所述样本标准文本数据中的标准要素进行数据抽取,得到第一抽取数据;
基于所述样本标准文本数据携带的非标要素标签,对所述样本标准文本数据中的非标要素进行数据抽取,得到第二抽取数据;
分别对所述第一抽取数据和所述第二抽取数据进行实体链接,构建标准知识图谱。
2.根据权利要求1所述的标准知识图谱构建方法,其特征在于,所述结构化模板包括标准文本中各标准要素的位置信息;
所述基于结构化模板,对所述样本标准文本数据中的标准要素进行数据抽取,得到第一抽取数据,包括:
基于所述标准文本中各标准要素的位置信息,对所述样本标准文本数据中的标准要素进行数据抽取,得到所述第一抽取数据。
3.根据权利要求1所述的标准知识图谱构建方法,其特征在于,所述分别对所述第一抽取数据和所述第二抽取数据进行实体链接,包括:
基于所述第一抽取数据的标准要素标签,对所述第一抽取数据进行实体链接,所述标准要素标签是基于所述第一抽取数据在所述样本标准文本数据中的位置,以及所述结构化模板确定的;
基于所述第二抽取数据的非标要素标签,对所述第二抽取数据进行实体链接。
4.根据权利要求2所述的标准知识图谱构建方法,其特征在于,所述标准要素包括标准名称、标准章节、标准起草单位、标准指标以及标准术语中的至少一种。
5.根据权利要求1至4任一项所述的标准知识图谱构建方法,其特征在于,在分别对所述第一抽取数据和所述第二抽取数据进行实体链接之后,还包括:
基于SQL脚本,将所述实体链接导入至所述标准知识图谱的数据库。
6.一种标准知识图谱构建装置,其特征在于,包括:
获取单元,用于获取样本标准文本数据;
第一抽取单元,用于基于结构化模板,对所述样本标准文本数据中的标准要素进行数据抽取,得到第一抽取数据;
第二抽取单元,用于基于所述样本标准文本数据携带的非标要素标签,对所述样本标准文本数据中的非标要素进行数据抽取,得到第二抽取数据;
构建单元,用于分别对所述第一抽取数据和所述第二抽取数据进行实体链接,构建标准知识图谱。
7.一种标准查询方法,其特征在于,包括:
确定待查询标准的关键字;
在标准知识图谱中,基于标准的关键字与标准数据之间的映射关系,确定所述待查询标准的数据;
其中,所述标准知识图谱为采用如权利要求1至5任一项所述的标准知识图谱构建方法构建得到。
8.一种标准查询装置,其特征在于,包括:
确定单元,用于确定待查询标准的关键字;
查询单元,用于在标准知识图谱中,基于标准的关键字与标准数据之间的映射关系,确定所述待查询标准的数据;
其中,所述标准知识图谱为采用如权利要求1至5任一项所述的标准知识图谱构建方法构建得到。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一项所述标准知识图谱构建方法的步骤;和/或,所述处理器执行所述程序时实现如权利要求7所述标准查询方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述标准知识图谱构建方法的步骤;和/或,所述处理器执行所述程序时实现如权利要求7所述标准查询方法的步骤。
CN202110337471.1A 2021-03-30 2021-03-30 标准知识图谱构建、标准查询方法及装置 Active CN112732945B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110337471.1A CN112732945B (zh) 2021-03-30 2021-03-30 标准知识图谱构建、标准查询方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110337471.1A CN112732945B (zh) 2021-03-30 2021-03-30 标准知识图谱构建、标准查询方法及装置

Publications (2)

Publication Number Publication Date
CN112732945A true CN112732945A (zh) 2021-04-30
CN112732945B CN112732945B (zh) 2021-06-18

Family

ID=75596024

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110337471.1A Active CN112732945B (zh) 2021-03-30 2021-03-30 标准知识图谱构建、标准查询方法及装置

Country Status (1)

Country Link
CN (1) CN112732945B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113157947A (zh) * 2021-05-20 2021-07-23 中国工商银行股份有限公司 知识图谱的构建方法、工具、装置和服务器
CN113177125A (zh) * 2021-06-30 2021-07-27 中国电子技术标准化研究院 标准知识图谱构建、标准查询方法及装置
CN113392072A (zh) * 2021-06-25 2021-09-14 中国标准化研究院 标准知识服务方法、装置、电子设备和存储介质
CN114792145A (zh) * 2022-05-27 2022-07-26 中国标准化研究院 一种基于知识图谱的标准数字化管理维护系统及方法
CN116090416A (zh) * 2023-04-10 2023-05-09 中国电子技术标准化研究院 基于标准知识图谱的标准编写方法、系统、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190179842A1 (en) * 2017-12-11 2019-06-13 Tata Consultancy Services Limited Method and system for extraction of relevant sections from plurality of documents
CN110704631A (zh) * 2019-08-16 2020-01-17 北京紫冬认知科技有限公司 医疗知识图谱的构建方法及装置
CN111598702A (zh) * 2020-04-14 2020-08-28 徐佳慧 一种基于知识图谱的风险投资语义搜索的方法
CN111694968A (zh) * 2020-06-15 2020-09-22 北京工商大学 基于半结构化数据的生鲜食品供应链知识图谱构建方法
CN111897968A (zh) * 2020-07-20 2020-11-06 国网浙江省电力有限公司嘉兴供电公司 一种工业信息安全知识图谱构建方法和系统
WO2020264518A1 (en) * 2019-06-28 2020-12-30 SCHEINBERG, Michael Apparatus of a knowledge graph to enhance the performance and controllability of neural ranking engines

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190179842A1 (en) * 2017-12-11 2019-06-13 Tata Consultancy Services Limited Method and system for extraction of relevant sections from plurality of documents
WO2020264518A1 (en) * 2019-06-28 2020-12-30 SCHEINBERG, Michael Apparatus of a knowledge graph to enhance the performance and controllability of neural ranking engines
CN110704631A (zh) * 2019-08-16 2020-01-17 北京紫冬认知科技有限公司 医疗知识图谱的构建方法及装置
CN111598702A (zh) * 2020-04-14 2020-08-28 徐佳慧 一种基于知识图谱的风险投资语义搜索的方法
CN111694968A (zh) * 2020-06-15 2020-09-22 北京工商大学 基于半结构化数据的生鲜食品供应链知识图谱构建方法
CN111897968A (zh) * 2020-07-20 2020-11-06 国网浙江省电力有限公司嘉兴供电公司 一种工业信息安全知识图谱构建方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
杨晨: "基于模板诱导的金融领域知识图谱自动构建", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
王瑞萍等: "审计知识图谱的构建与研究 ——基于Neo4j 的图谱技术", 《中国注册会计师》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113157947A (zh) * 2021-05-20 2021-07-23 中国工商银行股份有限公司 知识图谱的构建方法、工具、装置和服务器
CN113392072A (zh) * 2021-06-25 2021-09-14 中国标准化研究院 标准知识服务方法、装置、电子设备和存储介质
CN113177125A (zh) * 2021-06-30 2021-07-27 中国电子技术标准化研究院 标准知识图谱构建、标准查询方法及装置
CN113177125B (zh) * 2021-06-30 2021-09-03 中国电子技术标准化研究院 标准知识图谱构建、标准查询方法及装置
WO2023274047A1 (zh) * 2021-06-30 2023-01-05 中国电子技术标准化研究院 标准知识图谱构建、标准查询方法及装置
CN114792145A (zh) * 2022-05-27 2022-07-26 中国标准化研究院 一种基于知识图谱的标准数字化管理维护系统及方法
CN116090416A (zh) * 2023-04-10 2023-05-09 中国电子技术标准化研究院 基于标准知识图谱的标准编写方法、系统、设备及介质

Also Published As

Publication number Publication date
CN112732945B (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
CN112732945B (zh) 标准知识图谱构建、标准查询方法及装置
CN107392143B (zh) 一种基于svm文本分类的简历精确解析方法
CN108228676B (zh) 信息抽取方法和系统
CN110741376B (zh) 用于不同自然语言的自动文档分析
CN113177125B (zh) 标准知识图谱构建、标准查询方法及装置
CN112395851A (zh) 一种文本比对方法、装置、计算机设备及可读存储介质
CN115203309A (zh) 网页中标数据结构化方法及装置
CN112765999A (zh) 机器翻译双语对照方法及系统
Bryl et al. Interlinking and knowledge fusion
CN113505245A (zh) 知识图谱的生成方法、计算机可读存储介质及计算机设备
CN113157888A (zh) 支持多知识来源的询问答复方法、装置和电子设备
CN112612810A (zh) 慢sql语句识别方法及系统
US20230044287A1 (en) Semantics based data and metadata mapping
CN116090416A (zh) 基于标准知识图谱的标准编写方法、系统、设备及介质
CN107145947B (zh) 一种信息处理方法、装置及电子设备
CN113779218B (zh) 问答对构建方法、装置、计算机设备和存储介质
Bartoli et al. Semisupervised wrapper choice and generation for print-oriented documents
CN113254583B (zh) 一种基于语义向量的文档标记方法、装置及介质
CN112733508B (zh) 标准文本标注、标准图谱构建方法及装置
CN109492201A (zh) 应用于量值对比的文件格式转化方法
CN113468174A (zh) 数据库的查询方法、装置、电子设备和计算机存储介质
CN113449063A (zh) 一种构建文档结构信息检索库的方法及装置
Lamba et al. Exploring OCR Errors in Full-Text Large Documents: A Study of LIS Theses and Dissertations
JP6968173B2 (ja) 特許クレームにおける参照を特定するためのシステム及び方法
US11170164B2 (en) System and method for cell comparison between spreadsheets

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant