CN110362693A - 一种业扩工程图纸知识图谱构建方法 - Google Patents
一种业扩工程图纸知识图谱构建方法 Download PDFInfo
- Publication number
- CN110362693A CN110362693A CN201910672972.8A CN201910672972A CN110362693A CN 110362693 A CN110362693 A CN 110362693A CN 201910672972 A CN201910672972 A CN 201910672972A CN 110362693 A CN110362693 A CN 110362693A
- Authority
- CN
- China
- Prior art keywords
- industry
- engineering drawing
- knowledge mapping
- target entity
- obtains
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013507 mapping Methods 0.000 title claims abstract description 43
- 238000010276 construction Methods 0.000 title claims abstract description 21
- 239000000284 extract Substances 0.000 claims abstract description 8
- 238000012549 training Methods 0.000 claims description 9
- 238000005516 engineering process Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 4
- 238000003058 natural language processing Methods 0.000 claims description 4
- 238000001228 spectrum Methods 0.000 claims description 2
- 238000013461 design Methods 0.000 abstract description 12
- 238000000034 method Methods 0.000 abstract description 11
- 238000004519 manufacturing process Methods 0.000 abstract description 4
- 238000004458 analytical method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000009776 industrial production Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000010225 co-occurrence analysis Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种业扩工程图纸知识图谱构建方法,该方法包括:S1,获取业扩工程图纸数据;S2,从业扩工程图纸数据中抽取目标实体;S3,根据目标实体构建频繁项集,得到指定类的实体组;S4,构建知识图谱中的节点,计算节点的之间的强度,得到业扩工程知识图谱。本发明针对大量工程图纸历史档案数据,从中提取出有效的目标实体,并将目标实体与工程要求构建为节点,建立不同目标实体之间的关系,从而形成业扩工程图纸知识图谱,为工程设计提供较为可靠的参考方案,提高生产效率。
Description
技术领域
本发明涉及知识图谱构建技术领域,尤其涉及一种业扩工程图纸知识图谱构建方法。
背景技术
随着人工智能技术的发展,知识图谱的研究和应用引起广泛关注。知识图谱的作用主要是将结构化以及非结构化数据构建成一个具有有向图结构的知识库,从而实现智能搜索或者推荐的功能。
在工业生产中,由于其复杂的生产环境,相比其他领域具有较强的专业性,在构建知识图谱时较为困难,特别是工程图纸的知识图谱的构建,因为工程图纸中往往会有各种器件图形以及标注,导致实体所在的文本信息不完备,背景知识不足、信息描述模糊。关系抽取困难,准确率低。目前尚未有比较完善的业扩工程图纸知识图谱,工程设计人员在进行设计时,往往需要花费大量的时间和精力去查阅海量的历史档案,浪费了大量的时间和人力成本。
发明内容
为了解决上述的缺点和不足,提出了一种针对业扩工程图纸的知识图谱构建方法。
本发明是通过以下技术方案得以实现:
一种业扩工程图纸知识图谱构建方法,包括以下步骤:
S1,获取业扩工程图纸数据;
S2,从业扩工程图纸数据中抽取目标实体;
S3,根据目标实体构建频繁项集,得到指定类的实体组;
S4,构建知识图谱中的节点,计算节点的之间的强度,得到业扩工程知识图谱。
可选的,所述步骤S1包括从大量业扩工程图纸历史档案中获取文本数据,形成业扩工程图纸数据。
可选的,所述步骤S2包括:
S2.1,明确需要抽取的实体类型,标注训练数据;
S2.2,采用自然语言处理的技术对所述训练数据集建立分词模型;
S2.3,从分词模型中抽取对应的目标实体。
可选的,所述步骤S3包括:
S3.1,采用seq2seq算法确定目标实体指定为类实体的频繁项集;
S3.2,根据所述的类实体的频繁项集,得到指定类的实体组。
可选的,所述步骤S4包括:
S4.1,将目标实体与工程要求相结合,构建知识图谱中的节点;
S4.2,计算每一节点之间的强度指标;
S4.3,根据节点之间的强度,确定各个实体之间的关联性,得到最终的业扩工程知识图谱。
采用上述技术方案后,本发明至少具备以下优点和有益效果:
1)本发明所述一种业扩工程图纸知识图谱构建方法能根据业扩工程图纸历史档案数据建立一个具有较强关联的业扩工程图纸知识图谱,为工程设计提供推荐方案,同时完善工程图纸的设计,提高了生产效率;
2)本发明所述一种业扩工程图纸知识图谱构建方法,步骤清晰,功能完善,可扩展性强,可以推广至其他图纸类知识图谱的构建中;
3)本发明所述一种业扩工程图纸知识图谱构建方法采用深度学习相关算法,能够建立较为稳定的实体模型。
附图说明
图1为本发明所述一种业扩工程图纸知识图谱构建方法的流程图;
图2为本发明所述一种业扩工程图纸知识图谱构建方法步骤S2的流程图;
图3为本发明所述一种业扩工程图纸知识图谱构建方法步骤S3的流程图;
图4为本发明所述一种业扩工程图纸知识图谱构建方法步骤S4的流程图;
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本申请作进一步详细说明。应当理解,此处所描述的具体实施实例仅用以解释本发明,并不限定本发明。基于本发明中的实例,相关技术人员在没有做出创造性劳动前所获得的所有其他实施实例,均属于本发明保护范围内。
实施实例1:
如图1所示,为本发明一种业扩工程图纸知识图谱构建方法的流程图。
基于大量业扩工程图纸数据,提出了一种为工程设计提供建议方案,完善设计方案,提高生产效率的业扩工程图纸知识图谱构建方法。
其方法包括以下步骤:
S1,获取文本数据,并对文本数据进行预处理,得到训练数据集;
S2,对所述训练数据集进行训练,得到目标实体模型;
S3,确定指定类实体的频繁项集,得到所述指定类的实体组;
S4,将所述目标实体以及工程要求作为知识图谱中的节点,得到业扩工程知识图谱。
针对大量历史工程图纸数据,从中提取有效的目标实体,并分析他们之间的关联性,从而形成知识图谱。
知识图谱旨在描述现实世界中存在的实体以及实体之间的关系,通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,为科学研究以及工业生产提供切实、有价值的参考。目前,随着人工智能技术的发展,已经广泛用于智能搜索、问答系统,专家系统以及个性化推荐等领域。但目前知识图谱在工程图纸上的应用还相对较少,从而导致工程设计人员在进行设计时,需要查阅大量的历史文档,因此通过知识图谱技术为工程设计人员提供一种参考设计方案,将大大提高设计效率。
本实施实例主要是针对电力系统设计等工程图纸数据进行实体抽取。首先需要获取大量的电力系统设计相关工程图纸历史档案数据,在此步骤之上,进行后续的分析操作过程。
如图2所示,为本发明所述一种业扩工程图纸知识图谱构建方法步骤S2的流程图。
S2,采用目前主流的自然语言处理技术进行分词,抽取目标实体。
分析电力系统工程图纸中相关的实体,例如电子元器件的符号、型号、参数或者相关描述,建立电力系统领域的词典并进行标注,确保专业词组能够被分词分出。使用相关自然语言处理工具,对文本数据进行分词、词性标注、命名实体标注。
所述步骤S2包括:
S2.1,明确需要抽取的实体类型,标注训练数据;
S2.2,采用自然语言处理的技术对所述训练数据集建立分词模型;
S2.3,从分词模型中抽取对应的目标实体。
如图3所示,为本发明所述一种业扩工程图纸知识图谱构建方法步骤S3的流程图。
S3,根据步骤2中抽取的电力系统设计中目标实体,采用seq2seq算法确定目标实体指定为类实体的频繁项集,所谓频繁项集是指在一系列集合中,具有的相同的元素在一定的阈值条件下,所形成的一个子集。根据这些频繁项集就可以计算集合之间的相似性,从而构建指定的实体组。
频繁项集主要指标是指可信度和兴趣度,可信度是指频繁项F与某项j的并集(即F{j})的支持度与频繁项集F的支持度的比值,兴趣度是指F{j}可信度与包含{j}的集合比率之间的差值。若兴趣度很高,则频繁项集F会促进j的存在,若兴趣度为负值,且频繁项集会抑制j的存在;若兴趣度为0则频繁项集对j无太大影响。频繁项集与某项j的关系就是关联规则。
所述步骤S3包括:
S3.1,采用seq2seq算法确定目标实体指定为类实体的频繁项集;
S3.2,根据所述的类实体的频繁项集,得到指定类的实体组。
seq2seq算法是一种通过的编码器,在本实例中主要采用循环神经网络将目标实体翻译成一种编码格式,并构建相应的频繁项集,通过频繁项集构建实体组之后在进行解码为对应的目标实体。
如图4所示,为本发明所述一种业扩工程图纸知识图谱构建方法步骤S4的流程图。
S4,构建知识图谱节点,通过计算节点之间的强度,训练关系型模型,从而得到知识图谱。
节点是图数据库的基本元素,表示一个实体记录,相当于关系数据库中的一条记录。节点一般可以包括多个属性和标签。关系是图数据库中的基本元素,当数据库中存在节点后,需要将节点连接起来构成图。关系用来连接两个节点,也称为图论的边(Edge),起始端和结束端都必须是节点,关系不能从空发起,关系可以包含多个属性。
节点之间在原始强度的基础之上,不断通过优化算法计算新的强度,更新节点之间的关系,从而建立一个稳定的知识图。
所述步骤S4包括:
S4.1,将目标实体与工程要求相结合,构建知识图谱中的节点;
S4.2,计算每一节点之间的强度指标;
S4.3,根据节点之间的强度,确定各个实体之间的关联性,得到最终的业扩工程知识图谱。
本发明所属技术领域的技术人员可以对所描述的具体实例做各种各样的修改或补充或采用类似的方法替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
Claims (5)
1.一种业扩工程图纸知识图谱构建方法,其特征在于,包括以下步骤:
S1,获取业扩工程图纸数据;
S2,从业扩工程图纸数据中抽取目标实体;
S3,根据目标实体构建频繁项集,得到指定类的实体组;
S4,构建知识图谱中的节点,计算节点的之间的强度,得到业扩工程知识图谱。
2.根据权利要求1所述的业扩工程图纸知识图谱构建方法,其特征在于,所述步骤S1包括从大量业扩工程图纸历史档案中获取文本数据,形成业扩工程图纸数据。
3.根据权利要求1所述的业扩工程图纸知识图谱构建方法,其特征在于,所述步骤S2包括:
S2.1,明确需要抽取的实体类型,标注训练数据;
S2.2,采用自然语言处理的技术对所述训练数据集建立分词模型;
S2.3,从分词模型中抽取对应的目标实体。
4.根据权利要求1所述的业扩工程图纸知识图谱构建方法,其特征在于,所述步骤S3包括:
S3.1,采用seq2seq算法确定目标实体指定为类实体的频繁项集;
S3.2,根据所述的类实体的频繁项集,得到指定类的实体组。
5.根据权利要求1所述的业扩工程图纸知识图谱构建方法,其特征在于,所述步骤S4包括:
S4.1,将目标实体与工程要求相结合,构建知识图谱中的节点;
S4.2,计算每一节点之间的强度指标;
S4.3,根据节点之间的强度,确定各个实体之间的关联性,得到最终的业扩工程知识图谱。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910672972.8A CN110362693A (zh) | 2019-07-24 | 2019-07-24 | 一种业扩工程图纸知识图谱构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910672972.8A CN110362693A (zh) | 2019-07-24 | 2019-07-24 | 一种业扩工程图纸知识图谱构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110362693A true CN110362693A (zh) | 2019-10-22 |
Family
ID=68220707
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910672972.8A Pending CN110362693A (zh) | 2019-07-24 | 2019-07-24 | 一种业扩工程图纸知识图谱构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110362693A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111444353A (zh) * | 2020-04-03 | 2020-07-24 | 杭州叙简科技股份有限公司 | 一种警情知识图谱的构建及使用方法 |
CN111737471A (zh) * | 2020-06-28 | 2020-10-02 | 中国农业科学院农业信息研究所 | 一种基于知识图谱的档案管理模型构建方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106371917A (zh) * | 2016-08-23 | 2017-02-01 | 清华大学 | 面向实时频繁项集挖掘的加速系统及方法 |
CN107133224A (zh) * | 2017-04-25 | 2017-09-05 | 中国人民大学 | 一种基于主题词的语言生成方法 |
CN108492887A (zh) * | 2018-04-13 | 2018-09-04 | 合肥工业大学 | 医疗知识图谱构建方法及装置 |
CN109492077A (zh) * | 2018-09-29 | 2019-03-19 | 北明智通(北京)科技有限公司 | 基于知识图谱的石化领域问答方法及系统 |
-
2019
- 2019-07-24 CN CN201910672972.8A patent/CN110362693A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106371917A (zh) * | 2016-08-23 | 2017-02-01 | 清华大学 | 面向实时频繁项集挖掘的加速系统及方法 |
CN107133224A (zh) * | 2017-04-25 | 2017-09-05 | 中国人民大学 | 一种基于主题词的语言生成方法 |
CN108492887A (zh) * | 2018-04-13 | 2018-09-04 | 合肥工业大学 | 医疗知识图谱构建方法及装置 |
CN109492077A (zh) * | 2018-09-29 | 2019-03-19 | 北明智通(北京)科技有限公司 | 基于知识图谱的石化领域问答方法及系统 |
Non-Patent Citations (1)
Title |
---|
李德毅等: "《中国科协新一代信息技术系列丛书 人工智能导论》", 31 August 2018, 北京:中国科学技术出版社 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111444353A (zh) * | 2020-04-03 | 2020-07-24 | 杭州叙简科技股份有限公司 | 一种警情知识图谱的构建及使用方法 |
CN111444353B (zh) * | 2020-04-03 | 2023-02-28 | 杭州叙简科技股份有限公司 | 一种警情知识图谱的构建及使用方法 |
CN111737471A (zh) * | 2020-06-28 | 2020-10-02 | 中国农业科学院农业信息研究所 | 一种基于知识图谱的档案管理模型构建方法及系统 |
CN111737471B (zh) * | 2020-06-28 | 2023-10-13 | 中国农业科学院农业信息研究所 | 一种基于知识图谱的档案管理模型构建方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN111291185B (zh) | 信息抽取方法、装置、电子设备及存储介质 | |
CN106874378B (zh) | 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法 | |
CN109492077A (zh) | 基于知识图谱的石化领域问答方法及系统 | |
CN112507136B (zh) | 一种知识驱动的业务操作图谱构建方法 | |
CN110990590A (zh) | 一种基于强化学习和迁移学习的动态金融知识图谱构建方法 | |
CN108228568B (zh) | 一种数学题目语义理解方法 | |
CN107992476B (zh) | 面向句子级生物关系网络抽取的语料库生成方法及系统 | |
CN105512209A (zh) | 一种基于特征自动学习的生物医学事件触发词识别方法 | |
CN108229578B (zh) | 基于数据、信息和知识三层图谱架构的图像数据目标识别方法 | |
CN107679110A (zh) | 结合文本分类与图片属性提取完善知识图谱的方法及装置 | |
CN110362693A (zh) | 一种业扩工程图纸知识图谱构建方法 | |
CN112463926A (zh) | 一种数据检索/智能问答方法、装置、存储介质 | |
CN104517106A (zh) | 一种列表识别方法与系统 | |
CN110472226A (zh) | 一种基于知识图谱的网络安全态势预测方法及装置 | |
CN110188359B (zh) | 一种文本实体抽取方法 | |
CN109522011A (zh) | 一种基于编程现场上下文深度感知的代码行推荐方法 | |
CN110647632A (zh) | 基于机器学习的图像与文本映射技术 | |
CN114444507A (zh) | 基于水环境知识图谱增强关系的上下文参数中文实体预测方法 | |
CN113312922A (zh) | 一种改进的篇章级三元组信息抽取方法 | |
CN111221976A (zh) | 基于bert算法模型的知识图谱构建方法 | |
CN110442730A (zh) | 一种基于deepdive的知识图谱构建方法 | |
CN110377690A (zh) | 一种基于远程关系抽取的信息获取方法和系统 | |
CN109815335B (zh) | 一种适用于文献网络的论文领域分类方法 | |
CN117151659A (zh) | 一种基于大语言模型的生态修复工程全生命周期追溯方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191022 |