CN115292515A - 一种缝纫设备模块化设计领域知识图谱构建方法 - Google Patents

一种缝纫设备模块化设计领域知识图谱构建方法 Download PDF

Info

Publication number
CN115292515A
CN115292515A CN202210940485.7A CN202210940485A CN115292515A CN 115292515 A CN115292515 A CN 115292515A CN 202210940485 A CN202210940485 A CN 202210940485A CN 115292515 A CN115292515 A CN 115292515A
Authority
CN
China
Prior art keywords
entity
sewing equipment
modular design
word
design field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210940485.7A
Other languages
English (en)
Inventor
冯毅雄
陈美好
洪兆溪
胡炳涛
张志峰
谭建荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202210940485.7A priority Critical patent/CN115292515A/zh
Publication of CN115292515A publication Critical patent/CN115292515A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Hardware Design (AREA)
  • Evolutionary Computation (AREA)
  • Geometry (AREA)
  • Sewing Machines And Sewing (AREA)

Abstract

本发明公开了一种缝纫设备模块化设计领域知识图谱构建方法。本发明将缝纫设备模块化设计领域数据进行实体和实体关系抽取,获得领域知识集合;接着采用基于图的方法进行实体链接,获得领域知识数据层;然后依次采用词频‑逆文档率方法和K均值聚类算法进行领域本体术语抽取和聚类,再采用基于模板的方法抽取缝纫设备模块化设计领域本体的本体间分类、非分类关系,进而组成领域知识模式层;领域知识数据层和模式层存储在图数据库中,实现知识图谱的可视化。本发明针对缝纫设备模块化设计领域的自身特点,实现缝纫设备模块化设计多源异构数据的实体抽取、链接以及领域本体构建,实现缝纫设备模块化设计领域知识图谱可视化表示。

Description

一种缝纫设备模块化设计领域知识图谱构建方法
技术领域
本发明属于缝纫设备模块化设计领域的一种文本处理和知识图谱构建方法,具体涉及一种缝纫设备模块化设计领域知识图谱构建方法。
背景技术
在缝纫设备市场中,产品的类型较多,而用户的需求不尽相同,其主要表现在缝制的范围和自动化功能的配置方面。采用产品模块化设计方法的应用可以对各种缝制范围、不同规格的产品需求进行模块化生产,利用模块选择的不同以及组合方式的不同来形成不同功能体系的产品系列,使产品设计具有较高的独立性、互换性和通用性。应用模块化设计的方法能够以最大限度的满足社会对该产品的要求,同时,将不同功能、结构等进行了标准化、模块化生产也缩短产品生产周期,最终,提高了企业的市场占有份额,保障了经济效益,为企业的长远发展打下基础。
缝纫设备模块化设计的过程不仅涉及许多理论推导和大量数据计算,还需要领域专家的设计经验和知识。目缝纫机在我国已有多年的生产历史,积累的经验是很丰富的,积累和保存了大量的缝纫设备设计历史数据。随着缝纫设备的迭代与升级,复杂的结构和工艺都给缝纫设备设计带来更大的难度。这些多源异构、数量庞大的缝纫设备设计数据却缺乏有效的组织形式,难以为技术人员提供简单易用的知识获取服务。从综合保留专家知识经验,缩短设计开发周期,降低开发成本及提高设计质量的交付出发,高效的数据知识组织形式和方便易用的知识获取方式成为缝纫设备模块化设计中亟待解决的问题。因此,将知识图谱技术应用于缝纫设备模块化设计过程是十分必要的。
发明内容
本发明的目的是针对现有技术存在的上述问题,提供一种缝纫设备模块化设计领域知识图谱构建方法,针对缝纫设备模块化设计多源异构数据,采用语义识别的方法,实现数据层、模式层构建,构建领域知识图谱,实现领域知识图谱的可视化表达。
为了实现以上目的,本发明的技术方案如下:
一、一种缝纫设备模块化设计领域知识图谱构建方法
步骤一:将缝纫设备模块化设计领域数据进行缝纫设备模块化设计实体和实体关系抽取,获得缝纫设备模块化设计领域知识集合;
步骤二:根据缝纫设备模块化设计领域知识集合,采用基于图的方法进行实体链接,获得缝纫设备模块化设计领域知识数据层;
步骤三:根据缝纫设备模块化设计领域知识集合,依次采用词频-逆文档率方法和K均值聚类算法进行领域本体术语抽取和聚类,获得缝纫设备模块化设计领域本体,然后采用基于模板的方法抽取缝纫设备模块化设计领域本体的本体间分类、非分类关系,由缝纫设备模块化设计领域本体以及本体间分类关系、非分类关系组成缝纫设备模块化设计领域知识模式层;
步骤四:将缝纫设备模块化设计领域知识数据层和模式层存储在图数据库中,在图数据库中实现缝纫设备模块化设计领域知识图谱的可视化。
所述步骤一具体为:
所述缝纫设备模块化设计领域数据根据数据存储类型分为结构化数据、半结构化数据和非结构化数据,通过构建正则表达式对结构化数据和半结构化数据进行实体抽取,采用基于机器学习的方法对非结构化数据进行实体抽取,从而获得缝纫设备模块化设计领域数据的实体抽取结果;
接着对缝纫设备模块化设计领域数据采用基于依存关系的实体关系抽取方法进行实体关系抽取,获得缝纫设备模块化设计领域数据的实体关系;
由缝纫设备模块化设计领域数据的实体抽取结果以及实体关系抽取结果组成缝纫设备模块化设计领域知识集合。
所述步骤二具体为:
首先根据缝纫设备模块化设计领域知识集合确定各个目标实体词与每个目标实体词对应的备选链接实体集合,对于每个目标实体词及其对应的备选链接实体集合,采用基于图的方法对当前目标实体词及其对应的备选链接实体集合进行实体链接,获得实体链接图,接着根据实体链接图分别计算当前目标实体词与备选链接实体集合中的各个备选链接实体之间的综合相似度,再选择综合相似度大于综合相似度阈值的备选链接实体作为当前目标实体词的目标链接实体;最后由各个目标实体词和对应的目标链接实体以及对应的实体关系组成缝纫设备模块化设计领域知识数据层。
所述当前目标实体词与备选链接实体集合中的各个备选链接实体之间的综合相似度的计算公式如下:
w(vi)=α1×w1(vi)+α2×w2(vi)+α2×w3(vi)
α123=1
Figure BDA0003785317650000031
Figure BDA0003785317650000032
Figure BDA0003785317650000033
其中,w(vi)表示当前目标实体词item与备选链接实体集合中的第i个备选链接实体之间的综合相似度,α1、α2和α3分别为重要相关度系数、句结构相似度系数和词节点相似度系数;w1(vi)表示在当前实体链接图中第i个备选链接实体对应的词节点vi的重要相关度,w2(vi)表示第i个备选链接实体对应的词节点v与当前目标实体词item的句结构相似度,w3(vi)表示当前目标实体词item与第个备选链接实体对应的词节点vi的词节点相似度;
Figure BDA0003785317650000036
代表所有由第i个备选链接实体对应的词节点vi指出关系的节点集合,V(vj)代表词节点vj到当前实体链接图中其他词节点的指出关系总数,N代表当前实体链接图的词节点总数,ε代表阻尼系数;H(item)表示当前目标实体词item所在句中词汇顺序标注,H(vi)表示第i个备选链接实体对应的词节点vi所在句中词汇顺序标注;
Figure BDA0003785317650000034
表示当前目标实体词item在对应备选链接实体集合中的词频向量,
Figure BDA0003785317650000035
表示第i个备选链接实体对应的词节点vi在对应备选链接实体集合中的词频向量,cos()表示余弦距离计算函数。
所述步骤三具体为:
首先根据缝纫设备模块化设计领域知识集合,采用词频-逆文档率方法算法抽取本体术语,获得领域本体术语集合;
接着采用K均值聚类算法对领域本体术语集合进行整合聚类,获得多个缝纫设备模块化设计领域本体;
最后采用基于模板的方法对多个缝纫设备模块化设计领域本体进行本体间分类关系以及非分类关系的抽取,由缝纫设备模块化设计领域本体以及本体间分类关系、非分类关系组成缝纫设备模块化设计领域知识模式层。
二、一种存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现所述的方法。
其中所述的计算机程序为对应实现所述方法的指令。
与现有技术相比,本发明的有益效果为:
本发明方法,针对缝纫设备模块化设计领域产品类型较多,历史悠久经验数据多等自身特点,从综合保留专家知识经验,缩短设计开发周期,降低开发成本及提高设计质量的角度出发,采用基于图的方法实现缝纫设备模块化设计领域多源异构数据的模块化设计实体抽取,实现了缝纫设备模块化设计领域数据层以及模式层的构建,进一步实现缝纫设备模块化设计领域可视化表示。
充分有效地利用了大量缝纫设备设计历史数据提供的信息,在实体抽取过程中,通过采用重要相关度、句结构相似度、词节点相似度综合计算备选链接实体与实体指称项的相似度,可以获得匹配度更高的缝纫设备模块化设计实体。另外,进一步实现了缝纫设备模块化设计知识图谱的可视化表示。同时,本发明中的可视化表达可以动态更新、扩展和丰富,具有较好的可维护性和可扩展性,有利于后期的进一步服务和应用。
附图说明
图1为本发明方法示意图。
图2为本发明的缝纫设备模块化设计领域实体链接流程图。
图3为本发明采用Neo4j实现的缝纫设备模块化设计领域知识图谱部分可视化结果示意图。
具体实施方式
下面结合具体实施方式对本发明做进一步详细的说明。
如图1所示,本发明的实施例及其实施过程如下:
步骤一:将缝纫设备模块化设计领域数据进行缝纫设备模块化设计实体和实体关系抽取,获得缝纫设备模块化设计领域知识集合;
步骤一具体为:
缝纫设备模块化设计领域数据中的缝纫设备模块化设计知识(Sewing equipmentmodule design knowledge,SEMK)包括缝纫设备模块对象、缝纫设备模块属性、缝纫设备模块组件和缝纫设备模块工艺;具体公式如下:
<SEMK>=<O,A,C,M>
其中,O表示缝纫设备模块对象(机构、系统等);A表示缝纫设备模块属性(拓扑关系、参数等);C表示缝纫设备模块组件(零件、部件等);M表示缝纫设备模块工艺(制造步骤、工艺信息等)。以上缝纫设备模块化设计知识分类,为知识实体、属性、关系抽取提供了底层支持。
缝纫设备模块化设计领域数据根据数据存储类型分为结构化数据、半结构化数据和非结构化数据,结构化数据:由二维表结构来逻辑表达和实现的数据,如系统数据库、表格文档等存储的数据;半结构化数据:介于结构化数据与非结构化数据之间的一种数据结构,如日志文件、XML文档、JSON文档等存储的数据;非结构化数据:数据结构不规则或不完整,没有预定义,不方便用二维逻辑表来表现的数据,如文本文档、电子图书、网页等存储的数据。通过构建正则表达式对结构化数据和半结构化数据进行实体抽取,采用基于机器学习的方法对非结构化数据进行实体抽取,从而获得缝纫设备模块化设计领域数据的实体抽取结果,实体抽取结果具体为实体词的集合;基于机器学习的方法具体采用隐马尔可夫模型进行实体抽取。
接着对缝纫设备模块化设计领域数据采用基于依存关系的实体关系抽取方法进行实体关系抽取,获得缝纫设备模块化设计领域数据的实体关系;具体地:经过句法分析,可以得到语句之间存在依存关系,揭示句法结构。常见的语句依存关系主要有动宾关系、并列关系、主谓关系、动补结构、介宾结构、状中关系、定中关系等。
非结构化数据的实体抽取结果与结构化、半结构化数据构成缝纫设备模块化设计领域词典,根据缝纫设备模块化设计领域词典,结合缝纫设备模块化设计知识(SEMK)将实体词进行分类:缝纫设备模块对象名词、缝纫设备模块属性名词、缝纫设备模块组件名词、缝纫设备模块工艺动作、缝纫设备模块数量量词,进而确定缝纫设备模块实体关系。
常见缝纫设备模块实体关系如表1所示,按照常见缝纫设备模块实体关系采用基于支持向量机的分类算法进行计算分类,进而抽取出缝纫设备模块实体关系。
表1 常见缝纫设备模块实体关系
Figure BDA0003785317650000051
由缝纫设备模块化设计领域数据的实体抽取结果以及实体关系抽取结果组成缝纫设备模块化设计领域知识集合。
步骤二:根据缝纫设备模块化设计领域知识集合,采用基于图的方法进行实体链接,获得缝纫设备模块化设计领域知识数据层;
如图2所示,步骤二具体为:
首先根据缝纫设备模块化设计领域知识集合确定各个目标实体词与每个目标实体词对应的备选链接实体集合,具体实施中,采用word2vec训练生成缝纫设备模块化设计领域知识集合中的实体词的词向量,将目标实体词的词向量与集合中其他实体词的词向量计算余弦相似度,设定阈值,大于阈值的选定为目标实体词对应的备选链接实体。对于每个目标实体词及其对应的备选链接实体集合,采用基于图的方法对当前目标实体词及其对应的备选链接实体集合进行实体链接,获得实体链接图G,满足G=(V,E),其中,V表示图节点集合(包括目标实体词item与其备选链接实体集合,将目标实体词item作为顶点),E表示实体链接图中词节点之间的关系的集合,且词节点之间为有向连接。接着根据实体链接图分别计算当前目标实体词与备选链接实体集合中的各个备选链接实体之间的综合相似度,再选择综合相似度大于综合相似度阈值的备选链接实体作为当前目标实体词的目标链接实体;最后由各个目标实体词和对应的目标链接实体以及对应的实体关系组成缝纫设备模块化设计领域知识数据层。
当前目标实体词与备选链接实体集合中的各个备选链接实体之间的综合相似度的计算公式如下:
w(vi)=α1×w1(vi)+α2×w2(vi)+α2×w3(vi)
α123=1
Figure BDA0003785317650000061
Figure BDA0003785317650000062
Figure BDA0003785317650000063
其中,w(vi)表示当前目标实体词item与备选链接实体集合中的第i个备选链接实体之间的综合相似度,α1、α2和α3分别为重要相关度系数、句结构相似度系数和词节点相似度系数;α1、α2、α3的值由实验获得。w1(vi)表示在当前实体链接图中采用PageRank算法计算获得的第i个备选链接实体对应的词节点vi的重要相关度,w2(vi)表示第i个备选链接实体对应的词节点vi与当前目标实体词item的句结构相似度,w3(vi)表示当前目标实体词item与第i个备选链接实体对应的词节点vi的词节点相似度;
Figure BDA0003785317650000073
代表所有由第i个备选链接实体对应的词节点vi指出关系的节点集合,V(vj)代表词节点vj到当前实体链接图中其他词节点的指出关系总数,N代表当前实体链接图的词节点总数,ε代表阻尼系数,一般为0.85。计算时,ε的初始值为1/N,通过迭代计算达到稳态,得到词节点的重要相关度;H(item)表示当前目标实体词item所在句中词汇顺序标注,H(vi)表示第i个备选链接实体对应的词节点vi所在句中词汇顺序标注;
Figure BDA0003785317650000071
表示当前目标实体词item在对应备选链接实体集合中的词频向量,
Figure BDA0003785317650000072
表示第i个备选链接实体对应的词节点vi在对应备选链接实体集合中的词频向量,cos()表示余弦距离计算函数。
步骤三:根据缝纫设备模块化设计领域知识集合,依次采用词频-逆文档率方法TF-IDF和K均值聚类算法进行领域本体术语抽取和聚类,获得缝纫设备模块化设计领域本体,然后采用基于模板的方法抽取缝纫设备模块化设计领域本体的本体间分类、非分类关系,由缝纫设备模块化设计领域本体以及本体间分类关系、非分类关系组成缝纫设备模块化设计领域知识模式层;
步骤三具体为:
首先采用自底向上的方法进行领域本体构建,收集缝纫设备模块化设计领域,考虑现有知识图谱模式层复用,定义领域本体概念、属性、关系以及约束,集成并整合领域本体,经过综合评估获得本体。
首先根据缝纫设备模块化设计领域知识集合,采用词频-逆文档率方法TF-IDF算法抽取本体术语,获得领域本体术语集合;
TF-IDF即词频-逆文档率,通常作为信息检索和文本挖掘等相关领域中提取文本特征信息的首选方案,数学表达式如下:
tfjgidfj=Wtf×Widf
其中,Wtf表示词频,表示词节点vi出现的频率,Widf表示词节点vi逆文档频率。tfjgidfj反应词节点vi在领域中的重要程度,设置重要度阈值抽取符合要求的词节点作为领域本体术语。
接着采用K均值聚类算法对领域本体术语集合进行整合聚类,获得多个缝纫设备模块化设计领域本体;
具体地:将本体术语聚类为k个簇,通过Word2Vec方法训练得到抽取的领域本体术语相对应的词向量,采用曼哈顿距离计算各个词向量到簇中心的距离:
Figure BDA0003785317650000081
其中,
Figure BDA0003785317650000082
表示词向量vi的k维坐标,d(vi,vj)表示词向量vi,vj之间的曼哈顿距离。根据计算得到的距离,更新簇中心,经过迭代计算,得到稳定的簇中心词向量。选定这些稳定的簇中心词作为聚类整合后的k个领域本体。
最后采用基于模板的方法对多个缝纫设备模块化设计领域本体进行本体间分类关系以及非分类关系的抽取,主要的分类与非分类关系如下表所示:
表2 本体分类关系模板
Figure BDA0003785317650000083
表3 本体非分类关系模板
Figure BDA0003785317650000084
由缝纫设备模块化设计领域本体以及本体间分类关系、非分类关系组成缝纫设备模块化设计领域知识模式层。
本体是概念的集合,定义了知识图谱的概念与概念属性,是概念框架,本体与本体间关系在这里构成模式层;实体是本体、实例及关系的整合,也可以定义为本体的某个概念的实例,实体及实体之间的关系在这里构成数据层。
步骤四:将缝纫设备模块化设计领域知识数据层和模式层存储在图数据库中,在图数据库中实现缝纫设备模块化设计领域知识图谱的可视化。
实施例情况具体如下:
首先,基于大量的缝纫设备设计历史数据以及现存不同结构的缝纫设备设计资料,对多元异构数据中进行实体抽取工作,实现较为全面的缝纫设备模块化设计实体抽取、数据层构建。
接着进行缝纫设备模块设计本体构建,根据识别的领域本体,结合已有本体的复用情况确定本体领域及范围。接着,根据识别的分类关系,对缝纫设备模块化设计本体进行分类:
①缝纫设备:锁式线迹缝纫设备、链式线迹缝纫设备等;
②主要机构:刺料机构、挑线机构、钩线机构和送料机构等;
③功能:工作机构、辅助装置等。
根据识别的非分类关系,确定属性关系及约束。属性类型主要包括对象属性,即本体与本体之间的关系;也包括数据属性,即本体本身具有的数据特征。在缝纫设备模块化设计中,从非分类关系发现本体的对象属性主要关系有相邻、顺序关系、位置拓扑关系等,如机构运动关系为刺料、钩线、挑线、送料;数据属性主要关系有运动、属性参数等,如刺料机构杆长满足对心曲柄滑块机构的杆长条件。
采用Neo4j软件按照以上规则存储缝纫设备模块化设计知识图谱,并实现其可视化,所得的可视化结果如图3所示。这样可以充分有效利用大量的缝纫设备设计历史数据以及现存不同结构的缝纫设备设计资料中提供的信息,不仅实现了缝纫设备模块化设计的数据层、模式层的构建,并且可以实现其可视化表达,可为缝纫设备设计人员提供较大的便利,也为缝纫设备模块化设计创新提供重要支撑。

Claims (7)

1.一种缝纫设备模块化设计领域知识图谱构建方法,其特征在于,包括以下步骤:
步骤一:将缝纫设备模块化设计领域数据进行缝纫设备模块化设计实体和实体关系抽取,获得缝纫设备模块化设计领域知识集合;
步骤二:根据缝纫设备模块化设计领域知识集合,采用基于图的方法进行实体链接,获得缝纫设备模块化设计领域知识数据层;
步骤三:根据缝纫设备模块化设计领域知识集合,依次采用词频-逆文档率方法和K均值聚类算法进行领域本体术语抽取和聚类,获得缝纫设备模块化设计领域本体,然后采用基于模板的方法抽取缝纫设备模块化设计领域本体的本体间分类、非分类关系,由缝纫设备模块化设计领域本体以及本体间分类关系、非分类关系组成缝纫设备模块化设计领域知识模式层;
步骤四:将缝纫设备模块化设计领域知识数据层和模式层存储在图数据库中,在图数据库中实现缝纫设备模块化设计领域知识图谱的可视化。
2.根据权利要求1所述的一种缝纫设备模块化设计领域知识图谱构建方法,其特征在于,所述步骤一具体为:
所述缝纫设备模块化设计领域数据根据数据存储类型分为结构化数据、半结构化数据和非结构化数据,通过构建正则表达式对结构化数据和半结构化数据进行实体抽取,采用基于机器学习的方法对非结构化数据进行实体抽取,从而获得缝纫设备模块化设计领域数据的实体抽取结果;
接着对缝纫设备模块化设计领域数据采用基于依存关系的实体关系抽取方法进行实体关系抽取,获得缝纫设备模块化设计领域数据的实体关系;
由缝纫设备模块化设计领域数据的实体抽取结果以及实体关系抽取结果组成缝纫设备模块化设计领域知识集合。
3.根据权利要求1所述的一种缝纫设备模块化设计领域知识图谱构建方法,其特征在于,所述步骤二具体为:
首先根据缝纫设备模块化设计领域知识集合确定各个目标实体词与每个目标实体词对应的备选链接实体集合,对于每个目标实体词及其对应的备选链接实体集合,采用基于图的方法对当前目标实体词及其对应的备选链接实体集合进行实体链接,获得实体链接图,接着根据实体链接图分别计算当前目标实体词与备选链接实体集合中的各个备选链接实体之间的综合相似度,再选择综合相似度大于综合相似度阈值的备选链接实体作为当前目标实体词的目标链接实体;最后由各个目标实体词和对应的目标链接实体以及对应的实体关系组成缝纫设备模块化设计领域知识数据层。
4.根据权利要求3所述的一种缝纫设备模块化设计领域知识图谱构建方法,其特征在于,所述当前目标实体词与备选链接实体集合中的各个备选链接实体之间的综合相似度的计算公式如下:
w(vi)=α1×w1(vi)+α2×w2(vi)+α2×w3(vi)
α123=1
Figure FDA0003785317640000021
Figure FDA0003785317640000022
Figure FDA0003785317640000023
其中,w(vi)表示当前目标实体词item与备选链接实体集合中的第i个备选链接实体之间的综合相似度,α1、α2和α3分别为重要相关度系数、句结构相似度系数和词节点相似度系数;w1(vi)表示在当前实体链接图中第i个备选链接实体对应的词节点vi的重要相关度,w2(vi)表示第i个备选链接实体对应的词节点vi与当前目标实体词item的句结构相似度,w3(vi)表示当前目标实体词item与第i个备选链接实体对应的词节点vi的词节点相似度;
Figure FDA0003785317640000026
代表所有由第i个备选链接实体对应的词节点vi指出关系的节点集合,V(vj)代表词节点vj到当前实体链接图中其他词节点的指出关系总数,N代表当前实体链接图的词节点总数,ε代表阻尼系数;H(item)表示当前目标实体词item所在句中词汇顺序标注,H(vi)表示第i个备选链接实体对应的词节点vi所在句中词汇顺序标注;
Figure FDA0003785317640000024
表示当前目标实体词item在对应备选链接实体集合中的词频向量,
Figure FDA0003785317640000025
表示第i个备选链接实体对应的词节点vi在对应备选链接实体集合中的词频向量,cos()表示余弦距离计算函数。
5.根据权利要求1所述的一种缝纫设备模块化设计领域知识图谱构建方法,其特征在于,所述步骤三具体为:
首先根据缝纫设备模块化设计领域知识集合,采用词频-逆文档率方法算法抽取本体术语,获得领域本体术语集合;
接着采用K均值聚类算法对领域本体术语集合进行整合聚类,获得多个缝纫设备模块化设计领域本体;
最后采用基于模板的方法对多个缝纫设备模块化设计领域本体进行本体间分类关系以及非分类关系的抽取,由缝纫设备模块化设计领域本体以及本体间分类关系、非分类关系组成缝纫设备模块化设计领域知识模式层。
6.一种存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1~5任一所述的方法。
7.根据权利要求6所述的一种存储介质,其特征在于,其中所述的计算机程序为对应实现权利要求1~5任一所述方法的指令。
CN202210940485.7A 2022-08-03 2022-08-03 一种缝纫设备模块化设计领域知识图谱构建方法 Pending CN115292515A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210940485.7A CN115292515A (zh) 2022-08-03 2022-08-03 一种缝纫设备模块化设计领域知识图谱构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210940485.7A CN115292515A (zh) 2022-08-03 2022-08-03 一种缝纫设备模块化设计领域知识图谱构建方法

Publications (1)

Publication Number Publication Date
CN115292515A true CN115292515A (zh) 2022-11-04

Family

ID=83827430

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210940485.7A Pending CN115292515A (zh) 2022-08-03 2022-08-03 一种缝纫设备模块化设计领域知识图谱构建方法

Country Status (1)

Country Link
CN (1) CN115292515A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116028571A (zh) * 2023-03-31 2023-04-28 南京航空航天大学 一种基于薄壁零件知识图谱构建方法和系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116028571A (zh) * 2023-03-31 2023-04-28 南京航空航天大学 一种基于薄壁零件知识图谱构建方法和系统
CN116028571B (zh) * 2023-03-31 2023-06-02 南京航空航天大学 一种基于薄壁零件知识图谱构建方法和系统

Similar Documents

Publication Publication Date Title
CN112100344B (zh) 一种基于知识图谱的金融领域知识问答方法
Zheng et al. Learning to crawl deep web
Remi et al. Domain ontology driven fuzzy semantic information retrieval
CN112036178A (zh) 一种配网实体相关的语义搜索方法
Liu et al. Recommendation system based on deep sentiment analysis and matrix factorization
CN118245564B (zh) 一种支持语义查重查新的特征比对库构建方法及装置
Babur Statistical analysis of large sets of models
Rogushina Use of Semantic Similarity Estimates for Unstructured Data Analysis.
CN115292515A (zh) 一种缝纫设备模块化设计领域知识图谱构建方法
CN105335499B (zh) 一种基于分布-收敛模型的文献聚类方法
Rajman et al. From text to knowledge: Document processing and visualization: A text mining approach
CN112667286A (zh) 一种基于编程现场环境上下文的搜索方法
CN114298020B (zh) 一种基于主题语义信息的关键词向量化方法及其应用
Leginus et al. Speeding up tensor based recommenders with clustered tag space and improving quality of recommendations with non-negative tensor factorization
Liu et al. Keywords extraction method for technological demands of small and medium-sized enterprises based on LDA
CN112800243A (zh) 一种基于知识图谱的项目预算分析方法及系统
Munirsyah et al. Development synonym set for the English wordnet using the method of comutative and agglomerative clustering
Song et al. Construction of Military Knowledge Graph Based on Paper Bibliographic Data
Liu et al. A query suggestion method based on random walk and topic concepts
Kozłowski Word sense discovery using frequent termsets
Hung et al. Reorganization of search results based on semantic clustering
Zhu et al. Enhancing object distinction utilizing probabilistic topic model
Ramya et al. Automatic extraction of facets for user queries [AEFUQ]
Zhang et al. Extracting dimensions for OLAP on multidimensional text databases
CN112100370B (zh) 一种基于文本卷积和相似度算法的图审专家组合推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination