CN115168606A - 一种面向半结构化工艺数据的映射模板知识抽取方法 - Google Patents
一种面向半结构化工艺数据的映射模板知识抽取方法 Download PDFInfo
- Publication number
- CN115168606A CN115168606A CN202210775551.XA CN202210775551A CN115168606A CN 115168606 A CN115168606 A CN 115168606A CN 202210775551 A CN202210775551 A CN 202210775551A CN 115168606 A CN115168606 A CN 115168606A
- Authority
- CN
- China
- Prior art keywords
- knowledge
- process data
- semi
- structured
- extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 204
- 230000008569 process Effects 0.000 title claims abstract description 191
- 238000000605 extraction Methods 0.000 title claims abstract description 71
- 238000013507 mapping Methods 0.000 title claims abstract description 68
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 230000006870 function Effects 0.000 claims description 6
- 238000005266 casting Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 238000003754 machining Methods 0.000 claims description 3
- 238000013461 design Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000013506 data mapping Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/84—Mapping; Conversion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种面向半结构化工艺数据的映射模板知识抽取方法,该方法为:对半结构化工艺数据进行预处理,形成工艺数据表格;根据半结构化工艺数据的结构特征和内容特征,对工艺数据表格进行抽取区域划分,形成结构特征区域和内容特征区域,将各个抽取区域内的具体数据与预设的工艺知识图谱模式层进行映射,得到映射模板;根据映射模板,按照映射模板的类别对工艺数据表格中的内容进行知识提取,得到基于预设的工艺知识图谱模式层和映射模板的工艺知识库。本发明可以直接高效抽取半结构化工艺数据中的知识,在映射模板的知识约束和高精度映射下,工艺知识抽取可以保持较好的可靠性和较高的效率实现工艺知识的自动提取。
Description
技术领域
本发明属于知识抽取技术领域,具体涉及一种面向半结构化工艺数据的映射模板知识抽取方法。
背景技术
知识图谱技术是人工智能技术的重要组成部分,以结构化的方式描述客观世界中的概念、实体及其之间的关系。知识图谱技术提供了一种更好的组织、管理和理解互联网海量信息的能力,将互联网的信息表达成更接近于人类认知世界的形式。因此,建立一个具有语义处理能力与开放互联能力的知识库,可以在智能搜索、智能问答、个性化推荐等智能信息服务重产生应用价值。
而构建一个知识库或知识图谱的前提就是知识抽取技术,知识抽取是指把蕴含于信息源中的知识经过识别、理解、筛选、归纳等过程抽取出来,存储形成知识元库。目前面向结构化和非结构化数据的知识抽取技术较为丰富,但面向半结构化数据的知识抽取技术则较为缺少,主要是因为半结构化数据类型和内容难以明确界定和划分,这同样也是半结构化工艺数据知识抽取的难点,即如何对半结构化工艺知识源中的数据进行预处理,因为知识并不是以某种现成的形式存在于知识源中的,只有对知识源中的数据经过分析、识别、理解、关联等一系列处理之后,才能发现其中有用的知识。而这种数据处理往往又因为知识源中数据形式的不同而呈现不同的难度。
由于知识图谱在垂直工艺领域的技术研究和应用案例较少,且通用领域知识抽取技术多数并不适用于工艺领域的业务需求,尤其在面向半结构化工艺数据知识抽取过程中,难以抽取获得准确性高、专业性好以及满足工艺知识需求的高质量工艺知识库。
发明内容
有鉴于此,本发明提供了一种面向半结构化工艺数据的映射模板知识抽取方法,通过对半结构化工艺数据进行数据预处理、区域划分及映射模板设计,可以直接高效抽取半结构化工艺数据中的知识,在映射模板的知识约束和高精度映射下,工艺知识抽取可以保持较好的可靠性和较高的效率实现工艺知识的自动提取。
本发明是通过下述技术方案实现的:
一种面向半结构化工艺数据的映射模板知识抽取方法,所述半结构化工艺数据为面向工艺领域的半结构化铸造、机加和装配相关的工艺表;
所述抽取方法的具体步骤如下:
步骤S101,对半结构化工艺数据进行预处理,明确半结构化工艺数据的结构特征和内容特征;所述预处理为:将不同格式的半结构化工艺数据转变为标准统一的excel表格格式,形成工艺数据表格;
步骤S102,根据半结构化工艺数据的结构特征和内容特征,对工艺数据表格进行抽取区域划分,形成两个以上抽取区域,所述抽取区域包括结构特征区域和内容特征区域,将各个抽取区域内的具体数据与预设的工艺知识图谱模式层进行映射,得到映射模板;
步骤S103,根据映射模板,按照映射模板的类别对工艺数据表格中的内容进行知识提取,得到基于预设的工艺知识图谱模式层和映射模板的工艺知识库。
进一步的,步骤S101的具体过程如下:
首先对半结构化工艺数据的结构特征和内容特征进行分析,结构特征包括:标题栏、明细栏、校验栏及资源栏;内容特征包括:装配明细表、工艺装置明细表、工序目录及工艺卡片;
然后通过pdfplumber和docx功能包对非excel文件和含合并单元格的非标准excel文件内的表格进行格式转换,转变为标准统一的excel表格格式,形成工艺数据表格。
进一步的,在步骤S102中,所述工艺知识图谱模式层包括:概念实体、概念关系和概念属性。
进一步的,步骤S102的具体过程如下:
首先,预先准备工艺知识图谱模式层,从工艺需求、产品对象和工艺信息三方面出发,对每个方面的概念实体、概念关系和概念属性进行定义,从而构建工艺知识图谱模式层;
然后,先根据半结构化工艺数据的结构特征对工艺数据表格进行抽取区域划分,形成结构特征区域,再根据结构特征区域和内容特征,对工艺数据表格进行抽取区域划分,形成内容特征区域;
然后,结合预设的工艺知识图谱模式层,将抽取区域与预设的工艺知识图谱模式层进行映射,即将各个抽取区域中的具体数据与预设的工艺知识图谱模式层中的概念实体、概念属性和概念关系一一对应,得到概念与知识的对应关系,即工艺知识图谱模式层的概念实体、概念关系和概念属性与抽取区域内的具体数据的对应关系,最终得到满足不同类型工艺数据结构特征和内容特征的映射模板。
进一步的,步骤S103的具体过程如下:
在映射模板的基础上,通过py2neo功能包操作neo4j图数据库,并结合CQL语言,对工艺数据表格中的内容进行知识自动抽取,并通过APOC插件对抽取出的知识进行重复节点和关系的融合,形成实体关系表,最终构建工艺知识库。
有益效果:
(1)本发明提出一种面向半结构化工艺数据的映射模板知识抽取方法,是在通用领域半结构化数据知识抽取方法基础上的工艺领域应用拓展;通过针对性的工艺数据预处理,并基于预处理结果进行映射模板设计,最终实现该类半结构化工艺数据的工艺知识高效抽取;通过本发明的映射模板知识抽取方法,能够实现部分半结构化工艺知识数据中规范和非规范表格数据的知识抽取,并通过提前设计的多种映射模板实现高效抽取同类表格中的知识,有利于自动抽取多源异构且庞大的工艺知识,减少人力成本的同时,增强映射模板的通用性并提高垂直领域工艺知识抽取精度和效度,从半结构化数据知识抽取角度显著提升工艺知识库的构建效率。
(2)本发明的面向半结构化工艺数据的数据预处理方法为:通过pdfplumber和docx功能包对非excel文件和含合并单元格的非标准excel文件内的表格进行格式转换,转变为标准统一的excel表格格式,形成工艺数据表格,是对半结构化工艺数据进行知识抽取的基础,只有转换为统一的excel表格格式,才能进行后续的对工艺数据表格中的内容进行自动知识抽取。
(3)本发明的基于半结构化工艺数据的结构特征和内容特征进行映射模板设计时,首先对工艺数据表格进行抽取区域划分,形成各个抽取区域;然后,结合预设的工艺知识图谱模式层,将各个抽取区域中的具体数据与预设的工艺知识图谱模式层中的概念实体、概念属性和概念关系一一对应,得到工艺知识图谱模式层的概念实体、概念关系和概念属性与抽取区域内的具体数据的对应关系,最终得到满足不同类型工艺数据结构特征和内容特征的映射模板,可以减少同类型数据源的模板重复设计工作,在保证知识精度的基础上节约资源;且本映射模板的知识抽取方法在半结构化数据表格的处理中具有明显优势,尤其是工艺知识领域,半结构化的工艺数据类型较少且格式较为统一,采用映射模板的知识抽取方法能够更好的适应工艺知识需求,为高精度工艺知识库的构建提供知识抽取方案。
综上所述,本发明能够针对性的解决垂直工艺领域半结构化工艺数据知识抽取的技术问题;在框架上,自顶向下,能够提升抽取知识的专业性;在方法上,基于映射模板,能够提升抽取知识的准确性;在广义上,能够为垂直领域知识图谱的知识抽取技术发展做出一定贡献,并推动应用案例的研究。
附图说明
图1为本发明的面向半结构化数据的映射模板知识抽取方法流程图;
图2为本发明的数据预处理方法流程图;
图3为本发明的柴油机领域工艺知识模式层框架图;
图4为本发明的柴油机某半结构化工艺数据映射模板的设计方法流程图;
图5为本发明的工艺知识抽取流程图。
具体实施方式
下面结合附图并举实施例,对本发明进行详细描述。
本实施例提供了一种面向半结构化工艺数据的映射模板知识抽取方法,所述半结构化工艺数据为面向工艺领域的半结构化铸造、机加和装配相关工艺表,如装配明细表、工艺装置明细表、工序卡片等;
参见附图1,所述抽取方法的具体步骤如下:
步骤S101,对工艺数据进行预处理,明确工艺数据的结构特征和内容特征;所述预处理为:将不同格式的半结构化工艺数据转变为标准统一的excel表格格式,形成工艺数据表格;具体过程如下:
参见附图2,首先对半结构化工艺数据的结构特征和内容特征进行分析,结构特征主要表现为区域性的结构化特征,如通常可将工艺数据划分为三部分区域:“标题栏”、“明细栏”和“校验栏”,部分工艺数据也可划分出“资源栏”;内容特征则与工艺数据的具体内容相关,包括装配明细表、工艺装置明细表、工序目录、工艺卡片等,其在决定不同映射模板的详细映射规则的同时也影响结构特征区域的划分;
然后通过pdfplumber和docx等功能包对各式非excel文件和含合并单元格的非标准excel文件内表格进行提取,并对其进行格式转换,转变为标准统一的excel表格格式,形成工艺数据表格,具体的可以将类似的pdf或word中的表格统一转变为具有单一表头且无合并单元格的标准excel文件;
步骤S102,根据半结构化工艺数据的结构特征和内容特征对工艺数据表格进行抽取区域划分,形成两个以上抽取区域,所述抽取区域包括结构特征区域和内容特征区域,将各个抽取区域内的具体数据与预设的工艺知识图谱模式层进行映射,得到映射模板,具体过程如下:
其中,所述工艺知识图谱模式层包括:概念实体、概念关系和概念属性;
参见附图3,首先,预先准备工艺知识图谱模式层,本实施例以柴油机产品为研究对象,从工艺需求、产品对象和工艺信息三方面出发,对每方面的概念实体、概念关系和概念属性进行定义,从而构建柴油机工艺知识图谱模式层,以支持映射模板的设计;
参见附图4,然后,综合分析半结构化工艺数据的结构特征和内容特征,先根据结构特征对工艺数据表格进行抽取区域划分,形成结构特征区域,再根据结构特征区域和内容特征,对工艺数据表格进行抽取区域划分,形成内容特征区域;内容特征区域是结构特征区域的细化;结构特征区域和内容特征区域统称为抽取区域;
然后,结合预设的工艺知识图谱模式层,将抽取区域与预设的工艺知识图谱模式层进行映射,即将各个抽取区域中的具体数据与预设的工艺知识图谱模式层中的概念实体、概念属性和概念关系一一对应,得到概念(即工艺知识图谱模式层的概念实体、概念关系和概念属性)与知识(即抽取区域内的具体数据)的对应关系,最终形成映射模板,即得到满足不同类型工艺数据结构特征和内容特征的映射模板,减少同类型数据源的模板重复设计工作,在保证知识精度的基础上节约资源。
步骤S103,根据映射模板,按照映射模板的类别对工艺数据表格中的具体数据进行知识提取,得到基于预设的工艺知识图谱模式层和映射模板的工艺知识库,具体过程如下:
参见附图5,在映射模板的基础上,通过py2neo功能包操作neo4j图数据库,并结合CQL语言,对本实施例的柴油机的工艺数据表格中的内容进行知识自动抽取,并通过APOC插件对抽取出的知识进行重复节点和关系的融合,形成实体关系表,最终构建工艺知识库;其中,通过映射模板,直接高效抽取半结构化工艺数据中的知识,在映射模板的知识约束和高精度映射下,工艺知识抽取可以保持较好的可靠性和较高的效率。
综上所述,本实施例提出了一种面向半结构化工艺数据的映射模板知识抽取方法,首先,进行数据预处理,在明确工艺数据结构特征和内容特征的基础上,对pdf、word等常用格式的半结构化工艺数据,如装匹配明细表、工序目录、工艺卡片等,通过相应的功能包将之转变为标准统一的excel表格格式;然后,进行映射模板设计,对excel格式的工艺数据表格,按其结构特征分布和内容特征主次进行抽取区域划分,形成各个抽取区域,各个抽取区域再同预设的工艺知识图谱模式层进行映射,得到映射模板;最后,执行工艺知识提取,根据映射模板,对各工艺数据表格按照映射模板的类别进行知识提取,得到符合预设工艺知识图谱模式层和映射模板的工艺知识,并形成工艺知识库。
综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种面向半结构化工艺数据的映射模板知识抽取方法,所述半结构化工艺数据为面向工艺领域的半结构化铸造、机加和装配相关的工艺表;
其特征在于,所述抽取方法的具体步骤如下:
步骤S101,对半结构化工艺数据进行预处理,明确半结构化工艺数据的结构特征和内容特征;所述预处理为:将不同格式的半结构化工艺数据转变为标准统一的excel表格格式,形成工艺数据表格;
步骤S102,根据半结构化工艺数据的结构特征和内容特征,对工艺数据表格进行抽取区域划分,形成两个以上抽取区域,所述抽取区域包括结构特征区域和内容特征区域,将各个抽取区域内的具体数据与预设的工艺知识图谱模式层进行映射,得到映射模板;
步骤S103,根据映射模板,按照映射模板的类别对工艺数据表格中的内容进行知识提取,得到基于预设的工艺知识图谱模式层和映射模板的工艺知识库。
2.如权利要求1所述的一种面向半结构化工艺数据的映射模板知识抽取方法,其特征在于,步骤S101的具体过程如下:
首先对半结构化工艺数据的结构特征和内容特征进行分析,结构特征包括:标题栏、明细栏、校验栏及资源栏;内容特征包括:装配明细表、工艺装置明细表、工序目录及工艺卡片;
然后通过pdfplumber和docx功能包对非excel文件和含合并单元格的非标准excel文件内的表格进行格式转换,转变为标准统一的excel表格格式,形成工艺数据表格。
3.如权利要求1所述的一种面向半结构化工艺数据的映射模板知识抽取方法,其特征在于,在步骤S102中,所述工艺知识图谱模式层包括:概念实体、概念关系和概念属性。
4.如权利要求3所述的一种面向半结构化工艺数据的映射模板知识抽取方法,其特征在于,步骤S102的具体过程如下:
首先,预先准备工艺知识图谱模式层,从工艺需求、产品对象和工艺信息三方面出发,对每个方面的概念实体、概念关系和概念属性进行定义,从而构建工艺知识图谱模式层;
然后,先根据半结构化工艺数据的结构特征对工艺数据表格进行抽取区域划分,形成结构特征区域,再根据结构特征区域和内容特征,对工艺数据表格进行抽取区域划分,形成内容特征区域;
然后,结合预设的工艺知识图谱模式层,将抽取区域与预设的工艺知识图谱模式层进行映射,即将各个抽取区域中的具体数据与预设的工艺知识图谱模式层中的概念实体、概念属性和概念关系一一对应,得到概念与知识的对应关系,即工艺知识图谱模式层的概念实体、概念关系和概念属性与抽取区域内的具体数据的对应关系,最终得到满足不同类型工艺数据结构特征和内容特征的映射模板。
5.如权利要求1-4任一项所述的一种面向半结构化工艺数据的映射模板知识抽取方法,其特征在于,步骤S103的具体过程如下:
在映射模板的基础上,通过py2neo功能包操作neo4j图数据库,并结合CQL语言,对工艺数据表格中的内容进行知识自动抽取,并通过APOC插件对抽取出的知识进行重复节点和关系的融合,形成实体关系表,最终构建工艺知识库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210775551.XA CN115168606B (zh) | 2022-07-01 | 一种面向半结构化工艺数据的映射模板知识抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210775551.XA CN115168606B (zh) | 2022-07-01 | 一种面向半结构化工艺数据的映射模板知识抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115168606A true CN115168606A (zh) | 2022-10-11 |
CN115168606B CN115168606B (zh) | 2024-05-24 |
Family
ID=
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115510245A (zh) * | 2022-10-14 | 2022-12-23 | 北京理工大学 | 一种面向非结构化数据的领域知识抽取方法 |
CN115659920A (zh) * | 2022-12-28 | 2023-01-31 | 大方智造(天津)科技有限公司 | 一种将Excel工艺转换成cxp工艺的方法及装置 |
CN117252201A (zh) * | 2023-11-17 | 2023-12-19 | 山东山大华天软件有限公司 | 面向知识图谱的离散型制造行业工艺数据提取方法及系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050055365A1 (en) * | 2003-09-09 | 2005-03-10 | I.V. Ramakrishnan | Scalable data extraction techniques for transforming electronic documents into queriable archives |
KR20120101910A (ko) * | 2011-03-07 | 2012-09-17 | 경북대학교 산학협력단 | 의학 표준 용어체계 매핑 방법 및 시스템 |
TW201530328A (zh) * | 2014-01-20 | 2015-08-01 | Alibaba Group Services Ltd | 爲半結構化資料構建NoSQL資料庫索引的方法及裝置 |
KR101542195B1 (ko) * | 2014-03-28 | 2015-08-05 | 주식회사 솔트룩스 | 비정형 데이터로부터 특성을 추출하여 지식 베이스를 구축하는 시스템 및 방법 |
CN111444351A (zh) * | 2020-03-24 | 2020-07-24 | 清华苏州环境创新研究院 | 一种行业工艺领域知识图谱构建方法及装置 |
US20200285810A1 (en) * | 2019-03-05 | 2020-09-10 | App2Check S.r.l. | System and method for extracting information from unstructured or semi-structured textual sources |
CN111949828A (zh) * | 2019-05-17 | 2020-11-17 | 南京农业大学 | 一种面向半结构化表格的水稻栽培模式知识图谱自动构建方法 |
CN113239238A (zh) * | 2021-06-17 | 2021-08-10 | 上海海洋大学 | 一种面向半结构化领域数据的知识图谱自动构建方法 |
CN113890899A (zh) * | 2021-09-13 | 2022-01-04 | 北京交通大学 | 一种基于知识图谱的协议转换方法 |
CN113987212A (zh) * | 2021-11-17 | 2022-01-28 | 武汉理工大学 | 一种数控加工领域工艺数据的知识图谱构建方法 |
WO2022116417A1 (zh) * | 2020-12-03 | 2022-06-09 | 平安科技(深圳)有限公司 | 三元组信息提取方法、装置、设备及计算机可读存储介质 |
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050055365A1 (en) * | 2003-09-09 | 2005-03-10 | I.V. Ramakrishnan | Scalable data extraction techniques for transforming electronic documents into queriable archives |
KR20120101910A (ko) * | 2011-03-07 | 2012-09-17 | 경북대학교 산학협력단 | 의학 표준 용어체계 매핑 방법 및 시스템 |
TW201530328A (zh) * | 2014-01-20 | 2015-08-01 | Alibaba Group Services Ltd | 爲半結構化資料構建NoSQL資料庫索引的方法及裝置 |
KR101542195B1 (ko) * | 2014-03-28 | 2015-08-05 | 주식회사 솔트룩스 | 비정형 데이터로부터 특성을 추출하여 지식 베이스를 구축하는 시스템 및 방법 |
US20200285810A1 (en) * | 2019-03-05 | 2020-09-10 | App2Check S.r.l. | System and method for extracting information from unstructured or semi-structured textual sources |
CN111949828A (zh) * | 2019-05-17 | 2020-11-17 | 南京农业大学 | 一种面向半结构化表格的水稻栽培模式知识图谱自动构建方法 |
CN111444351A (zh) * | 2020-03-24 | 2020-07-24 | 清华苏州环境创新研究院 | 一种行业工艺领域知识图谱构建方法及装置 |
WO2022116417A1 (zh) * | 2020-12-03 | 2022-06-09 | 平安科技(深圳)有限公司 | 三元组信息提取方法、装置、设备及计算机可读存储介质 |
CN113239238A (zh) * | 2021-06-17 | 2021-08-10 | 上海海洋大学 | 一种面向半结构化领域数据的知识图谱自动构建方法 |
CN113890899A (zh) * | 2021-09-13 | 2022-01-04 | 北京交通大学 | 一种基于知识图谱的协议转换方法 |
CN113987212A (zh) * | 2021-11-17 | 2022-01-28 | 武汉理工大学 | 一种数控加工领域工艺数据的知识图谱构建方法 |
Non-Patent Citations (4)
Title |
---|
PANUPONG PASUPAT, PERCY LIANG: "Compositional Semantic Parsing on Semi-Structured Tables", 《 HTTPS://DOI.ORG/10.48550/ARXIV.1508.00305》, 3 August 2015 (2015-08-03) * |
李秀玲;张树生;黄瑞;黄波;王思佳;: "面向工艺重用的工艺知识图谱构建方法", 西北工业大学学报, no. 06, 15 December 2019 (2019-12-15) * |
高丛: "利用在线百科构建知识图谱任务中的槽填充技术研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》, no. 6, 15 June 2020 (2020-06-15) * |
高海翔;苗璐;刘嘉宁;林湘宁;董锴;何祥针;: "知识图谱及其在电力系统中的应用研究综述", 广东电力, no. 09, 9 October 2020 (2020-10-09), pages 66 - 76 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115510245A (zh) * | 2022-10-14 | 2022-12-23 | 北京理工大学 | 一种面向非结构化数据的领域知识抽取方法 |
CN115510245B (zh) * | 2022-10-14 | 2024-05-14 | 北京理工大学 | 一种面向非结构化数据的领域知识抽取方法 |
CN115659920A (zh) * | 2022-12-28 | 2023-01-31 | 大方智造(天津)科技有限公司 | 一种将Excel工艺转换成cxp工艺的方法及装置 |
CN117252201A (zh) * | 2023-11-17 | 2023-12-19 | 山东山大华天软件有限公司 | 面向知识图谱的离散型制造行业工艺数据提取方法及系统 |
CN117252201B (zh) * | 2023-11-17 | 2024-02-27 | 山东山大华天软件有限公司 | 面向知识图谱的离散型制造行业工艺数据提取方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019200752A1 (zh) | 基于语义理解的兴趣点查询方法、装置和计算机设备 | |
CN109344223A (zh) | 一种基于云计算技术的建筑信息模型管理系统及方法 | |
CN107357933A (zh) | 一种用于多源异构科技信息资源的标签描述方法和装置 | |
CN106611053B (zh) | 一种数据清理、索引方法 | |
CN106502991B (zh) | 出版物处理方法和装置 | |
CN109542967A (zh) | 基于xbrl标准的智慧城市数据共享系统及方法 | |
CN111967761A (zh) | 一种基于知识图谱的监控预警方法、装置及电子设备 | |
CN101482875A (zh) | 信息查询方法及其装置 | |
CN111078702A (zh) | 一种sql语句分类管理及统一查询方法和装置 | |
CN116451665A (zh) | 一种基于图纸的智能生成设计bom的方法 | |
CN115168606B (zh) | 一种面向半结构化工艺数据的映射模板知识抽取方法 | |
CN112148938B (zh) | 一种跨域异构数据检索系统及检索方法 | |
CN104765763B (zh) | 一种基于概念格的异构空间信息服务分类的语义匹配方法 | |
CN105912723A (zh) | 一种自定义字段的存储方法 | |
CN115168606A (zh) | 一种面向半结构化工艺数据的映射模板知识抽取方法 | |
CN101719162A (zh) | 基于片段模式匹配的多版本开放式地理信息服务访问方法及系统 | |
CN115080011B (zh) | 基于抽象语法树的代码生成方法及系统 | |
CN116483903A (zh) | 一种面向多源异构数据源的全链路数据血缘关系识别方法 | |
CN112380355A (zh) | 一种时隙异构知识图谱的表示与存储方法 | |
CN114419645A (zh) | 一种基于ai的合同智能解析方法 | |
Vyawahare et al. | Hybrid Database Model For Efficient Performance | |
CN112487255A (zh) | 基于区块链联盟的数据共享目录模型 | |
CN110633315A (zh) | 一种数据处理方法、设备及计算机存储介质 | |
CN113760913B (zh) | 一种弹性可扩展的装备费用采集方法 | |
CN112347121B (zh) | 一种可配置的自然语言转sql的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |