CN112559760B - 一种面向文本描述的cps资源能力知识图谱构建方法 - Google Patents

一种面向文本描述的cps资源能力知识图谱构建方法 Download PDF

Info

Publication number
CN112559760B
CN112559760B CN202011411012.5A CN202011411012A CN112559760B CN 112559760 B CN112559760 B CN 112559760B CN 202011411012 A CN202011411012 A CN 202011411012A CN 112559760 B CN112559760 B CN 112559760B
Authority
CN
China
Prior art keywords
phrase
resource
capability
phrases
text description
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011411012.5A
Other languages
English (en)
Other versions
CN112559760A (zh
Inventor
李正洁
沈立炜
李弋
彭鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN202011411012.5A priority Critical patent/CN112559760B/zh
Publication of CN112559760A publication Critical patent/CN112559760A/zh
Application granted granted Critical
Publication of CN112559760B publication Critical patent/CN112559760B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于知识图谱技术领域,具体为一种面向文本描述的CPS资源能力知识图谱构建方法。本发明针对不同类型的信息物理资源,首先从资源相关代码与文档中提取与资源能力有关的文本描述信息,基于预定义的动宾短语模式生成规范化表达的能力短语;然后基于动宾结构的关键成分对能力短语进行划分、聚合与抽象,生成不同资源类型的能力层次化抽象描述;最后构建出资源能力知识图谱。本发明基于资源能力的文本描述,自动化构建资源能力知识图谱,减少了人工构建工作量。本发明是信息物理融合系统领域知识图谱的补充,增加了关于资源服务与能力描述,提高了图谱的知识完备性。

Description

一种面向文本描述的CPS资源能力知识图谱构建方法
技术领域
本发明属于知识图谱技术领域,具体涉及一种面向文本描述的资源能力知识图谱构建方法。
背景技术
随着移动互联网技术和集成电路制造技术的不断发展,物联网(IoT)设备应用越来越广泛,硬件和软件也越来越智能化。一方面,这些设备部署时通常只为特定的应用服务,只开发了它们的部分能力。另一方面,一些用户虽基于这些设备有一些奇思妙想,却很难把这些设备利用起来。如果用户能自由对这些设备进行编排,可能会涌现出更为丰富的应用形态,进而改善人们的日常生活。一种解决方法是将这些智能设备作为不同类型的资源,可以在资源层面对相关领域的概念和关系进行建模,包括资源本身、资源属性、资源能够执行的动作以及资源与资源之间的关系。其中,清晰地定义、描绘设备资源的能力有助于应用的建模与实际执行。
知识图谱是一种用于描述实体和实体间关系的语义知识库,其中的知识可以是描述概念的通用知识,也可以是描述某个具体对象的实例知识。知识图谱的构建已经形成了一套包含知识挖掘、知识表示与存储、知识融合和知识推理等过程的方法论,研究者可以从实际情况出发构建通用的百科知识图谱或领域特定的知识图谱。一些百科知识图谱通过定义“UsedFor”、“CapableOf”等关系词汇描述资源的能力信息。在CPS和IoT等相关领域,资源能力知识一般采用人工建模的方式进行上层概念的定义,这种定义方式依赖于领域专家经验,且较为耗时。另一方面,一些学者从相关语料库中抽取信息并构建物联网能力知识图谱,但这些工作专注于知识图谱领域中的知识抽取与关系抽取过程,没有围绕不同类型资源对资源能力的表示及组织形式进行系统地定义。因此,目前仍缺少高效的针对不同类型资源能力的抽取与表达的技术。为了解决该问题,提出一种面向文本描述的自动化资源能力知识图谱构建方法,减少人工构建工作量,并补充信息物理融合系统领域知识图谱中关于资源服务与能力的描述,提高了图谱的知识完备性。
发明内容
本发明的目的在于提供一种面向文本描述的CPS领域资源能力知识图谱的自动构建方法,以减少人工构建工作量,提高图谱的知识完备性。
本发明提出的面向文本描述的CPS领域资源能力知识图谱的自动构建方法,以自底向上的方式,分别针对不同类型资源,首先从资源相关代码与文档中提取与资源能力有关的文本描述信息,基于预定义的动宾短语模式生成规范化表达的能力短语;然后基于动宾结构的关键成分对能力短语进行划分、聚合与抽象,生成不同资源类型的能力层次化抽象描述;最后构建出资源能力知识图谱。整体流程如图1所示,具体步骤如下。
(1)定义能力表达形式。通过分析资源能力的表达习惯定义能力的规范化表达形式为动宾短语模式,具体为“动词(词组)修饰语宾语修饰语”。
(2)提取资源能力文本描述。从设备资源相关平台或执行环境(例如HomeAssistant)的文档、代码、配置文件等数据中提取与不同类型资源能力相关的文本描述信息,以句子片段或短语形式表示,将其按照资源类型进行分组。
(3)生成规范化能力短语。针对某特定类型资源,分析其能力的文本描述信息中词与词之间的依赖关系并确定句法结构(即进行依存句法分析),然后结合动宾短语模式的匹配和转化规则,生成规范化表达的能力短语;具体包括以下子步骤:
(3.1)针对某特定类型资源,对其文本描述信息应用依存句法分析技术,得到文本描述中词语的依存关系,从而确定其中的谓语、宾语、定语和补足语等句法成分,并尝试与动宾短语模式中的“动词(词组)”、“宾语”、“修饰语”等进行匹配;
(3.2)对于可以直接匹配动宾短语模式的文本描述,直接抽取对应的词语生成规范化表达的动宾短语;
(3.3)对于不可直接匹配动宾短语模式的文本描述,对符合转化条件的部分,按照转化规则转化为规范化表达的动宾短语;
所述转化条件和转化规则,是指当文本描述中包含“修饰语核心名词”结构,且满足以下条件之一时,将该部分转化为动宾短语进行表示:
条件一:“核心名词”是动名词形式,表示对其之前的修饰语施加的某一动作或过程,可以通过词形还原获取对应的动词形式;
条件二:“核心名词”是名词形式,表示对其之前的修饰语施加的某一动作或过程,可以结合英语的构词规律获取其同义的动词形式。
(4)生成能力的层次化抽象描述。针对特定类型资源,根据动宾结构中的动词和宾语成分对能力短语进行划分,得到多个并列的最小短语集合,然后对于每个最小短语集合生成其中短语间关系与相似度的有向加权图,最后基于最小树形图算法以及抽象短语生成规则得到以树形结构进行组织的能力描述。具体包括以下子步骤:
(4.1)对于规范化表达的动宾短语集合,首先按照同义“宾语”对其进行划分,再按照同义“动词(词组)”进行划分,得到多个并列的最小短语集合;
(4.2)对于每个最小短语集合,同时从结构和语义角度判断集合中两两短语的修饰语间的关系,从而得出短语的同义、上下位、并列等关系,生成短语间的关系矩阵;将基于词向量的短语相似度计算结果作为权重参考,生成短语间关系的有向加权图;基于扩展的最小树形图算法,生成短语的森林形式的组织结构,作为对应的最小短语集合中短语的聚合结果;
(4.3)对于每个最小短语集合的聚合结果,以“动词(词组)宾语”形式生成抽象短语,作为该聚合结果中短语的公共上位短语;
(4.4)对于每个宾语对应的聚合结果,以“宾语”后缀“relatedcapability”格式生成抽象短语,作为具有相同宾语的能力短语的公共上位短语;最终形成对应资源能力的层次化抽象描述。
(5)构建资源能力知识图谱。整合不同类型资源的能力层次化描述,构建出资源能力知识图谱。具体包括以下子步骤:
(5.1)对于每一种资源类型,将其中的每个能力短语构建为知识图谱中表示能力概念的节点;基于其能力的层次化抽象描述,为具有上下位关系的能力短语所对应的节点间建立“subCapabilityOf”关系;
(5.2)将特定类型的资源构建为知识图谱中表示资源概念的节点,与该资源对应的最上层的能力概念节点间建立“hasCapability”关系。
本发明以自动化的方式,通过自底向上的手段,从资源能力的文本描述出发,对规范化表达的能力短语进行聚合与抽象,构建出资源能力知识图谱,从而补充信息物理融合系统领域知识图谱中关于资源服务、资源能力的描述,提高知识完备性与图谱的描述能力,减少人工构建工作量。
附图说明
图1为本发明的资源能力知识图谱构建方法的流程图。
图2为本发明所构建的资源能力知识图谱的部分示例。
具体实施方式
以下介绍基于HomeAssistant平台进行资源能力知识图谱构建的具体实施方法。
(1)提取资源能力文本描述。将Home Assistant平台官方支持的组件类别作为不同的资源类型,对每种组件类别下包含的每个具体组件,从文档、示例代码和YAML配置文件中提取出与能力相关的文本描述信息,以短语或句子片段的形式表达。
(2)生成规范化能力短语;
(2.1)针对特定类型资源,使用StanfordNLP工具包对其文本描述信息应用依存句法分析技术,得到文本描述中词语的依存关系;
(2.2)基于动宾短语模式的匹配和转化规则,生成规范化表达的能力短语。
(3)生成能力的层次化抽象描述;
(3.1)针对某特定类型资源,对其规范化表达的动宾短语集合,首先按照同义“宾语”进行划分,再按照同义“动词(词组)”进行划分,得到多个并列的最小短语集合;
(3.2)对于每个最小短语集合,利用词袋模型和WordNet比较不同短语的修饰语间的关系,从而得出两两短语间关系,形成关系矩阵;利用spaCy工具包计算短语间词向量相似度数值w,以 (1-w) 作为权重,生成短语间关系的有向加权图;通过扩展生成最小树形图的“朱刘”算法得到森林形式的短语的聚合结果;
所述判断短语修饰语间关系,具体做法为:
a、对修饰语进行分词操作,基于词袋模型(BOW)得到词袋;
b、基于WordNet同义词集及单词上下位关系,标记词袋中单词间的同义、上下位关系;
c、基于词袋模型获取修饰语的向量化表示;
d、结合词袋中单词的标记关系,比较修饰语向量间关系,得出修饰语间的同义、上下位关系;
所述扩展最小树形图算法,具体做法为:
a、在所构建的有向加权图中增加一个“虚拟顶点”,从该“虚拟顶点”出发,到其余每个顶点的有向边的权值都设定为无穷大;
b、在添加了“虚拟顶点”的有向加权图上应用最小树形图生成算法,生成权值之和最小的树,树根必为“虚拟顶点”;
c、在生成树中删去“虚拟顶点”,得到森林形式的结果;
(3.3)对于每个最小短语集合的聚合结果,以“动词宾语”形式生成抽象短语,连接森林中每棵树的树根,即作为该聚合结果中所有短语的公共上位短语;
(3.4)对于每个宾语所对应的聚合结果,以“宾语”后缀“relatedcapability”格式生成抽象短语,连接森林中每棵树的树根,作为具有相同宾语的能力短语的公共上位短语;最终形成对应类型资源的能力的层次化抽象描述。
(4)构建资源能力知识图谱;
(4.1)重复进行上述步骤(2)和(3)的过程,为每种类型的资源生成其对应的能力的层次化抽象描述;
(4.2)基于每种资源的能力层次化描述,首先构建“资源”概念节点;将能力层次化描述中的每个能力短语构建为知识图谱中的“资源能力”节点并为具有上下位关系的能力短语对应的节点建立“subCapabilityOf”关系;在“资源”和“资源能力”节点之间建立“hasCapability”关系;最终构建出描述HomeAssistant中所有类型资源能力的知识图谱。

Claims (4)

1.一种面向文本描述的CPS资源能力知识图谱构建方法,其特征在于,针对不同类型信息物理资源,首先从资源相关代码与文档中提取与资源能力有关的文本描述信息,基于预定义的动宾短语模式生成规范化表达的能力短语;然后基于动宾结构的关键成分对能力短语进行划分、聚合与抽象,生成不同资源类型的能力层次化抽象描述;最后构建出资源能力知识图谱;具体步骤如下:
(1)定义能力表达形式:通过分析资源能力的表达习惯定义能力的规范化表达形式为动宾短语模式,具体为“动词修饰语宾语修饰语”;
(2)提取资源能力文本描述:从设备资源相关平台或执行环境的文档、代码、配置文件数据中提取与不同类型资源能力相关的文本描述信息,以句子或短语形式表示,将其按照资源类型进行分组;
(3)生成规范化能力短语:针对特定类型资源,对其文本描述信息应用依存句法分析技术,依存句法分析指的是通过分析句子中词与词之间的依赖关系从而确定句子的句法结构的过程;然后结合动宾短语模式的匹配和转化规则,生成规范化表达的能力短语;
(4)生成能力的层次化抽象描述:针对特定类型资源,根据动宾结构中的动词和宾语成分对能力短语进行划分,得到多个并列的最小短语集合;然后对于每个最小短语集合生成其中短语间关系与相似度的有向加权图,最后基于最小树形图算法以及抽象短语生成规则得到以树形结构进行组织的能力描述;
(5)构建资源能力知识图谱:整合不同类型资源的能力层次化描述,构建出资源能力知识图谱。
2.根据权利要求1所述的资源能力知识图谱构建方法,其特征在于,步骤(3)所述生成规范化能力短语,具体流程为:
(3.1)针对某特定类型资源,对其文本描述信息应用依存句法分析技术,得到文本描述中词语的依存关系,从而确定其中的谓语、宾语、定语和补足语等句法成分,并尝试与动宾短语模式中的“动词”、“宾语”、“修饰语”进行匹配;
(3.2)对于可以直接匹配动宾短语模式的文本描述,直接抽取对应的词语生成规范化表达的动宾短语;
(3.3)对于不可直接匹配动宾短语模式的文本描述,对符合转化条件的部分,按照转化规则转化为规范化表达的动宾短语;
所述转化条件和转化规则,是指当文本描述中包含“修饰语核心名词”结构,且满足以下条件之一时,将该部分转化为动宾短语进行表示:
条件一:“核心名词”是动名词形式,表示对其之前的修饰语施加的某一动作或过程,可以通过词形还原获取对应的动词形式;
条件二:“核心名词”是名词形式,表示对其之前的修饰语施加的某一动作或过程,可以结合英语的构词规律获取其同义的动词形式。
3.根据权利要求2所述的资源能力知识图谱构建方法,其特征在于,步骤(4)所述生成能力的层次化抽象描述的具体流程为:
(4.1)对于规范化表达的动宾短语集合,首先按照同义“宾语”对其进行划分,再按照同义“动词”进行划分,得到多个并列的最小短语集合;
(4.2)对于每个最小短语集合,同时从结构和语义角度判断集合中两两短语的修饰语间的关系,从而得出短语的同义、上下位、并列关系,生成短语间的关系矩阵;将基于词向量的短语相似度计算结果作为权重参考,生成短语间关系的有向加权图;基于扩展的最小树形图算法,生成短语的森林形式的组织结构,作为对应的最小短语集合中短语的聚合结果;
(4.3)对于每个最小短语集合的聚合结果,以“动词宾语”形式生成抽象短语,作为该聚合结果中短语的公共上位短语;
(4.4)对于每个宾语对应的聚合结果,以“宾语”后缀“relatedcapability”格式生成抽象短语,作为具有相同宾语的能力短语的公共上位短语;最终形成对应资源能力的层次化抽象描述。
4.根据权利要求1所述的资源能力知识图谱构建方法,其特征在于,步骤(5)所述构建资源能力知识图谱的具体流程为:
(5.1)对于每一种资源类型,将其中的每个能力短语构建为知识图谱中表示能力概念的节点;基于其能力的层次化抽象描述,为具有上下位关系的能力短语所对应的节点间建立“subCapabilityOf”关系;
(5.2)将特定类型的资源构建为知识图谱中表示资源概念的节点,与该资源对应的最上层的能力概念节点间建立“hasCapability”关系。
CN202011411012.5A 2020-12-06 2020-12-06 一种面向文本描述的cps资源能力知识图谱构建方法 Active CN112559760B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011411012.5A CN112559760B (zh) 2020-12-06 2020-12-06 一种面向文本描述的cps资源能力知识图谱构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011411012.5A CN112559760B (zh) 2020-12-06 2020-12-06 一种面向文本描述的cps资源能力知识图谱构建方法

Publications (2)

Publication Number Publication Date
CN112559760A CN112559760A (zh) 2021-03-26
CN112559760B true CN112559760B (zh) 2022-04-12

Family

ID=75048686

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011411012.5A Active CN112559760B (zh) 2020-12-06 2020-12-06 一种面向文本描述的cps资源能力知识图谱构建方法

Country Status (1)

Country Link
CN (1) CN112559760B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113569580A (zh) * 2021-09-24 2021-10-29 太极计算机股份有限公司 基于语义理解的知识图谱构建方法、检索方法及其系统
CN113867839A (zh) * 2021-09-29 2021-12-31 无锡新思联信息技术有限公司 一种基于cps通过语义识别打开应用的技术与系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108021718A (zh) * 2017-12-29 2018-05-11 中国电子科技集团公司信息科学研究院 物联网能力知识图谱及其构建方法
CN108885626A (zh) * 2017-02-22 2018-11-23 谷歌有限责任公司 优化图形遍历
CN109189943A (zh) * 2018-09-19 2019-01-11 中国电子科技集团公司信息科学研究院 一种能力知识抽取及能力知识图谱构建的方法
CN111597351A (zh) * 2020-05-14 2020-08-28 上海德拓信息技术股份有限公司 可视化文档图谱构建方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10423631B2 (en) * 2017-01-13 2019-09-24 International Business Machines Corporation Automated data exploration and validation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108885626A (zh) * 2017-02-22 2018-11-23 谷歌有限责任公司 优化图形遍历
CN108021718A (zh) * 2017-12-29 2018-05-11 中国电子科技集团公司信息科学研究院 物联网能力知识图谱及其构建方法
CN109189943A (zh) * 2018-09-19 2019-01-11 中国电子科技集团公司信息科学研究院 一种能力知识抽取及能力知识图谱构建的方法
CN111597351A (zh) * 2020-05-14 2020-08-28 上海德拓信息技术股份有限公司 可视化文档图谱构建方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Irl'an Grangel-Gonz'alez.Knowledge Graphs for Semantically.《DATABASE AND EXPERT SYSTEMS APPLICATIONS》.2018, *
基于信息抽取的物联网能力知识图谱构建方法研究与实现;相福生;《CNKI优秀硕士学位论文全文库》;20190815;全文 *

Also Published As

Publication number Publication date
CN112559760A (zh) 2021-03-26

Similar Documents

Publication Publication Date Title
US11227118B2 (en) Methods, devices, and systems for constructing intelligent knowledge base
CN109739994B (zh) 一种基于参考文档的api知识图谱构建方法
Mills et al. Graph-based methods for natural language processing and understanding—A survey and analysis
US10579655B2 (en) Method and apparatus for compressing topic model
CN112559760B (zh) 一种面向文本描述的cps资源能力知识图谱构建方法
CN112580328A (zh) 事件信息的抽取方法及装置、存储介质、电子设备
CN112149427B (zh) 动词短语蕴含图谱的构建方法及相关设备
CN109117474A (zh) 语句相似度的计算方法、装置及存储介质
KR102560521B1 (ko) 지식 그래프 생성 방법 및 장치
CN114417865A (zh) 灾害事件的描述文本处理方法、装置、设备及存储介质
CN113128237A (zh) 一种服务资源的语义表征模型构建方法
CN110347401B (zh) 一种基于语义相似度的API Framework服务发现方法
Popova et al. Multilevel ontologies for big data analysis and processing
CN113761192B (zh) 文本处理方法、文本处理装置及文本处理设备
Kastrati et al. An improved concept vector space model for ontology based classification
CN116561288B (zh) 事件查询方法、装置、计算机设备、存储介质及程序产品
CN113672522B (zh) 测试资源压缩方法以及相关设备
CN112685574B (zh) 领域术语层次关系的确定方法、装置
CN114201957A (zh) 文本情感分析方法、装置及计算机可读存储介质
CN113297854A (zh) 文本到知识图谱实体的映射方法、装置、设备及存储介质
CN113536772A (zh) 一种文本处理方法、装置、设备及存储介质
CN117649117B (zh) 处置方案的确定方法、装置以及计算机设备
CN117235236B (zh) 对话方法、装置、计算机设备和存储介质
Hirano et al. Extraction of templates from phrases using Sequence Binary Decision Diagrams
Tariq Improving Laboratories Efficiency through Website Using Text Mining

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant