CN106919689A

CN106919689A - 基于术语释义知识单元的专业领域知识图谱动态构建方法

Info

Publication number: CN106919689A
Application number: CN201710123066.3A
Authority: CN
Inventors: 宋培彦; 梁冰; 陈白雪
Original assignee: INSTITUTE OF SCIENCE AND TECHNOLOGY INFORMATION OF CHINA
Current assignee: INSTITUTE OF SCIENCE AND TECHNOLOGY INFORMATION OF CHINA
Priority date: 2017-03-03
Filing date: 2017-03-03
Publication date: 2017-07-04
Anticipated expiration: 2037-03-03
Also published as: CN106919689B

Abstract

本发明公开了一种基于术语释义知识单元的专业领域知识图谱动态构建方法，涉及计算机信息管理与信息处理领域。该方法采用自然语言处理技术从真实文本中自动抽取和更新知识单元，能够以更细的颗粒度内容反映专业知识的真实内容，实现动态的更新和管理，解决传统上单纯依靠人工判定造成的时效性不足、主观性过大、更新维护困难等难题，为专业领域的大规模知识库建设提供更好的技术手段；另外，采用网状的拓扑结构，使知识单元之间的关联性更为紧密，语义维度多元化，并以可视化的知识地图方式进行了直观的展示，为进行知识的自动发现、推理和计算提供了良好的知识基础，能够有效支撑工程应用。

Description

基于术语释义知识单元的专业领域知识图谱动态构建方法

技术领域

本发明涉及计算机信息管理与信息处理领域，尤其涉及一种基于术语释义知识单元的专业领域知识图谱动态构建方法。

背景技术

知识单元，也称为“知识基因”、“知识元”，用于揭示专业术语蕴含的特定知识，以更细的颗粒度和维度对知识进行表示、组织、推理和服务。传统上，一般依靠专家智慧、采用人工方式对知识单元进行总结和提取，虽然较为精细，但效率相对较低且更新较为迟缓；也有部分研究采用停用词技术和统计模型，以高频词作为知识单元，在一定程度上提高了知识单元发现效率，但由于脱离了上下文语义分析，导致对知识单元抽取的准确率不高，语义关联性相对较弱。

发明内容

本发明的目的在于提供一种基于术语释义知识单元的专业领域知识图谱动态构建方法，从而解决现有技术中存在的前述问题。

为了实现上述目的，本发明采用的技术方案如下：

一种基于术语释义知识单元的专业领域知识图谱动态构建方法，包括如下步骤：

S1，从科技语料库中获取术语释义句；

S2，从所述术语释义句中发现、定位并抽取知识单元；

S3，以术语为中心，以知识单元为特征节点，构建知识单元库；

S4，统计所述知识单元的共现频次，生成所述知识单元的共现矩阵，并将所述共现矩阵生成可视化的知识图谱。

优选地，S1包括如下步骤：

S101：以期刊、论文、专利、百科、词典作为语料来源，构建科技语料库；

S102：以术语作为入口，以主语-谓词-宾语SVO结构的释义句句法模式，获得释义句中的谓词特征，形成释义谓词库；

S103：根据所述谓词特征和释义句句法模式，从所述科技语料库中获取所述术语的候选释义句集合；

S104：采用字符串相似性匹配方式，从所述候选释义句集合中统计具有高度相似性的释义句，并按照释义句的频次降序排列，优先选择具有更高频次的释义句。

优选地，S101为：以科技文献、网络百科、在线术语词典为数据来源，采用网络爬虫工具采集具有较大规模和可信度的语料资源，存储到本地并进行格式化处理，形成纯文本格式的科技语料库。

优选地，S2包括如下步骤：

S201，对所述术语释义句的原始语料进行语料预处理，得到经过语料预处理的文本；

S202，对所述经过语料预处理的文本进行浅层次组块依存分析和语义角色判定，形成带有句法语义标记的术语释义XML标注语料；

S203，根据所述术语释义XML标注语料，抽取语义角色节点和依存关系节点，得到知识单元。

优选地，S201具体为，对所述术语释义句的原始语料进行分词和词性标注，得到标注的句子；

优选地，S202具体为，首先对所述标注的句子进行依存句法分析，构建句子的依存句法结构树，重点形成主语、谓语和宾语三块核心组成；然后对依存句法分析形成的主语、谓语和宾语三块核心组成分别进行语义角色分析，形成带有句法语义标注的术语释义XML标注语料。

优选地，S203包括如下步骤：

S2031，根据XML语义角色标注，抽取语义角色节点，根据依存句法标注抽取依存关系节点；所述语义角色节点包括工具、方式和途径；

S2032，抽取以所述语义角色节点为父节点的子节点信息A1、A2、…An，所述子节点为所述语义角色节点的修饰成分；

S2033，判断所有所述子节点是否作为父节点继续出现，有则抽取该关系子节点A[n][m]，直到该节点不作为父节点出现为止，并对每组节点排序；

S2034，在所有的节点中，选取具有语义含义的节点为知识单元。

优选地，S3包括如下步骤：

S301，对所述知识单元进行词频分类统计，包括角色释义词词频与修饰释义词词频统计；

S302，分别为角色释义词和修饰释义词设置权重，角色释义词设置较高的权重，修饰释义词设置较低的权重；

S303，根据词频和权重，计算所述角色释义词和修饰释义词的加权值；

S304，根据计算得到的加权值，以网状结构存储知识单元之间的关系，构建术语知识单元库，所述术语知识单元库包括“术语释义表”、“术语释义角色表”、“术语释义角色修饰成分表”，这三类数据实体均围绕特定术语进行存储，构成紧密关联的三个不同颗粒度的知识源。

优选地，S4包括如下步骤：

S401，统计所述知识单元的共现频次，生成术语知识单元共现矩阵，将术语符号匹配转化为矩阵计算模型，形成可以量化计算的处理阵列；

S402，利用社会网络分析工具将术语知识单元共现矩阵生成可视化的知识图谱；

S403，对所述知识图谱进行关联分析，包括：中心度分析、强度分析、路径分析和子图分析；

S404，对知识图谱进行多维度分析和动态更新。

本发明的有益效果是：本发明实施例提供的基于术语释义知识单元的专业领域知识图谱动态构建方法，采用自然语言处理技术从真实文本中自动抽取和更新知识单元，能够以更细的细粒度内容反映知识的真实内容，实现动态的更新和管理，解决传统上单纯依靠人工判定造成的时效性不足、主观性过大、更新维护困难等难题，为专业领域的大规模知识库建设提供更好的技术手段；另外，采用网状的拓扑结构，使知识单元之间的关联性更为紧密，语义维度多元化，并以可视化的知识地图方式进行了直观的展示，为进行知识的自动发现、推理和计算提供了良好的知识基础，能够有效支撑工程应用。

附图说明

图1是本发明提供的基于术语释义知识单元的专业领域知识图谱动态构建方法的流程示意图；

图2是术语释义抽取流程图；

图3是术语释义知识单元抽取流程示意图；

图4是术语知识单元抽取规则示意图；

图5是术语知识单元库示意图；

图6是术语知识单元共现矩阵示意图；

图7是术语知识单元可视化展示结果示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明实施例提供了一种基于术语释义知识单元的专业领域知识图谱动态构建方法，包括如下步骤：

S1，从科技语料库中获取术语释义句；

S2，从所述术语释义句中发现、定位并抽取知识单元；

释义是科技术语的核心内容之一，用于对术语的内涵和外延给出解释性的说明，帮助人们理解术语的含义和用法。然而，术语释义是一项专业性很强、难度较大的工作。人们在面对一个个专业跨度大、用法各异的术语时，往往需要进行长期的研究和不断的总结才能给出全面而确切的释义，术语释义的准确性和时效性都有待进一步提高。因此，术语释义必须以客观真实、全面丰富的语料作为支持，才能进一步提高术语释义的质量。在网络环境下，科技语料库(包含科技文献、百科、标准)中蕴含了大量真实的、全面的学科知识，从语料库中获取术语释义信息，可以为术语释义抽取和知识单元发现提供良好的辅助手段，快速获得参考释义信息，有效提高术语知识单元抽取可信度和时效性。

术语释义包含了丰富的知识单元。知识单元是对术语所包含的专业知识的分解，以较细的颗粒度和可组合性对知识进行表示、推理和计算，可以直接用于知识组织系统的构建、信息的智能化检索及知识服务等领域。面对专业领域纷繁复杂的语义与知识计算问题，人们往往倾向于使用有限的知识单元，描述和控制无限的、复杂的知识内容，达到“以有限控无限”的目的。因此，可以通过对多来源释义句中的知识单元进行自动发现和语义化关联，实现专业概念的激活、扩展、联想，建具有更细颗粒度和更高自动化水平的专业领域知识图谱，符合人类认知客观规律和知识工程基本原理。

基于知识单元可以快速构建动态知识图谱。术语作为专业知识的载体，具有语义关联性。知识单元从微观层面表征了知识的“基因”，因此，通过对术语的挖掘和描述，构建细粒度、动态更新的术语知识单元库，有助于实现知识图谱的动态构建，并以可视化、精细化的方式为提供知识服务。知识单元往往蕴含在特定的上下文语境中，通过对上文句子的句法-语义进行自动分析，可以把连续的线性文本转换成离散的、半结构化的语言单位，然后对每个语言单位赋予语义角色，为知识单元的自动抽取提供较为清晰的线索，帮助计算机实现一定程度的“理解”，将有利于知识单元的精准抽取与相互关联，最终为专业领域知识图谱构建提供可靠依据。

知识图谱是对专业领域知识进行组织的一种有效技术手段。从知识工程角度来看，知识图谱对知识进行多维语义描述、组织和管理，进而消除各个异构知识库中的“信息孤岛”，并缓解“信息过载”，为用户提供精准的深层次知识服务。知识图谱可以对专业领域的概念、知识进行语义化融合，如对论文、专利、标准、法规、机构中的概念、知识单元进行深层次组织，实现对知识的深度揭示与可视化展示。知识图谱以网状拓扑结构对专业领域概念(知识单元)进行激活、扩展、浓缩、转换和存储，从概念层面完成知识的运算过程，这符合人类认知事物科学规律，近年来认知科学领域的原型化理论、Attention模型都为此提供了坚实的认知依据。

所以，本发明实施例提供的基于术语知识单元构建专业领域的知识图谱，具有非常重要的科学价值和应用前景。

采用本发明实施例提供的方法构建的知识图谱中，每个节点表示不同的学科术语，其连线次数的多寡，表示与术语发生关系的其它术语的多少。中心度反映了某个术语与其他术语出现的相同知识单元的个数，揭示节点的网络特性。中心度节点常常位于网络的中心位置，对整个网络的影响大，表示该词语是学科中最重要的、核心概念的知识单元；中心度低的节点处于网络的边缘地带，成为知识网络中的附属节点。所以，在实际应用中，可以通过对知识图谱进行关联分析，例如中心度分析、强度分析、路径分析、子图分析等，提高知识图谱的可解性，

另外，其中的知识单元作为知识图谱的“基因”，使得知识图谱中各个术语之间具有的隐含而必然的联系可以得到充分和明确的揭示，知识的可计算性和可理解性有了充分保障，在一定程度上克服了传统方法在知识获取和知识表示方面的局限，具有良好的专业领域适应性。

同时，本发明实施例提供的基于知识单元构建的知识图谱具有多维性。“多维度”是指任何一个客观对象(例如科技概念知识)，从不同的维度上看，具有不一样的属性集合和相关关系集合。例如，能源领域的科学家，对概念词汇“汽油”，更关注汽油的加工、传输、保存相关的属性；经济学家更多关注汽油的价格、市场方面的属性；而环境科学家则更多关注汽油在生产和燃烧过程中，产生的二氧化碳气体、造成的环境污染等相关属性。事实上，传统的知识协同构建过程中，往往通过专家审定的方式，来试图消除不同构建者的主观差异。这种最终专家审定的结果，只是代表了某一个特定维度和层次来观察的权威知识，舍弃了其它部分实际上具有价值的知识，造成了一定的负面作用，不仅在构建时，大量在某个维度上(语境中)成立的有效知识，被其它维度的审核专家生硬地错判为无效知识，造成知识损失；而且在组织时，不同维度的知识交叉混合在一起，没有明确地标识出来其维度信息(适用语境)，容易造成知识体系组织混乱，进而导致无法根据用户的个性化需求，提供其准确和必要的个性化知识。基于知识单元的动态聚合方法，从一定程度上弥补了上述缺憾，为知识的精细组织提供了有效支撑。

而且，由于本发明实施例提供的方法，均是在语料库的支持下通过自动的句法语义分析和共现计算实现的，所以，知识图谱可以根据数据资源的变化实现自动更新和动态优化，从而，使得这种方法在大数据环境下，具有良好的时效性，将有效提高知识更新时效性，促进知识图谱的持续优化。

因此，本发明以大规模科技语料库作为数据支撑，采用句法和语义分析技术，从真实释义句中对术语所蕴含的知识单元进行自动化、多维度、细粒度的抽取，并根据语料库的变化实时监测和更新知识单元库，进而可视化方式进行直观揭示和量化分析，可以有效提升大规模知识库建设效率和质量，快速应用于特定领域的智能信息系统构建。

在本发明的一个优选实施例中，S1可以包括如下步骤：

其中，S101为：以科技文献、网络百科、在线术语词典为数据来源，采用网络爬虫工具采集具有较大规模和可信度的语料资源，存储到本地并进行格式化处理，形成纯文本格式的科技语料库。

本实施例中，S2可以包括如下步骤：

其中，S201具体为，对所述术语释义句的原始语料进行分词和词性标注，得到标注的句子；S202具体为，首先对所述标注的句子进行依存句法分析，构建句子的依存句法结构树，重点形成主语、谓语和宾语三块核心组成；然后对依存句法分析形成的主语、谓语和宾语三块核心组成分别进行语义角色分析，形成带有句法语义标注的术语释义XML标注语料。

S203可以包括如下步骤：

本实施例中，S3可以包括如下步骤：

本实施例中，S4可以包括如下步骤：

S402，利用社会网络分析工具将术语知识单元共现矩阵生成可视化知识图谱；

S404，对知识图谱进行多维度分析和动态更新。

具体实施例：

本发明实施例提供了一种基于释义句进行语义抽取构建知识图谱的方法，主要包括四大阶段，一是术语释义库的构建；二是基于句子组块的浅层分析实现知识单元的抽取；三是知识单元库的存储，即知识单元库的构建，四是知识图谱的可视化展示。主要包括以下步骤：

步骤A,对多来源的科技语料进行释义抽取和融合，构建具有较高可信度和知识含量的术语释义库。释义抽取采用句法分析和语义分析相结合的方法，释义抽取的流程可如图2所示。

具体包括如下步骤：

步骤A01：以句子为单位，根据术语的浅层模式从语料库中找到对应的句子，先进行模式匹配，获得初步的匹配结果，生成候选句子。

根据术语释义的模式特点，参考释义抽取方法：根据词语释义的表达方式，制定正则表达式；根据正则表达式，在语料库中批量匹配所有可能的段落作为释义。释义一般的模式为嵌套的三元组：

<上文语境，<Term,谓词，参考释义>，下文语境>

术语释义的表达式一般有两种：

表达式一：术语在前，定义在后。前项是术语本身，中项是谓词，后项是句子的末尾，以句号为结束点。

表达式二：定义在前，术语在后。前项是术语所在的语句，中项是谓词，后项是术语本身。

步骤A02：对候选句子进行句法依存分析，对初选通过的候选句子以谓词为中心生成依存句法树，确定核心结构，将释义变为对树结构的遍历操作。以词汇所在的小句为单位，进行浅层依存树分析。

步骤A03：对各个节点的语义约束条件(重点是谓词的语义角色)进行分类，从不同语义角色构建术语的释义类型，包括工具、方式、途径，形成对术语的细颗粒度的释义分类。

步骤B,对释义库中的释义句子进行分词、词性标注、依存句法分析、语义角色标注等步骤抽取释义句中的知识单元。术语知识单元抽取流程图如图3所示。具体包括如下步骤：

步骤B01：对术语释义原始语料进行语料预处理。

预处理是在进行知识单元的抽取前，以句子为单位、对术语的释义进行抽取，获得包含术语释义的文本集。以国家标准或术语词典中的术语释义句为基础语料，删除图表、附图等与句法信息不相关的特殊文本，得到结构较为完整、释义准确的句子。

步骤B02：对经过语料预处理的文本进行句法语义剖析。句法语义剖析有以下三步：

步骤B02-1：加载科技术语库，通过分词、词性标注工具对术语语料进行初步处理。目前，由于加载了专业领域词库，本步骤准确率可以达到90％以上，因此，本发明的术语释义词法分析主要依靠加载了科技术语库的中文分词工具的结果；

步骤B02-2：对句子进行依存句法分析，构建句子的依存句法结构树。由于其依存句法分析的系统性能保持在70％左右，因此，本发明对相关依存句法分析的处理结果进行了人工校验；

步骤B02-3：对组块依存分析的句子成分进行浅层语义分析，即进行语义角色标注。采用“谓语动词-角色”的结构形式，标注一些成分为给定谓词的语义角色。目前，语义角色标注技术发展的还不是很成熟，因此，需要对语义角色标注结果进行人工校验。

步骤B03：术语知识单元的自动抽取。

在步骤B02的基础上，根据依存句法和语义角色标注规则抽取具有语义含义的释义词，保留语义成分作为术语知识单元。

术语知识单元抽取规则如图4所示，抽取的主要步骤如下：

步骤B03-1：将经过依存句法、语义角色分析等过程，形成带有句法语义标记的术语释义XML标注语料；

步骤B03-2：根据XML语义角色标注，抽取语义角色节点。本文的语料资源是建立在专业术语基础上的，且释义句的角色比较单一，不具备丰富的其他的辅助语义角色，例如时间、地点及方向等。因此本发明确定抽取的语义角色主要有：谓语动词、施事、受事等，以此作为语义知识单元的核心成分。

步骤B03-3：根据XML依存句法标注，抽取依存关系节点。依存句法标注主要由父节点和依存关系类型标注构成，本文在此基础上抽取具有语义含义的术语知识单元修饰成分。其抽取步骤如下：

步骤B03-31：抽取以语义角色节点为父节点的子节点信息A1、A2、…An，子节点即为语义角色的修饰成分；

步骤B03-32：判断所有子节点是否作为父节点继续出现，有则抽取该关系子节点A[n][m]，直到该节点不作为父节点出现为止，并对每组节点排序；

步骤B03-33：选语义知识单元。本发明主要保留能够承担一定语义含义的实词，主要包括名词、动词、形容词等。对于介宾关系、并列关系等依存关系类型中的介词、并列词等词语进行剔除，如“在”、“和”等。

步骤B03-4：句子的所有节点查找完毕，抽取结束。

释义句的知识单元抽取结束后，执行如下步骤C。

步骤C，将抽取的知识单元存入知识单元库，形成以术语为中心，以知识单元为特征节点的知识拓扑结构。该拓扑结构可如图5所示。具体包括如下步骤：

步骤C01：对术语知识单元进行词频分类统计，主要统计角色释义词词频与修饰释义词词频；

步骤C02：为不同类型的释义词设置权重。核心角色词在释义句中承担比较重要的角色，因此设置权重较高，修饰释义词设置的权重较低；

步骤C03：对角色释义词和修饰释义词的词频进行加权计算。加权结果如表1所示：

表1知识单元的分类与加权处理

步骤C04：在加权计算的基础上，进行术语知识单元库的构建。该库主要包括“术语释义表”、“术语释义角色头表”、“术语释义角色修饰成分表”。术语知识单元库存储数据的属性表如表2所示。

表2术语知识单元库数据属性表

表名	属性1	属性2	属性3	属性4
					TERM	Term_id	Term	Category	Scopenote
ROLE	Role_id	predicate	Arg0	Arg1
					MODIFIER	Modifier_id	Modifier‐A0	Modifier‐A1	Relation

其中，TERM表中，“Term_id“表示术语编号，“Term”表示术语名称，“Category”表示术语类别，“Scopenote”存储术语释义句；ROLE表中，“Role_id”表示角色编号，“Arg0”表示施事角色，“Arg1”表示受事角色；MODIFIER表中，“Modifier-A0”存储施事角色修饰成分，“Modifier-A1”存储受事角色修饰成分，“Relation”存储修饰成分与其他成分的关系类型，如方式、工具、方法等。

步骤D,将得到的知识单元以规范化的形式输出，并利用社会网络分析方法展示基于知识单元的术语之间的关系。Ucinet软件内部继承了可视化工具netdraw，利用该软件，通过数学分析模型和可视化图像能够展示术语释义的网络特性，对术语知识单元共现网络进行可视化分析。具体包括如下步骤：

步骤D01：统计术语知识单元共现次数，生成术语知识单元共现矩阵。本发明采用的是非二值矩阵，直接采用术语知识单元共现次数矩阵进行数据分析。生成的共现矩阵图如图6所示。在图6中，“键盘”与“存储器”作为两个知识单元，其共现的次数为5；“存储器”与“系统工程师”共现的次数为5。

步骤D02：利用社会网络分析工具(Ucinet)将术语知识单元共现矩阵生成可视化的知识图谱，如图7所示。在生成过可视化图谱的过程中，用到的聚类算法有K-means算法。K-means算法的思想是把数据集按照k个簇分类，其中k是用户给定的，其中每个簇是通过质心来计算簇的中心点。

主要步骤为：

1)随机确定k个初始点作为质心；

2)对数据集中的每个数据点找到距离最近的簇；

3)对于每一个簇，计算簇中所有点的均值并将均值作为质心；

4)重复步骤2，直到任意一个点的簇分配结果不变。

K-means算法是将J调整到最小，每次调整质心，J值也会减小，同时c和μ也会收敛。由于该函数是一个非凸函数，所以不能保证得到全局最优，只能确保局部最优解。

步骤D03：对知识图谱进行关联性揭示。社会关系网络分析法SNA为知识图谱的利用提供了良好的分析视角。在图7中，每个节点表示学科术语，其连线次数的多寡，表示与术语发生关系的其它术语的多少。中心度反映的是某个术语与其他术语出现的相同知识单元的个数，揭示节点的网络特性。中心度节点常常位于网络的中心位置，对整个网络的影响大，表示该词语是学科中最重要的、核心概念的知识单元；中心度低的节点处于网络的边缘地带，成为知识网络中的附属节点。如图7所示反映了术语之间的关联程度，例如“C语言”、“Java”和“汇编语言”形成了紧密的网络互连关系，表明这些术语属于计算机编程领域；“射频识别”、“传感器”和“无线局域网”形成的局部关系网络则说明这些术语的学科范畴更为接近。可见，知识单元作为知识图谱的“基因”，各个节点之间具有隐含而必然的联系可以得到充分和明确的揭示，知识的可计算性和可理解性有了充分保障，在一定程度上克服了传统方法在知识获取和知识表示方面的局限，具有良好的专业领域适应性。

步骤D04：知识图谱的多维性分析。基于知识单元构建的知识图谱具有多维性。基于知识单元的动态聚合方法，可以为知识的精细组织提供有效支撑。

D05:知识图谱的动态更新。由于上述操作均是在语料库的支持下通过自动的句法语义分析和共现计算实现的，知识图谱的自动更新和动态优化主要取决于数据资源的变化，因此在大数据环境下，该方法具有良好的时效性，将有效提高知识更新时效性，促进知识图谱的持续优化。

通过采用本发明公开的上述技术方案，得到了如下有益的效果：本发明实施例提供的基于术语释义知识单元的专业领域知识图谱动态构建方法，采用自然语言处理技术从真实文本中自动抽取和更新知识单元，能够以更细的细粒度内容反映知识的真实内容，实现动态的更新和管理，解决传统上单纯依靠人工判定造成的时效性不足、主观性过大、更新维护困难等难题，为专业领域的大规模知识库建设提供更好的技术手段；另外，采用网状的拓扑结构，使知识单元之间的关联性更为紧密，语义维度多元化，并以可视化的知识地图方式进行了直观的展示，为进行知识的自动发现、推理和计算提供了良好的知识基础，能够有效支撑工程应用。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域人员应该理解的是，上述实施例提供的方法步骤的时序可根据实际情况进行适应性调整，也可根据实际情况并发进行。

上述实施例涉及的方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成，所述的程序可以存储于计算机设备可读取的存储介质中，用于执行上述各实施例方法所述的全部或部分步骤。所述计算机设备，例如：个人计算机、服务器、网络设备、智能移动终端、智能家居设备、穿戴式智能设备、车载智能设备等；所述的存储介质，例如：RAM、ROM、磁碟、磁带、光盘、闪存、U盘、移动硬盘、存储卡、记忆棒、网络服务器存储、网络云存储等。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

Claims

1.一种基于术语释义知识单元的专业领域知识图谱动态构建方法，其特征在于，包括如下步骤：

S1，从科技语料库中获取术语释义句；

S2，从所述术语释义句中发现、定位并抽取知识单元；

2.根据权利要求1所述的基于术语释义知识单元的专业领域知识图谱动态构建方法，其特征在于，S1包括如下步骤：

3.根据权利要求2所述的基于术语释义知识单元的专业领域知识图谱动态构建方法，其特征在于，S101为：以科技文献、网络百科、在线术语词典为数据来源，采用网络爬虫工具采集具有较大规模和可信度的语料资源，存储到本地并进行格式化处理，形成纯文本格式的科技语料库。

4.根据权利要求1所述的基于术语释义知识单元的专业领域知识图谱动态构建方法，其特征在于，S2包括如下步骤：

5.根据权利要求4所述的基于术语释义知识单元的专业领域知识图谱动态构建方法，其特征在于，S201具体为，对所述术语释义句的原始语料进行分词和词性标注，得到标注的句子。

6.根据权利要求5所述的基于术语释义知识单元的专业领域知识图谱动态构建方法，其特征在于，S202具体为，首先对所述标注的句子进行依存句法分析，构建句子的依存句法结构树，重点形成主语、谓语和宾语三块核心组成；然后对依存句法分析形成的主语、谓语和宾语三块核心组成分别进行语义角色分析，形成带有句法语义标注的术语释义XML标注语料。

7.根据权利要求6所述的基于术语释义知识单元的专业领域知识图谱动态构建方法，其特征在于，S203包括如下步骤：

8.根据权利要求1所述的基于术语释义知识单元的专业领域知识图谱动态构建方法，其特征在于，S3包括如下步骤：

9.根据权利要求1所述的基于术语释义知识单元的专业领域知识图谱动态构建方法，其特征在于，S4包括如下步骤：

S404，对知识图谱进行多维度分析和动态更新。