CN112100401A

CN112100401A - 面向科技服务的知识图谱构建方法、装置、设备及存储介质

Info

Publication number: CN112100401A
Application number: CN202010959747.5A
Authority: CN
Inventors: 孙圣力; 高凌哲; 李青山; 司华友
Original assignee: Beijing Guoxin Cloud Service Co ltd; Nanjing Boya Blockchain Research Institute Co ltd; Peking University
Current assignee: Beijing Guoxin Cloud Service Co ltd; Nanjing Boya Blockchain Research Institute Co ltd; Peking University
Priority date: 2020-09-14
Filing date: 2020-09-14
Publication date: 2020-12-18
Anticipated expiration: 2040-09-14
Also published as: CN112100401B

Abstract

本发明提供了一种面向科技服务的知识图谱构建方法、装置、设备及存储介质，方法包括：获取第一科技服务源数据；从第一科技服务数据中抽取出科技服务的属性；获取第二科技服务源数据；基于行业判断模型及第二科技服务文本确定科技服务的行业；基于命名实体抽取模型及第二科技服务文本抽取出科技服务涉及的命名实体；基于关系抽取模型、第二科技服务文本及第二科技服务涉及的命名实体抽取出各命名实体之间的关系；将科技服务的属性、科技服务所面向的行业、科技服务的命名实体及所述命名实体之间的关系存储至图数据库中以形成知识图谱。本发明自动地从源数据中抽取出科技服务实体、属性及科技服务实体之间的关系，生成面向科技服务的知识图谱。

Description

面向科技服务的知识图谱构建方法、装置、设备及存储介质

技术领域

本发明涉及科技服务领域，具体而言，本申请涉及一种面向科技服务的知识图谱构建方法、装置、设备及存储介质。

背景技术

科技服务业是围绕科技创新开展的服务支撑性行业。高科技产品的研制过程涉及专利技术、技术人才、技术设备、研发平台等科技要素。随着科技的飞速发展，各类科技要素爆发式发展。面对海量的科技要素信息，需求方往往难以找到与项目产品匹配的科技要素，从而影响了产品的研发效率。鉴于此，各类科技协同服务机构应运而成。

基于人工智能的智能推荐和检索方案是当下科技协同服务的主流方案。但是由于科技服务的高度专业性，现有的推荐及检索服务的仍然难以满足需求。

知识图谱是将人类社会知识与计算机人工智能连接的最重要手段。构建面向科技服务领域的知识图谱成为当下解决科技服务协同问题的基石。目前，在用的知识图谱构建过程高度依赖行业专家事先设计好的模式，需要依靠专家知识和行业调研，建立知识图谱模式层，并建立知识图谱模式层和数据层之间的映射关系，或者需要由用户在画布中通过手动对知识图谱所涉及实体和关系进行局部修改和保存。

由于科技服务所涉及的领域众多，专业性强，变化性大，由专家设计模式或者用户手动构建的方法人力成本过高，而且难以保证覆盖足够多的科技要素信息。

发明内容

为了解决上述技术问题中的至少一个，本发明第一方面提出了一种面向科技服务的知识图谱构建方法，其包括：

获取结构化的第一科技服务源数据，所述第一科技服务源数据包括若干结构化的第一科技服务数据；

从结构化的第一科技服务数据中抽取出第一科技服务的属性及属性值；

获取非结构化的第二科技服务源数据，所述第二科技服务源数据包括若干非结构化的第二科技服务文本；

基于行业判断模型及所述第二科技服务文本确定所述第二科技服务所面向的行业；

基于命名实体抽取模型及所述第二科技服务文本抽取出所述第二科技服务涉及的命名实体；

基于关系抽取模型、所述第二科技服务文本及所述第二科技服务涉及的命名实体抽取出各所述命名实体之间的关系；

将所述第一科技服务的属性及属性值、所述第二科技服务所面向的行业、所述第二科技服务的命名实体及所述命名实体之间的关系存储至图数据库中以形成知识图谱。

本发明第一方面提出了一种面向科技服务的知识图谱构建装置，其包括：

第一获取模块，用于获取结构化的第一科技服务源数据，所述第一科技服务源数据包括若干结构化的第一科技服务数据；

属性抽取模块，用于从结构化的第一科技服务数据中抽取出第一科技服务的属性及属性值；

第二获取模块，用于获取非结构化的第二科技服务源数据，所述第二科技服务源数据包括若干非结构化的第二科技服务文本；

行业确定模块，用于基于行业判断模型及所述第二科技服务文本确定所述第二科技服务所面向的行业；

实体抽取模块，用于基于命名实体抽取模型及所述第二科技服务文本抽取出所述第二科技服务涉及的命名实体；

实体关系抽取模块，用于基于关系抽取模型、所述第二科技服务文本及所述第二科技服务涉及的命名实体抽取出各所述命名实体之间的关系；

知识图谱生成模块，用于将所述第一科技服务的属性及属性值、所述第二科技服务所面向的行业、所述第二科技服务的命名实体及所述命名实体之间的关系存储至图数据库中以形成知识图谱。

本发明第三方面提供了一种电子设备，包括存储器、处理器及存储在存储器内并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现本发明第一方面提供的面向科技服务的知识图谱构建方法。

本发明第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现本发明第一方面提供的面向科技服务的知识图谱构建方法。

本发明通过自然语言处理技术和图数据库技术，自动从结构化和非结构化的科技服务源数据中抽取出科技服务实体、属性及科技服务实体之间的关系，并生成图数据形式的面向科技服务的知识图谱。

与现有的基于专家设计模式或者用户手动构建模式的知识图谱构建技术相比，本发明具有如下技术优势：

1、知识图谱构建的自动化程度显著提升，从而降低了科技服务的成本；

2、覆盖的科技要素信息显著增加，从而提升了知识图谱的信息丰富度；

3、将科技服务面向的行业引入至知识图谱中，从而使得知识图谱的推荐效果更佳。

附图说明

图1为本发明实施例提供的面向科技服务的知识图谱构建方法的流程图；

图2为本发明实施例提供的面向科技服务的知识图谱构建方法的流程图；

图3为本发明实施例中的BERT分类算法模型的结构示意图；

图4为本发明实施例提供的面向科技服务的知识图谱构建方法的流程图；

图5为本发明实施例中的BERT-BILSTM-CRF中文命名识别算法模型的结构示意图；

图6为本本发明实施例提供的面向科技服务的知识图谱构建方法的流程图；

图7为本发明实施例中的BERT关系抽取算法模型的结构示意图；

图8为本发明实施例提供的面向科技服务的知识图谱构建装置的结构框图；

图9为本发明实施例提供的电子设备的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

由于科技服务所涉及的领域众多，专业性强，变化性大，基于专家设计模式或者用户手动构建的方法构建知识图谱的人力成本过高，而且难以保证覆盖足够多的科技要素信息，推荐效果欠佳。基于此，本发明提供了一种面向科技服务的知识图谱构建方法、装置、设备及存储介质。

下面以具体实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

实施例一

本申请实施例提供了一种面向科技服务的知识图谱构建方法，如图1所示，该知识图谱构建方法10包括：

S11、获取结构化的第一科技服务源数据，所述第一科技服务源数据包括若干结构化的第一科技服务数据。

第一科技服务源数据可以是科技服务部门发布的科技服务清单，例如公共研发平台发布的研发设备的服务清单、公共测试平台发布的测试服务清单、专利交易平台提供的专利技术清单等，这些科技服务清单一般以结构化的数据格式存储在电子表格内，并发布在相关的网上平台上。

第一科技服务源数据的获取方式可以通过检索方式从对应的网上平台下载，也可以通过爬虫技术爬取。通常的，获取到的第一科技服务源数据中包括多条结构化的第一科技服务数据，每条第一科技服务数据均为一项具体的科技服务(或者称为科技要素)的属性。如，属性包括成果名称、技术水平、所属单位、所属技术类别、体现形式、联系方式等。

一般的，科技服务数据都具备成果名称这一基本属性，如：专利技术的成果名称即为该专利的名称，技术人才的成果名称即为该技术人才的姓名、技术设备的成果名称即为该技术设备的名称。

S12、从结构化的第一科技服务数据中抽取出第一科技服务的属性及属性值。

获取到第一科技服务源数据后，遍历第一科技服务源数据，并逐个抽取各第一科技服务数据的属性及属性值，最后将抽取出的属性及属性值逐行整理至预先准备好的数据表格内，获得第一科技服务的属性表。

完成步骤S12后，获取到了第一科技服务的属性，在生成知识图谱时，这些属性将被关联至各科技服务相关实体上。

S13、获取非结构化的第二科技服务源数据，所述第二科技服务源数据包括若干非结构化的第二科技服务文本。

非结构化的第二科技服务源数据可以是科技服务部门发布在其官网上的科技服务介绍文本，也可以是国家知识产权局、国家版权局等部门发布在官方平台上的专利公开文本、版权公开文本等。第二科技服务源数据以非结构化的数据格式存储在各类网络平台上，常见的数据格式包括所有格式的PDF文档、word文档、图片、XML、HTML、报表等等。

第二科技服务源数据一般通过爬虫技术从选定的目标网站爬取。通常的，获取到的第二科技服务源数据中包括多个非结构化的第二科技服务文本，每个第二科技服务文本均为一项具体的科技服务的介绍文本。第二科技服务文本至少包括标题文本和描述文本两部分，其中，标题文本即为该科技服务的成果名称，描述文本即为该科技服务的服务内容的介绍。

例如，第二科技服务文本如果是一篇专利文献，则其标题文本即为该专利文献的专利名称，其描述文本为该专利的说明书摘要。

此处需要说明的是，第二科技服务源数据和第一科技服务源数据可能来源于不同的数据源，也可能来源于相同的数据源。

S14、基于行业判断模型及所述第二科技服务文本确定所述第二科技服务所面向的行业。

每项科技服务均适用于/属于不同的行业，如果能够实现对科技服务所面向的行业进行自动识别并将识别出的行业信息关联至科技服务上，这对丰富知识图谱的信息量无疑具有重大的意义。知识图谱的使用者首先能根据行业信息初筛出自己感兴趣的科技服务，从而显著地提升了匹配效率。鉴于此考虑，本发明选择对爬取到的第二通过科技服务文本进行行业识别。

如上文所描述的，第二科技服务文本包括标题文本和描述文本，如本领域技术人员所熟悉，通过阅读标题文本或描述文本的内容，均应该能判断出第二科技服务所属行业。也就是说，通过技术专家的人工识别当然能够实现对第二科技服务的行业识别、标注。由于人工识别耗时耗力，因此，本发明力求采用自然语言处理技术实现对第二科技服务所面向的行业的自动识别。

由于标题文本的字数远少于描述文本的字数，因此节省计算资源，本发明实施例选择以标题文本作为识别语料以实现行业的自动识别。

在进行行业识别之前，有必要对行业的分类标准进行预先定义，以预先生成行业列表。为了减少工作量，可选的，在一些实施例，可以直接参考国民经济行业分类标准(GB/4754-2011)中的行业分类方法，将行业划分为农、林、牧、渔业、采矿业、制造业、电力、热力、建筑业等类别。当然，在一些垂直应该领域，也可以根据实际情况，自定义行业列表。

完成行业列表的准备后，可以预制行业-编号对应字典，从0开始对各行业名称进行依次编号。

自然语言处理技术发展至今，通过对标题文本进行自然语言处理以识别出对应的科技服务所面向的行业并非难事，目前已经存在很多的识别模型。

可选的，本发明采用有监督的BERT分类算法模型。具体的，如图2所示的，使用该分类算法模型实施对第二科技服务所面向的行业的自动识别包括如下步骤：

S141、构建BERT分类算法模型。

可选的，本发明实施例中的BERT分类算法模型的结构如图3所示，该BERT分类算法模型包括Embedding层、双向Transformer编码器及输出层。其中：

Embedding层是词嵌入、位置嵌入、类型嵌入之和，分别表示词信息、位置信息、句子对信息。

双向Transformer编码器是多层编码单元的堆叠，每个编码单元包括自注意力模块、残差网络、层归一化结构、DropOut层，用于提取语义信息，其整体计算过程如下：

Multihead(Q，K，V)＝concat(head₁，head₂，......，head_h)W⁰

head_i＝Attention(QW_i ^Q，KW_i ^K，VW_i ^V)

FFN(x)＝max(0，xW₁+b₁)W₂+b₂

其中，Attention是自注意力模块计算公式，Q，K，V均是输入字向量矩阵，d_k代表输入向量维度。其核心思想是去计算一句话中的每个词对于这句话中所有词的相互关系，然后认为这些词与词之间的相互关系在一定程度上反应了这句话中不同词之间的关联性以及重要程度。因此再利用这些相互关系来调整每个词的重要性(权重)就可以获得每个词新的表达。这个新的表征不但蕴含了该词本身，还蕴含了其他词与这个词的关系，因此和传统word2vec算法得到的词向量相比能够反映词在不同语境的语义。

MultiHead是Transformer编码器的多头机制，为了扩展模型专注于不同位置的能力，增大注意力单元的“表示子空间”。LN和FFN分别为残差网络模块和层归一化计算公式，用来解决深度学习中的退化问题。

BERT模型输出的第0维向量H₀代表句意，将句意向量H₀接入768×n的线性全连接层。其中768是BERT模型的输出向量长度，n为预设的分类类别数。

使用SoftMax算法归一化概率，计算方法如下：

选取交叉熵作为损失函数进行迭代训练，至损失函数基本无法继续下降时，即能完成对模型的训练。计算公式如下：

当然，上图3所示的BERT分类算法模型仅为一种示例，其他实施例中，也可以选择其他结构的BERT分类算法模型实现行业识别(分类)。

S142、获取若干第二科技服务文本的标题文本并将行业标签加入至各所述标题文本内以形成训练样本集，利用训练样本集对所述BERT分类算法模型进行训练。

由于BERT分类算法模型是一种有监督的学习算法模型。因此，在对模型进行训练之前，需要准备若干第二科技服务文本的标题文本，并将行业标签加入至各标题文本内以形成训练样本集。

具体的，对标题文本进行预处理及标注获得训练样本的过程如下：

首先进行预处理，具体如下：

对各训练样本进行字符切分。

确定统一的文本长度，可选的，当所有训练样本中的最长文本长度不超过100个字符，则以该最长文本长度作为统一文本长度。否则，以100作为统一文本长度。

对在各训练样本的首尾设置标签设置，如，在句首置[CLS]标签，句末置[SEP]标签。经过标签设置后，样本“快照式紧凑噪声免疫型光场成像全偏振光谱探测装置及方法”被处理为“[CLS]快照式紧凑噪声免疫型光场成像全偏振光谱探测装置及方法[SEP]”。

根据预设定的字符-标号字典将字符转化成标号，将有效标题部分的标号存入id序列中，mask置为1，表示需要模型处理这部分内容，segment置为0，表示这是一段统一的句意。

将各训练样本的长度处理为统一文本长度。具体的，对超过统一文本长度的部分字符进行截断处理，不足统一文本长度的部分用[pad]补齐，这部分的mask置为0，代表不需要模型处理这一部分内容，type置为1，代表这部分句意和之前有效标题部分不是一个整体。

接着，完成对各训练样本的预处理后，将各训练样本的行业标签添加至训练样本内。

至此，获得最终的经过预处理的带有行业标签的训练样本集。

最后使用带有行业标签的训练样本集对BERT分类算法模型进行有监督的训练，从而获得最终的训练好的BERT分类算法模型。

S143、将待确定行业的所述第二科技服务文本的标题文本输入至训练好的所述BERT分类算法模型内确定所述第二科技服务面向的行业。

完成BERT分类算法模型的训练后，将待确定行业的所述第二科技服务文本的标题文本经过预处理后输入至BERT分类算法模型中。每个待确定行业的所述第二科技服务文本的标题文本均对应输出一个行业编号。最后，根据前文中的预制的行业-编号对应字典，即能获得各第二科技服务所面向的行业，从而完成第二科技服务所面向的行业的自动识别。

完成步骤S14后，获得各第二科技服务所面向的行业信息。在生成知识图谱时，这些行业信息将被关联至各科技服务相关实体上。

S15、基于命名实体抽取模型及所述第二科技服务文本抽取出所述第二科技服务涉及的命名实体。

命名实体识别(NER)是自然语言处理中的一项基础任务，应用范围非常广泛。命名实体一般指的是文本中具有特定意义或者指代性强的实体，通常包括人名、地名、组织机构名、日期时间、专有名词等。命名实体抽取模型就是从非结构化的文本中抽取出实体，并且可以按照业务需求识别出更多类别的实体，比如产品名称、型号、价格等。实体这个概念可以很广，只要是业务需要的特殊文本片段都可以称为实体。

本发明中，需要抽取出的实体为科技服务(科技要素)的相关命名实体，例如设备的名称、技术的名称、技术人员的姓名等等。抽取出的每个命名实体都可能被作为科技服务的相关实体被最终添加至知识图谱内。

可选的，本发明采用有监督的BERT-BILSTM-CRF中文命名识别算法模型实现对第二科技服务文本的命名实体的抽取。具体的，如图4所示的，使用该中文命名识别算法模型实施对第二科技服务文本的命名实体的抽取包括如下步骤：

S151、构建BERT-BILSTM-CRF中文命名识别算法模型。

可选的，本发明实施例中的BERT-BILSTM-CRF中文命名识别算法模型的结构如图5所示，该BERT-BILSTM-CRF中文命名识别算法模型包括依次连接的BERT层、前向LSTM层与后向LSTM层组合而成双向LSTM层、CRF条件随机场层，

其中：

BERT即双向Transformer的Encoder。其通过使用Masked LM和Next SentencePrediction两种方法分别捕捉词语和句子级别的表示。BERT的具体结构及算法原理为本领域一般技术人员所熟悉，此处不再进行详细描述。

双向LSTM可以充分应用上下文信息，从而提升模型的识别准确率。

LSTM的计算公式一般如下：

f_t＝σ_g(W_fx_t+U_fH_t-1+b_f)

i_t＝σ_g(W_ix_t+U_iH_t-1+b_i)

o_t＝σ_g(W_ox_t+U_oH_t-1+b_o)

其中：f_t、i_t、σ_t分别代表遗忘门、输入门和输出门，c_t代表记忆单元，h_t代表隐含状态。也是输出向量，包含前面t时刻所有有效信息。σ代表sigmoid激活函数。

CRF条件随机场层过考虑标签之间的相邻关系获得全局最优标签序列，计算过程如下：

P_i＝W_sh^(t)+b_s

其中：s表示评估分数，W是转换矩阵，

表示标签转移分数，

表示该字符的第y_i个标签的分数，根据评估分数计算序列x到标签y的概率为：

在对模型进行训练时，训练损失函数为：

使用SGD或其他优化方法训练该模型的参数，当模型产生的损失值满足设定要求或者达到最大迭代次数N时，则终止该模型的训练。

S152、获取若干第二科技服务文本的描述文本并利用数据标注平台对各所述描述文本进行BIO标注以形成经标注后的训练样本集，利用训练样本集对所述BERT-BILSTM-CRF中文命名识别算法模型进行训练。

由于BERT-BILSTM-CRF是一种有监督的学习算法模型。因此，在对模型进行训练之前，需要准备若干第二科技服务文本的描述文本，然后阅读描述文本并利用数据标注平台对文本进行BIO标注。具体的：

如果字符为实体词的开始字符，则在该字符后置入标记(B-X)；如果字符为实体词的非开始字符，则在该字符后置入标记(I-X)；如果字符为非实体词的字符，则在该字符后置入标记(O)。

例如，某第二科技服务文本为一篇专利文献，其说明书摘要(即描述文本)的部分内容如下“本发明公开一种快照式紧凑噪声免疫型光场成像全偏振光谱探测装置及方法，装置包括物镜、光场调制单元、微光学阵列、面阵探测器和数据采集处理显示系统…”。

经过字符切分和BIO标注后的训练样本为“[CLS][CLS]、本O、发O、明O、公O开O、一B-Techserver、种I-Techserver、快I-Techserver、照I-Techserver、式I-Techserver、紧I-Techserver、凑I-Techserver、噪I-Techserver、声I-Techserver、免I-Techserver、疫I-Techserver、型I-Techserver、光I-Techserver、场I-Techserver、成I-Techserver、像I-Techserver、全I-Techserver、偏I-Techserver、振I-Techserver、光I-Techserver、谱I-Techserver、探I-Techserver、测I-Techserver、装I-Techserver、置I-Techserver、及I-Techserver、方I-Techserver、法I-Techserver、，[SEP]、装O、置O、包O、括O、物B-Item镜I-Item、、O、光I-Item、场I-Item、调I-Item、制I-Item、单I-Item、元I-Item、、O、微B-Item、光I-Item、学I-Item、阵I-Item、列I-Item、面I-Item、阵I-Item、探I-Item、测I-Item、器I-Item、和O、数B-Item、据B-Item、采B-Item、集B-Item、处B-Item、理B-Item、显B-Item、示B-Item、系B-Item、统、B-Item、。[SEP]”。

完成标注后，根据预设定的字符-标号字典将字符转化成标号，将有效标题部分的标号存入id序列中，mask置为1，表示需要模型处理这部分内容，segment置为0，表示这是一段统一的句意。

同前文，将各训练样本的长度处理为统一文本长度。具体的，对超过统一文本长度的部分字符进行截断处理，不足统一文本长度的部分用[pad]补齐，这部分的mask置为0，代表不需要模型处理这一部分内容，type置为1，代表这部分句意和之前有效标题部分不是一个整体。

至此，获得最终的经过实体标注的训练样本集。

最后使用经过实体标注的训练样本集对BERT-BILSTM-CRF中文命名识别算法模型进行有监督的训练，从而获得最终的训练好的BERT-BILSTM-CRF中文命名识别算法模型。

S153、将待确定行业的所述第二科技服务文本的描述文本输入至训练好的所述BERT-BILSTM-CRF中文命名识别算法模型内，以抽取出所述第二科技服务涉及的命名实体。

完成BERT-BILSTM-CRF中文命名识别算法模型的训练后，将待抽取命名实体的所述第二科技服务文本的描述文本经过预处理后输入BERT-BILSTM-CRF中文命名识别算法模型中。各第二科技服务文本的描述文本均对应输出一个或多个命名实体。

完成步骤S15后，获得各第二科技服务所涉及的命名实体。在生成知识图谱时，这些命名实体将作为科技服务相关实体加入至知识图谱中。

S16、基于关系抽取模型、所述第二科技服务文本及所述第二科技服务涉及的命名实体抽取出各所述命名实体之间的关系。

前文中的步骤S15已经从第二科技服务文本中抽取出了第二科技服务所涉及到的命名实体，本步骤要做的是抽取出各命名实体之间的关系。

可选的，本发明采用有监督的BERT关系抽取模型实现对实体关系的抽取。具体的，如图6所示的，使用该关系抽取模型实施从第二科技服务文本中抽取出第二科技服务涉及的各命名实体之间的关系的具体步骤如下：

S161、构建BERT关系抽取算法模型。

可选的，本发明实施例中的BERT关系抽取算法模型的结构如图7所示。

S162、获取若干第二科技服务文本的描述文本并将所述命名实体抽取模型抽取出的各所述描述文本的命名实体加入至各所述描述文本内，并对各所述描述文本中的命名实体之间的关系进行标注以获得经关系标注的训练样本集，利用训练样本集对所述BERT关系抽取算法模型进行训练。

由于BERT关系抽取算法模型是一种有监督的学习算法模型。因此，在对模型进行训练之前，需要准备若干第二科技服务文本的描述文本，并且标注出其涉及的命名实体(这些命名实体已经通过步骤S15抽取出)，并将命名实体之间的关系加入至描述文本内，以获得训练样本集。

具体的，对描述文本进行实体标注的过程如下：

首先进行预处理，具体如下：

对各训练样本进行字符切分，并确定统一的文本长度。

对在各训练样本的首尾设置标签设置，如，在句首置[CLS]标签，句末置[SEP]标签，并在各命名实体的首尾设置标签。例如，样本“装置包括物镜、光场调制单元、微光学阵列、面阵探测器和数据采集处理显示系统”的命名实体包括两个：实体1为“装置”，实体2为“光场调制单元”。经过实体标注处理后的样本为“[CLS]$装置$包括物镜、#光场调制单元#、微光学阵列、面阵探测器和数据采集处理显示系统[SEP]”。

至此，获得最终的完成实体标注的训练样本集。

最后使用完成实体标注的训练样本集对BERT关系抽取算法模型进行有监督的训练，从而获得最终的训练好的BERT关系抽取算法模型。

参考图7，BERT关系抽取算法模型的训练过程大致如下：

抽取训练样本的[CLS]字符对应向量作为句意向量H₀。抽取实体1、实体2对应的字向量的均值作为其词向量，在本实施例中，实体1对应第i到j个字符，实体2对应第k到m个字符。则实体1、实体2的词向量计算如下：

拼接句意向量H₀，实体1、实体2对应词向量H₁、H₂，得到向量H。将向量H送入768*3×n的全连接线性层中，其中768*3代表3个BERT输出向量的拼接长度，n代表关系的类别数。

用SoftMax算法归一化概率，计算方法如下：

选取交叉熵作为损失函数进行迭代训练，至损失函数基本无法继续下降时，完成训练。计算公式如下：

S163、获取待抽取关系的第二科技服务文本的描述文本并将所述命名实体抽取模型抽取出的所述描述文本的命名实体加入至所述描述文本内，并将所述描述文本输入至所述BERT关系抽取算法模型内，以抽取出所述第二科技服务涉及的各命名实体之间的关系。

完成BERT关系抽取算法模型的训练后，将待抽取实体关系的第二科技服务文本的描述文本经过实体标注后输入至BERT关系抽取算法模型中。每个第二科技服务文本的描述文本均对应输出多个三元组，每个三元组表示一对实体之间的关系。

完成步骤S16后，获得各第二科技服务所涉及的各命名实体之间的关系。在生成知识图谱时，这些命名实体之间的关系将作为科技服务相关实体之间的关系被加入至知识图谱中。

至此，我们已经获得了如下信息：步骤S13获得的各第一科技服务的属性信息。步骤S14获得的各第二科技服务所面向的行业信息。步骤S15获得的各第二科技服务所涉及的命名实体。步骤S16获取到的第二科技服务所涉及的各命名实体之间的关系信息。

步骤S17、将所述第一科技服务的属性及属性值、所述第二科技服务所面向的行业、所述第二科技服务的命名实体及所述命名实体之间的关系信息存入至图数据库中以形成知识图谱。

可选的，采用的neo4j图数据库作为生成知识图谱的图数据库。

neo4j图数据库具备成熟的知识图谱生成模板，其通过脚本程序完成知识图谱节点及边的生成。

在一个可选的实施例中，本发明的知识图谱的生成过程如下：

S171、获取步骤S13生成的各科技服务的属性表，依次遍历读取每项科技服务的名称以及属性名、属性值，运行neo4j图数据库脚本创建科技服务实体。如，实施例中创建的科技服务实体的名称为Server_name，属性名分别为attribute_name1、attribute_name2、...、attribute_namen，对应属性值为：attribute₁、attribute₂、...、attribute_n。

该科技服务实体的创建脚本为：

”CREATE(n：TechServer{name：server_name，

：attribute₁，attribute_name₂：attribute₂，...，attribute_name_n：attribute_n})”。

S172、获取步骤S14预先生成的行业列表，依次读取行业名称，运行neo4j图数据库脚本创建科技服务行业实体。如，实例中创建的科技服务行业实体的名称为industry_name，

创建脚本为：

”CREATE(n：Industry{name：industry_name}”。

S173、根据步骤S14获取到的各科技服务所面向的行业信息，构建科技服务实体和行业实体之间的联系。如，实例中的科技服务实体的名称为Sever_name，行业实体的名称为industry_name。

通过运行如下脚本即能构建科技服务实体和行业实体之间的联系：

”MATCH(n1：TechServer)，(n2：Industry)

WHEREn1.name＝＝Server_name and n2.name＝＝industry_name

CREATE(n1)-[r：BELONG]-＞(n2)”。

S174、获取步骤S15生成的各科技服务所涉及的命名实体，运行图数据库脚本，构建科技服务相关实体，并将其和所属科技服务实体之间构建所属关系。

实施例中，假设当前创建的科技服务相关实体来还原于名称为Sever_name的科技服务，相关实体名称分别为item₁、item₂、...、item_n：

”CREATE(n：Item{name：item₁}”

”MATCH(n1：TechServer)，(n2：Item)

WHEREn1.name＝＝Server_name and n2.name＝＝item₁

CREATE(n2)-[r：BELONG]-＞(n1)”

”CREATE(n：Item{name：item₂}”

”MATCH(n1：TechServer)，(n2：Item)

WHEREn1.name＝＝Server_name and n2.name＝＝item₂

CREATE(n2)-[r：BELONG]-＞(n1)”

……

”CREATE(n：Item{name：item_n}”

”MATCH(n1：TechServer)，(n2：Item)

WHEREn1.name＝＝Server_name and n2.name＝＝item_n

CREATE(n2)-[r：BELONG]-＞(n1)”。

S175、根据步骤S16中抽取出的第二科技服务所涉及的命名实体之间的关系，运行neo4j图数据库脚本，构建科技服务相关实体之间的关系。

实施例中，假设当前读取的两个实体分别为item₁，item₂，两者间关系名称是relation_name，则实体间关系的构建脚本为：

”MATCH(n1：Item)，(n2：Item)

WHEREn1.name＝＝item₁ and n2.name＝＝item₂

CREATE(n1)-[r：relation_name]-＞(n2)”

通过以上五类模板可以将前述步骤生成的实体、属性以及实体间关系构建为图数据类型的知识图谱，知识图谱最终被存储在neo4j图数据库中。

本发明实施例中的面向科技服务的知识图谱构建方法所生成的知识图谱的信息量非常丰富，其不仅能够展现出各科技服务实体之间的关系，还能展现各科技服务实体所面向的行业及其具体的属性，从而使得知识图谱的推荐效果更佳。

实施例二

图8为本申请实施例提供的面向科技服务的知识图谱构建装置20的结构示意图。该知识图谱构建装置20包括第一获取模块21、属性抽取模块22、第二获取模块23、行业确定模块24、实体抽取模块25、实体关系抽取模块26和知识图谱生成模块27。其中：

第一获取模块21，用于获取结构化的第一科技服务源数据，所述第一科技服务源数据包括若干结构化的第一科技服务数据。

属性抽取模块22，用于从结构化的第一科技服务数据中抽取出第一科技服务的属性及属性值。

第二获取模块23，用于获取非结构化的第二科技服务源数据，所述第二科技服务源数据包括若干非结构化的第二科技服务文本。

行业确定模块24，用于基于行业判断模型及所述第二科技服务文本确定所述第二科技服务所面向的行业。

实体抽取模块25，用于基于命名实体抽取模型及所述第二科技服务文本抽取出所述第二科技服务涉及的命名实体。

实体关系抽取模块26，用于基于关系抽取模型、所述第二科技服务文本及所述第二科技服务涉及的命名实体抽取出各所述命名实体之间的关系。

知识图谱生成模块27，用于将所述第一科技服务的属性及属性值、所述第二科技服务所面向的行业、所述第二科技服务的命名实体及所述命名实体之间的关系存储至图数据库中以形成知识图谱。

由于所述知识图谱构建装置20的各功能模块的处理过程与前述实施例一的知识图谱构建方法的处理步骤一一对应。

因此本实施例不再对知识图谱构建装置20的各功能模块的处理过程进行重复描述，可以参考实施例一的相关描述。

当然，各功能模块也可包括相应的功能子模块，如：

可选的，行业确定模块24包括模型构建子模块241、训练子模块242、行业确定子模块243，其中：

模型构建子模块241，用于构建BERT分类算法模型，即实现步骤S141。

训练子模块242，用于获取若干第二科技服务文本的标题文本并将行业标签加入至各所述标题文本内以形成训练样本集，利用训练样本集对所述BERT分类算法模型进行训练，即实现步骤S142。

行业确定子模块243，用于将待确定行业的所述第二科技服务文本的标题文本输入至训练好的所述BERT分类算法模型内确定所述第二科技服务面向的行业，即实现步骤S143。

同样的，实体抽取模块25和实体关系抽取模块26也可包括相应的功能子模块。此处不再赘述。

本发明实施例中的面向科技服务的知识图谱构建装置所生成的知识图谱的信息量非常丰富，其不仅能够展现出各科技服务实体之间的关系，还能展现各科技服务实体所面向的行业及其具体的属性。从而使得知识图谱的推荐效果更佳。

实施例三

图9为本申请实施例提供的电子设备30的结构示意图，如图9所示，该电子设备30包括处理器31和存储器33，处理器31和存储器33相连，如通过总线32相连。

处理器31可以是CPU，通用处理器、DSP，ASIC，FPGA或者其他可编程器件、晶体管逻辑器件、硬件部件或者其他任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器31也可以是实现计算功能的组合，例如包括一个或多个微处理器组合，DSP和微处理器的组合等。

总线32可以包括一通路，在上述组件之间传送信息。总线32可以是PCI总线或EISA总线等。总线32可以分为地址总线、数据总线、控制总线等。为了便于表示，图中仅以一条粗线表示，但是并不表示仅有一根总线或一种类型的总线。

存储器33可以是ROM或可存储静态信息和指令的其他类型的静态存储设备，RAM或者可以储存信息和指令的其他类型的动态存储设备，也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储、磁盘存储介质或其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器33用于存储本申请方案的应用程序代码，并由处理器31来控制执行。处理器31用于执行存储器33中存储的应用程序代码，以实现实施例一中的面向科技服务的知识图谱构建方法。

本申请实施例最后还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现实施例一中的面向科技服务的知识图谱构建方法。

上文对本发明进行了足够详细的具有一定特殊性的描述。所属领域内的普通技术人员应该理解，实施例中的描述仅仅是示例性的，在不偏离本发明的真实精神和范围的前提下做出所有改变都应该属于本发明的保护范围。本发明所要求保护的范围是由所述的权利要求书进行限定的，而不是由实施例中的上述描述来限定的。

Claims

1.一种面向科技服务的知识图谱构建方法，其特征在于，包括：

2.如权利要求1所述的知识图谱构建方法，其特征在于：

所述行业判断模型为BERT分类算法模型；

所述基于行业判断模型及所述第二科技服务文本确定所述第二科技服务所面向的行业包括：

构建BERT分类算法模型；

获取若干第二科技服务文本的标题文本并将行业标签加入至各所述标题文本内以形成训练样本集，利用训练样本集完成对所述BERT分类算法模型的训练；

将待确定行业的所述第二科技服务文本的标题文本输入至训练好的所述BERT分类算法模型，以确定所述第二科技服务面向的行业。

3.如权利要求1所述的知识图谱构建方法，其特征在于：

所述命名实体抽取模型为BERT-BILSTM-CRF中文命名识别算法模型；

所述基于命名实体抽取模型及所述第二科技服务文本抽取出所述第二科技服务涉及的命名实体包括：

构建BERT-BILSTM-CRF中文命名识别算法模型；

获取若干第二科技服务文本的描述文本并利用数据标注平台对各所述描述文本进行BIO标注以形成经标注后的训练样本集，利用训练样本集完成对所述BERT-BILSTM-CRF中文命名识别算法模型的训练；

将待确定行业的所述第二科技服务文本的描述文本输入至训练好的所述BERT-BILSTM-CRF中文命名识别算法模型，以抽取出所述第二科技服务涉及的命名实体。

4.如权利要求1所述的知识图谱构建方法，其特征在于：

所述关系抽取模型为BERT关系抽取算法模型；

所述基于关系抽取模型、所述第二科技服务文本及所述第二科技服务涉及的命名实体抽取出各所述命名实体之间的关系；

构建BERT关系抽取算法模型；

获取若干第二科技服务文本的描述文本并将所述命名实体抽取模型抽取出的各所述描述文本的命名实体加入至各所述描述文本内，并对各所述描述文本中的命名实体之间的关系进行标注以获得经关系标注的训练样本集，利用训练样本集完成对所述BERT关系抽取算法模型的训练；

获取待抽取关系的第二科技服务文本的描述文本并将所述命名实体抽取模型抽取出的所述描述文本的命名实体加入至所述描述文本内，并将所述描述文本输入至所述BERT关系抽取算法模型，以抽取出所述第二科技服务涉及的各命名实体之间的关系。

5.如权利要求1所述的知识图谱构建方法，其特征在于：所述图据库为Neo4j图数据库。

6.如权利要求1所述的知识图谱构建方法，其特征在于：所述第一科技服务源数据和所述第二科技服务源数据利用网络定向爬虫获取；

所述第一科技服务源数据为存储在关系数据库中的结构化数据，所述第二科技服务源数据为TXT文本、word文本、PDF文本中的一种或多种。

7.一种面向科技服务的知识图谱构建装置，其特征在于，其包括：

8.一种电子设备，其特征在于，包括存储器、处理器及存储在存储器内并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至6任一项所述的知识图谱构建方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现权利要求1至7任一项所述的知识图谱构建方法。