CN116502807B

CN116502807B - 基于科技知识图谱的产业链分析应用方法和装置

Info

Publication number: CN116502807B
Application number: CN202310762716.4A
Authority: CN
Inventors: 黄震; 杨秀丽; 朱玉芳
Original assignee: Beijing Zhongqi Huiyun Technology Co ltd
Current assignee: Beijing Zhongqi Huiyun Technology Co ltd
Priority date: 2023-06-27
Filing date: 2023-06-27
Publication date: 2023-09-12
Anticipated expiration: 2043-06-27
Also published as: CN116502807A

Abstract

本公开的实施例公开了基于科技知识图谱的产业链分析应用方法和装置。该方法的一具体实施方式包括：对候选产业链知识图谱中的实体数据进行预处理，得到候选数据；将候选数据输入句向量预训练模型，输出得到句子向量；基于项目句子向量与物品句子向量之间的相似度，确定项目实体与物品实体之间的关系；根据项目实体对应的技术数据，建立物品实体与技术数据的关系；根据物品实体与技术数据的关系，生成新的三元组图谱数据并发送给产业链企业的终端，以控制企业相关物品的生产。该实施方式通过使用语义分析，对已有知识图谱中的各节点要素进行相似度计算，来建立技术与物品之间的关系，从而实现更深层次、更全面的产业链知识图谱，以实现物品生产。

Description

基于科技知识图谱的产业链分析应用方法和装置

技术领域

本公开的实施例涉及自然语言处理技术领域，具体涉及基于科技知识图谱的产业链分析应用方法和装置。

背景技术

随着自然语言处理技术的发展，将其与其他任务相结合作为辅助信息已经成为热门的选择。如知识图谱（Knowledge Graph），在图书情报界通常称为知识域可视化或知识领域映射地图。知识图谱的主要目标一般是用来描述真实世界中存在的各种实体和概念，以及它们之间的关系。

然而，发明人发现，现有的产业链知识图谱存在如下技术问题：

第一，目前的知识图谱往往只停留在图谱表面分析，没有更深的分析节点之间的关系。因此依据目前的知识图谱，通常不能获知各技术可以用于哪些产品的生产，从而影响产品的生产质量或生产效率。

第二，对于研发出的新技术，通过现有产业链知识图谱往往也很难分析出，这些新技术能够应用到哪些现有产品的改进生产。即新技术可以对哪些产品做技术支撑，实现产品的更新改善。从而影响产品的更新周期。

第三，在进行实体关系分析时，通常根据实际需求进行选择取舍，采用单一的相似度分析方法。而不同相似度分析方法的确定结果往往存在一定差异。这样确定的技术与产品之间的关系，会影响技术应用到产品生产的可行性概率，从而造成产品原材料的浪费。

发明内容

本公开的内容部分用于以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。本公开的一些实施例提出了基于知识图谱的生产控制方法、生产控制装置、电子设备和计算机可读介质，来解决以上背景技术部分提到的技术问题中的一项或多项。

第一方面，本公开的一些实施例提供了一种基于科技知识图谱的产业链分析应用方法，包括：响应于接收到产业链企业的终端发送的数据分析请求，获取数据分析请求所指示的候选产业链知识图谱；对候选产业链知识图谱中的实体数据进行预处理，得到候选数据，其中，实体数据包括项目实体数据和物品实体数据；将候选数据输入句向量预训练模型，输出得到句子向量，其中，句子向量包括项目句子向量和物品句子向量；基于项目句子向量与物品句子向量之间的相似度，确定项目实体与物品实体之间的关系；根据项目实体与物品实体之间的关系、项目实体对应的技术数据，建立物品实体与技术数据的关系；根据物品实体与技术数据的关系，生成新的三元组图谱数据；将三元组图谱数据发送给产业链企业的终端，以控制产业链企业相关物品的生产。

在一些实施例中，该方法还包括：利用归一化指数函数，确定项目句子向量与物品句子向量之间的相似度。

在一些实施例中，利用归一化指数函数，确定项目句子向量与物品句子向量之间的相似度，包括：确定项目句子向量与物品句子向量之间的向量差；对向量差、项目句子向量和物品句子向量进行拼接处理，得到拼接向量；根据拼接向量和归一化类概率分类器，得到项目句子向量与物品句子向量的相似度。

在一些实施例中，基于项目句子向量与物品句子向量之间的相似度，确定项目实体与物品实体之间的关系，包括：响应于相似度值大于目标阈值，确定对应的项目实体与物品实体存在关联关系；以及建立物品实体与技术数据的关系，包括：将关联关系所指示的项目实体所使用的技术数据，与关联关系所指示的物品实体建立关联关系。

在一些实施例中，该方法还包括：将三元组图谱数据存入图数据库，以代替候选产业链知识图谱。

在一些实施例中，该方法还包括：响应于接收到新技术数据，确定三元组图谱数据中，与新技术数据相似的技术数据，以作为目标技术数据；将三元组图谱数据中，与目标技术数据关联的物品实体，确定为目标物品实体；根据目标物品实体的数据，生成新技术数据的应用推荐信息；将应用推荐信息发送给生产目标物品的产业链企业的终端，以利用新技术数据进行目标物品的生产。

在一些实施例中，确定三元组图谱数据中，与新技术数据相似的技术数据，包括：对于三元组图谱数据中的各技术数据，确定该技术数据与新技术数据之间的语义相似度；分别获取与该技术数据相关的第一专利文献数据，以及与新技术数据相关的第二专利文献数据；根据第一专利文献数据和第二专利文献数据，确定该技术数据与新技术数据的技术领域相似度；基于语义相似度和技术领域相似度，确定该技术数据与新技术数据的相似度；将三元组图谱数据中相似度值最大的技术数据，确定为与新技术数据相似的技术数据。

第二方面，本公开的一些实施例提供了一种基于科技知识图谱的产业链分析应用装置，包括：获取单元，被配置成响应于接收到产业链企业的终端发送的数据分析请求，获取数据分析请求所指示的候选产业链知识图谱；预处理单元，被配置成对候选产业链知识图谱中的实体数据进行预处理，得到候选数据，其中，实体数据包括项目实体数据和物品实体数据；向量确定单元，被配置成将候选数据输入句向量预训练模型，输出得到句子向量，其中，句子向量包括项目句子向量和物品句子向量；项目关系确定单元，被配置成基于项目句子向量与物品句子向量之间的相似度，确定项目实体与物品实体之间的关系；技术关系确定单元，被配置成根据项目实体与物品实体之间的关系、项目实体对应的技术数据，建立物品实体与技术数据的关系；新图谱生成单元，被配置成根据物品实体与技术数据的关系，生成新的三元组图谱数据；发送单元，被配置成将三元组图谱数据发送给产业链企业的终端，以控制产业链企业相关物品的生产。

在一些实施例中，该产业链分析应用装置还包括相似度确定单元，被配置成利用归一化指数函数，确定项目句子向量与物品句子向量之间的相似度。

在一些实施例中，相似度确定单元进一步被配置成确定项目句子向量与物品句子向量之间的向量差；对向量差、项目句子向量和物品句子向量进行拼接处理，得到拼接向量；根据拼接向量和归一化类概率分类器，得到项目句子向量与物品句子向量的相似度。

在一些实施例中，项目关系确定单元进一步被配置成响应于相似度值大于目标阈值，确定对应的项目实体与物品实体存在关联关系；以及技术关系确定单元进一步被配置成将关联关系所指示的项目实体所使用的技术数据，与关联关系所指示的物品实体建立关联关系。

在一些实施例中，新图谱生成单元进一步被配置将三元组图谱数据存入图数据库以代替候选产业链知识图谱。

在一些实施例中，该产业链分析应用装置还包括推荐信息生成单元，被配置成响应于接收到新技术数据，确定三元组图谱数据中，与新技术数据相似的技术数据，以作为目标技术数据；将三元组图谱数据中，与目标技术数据关联的物品实体，确定为目标物品实体；根据目标物品实体的数据，生成新技术数据的应用推荐信息；将应用推荐信息发送给生产目标物品的产业链企业的终端，以利用新技术数据进行目标物品的生产。

在一些实施例中，推荐信息生成单元进一步被配置成对于三元组图谱数据中的各技术数据，确定该技术数据与新技术数据之间的语义相似度；分别获取与该技术数据相关的第一专利文献数据，以及与新技术数据相关的第二专利文献数据；根据第一专利文献数据和第二专利文献数据，确定该技术数据与新技术数据的技术领域相似度；基于语义相似度和技术领域相似度，确定该技术数据与新技术数据的相似度；将三元组图谱数据中相似度值最大的技术数据，确定为与新技术数据相似的技术数据。

第三方面，本公开的一些实施例提供了一种电子设备，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现上述第一方面中，任一实现方式所描述的基于科技知识图谱的产业链分析应用方法。

第四方面，本公开的一些实施例提供了一种计算机可读介质，其上存储有计算机程序，其中，计算机程序被处理器执行时，实现上述第一方面中任一实现方式所描述的基于科技知识图谱的产业链分析应用方法。

本公开的上述各个实施例具有如下有益效果：本公开的一些实施例的基于科技知识图谱的产业链分析应用方法，可以对现有产业链知识图谱建立更深的关系，从而能够得到将不同技术可以应用于哪些物品的生产，提高物品的质量或生产效率。具体来说，依据现有产业链知识图谱不能获知各技术可以用于哪些产品的生产，进行产业支撑的原因在于：目前的知识图谱在不同技术如何支撑产品方面分析的不够全面，往往只停留在图谱表面分析，没有更深的分析节点之间的关系。也就是说，通常只利用词级别的信息，匹配分析了项目实体与产品实体之间关系，而没有体现出技术与产品之间的关系。

基于此，本公开实施例的基于科技知识图谱的产业链分析应用方法，对于现有的产业链知识图谱，使用语义分析的方式将产品和项目名称之间建立关系。即利用句子级别的语义信息进行匹配分析。由于句子比词包含了更多的信息，因此可以提高关系确定的准确度。然后，再根据科研项目和使用技术之间的关系，对产品和研究成果技术建立关系，以生成更加完善的产业链知识图谱。也就是说，本发明在知识图谱基础之上，以其中的物品节点和项目节点为数据基础，通过使用语义匹配技术，可以对科学研究成果和产业进行关系建立，分析成果技术可以对哪些产业（产品）有生产的支撑作用，从而找到产业可以使用的成果技术。也因为生成的新三元组图谱数据，分析了技术数据与物品实体之间的关系。从而可以根据该关系，将技术数据所指示的技术应用到对应产品的生产中。这样有助于产品的更新升级或生产工艺改进，使得产品质量更高或者功能更加全面，从而促进产品的生产数量和出库数量。

附图说明

结合附图并参考以下具体实施方式，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中，相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的，元件和元素不一定按照比例绘制。

图1是根据本公开的基于科技知识图谱的产业链分析应用方法的一些实施例的流程图；

图2A是两种知识图谱的一些实施例的比较示意图；

图2B是根据本公开的基于科技知识图谱的产业链分析应用装置的一些实施例的结构示意图；

图3是适于用来实现本公开的一些实施例的电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例。相反，提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

下面将参考附图并结合实施例来详细说明本公开。

请参考图1，其示出了根据本公开的基于科技知识图谱的产业链分析应用方法的一些实施例的流程100。该方法可以包括以下步骤：

步骤101，响应于接收到产业链企业的终端发送的数据分析请求，获取数据分析请求所指示的候选产业链知识图谱。

在一些实施例中，基于科技知识图谱的产业链分析应用方法的执行主体（例如服务器），可以通过有线连接方式或无线连接方式，来接收产业链企业的终端发送的数据分析请求。其中，数据分析请求是可以用于表征对指定数据进行处理分析的需求信息，如对某个产业生产技术的分析。产业链企业可以是与某个（或某类）产品的产业链相关的企业，尤其是进行该产品研发生产的企业。此时，执行主体可以通过多种方式，来获取数据分析请求所指示的待分析数据。作为示例，执行主体可以按照请求指示的路径，从数据库或公共资源中获取候选产业链知识图谱。又例如，产业链企业的人员也可以通过企业终端，将候选产业链知识图谱的数据发送给执行主体。这里的候选产业链知识图谱可以是表征在任一产业中，科研项目实体与物品实体之间关系的知识图谱，如电子产品生产技术知识图谱或者制造设备知识图谱等等。

步骤102，对候选产业链知识图谱中的实体数据进行预处理，得到候选数据。

需要说明的是，现有的产业链知识图谱在不同技术如何支撑产品方面分析的不够全面，只停留在图谱表面分析，并没有更深的分析节点之间的关系。随着产业的不断发展，产业未来的发展往往需要高新技术的支持。因此高科技如何支撑我们产业的发展迫切需要我们去做分析。

在这里，执行主体可以对候选产业链知识图谱中的实体数据进行预处理，以得到候选数据。其中，实体数据一般可以包括项目实体数据和物品实体数据。这里的项目实体数据通常是表征项目信息的节点数据。而物品实体数据通常是表征物品信息的节点数据。可以理解的是，预处理方式在这里并不限制，可以根据实际情况进行设置。

在一些实施例中，如果执行主体接收到的候选产业链知识图谱为图片格式，则执行主体首先可以对该图谱进行识别，从而提取其中的项目实体数据和物品实体数据，将其整理为可编辑的文档。例如，可以根据图片中的节点识别得到实体集合。接着，可以采用命名实体识别技术，从实体集合中筛选出所需的实体数据。此时可以对这些实体数据进行整理、清洗和转换。例如，可以按照不同行业将数据划分整理为不同组。又例如，可以将数据转换为统一格式以便于后续处理。如果执行主体接收到的候选产业链知识图谱为其他数据格式，如结构化数据，则执行主体可以直接进行筛选清洗、整理和转换等。

步骤103，将候选数据输入句向量预训练模型，输出得到句子向量。

在一些实施例中，执行主体可以将步骤102中得到的候选数据输入句向量预训练模型，从而通过该模型输出得到句子向量。其中，句子向量通常包括项目句子向量和物品句子向量。这里的句向量预训练模型（Sentence-BERT，SBERT）通常是一种基于BERT模型的句子嵌入（sentence embedding）模型。其中，BERT一般为Bidirectional EncoderRepresentations from Transformers的缩写，被称为来自变换器的双向编码器表征量。

需要说明的是，本公开实施例采用SBERT模型往往具有以下优势：一个是句子级别语义表示：传统的词嵌入模型（如Word2Vec、GloVe）主要关注词级别的语义表示，而SBERT可以专注于句子级别的语义表示。它通过对整个句子进行编码，可以捕捉句子的语义信息和上下文关系，从而生成更丰富的句子嵌入。另一个是上下文感知：SBERT使用预训练的BERT模型作为基础，可以利用Transformer架构对句子进行建模。这使得SBERT能够更好地理解句子中的上下文信息，包括词的顺序、依赖关系和语义关联，从而更准确地捕捉句子的语义。

步骤104，基于项目句子向量与物品句子向量之间的相似度，确定项目实体与物品实体之间的关系。

在一些实施例中，执行主体可以基于项目句子向量与物品句子向量之间的相似度，来确定项目实体与物品实体之间的关系。作为示例，对于同一物品句子向量所指示的物品实体，执行主体可以将与之相似度值最大的项目句子向量所指示的项目实体，确定为与该物品实体存在关联关系。

可以理解的是，执行主体可以通过多种方式来确定两个句子向量之间的相似度，如Text Rank算法，通常为一种用于文本的基于图的排序算法。又例如，执行主体也可以利用归一化指数函数（softmax），来确定项目句子向量与物品句子向量之间的相似度。这样有助于提高相似度结果的准确度。

具体地，首先，执行主体可以确定项目句子向量与物品句子向量之间的向量差。接着，可以对向量差、项目句子向量和物品句子向量进行拼接处理，从而得到拼接向量。之后，根据拼接向量和归一化类概率分类器（即softmax分类器），可以得到项目句子向量与物品句子向量的相似度。

需要说明的是，由于输入SBERT模型的句子长度不一，但是输入softmax分类器时一般需要统一长度的向量，因此当句子从BERT模型输出后可以进行池化（pooling）操作。然后将得到的向量u，v，|u-v|三者进行拼接。其中，向量|u-v|是将向量u和向量v按位相减的结果。将得到的拼接向量再乘权重Wt后，可以输入到softmax分类器中。其中，，n表示向量的维度，k表示标签（label）的数量。从而得到分类结果（即两句子向量之间的相似度）为：

；

在一些实施例中，向量拼接方式同样不限制，例如可以采用水平拼接或者垂直拼接。可以理解的是，不同的拼接方式在表示信息的方式上略有差异。如水平拼接和垂直拼接可以保留每个向量的完整信息，但会增加向量的维度。可选地，这里可以采用逐元素拼接（Element-wise Concatenation）。即可以将三个向量按照元素逐个进行拼接，形成一个更长的向量。拼接后的向量的维度通常是三个向量维度之和，但向量中的元素顺序一般与原始向量保持一致。也就是说，逐元素拼接可以将三个向量的元素进行有序组合，同时保持维度不变。这样可以避免增加拼接向量的数据量，减少资源占用。

另外，在语义匹配任务中，逐元素拼接可以使得拼接后的向量更丰富地包含了原始向量的信息。通过将u、v和|u-v|的对应元素进行拼接，新的向量可以同时包含u和v的语义特征，以及它们之间的差异特征。这样可以更全面地表示两个句子之间的语义关系，从而有助于提高相似度的确定准确度。此外，逐元素拼接方式对于不同长度的句子也更加灵活，不需要将其填充或截断到相同的长度。这在处理变长的句子时具有优势，可以简化处理过程，有利于提高拼接效率。

可选地，为了能够更好地描述各物品实体与项目实体之间的关系，执行主体可以通过目标阈值来确定实体间的关联关系。例如，若相似度值大于目标阈值，则执行主体可以确定该相似度值对应的项目实体与物品实体存在关联关系。这样可以体现出更多的实体关系，从而有利于后续挖掘分析出更多的节点关系，以丰富和完善知识图谱。

需要说明的是，SBERT模型的另一个优势在于句子相似度度量，其能够度量句子之间的相似度。通过将句子嵌入映射到向量空间，可以使用向量之间的距离或相似度度量来评估句子的相似程度。这对于句子匹配、聚类和检索任务非常有用。

步骤105，根据项目实体与物品实体之间的关系、项目实体对应的技术数据，建立物品实体与技术数据的关系。

在一些实施例中，根据项目实体与物品实体之间的关系，以及项目实体对应的技术数据，执行主体可以建立物品实体与技术数据的关系。可以理解的是，一般科研项目和使用的技术是有直接关系的。为了分析不同技术对产业的支撑情况，就需要将技术和产品关联起来。

例如，对于步骤104确定的存在关联关系的项目实体和物品实体，执行主体可以将该项目实体所使用的技术数据，与该物品实体建立关联关系。也就是说，将关联关系所指示的项目实体所使用的技术数据，与关联关系所指示的物品实体建立关联关系。从而实现更深层次的分析，完成不同科学技术在产品支撑方面的研究。

在一些实施例中，如果某个项目中包含多个技术，那么执行主体可以将这些技术数据都与对应的物品实体建立关系。或者，执行主体可以按照重要等级从中选取至少一个技术，以与物品实体建立关系。

步骤106，根据物品实体与技术数据的关系，生成新的三元组图谱数据；将三元组图谱数据发送给产业链企业的终端，以控制产业链企业相关物品的生产。

在一些实施例中，根据物品实体与技术数据的关系，执行主体可以生成新的三元组图谱数据。可以理解的是，关联之后的数据往往需要进行展示和分析，这就需要转换成新的知识图谱。对一系列复杂产品指标的数据进行清洗工作。可以按照预先定义的复杂产品本体结构，将“产品-关系-实体”定义为离散型关系三元组，将结构化数据转化为图谱三元组形式，作为知识表示学习算法的数据集。也就是说，通过本公开实施例中方法分析后，可以得到物品-关系-技术的三元组图谱数据。例如图2A所示，上侧为原来的候选产业链知识图谱，下侧为生成的新知识图谱。

进一步地，执行主体可以将生成的三元组图谱数据发送给产业链企业所使用的终端，以进行产业链企业相关物品的生产控制。其中，相关物品通常为产业链企业负责设计研发、生产、拥有所有权中至少一种的产品。例如发送给产业链企业的终端后，企业研发人员可以根据生成的新三元组图谱数据中表示的关系，可以利用技术数据对关联的企业物品（即关系所指示的物品实体）进行生产。即将技术数据所指示的技术应用到产品的生产，从而实现产品的更新迭代升级。这样可以使得产品质量更高或者功能更加全面，从而有利于提高产品的销量和生产数量。或者可以改善产品的生产工艺，从而提升产品的生产效率。

在一些实施例中，执行主体可以将三元组图谱数据存入图数据库，以代替候选产业链知识图谱。可以把得到的数据以三元组形式存入到图数据库Huge Graph中。在HugeGraph数据库中实体以及实体之间的关系通常用csv（Comma-Separated Values，逗号分隔值）表格的方式进行保存。

通过以上描述可知，本公开实施例的基于科技知识图谱的产业链分析应用方法，可以对现有产业链知识图谱建立更深的关系。从而能够得到将不同技术可以应用于哪些物品的生产，提高物品的质量或生产效率。具体地，对于现有的产业链知识图谱，通过使用语义分析的方式将产品和项目名称之间建立关系。即利用句子级别的语义信息进行匹配分析。由于句子比词包含了更多的信息，因此可以提高关系确定的准确度。然后，再根据科研项目和使用技术之间的关系，对产品和研究成果技术建立关系，以生成更加完善的产业链知识图谱。如图2A所示，相比于原有的知识图谱，新知识图谱包含了更多的关系信息。

也就是说，本发明在现有知识图谱基础之上，以其中的物品节点和项目节点为数据基础，通过使用语义匹配技术，可以对科学研究成果和产业进行关系建立，分析成果技术可以对哪些产业（产品）有研发或生产的支撑作用，从而找到产业可以使用的成果技术。也因为生成的新三元组图谱数据，分析了技术数据与物品实体之间的关系。从而可以根据该关系，将技术数据所指示的技术应用到对应产品的生产中。这样有助于产品的更新升级或生产工艺改进，使得产品质量更高或者功能更加全面。进而有利于提高产品的生产效率、生产数量和出库数量中的至少一种。

在现有的知识图谱分析系统，产品和技术知识之间相当于词和词的直接匹配。这种匹配方式往往比较困难，通常不能够解决科学研究成果和产业之间关系的建立问题。本公开实施例通过使用语义匹配分析技术，可以对产品和科技知识建立关系。为以后分析科学研究成果和产品之间关系做铺垫，可以知道科技成果对产品的支撑作用。

在一些实施例中，基于本公开实施例中方法得到的知识图谱，还可以对新的技术成果能够应用到哪些产品的生产上，尤其是知识图谱中未涉及到的技术，起到参考指导作用。具体地，对于接收到的新技术数据，首先，执行主体可以确定三元组图谱数据中，与新技术数据相似的技术数据，以作为目标技术数据。接着，可以将三元组图谱数据中，与目标技术数据关联的物品实体，确定为目标物品实体。之后，根据目标物品实体的数据，可以生成新技术数据的应用推荐信息。其中，应用推荐信息可以用于表征技术可应用于哪些物品（产品或产业），即可对哪些物品产生支撑影响作用。而应用推荐信息的具体内容在这里并不限制。

另外，可以将该应用推荐信息发送给生产目标物品的产业链企业的终端，以利用新技术数据进行目标物品的生产。这里的目标物品通常为与上述目标物品实体所指示的物品相同或相近的物品。这样根据应用推荐信息，企业研发人员可以将最新技术运用到对应产品或产业中，以起到生产支撑作用。进而实现产品的更新升级，促进企业产品的销量和生产数量。

上述相关内容作为本公开实施例的一个发明点，解决了背景技术提及的技术问题二：对于研发出的新技术，通过现有产业链知识图谱往往也很难分析出，这些新技术能够应用到哪些现有产品的改进生产上，从而影响产品的更新周期。导致产品更新周期较长的因素之一在于：在现有知识图谱应用中，通常是以知识图谱中包含的内容作为参考。对于知识图谱中未涉及的内容数据，如科技上新研发出的技术，往往参考价值不大。也就是说，通过现有知识图谱，更无法得到图谱中未包含的新技术能够应用到哪些产品上。这样会导致需要花费很长时间进行现有产品的更新研发，从而影响产品的更新周期。

如果解决了上述因素，就能够实现依据产业知识图谱，将新技术应用到产品生产的可能性，从而缩短产品更新周期的效果。为了达到这一效果，本公开实施例通过计算技术数据之间的相似度，从而可以在三元组图谱中找到与新技术相似的技术。进而可以将新技术应用到与相似技术关联的物品实体上，以进行物品的改进生产。这样有利于缩短产品的更新研发时长，加快新产品的生产，从而促进企业产品的销量和生产数量。

在一些实施例中，相似技术数据的确定方法可以根据实际情况进行设置。例如，为了提高确定结果的准确度，执行主体同样可以采用上述语义相似度方法。即对两个技术数据的句子向量进行拼接，得到拼接向量。再利用softmax分类器对拼接向量进行处理，从而得到两个技术数据的相似度。

可选地，为了进一步提高相似技术的确定准确度，对于三元组图谱数据中的各技术数据，首先可以确定该技术数据与新技术数据之间的语义相似度；接着，分别获取与该技术数据相关的第一专利文献数据，以及与新技术数据相关的第二专利文献数据；然后，根据第一专利文献数据和第二专利文献数据，确定该技术数据与新技术数据的技术领域相似度；最后，基于语义相似度和技术领域相似度，确定该技术数据与新技术数据的相似度。在这里，可以将三元组图谱数据中相似度值最大的技术数据，确定为与新技术数据相似的技术数据。

具体地，执行主体可以利用公共的专利资源网站，来获取涉及新技术数据的候选专利文献，从而从中选取得到第二专利文献数据。可选地，为了提高技术领域相似度（TFS，Technical Field Similarity）的确定准确度，也可以仅获取以新技术数据为主要发明点的专利文献，以作为第二专利文献数据。接着，可以统计各第二专利文献数据中包含的IPC（International Patent Classification，国际专利分类）号。第一专利文献数据同样可以采用上述方法得到，进而统计各第一专利文献数据中包含的IPC号。将技术领域相似度表示为：

；

其中，为第一专利文献数据中的第/>件专利的所有IPC号；/>为第二专利文件数据中的第/>件专利的所有IPC号；/>表示三元组图谱数据中的每个技术数据与新技术数据，在技术领域相似度的第/>个专利对；/>表示三元组图谱数据中的每个技术数据与新技术数据，在技术领域相似度的专利对的数量，属于/>的专利对表示为：

；

其中，。

上述公式及其相关内容作为本公开的实施例的一个发明点，解决了背景技术提及的技术问题三：采用单一的相似度分析方法所确定的实体关系（如技术之间的相似度），其准确度无法得到保证。从而影响技术能应用到产品生产的可行性概率，造成产品原材料的浪费。导致成功利用新技术生产产品的概率较低的因素之一在于：在确定新技术可以用于哪些产品生产时，是根据两个技术之间的相似度得到的。然而，现有知识图谱在进行实体关系分析时，通常采用单一的相似度分析方法。然而，由于不同相似度方法侧重点不同，因此采用不同相似度分析方法得到的结果，往往会存在一定的差异。这就会使得确定结果的准确性无法得到保证。也就是说，如果采用单一相似度分析方法，来确定与新技术相似的技术，那么确定的相似技术不一定准确。这样就会导致后续生成的新技术数据的应用推荐信息不准确。从而影响该新技术能够应用到目标产品生产的可行性概率，即利用新技术成功生产目标产品的概率。

为解决上述因素，提高利用新技术生产产品的成功概率，本公开实施例中，通过结合多种相似度来确定相似技术，可以综合各相似度方法的分析结果，而不仅仅依赖单一方法。这样能够大大提高确定结果的准确性，尤其对于从字面上看不太相关的技术数据。通过分析两者的技术领域相似度，有助于确定两个技术是否能够应用到同一产业或物品上。可以理解的是，相似技术确定的准确性，往往会直接影响后续生成的新技术的应用推荐信息的准确性。准确的应用推荐信息，可以大大提高新技术应用到对应物品的成功概率，从而有利于减少资源浪费。

在这里，执行主体可以对语义相似度和技术领域相似度进行加权求和，从而得到两个技术数据之间的相似度。其中，权重可以根据实际情况进行设置。可选地，为了使设置的权重更加合理，降低人为因素的影响，可以采用AHP-熵权法来对语义相似度和技术领域相似度进行组合赋权。其中，AHP通常为Analytic Hierarchy Process的简称，称为层次分析法，一般是对定性问题进行定量分析的一种简便、灵活而又实用的多准则决策方法。采用这种方式既可以取两者之长，又可以克服AHP法主观随意性强，以及熵权法仅凭数据判断具有机械性的缺点。可以使赋权结果更加符合实际。

组合赋权方式具体为：

；

其中，、/>分别为AHP发、熵权法占组合权重的比重，/>；/>、/>分别表示AHP发、熵权法所得权重。

可以理解的是，通常情况下，我们认为主观经验判断与客观数据分析，对评价对象权重赋予同样重要。因此这里可以将两者比重（和/>）均设置为0.5。在这里，AHP发权重赋予步骤可以为首先确定指标集合，构建重要性毗邻判断矩阵；接着通过以下公式对各指标进行归一化处理，从而得到指标权重：

；

其中，表示判断矩阵的列数；/>表示判断矩阵的行数。即计算判断矩阵每行中各个元素的乘积，再计算元素乘积的次/>方，对向量进行归一化处理。该向量即为所求权重向量。

进一步地，熵权法全中赋予步骤一般为首先构建对象评价矩阵，对指标数值通过min-max法进行标准化；之后通过信息熵公式得到指标熵值；最后基于指标熵值得到指标熵权：

；

其中，为通过min-max法进行归一化后的矩阵元素；/>表示第/>个指标特征的熵值。由此可以得到各个指标特征的权重为：

；

结合以上描述，可以得到新技术数据与三元组图谱中各技术数据之间的相似度为：

；

其中，、/>分别表示语义相似度/>、技术领域相似度/>的组合权重。/>

上述公式及其相关内容作为本公开的实施例的一个发明点，解决了背景技术提及的技术问题三：采用单一的相似度分析方法所确定的实体关系（如技术之间的相似度），其准确度无法得到保证。从而影响技术能应用到产品生产的可行性概率，造成产品原材料的浪费。

为此，为了提高利用新技术生产产品的成功概率，本公开实施例中结合了多种相似度来确定相似技术。通过设置组合权重，可以综合各相似度方法的分析结果，而不仅仅依赖单一方法。而组合权重的设置方法，同样会影响相似技术确定的准确度。在这里，本实施例通过采用AHP-熵权法，来对语义相似度和技术领域相似度进行组合赋权，进而求得两种技术数据的相似度。可以使设置的权重更加合理，降低人为因素的影响。这样有助于提高相似技术确定的准确度，提升应用推荐信息的可参考性。从而提高新技术成功应用于产品生产的概率，降低生产材料的浪费。

可以理解的是，应用推荐信息的可靠性，往往会直接影响到物品的生产和更新。准确可靠的应用推荐信息，可以大大降低新技术应用到对应物品失败的概率，从而有利于减少资源浪费。

另外，执行主体在将该应用推荐信息发送给用户后，相关研发人员可以根据该信息，进行新技术应用到相应物品的研发实验。此外，如果经过实际数据验证该应用推荐信息准确，那么还可以根据该信息来进一步更新完善上述三元组图谱数据。

继续参考图2B，作为对上述图1所示产业链分析应用方法的实现，本公开提供了基于科技知识图谱的产业链分析应用装置的一些实施例，这些装置实施例与图1所示的那些方法实施例相对应，该基于科技知识图谱的产业链分析应用装置具体可以应用于各种电子设备中。

如图2B所示，一些实施例的基于科技知识图谱的产业链分析应用装置200可以包括：获取单元201，被配置成响应于接收到产业链企业的终端发送的数据分析请求，获取数据分析请求所指示的候选产业链知识图谱；预处理单元202，被配置成对候选产业链知识图谱中的实体数据进行预处理，得到候选数据，其中，实体数据包括项目实体数据和物品实体数据；向量确定单元203，被配置成将候选数据输入句向量预训练模型，输出得到句子向量，其中，句子向量包括项目句子向量和物品句子向量；项目关系确定单元204，被配置成基于项目句子向量与物品句子向量之间的相似度，确定项目实体与物品实体之间的关系；技术关系确定单元205，被配置成根据项目实体与物品实体之间的关系、项目实体对应的技术数据，建立物品实体与技术数据的关系；新图谱生成单元206，被配置成根据物品实体与技术数据的关系，生成新的三元组图谱数据；发送单元207，被配置成将三元组图谱数据发送给产业链企业的终端，以控制产业链企业相关物品的生产。

在一些实施例中，该产业链分析应用装置200还可以包括相似度确定单元（图中未示出），被配置成利用归一化指数函数，确定项目句子向量与物品句子向量之间的相似度。

在一些实施例中，相似度确定单元可以进一步被配置成确定项目句子向量与物品句子向量之间的向量差；对向量差、项目句子向量和物品句子向量进行拼接处理，得到拼接向量；根据拼接向量和归一化类概率分类器，得到项目句子向量与物品句子向量的相似度。

在一些实施例中，项目关系确定单元203可以进一步被配置成响应于相似度值大于目标阈值，确定对应的项目实体与物品实体存在关联关系；以及技术关系确定单元204可以进一步被配置成将关联关系所指示的项目实体所使用的技术数据，与关联关系所指示的物品实体建立关联关系。

在一些实施例中，新图谱生成单元206进一步被配置将三元组图谱数据存入图数据库，以代替候选产业链知识图谱。

在一些实施例中，该产业链分析应用装置200还可以包括推荐信息生成单元（图中未示出），被配置成响应于接收到新技术数据，确定三元组图谱数据中，与新技术数据相似的技术数据，以作为目标技术数据；将三元组图谱数据中，与目标技术数据关联的物品实体，确定为目标物品实体；根据目标物品实体的数据，生成新技术数据的应用推荐信息，以及输出应用推荐信息；将应用推荐信息发送给生产目标物品的产业链企业的终端，以利用新技术数据进行目标物品的生产。

在一些实施例中，推荐信息生成单元可以进一步被配置成对于三元组图谱数据中的各技术数据，确定该技术数据与新技术数据之间的语义相似度；分别获取与该技术数据相关的第一专利文献数据，以及与新技术数据相关的第二专利文献数据；根据第一专利文献数据和第二专利文献数据，确定该技术数据与新技术数据的技术领域相似度；基于语义相似度和技术领域相似度，确定该技术数据与新技术数据的相似度；将三元组图谱数据中相似度值最大的技术数据，确定为与新技术数据相似的技术数据。

可以理解的是，该产业链分析应用装置200中记载的诸单元与参考图1描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作、特征以及产生的有益效果同样适用于产业链分析应用装置200及其中包含的单元，在此不再赘述。

下面参考图3，其示出了适于用来实现本公开的一些实施例的电子设备（例如的服务器）300的结构示意图。图3示出的电子设备仅仅是一个示例，不应对本公开的实施例的功能和使用范围带来任何限制。

如图3所示，电子设备300可以包括处理装置301（例如中央处理器、图形处理器等），其可以根据存储在只读存储器（ROM）302中的程序或者从存储装置308加载到随机访问存储器（RAM）303中的程序而执行各种适当的动作和处理。在RAM 303中，还存储有电子设备300操作所需的各种程序和数据。处理装置301、ROM 302以及RAM 303通过总线304彼此相连。输入/输出（I/O）接口305也连接至总线304。

通常，以下装置可以连接至I/O接口305：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置306；包括例如液晶显示器（LCD）、扬声器、振动器等的输出装置307；包括例如磁带、硬盘等的存储装置308；以及通信装置309。通信装置309可以允许电子设备300与其他设备进行无线或有线通信以交换数据。虽然图3示出了具有各种装置的电子设备300，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图3中示出的每个方框可以代表一个装置，也可以根据需要代表多个装置。

特别地，根据本公开的一些实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的一些实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的一些实施例中，该计算机程序可以通过通信装置309从网络上被下载和安装，或者从存储装置308被安装，或者从ROM 302被安装。在该计算机程序被处理装置301执行时，执行本公开的一些实施例的方法中限定的上述功能。

需要说明的是，本公开的一些实施例中记载的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的一些实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的一些实施例中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF（射频）等等，或者上述的任意合适的组合。

在一些实施方式中，客户端、服务器可以利用诸如HTTP（Hyper Text TransferProtocol，超文本传输协议）之类的任何当前已知或未来研发的网络协议进行通信，并且可以与任意形式或介质的数字数据通信（例如，通信网络）互连。通信网络的示例包括局域网（“LAN”），广域网（“WAN”），网际网（例如，互联网）以及端对端网络（例如，ad hoc端对端网络），以及任何当前已知或未来研发的网络。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：响应于接收到产业链企业的终端发送的数据分析请求，获取数据分析请求所指示的候选产业链知识图谱；对候选产业链知识图谱中的实体数据进行预处理，得到候选数据，其中，实体数据包括项目实体数据和物品实体数据；将候选数据输入句向量预训练模型，输出得到句子向量，其中，句子向量包括项目句子向量和物品句子向量；基于项目句子向量与物品句子向量之间的相似度，确定项目实体与物品实体之间的关系；根据项目实体与物品实体之间的关系、项目实体对应的技术数据，建立物品实体与技术数据的关系；根据物品实体与技术数据的关系，生成新的三元组图谱数据；将三元组图谱数据发送给产业链企业的终端，以控制产业链企业相关物品的生产。

此外，可以以一种或多种程序设计语言或其组合来编写用于执行本公开的一些实施例的操作的计算机程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网（LAN）或广域网（WAN）——连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开的一些实施例中的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括获取单元、预处理单元、向量确定单元、项目关系确定单元、技术关系确定单元、新图谱生成单元和发送单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，获取单元还可以被描述为“获取数据分析请求所指示的候选产业链知识图谱的单元”。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、片上系统（SOC）、复杂可编程逻辑设备（CPLD）等等。

以上描述仅为本公开的一些较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开的实施例中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的（但不限于）具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种基于科技知识图谱的产业链分析应用方法，包括：

响应于接收到产业链企业的终端发送的数据分析请求，获取所述数据分析请求所指示的候选产业链知识图谱；

对所述候选产业链知识图谱中的实体数据进行预处理，得到候选数据，其中，所述实体数据包括项目实体数据和物品实体数据；

将所述候选数据输入句向量预训练模型，输出得到句子向量，其中，所述句子向量包括项目句子向量和物品句子向量；

基于所述项目句子向量与所述物品句子向量之间的相似度，确定项目实体与物品实体之间的关系；

根据项目实体与物品实体之间的关系、项目实体对应的技术数据，建立物品实体与技术数据的关系；

根据物品实体与技术数据的关系，生成新的三元组图谱数据；

将所述三元组图谱数据发送给所述产业链企业的终端，以控制所述产业链企业相关物品的生产。

2.根据权利要求1所述的产业链分析应用方法，其中，所述方法还包括：

利用归一化指数函数，确定所述项目句子向量与所述物品句子向量之间的相似度。

3.根据权利要求2所述的产业链分析应用方法，其中，所述利用归一化指数函数，确定所述项目句子向量与所述物品句子向量之间的相似度，包括：

确定所述项目句子向量与所述物品句子向量之间的向量差；

对所述向量差、所述项目句子向量和所述物品句子向量进行拼接处理，得到拼接向量；

根据所述拼接向量和归一化类概率分类器，得到所述项目句子向量与所述物品句子向量的相似度。

4.根据权利要求1所述的产业链分析应用方法，其中，所述基于所述项目句子向量与所述物品句子向量之间的相似度，确定项目实体与物品实体之间的关系，包括：

响应于相似度值大于目标阈值，确定对应的项目实体与物品实体存在关联关系；以及

所述建立物品实体与技术数据的关系，包括：

将所述关联关系所指示的项目实体所使用的技术数据，与所述关联关系所指示的物品实体建立关联关系。

5.根据权利要求1所述的产业链分析应用方法，其中，所述方法还包括：

将所述三元组图谱数据存入图数据库，以代替所述候选产业链知识图谱。

6.根据权利要求1-5之一所述的产业链分析应用方法，其中，所述方法还包括：

响应于接收到新技术数据，确定所述三元组图谱数据中，与所述新技术数据相似的技术数据，以作为目标技术数据；

将所述三元组图谱数据中，与所述目标技术数据关联的物品实体，确定为目标物品实体；

根据所述目标物品实体的数据，生成所述新技术数据的应用推荐信息；

将所述应用推荐信息发送给生产目标物品的产业链企业的终端，以利用所述新技术数据进行所述目标物品的生产。

7.根据权利要求6所述的产业链分析应用方法，其中，所述确定所述三元组图谱数据中，与所述新技术数据相似的技术数据，包括：

对于所述三元组图谱数据中的各技术数据，确定该技术数据与所述新技术数据之间的语义相似度；

分别获取与该技术数据相关的第一专利文献数据，以及与所述新技术数据相关的第二专利文献数据；

根据所述第一专利文献数据和所述第二专利文献数据，确定该技术数据与所述新技术数据的技术领域相似度；

基于所述语义相似度和所述技术领域相似度，确定该技术数据与所述新技术数据的相似度；

将所述三元组图谱数据中相似度值最大的技术数据，确定为与所述新技术数据相似的技术数据。

8.一种基于科技知识图谱的产业链分析应用装置，包括：

获取单元，被配置成响应于接收到产业链企业的终端发送的数据分析请求，获取所述数据分析请求所指示的候选产业链知识图谱；

预处理单元，被配置成对所述候选产业链知识图谱中的实体数据进行预处理，得到候选数据，其中，所述实体数据包括项目实体数据和物品实体数据；

向量确定单元，被配置成将所述候选数据输入句向量预训练模型，输出得到句子向量，其中，所述句子向量包括项目句子向量和物品句子向量；

项目关系确定单元，被配置成基于所述项目句子向量与所述物品句子向量之间的相似度，确定项目实体与物品实体之间的关系；

技术关系确定单元，被配置成根据项目实体与物品实体之间的关系、项目实体对应的技术数据，建立物品实体与技术数据的关系；

新图谱生成单元，被配置成根据物品实体与技术数据的关系，生成新的三元组图谱数据；

发送单元，被配置成将所述三元组图谱数据发送给所述产业链企业的终端，以控制所述产业链企业相关物品的生产。

9.一种电子设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的产业链分析应用方法。

10.一种计算机可读介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时，实现如权利要求1-7中任一所述的产业链分析应用方法。