CN113326361A

CN113326361A - 一种基于汽车产业图谱知识问答方法、系统及电子设备

Info

Publication number: CN113326361A
Application number: CN202110570006.2A
Authority: CN
Inventors: 熊盛武; 马彪; 陈小英
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2021-05-25
Filing date: 2021-05-25
Publication date: 2021-08-31
Anticipated expiration: 2041-05-25
Also published as: CN113326361B

Abstract

本发明公开了一种基于汽车产业图谱知识问答方法、系统及电子设备，首先针对湖北省汽车产业内产业数据构建完善的产业图谱；将产业图谱进行嵌入表示，得到产业图谱内实体与关系的向量表示；然后依据使用者提出的问题进行分词解析，并对其进行处理得到问句的低维表示嵌入，其维度与产业图谱的表示嵌入相同；最后，在已知产业图谱表征、每个三元组的得分以及问句的表征后，需要对候选答案进行推理筛选，即以问句表示的实体为中心，沿着关系路径进行推理得到答案实体。本发明展示了湖北省汽车产业的发展现状，为使用者对于产业图谱内的海量信息提供了一种高级便捷的检索方式。

Description

一种基于汽车产业图谱知识问答方法、系统及电子设备

技术领域

本发明属于智能问答与知识图谱技术领域，具体涉及到基于湖北省汽车产业数据构建的产业图谱的知识问答方法、系统及电子设备。

背景技术

随着人工智能技术的不断发展，知识图谱也随之不断演化进步，其规模和深度日趋变得扩大。大数据所支撑的大规模知识图谱在各个领域都扮演着重要的角色，包括信息检索、智能问答、推荐系统等等。同样地，湖北省汽车产业内的数据包括了企业、项目、地区和子类产业等等不同维度的信息。这样一个以湖北省汽车产业投资数据为基础的产业图谱，不仅涵盖了汽车产业布局、发展分布以及各个子类产业之间的上下游关系，而且通过整合项目的相关信息，可以体现汽车产业子类的发展情况。除此之外，汽车子类产业在不同地区的分布情况也可以代表着地方汽车产业的发展现状和趋势。

基于知识图谱的知识问答是对于知识图谱信息检索的一种更高级的方式，使用者不需要了解结构和存储信息就可以与知识图谱进行交互。现有的基于知识图谱的知识问答方法可以分成三大类：

1.基于语义解析的方法，这种方式偏向于语言学，主要思想是对问句构建逻辑形式，通过相应的查询语句在知识图谱中查询答案；

2.基于信息抽取的方法，这种方法通过抽取问句中的实体和关系，通过子图和分类器等对候选答案进行筛选；

3.基于深度学习的方法，这种方法是自深度学习的发展应运而生，并逐渐成为主流的方法。

目前对于中文知识图谱的知识问答并没有一个统一的解决方法，而且在构建问答系统的过程中，对于知识图谱的表示嵌入很多都直接采用现有的表示方法。但是对于产业图谱内的数据来说并不适用，因为产业图谱内拥有大量表征实体属性的属性三元组。

发明内容

为了解决上述技术问题，本发明提出了一种基于汽车产业图谱知识问答方法、系统及电子设备，从而让使用者更加方便、快捷地了解到产业内的信息，同时对于产业图谱内大量的属性三元组和关系三元组设计了一个新的表示方法。

本发明的方法所采用的技术方案是：一种基于汽车产业图谱知识问答方法，包括以下步骤：

步骤1：针对汽车产业数据，构建完整的汽车产业图谱，并从中获取代表产业发展的三元组数据；

所述汽车产业包括汽柴油整车制造产业，新能源整车制造产业，汽车用发动机制造产业，改装汽车制造产业，低速汽车制造产业，电车制造产业，汽车车身产业、挂车制造产业和汽车零部件及配件制造产业；

所述汽车产业数据包括产业结构、产业分布和产业布局数据；

三元组数据一般包括两个实体和它们之间的关系，一般形式为(h,r,t)，其中h为头实体，r为实体间的关系，t为尾实体；

产业图谱内的信息大概包括了企业、项目、产业、地区等维度，其中，地区的下辖关系(如(武汉市，下辖，洪山区)这样的三元组)作为客观事实存在，企业和地区之间的“位于”关系(如(xx公司，位于，江夏区))体现了企业在地区上的分布情况，企业实施的项目体现了企业在产业中的结构地位以及与其他企业之间的关系(如(xx公司，实施，A项目)，A项目在产业中所处的上下游地位体现了改企业在产业中的结构地位)，项目与产业之间的关系是产业分布的直接体现(如(A项目，属于，汽车零部件及配件制造产业))，某一个汽车子类产业所属的项目多，则该类汽车子类产业在整体汽车产业发展中就占据主导地位。

步骤2：使用基于TransE模型的关系三元组和属性三元组联合嵌入，将产业图谱进行表示嵌入，得到产业图谱内的实体和关系的表示向量，将产业图谱转化为知识表示；为后续的答案推理做准备；

步骤3：问题分析；

对输入的问题进行分词处理，得到其中可能代表产业内的实体和关系，并使用预训练模型获得与图谱中实体和关系维度统一的向量表示；

步骤4：答案选择；

在产业图谱中可能的候选实体进行打分排序，从而获得得分最高的实体；

步骤5：将最终得到的实体作为答案返回给使用者。

本发明的系统所采用的技术方案是：一种基于汽车产业图谱知识问答系统，包括以下模块：

模块1，用于针对汽车产数据，构建完整的汽车产业图谱，并从中获取代表产业发展的三元组数据；

模块2，用于使用基于TransE模型的关系三元组和属性三元组联合嵌入，将产业图谱进行表示嵌入，得到产业图谱内的实体和关系的表示向量，将产业图谱转化为知识表示；为后续的答案推理做准备；

模块3，用于问题分析；

模块4，用于答案选择；

模块5，用于将最终得到的实体作为答案返回给使用者。

本发明的电子设备所采用的技术方案是：一种电子设备，包括一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现基于汽车产业图谱知识问答方法。

本发明的有益之处在于：本发明基于构建完整的汽车产业图谱，结合投资项目的相关时间、金额等属性，可以表征出地方上产业发展的现状和趋势。通过对于用户提出的问句进行解析，本发明能够将用户想要检索的信息输入到产业图谱内，并在产业图谱内沿着路径检索出相应的实体作为答案，并返回答案提供给用户。

附图说明

图1为本发明实施例的方法流程图；

图2为本发明实施例的方法原理示意图；

图3为本发明实施例关系三元组和属性三元组联合嵌入示意图。

具体实施方法

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

请见图1、图2和图3，本发明提供的一种基于汽车产业图谱知识问答方法，结合立足于湖北省汽车产业的发展数据构建的产业图谱，以用户提出的问句作为输入，经过对于问句的处理、产业图谱的表示嵌入以及多跳推理的过程之后，最终将用户想要检索的答案返回。在实际应用中，应该按照以下步骤顺序执行，从而才能正确得到用户想要检索的答案。

具体包括以下步骤：

步骤1：针对湖北省汽车产业的发展数据，构建完整的汽车产业产业图谱，并从中获取代表产业事实的三元组数据，这些数据将会作为后续检索答案的依据；

其中，每个企业投资的项目所隶属的汽车子类产业总计有八种：汽柴油整车制造，新能源整车制造，汽车用发动机制造，改装汽车制造，低速汽车制造，电车制造，汽车车身、挂车制造和汽车零部件及配件制造。在原始数据当中，很多的企业在申报项目时填写的汽车子类产业并不够精确，这种情况下会对后续的实施造成误差。因此在实际实施当中应当严格按照八个汽车子类产业的定义重新人工核查。以保证后续步骤得到的结果准确。

其中，三元组数据一般包括两个实体和它们之间的关系，一般形式为(h,r,t)，其中h为头实体，r为实体间的关系，t为尾实体，如(武汉市，下辖，江夏区)。

本实施例的产业图谱内的信息大概包括了企业、项目、产业、地区等维度，其中，地区的下辖关系(如(武汉市，下辖，洪山区)这样的三元组)作为客观事实存在，企业和地区之间的“位于”关系(如(xx公司，位于，江夏区))体现了企业在地区上的分布情况，企业实施的项目体现了企业在产业中的结构地位以及与其他企业之间的关系(如(xx公司，实施，A项目)，A项目在产业中所处的上下游地位体现了改企业在产业中的结构地位)，项目与产业之间的关系是产业分布的直接体现(如(A项目，属于，汽车零部件及配件制造产业))，某一个汽车子类产业所属的项目多，则该类汽车子类产业在整体汽车产业发展中就占据主导地位。

步骤2：对产业图谱内的三元组数据进行表示嵌入，得到产业图谱内实体和关系的表示嵌入；

由于产业图谱内拥有大量的属性三元组，而传统的知识图谱嵌入表示方法又很少涉及到属性三元组。因此本实例设计了一种基于TransE模型进行关系三元组和属性三元组的联合嵌入方法，将产业图谱转化为知识表示向量。

在本实施实例中，产业图谱的三元组数据中的关系被视作为头实体到尾实体的翻译，在训练过程中，使其尽可能地形成头实体与关系的嵌入向量之和与尾实体的嵌入向量相等，即遵循h+r≈t的原则。TransE的目标函数为：

其中，h为头实体，r为三元组实体间的关系，t为尾实体；T_r代表产业图谱内有效的三元组集合，T′_r代表产业图谱内随机负采样的无效三元组集合，γ是间隔超参数，f表示距离函数，用于衡量头实体与关系的嵌入向量之和与尾实体的嵌入向量之间的差值，具体为

对于属性三元组，本实例也沿用TransE的思路。对于某个实体的多个属性值c₁,c₂,…,c_t，本实例设计一个组合函数f(a)，使得属性三元组满足：h+r≈f(a)，其中最简单的组合函数就是直接将属性的嵌入向量相加，但是这种操作会使得原本属性当中一些包含相同字符集且顺序不同的字符串将具有相同的向量表示。因此进一步本实例使用N-gram组合函数，具体的N-gram组合函数为：

其中，N表示在此组合函数中使用的n的最大值(如10，实际操作中给定的超参数)。

因此，对于属性三元组的距离函数即为：

对应属性三元组的目标函数即为：

其中T_a为产业图谱内的有效属性三元组，T′_a为负采样随机替换属性值的无效属性三元组。在训练时，将关系三元组以及其中实体所对应的属性三元组进行联合训练，最终的目标函数即为：

J＝J_RE+J_AE。

步骤3：对输入的问题进行分词处理，得到其中可能代表产业内的实体和关系，并使用预训练模型获得与图谱统一的向量表示；

在此步骤中，本发明采用的是Jieba分词工具，这是一个Python中文分词工具，支持对中文文本进行分词、词性标注、关键词抽取等功能。但是产业内的很多名称都具有特殊性，比如智能网联汽车作为一个实体，由于其中词性不同，分词的时候就会自动将其分割开来。因此在实际实施中，本发明在结合了产业内的语料信息之后，附加了一个产业内的实体词典作为分词时的参考依据，其中具有产业特色的一些词语就不会被分开，比如智能网联汽车，按照一般的分词情况就会被分开成为三个词语“智能”“网联”“汽车”，但是附加了产业内的实体词典之后就会使得整个实体不会被分开，这样可以让误差减小并减少向下游产生错误级联传播。

预训练模型采用Bert中文预训练模型，在此步骤中可以直接使用预训练好的模型，对问句进行表征，从而得到问句的表征向量。在此实例中，Bert中文预训练模型的输入是有关于产业内的预料信息，来源是各类媒体和政府官方机构等发布的新闻和通告。本实例使用爬虫对汽车产业内的信息进行爬取，并将这些语料信息进行预训练，构建汽车产业相关的中文预训练模型。

对于问句q，本发明使用Bert预训练模型获得与产业图谱内实体和关系相同维度的向量，并通过4层全连接层(激活函数为ReLU)映射到与产业图谱表示的相同维度空间。给定一个自然语言的问题，通过预训练模型将问题转换成向量表示，本实例将问句替换得分函数中的关系，形成φ(e_h,e_q,e_a)，借助嵌入模型的得分函数和损失函数训练的机制，促使目标实体h和答案t之间的语义关系是问句q在嵌入空间中的表示。因此有：

其中，φ是嵌入模型的得分函数，比如ComplEx模型的得分函数，e_h表示问题当中的主题实体表示向量，e_q表示自然语言问句的表示向量，e_a表示候选答案的表示向量，

表示随机采样产生的负样本答案表示向量，

为候选答案实体的集合。

步骤4：答案选择，在产业图谱中可能的候选实体进行打分排序，从而获得得分最高的实体；

在已知知识图谱表征、每个三元组的得分以及问句的表征后，需要对候选答案进行筛选。给定一个问句和目标实体，对所有产业图谱中可能的答案通过得分函数可以获得最高得分对应的实体。对于规模不大的知识图谱可以按照这种方法计算，但是对于规模较大的产业图谱，需要对候选答案集合进行缩减，因此该实例采用PullNet算法。

首先对主题词会有一系列相连的边，即关系，通过PullNet中的得分函数S(q,r)对所有的关系进行排序。其中得分函数定义为：

其中h_r表示预训练的关系向量，h_q表示问句经过预处理和预训练模型得到的表征向量。在所有关系中，本示例选择得分大于0.5的所有关系组成集合R_a，其次将候选答案(可以是产业图谱内的实体，或者数据集给定的一个候选答案集合)与目标实体之间的最短路径(多跳关系组成的边的集合)记作R_a′。本实例中使用的关系得分为：RelScore_a′＝|R_a∩R_a′|。直观理解是，如果得分函数S(q,r)筛选的关系在候选答案的对应关系集合中出现的数量越多，说明该得分函数筛选关系的能力越强，该问句与对应关系匹配程度也就越高。

步骤5：将最终得到的实体作为答案返回给使用者，将上一步骤当中候选答案得分最高的实体作为答案返回。

为了同时考虑每个答案与问句的匹配程度以及每个问句与相应关系的匹配程度，本实例通过以下公式寻找答案：

其中γ为超参数，当其为0时，则只考虑前者。

本发明公开了一种基于汽车产业图谱知识问答方法，不仅在汽车产业内部囊括了企业、项目、产业和地区等维度，涉及到了产业地结构、分布和企业之间的关系等，而且在大数据日益更新的汽车产业内，为使用者更加简洁、高效地检索产业图谱内的信息提供了一种便捷方式。通过对于使用者输入的问句进行解析，本发明从产业图谱中检索出了用户想要的答案实体，并返回给用户作为参考。

本发明所设计的一种基于汽车产业图谱知识问答方法，采用针对湖北省汽车产业的发展现状而设计的策略，能够适用于实时更新的产业投资大数据，并且能够根据事实数据体现出地方的汽车产业发展情况和趋势。本发明所设计的产业图谱知识问答方法采用的是基于深度学习的端到端模型，其可拓展性也很强。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于汽车产业图谱知识问答方法，其特征在于，包括以下步骤：

三元组数据包括两个实体和它们之间的关系，一般形式为(h,r,t)，其中h为头实体，r为实体间的关系，t为尾实体；

步骤3：问题分析；

步骤4：答案选择；

步骤5：将最终得到的实体作为答案返回给使用者。

2.根据权利要求1所述的基于汽车产业图谱知识问答方法，其特征在于：步骤2中，产业图谱的三元组数据中的关系为头实体到尾实体的翻译，在训练过程中，通过不断调整关系向量的值，使得头实体向量和关系向量之和尽可能与尾实体向量相等，即遵循h+r≈t的原则，其中h为头实体，r为三元组实体间的关系，t为尾实体；

TransE的目标函数为：

其中，T_r代表产业图谱内有效的三元组集合，T′_r代表产业图谱内随机负采样的无效三元组集合，γ是间隔超参数；f()表示距离函数，用于衡量头实体与关系的嵌入向量之和与尾实体的嵌入向量之间的差值，具体为

对于属性三元组，某个实体的多个属性值c₁,c₂,…,c_t，有组合函数f(a)使得属性三元组满足h+r≈f(a)；

其中，N表示在此组合函数中使用的n的最大值；

因此，对于属性三元组的距离函数即为：

对应属性三元组的目标函数即为：

其中，T_a为产业图谱内的有效属性三元组，T′_a为负采样随机替换属性值的无效属性三元组；

在训练时，将关系三元组以及其中实体所对应的属性三元组进行联合训练，最终的目标函数即为：J＝J_RE+J_AE。

3.根据权利要求1所述的基于汽车产业图谱知识问答方法，其特征在于：步骤3中，采用Jieba分词工具对输入的问题进行分词处理，同时在结合产业内的语料信息之后，附加一个产业内的实体词典作为分词时的参考依据，其中具有产业特色的一些词语就不会被分开；采用Bert中文预训练模型获得与图谱中实体和关系维度统一的向量表示；

使用爬虫对汽车产业内的信息进行爬取，并将这些语料信息进行预训练，构建汽车产业相关的中文预训练模型；给定一个自然语言的问题，通过预训练模型将问题转换成向量表示，再将问句替换得分函数中的关系，形成φ(e_h,e_q,e_a)，借助嵌入模型的得分函数和损失函数训练的机制，促使目标实体h和答案t之间的语义关系是问句q在嵌入空间中的表示；因此有：

表示随机采样产生的负样本答案表示向量，

为候选答案实体的集合。

4.根据权利要求1所述的基于汽车产业图谱知识问答方法，其特征在于：步骤4中，主题词包含一系列相连的边，即关系，通过PullNet中的得分函数S(q,r)对所有的关系进行排序；

其中，h_r表示预训练的关系向量，h_q表示问句经过预处理和预训练模型得到的表征向量。

5.一种基于汽车产业图谱知识问答系统，其特征在于，包括以下模块：

模块3，用于问题分析；

模块4，用于答案选择；

模块5，用于将最终得到的实体作为答案返回给使用者。

6.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至4中任一项所述的基于汽车产业图谱知识问答方法。