CN117194616A

CN117194616A - 一种垂域知识图谱的知识查询方法、装置、计算机设备和存储介质

Info

Publication number: CN117194616A
Application number: CN202311461635.7A
Authority: CN
Inventors: 段炼; 易志翔; 黄九鸣; 张圣栋
Original assignee: Hunan Xinghan Shuzhi Technology Co ltd; Hunan Sifang Tianjian Information Technology Co ltd
Current assignee: Hunan Xinghan Shuzhi Technology Co ltd; Hunan Sifang Tianjian Information Technology Co ltd
Priority date: 2023-11-06
Filing date: 2023-11-06
Publication date: 2023-12-08

Abstract

本发明涉及人工智能技术领域，提供了一种垂域知识图谱的知识查询方法、装置、计算机设备和存储介质，所述方法包括：将查询文本输入多任务联合模型，由多任务联合模型识别查询文本的查询意图类型和查询要素；对查询文本分词，确定各分词在查询文本中的词权重；根据分词以及分词的词权重进行属性关系类别对齐，得到属性关系类别词；对查询要素进行实体链接和条件表达转义，得到链接实体和转义词；根据查询意图类型获取知识库查询语句模板，将查询要素、链接实体、转义词、属性关系类别词填入知识库查询语句模板，得到知识库查询语句并利用知识库查询语句进行知识查询。采用本方法能够提升查询意图理解，确保知识查询的准确性。

Description

一种垂域知识图谱的知识查询方法、装置、计算机设备和存储介质

技术领域

本发明属于人工智能技术领域，尤其涉及一种垂域知识图谱的知识查询方法、装置、计算机设备和存储介质。

背景技术

知识图谱是一种以图形结构表示知识的方式，它通过将实体、属性和关系组织成节点和边的形式，形成一个语义丰富的知识网络。垂域知识图谱则是指在垂直领域内构建的知识图谱。知识查询(知识检索)主要通过线上问答的方式，向用户提供无限制的实时知识情报信息查询的服务。目前知识查询主要采用端到端的向量召回检索方式实现。即，主要将收集的查询文本与知识库中的目标进行匹配构建文本对后训练相关的查询模型后，利用该查询模型对用户实时输入的查询文本进行向量编码，再通过向量召回的方式实现知识库的问答查询。

然而，通过向量召回的方式进行知识库问答虽然易于实现，但是对于医疗、娱乐、环保、教育、体育以及军事等垂直领域来说，由于其专业性和难以理解性，使得现有方式很难基于用户输入的查询文本（查询语句）理解出用户实质的查询意图，导致知识查询准确性降低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高知识查询准确性的垂域知识图谱的知识查询方法、装置、计算机设备和存储介质。

本发明提供一种垂域知识图谱的知识查询方法，包括：

将查询文本输入多任务联合模型，由所述多任务联合模型识别所述查询文本的查询意图类型和查询要素；

对所述查询文本分词，确定各所述分词在所述查询文本中的词权重；

根据所述分词以及所述分词的词权重进行属性关系类别对齐，得到属性关系类别词；

对所述查询要素进行实体链接和条件表达转义，得到链接实体和转义词；

根据所述查询意图类型获取知识库查询语句模板，将所述查询要素、所述链接实体、所述转义词、所述属性关系类别词填入所述知识库查询语句模板，得到知识库查询语句并利用所述知识库查询语句进行知识查询。

在其中一个实施例中，所述由所述多任务联合模型识别所述查询文本的查询意图类型和查询要素，包括：

利用文本特征编码层对所述查询文本进行编码，得到特征向量矩阵；其中，所述特征向量矩阵包括行特征向量和列特征向量，所述行特征向量与所述查询文本中的各字符一一对应，表示各所述字符的特征向量；

分别对所述列特征向量的特征值进行特征融合得到文本表示向量，使用第一多层感知机对所述文本表示向量进行分类得到概率向量，将所述概率向量中最大值维度对应的查询意图类型作为所述查询文本的查询意图类型；

使用第二多层感知机分别预测各所述行特征向量对应不同要素类型的评分，利用条件随机场模型基于所述评分输出最优要素类别序列，根据所述最优要素类别序列确定查询要素。

在其中一个实施例中，所述对所述查询文本分词，确定各所述分词在所述查询文本中的词权重，包括：

对所述查询文本进行初步分词和词性标注后，根据停用词表以及词性过滤停用词和无意义词，得到最终的分词；

分别计算各所述分词的浅层语义权重、句法权重以及深层语义权重，并对所述浅层语义权重、所述句法权重以及所述深层语义权重进行汇总，得到各所述分词的总体权重；

将各所述分词的总体权重进行归一化，得到各所述分词在所述查询文本中的词权重。

在其中一个实施例中，所述分别计算各所述分词的浅层语义权重、句法权重以及深层语义权重，并对所述浅层语义权重、所述句法权重以及所述深层语义权重进行汇总，得到各所述分词的总体权重，包括：

利用TF-IDF计算所述分词的词权重作为所述分词的浅层语义权重；

使用句法依赖构建句法树，根据各所述分词到所述句法树根结点的最短路径进行权重递减，获取所述分词的句法权重；

计算所述查询文本完整语义向量与所述分词的语义向量的余弦相似度，将数值1与所述余弦相似度的值作为所述分词的深层语义权重；

将所述浅层语义权重、所述句法权重以及所述深层语义权重进行加权或平均值计算，得到所述分词的总体权重。

在其中一个实施例中，所述根据所述分词以及所述分词的词权重进行属性关系类别对齐，得到属性关系类别词，包括：

利用深度学习模型对所述分词以及知识库中各候选属性关系类别词进行特征向量表示，得到分词特征向量和候选属性关系类别词特征向量；

计算所述分词特征向量与所述候选属性关系类别词特征向量的相似度；

根据各所述分词对应的所述词权重将对应同一候选属性关系类别词的所述相似度进行加权求和，得到汇总相似度；

按照所述汇总相似度从高到低的顺序，从所述候选属性关系类别词中获取预设数量的属性关系类别词。

在其中一个实施例中，所述多任务联合模型的训练过程包括：

获取用户的搜索查询日志，在所述搜索查询日志中搜索共同点击搜索查询文本簇和连续搜索查询文本簇；

对所述共同点击搜索查询文本簇和所述连续搜索查询文本簇中的代表查询文本分别进行标签标注，并将标注的标签推广到簇内的非代表查询文本上；其中，所述标签标注包括查询意图类型标注和要素类型标注；

将标签标注后的所述共同点击搜索查询文本簇和所述连续搜索查询文本簇作为训练数据对所述多任务联合模型进行训练。

在其中一个实施例中，所述方法还包括：

在所述共同点击搜索查询文本簇和/或所述连续搜索查询文本簇中任意选择两个查询文本构建文本对，形成相似文本语料；

基于所述相似文本语料训练得到相似语义编码器；

利用所述相似语义编码器对所述共同点击搜索查询文本簇和/或所述连续搜索查询文本簇中的代表查询文本和簇外的查询文本进行语义相似度匹配；

根据所述语义相似度将所述簇外的查询文本作为补充数据加入到簇中。

一种垂域知识图谱的知识查询装置，包括：

多任务识别模块，用于将查询文本输入多任务联合模型，由所述多任务联合模型识别所述查询文本的查询意图类型和查询要素；

分词模块，用于对所述查询文本分词，确定各所述分词在所述查询文本中的词权重；

属性关系类别词对齐模块，用于根据所述分词以及所述分词的词权重进行属性关系类别对齐，得到属性关系类别词；

查询要素处理模块，用于对所述查询要素进行实体链接和条件表达转义，得到链接实体和转义词；

知识查询模块，用于根据所述查询意图类型获取知识库查询语句模板，将所述查询要素、所述链接实体、所述转义词、所述属性关系类别词填入所述知识库查询语句模板，得到知识库查询语句并利用所述知识库查询语句进行知识查询。

本发明还提供一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器存储由计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述垂域知识图谱的知识查询方法的步骤。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述垂域知识图谱的知识查询方法的步骤。

上述知识查询方法、装置、计算机设备和存储介质，通过多任务联合的查询识别模型，基于意图识别任务和要素识别的关联性，提升了意图分类与要素解析的效果。同时，通过词权重策略进一步有效获取用户的搜索目标要素相关的属性关系类别词，以及通过条件表达转义有效获取用户查询文本中的约束条件，提升用户搜索意图理解的效果。进而基于该些信息生成知识库查询语句进行知识查询，能够确保查询的准确性。

附图说明

图1为一个实施例中垂域知识图谱的知识查询方法的应用环境图。

图2为一个实施例中垂域知识图谱的知识查询方法的流程示意图。

图3为一个实施例中垂域知识图谱的知识查询装置的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本申请提供的垂域知识图谱的知识查询方法，可以应用于如图1所示的应用环境中，该应用环境涉及终端102和服务器104。其中，终端102通过网络与服务器104进行通信。终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和携带式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。当终端102接收到知识查询请求时，可以由终端102单独实现上述知识查询方法。也可以由终端102将知识查询请求发送给通信的服务器104，由服务器104实现上述垂域知识图谱的知识查询方法。

以下，以终端为例对本申请实施例中提供的垂域知识图谱的知识查询方法进行说明。如图2所示，本申请实施例提供一种垂域知识图谱的知识查询方法，包括步骤S201-S205：

S201，将查询文本输入多任务联合模型，由多任务联合模型识别查询文本的查询意图类型和查询要素。

其中，多任务联合模型是预先训练好的用于实现多个任务同时识别的模型，在本申请实施例中，多任务联合模型用于识别查询文本的查询意图类型和查询要素。查询文本即为用户输入的用于请求进行知识查询的查询语句。

具体的，当终端接受到用户输入的查询文本之后，调用训练好的多任务联合模型。终端将用户的查询文本输入该多任务联合模型，由多任务联合模型识别查询文本的查询意图类型和查询要素。基于多任务联合模型输出的查询意图类型可以理解用户此次查询的意图，进而提升查询准确率。查询意图类型可以包括查询属性、查询实体间关系、链式查询、统计条件查询以及实体行动查询等。查询要素是实现用户意图理解、用于回答用户问题过程中知识匹配需使用的信息，包括目标领域特有的实体以及时间、地点、机构等各领域的通用实体。

示例性的，在垂直领域中，若以军事领域为例，该领域其特有的实体可以包括飞机、军舰、导弹、雷达、战车等装备实体。若以医疗领域为例，其特有的实体则可以包括药物名称、医疗器械名称、药物编码等实体。

由于查询意图类型的识别任务与查询要素的识别任务通常都具有紧密关联性，因此本申请实施例通过多任务联合模型同时处理这两个识别任务，能够实现两个任务互相促进，提高两个任务识别的准确性，借助任务之间关联性提升检测效果。

在一些实施例中，本申请实施例的多任务联合模型主要包括文本特征编码层、查询意图分类层以及查询要素识别层。其中，文本特征编码用于对查询文本进行编码，能够挖掘查询文本中的语义信息，得到表示深层语义信息的特征向量。在本申请实施例中，文本特征编码层可以采用Bert预训练语言模型。查询意图分类层用于预测查询文本的查询意图类型，查询意图分类层以文本特征编码层的输出为输入。查询要素识别层则用于识别查询文本中的查询要素，同样以文本特征编码层的输出为输入。

基于此，S201可以包括：利用文本特征编码层对查询文本进行编码，得到特征向量矩阵；其中，特征向量矩阵包括行特征向量和列特征向量，行特征向量与查询文本中的各字符一一对应，表示各字符的特征向量；分别对列特征向量的特征值进行特征融合得到文本表示向量，使用第一多层感知机对文本表示向量进行分类得到概率向量，将概率向量中最大值维度对应的查询意图类型作为查询文本的查询意图类型；使用第二多层感知机分别预测各行特征向量对应不同要素类型的评分，利用条件随机场模型基于评分输出最优要素类别序列，根据最优要素类别序列确定查询要素。

具体的，查询文本先输入给多任务联合模型的文本特征编码层，由文本特征编码层对查询文本进行编码，得到特征向量矩阵E。其中，文本特征编码层处理文本的粒度为Token，对于中文而言，通常一个字符即为一个Token。并且，文本特征编码层的输入数据长度固定为n。因此，终端将查询文本输入文本特征编码层之前，对于长度小于n的查询文本可使用预定义的特殊Token增长文本，对于长度大于n的查询文本可使用截断等方式缩短文本。进而，文本特征编码层的输出是一个包括行特征向量和列特征向量的特征向量矩阵E∈R^n×d，行特征向量e_i(1≤i≤n)为输入的查询文本中第i个Token的隐藏特征向量，d为特征向量的维度。n和d为超参数，需提前设置。

然后，查询意图分类层以文本特征编码层输出的特征向量矩阵E为输入，首先通过特征融合的方式对特征矩阵中列特征向量的特征值进行特征融合得到文本表示向量r∈R¹ ^×d。再使用第一多层感知机MLPs对文本表示向量进行分类，得到概率向量p∈R^1×k，，k为查询意图类型的数量。概率向量的一个维度对应一种查询意图类型，概率向量中特征值最大的维度对应的查询意图类型即为预测得到的查询意图类型。其中，第一多层感知机MLPs的输入维度为d，输出维度为k。例如，假设概率向量是一个5维特征向量{1，2，5，4，3}，其中5是最大值维度，则5对应的查询意图类型维预测得到的查询意图类型。

同时，查询要素识别层以文本特征编码层输出的特征向量矩阵E为输入，首先使用第二多层感知机MLPs对特征向量矩阵E中每个Token对应的特征向量(即行特征向量) 进行要素类型预测，得到一个评分矩阵S， S_ij表示第i个Token对应的要素类型为第j种要素类型的可能性评分，1≤i≤n，1≤j≤n，m表示要素类型的数量，可采用BIO的序列标注方式。然后，将评分矩阵S输入至条件随机向量场CRF层中，使用维特比解码算法进行解码，并输出最优的要素类别序列{t₁，t₂，…，t_n}。通过解析模型输出的最优要素类型序列可以得到查询文本中的查询要素。其中，第二多层感知机MLPs的输入维度为d，输出维度为m。以及，要素类型根据不同实体可以划分为属性关系类别、条件表达、目标实体类型等。示例性的，对于查询文本“排水量大于2000吨的舰艇有哪些”，经过查询要素识别，查询文本中的查询要素“排水量”被标记为“属性类别”，查询要素“大于2000吨”被标记为“条件表达”，查询要素“舰艇”被标记为“目标实体类型”。

步骤S202，对查询文本分词，确定各分词在查询文本中的词权重。

步骤S203，根据分词以及分词的词权重进行属性关系类别对齐，得到属性关系类别词。

具体的，查询文本中的目标查询属性关系需要通过文本中多个非相邻词确定，例如查询文本“F-22起飞时的重量是多少”。因此，本申请实施例通过计算词权重的方式来确定查询文本中与目标属性关系相关的词。即，终端首先对查询文本进行分词，计算各分词在查询文本中的词权重。其中，词权重的计算可以利用现有任一种算法，例如TF-IDF算法、Okapi BM25算法、LSI算法等。然后，终端利用分词以及该分词的词权重在知识库中进行属性关系类别对齐，也就是基于分词以及对应的词权重从知识库中匹配对应的属性关系类别词。

在一些实施例中，由于文本中通常存在一些停用词或者无意义的词，因此分词的同时可以对该些词进行过滤，以提高文本的质量。

基于此，S202可以包括：对查询文本进行初步分词和词性标注后，根据停用词表以及词性过滤停用词和无意义词，得到最终的分词；分别计算各分词的浅层语义权重、句法权重以及深层语义权重，并对浅层语义权重、句法权重以及深层语义权重进行汇总，得到各分词的总体权重；将各分词的总体权重进行归一化，得到各分词在查询文本中的词权重。

具体的，终端在分词的过程中，可以先对用户的查询文本进行分词、句法依赖和词性标注(例如POS词性标注)等初步分词处理后，利用停用词表过滤停用词，以及根据分词的词性过滤无意义词。其中，无意义词包括助词、符号等。过滤后所保留的分词为本申请实施例最终的分词结果。

然后，终端对最终的分词进行词权重的计算。在本申请实施例中，为了进一步有效获取与目标查询属性关系相关的属性关系类别词，词权重的计算采用多重混合词权重策略。多重混合词权重策略即在分别计算各分词的浅层语义权重、句法权重以及深层语义权重之后，对计算的三种权重进行汇总，得到每个分词的总体权重。随后对所保留的分词的总体权重进行归一化，归一化处理所得到的归一化值即为各分词最终的词权重。其中，权重汇总可以是加权或者平均值计算。

在一些实施例中，浅层语义权重的计算可以利用TF-IDF算法实现。终端通过TF-IDF计算的分词的词权重作为浅层语义权重。

在一些实施例中，句法权重的计算可以依赖句法树实现。终端使用句法依赖构建句法图，通常距离根节点更近的词其作用更为重要。进而根据分词到句法树根节点的最短路径，进行权重递减，获取分词的句法权重。

在一些实施例中，深层语义权重通过Bert-Mask计算词权重实现。终端使用Bert预训练语言对完整的查询文本进行编码得到查询文本完整语义向量。同时，将对应的分词内容进行MASK后进行编码得到分词的语义向量。然后，计算查询文本完整语义向量与MASK之后分词的语义向量的余弦相似度，并使用数值1减去该余弦相似度，所得到的差值作为分词的词权重，由此得到该分词的深层语义权重。

在一些实施例中，属性关系类别对齐的处理，即终端基于分词以及对应的词权重在知识库匹配属性关系类别词的处理，可以通过计算该分词与知识库中候选属性关系类别词的相似度之后，基于相似度筛选预设数量(例如筛选相似度最高的top n)作为最终查询得到的属性关系类别词。

基于此，S203可以包括：利用深度学习模型对分词以及知识库中各候选属性关系类别词进行特征向量表示，得到分词特征向量和候选属性关系类别词特征向量；计算分词特征向量与候选属性关系类别词特征向量的相似度；根据各分词对应的词权重将对应同一候选属性关系类别词的相似度进行加权求和，得到汇总相似度；按照汇总相似度从高到低的顺序，从候选属性关系类别词中获取预设数量的属性关系类别词。

具体的，首先采用深度学习模型对每个分词及知识库中的候选属性关系类别词进行特征向量表示，得到分词对应的分词特征向量以及候选属性关系类别词对应的候选属性关系类别词特征向量。然后，依次计算知识库中每个候选属性关系类别词与分词结果的相似度，选择相似度最高的Top n作为最终查询的属性关系类别词。其中，一个候选属性关系类别词与分词结果的相似度的计算方式为：分别计算属性关系类别词与每个分词之间的特征向量相似度，从而得到一组相似度。也就是说，对于任意一个候选属性关系类别词，分别计算其候选属性关系类别词特征向量与各个分词对应分词特征向量的相似度，将该些相似度合并为一组。该组相似度即为该候选属性关系类别词与所有分词的相似度的集合。然后，基于分词对应的词权重将对应同一候选属性关系类别词的相似度进行加权求和，即对候选属性关系类别词所对应的组相似度内的相似度进行加权求和汇总得到汇总相似度。候选属性关系类别词的汇总相似度即为该候选属性关系类别词与分词结果的相似度。

步骤S204，对查询要素进行实体链接和条件表达转义，得到链接实体和转义词。

具体的，终端通过多任务联合模型识别得到查询要素之后，对查询要素进行条件表达转移和实体链接，分别得到对应的转移词和链接实体。

条件表达转义是指将查询要素识别任务所识别出的一种特殊类型的要素，即将要素类型为条件表达的要素，通过选取预设规则或模型将其转换为匹配谓词和匹配目标值。匹配谓词和匹配目标值即为本申请实施例所述的转义词。其中，匹配谓词是布尔逻辑匹配谓词，如“大于”、“等于”等，匹配目标值即是谓词操作数，如“大于2000”中的2000。在本申请实施例中，通过条件表达转义能够有效获取用户查询文本中的约束条件，从而提升用户搜索意图理解。

实体链接是指将查询要素识别任务所识别出的查询要素进行实体链接。简单来讲，实体链接的输入是一个词，基于该词从既定的有若干个实体的实体库中选择一个最佳的作为该词的链接对象，实体库中实体至少具备名称信息。在本申请实施例中，实体链接过程首先是基于关键词(查询要素)在实体库中检索出若干个候选实体。然后使用名称字面相似度、深度学习模型编码语义相似度进行加权相似度计算排序并选择相似度最高的实体作为该关键词(查询要素)的链接实体，加权计算所需的权重可以通过预先配置。

步骤S205，根据查询意图类型获取知识库查询语句模板，将查询要素、链接实体、转义词、属性关系类别词填入知识库查询语句模板，得到知识库查询语句并利用知识库查询语句进行知识查询。

具体的，终端通过S201-204的处理得到查询要素、链接实体、转义词、属性关系类别词等信息之后，根据识别的查询意图类型选取对应的知识库查询语句模板。然后，将查询要素、链接实体、转义词、属性关系类别词该些信息填充到选取的知识库查询语句模板，形成知识库查询语句。进而，通过知识库查询引擎基于该知识库查询语句执行检索，获得若干个查询结果，选择前预设的若干个结果返回给查询用户，完成本次用户的知识查询。

其中，知识库查询语句模板是预先配置的模板，可以根据实际业务需求或者实际所应用知识库的结构配置。

上述知识查询方法，终端在获取到查询文本之后，首先基于查询文本识别用户的查询意图类型以及查询文本中的查询要素，并对查询要素进行实体链接和条件表达转义，以得到链接实体和转义词。同时，对查询文本分词进行词权重的计算，基于分词和词权重匹配到属性关系类别词。之后，基于查询意图类型获取知识库查询语句模板，将所得到的信息“查询要素、链接实体、转义词、属性关系类别词” 填入知识库查询语句模板得到针对知识库的知识库查询语句进行知识库查询。由此可见，该方法通过多任务联合的查询识别模型，基于意图识别任务和要素识别的关联性，提升了意图分类与要素解析的效果。同时，通过多重混合词权重策略进一步有效获取用户的搜索目标要素相关的属性关系类别词，以及通过条件表达转义有效获取用户查询文本中的约束条件，提升用户搜索意图理解的效果。进而基于该些信息生成知识库查询语句进行知识查询，能够确保查询的准确性。

在一些实施例中，由于医疗、娱乐、环保、教育、体育以及军事等垂直领域场景下，相关的用户搜索语料较少，使得可供进行查询意图标注的数据稀少。且标注通常需要一定的专业知识，导致标注成本较高，从而难以借助大规模数据作为训练数据来提升模型的意图理解效果。

基于此，为了提升本申请实施例多任务联合模型的意图理解效果，本申请实施例进一步通过数据内生关系，降低数据标注难度，提升数据数量来提升模型的意图理解效果。

基于此，多任务联合模型的训练过程可以包括：获取用户的搜索查询日志，在搜索查询日志中搜索共同点击搜索查询文本簇和连续搜索查询文本簇；对共同点击搜索查询文本簇和连续搜索查询文本簇中的代表查询文本分别进行标签标注，并将标注的标签推广到簇内的非代表查询文本上；其中，标签标注包括查询意图类型标注和要素类型标注；将标签标注后的共同点击搜索查询文本簇和连续搜索查询文本簇作为训练数据对多任务联合模型进行训练。

具体的，终端对用户的搜索查询日志进行搜索，通过共同点击搜索查询、连续搜索查询获取原始数据，包括共同点击搜索查询文本和连续搜索查询文本。其中，共同点击搜索查询是指那些导致用户点击相同结果的搜索查询。例如查询文本Query 1、Query 2和Query3引导用户点击URL 1。因此，Query 2和Query 3都是Query 1的共点击搜索查询。由于用户意图位于点击历史记录下，如果两个用户单击相同的URL，那么这两个用户的搜索查询很可能表达相同的意图。连续搜索查询是指用户在极短短时间内连续输入不同的查询文本Query1、Query2和Query3。此时，可能由于用户输入的前一个Query没有找到合适的答案，因此通过不断调整输入内容进行查询，从而形成一批Query，但是这一批Query都具有相同的查询意图。

基于此，本申请实施例将这两种类型的关联Query作为Query簇。即，查询文本Query 1、Query 2和Query 3如果是共同点击搜索查询文本，则组成共同点击搜索查询文本簇。而查询文本Query1、Query2和Query3如果是连续搜索查询文本，则组成连续搜索查询文本簇。同时，在簇内选择一个查询文本作为代表数据，即该簇内的代表查询文本。可选的，代表查询文本的选择方法可以通过文本字符长度筛选，因为文本越长所包含的信息越多，所以可以选择文本长度信息最大的作为簇内的代表查询文本。

然后，只需要对共同点击搜索查询文本簇和连续搜索查询文本簇中的代表查询文本分别进行标签标注，进而将代表查询文本标注的标签推广到簇内其他的非代表查询文本(簇内除代表查询文本以外的其他查询文本)上，以完成所有数据的标签标注。可选的，代表查询文本的标签标注可以通过人工标注完成。

由于本申请实施例的多任务联合模型主要识别查询意图类型和查询要素，所以标注任务包括分类任务和序列标注两种，分类任务标注查询意图类型标签，序列标注任务标注查询要素标签。

示例性的，将共同点击搜索查询文本簇和连续搜索查询文本簇都视为单个的Query簇，终端对每个Query簇中的代表数据进行标注。例如只需要对簇中代表数据Query1进行标注。然后，将分类任务的标签推广到同一簇中其他Query上(将Query1的标签推广到Query2和Query3)，从而完成所有查询文本分类任务的标签标注。同时，终端将代表数据Query1中标注的要素标签信息通过字符匹配的方式推广到同一簇中其他Query上，从而使得只要标注的少量数据，即可推广得到较高质量的监督数据用于模型训练，降低标注成本同时还能够借助大规模数据作为训练数据来提升模型的意图理解效果。

最后，终端将标注过的所有查询文本作为模型的训练数据对多任务联合模型进行训练。在训练过程中，输入至多任务联合模型的查询文本同样经过文本特征编码层、查询意图分类层以及查询要素识别层的处理，从而实现多任务的训练。其中，由于是多任务联合训练，所以损失值Loss为两个任务损失的总和，损失函数如下所示：

其中，LOSS_sim为查询意图分类任务的损失，Loss_ner为查询要素序列标注任务的损失。a1和a2为损失权重占比，在满足a1+ a2=1的情况下，可以根据实际需求设定。然后，通过对二者的损失进行加权汇总得到总体损失值Loss，通过梯度计算、反向传播等方式来训练模型，使得模型能够同时进行查询意图类型识别与查询要素识别。

在一些实施例中，为了扩大数据量，增强训练数据以提升模型的训练效果。可以在Query簇的基础上，基于语义相似度获取补充数据加入到簇内，实现簇内数据量的提升，进而整体的训练数据量得以提升。

基于此，多任务联合模型的训练过程中，在得到共同点击搜索查询文本簇和连续搜索查询文本簇之后，还可以包括：在共同点击搜索查询文本簇和/或连续搜索查询文本簇中任意选择两个查询文本构建文本对，形成相似文本语料；基于相似文本语料训练得到相似语义编码器；利用相似语义编码器对共同点击搜索查询文本簇和/或连续搜索查询文本簇中的代表查询文本和簇外的查询文本进行语义相似度匹配；根据语义相似度将簇外的查询文本作为补充数据加入到簇中。

具体的，对于获取的单个的Query簇，每次在Query簇任意选择两个查询文本构建成文本对，所有的文本对合并形成相似文本语料。即，相似文本语料中包括若干个文本对。然后，终端使用相似文本语料作为训练数据训练得到一个相似语义编码器。可选的，可以利用相似文本语料对Sentence-Bert模型进行微调，获取相似语义编码器。

然后，使用相似语义编码器对Query簇中的代表查询文本与簇外的查询文本进行语义相似度匹配。其中，簇外的查询文本用户搜索记录中其他剩下未被纳入到共同点击搜索查询文本簇或连续搜索查询文本簇内的数据。进而，将语义相似度超过相似阈值的查询文本作为补充数据加入到对应的Query簇中，由此扩大数据量，增强训练数据数据。其中，相似阈值可以根据实际需求设置，通常情况下，为了确保训练数据的质量，相似阈值设置大于等于0.95。

在一些实施例中，为了防止低质量数据影响模型处理效果，作为训练数据的查询文本和模型实际应用输入的查询文本可以经过预处理后输入。预处理包括大小写统一、简繁体转换、特殊符号去除等，从而形成可读且易于理解的自然语言文本。

应该理解的是，虽然图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图3所示，提供一种垂域知识图谱的知识查询装置，包括：

多任务识别模块301，用于将查询文本输入多任务联合模型，由多任务联合模型识别查询文本的查询意图类型和查询要素。

分词模块302，用于对查询文本分词，确定各分词在查询文本中的词权重。

属性关系类别词对齐模块303，用于根据分词以及分词的词权重进行属性关系类别对齐，得到属性关系类别词。

查询要素处理模块304，用于对查询要素进行实体链接和条件表达转义，得到链接实体和转义词。

知识查询模块305，用于根据查询意图类型获取知识库查询语句模板，将查询要素、链接实体、转义词、属性关系类别词填入知识库查询语句模板，得到知识库查询语句并利用知识库查询语句进行知识查询。

在一个实施例中，多任务识别模块301还用于利用文本特征编码层对查询文本进行编码，得到特征向量矩阵；其中，特征向量矩阵包括行特征向量和列特征向量，行特征向量与所述查询文本中的各字符一一对应，表示各字符的特征向量；分别对列特征向量的特征值进行特征融合得到文本表示向量，使用第一多层感知机对文本表示向量进行分类得到概率向量，将概率向量中最大值维度对应的查询意图类型作为查询文本的查询意图类型；使用第二多层感知机分别预测各行特征向量对应不同要素类型的评分，利用条件随机场模型基于评分输出最优要素类别序列，根据最优要素类别序列确定查询要素。

在一个实施例中，分词模块302还用于对查询文本进行初步分词和词性标注后，根据停用词表以及词性过滤停用词和无意义词，得到最终的分词；分别计算各分词的浅层语义权重、句法权重以及深层语义权重，并对浅层语义权重、句法权重以及深层语义权重进行汇总，得到各分词的总体权重；将各分词的总体权重进行归一化，得到各分词在查询文本中的词权重。

在一个实施例中，分词模块302还用于利用TF-IDF计算分词的词权重作为分词的浅层语义权重；使用句法依赖构建句法树，根据各分词到句法树根结点的最短路径进行权重递减，获取分词的句法权重；计算查询文本完整语义向量与分词的语义向量的余弦相似度，将数值1与余弦相似度的值作为分词的深层语义权重；将浅层语义权重、句法权重以及深层语义权重进行加权或平均值计算，得到分词的总体权重。

在一个实施例中，属性关系类别词对齐模块还用于利用深度学习模型对分词以及知识库中各候选属性关系类别词进行特征向量表示，得到分词特征向量和候选属性关系类别词特征向量；计算分词特征向量与候选属性关系类别词特征向量的相似度；根据各分词对应的词权重将对应同一候选属性关系类别词的相似度进行加权求和，得到汇总相似度；按照汇总相似度从高到低的顺序，从候选属性关系类别词中获取预设数量的属性关系类别词。

在一个实施例中，还包括训练模块，用于获取用户的搜索查询日志，在搜索查询日志中搜索共同点击搜索查询文本簇和连续搜索查询文本簇；对共同点击搜索查询文本簇和连续搜索查询文本簇中的代表查询文本分别进行标签标注，并将标注的标签推广到簇内的非代表查询文本上；其中，标签标注包括查询意图类型标注和要素类型标注；将标签标注后的共同点击搜索查询文本簇和连续搜索查询文本簇作为训练数据对多任务联合模型进行训练。

在一个实施例中，训练模块还用于在共同点击搜索查询文本簇和/或连续搜索查询文本簇中任意选择两个查询文本构建文本对，形成相似文本语料；基于相似文本语料训练得到相似语义编码器；利用相似语义编码器对共同点击搜索查询文本簇和/或连续搜索查询文本簇中的代表查询文本和簇外的查询文本进行语义相似度匹配；根据语义相似度将簇外的查询文本作为补充数据加入到簇中。

关于垂域知识图谱的知识查询装置的具体限定可以参见上文中对于垂域知识图谱的知识查询方法的限定，在此不再赘述。上述垂域知识图谱的知识查询装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个知识查询方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。

在一个实施例中，提供一种计算机设备，该计算机设备可以是服务器，包括处理器，存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种垂域知识图谱的知识查询方法。示例性的，计算机程序可以被分割成一个或多个模块，一个或者多个模块被存储在存储器中，并由处理器执行以完成本发明。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序在计算机装置中的执行过程。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列 (Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述计算机装置的控制中心，利用各种接口和线路连接整个计算机装置的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据手机的使用所创建的数据（比如音频数据、电话本等）等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（Secure Digital, SD）卡，闪存卡（Flash Card）、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

本领域技术人员可以理解，本实施例中所示出的计算机设备结构，仅仅是与本发明方案相关的部分结构，并不构成对本发明所应用于其上的计算机设备的限定，具体的计算机设备可以包括更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述任一实施例所记载的垂域知识图谱的知识查询方法。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述任一实施例所记载的垂域知识图谱的知识查询方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-Only Memory，ROM）、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic Random Access Memory，DRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种垂域知识图谱的知识查询方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述由所述多任务联合模型识别所述查询文本的查询意图类型和查询要素，包括：

3.根据权利要求1所述的方法，其特征在于，所述对所述查询文本分词，确定各所述分词在所述查询文本中的词权重，包括：

4.根据权利要求1所述的方法，其特征在于，所述分别计算各所述分词的浅层语义权重、句法权重以及深层语义权重，并对所述浅层语义权重、所述句法权重以及所述深层语义权重进行汇总，得到各所述分词的总体权重，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所述分词以及所述分词的词权重进行属性关系类别对齐，得到属性关系类别词，包括：

6.根据权利要求1-5任一项所述的方法，其特征在于，所述多任务联合模型的训练过程包括：

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

基于所述相似文本语料训练得到相似语义编码器；

8.一种垂域知识图谱的知识查询装置，其特征在于，包括：

9.一种计算机设备，包括处理器和存储器，所述存储器存储有计算机程序，其特征在于，所述处理器用于执行所述计算机程序时实现权利要求1-7中任意一项所述垂域知识图谱的知识查询方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7中任意一项所述垂域知识图谱的知识查询方法。