CN116775947A

CN116775947A - 一种图数据语义检索方法、装置、电子设备及存储介质

Info

Publication number: CN116775947A
Application number: CN202310722292.9A
Authority: CN
Inventors: 赵思同; 高雪峰; 仲光庆; 纪海; 杨成虎
Original assignee: Beijing Fengqing Technology Co ltd
Current assignee: Beijing Fengqing Technology Co ltd
Priority date: 2023-06-16
Filing date: 2023-06-16
Publication date: 2023-09-19
Anticipated expiration: 2043-06-16
Also published as: CN116775947B

Abstract

本公开涉及一种图数据语义检索方法、装置、电子设备及存储介质。所述图数据语义检索方法包括：接收用户输入的用户问题，在多个子图模式中，确定与用户问题最相匹配的子图模式，其中多个子图模式为对图模式分解得到；将用户问题与最相匹配的子图模式输入大语言模型，确定与用户问题对应的图查询语句；根据图查询语句搜索图数据库，确定目标图数据。本公开实施例通过确定与用户问题最相匹配的子图模式，将用户问题与最相匹配的子图模式输入大语言模型，准确地过滤了无关信息，约简了输入空间，高效生成了准确的图查询语句，提高了检索结果的准确性和答复信息的完整性。

Description

一种图数据语义检索方法、装置、电子设备及存储介质

技术领域

本公开涉及图数据处理领域，尤其涉及一种图数据语义检索方法、装置、电子设备及存储介质。

背景技术

随着大语言模型(large language model，LLM)的出现，已有部分业界人员借助LLM对图数据库中的图数据进行语义检索和问答，例如在输入自然语言的问题描述后使用LLM将其转换为数据库查询语言，从而进一步在图数据库中完成查询，输出查询的图数据。

由于LLM中没有图数据的模式信息，在相关技术中，通常是将图数据的模式信息和用户的问题同时输入给大语言模型。但是企业的图数据以及对应的图模式通常体量庞大，图数据存在节点数量多、节点属性信息多、关系数量多等性质，LLM无法接受如此庞大的上下文信息量，使得业界人员无法高效地利用LLM生成准确、完整的图查询语句，进而对图数据进行语义检索和问答。现有的解决LLM对输入文本长度限制的方法为将文本分割为短文本，然后基于关键词将短文本与用户问题进行匹配，最后将匹配成功的短文本与用户问题输入大语言模型，但该方法在根据图模式和用户问题生成图查询语句的场景下无法使用。

如何对基于LLM的图数据语义检索过程进行调整和优化，约简输入空间，高效生成准确的图查询语句，提高检索结果的准确性，是目前亟待解决的问题。

发明内容

有鉴于此，本公开提出了一种图数据语义检索方法、装置、电子设备及存储介质。

根据本公开的一方面，提供了一种图数据语义检索方法，包括：

接收用户输入的用户问题，在多个子图模式中，确定与用户问题最相匹配的子图模式，所述多个子图模式为对图模式分解得到的；

将所述用户问题与所述最相匹配的子图模式输入大语言模型，确定与所述用户问题对应的图查询语句；

根据所述图查询语句搜索图数据库，确定目标图数据。

在一种可能的实现方式中，接收用户输入的用户问题前，所述方法还包括：

根据业务的问答场景，将图模式分解为多个子图模式；其中，所述多个子图模式能够涵盖全部的业务问答场景。

在一种可能的实现方式中，所述在多个子图模式中，确定与用户问题最相匹配的子图模式，包括：

将所述用户问题转换为问题向量；

计算所述问题向量和多个描述向量的相似度，所述多个描述向量用于分别描述各子图模式能够解决的用户问题类型；

根据相似度最大的描述向量，确定与用户问题最相匹配的子图模式。

在一种可能的实现方式中，在将所述用户问题转换为问题向量之前，所述方法还包括：

将所述多个子图模式通过大语言模型进行自然语言重构，确定多个子图模式描述；

将所述多个子图模式描述转换为多个描述向量。

在一种可能的实现方式中，确定目标图数据后，所述方法还包括：

将所述目标图数据通过大语言模型进行自然语言重构，确定用户问题答案；

将所述用户问题答案输出至用户前端。

根据本公开的另一方面，提供了一种图数据语义检索装置，包括：

匹配模块，用于接收用户输入的问题，在多个子图模式中，确定与用户问题最相匹配的子图模式，所述多个子图模式为对图模式分解得到的；

输入模块，用于将所述用户问题与所述最相匹配的子图模式输入大语言模型，确定与所述用户问题对应的图查询语句；

确定模块，用于根据所述图查询语句搜索图数据库，确定目标图数据。

在一种可能的实现方式中，所述装置还包括：

分解模块，用于在接收用户输入的用户问题前，根据业务的问答场景，将图模式分解为多个子图模式；

其中，所述多个子图模式能够涵盖全部的业务问答场景。

在一种可能的实现方式中，所述匹配模块包括：

子图模式描述单元，用于将所述多个子图模式通过大语言模型进行自然语言重构，确定多个子图模式描述；

描述向量转换单元，用于将所述多个子图模式描述转换为多个描述向量；

问题向量转换单元，用于将所述用户问题转换为问题向量；

相似度计算单元，用于计算所述问题向量和多个描述向量的相似度，所述多个描述向量用于分别描述各子图模式能够解决的用户问题类型；

确定单元，用于根据相似度最大的描述向量，确定与用户问题最相匹配的子图模式。

在一种可能的实现方式中，所述装置还包括：

重构模块，用于在确定目标数据后，将所述目标图数据通过大语言模型进行自然语言重构，确定用户问题答案；

输出模块，用于将所述用户问题答案输出至用户前端。

根据本公开的另一方面，提供了一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为在执行所述存储器存储的指令时，实现上述方法。

根据本公开的另一方面，提供了一种非易失性计算机可读存储介质，其上存储有计算机程序指令，其中，所述计算机程序指令被处理器执行时实现上述方法。

在本公开实施例中，首先接收用户输入的用户问题，在多个子图模式中，确定与用户问题最相匹配的子图模式，其中多个子图模式为对图模式分解得到，然后将用户问题与最相匹配的子图模式输入大语言模型，确定与用户问题对应的图查询语句，最后根据图查询语句搜索图数据库，确定目标图数据。本公开通过确定与用户问题最相匹配的子图模式，将用户问题与最相匹配的子图模式输入大语言模型，约简了输入空间，高效生成了准确的图查询语句，提高了检索结果的准确性和答复信息的完整性。

根据下面参考附图对示例性实施例的详细说明，本公开的其它特征及方面将变得清楚。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面，并且用于解释本公开的原理。

图1示出根据本公开一实施例的图数据语义检索方法的流程图。

图2示出根据本公开一实施例的确定与用户问题最相匹配的子图模式的流程图。

图3示出根据本公开一示例性应用场景的图数据语义检索的流程图。

图4示出根据本公开一实施例的图数据语义检索装置的框图。

图5示出根据本公开实施例的一种电子设备的框图。

具体实施方式

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外，为了更好的说明本公开，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本公开的主旨。

首先，对本说明书的一个或多个实施例涉及的名词术语进行解释。

1.大语言模型(large language model，LLM)：大语言模型是一种基于深度学习技术的人工智能模型，它被训练用于理解和生成自然语言文本。它能够生成具有连贯性和逻辑性的文本回复，辅助进行许多自然语言处理任务。最著名和广泛使用的模型之一是生成式预训练变换模型GPT(Generative Pre-trained Transformer)系列。大语言模型在多个领域有广泛的应用，包括自然语言处理、机器翻译、对话系统、文本生成等。

2.语义向量转换方法：语义向量转换方法是一种将文本映射到向量空间的方法，用于判断文本语义的相似度。语义向量转换方法通过对文本语义进行建模，将其转化为数值向量，使得具有相似含义的文本在向量空间中距离较近。词嵌入和句嵌入是两种常见的语义向量转换方法，在自然语言处理任务中被广泛应用。

3.图模式：图模式用于描述所需图数据的结构，它是一个或多个顶点、边以及它们之间的连接关系的集合。图模式可以用于查询和检索图数据库中满足特定模式的图数据。

图数据处理的应用场景可能会涉及借助大语言模型对图数据库中的图数据进行语义检索和问答，例如，在输入自然语言的问题描述后使用大语言模型将其转换为数据库查询语言，从而进一步在图数据库中完成查询。

但是企业的图数据以及对应的图模式通常体量庞大，图数据存在节点数量多、节点属性信息多、关系数量多等性质，将图数据的模式信息和用户的问题同时输入给大语言模型后，LLM无法接受如此庞大的上下文信息量，使得业界人员无法准确、高效、完整地利用LLM生成查询语句，进而对图数据进行语义检索和问答。在相关技术中，解决LLM对输入文本长度限制的方法为将文本分割为短文本后，基于关键词将短文本与用户问题进行匹配，最后将匹配成功的短文本与用户问题输入大语言模型，但该方法生成的输入文本长度仍然可能过长且易导致信息丢失,因此该方法无法直接应用于图数据查询。

基于此，本公开实施例提供了一种图数据语义检索方法。本公开实施例中，首先接收用户输入的用户问题，在多个子图模式中，确定与用户问题最相匹配的子图模式，所述多个子图模式为对图模式分解得到，然后将用户问题与最相匹配的子图模式输入大语言模型，确定与用户问题对应的图查询语句，最后根据图查询语句搜索图数据库，确定目标图数据。本公开实施例通过确定与用户问题最相匹配的子图模式，将用户问题与最相匹配的子图模式输入大语言模型，准确过滤了无关信息，约简了输入空间，高效生成了准确的图查询语句，提高了检索结果的准确性和答复信息的完整性。

本公开实施例提供的方法和装置基于大语言模型和图数据库。其中，所述图数据库中存储有大量的图数据，以及与图数据相对应的图模式。本公开实施例对所使用的图数据库以及大语言模型的具体种类不做限定。

图1示出根据本公开一实施例的图数据语义检索方法的流程图。如图1所示，所述图数据语义检索方法可以包括：

步骤S11，接收用户输入的用户问题，在多个子图模式中，确定与用户问题最相匹配的子图模式，所述多个子图模式为对图模式分解得到的；

其中，本公开实施例可接收用户输入的用户问题，具体可以是通过接收用户在应用程序、聊天窗口或命令行界面中键入的文本形式的用户问题。

在一种可能的实现方式中，在接收用户输入的用户问题前，所述方法还可以包括：

其中，本公开实施例可在接收用户输入的问题前，对将要进行语义搜索的业务场景进行人工梳理，并可根据业务场景将图模式分解为多个子图模式，该过程可包括分析语义搜索的业务需求、分析具体业务问答种类、理解图数据结构与图数据间的关系，确定子图模式的关键节点、边和属性等。本公开实施例对将图模式分解为多个子图模式所使用的具体图分解算法可不做限定，且本公开实施例分解图模式得到的子图模式可涵盖全部的业务问答场景。

在一具体实施例中，在对医疗机构图数据库进行语义搜索时，本公开实施例可对其所涉及的业务场景进行人工梳理。示例性的，根据不同业务需求，医疗机构图数据库中的图数据可以分类为患者的病例数据、体检数据、检查和化验数据、手机问诊数据等。因此，本公开实施例可根据前述分类将医疗机构图数据库中的图数据模式分解为子图模式，包括：患者病例的子图模式、体检数据的子图模式、检查和化验数据子图模式、手机问诊数据子图模式等。

进一步地，患者病例子图模式可包含患者的基本信息、诊断结果、治疗方案等信息，节点可以包括患者本人、诊断医生、治疗手段等，边可以表示医生的诊断关系、治疗手段的应用等。体检数据子图模式可包含患者的体检指标、健康状况评估等信息，节点可以包括体检项目、指标数值等，边可以表示指标之间的关联、参考范围等。检查和化验数据子图模式可以包含患者的检查和化验结果等信息，节点可以包括检查项目、检查结果等，边可以表示检查和化验的关系、结果的解读等。手机问诊数据子图模式可以包含患者通过手机进行的问诊记录、医生的建议等，节点可以包括患者、医生、问诊内容等，边可以表示医生和患者之间的交互关系、诊断建议等，其中，前述由本公开实施例分解图模式得到的子图模式可涵盖对医疗机构图数据库进行语义搜索时所涉及的全部业务问答场景。这样一来，本公开实施例根据业务的问答场景，将图模式分解为多个子图模式，多个子图模式能够涵盖全部的业务问答场景，满足了特定的语义搜索的需求，提高了检索结果的准确性。

图2示出根据本公开一实施例的确定与用户问题最相匹配的子图模式的流程图。如图2所示，步骤S11所述确定与用户问题最相匹配的子图模式的流程可以包括：

步骤S111，将所述用户问题转换为问题向量。

其中，本公开实施例可使用语义向量转换方法将用户问题转换为问题向量。本公开实施例对所使用的语义向量转换方法不做限定。所述语义向量转换方法可以涉及词嵌入方法Word2Vec、FastText等，或句嵌入方法SimBERT等。

步骤S112，计算所述问题向量和多个描述向量的相似度，所述多个描述向量用于分别描述各子图模式能够解决的用户问题类型。

步骤S113，根据相似度最大的描述向量，确定与用户问题最相匹配的子图模式。

其中，本公开实施例可计算问题向量与多个描述向量的相似度，并根据相似度最大的描述向量，确定与用户问题最相匹配的子图模式。本公开实施例对向量相似度的计算方法可不做限定。这样一来，本公开实施例根据相似度最大的描述向量，确定与用户问题最相匹配的子图模式，准确地过滤了无关信息(即无关的子图模式)，提高了检索结果的准确性和答复信息的完整性。

在将所述用户问题转换为问题向量之前，对子图模式的处理方式可以有多种，在一种可能的实现方式中，在将所述用户问题转换为问题向量之前，所述方法还包括：

将所述多个子图模式通过大语言模型进行自然语言重构，确定多个子图模式描述。

将所述多个子图模式描述转换为多个描述向量。

其中，本公开实施例可将子图模式输入大语言模型进行自然语言重构，确定多个子图模式描述。所述多个子图模式描述可为自然语言形式，并且可以表征该子图模式能够解决的用户问题类型。

在本公开一具体实施例中，对于患者病例子图模式，本公开实施例可通过大语言模型生成以下示例性的子图模式描述：“查询患者的病例信息，包括基本信息、诊断结果、治疗方案等”，以表征该子图模式能够解决以下示例性的用户问题：“X患者的诊断结果是什么？”、“X患者接受的治疗方案是什么？”、“X患者是否被诊断为某种特定疾病？”……

其中，本公开实施例可使用语义向量转换方法将多个子图模式描述转换为多个描述向量。本公开实施例对所使用的语义向量转换方法不做限定。所述语义向量转换方法可以涉及词嵌入方法Word2Vec、FastText等，或句嵌入方法SimBERT等。

步骤S12，将所述用户问题与所述最相匹配的子图模式输入大语言模型，确定与所述用户问题对应的图查询语句；

其中，本公开实施例可将用户问题与最相匹配的子图模式构造第一输入信息，输入大语言模型，由大语言模型生成与用户问题对应的图查询语句。本公开实施例对要求生成的图查询语句所属的图查询语言种类可不做具体限定。所述图查询语言的种类可以涉及Cypher、SPARQL、Gremlin等。这样一来，本公开实施例将用户问题与最相匹配的子图模式输入大语言模型，准确地过滤了无关信息，约简了输入空间，高效生成了准确的图查询语句，提高了检索结果的准确性和答复信息的完整性。

在本公开一具体实施例中，所述第一输入信息的文本结构可表示为：“已知图数据的模式如下：[子图模式]，请写出Gremlin查询语句实现对图数据进行如下查询：[用户问题]。”

步骤S13，根据所述图查询语句搜索图数据库，确定目标图数据。

在确定目标图数据后，对目标图数据的处理方式可以有多种，可以依据具体的应用场景来确定，在一种可能的实现方式中，确定目标图数据后，所述方法还包括：

将所述用户问题答案输出至用户前端。

其中，本公开实施例可将得到的目标图数据与用户问题构造为第二输入信息，输入至大语言模型进行自然语言重构，确定用户问题答案。在本公开一具体实施例中，所述第二输入信息的文本结构可表示为：“下列数据为问题[用户问题]答案的相关信息，请将下列数据重构为自然流畅的文本内容作为回答返回，返回的回答仅从下列数据中采集信息，不要添加额外信息。[目标图数据]”这样一来，本公开实施例构造输入信息输入至大语言模型进行自然语言重构，确定用户问题答案，提高了答复信息的完整性。

如图3所示，在一个示例性的应用场景中，在接收用户输入的问题前，可对语义搜索的业务场景进行人工梳理，根据业务的问答场景，将图模式分解为多个子图模式；其中，所述多个子图模式能够涵盖全部的业务问答场景。

将多个子图模式通过大语言模型进行自然语言重构，生成多个子图模式描述。其中，所述子图模式描述可以表征对应的子图模式能够解决用户问题的类型。

将所述多个子图模式描述转换为多个描述向量。当用户输入用户问题时，将所述用户问题转换为问题向量。其中，可使用词嵌入方法将多个子图模式描述和用户问题转换为多个描述向量和问题向量。

计算问题向量和多个描述向量的相似度。根据相似度最大的描述向量，确定与用户问题最相匹配的子图模式。

将所述用户问题与所述最相匹配的子图模式构造第一输入信息输入大语言模型，确定与所述用户问题对应的图查询语句。其中，所述第一输入信息的文本结构可表示为：“已知图数据的模式如下：[子图模式]，请写出Gremlin查询语句实现对图数据进行如下查询：[用户问题]。”

根据所述图查询语句搜索图数据库，确定目标图数据。

将目标图数据和用户数据构造第二输入信息，输入大语言模型进行自然语言重构，确定用户问题答案。其中，所述第二输入信息的文本结构可表示为：“下列数据为问题：[用户问题]答案的相关信息，请将下列数据：[目标图数据]重构为自然流畅的文本内容作为回答返回，返回的回答仅从下列数据中采集信息，不要添加额外信息。”

将所述用户问题答案输出至用户前端。

图4示出根据本公开一实施例的图数据语义检索装置的框图。如图4所示，所述图数据语义检索装置20可以包括：

匹配模块21，用于接收用户输入的问题，在多个子图模式中，确定与用户问题最相匹配的子图模式，所述多个子图模式为对图模式分解得到的；

输入模块22，用于将所述用户问题与所述最相匹配的子图模式输入大语言模型，确定与所述用户问题对应的图查询语句；

确定模块23，用于根据所述图查询语句搜索图数据库，确定目标图数据。

在一种可能的实现方式中，所述装置还包括：

其中，所述多个子图模式能够涵盖全部的业务问答场景。

在一种可能的实现方式中，所述匹配模块包括：

问题向量转换单元，用于将所述用户问题转换为问题向量；

在一种可能的实现方式中，所述装置还包括：

输出模块，用于将所述用户问题答案输出至用户前端。

上述装置、电子设备、介质的具体实施例可参见方法部分。

示例性的，电子设备还可以是用户设备(User Equipment，UE)、移动设备、用户终端、终端、手持设备、计算设备或者车载设备等，示例性的，一些终端的举例为：显示器、智能手机或便携设备、手机(Mobile Phone)、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(Mobile Internetdevice，MID)、可穿戴设备，虚拟现实(Virtual Reality，VR)设备、增强现实(Augmentedreality，AR)设备、工业控制(Industrial Control)中的无线终端、无人驾驶(Selfdriving)中的无线终端、远程手术(Remote medical Surgery)中的无线终端、智能电网(Smart Grid)中的无线终端、运输安全(Transportation Safety)中的无线终端、智慧城市(Smart City)中的无线终端、智慧家庭(Smart Home)中的无线终端、车联网中的无线终端等。

图5示出本公开实施例的一种电子设备1900的框图。例如，装置1900可以被提供为一服务器或终端设备。参照图5，装置1900包括处理组件1922，其进一步包括一个或多个处理器，以及由存储器1932所代表的存储器资源，用于存储可由处理组件1922的执行的指令，例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1922被配置为执行指令，以执行上述方法。

装置1900还可以包括一个电源组件1926被配置为执行装置1900的电源管理，一个有线或无线网络接口1950被配置为将装置1900连接到网络，和一个输入输出接口1958(I/O接口)。装置1900可以操作基于存储在存储器1932的操作系统，例如Windows Server^TM，MacOS X^TM，Unix^TM,Linux^TM，FreeBSD^TM或类似。

在示例性实施例中，还提供了一种非易失性计算机可读存储介质，例如包括计算机程序指令的存储器1932，上述计算机程序指令可由装置1900的处理组件1922执行以完成上述方法。

以上所述仅是本发明的示范性实施方式，而非用于限制本发明的保护范围，本发明的保护范围由所附的权利要求确定。

应当说明的是，在本文中，所含术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的7范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种图数据语义检索方法，其特征在于，所述方法包括：

根据所述图查询语句搜索图数据库，确定目标图数据。

2.根据权利要求1所述的方法，其特征在于，接收用户输入的用户问题前，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述在多个子图模式中，确定与用户问题最相匹配的子图模式，包括：

将所述用户问题转换为问题向量；

4.根据权利要求3所述的方法，其特征在于，在将所述用户问题转换为问题向量之前，所述方法还包括：

将所述多个子图模式描述转换为多个描述向量。

5.根据权利要求1所述的方法，其特征在于，确定目标图数据后，所述方法还包括：

将所述用户问题答案输出至用户前端。

6.一种图数据语义检索装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

其中，所述多个子图模式能够涵盖全部的业务问答场景。

8.根据权利要求6所述的装置，其特征在于，所述匹配模块包括：

问题向量转换单元，用于将所述用户问题转换为问题向量；

9.一种电子设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为在执行所述存储器存储的指令时，实现权利要求1至5中任意一项所述的方法。

10.一种非易失性计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现权利要求1至5中任意一项所述的方法。