CN117151052B

CN117151052B - 一种基于大语言模型和图算法的专利查询报告生成方法

Info

Publication number: CN117151052B
Application number: CN202311432805.9A
Authority: CN
Inventors: 金玉赫; 徐青伟; 严长春; 裴非; 范娥媚
Original assignee: Zhiguagua Tianjin Big Data Technology Co ltd; Beijing Zhiguagua Technology Co ltd
Current assignee: Zhiguagua Tianjin Big Data Technology Co ltd; Beijing Zhiguagua Technology Co ltd
Priority date: 2023-11-01
Filing date: 2023-11-01
Publication date: 2024-01-23
Anticipated expiration: 2043-11-01
Also published as: CN117151052A

Abstract

本申请提供了一种基于大语言模型和图算法的专利查询报告生成方法。该方法通过大语言模型对专利交底书进行技术特征点的提取，并通过BM25和WMD算法在专利知识库中进行检索，找到相关技术文献；然后将检索到的相关技术文献自动转化为技术特征图，再通过技术特征图融合，发现与指定技术特征高度相关的其他技术特征，形成了一张全面的技术特征图，最后利用预训练的大语言模型，将技术特征图转化为自然语言的查询报告，其中通过引入可学习的位置提示（p_tuning），模型能够更好地理解输入的技术特征图，并按照用户期望的格式生成查询报告，最终生成的报告不仅包含了详细的技术特征描述，还能反映出特征之间的相关性。

Description

一种基于大语言模型和图算法的专利查询报告生成方法

技术领域

本申请涉及文献大数据分析技术领域，特别是涉及一种专利查询报告生成方法。

背景技术

专利查询报告在技术研发、知识产权保护和风险评估、投资和商业决策、专利申请和维护等方面，有着重要的作用。

本申请尤其关注到专利申请过程中用户对于高质量专利查询报告的需求，其至少能够帮助专利申请人确定自己所提出技术方案的创新程度，并在撰写专利申请文件时提供技术支持和参考资料。

现阶段通常的专利申请过程中，专利查询报告主要是由发明人或专利代理师来撰写，具体步骤一般是：首先根据技术交底书拟定关键词检索专利文献并进行筛选；然后对筛选出的专利文献进行阅读分析，并提炼其关键技术信息；最后根据以上信息撰写专利查询报告（也可称专利检索报告），其中包括对相似专利的技术对比分析和结论。

随着信息化的发展，对于专利查询报告的生成，已经出现了模板化的辅助人工生成报告的技术，发明人或专利代理师拿到模板报告后，添加对现有技术的分析章节，同时添加结论。这种采用模板撰写检索报告的方案，虽然节省了一定的撰写时间投入，但仅能生成通用的结构化信息，而对于准确检索、技术对比分析、明确查询结论等，仍然需要耗费大量的时间和精力。

中国专利文献CN116795789A公开了一种自动生成专利检索报告的方法，该方法的主要包括以下步骤：获取本方案信息、以及至少一件专利文档（检索到的专利文献）；对专利文档进行文本抽取，得到各文本单元；对文本单元进行碎片化拆分处理，得到不同粒度的信息单元；将这些信息单元输入预训练得到的对比分析模型，得到对比分析结果；根据上述专利文档、本方案信息及对比分析结果生成报告内容；将报告内容及相关信息填充到查询报告模板中，生成专利查询报告。该方案相比普通的模板化辅助生成技术，一定程度上提升了专利查询报告生成的效率和准确性。

不过，专利文献CN116795789A的方案仍然存在以下不足之处：

1、该方案采用的是LSTM和FCN等传统模型，尽管在其推出时有着广泛的应用，但在处理大规模复杂文本时的性能有所欠缺；

2、该方案只是对文本和特征进行表面分析，而未揭示技术特征关系；从对比分析的角度来说，只关注明显的技术特征和差异，而忽略了深层次的关联和趋势。

3、该方案基于模板生成的报告往往显得固定和单一，难以满足多样化的需求。

发明内容

本申请提供一种基于大语言模型和图算法的专利查询报告生成方法，旨在解决现有技术难以有效抽取和表达技术特征关系等问题，从而可直接输入技术交底书自动生成更精确和全面的专利查询报告。

一种基于大语言模型和图算法的专利查询报告生成方法，包括：

步骤一、使用大语言模型对输入的技术交底书进行关键词抽取，得到一组技术特征，均记为第一技术特征；

步骤二、对于所述第一技术特征，在已有的专利知识库中进行检索，选取相关度最高的若干篇专利文档；

步骤三、利用大语言模型对步骤二选取的每一篇专利文档进行关键词抽取，得到相应的一组技术特征，均记为第二技术特征；然后基于所述第二技术特征利用图算法生成每一篇专利文档的技术特征关系图，表征该专利文档中各个第二技术特征的关系；

步骤四、使用图匹配算法，在步骤三得到的每一篇专利文档的技术特征关系图中找到与步骤一得到的第一技术特征重合度最高的技术特征，再通过合并技术特征得到该篇专利文档对应的候选技术特征图；将所有候选技术特征图融合成一个新的技术特征图；

步骤五、基于所述新的技术特征图，利用大语言模型将新的技术特征图转化为自然语言的专利查询报告，其中预先通过应用可学习的位置提示，使得该大语言模型能够理解输入的技术特征图，并按照期望的格式规范生成专利查询报告，专利查询报告不仅包含技术特征描述，还反映技术特征之间的相关性。

可选地，步骤二中，是结合BM25和WMD算法在已有的专利知识库中进行检索，得到与所述第一技术特征相关度最高的若干篇专利文档。

可选地，步骤二具体包括：

S2.1、对于每篇专利文档d，计算其与输入的第一技术特征的BM25评分，记为；

S2.2、使用WMD算法计算输入的第一技术特征与每篇专利文档d的距离，记为；

S2.3、对每篇专利文档计算综合评分，选择评分最高的若干篇专利文档；其中，按照以下公式计算综合评分：

其中，α是权重参数，用于调整 BM25 评分和 WMD 距离之间的权重。

可选地，步骤三具体包括：

S3.1、技术特征关系图生成：

首先定义一个函数F，该函数F将专利文档d_i映射到一个技术特征集合V_i，公式表示如下：

其中，V_i是从文档d_i中抽取的技术特征集合，F(d_i)是将文档d_i映射到技术特征集合V_i的函数，v是特征，是由大语言模型计算的特征v被标记为技术特征的概率，/>是设定的概率阈值；

随后，定义技术特征关系图G_i为：

其中，G_i是文档d_i的技术特征关系图，V_i是从文档d_i中抽取的技术特征集合，由特征关系强度构成的邻接矩阵，F(d_i)是将文档d_i映射到技术特征集合V_i的函数；

使用大语言模型来计算任意两个技术特征之间的关系强度，进而得到特征关系强度构成的邻接矩阵A_i，具体用以下公式来表示：

其中a_kl代表特征v_k和特征v_l之间的关系强度；

S3.2、邻接矩阵裁剪：

对邻接矩阵A_i进行裁剪；具体是：设置一个阈值θ，然后将邻接矩阵A_i中所有小于θ的元素设为零，这个过程用以下公式表示：

然后基于裁剪后的邻接矩阵，生成新的技术特征关系图/>。

可选地，步骤四中，所述图匹配算法具体如下：

在选取的每篇专利文档的技术特征关系图中，找到与第一技术特征的集合V_c重合度最高的技术特征/>；/>，n为步骤二得到的所述相关度最高的若干篇专利文档的篇数；

对于每篇从专利文档中抽取出的技术特征v_l，计算其与技术交底书中抽取的所有技术特征的匹配度，并取其平均值作为该技术特征v_l的最终匹配度，这个过程用以下公式表示：

这里，v_l是从专利文档中抽取的技术特征，v_k是技术交底书中抽取的技术特征，|V_c|是集合V_c的大小，是特征v_k和特征v_l的匹配度，/>是特征点v_l的最终匹配度；

最后，对每篇专利文档中所有的技术特征按照它们的最终匹配度进行排序，然后选择匹配度最高的一个技术特征；这个过程用以下公式表示：

是该篇专利文档中与技术交底书匹配度最高的一个技术特征；

另外，将技术交底书中与技术特征相关度最大的技术特征记为/>。

可选地，步骤四中，在使用图匹配算法得到每篇技术文档中与技术交底书匹配度最高的一个技术特征后，还遍历该专利文档裁剪后的技术特征关系图，根据图的传播关联性，找出所有与最高匹配度的技术特征/>的相关度大于设定阈值/>的技术特征，将其也作为候选技术特征，共同构建所述候选技术特征图。

可选地，步骤四中，将所有候选技术特征图融合成一个新的技术特征图，具体包括：

将所有候选技术特征图的顶点集合和边集合进行并集操作，得到新的技术特征图的顶点集合V_new和边集合E_new，用以下公式表示：

其中分别表示第i篇技术文档的候选技术特征图中的顶点集合和边集合，n为候选技术特征图的数量，也即步骤二得到的所述相关度最高的若干篇专利文档的篇数；

采用基于预训练的语义嵌入模型 SimCSE 计算技术特征之间的语义相似性，引入跨文档边关系，并根据语义相似度定义跨文档边的权重w_ij，形成最终融合的新的技术特征图G，，其中，E_new包括在每个单独的专利文档中的边关系，以及通过语义嵌入引入的跨文档边关系。

可选地，步骤五中，基于所述新的技术特征图，利用大语言模型将新的技术特征图转化为自然语言的专利查询报告，具体包括：

以每篇专利文档与技术交底书中匹配度最高的技术特征作为起始点，使用深度优先搜索在新的技术特征图G中搜索相关技术特征；搜索的中止条件是：在G中找不到与的相关度高于/>的技术特征；

将搜索路径上每一次成功的搜索结果都放在一个技术特征关系对集合S里，技术特征关系对集合S里的首个技术特征对是，W代表/>与/>的相关度，/>为技术交底书中与/>相关度最大的技术特征；

接着将技术特征关系对集合S中的每个技术特征对根据预设的规则自动转换为自然语言的描述，并且使得每个形成技术特征描述段落，其中，在每个技术特征对的自然语言的描述中都包含该技术特征对的关联强度描述；

使用 P-tuning 技术，通过引入可学习的位置嵌入来引导模型的输出，使模型能更好地理解输入，生成更贴近期望的文本；其中，所述可学习的位置嵌入采用带有占位符的句子，在位置嵌入描述后加上原始技术特征对之间的关系强度数值。

本申请还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特殊之处在于，所述处理器执行所述计算机程序时实现上述基于大语言模型和图算法的专利查询报告生成方法的步骤。

本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，其特殊之处在于，所述计算机程序被处理器执行时实现上述基于大语言模型和图算法的专利查询报告生成方法的步骤。

相比现有技术，本申请至少具有以下有益效果：

本申请提供了一种基于专利交底书进行相关性检索，并生成查询报告的方法，解决了常规专利检索和报告生成方法无法有效抽取和表达技术特征关系的问题，尤其是在处理复杂技术领域的专利文档时，这个问题尤其突出。本申请利用大语言模型（LLM）蕴含的海量知识和强大的理解能力，结合有效的技术特征图生成和融合方法，得到更为精确和全面的查询报告。具体来说：

首先，本申请通过大语言模型对专利交底书进行技术特征点的提取，并通过BM25和WMD算法在专利知识库中进行检索，找到相关技术文献。

其次，本申请提出了一种技术特征图生成方法，将检索到的相关技术文献自动转化为技术特征图。

然后，本申请提出了一种多篇技术文献的技术特征图融合方法，该方法可以自动发现与指定技术特征高度相关的其他技术特征。这种策略不仅能发现直接相关的技术特征，还能通过递归搜索发现间接相关的技术特征，从而形成了一张全面的技术特征图。

最后，本申请利用预训练的大语言模型，将技术特征图转化为自然语言的查询报告。通过引入可学习的位置提示（p_tuning），模型能够更好地理解输入的技术特征图，并按照用户期望的格式生成查询报告。这使得生成的报告不仅包含了详细的技术特征描述，还能反映出特征之间的相关性。

附图说明

图1为本申请的一种基于大语言模型和图算法的专利查询报告生成方法的流程示意图；

图2为本申请一个实施例中的具体流程示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在本申请的描述中：除非另有说明，“多个”的含义是两个或两个以上。本申请中的术语“第一”、“第二”等旨在区别指代的对象，而不具有技术内涵方面的特别意义（例如，不应理解为对重要程度或次序等的强调）。“包括”、“包含”、“具有”等表述方式，同时还意味着“不限于”（某些单元、步骤等）。

如图1所示，本申请提供的一种基于大语言模型和图算法的专利查询报告生成方法，包括：

步骤一：使用大语言模型对输入的技术交底书进行关键词抽取，得到一组技术特征，均记为第一技术特征；

本步骤基于专利交底书，通过大语言模型提取技术特征，并利用BM25和WMD算法对专利知识库进行深度检索，从而智能化地从交底书中提取出关键技术特征，并在专利知识库中找到与这些技术特征高度相关的技术文献。

步骤二：对于所述第一技术特征，在已有的专利知识库中进行检索，选取相关度最高的若干篇专利文档；例如，可选取相关度最高的Top10技术文档，并按照其发明时间从新到旧进行二次排序。

这里所说的专利知识库，可以自建，也可以采用现有的专利数据库/检索平台。

步骤三：利用大语言模型对步骤二选取的每一篇专利文档进行关键词抽取，得到相应的一组技术特征，均记为第二技术特征；然后基于所述第二技术特征利用图算法生成每一篇专利文档的技术特征关系图，表征该专利文档中各个第二技术特征的关系；

本步骤中，利用大语言模型，对Top10的相关技术文档进行技术特征抽取，并利用图算法对每篇技术文档生成可视化的技术特征关系图，通过技术特征关系图可以直观地展现出各个技术特征间的关系。

步骤四：使用图匹配算法，在步骤三得到的每一篇专利文档的技术特征关系图中找到与步骤一得到的第一技术特征重合度最高的技术特征，再通过合并技术特征得到该篇专利文档对应的候选技术特征图；将所有候选技术特征图融合成一个新的技术特征图；

本步骤的技术特征图融合，通过自动寻找与指定技术特征高度相关的其他技术特征，使得从单一的技术特征图扩展到了全面的技术特征图，实现了技术特征之间的深度搜索和连接，不仅能发现直接相关的技术特征，还能递归搜索发现间接相关的技术特征。

步骤五：基于所述新的技术特征图，利用大语言模型将新的技术特征图转化为自然语言的专利查询报告，其中预先通过应用可学习的位置提示，使得该大语言模型能够理解输入的技术特征图，并按照期望的格式规范生成专利查询报告，专利查询报告不仅包含技术特征描述，还反映技术特征之间的相关性。

本步骤中，将技术特征图转化为自然语言的查询报告，通过应用可学习的位置提示（p_tuning），使得模型能够更好地理解输入的技术特征图，并生成出格式规范、内容丰富的查询报告。

本实施例中提到的“大语言模型”是一个泛称，是指一类参数量较大的语言模型，对具体的模型没有限制要求，可以相同也可以不同。以上步骤一、步骤三以及步骤五所用到的大语言模型也都可以是未进行特殊训练的原始模型。

以下结合图2，给出进一步的具体实施例。

一、使用大语言模型对交底书中的技术内容进行关键词组/技术特征的抽取：

本申请使用一个预训练的大模型来进行关键词或技术特征的提取。这种方法的优点在于，它能够利用模型内部学习到的丰富语义信息，从而更准确地识别和提取出关键词或技术特征。具体来说，我们可以把大模型抽象为一个函数F，其输入是交底书中的技术内容，输出是一组关键词或技术特征。定义函数F如下：

其中，表示专利交底书的文本，/>表示从该文本中提取出的一组关键词或技术特征。

函数F的工作过程可以概括为以下步骤：

(1) 首先，模型接收交底书中的技术内容输入。

(2) 接着，模型利用其内部学习到的语义信息对输入内容进行解析，提取出关键信息，具体而言是对序列中每一个字，使用大语言模型预测其是否是一个关键词组/技术特征点的开始，然后对于每一个可能的关键词组/技术特征点的开始使用LLM进一步预测该关键词组/技术特征点的长度。可以使用以下公式及过程描述：

①假设用户的输入为一段专利交底书中的技术内容I；

②将这一段技术内容进行预处理分成n个基本单元：；

③然后预测每个基本单元是一个关键词组/技术特征点开始的概率：

④之后对于每个可能是关键词组/技术特征点开始的基本单元，使用LLM预测以该基本单元为开始的关键词组/技术特征点的长度j：

这里，表示在给定w_i是一个关键词组/技术特征开始的条件下，该关键词组/技术特征长度为j的概率。

(3) 最后，对于每个单词w_i和每个可能的长度j，计算以下的乘积：

接着对所有的对，选择得分最高的若干对，将其转化为原文中对应的文本内容，作为最终提取得到的关键词组/技术特征。

二、将抽取出的关键词组/技术特征使用BM25和WMD算法在专利知识库中进行检索：

在抽取出交底书中的关键词组/技术特征后，本申请使用 BM25 和 WMD（WordMover's Distance）算法在专利知识库中进行检索。BM25 是一种经典的基于词袋模型的信息检索算法，而 WMD 是一种基于词嵌入模型的距离度量，可以捕捉关键词之间的语义关系。结合这两种算法可以有效地从知识库中检索出与输入技术内容相关的专利文档。

1、BM25 算法：

对于每篇专利文档 d，首先计算其与交底书中的关键词组/技术特征的 BM25 评分。这个过程可以用以下公式表示：

这里，是关键词w_i的逆文档频率，/> 是关键词w_i在文档 d中的频率，|d| 是文档d的长度，avgdl是知识库中所有文档的平均长度，k1和b是调整参数。

2、WMD 算法：

然后，接着使用 WMD 算法计算输入的关键词组/技术特征与每篇专利文档的距离。这个过程可以用以下公式表示：

这里，P和Q分别是输入的关键词组/技术特征和文档d的词频向量，是 P和Q之间所有可能的传输计划，T_ij是从关键词w_i到文档d中的词 w_j的传输量，/>是关键词w_i和w_j的词嵌入之间的距离。

3、综合评价得分：

最后，对每篇专利文档计算综合评分，选择评分最高的 Top10 专利文档。这个过程可以用以下公式表示：

这里，α是权重参数，用于调整 BM25 评分和 WMD 距离之间的权重。

三、利用大语言模型，对相关技术文档进行技术特征抽取，并利用图算法对每篇技术文档生成技术特征关系图。

对于使用上述方法获得的Top10相关技术文档，本申请使用大语言模型来抽取其中的技术特征，具体方法同样适用于第一部分中对交底书的技术特征提取，这里不再描述。在获得top10相关技术文档的技术特征点之后，本申请使用图的邻接矩阵来表示每篇技术文档的技术特征关系图。通过技术特征关系图，可以直观地展现出各个技术特征之间的关系，而获得技术特征点图邻接矩阵的过程，同样依赖于LLM，具体过程如下：

特征关系图生成：

随后，定义技术特征关系图G_i为：

其中，G_i是文档d_i的技术特征关系图，V_i是从文档d_i中抽取的技术特征集合，由特征关系强度构成的邻接矩阵，F(d_i)是将文档d_i映射到技术特征集合V_i的函数。

本实施例使用大语言模型LLM来计算任意两个特征之间的关系强度，进而可以得到特征关系强度构成的邻接矩阵A_i，具体可以用以下公式来表示：

其中a_kl代表特征v_k和特征v_l之间的关系强度，具体可将两个技术特征文本输入大语言模型得到。

邻接矩阵裁剪：

为了保留最重要的技术特征及它们之间的关系，本申请需要对邻接矩阵进行裁剪。具体来说，设置一个阈值θ，然后将邻接矩阵中所有小于θ的元素设为零，这个过程可以用以下公式表示：

然后基于裁剪后的邻接矩阵，生成新的技术特征关系图/>。

四、使用图匹配算法，在Top10相关技术文档中找到与技术交底书中的技术特征点重合度最高的若干技术特征，然后对这些技术特征进行二次合并，形成新的技术特征图：

1、图匹配算法：

在获得top10相关技术文档的技术特征关系图之后，本申请利用一个特殊设计的图匹配算法在每个相关技术文档的特征关系图中找到与专利交底书中的技术特征点集合V_c重合度最高的技术特征，/>。具体的方法是，本实施例定义了一个匹配度函数/>，对于任意的/>和/>，可以计算它们的匹配度/>，可以用以下公式表示：

其中，v_k和 v_l是技术特征，是特征v_k和特征v_l的匹配度，使用二者的文本输入大语言模型得到。

对于每个从技术文档中抽取出的技术特征v_l，我们计算其与交底书中所有特征点的匹配度，并取其平均值作为该技术特征的最终匹配度。这个过程可以用以下公式表示：

这里，v_l是从专利文档中抽取的技术特征，v_k是技术交底书中抽取的技术特征，|V_c|是集合V_c的大小，是特征v_k和特征v_l的匹配度，/>是特征点v_l的最终匹配度。

最后，我们对每篇相似技术文档中所有的技术特征按照它们的最终匹配度进行排序，然后选择匹配度最高的技术特征。这个过程可以用以下公式表示：

2、生成候选技术特征图：

在获得top10技术文档中匹配度最高的技术特征之后，再构造出由这些匹配度最高的技术特征及其他某些技术特征构成的候选技术特征图。其中，在每篇参考专利中“其他技术特征”的选择条件是：遍历该技术文档裁剪后的技术特征图，找出所有与最高匹配度的技术特征/>的相关度大于/>的技术特征。

其中该技术特征与匹配度最高的技术特征的相关度可以由图的传播关联性得到，公式如下：

在这个公式中，表示顶点v的邻居，/>表示边/>的权重。这个函数定义了一种递归的方式来寻找最佳路径。

候选技术特征图的顶点集合可以使用以下公式表示：

其中顶点集合的表达式中，/>是匹配度的阈值，只要该技术特征点与/>的相关度大于等于阈值/>，那么这个技术特征就会被选为候选技术特征。

对于候选技术特征图的边集合，若原特征关系图中存在一条边直接连接了两个候选技术特征点，则这条边就会被选入到候选技术特征图的边集合中。边集合可以表达为：

在边集合的表达式中，u,v是顶点集合/>中的顶点，/>是E_i中的边。

3、技术特征图的融合：

最后，我们将所有候选技术特征图融合成一个新的技术特征图。具体来说，我们将所有候选技术特征图的顶点集合和边集合进行并集操作，得到新的技术特征图的顶点集合V_new和边集合E_new，可以用以下公式表示：

其中分别表示第i篇技术文档的候选技术特征图中的顶点集合和边集合，n取10。

4、通过语义嵌入引入跨文档边关系：

为了更好地融合来自不同文档的技术特征信息，本实施例定义了一种跨文档的边关系。这里，我们采用基于预训练的语义嵌入模型 SimCSE 计算技术特征之间的语义相似性，以引入这种边关系。

具体步骤如下：

使用 SimCSE 将每个技术特征v转换为一个向量。SimCSE 通过无监督对比学习训练，能够生成具有良好语义相似性的嵌入。

计算两个技术特征v_i和v_j之间的语义相似性。计算方法为余弦相似度：

其中，是向量v_i的L2范数，·代表向量点积。这个公式计算的是两个技术特征向量之间的余弦相似度。

设置一个相似度阈值θ，并根据阈值引入边关系：

这个公式表示，如果两个技术特征的语义相似度超过阈值θ，那么就在它们之间添加一条边；

最后，我们需要根据语义相似度重新定义边的权重w_ij，具体为

经过上述步骤，我们已经成功地引入了跨文档的边关系并定义了边的权重。接下来，我们将所有的这些信息整合，形成最终的融合技术特征图G。

具体来说，最终的技术特征图是由合并处理后的技术特征顶点集合V_new和边集合E_new构成的。其中，V_new包括了所有在前述步骤中被选取的技术特征点，E_new则包括了在每个单独的技术文档中的边关系，以及通过语义嵌入引入的跨文档边关系。对于每个边/>，它的权重 w_ij是由语义相似度/>定义的。

五、利用大语言模型进行专利专利查询报告生成：

经过前述步骤，我们已成功获取了技术特征图，其内含待生成文本的关键信息。接下来，我们需要将这些信息以特定的输入格式编排，以便输入到大型语言模型（LLM）中进行查询报告的生成。生成的报告会包含原始专利交底书中的技术特征和相似文献中的扩展技术特征，以及这些特征之间的关系。

组织查询报告的格式为：以每篇专利文档与技术交底书中匹配度最高的技术特征作为起始点，使用深度优先搜索在新的技术特征图G中搜索相关技术特征；搜索的中止条件是：在G中找不到与/>的相关度高于/>的技术特征。

将搜索路径上每一次成功的搜索结果都放在一个技术特征关系对集合S里，特殊的，S里的首个技术特征对是。W代表/>与/>的相关度。

接着将S中的每个技术特征对进行自然语言的形式进行描述，并且使得每个形成技术特征描述段落。在每个技术特征对的自然语言的描述中，都包含该技术特征对的关联强度描述，比如“特征v_i与特征v_j高度相关”。通过这种方式，我们可以将图的信息转化为自然语言的描述，方便后续模型的理解和处理。下面用一个具体例子来表述该转换过程：

v_i表示的是“利用神经网络进行图像分类”这一技术特征。v_j表示的是“使用卷积层提取图像特征”这一技术特征。e_ij为连接v_i和v_j的边，w_ij代表这条边上的权重，并且w_ij=0.8，在S中这个技术特征对存储为这一部分的技术特征图根据预设的规则自动转换为自然语言的描述：“技术特征‘利用神经网络进行图像分类’与技术特征‘使用卷积层提取图像特征’高度关联”。如果w_ij=0.5，则前述“高度关联”将会变成“普通关联”。

在此基础上，我们选择使用 P-tuning 技术对大语言模型进行微调。P-tuning 是一种优化模型表现的策略，它通过引入可学习的位置嵌入（prompts）来引导模型的输出，使模型能更好地理解输入，生成更贴近期望的文本。

具体来说，我们将给出一些带有占位符的示例句子作为 prompts，例如：“基于检索查询，我们发现特征‘利用神经网络进行图像分类’和特征‘使用卷积层提取图像特征’是___相关的，二者的关系是___。”。然后，我们将训练模型学习如何填充这些占位符，使得填充后的句子描述出技术特征图的内容，并能引导模型沿着我们期望的方式生成文本。

然后我们将带有占位符的prompt替换上述自然语言描述，由于占位符替代了关系强度的描述，我们在prompt描述后加上原始技术特征对之间的关系强度数值。例如prompt:“利用神经网络进行图像分类” 和特征“使用卷积层提取图像特征”是___相关的，二者的关系是___。0.8”。

本实施例中，训练数据集由两部分构成：

1）原始专利数据：原始专利数据中包含了大量的专利描述和相应的技术特征，将这些数据采用本文第三部分描述的技术特征图提取方法进行预处理，提取出技术特征和技术特征之间的关系，构建出原始专利的技术特征图，并使用下面的方法进行预处理，将其作为我们的专利训练数据。

转换技术特征图：使用上面描述的方法，将每一对技术特征转换为自然语言的描述。

生成占位符提示：在转换后的描述中插入占位符。在本申请中将占位符插入到了关于技术特征图的描述中，这是因为这部分信息是我们希望模型重点理解和利用的。通过插入占位符，我们强调了这部分信息的重要性，同时也给模型提供了一种方式来学习如何根据这部分信息生成我们期望的输出。插入占位符的位置是描述两个技术特征关联性的位置。

额外向量输入：将技术特征对的关联度以额外向量的方式输入到模型。

下面是一个具体的例子：

有一个技术特征图，它有两个节点分别是“无人驾驶汽车”和“激光雷达”，它们之间的边的权重是0.85。同时，这个图对应的原始技术文档中有这样一段描述：“无人驾驶汽车利用激光雷达进行导航和避障，两者的配合可以达到非常高的精度和稳定性”。

我们首先将这个图转化为自然语言描述，例如：“无人驾驶汽车与激光雷达的关系强度为0.85”。

然后，我们将这个句子中的描述强度的部分替换为占位符，例如：“无人驾驶汽车与激光雷达的关系强度为{MASK}”。

接着，我们为占位符{MASK}准备额外的向量输入，即原始的边权重，例如[0.85]。

最后，我们构建完整的训练集。训练集中的每个样本包含了替换了占位符的句子和对应的额外向量输入，以及期望模型生成的输出，即原始专利文本中的描述。例如，一个训练样本就可以表示为：

输入： "无人驾驶汽车与激光雷达的关系强度为{MASK}。", 额外向量输入:[0.85] ；

输出： "无人驾驶汽车利用激光雷达进行导航和避障，两者的配合可以达到非常高的精度和稳定性。"

通过上述方法构建专利领域的P-tuning数据集。

2）在此基础上额外引入同等数量的通用领域P-tuning数据集，二者比例为1:1，通用领域P-tuning数据集的来源是来自于互联网搜集。这样做的原因是为了保持模型原本的能力，避免因为垂直领域的微调而造成灾难性遗忘。

我们可以将训练过程表述为下面的优化问题：

其中是模型根据输入描述d和额外向量输入/>生成的文本。

是交叉熵损失函数，用来衡量模型生成的文本和真实文本y 的差距。损失函数定义如下：

p是训练过程中第i个词实际的分布，是模型预测的词的概率分布。

通过上述过程，已经训练好了一个可以用于将技术特征对转化为自然语言描述的大语言模型，接下来可以使用该模型进行专利查询报告的生成，具体而言是通过前述步骤一至步骤四使用原始交底书获取到相关技术文献的技术特征图，之后通过训练好的大语言模型及技术特征图的使用方法，将从技术特征图筛选出的技术特征对转化为自然语言描述，再以前述专利查询报告的组织格式进行编排。

其中，将技术特征对（v_i，v_j，w_ij）转化为模型输入的步骤具体可以是：

①节点转化：直接转化。如果技术特征是“气动系统”，“能源管理系统”，则描述为“气动系统”，“能源管理系统”。

②添加占位符：在描述中添加占位符以表示节点和边的强度。例如，您可能将“有很强的关联”替换为“有{MASK}的关联”，其中{MASK}是一个占位符。

③生成额外的输入向量：将wij添加到原始输入的末尾。

最终得到模型的输入：“气动系统与能源管理系统有{MASK}的关联”，“[wij]”，然后输入到使用P-tuning训练好的大语言模型中进行生成。

与前述专利文献CN116795789A的方案相比，本实施例具有以下优势：

a、模型先进性：本实施例采用了大语言模型，大语言模型的优势在于其深度和宽度，其结合了海量的训练数据和先进的算法，能够更好地捕捉文本的细微差异和复杂关系，使其在文本处理、理解和生成上具有出色的能力。

b、技术特征关系：本实施例使用图算法作为其核心技术，旨在挖掘深层的逻辑关联。图算法以其独特的数据结构和处理方式，使得关系和结构的挖掘更为直观和高效。尤其在大数据环境下，可以揭示出更为丰富的技术关系。

c、技术报告流畅性及多样性：本实施例利用大语言模型生成的报告不仅内容丰富，而且流畅自然，更接近人类的表达习惯。因为大语言模型能够理解和生成接近人类的自然语言，所以其生成的报告既具有深度又具有广度。

d、对比分析角度：本实施例从技术特征关联的角度进行专利对比分析，这种方法不仅考虑了技术的实质内容，还关注其背后可能的技术关系和趋势。这种深入的分析方法有助于揭示专利文献的核心技术和潜在价值。

在一个实施例中，还提供了一种计算机设备，该计算机设备可以是服务器，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力，网络接口用于与外部的终端通过网络连接通信，该计算机设备通过加载运行计算机程序以实现上述上述实施例方法中的全部或部分流程。

在一个实施例中，还提供了一种计算机可读存储介质，其上存储有计算机程序，涉及上述实施例方法中的全部或部分流程。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

Claims

1.一种基于大语言模型和图算法的专利查询报告生成方法，其特征在于，包括：

步骤三、利用大语言模型对选取的每一篇专利文档进行关键词抽取，得到相应的一组技术特征，均记为第二技术特征；然后基于所述第二技术特征利用图算法生成每一篇专利文档的技术特征关系图，表征该专利文档中各个第二技术特征的关系；

步骤五、基于所述新的技术特征图，利用大语言模型将新的技术特征图转化为自然语言的专利查询报告，其中预先通过应用可学习的位置提示，使得该大语言模型能够理解输入的技术特征图，并按照期望的格式规范生成专利查询报告，专利查询报告不仅包含技术特征描述，还反映技术特征之间的相关性；

步骤三具体包括：

S3.1、技术特征关系图生成：

V_i＝F(d_i)＝{v|v＝特征，P_feat(v)≥θ_v}

其中，V_i是从文档d_i中抽取的技术特征集合，F(d_i)是将文档d_i映射到技术特征集合V_i的函数，v是特征，P_feat(v)是由大语言模型计算的特征v被标记为技术特征的概率，θ_v是设定的概率阈值；

随后，定义技术特征关系图G_i为：

G_i＝(V_i，E_i)＝(F(d_i)，A_i)

其中，G_i是文档d_i的技术特征关系图，V_i是从文档d_i中抽取的技术特征集合，E_i＝A_i由特征关系强度构成的邻接矩阵，F(d_i)是将文档d_i映射到技术特征集合V_i的函数；

a_kl＝LLM(v_k，v_l＝″关系″)

其中a_kl代表特征v_k和特征v_l之间的关系强度；这里的特征v_k和特征v_l属于集合V_i；

S3.2、邻接矩阵裁剪：

对邻接矩阵A_i进行裁剪；具体是：设置一个阈值O，然后将邻接矩阵A_i中所有小于O的元素设为零，这个过程用以下公式表示：

然后基于裁剪后的邻接矩阵A′_i，生成新的技术特征关系图G′_i＝(V′_i，E′_i)；

步骤四中，所述图匹配算法具体如下：

在选取的每篇专利文档的技术特征关系图G′_i＝(V′_i，E′_i)中，找到与第一技术特征的集合V_c重合度最高的技术特征i＝1，2，...，n，n为步骤二得到的所述相关度最高的若干篇专利文档的篇数；

这里，v_l是从专利文档中抽取的技术特征，v_k是技术交底书中抽取的技术特征，|V_c|是集合V_c的大小，M(v_k，v_l)是特征v_k和特征v_l的匹配度，M(v_l)是特征点v_l的最终匹配度；这里的特征v_k∈V_c，v₁∈V′_i；

另外，将技术交底书中与技术特征相关度最大的技术特征记为/>

步骤四中，在使用图匹配算法得到每篇技术文档中与技术交底书匹配度最高的一个技术特征后，还遍历该专利文档裁剪后的技术特征关系图G′_i，根据图的传播关联性，找出所有与最高匹配度的技术特征的相关度大于设定阈值Θ_Rel的技术特征，将其也作为候选技术特征，共同构建所述候选技术特征图；

步骤四中，将所有候选技术特征图融合成一个新的技术特征图，具体包括：

其中和/>分别表示第i篇技术文档的候选技术特征图中的顶点集合和边集合，n为候选技术特征图的数量，也即步骤二得到的所述相关度最高的若干篇专利文档的篇数；

采用基于预训练的语义嵌入模型SimCSE计算技术特征之间的语义相似度，引入跨文档边关系，并根据语义相似度定义跨文档边的权重w_ij，形成最终融合的新的技术特征图G，G＝(V_new，E_new)，其中，E_new包括在每个单独的专利文档中的边关系，以及通过语义嵌入引入的跨文档边关系；

其中，引入跨文档边关系以及定义跨文档边的权重，具体步骤如下：

使用SimCSE将每个技术特征v转换为一个向量vec(v)；

计算两个技术特征v_i和v_j之间的语义相似度，具体是计算两个技术特征向量之间的余弦相似度：

其中，||vec(v_i)||₂是向量v_i的L2范数，·代表向量点积；

设置一个相似度阈值O，并根据相似度阈值O引入边关系：

E_new＝E_new∪{(v_i，v_j)|Sim(v_i，v_j)＞θ，v_i∈V_new，v_j∈V_new}

公式表示，如果两个技术特征的语义相似度超过相似度阈值θ，那么就在它们之间添加一条边；

最后，根据语义相似度重新定义边的权重w_ij，具体为

w_ij＝Sim(v_i，v_j)

经过以上步骤，引入了跨文档的边关系并定义了边的权重。

2.根据权利要求1所述的基于大语言模型和图算法的专利查询报告生成方法，其特征在于，步骤二中，是结合BM25和WMD算法在已有的专利知识库中进行检索，得到与所述第一技术特征相关度最高的若干篇专利文档。

3.根据权利要求2所述的基于大语言模型和图算法的专利查询报告生成方法，其特征在于，步骤二具体包括：

S2.1、对于每篇专利文档d，计算其与输入的第一技术特征的BM25评分，记为SCOFe_BM25(d)；

这里，IDF(w_i)是关键词w_i的逆文档频率，f(W_i，d)是关键词w_i在文档d中的频率，|d|是文档d的长度，avgdl是知识库中所有文档的平均长度，k1和b是调整参数；

S2.2、使用WMD算法计算输入的第一技术特征与每篇专利文档d的距离，记为distance_WMD(d)；

这里，P和Q分别是输入的关键词组/技术特征和文档d的词频向量，Π(P，Q)是P和Q之间所有可能的传输计划，T_ij是从关键词w_i到文档d中的词w_j的传输量，d(w_i，w_j)是关键词w_i和w_j的词嵌入之间的距离；

score(d)＝α·ScOFe_BM25(d)-(1-α)·distance_WMD(d)

其中，α是权重参数，用于调整BM25评分和WMD距离之间的权重。

4.根据权利要求1所述的基于大语言模型和图算法的专利查询报告生成方法，其特征在于，步骤五中，基于所述新的技术特征图，利用大语言模型将新的技术特征图转化为自然语言的专利查询报告，具体包括：

以每篇专利文档与技术交底书中匹配度最高的技术特征作为起始点，使用深度优先搜索在新的技术特征图G中搜索相关技术特征；搜索的中止条件是：在G中找不到与/>的相关度高于Θ_Rel的技术特征；

将搜索路径上每一次成功的搜索结果都放在一个技术特征关系对集合S里，技术特征关系对集合S里的首个技术特征对是W代表/>与/>的相关度，/>为技术交底书中与/>相关度最大的技术特征；

使用P-tuning技术，通过引入可学习的位置嵌入来引导模型的输出，使模型能更好地理解输入，生成更贴近期望的文本；其中，所述可学习的位置嵌入采用带有占位符的句子，在位置嵌入描述后加上原始技术特征对之间的关系强度数值。

5.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述基于大语言模型和图算法的专利查询报告生成方法的步骤。

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4中任一项所述基于大语言模型和图算法的专利查询报告生成方法的步骤。