CN117521629A

CN117521629A - 一种基于大语言模型的桥梁检测报告生成方法

Info

Publication number: CN117521629A
Application number: CN202311591208.0A
Authority: CN
Inventors: 蔡爵威; 赵荣欣; 吴华勇; 邢云; 周子杰; 贾鹏飞; 王晓云; 余威镭
Original assignee: Shanghai Building Science Research Institute Co Ltd
Current assignee: Shanghai Building Science Research Institute Co Ltd
Priority date: 2023-11-27
Filing date: 2023-11-27
Publication date: 2024-02-06

Abstract

本发明公开了一种基于大语言模型的桥梁检测报告生成方法，其包括：S1：获取多数量的桥梁检测报告分块；采用Embedding模型计算各桥梁检测报告分块的第一特征向量，并存储于数据库中形成知识数据库；S2：获取桥梁检测结果以及报告生成需求，采用Embedding模型将桥梁检测结果转换为第二特征向量；采用第二特征向量在知识数据库中搜索，获得最接近的三个第一特征向量；S3：根据桥梁检测结果、报告生成需求以及步骤S2中搜索得到的各第一特征向量对应的桥梁检测报告分块代入提示词模板，构造提示词；S4：将提示词输入大语言模型得到报告内容。本方法提供了一种自动化、智能化的桥梁检测报告生成方案，可大大减少人工报告输入的时间，提高生产效率、保证报告质量。

Description

一种基于大语言模型的桥梁检测报告生成方法

技术领域

本发明涉及桥梁检测领域，尤其涉及一种基于大语言模型的桥梁检测报告生成方法。

背景技术

在城市基础设施领域，桥梁被视为重要的生命线工程，其安全和稳定性对于确保人民的生命和财产安全至关重要。为了维持桥梁的可靠运行，定期的桥梁检测是不可或缺的工作，其结果被详细记录在桥梁检测报告中。然而，传统的桥梁检测报告撰写过程通常需要工程师进行大量重复性工作，包括从检测数据中提取各种参数、整理数据、编写报告的文本内容，以及最终的校对和优化。这些任务占用了工程师宝贵的时间，同时容易导致疲劳和精力不集中，从而增加了出错的可能性。即使是经验丰富的工程师，也需要反复执行相同的任务，这不仅是一种资源浪费，还可能影响报告的准确性和质量。

此外，由于桥梁检测报告的撰写通常需要多位工程师的合作，每个工程师的文本风格和经验水平都有差异，这可能导致报告的质量良莠不齐。一些部分可能过于繁复，而另一些部分可能不够详尽。为了确保报告的准确性和完整性，通常需要额外的时间和资源来进行报告的协调和校核。

发明内容

本发明的目的就是为了克服上述现有技术和作业模式存在的缺陷，提供一种基于大语言模型的桥梁检测报告辅助生成方法及系统，从而提高桥梁检测报告的生成效率以及文本质量。

为实现上述目的，本发明提供了一种基于大语言模型的桥梁检测报告生成方法，其包括以下步骤：

S1：获取多数量的桥梁检测报告分块，每个桥梁检测报告分块包括桥梁检测结果以及对应的报告内容；采用Embedding模型计算各桥梁检测报告分块的第一特征向量，将各第一特征向量存储于数据库中形成知识数据库；

S2：获取桥梁检测结果以及报告生成需求，采用Embedding模型将桥梁检测结果转换为第二特征向量；采用第二特征向量在所述知识数据库中搜索，获得最接近的若干个第一特征向量；

S3：根据桥梁检测结果、报告生成需求以及步骤S2中搜索得到的各第一特征向量对应的桥梁检测报告分块代入提示词模板，构造提示词；

S4：将构造好的提示词输入大语言模型，得到报告内容。

本发明的进一步改进在于，步骤S1中，桥梁检测报告分块的报告内容的要素类型包括：病害成因分析、检测结论、养护建议。

本发明的进一步改进在于，步骤S1中，采用的Embedding模型包括word2vec、glove、fasttext、ELMo、GPT中的一种或多种。

本发明的进一步改进在于，步骤S1中存储第一特征向量的数据库选用Chroma、milvus、qdrant、orama、txtai中的一种。

本发明的进一步改进在于，搜索过程中逐个计算第二特征向量与知识数据库中的各第一向量的相似度，特征向量相似度的计算公式为：

其中，sim(v,w)代表第二特征向量w与知识数据库中第一特征向量v的相似度，v_i表示特征向量v的第i个值，w_i表示特征向量w的第i个值，N表示特征向量中元素的个数。

本发明的进一步改进在于，步骤S3中，步骤S2搜索得到的第一特征向量对应的桥梁检测报告分块在提示词模板中作为示例。

本发明的进一步改进在于，步骤S2中搜索得到与第二特征向量最接近的三个特征向量，这三个特征向量对应的桥梁检测报告分块的结果集表示为：

{data1，report1}，{data2，report2}，{data3，report3}

户提交的桥梁检测结果作为变量data0，将报告生成需求作为变量requirement；构造提示词的模板如下所示：

相关知识点：

Example1：

检测结果：{data1}

{requirement}：{report1}

Example2：

检测结果：{data2}

{requirement}：{report2}

Example3：

检测结果：{data3}

{requirement}：{report3}

用户的桥梁检测结果：

{data0}

请根据相关知识点，生成用户桥梁检测结果对应的{requirement}，请务必保证生成的文本格式与相关知识点中{requirement}的格式相同，并将类似的建议合并。

本发明的进一步改进在于，步骤S3中，采用的大语言模型为GPT、文心一言、讯飞星火、通义千问、Llama、Pangu中的一种。

本发明提供的装置具有以下技术效果：

与现有技术相比，本发明提出一种基于大语言模型的桥梁检测报告辅助生成方法及系统，利用先进的大语言模型技术，根据用户需求对桥梁检测报告文本进行智能生成。相较于传统的桥梁检测报告的人工撰写方法，本发明的提出充分发挥大语言模型在文本生成、分析和理解方面的优势，为桥梁检测提供自动化、智能化的报告生成方案，可大大减少人工报告输入的时间，提高生产效率、保证报告质量。

附图说明

图1是本发明基于大语言模型的桥梁检测报告辅助生成方法的流程图；

图2是本发明实施例中构造的提示词及采用GPT4.0生成的桥梁检测报告辅助生成结果样例图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图示中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

为了阐释的目的而描述了本发明的一些示例性实施例，需要理解的是，本发明可通过附图中没有具体示出的其他方式来实现。

如图1所示，本发明提出的基于大语言模型的桥梁检测报告辅助生成方法包括如下步骤：

S1.1：收集符合桥梁检测报告写作规范的优质报告样本；

基于大语言模型辅助生成桥梁检测报告需要优质的报告样本进行支持。因此，本发明首先通过历史桥梁检测报告查阅、权威专业人士撰写、网络抓取等方式获取优质的报告样本，报告样本应满足专业的桥梁报告写作规范。

S1.2：根据桥梁检测报告的要素类型将报告样本进行分块：

为降低文本Embedding的计算复杂度、提高模型的可训练性，需要现将文本进行分块处理，在本实施例中，将文本按照要素类型进行分块。桥梁检测报告的分块方式包括：桥梁检测结果+病害成因分析、桥梁检测结果+检测结论、桥梁检测结果+养护建议等。

S1.3：选取Embedding模型，采用Embedding模型将桥梁检测报告分块转换为第一特征向量：

为了让大语言模型能够掌握桥梁检测相关的专业知识从而辅助生成专业的桥梁检测报告，需要采用Embedding模型对模型文本进行向量化，从而为模型提供对领域特定文本的更好理解和处理能力，增强模型在特定领域的性能和适应性。在本示例中采用的Embedding模型为BERT模型，该模型通过自监督学习从大规模文本数据中学习词汇和句子的上下文关系，因此可以理解更复杂的语法和语义结构。Embedding模型可选用word2vec、glove、fasttext、ELMo、GPT中的一种。

S1.4：选取数据库类型，将第一特征向量储存在数据库中，得到知识数据库：

由于分块后的样本文本被转换成了特征向量，在此实施例中选用向量数据库Milvus对其进行存储，同时Milvus将给这些特征向量分配一个ID。

S2.1读取用户提交的桥梁检测结果与报告生成需求，采用Embedding模型将桥梁检测结果转换为第二特征向量：报告生成需求包括病害成因分析、检测结论、养护建议等。用户根据系统要求输入桥梁检测结果data0，以及报告生成需求requirement，其中requirement与S2样本分块时所用的桥梁检测报告要素类型相对应。

S2.2在与用户报告生成需求对应的知识数据库中对第二特征向量做相似度检索，并对相似度计算结果进行排序，得到与该特征向量相似度最高的三个报告样本分块：所述特征向量相似度的计算公式为：

S3.1采用相似度最高的三个报告样本分块构造结果集，将结果集与用户提交的桥梁检测结果、报告生成需求一起填入预设提示词模板，构造模型提示词：根据知识数据库中特征向量与第二特征向量的相似度计算结果，选取相似度最高的三个报告样本分块，按照如下格式保存为结果集：

{data1，report1}，{data2，report2}，{data3，report3}

如图2所示，同时将用户提交的桥梁检测结果作为变量data0，将报告生成需求作为变量requirement，并将结果集与用户提交的桥梁检测结果、报告生成需求按照如下模板构造提示词：

Claims

1.一种基于大语言模型的桥梁检测报告生成方法，其特征在于：

S4：将构造好的提示词输入大语言模型，得到报告内容。

2.根据权利要求1所述的一种基于大语言模型的桥梁检测报告生成方法，其特征在于，步骤S1中，桥梁检测报告分块的报告内容的要素类型包括：病害成因分析、检测结论、养护建议。

3.根据权利要求1所述的一种基于大语言模型的桥梁检测报告生成方法，其特征在于，步骤S1中，采用的Embedding模型包括word2vec、glove、fasttext、ELMo、GPT中的一种或多种。

4.根据权利要求1所述的一种基于大语言模型的桥梁检测报告生成方法，其特征在于，步骤S1中存储第一特征向量的数据库选用Chroma、milvus、qdrant、orama、txtai中的一种。

5.根据权利要求1所述的一种基于大语言模型的桥梁检测报告生成方法，其特征在于，搜索过程中逐个计算第二特征向量与知识数据库中的各第一向量的相似度，特征向量相似度的计算公式为：

6.根据权利要求1所述的一种基于大语言模型的桥梁检测报告生成方法，其特征在于，步骤S3中，步骤S2搜索得到的第一特征向量对应的桥梁检测报告分块在提示词模板中作为示例。

7.根据权利要求1所述的一种基于大语言模型的桥梁检测报告生成方法，其特征在于，步骤S2中搜索得到与第二特征向量最接近的三个特征向量，这三个特征向量对应的桥梁检测报告分块的结果集表示为：

{data1，report1}，{data2，report2}，{data3，report3}