CN117521629A - 一种基于大语言模型的桥梁检测报告生成方法 - Google Patents

一种基于大语言模型的桥梁检测报告生成方法 Download PDF

Info

Publication number
CN117521629A
CN117521629A CN202311591208.0A CN202311591208A CN117521629A CN 117521629 A CN117521629 A CN 117521629A CN 202311591208 A CN202311591208 A CN 202311591208A CN 117521629 A CN117521629 A CN 117521629A
Authority
CN
China
Prior art keywords
report
bridge
bridge detection
feature vector
language model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311591208.0A
Other languages
English (en)
Inventor
蔡爵威
赵荣欣
吴华勇
邢云
周子杰
贾鹏飞
王晓云
余威镭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Building Science Research Institute Co Ltd
Original Assignee
Shanghai Building Science Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Building Science Research Institute Co Ltd filed Critical Shanghai Building Science Research Institute Co Ltd
Priority to CN202311591208.0A priority Critical patent/CN117521629A/zh
Publication of CN117521629A publication Critical patent/CN117521629A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • G06F40/157Transformation using dictionaries or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于大语言模型的桥梁检测报告生成方法,其包括:S1:获取多数量的桥梁检测报告分块;采用Embedding模型计算各桥梁检测报告分块的第一特征向量,并存储于数据库中形成知识数据库;S2:获取桥梁检测结果以及报告生成需求,采用Embedding模型将桥梁检测结果转换为第二特征向量;采用第二特征向量在知识数据库中搜索,获得最接近的三个第一特征向量;S3:根据桥梁检测结果、报告生成需求以及步骤S2中搜索得到的各第一特征向量对应的桥梁检测报告分块代入提示词模板,构造提示词;S4:将提示词输入大语言模型得到报告内容。本方法提供了一种自动化、智能化的桥梁检测报告生成方案,可大大减少人工报告输入的时间,提高生产效率、保证报告质量。

Description

一种基于大语言模型的桥梁检测报告生成方法
技术领域
本发明涉及桥梁检测领域,尤其涉及一种基于大语言模型的桥梁检测报告生成方法。
背景技术
在城市基础设施领域,桥梁被视为重要的生命线工程,其安全和稳定性对于确保人民的生命和财产安全至关重要。为了维持桥梁的可靠运行,定期的桥梁检测是不可或缺的工作,其结果被详细记录在桥梁检测报告中。然而,传统的桥梁检测报告撰写过程通常需要工程师进行大量重复性工作,包括从检测数据中提取各种参数、整理数据、编写报告的文本内容,以及最终的校对和优化。这些任务占用了工程师宝贵的时间,同时容易导致疲劳和精力不集中,从而增加了出错的可能性。即使是经验丰富的工程师,也需要反复执行相同的任务,这不仅是一种资源浪费,还可能影响报告的准确性和质量。
此外,由于桥梁检测报告的撰写通常需要多位工程师的合作,每个工程师的文本风格和经验水平都有差异,这可能导致报告的质量良莠不齐。一些部分可能过于繁复,而另一些部分可能不够详尽。为了确保报告的准确性和完整性,通常需要额外的时间和资源来进行报告的协调和校核。
发明内容
本发明的目的就是为了克服上述现有技术和作业模式存在的缺陷,提供一种基于大语言模型的桥梁检测报告辅助生成方法及系统,从而提高桥梁检测报告的生成效率以及文本质量。
为实现上述目的,本发明提供了一种基于大语言模型的桥梁检测报告生成方法,其包括以下步骤:
S1:获取多数量的桥梁检测报告分块,每个桥梁检测报告分块包括桥梁检测结果以及对应的报告内容;采用Embedding模型计算各桥梁检测报告分块的第一特征向量,将各第一特征向量存储于数据库中形成知识数据库;
S2:获取桥梁检测结果以及报告生成需求,采用Embedding模型将桥梁检测结果转换为第二特征向量;采用第二特征向量在所述知识数据库中搜索,获得最接近的若干个第一特征向量;
S3:根据桥梁检测结果、报告生成需求以及步骤S2中搜索得到的各第一特征向量对应的桥梁检测报告分块代入提示词模板,构造提示词;
S4:将构造好的提示词输入大语言模型,得到报告内容。
本发明的进一步改进在于,步骤S1中,桥梁检测报告分块的报告内容的要素类型包括:病害成因分析、检测结论、养护建议。
本发明的进一步改进在于,步骤S1中,采用的Embedding模型包括word2vec、glove、fasttext、ELMo、GPT中的一种或多种。
本发明的进一步改进在于,步骤S1中存储第一特征向量的数据库选用Chroma、milvus、qdrant、orama、txtai中的一种。
本发明的进一步改进在于,搜索过程中逐个计算第二特征向量与知识数据库中的各第一向量的相似度,特征向量相似度的计算公式为:
其中,sim(v,w)代表第二特征向量w与知识数据库中第一特征向量v的相似度,vi表示特征向量v的第i个值,wi表示特征向量w的第i个值,N表示特征向量中元素的个数。
本发明的进一步改进在于,步骤S3中,步骤S2搜索得到的第一特征向量对应的桥梁检测报告分块在提示词模板中作为示例。
本发明的进一步改进在于,步骤S2中搜索得到与第二特征向量最接近的三个特征向量,这三个特征向量对应的桥梁检测报告分块的结果集表示为:
{data1,report1},{data2,report2},{data3,report3}
户提交的桥梁检测结果作为变量data0,将报告生成需求作为变量requirement;构造提示词的模板如下所示:
相关知识点:
Example1:
检测结果:{data1}
{requirement}:{report1}
Example2:
检测结果:{data2}
{requirement}:{report2}
Example3:
检测结果:{data3}
{requirement}:{report3}
用户的桥梁检测结果:
{data0}
请根据相关知识点,生成用户桥梁检测结果对应的{requirement},请务必保证生成的文本格式与相关知识点中{requirement}的格式相同,并将类似的建议合并。
本发明的进一步改进在于,步骤S3中,采用的大语言模型为GPT、文心一言、讯飞星火、通义千问、Llama、Pangu中的一种。
本发明提供的装置具有以下技术效果:
与现有技术相比,本发明提出一种基于大语言模型的桥梁检测报告辅助生成方法及系统,利用先进的大语言模型技术,根据用户需求对桥梁检测报告文本进行智能生成。相较于传统的桥梁检测报告的人工撰写方法,本发明的提出充分发挥大语言模型在文本生成、分析和理解方面的优势,为桥梁检测提供自动化、智能化的报告生成方案,可大大减少人工报告输入的时间,提高生产效率、保证报告质量。
附图说明
图1是本发明基于大语言模型的桥梁检测报告辅助生成方法的流程图;
图2是本发明实施例中构造的提示词及采用GPT4.0生成的桥梁检测报告辅助生成结果样例图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图示中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
为了阐释的目的而描述了本发明的一些示例性实施例,需要理解的是,本发明可通过附图中没有具体示出的其他方式来实现。
如图1所示,本发明提出的基于大语言模型的桥梁检测报告辅助生成方法包括如下步骤:
S1.1:收集符合桥梁检测报告写作规范的优质报告样本;
基于大语言模型辅助生成桥梁检测报告需要优质的报告样本进行支持。因此,本发明首先通过历史桥梁检测报告查阅、权威专业人士撰写、网络抓取等方式获取优质的报告样本,报告样本应满足专业的桥梁报告写作规范。
S1.2:根据桥梁检测报告的要素类型将报告样本进行分块:
为降低文本Embedding的计算复杂度、提高模型的可训练性,需要现将文本进行分块处理,在本实施例中,将文本按照要素类型进行分块。桥梁检测报告的分块方式包括:桥梁检测结果+病害成因分析、桥梁检测结果+检测结论、桥梁检测结果+养护建议等。
S1.3:选取Embedding模型,采用Embedding模型将桥梁检测报告分块转换为第一特征向量:
为了让大语言模型能够掌握桥梁检测相关的专业知识从而辅助生成专业的桥梁检测报告,需要采用Embedding模型对模型文本进行向量化,从而为模型提供对领域特定文本的更好理解和处理能力,增强模型在特定领域的性能和适应性。在本示例中采用的Embedding模型为BERT模型,该模型通过自监督学习从大规模文本数据中学习词汇和句子的上下文关系,因此可以理解更复杂的语法和语义结构。Embedding模型可选用word2vec、glove、fasttext、ELMo、GPT中的一种。
S1.4:选取数据库类型,将第一特征向量储存在数据库中,得到知识数据库:
由于分块后的样本文本被转换成了特征向量,在此实施例中选用向量数据库Milvus对其进行存储,同时Milvus将给这些特征向量分配一个ID。
S2.1读取用户提交的桥梁检测结果与报告生成需求,采用Embedding模型将桥梁检测结果转换为第二特征向量:报告生成需求包括病害成因分析、检测结论、养护建议等。用户根据系统要求输入桥梁检测结果data0,以及报告生成需求requirement,其中requirement与S2样本分块时所用的桥梁检测报告要素类型相对应。
S2.2在与用户报告生成需求对应的知识数据库中对第二特征向量做相似度检索,并对相似度计算结果进行排序,得到与该特征向量相似度最高的三个报告样本分块:所述特征向量相似度的计算公式为:
其中,sim(v,w)代表第二特征向量w与知识数据库中第一特征向量v的相似度,vi表示特征向量v的第i个值,wi表示特征向量w的第i个值,N表示特征向量中元素的个数。
S3.1采用相似度最高的三个报告样本分块构造结果集,将结果集与用户提交的桥梁检测结果、报告生成需求一起填入预设提示词模板,构造模型提示词:根据知识数据库中特征向量与第二特征向量的相似度计算结果,选取相似度最高的三个报告样本分块,按照如下格式保存为结果集:
{data1,report1},{data2,report2},{data3,report3}
如图2所示,同时将用户提交的桥梁检测结果作为变量data0,将报告生成需求作为变量requirement,并将结果集与用户提交的桥梁检测结果、报告生成需求按照如下模板构造提示词:
相关知识点:
Example1:
检测结果:{data1}
{requirement}:{report1}
Example2:
检测结果:{data2}
{requirement}:{report2}
Example3:
检测结果:{data3}
{requirement}:{report3}
用户的桥梁检测结果:
{data0}
请根据相关知识点,生成用户桥梁检测结果对应的{requirement},请务必保证生成的文本格式与相关知识点中{requirement}的格式相同,并将类似的建议合并。
S3.2选取大语言模型,输入构造好的模型提示词,生成所需的报告内容:大语言模型可选用GPT、文心一言、讯飞星火、通义千问、Llama、Pangu中的一种。在一个具体实施例中,采用的大语言模型为GPT4.0,其生成的桥梁检测报告如图2中输出部分所示。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (8)

1.一种基于大语言模型的桥梁检测报告生成方法,其特征在于:
S1:获取多数量的桥梁检测报告分块,每个桥梁检测报告分块包括桥梁检测结果以及对应的报告内容;采用Embedding模型计算各桥梁检测报告分块的第一特征向量,将各第一特征向量存储于数据库中形成知识数据库;
S2:获取桥梁检测结果以及报告生成需求,采用Embedding模型将桥梁检测结果转换为第二特征向量;采用第二特征向量在所述知识数据库中搜索,获得最接近的若干个第一特征向量;
S3:根据桥梁检测结果、报告生成需求以及步骤S2中搜索得到的各第一特征向量对应的桥梁检测报告分块代入提示词模板,构造提示词;
S4:将构造好的提示词输入大语言模型,得到报告内容。
2.根据权利要求1所述的一种基于大语言模型的桥梁检测报告生成方法,其特征在于,步骤S1中,桥梁检测报告分块的报告内容的要素类型包括:病害成因分析、检测结论、养护建议。
3.根据权利要求1所述的一种基于大语言模型的桥梁检测报告生成方法,其特征在于,步骤S1中,采用的Embedding模型包括word2vec、glove、fasttext、ELMo、GPT中的一种或多种。
4.根据权利要求1所述的一种基于大语言模型的桥梁检测报告生成方法,其特征在于,步骤S1中存储第一特征向量的数据库选用Chroma、milvus、qdrant、orama、txtai中的一种。
5.根据权利要求1所述的一种基于大语言模型的桥梁检测报告生成方法,其特征在于,搜索过程中逐个计算第二特征向量与知识数据库中的各第一向量的相似度,特征向量相似度的计算公式为:
其中,sim(v,w)代表第二特征向量w与知识数据库中第一特征向量v的相似度,vi表示特征向量v的第i个值,wi表示特征向量w的第i个值,N表示特征向量中元素的个数。
6.根据权利要求1所述的一种基于大语言模型的桥梁检测报告生成方法,其特征在于,步骤S3中,步骤S2搜索得到的第一特征向量对应的桥梁检测报告分块在提示词模板中作为示例。
7.根据权利要求1所述的一种基于大语言模型的桥梁检测报告生成方法,其特征在于,步骤S2中搜索得到与第二特征向量最接近的三个特征向量,这三个特征向量对应的桥梁检测报告分块的结果集表示为:
{data1,report1},{data2,report2},{data3,report3}
户提交的桥梁检测结果作为变量data0,将报告生成需求作为变量requirement;构造提示词的模板如下所示:
相关知识点:
Example1:
检测结果:{data1}
{requirement}:{report1}
Example2:
检测结果:{data2}
{requirement}:{report2}
Example3:
检测结果:{data3}
{requirement}:{report3}
用户的桥梁检测结果:
{data0}
请根据相关知识点,生成用户桥梁检测结果对应的{requirement},请务必保证生成的文本格式与相关知识点中{requirement}的格式相同,并将类似的建议合并。
8.根据权利要求1所述的一种基于大语言模型的桥梁检测报告生成方法,其特征在于,步骤S3中,采用的大语言模型为GPT、文心一言、讯飞星火、通义千问、Llama、Pangu中的一种。
CN202311591208.0A 2023-11-27 2023-11-27 一种基于大语言模型的桥梁检测报告生成方法 Pending CN117521629A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311591208.0A CN117521629A (zh) 2023-11-27 2023-11-27 一种基于大语言模型的桥梁检测报告生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311591208.0A CN117521629A (zh) 2023-11-27 2023-11-27 一种基于大语言模型的桥梁检测报告生成方法

Publications (1)

Publication Number Publication Date
CN117521629A true CN117521629A (zh) 2024-02-06

Family

ID=89749173

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311591208.0A Pending CN117521629A (zh) 2023-11-27 2023-11-27 一种基于大语言模型的桥梁检测报告生成方法

Country Status (1)

Country Link
CN (1) CN117521629A (zh)

Similar Documents

Publication Publication Date Title
CN109325040B (zh) 一种faq问答库泛化方法、装置及设备
CN112307153B (zh) 一种产业知识库自动构建方法、装置及存储介质
CN116719520B (zh) 代码生成方法及装置
CN115964273A (zh) 基于深度学习的航天器测试脚本自动生成方法
CN112836509A (zh) 一种专家系统知识库构建方法及系统
CN113076133A (zh) 基于深度学习的Java程序内部注释的生成方法及系统
CN115203507A (zh) 一种面向文书领域的基于预训练模型的事件抽取方法
CN112685374B (zh) 日志分类方法、装置及电子设备
CN115292518A (zh) 基于知识型信息抽取的配电网故障处理方法及系统
CN116797195A (zh) 工单处理方法、装置、计算机设备和计算机可读存储介质
CN117648093A (zh) 基于大模型和自定制需求模板的rpa流程自动化生成方法
CN112988982B (zh) 一种计算机比较空间的自主学习方法及系统
CN114282513A (zh) 文本语义相似度的匹配方法、系统、智能终端及存储介质
CN110413779B (zh) 一种针对电力行业的词向量训练方法及其系统、介质
CN116976034A (zh) 一种基于cad软件的零件库系统
CN117521629A (zh) 一种基于大语言模型的桥梁检测报告生成方法
CN103177064A (zh) 一种自动取录电子文档中指定内容的方法
CN110633363A (zh) 一种基于nlp和模糊多准则决策的文本实体推荐方法
CN117093196B (zh) 一种基于知识图谱的编程语言生成方法及系统
CN117172323B (zh) 一种基于特征对齐的专利多领域知识抽取方法及系统
CN114036946B (zh) 一种文本特征提取及辅助检索的系统及方法
CN117608545B (zh) 一种基于知识图谱的标准作业程序生成方法
CN118093636B (zh) 一种sql语句查询正确性判别方法
Fagan et al. A templating approach to digitisation of instrumentation panel readouts
CN117952022A (zh) 良率多维度互动系统、方法、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination