CN117909484B - 用于施工信息查询的问答Term-BERT模型的构建方法与问答系统 - Google Patents
用于施工信息查询的问答Term-BERT模型的构建方法与问答系统 Download PDFInfo
- Publication number
- CN117909484B CN117909484B CN202410312034.8A CN202410312034A CN117909484B CN 117909484 B CN117909484 B CN 117909484B CN 202410312034 A CN202410312034 A CN 202410312034A CN 117909484 B CN117909484 B CN 117909484B
- Authority
- CN
- China
- Prior art keywords
- construction
- term
- question
- model
- bert model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010276 construction Methods 0.000 title claims abstract description 184
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000011218 segmentation Effects 0.000 claims abstract description 77
- 238000012549 training Methods 0.000 claims abstract description 58
- 230000006870 function Effects 0.000 claims abstract description 20
- 238000010606 normalization Methods 0.000 claims abstract description 8
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 15
- 238000004458 analytical method Methods 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 claims description 8
- 238000003860 storage Methods 0.000 claims description 4
- 238000013459 approach Methods 0.000 claims description 3
- 230000001105 regulatory effect Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 description 10
- 238000007689 inspection Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000002372 labelling Methods 0.000 description 5
- 230000006872 improvement Effects 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000009435 building construction Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 238000002347 injection Methods 0.000 description 2
- 239000007924 injection Substances 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000003673 groundwater Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
- 238000012384 transportation and delivery Methods 0.000 description 1
- 230000004304 visual acuity Effects 0.000 description 1
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种用于施工信息查询的问答Term‑BERT模型的构建方法与问答系统,属于信息检索技术领域。问答Term‑BERT模型的构建方法包括在中文BERT模型上增加预分词模块并将施工领域词典加入模型词表中,形成Term‑BERT模型,利用施工条文对Term‑BERT模型进行分词与掩码语言模型预训练,在进行预训练时,Term‑BERT模型接收到输入内容后先通过预分词模块实现施工专业词汇的分词,再通过分词器实现其他内容的分词,在经预训练后的Term‑BERT模型后面依次增加全连接层和归一化指数函数并通过训练微调网络参数,得到问答Term‑BERT模型。通过该方法构建的问答Term‑BERT模型能够基于问题从施工条文找到相应的答案并输出,从而实现施工信息的快速准确的查询。
Description
技术领域
本申请属于信息检索技术领域,更具体地,涉及一种用于施工信息查询的问答Term-BERT模型的构建方法与问答系统。
背景技术
建筑工程行业是一个规范化程度较高的行业,建筑工程相关规范、标准和技术手册的制定和执行对于行业的健康稳定发展至关重要。在工程项目的设计、施工、交付、运维的全寿命周期中,每一个环节和工序都有相应的规范标准提出详细具体的要求,从业人员在进行安全检查、质量验收等工作的过程中难免会遇到问题需要及时查阅具体的规范条文,而质量安全规范条文种类繁多,传统手工翻阅费时费力,不利于工作的及时有效进行。互联网和搜索引擎为质量安全规范条文的查询提供了便利,但是通用性搜索引擎的专业性无法得到保障,仍需要从业人员从大量的搜索结果中进行甄别。究其原因,在于缺乏专业化程度高的建筑工程领域施工质量安全问答系统。
发明内容
针对现有技术的以上缺陷或改进需求,本申请提供了一种施工信息查询的问答Term-BERT模型的构建方法与问答系统,其目的在于使工程施工从业人员能够快速准确地查询施工质量安全条文。
一种用于施工信息查询的问答Term-BERT模型的构建方法,包括:
获取基于施工参考文档建立的领域词典、文本语料库和问答数据集,所述领域词典包含施工专业词汇,所述文本语料库包含施工条文,所述问答数据集包含{施工条文,问题,施工条文中关于问题的答案标签}三元组;
在中文BERT模型已有分词器的基础上增加预分词模块并将领域词典加入BERT模型的词表中,形成Term-BERT模型,利用所述文本语料库中的施工条文对所述Term-BERT模型进行分词与掩码语言模型预训练,在进行预训练时,所述Term-BERT模型接收到输入内容后先通过所述预分词模块实现所输入内容的施工专业词汇的分词,再通过分词器实现所输入内容中的其他内容的分词,完成所有分词后执行掩码语言模型预训练,以使所述Term-BERT模型对所输入内容的解析趋近于正确理解;
在经预训练后的Term-BERT模型后面依次增加全连接层和归一化指数函数,得到问答Term-BERT模型,使用所述问答数据集中的三元组对所述问答Term-BERT模型进行训练以优化所述全连接层和归一化指数函数的参数,使所述问答Term-BERT模型能够基于输入的问题和施工条文输出趋近于答案标签的结果。
在其中一个实施例中,所述Term-BERT模型接收到输入内容后先通过所述预分词模块实现所输入内容的施工专业词汇的分词,再通过分词器实现所输入内容中的其他内容的分词,包括:
分词:先通过所述预分词模块对所输入内容的施工专业词汇进行分词后再通过分词器对所输入内容的其他内容进行分词;
标记:对分词结果进行遍历,将词表中存在的分词结果做分词标记;
重复分词和标记直至完成所有输入内容的标记。
一种施工质量安全问答系统,包括实体识别模型、图数据库、模糊查询模块、文本相似度模型和问答Term-BERT模型,其中,
所述实体识别模型用于提取所输入的问题中的施工专业词汇并作为关键词;
所述图数据库包括反映施工参考文档章节从属关系的知识图谱;
所述模糊查询模块用于在从所述知识图谱中查询出包含所述关键词的最小节施工条文;
所述文本相似度模型用于计算所输入的问题与最小节施工条文之间的相似度;
所述问答Term-BERT模型为利用上文方法构建而成的模型,用于从相似度最高的最小节施工条文中找出所输入的问题的答案。
在其中一个实施例中,所述实体识别模型包括Term-BERT模型以及连接于所述Term-BERT模型后面的实体提取下游网络结构,所述Term-BERT模型的参数与所述问答Term-BERT模型中的Term-BERT模型的参数相同,所述实体提取下游网络结构的参数为利用实体识别数据集对所述实体识别模型进行训练所确定,训练期间,固定所述Term-BERT模型的参数并微调所述实体提取下游网络结构的参数;所述实体识别数据集包括对施工专业词汇进行BIO标注的施工条文。
在其中一个实施例中,所述实体提取下游网络结构包括注意力机制模块、双向LSTM、条件随机场模块和归一化指数函数。
在其中一个实施例中,所述文本相似度模型包括Term-BERT模型以及连接于所述Term-BERT模型后面的相似度计算下游网络结构,所述Term-BERT模型的参数与所述问答Term-BERT模型中的Term-BERT模型的参数相同,所述相似度计算下游网络结构的参数为利用文本相似度数据集对所述文本相似度模型进行训练所确定,训练期间,固定所述Term-BERT模型的参数并微调所述相似度计算下游网络结构的参数;所述文本相似度数据集包括{问题,施工条文,问题与施工条文的相似度}三元组。
在其中一个实施例中,所述相似度计算下游网络结构包括注意力机制模块、全连接层和归一化指数函数。
在其中一个实施例中,所述图数据库为Neo4j图数据库,所述模糊查询模块用于将所述关键词转换为Cypher查询语句连接所述Neo4j图数据库进行模糊搜索,获得包含所述关键词的所有最小节施工条文并放入候选答案集。
在其中一个实施例中,所述图数据库通过以下方法构建而成:
梳理施工参考文档各章节的从属关系,构建知识库,所述知识库包含反应章节条文之间的从属关系的二元组:
将反应章节条文之间的从属关系的二元组插入Neo4j图数据库进行存储。
在其中一个实施例中,所述施工参考文档包括建筑施工工程质量安全相关的法规文件、标准和技术手册。
总体而言,通过本申请所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)本申请提供的用于施工信息查询的问答Term-BERT模型的构建方法,所构建的问答Term-BERT模型可以基于所输入的问题从施工条文中找到相应的答案并输出,从而实现施工规范信息的快速查询。考虑到施工条文中可能会出现的特殊专有名词,常规BERT模型对输入内容中的施工专业词汇进行错误的分词,从而导致对输入内容的理解错误,为克服该问题,本申请在构建问答Term-BERT模型期间,对常规的BERT模型进行改进,将领域词典加入BERT模型的词表中,且在已有分词器的基础上增加预分词模块,形成Term-BERT模型,在进行训练时,Term-BERT模型接收到输入内容后先通过所述预分词模块实现所输入内容的施工专业词汇的分词,再通过分词器实现所输入内容中的其他内容的分词,如此可以避免对施工专业词汇的错误分词,提高对所输入内容的解析能力并提高模型的训练效率。训练好的Term-BERT模型对于施工描述具有较好的语言理解能力,此时,在训练好的Term-BERT模型下游增加全连接层和归一化指数函数,用于执行下游的答案查找任务,得到问答Term-BERT模型,利用问答数据集对问答Term-BERT模型的下游结构进行微调,便能使问答Term-BERT模型能够基于所输入的问题从施工条文找到相应的答案并输出,从而实现施工信息的快速准确的查询。
(2)本申请提供的施工质量安全问答系统,在前文构建的问答Term-BERT模型的基础上,还增加了实体识别模型、图数据库、模糊查询模块和文本相似度模型。当向系统输入查询问题时,先通过实体识别模型提取所输入的问题中的施工专业词汇并作为关键词,再通过模糊查询模块从所述知识图谱中查询出包含所述关键词的最小节施工条文,接着通过文本相似度模型用于计算所输入的问题与最小节施工条文之间的相似度,最后利用问答Term-BERT模型从相似度最高的最小节施工条文中找出所输入的问题的答案。如此,在利用问答Term-BERT模型搜寻答案之前,可以先定位到答案所处的最小节施工条文,问答Term-BERT模型只需要在所定位的最小节施工条文中寻找问题的答案,而不需要遍历全篇文档,从而可以加快答案的搜索速度,且保证答案的准确性,即,能提升总体问答的准确率和效率。
(3)在施工质量安全问答系统中,直接在已有预训练的Term-BERT模型后面增加实体提取下游网络结构,如此,只需要通过训练微调实体提取下游网络结构的网络参数,便能得到实体识别模型,训练效率更高。
(4)在施工质量安全问答系统中,直接在已有预训练的Term-BERT模型后面增加相似度计算下游网络结构,如此,只需要通过训练微调相似度计算下游网络结构的网络参数,便能得到实体识别模型,训练效率更高。
附图说明
图1为本申请一实施例的问答Term-BERT模型的构建方法的步骤流程图。
图2为本申请一实施例的施工质量安全问答系统的结构框图。
图3为本申请一实施例的进行语料标注的示意图。
图4为本申请一实施例的反映章节从属关系的知识图谱示意图。
图5为本申请一实施例的构建与使用施工质量安全问答系统时的完整信息流以及系统中各主要部分间的关联示意图。
具体实施方式
为了便于理解本申请,为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图对本申请的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本申请,附图中给出了本申请的较佳实施方式。但是,本申请可以以许多不同的形式来实现,并不限于本文所描述的实施方式。相反地,提供这些实施方式的目的是使对本申请的公开内容理解的更加透彻全面。本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似改进,因此本申请不受下面公开的具体实施例的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。在本申请的描述中,“若干”的含义是至少一个,例如一个,两个等,除非另有明确具体的限定。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述具体的实施方式的目的,不是旨在于限制本申请。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
实施例1
本实施例涉及一种用于施工信息查询的问答Term-BERT模型的构建方法,如图1所示为问答Term-BERT模型的构建方法的步骤流程图,该问答Term-BERT模型可以用于施工信息的查询,将问题和施工条文输入该问答Term-BERT模型,该问答Term-BERT模型可以从施工条文中找到问题的答案,从而实现施工信息的快速查询。以下对问答Term-BERT模型的构建方法的主要步骤进行详细说明。
步骤S11:获取基于施工参考文档建立的领域词典、文本语料库和问答数据集,领域词典包含施工专业词汇,文本语料库包含施工条文,问答数据集包含{施工条文,问题,施工条文中关于问题的答案}三元组。
其中,施工参考文档可以根据实际情况灵活选择,一般为建筑施工工程质量安全相关的法规文件、标准和技术手册,例如,《建筑工程施工质量验收统一标准》(GB 50300-2013)、《建筑工程施工质量评价标准》(GB/T 50375-2016)、《建筑节能工程施工质量验收规范》(GB50411-2007)等。
领域词典包含从施工参考文档提取到的施工领域的施工专业词汇,例如,“盾构”、“基层”等均为施工专业词汇,利用领域词典可以将领域专业词汇映射到低维空间的向量表示,可以使计算机更好地理解自然语言。
在一实施例中,可以通过以下方法快速提取施工参考文档中的施工专业词汇,该本申请包括两个关键步骤:收集施工参考文档中术语部分列出的专业术语并无监督挖掘领域专业词典。在确定施工参考文档之后,将其中术语部分中列出的专业术语进行抽取并加入到通用的中文词典,形成初步的施工领域专业词典;基于初步的施工领域专业词典对施工参考文档进行分句、分词等预处理,得到细粒度的分词片段,对分词结果通过 N-gram 模型设置滑动窗口的大小对相邻的分词片段进行滑动窗口组合,所有组合起来的词汇形成候选专业词汇集。利用统计指标(如词频等)对候选专业词汇集进行筛选得到一个专业词汇集合,最后将此专业词汇集合加入到初步的施工领域专业词典形成最终的施工领域专业词典。
文本语料库包含具体的施工条文,一般包括针对施工过程中的标准、验收要求、安全措施等方面的详细规范,以确保工程达到高质量和安全标准。施工人员通常依赖于这些条文作为指导,以保障工程的质量和安全性。从建筑工程质量安全规范、施工技术手册等专业文档中搜集关键文本,包括总则、质量安全管理组织理论、安全生产事故案例、施工技术指导规范等;汇总管理理论,强调规范施工、监理和政府监督等方面,将相关规范要求汇总到语料库中,以提高领域语料库的专业垂直化程度;对事故实例进行分析,识别关键因素,为语料库提供具体案例,提高语料库的真实可靠性;从施工技术手册中提取有关施工过程中的质量和安全要求,形成语料库中的施工技术指南部分,提高语料库的专业技术性。
问答数据集是基于具体的规范条文,依据SQuAD数据集的形式建立面向建筑工程质量安全规范的问答数据集,数据中每条数据的形式为<描述,问题,标签>,例如,构建一个SQuAD数据集{‘P’: ‘分部工程应由总监理工程师组织施工单位项目负责人和项目技术负责人等进行验收’, ‘Q’: ‘分布工程应由谁来组织其他负责人来进行验收工作’, ‘A’:‘应由总监理工程师组织’}。其中,P(passage)代表片段、描述,是包含答案文本的一段语言描述,在本申请中即为法规的施工条文;Q(question)代表用于训练的针对该片段的问题;A(answer)代表人工在施工条文中标记出来的答案。
在获取到以上领域词典、文本语料库和问答数据集之后,便能用于构建问答Term-BERT模型。
步骤S12:在中文BERT模型已有分词器的基础上增加预分词模块并将领域词典加入BERT模型的词表中,形成Term-BERT模型,利用文本语料库中的施工条文对Term-BERT模型进行分词与掩码语言模型预训练,在进行训练时,Term-BERT模型接收到输入内容后先通过预分词模块实现所输入内容的施工专业词汇的分词,再通过分词器实现所输入内容中的其他内容的分词,完成所有分词后执行掩码语言模型预训练,以使Term-BERT模型对所输入内容的解析趋近于正确理解。
对于语言模型而言,Tokenizer分词算法是其最基础的组件,基于Tokenizer可以将文本转换成独立的token列表,进而转换成输入的向量成为计算机可以理解的输入形式。对于不同的语言,tokenizer的分词方式也有所不同,对于英文,其单词与单词之间用空格进行分隔,因此一般基于空格或者标点进行切分,而中文文本是由众多单个汉字字符组成,字和词之间并没有明显分隔,通用的中文BERT模型中的tokenizer直接将每个汉字字符转换为独立的token,会忽略中文词语中包含的丰富含义,分词的不准确性可能引发歧义,从而妨碍对信息的准确解读。因此,本申请基于通用中文BERT模型,对其中的分词器tokenizer组件进行优化,构建以领域词典为基础的Term-BERT模型,并用文本语料库对模型进行掩码语言模型(Masked Language Model, MLM)预训练,来提高模型对信息的解读能力。
具体优化策略为,基于已有的中文BERT模型对其中的分词器进行改进,即增加一个预分词模块,并将领域词典加入到模型的词表中,形成Term-BERT模型,然后再利用文本语料库中的语料对Term-BERT模型进行预训练。Term-BERT模型预训练过程开始时,先对输入的语料进行分词,然后再进行掩码语言模型预训练以优化模型参数,使Term-BERT模型对所输入内容的解析趋近于正确理解。其中,掩码语言模型预训练为目前常用的语言模型训练方法,本申请不做详细介绍。其中,在进行分词时,改进后的Term-BERT模型会先通过预分词模块实现所输入内容的施工专业词汇的分词,再通过分词器实现所输入内容中的其他内容的分词,如此,Term-BERT模型分出中文词语并保留领域专业术语,不会将施工专业词汇进行拆分,提高模型对于领域术语的解析能力,而且会使语料文本序列变短,提高模型的处理速度和模型训练的效率,此外,词义的不确定性更低,可以降低建模复杂度。
在一具体的实施例中,Term-BERT模型进行分词的步骤如下:
分词:先通过预分词模块对所输入内容的施工专业词汇进行分词后再通过分词器对所输入内容的其他内容进行分词;
标记:对分词结果进行遍历,将词表中存在的分词结果做分词标记;
重复分词和标记直至完成所有输入内容的标记。
通过上述过程,可以进一步提升分词的准确性,从而提高模型对语料的解析能力。
在一具体的实施例中,步骤S12可以拆分为以下执行步骤:
S1201:基于已有的中文BERT模型对其中的分词器进行改进,即增加一个预分词模块,建立Term-BERT模型,并将S11中领域词典加入到模型的词表中;
S1202:Term-BERT模型预训练过程开始时,在预分词模块中进行预标记,即依据领域词典先对训练过程中输入的语料进行一次标记;
S1203:对分词结果进行遍历,如果分词结果存在于词表中则保留,否则使用中文BERT模型的分词器再进行一次分词和标记。
S1204:对Term-BERT模型预训练的参数进行调整以达到最好的效果,基于这种改进,可以使Term-BERT模型分出中文词语并保留领域专业术语,提高模型对于领域术语的解析能力同时提高模型训练的效率。
步骤S13:在经预训练后的Term-BERT模型后面依次增加全连接层和归一化指数函数,得到问答Term-BERT模型,使用问答数据集中的三元组对问答Term-BERT模型进行训练以优化全连接层和归一化指数函数的参数,使问答Term-BERT模型能够基于输入的问题和施工条文输出趋近于答案标签的结果。
考虑基于BERT-SQuAD问答的构建形式,在步骤S12中构建的Term-BERT模型基础上增加全连接层和归一化指数函数(softmax函数),用于在法规的文本内容中确定所需答案的起始索引,进而得到输入问题的答案。
具体地,问答Term-BERT模型包括预训练Term-BERT模型、全连接层、归一化指数函数,即在步骤S12所建立的预训练Term-BERT模型基础上加入了下游任务模型。
利用问答数据集对问答Term-BERT模型进行微调,以确定下游任务模型的参数,得到适用于建筑工程质量安全规范的智能知识问答Term-BERT模型。具体地,将S11中所建立的问答数据集分成训练集和测试集,训练集和测试集对应占比可为0.7:0.3或0.8:0.2。微调的具体过程为对加入的全连接层进行训练,使模型预测的问题文本答案结果趋近于对应的答案文本标签。
需要说明的是,本申请各实施例中的步骤顺序仅为示例说明,并不以此为限。
总体而言,通过以上步骤S11~S13,对传统的中文BERT模型进行改进,得到Term-BERT模型,利用领域词典和文本语料库预训练Term-BERT模型,使其能够正确理解施工领域的语义,再利用问答数据集对Term-BERT模型进行微调,得到适用于建筑工程质量安全规范的智能知识问答Term-BERT模型。基于所构建的问答Term-BERT模型,可快速准确地实现施工领域的信息查询。
实施例2
本实施例涉及一种施工质量安全问答系统,如图2所示为一实施例中的施工质量安全问答系统的结构框图,其主要包括实体识别模型、图数据库、模糊查询模块、文本相似度模型和问答Term-BERT模型,实体识别模型、模糊查询模块、文本相似度模型实现语义解析匹配算法的功能,实体识别模型用于提取所输入的问题中的施工专业词汇并作为关键词;图数据库包括反映施工参考文档章节从属关系的知识图谱;模糊查询模块用于在从知识图谱中查询出包含关键词的最小节施工条文;文本相似度模型用于计算所输入的问题与最小节施工条文之间的相似度;问答Term-BERT模型为利用实施例1中的方法构建而成的模型,用于从相似度最高的最小节施工条文中找出所输入的问题的答案。
其中,实体识别模型和文本相似度模型均为神经网络结构且均可以利用所选定的施工参考文档进行训练,图数据库则是通过分析施工参考文档的章节关系获取。
具体地,实体识别模型用于提取所输入的问题中的施工专业词汇并作为关键词。实体识别模型也需要解析语义,从而提取关键词,在一实施例中,实体识别模型可以基于实施例1中预训练的Term-BERT模型搭建而成,其包括预训练Term-BERT模型以及实体提取下游网络结构,即在预训练Term-BERT模型基础上加入了提取关键词的下游任务模型。所添加的实体提取下游网络结构的网络参数可以通过训练优化。
在一实施例中,可以通过以下方法构建实体识别模型。
步骤S21:基于所确定的施工参考文档获取实体识别数据集,实体识别数据集包括对施工专业词汇进行BIO(Begin Inner Other)标注的施工条文。
具体地,实体识别数据集中的每条数据均依据BIO标注规则建立,BIO标注即将每个元素标注为“B-X”、“I-X”或者“O”,其中“B-X”表示此元素所在的片段属于X类型并且此元素在此片段的开头,“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置,“O”表示不属于任何类型。例如,语料“地下水治理评价应包括集水明排、基坑降水、截水帷幕3个分项”进行语料标注后如图3所示,通过BIO标注,可以标注出语料中的施工专业词汇,即为语料中的实体信息,并作为关键词。
步骤S22:在预训练Term-BERT模型后面增加实体提取下游网络结构,形成实体识别模型,利用实体识别数据集中的标注数据对实体识别模型进行训练,训练时,固定预训练Term-BERT模型的参数,对实体提取下游网络结构的参数进行微调,以使实体识别模型能够基于输入的语料提取其中的施工关键词。
在一具体的实施例中,实体提取下游网络结构包括注意力机制模块、双向LSTM、条件随机场模块和归一化指数函数,即所形成的实体识别模型包括预训练Term-BERT模型、注意力机制模块、双向LSTM、条件随机场模块、softmax判别函数,构成BERT-BiLSTM-CRF联合模型。基于实体识别数据集对该联合模型中的实体提取下游网络结构进行微调训练,训练好的实体识别模型可以理解用户输入的问题,识别出其中的实体。
文本相似度模型用于计算所输入的问题与最小节施工条文之间的相似度。文本相似度模型也需要解析语义,然后计算两个内容之间的相似度,例如,可以计算余弦相似度来判断二者间的相似概率。在一实施例中,实体识别模型可以基于实施例1中预训练的Term-BERT模型搭建而成,其包括预训练Term-BERT模型以及相似度计算下游网络结构,即在预训练Term-BERT模型基础上加入了相似度计算的下游任务模型。所添加的相似度计算下游网络结构的网络参数可以通过训练优化。
在一实施例中,可以通过以下方法构建文本相似度模型。
步骤S31:基于所确定的施工参考文档获取文本相似度数据集,文本相似度数据集包括{问题,施工条文,问题与施工条文的相似度}三元组。
文本相似度数据集基于输入的自然语言问题和各施工参考文档中小节的关系建立,文本相似度数据集中的每条数据由两句文本与相似度标识构成,为简化操作,相似度标为0或1,0代表不相似,1代表相似,例如一条数据:{‘借助什么仪器检测高压喷射注浆地基的钻孔垂直度’, ‘借助经纬仪测钻杆或实测仪器检测高压喷射注浆地基的钻孔垂直度’,1}表示问题和描述相似度高达100%。
步骤S32:在预训练Term-BERT模型后面增加相似度计算下游网络结构,形成文本相似度模型,利用文本相似度数据集中的数据对文本相似度模型进行训练,训练时,固定预训练Term-BERT模型的参数,对相似度计算下游网络结构的参数进行微调,通过训练优化权重,使计算的相似概率结果收敛,从而使文本相似度模型能够计算出问题与文本之间的相似度。
在一具体的实施例中,相似度计算下游网络结构包括注意力机制模块、全连接层和归一化指数函数,即所形成的文本相似度模型包括预训练Term-BERT模型、注意力机制模块、全连接层和归一化指数函数,利用文本相似度数据集对该文本相似度模型进行训练,具体为对相似度计算下游网络结构的参数进行微调,以使文本相似度模型能够计算出问题与文本之间的相似度。
图数据库包括反映施工参考文档章节从属关系的知识图谱,当所选施工参考文档确定后,其章节条文的从属关系是清楚的,对其关系进行梳理,便能构建出反映从属关系的知识图谱。
在一实施例中,可以通过以下方法构建图数据库。
步骤S41:基于所确定的施工参考文档获取知识图谱知识库,知识图谱知识库包含反应章节条文之间的从属关系的二元组。
具体地,可以先将各建筑工程质量安全规范和施工技术手册文本内容进行人工清洗,去除每部法规的开头与条例内容无关的部分,例如主编部门、批准部门等,只保留每部法规文件的名称和正文部分。考虑法规中条文内容的格式设置,按照法规名称>一级章节标题>二级小节标题>二级小节内容的顺序来构建知识库中章节条文之间的从属关系二元组,高级别实体对低级别实体为“包含”关系,低级别实体对高级别实体对应为“属于”关系。将法规的小节内容以实体的形式储存,能用于构建关于施工质量安全法规的知识图谱,为图谱提供标准的法规知识,提高回答的准确性和可靠性。例如,构建一个知识库数据集:{‘source’: ‘基本规定’, ‘target’: ‘检验批的质量应按主控项目和一般项目验收’},代表章节“基本规定”与其某一小节“检验批的质量应按主控项目和一般项目验收”的从属关系(source表示高级别实体,target表示低级别实体)。
步骤S42:基于知识图谱知识库搭建反映施工参考文档章节从属关系的知识图谱。
具体地,如图4所示,所建立的知识图谱图数据库包括“包含”和“属于”两种关系,对于某一法规知识,该部法规名称为该分支上的最大节点,其包含多个章节名称的节点,例如“基本规定”、“建筑工程质量验收的划分”等,每个章节的小节内容为最小实体节点,例如“参加工程施工质量验收的各方人员应具备相应的资格”等,以此来实现法规知识的储存,并可以通过查询来返回所需要的法规小节内容文本。
在一实施例中,上述图数据库具体可以为Neo4j图数据库,模糊查询模块用于将关键词转换为Cypher查询语句连接Neo4j图数据库进行模糊搜索,获得包含关键词的所有最小节施工条文并放入候选答案集,然后,由文本相似度模型计算输入的质量安全规范问题与所获取的候选答案集的文本匹配相似度,得到和问题匹配度最高的规范条文,进一步将此条文输入到适用于建筑工程质量安全规范的问答Term-BERT模型中进行解析,最终得到置信度最高的答案进行输出,回答用户所查询的问题。
如图5所示为构建与使用施工质量安全问答系统时的完整信息流以及系统中各主要部分间的关联示意图。
在构建系统时,通过基于已公开的建筑工程质量安全规范、标准、技术手册等文本数据获取领域词典、文本语料库、问答数据集、知识图谱知识库、实体识别数据集和文本相似度数据集,其中,领域词典和文本语料库用于预训练本申请所使用的Term-BERT模型,知识图谱知识库用于构建法规知识图谱并存储于Neo4j图数据库中;问答数据集对Term-BERT模型进行微调,得到问答Term-BERT模型;实体识别数据集和文本相似度数据集用于对Term-BERT模型进行下游任务的微调,以得到实体识别模型和文本相似度模型。
当使用该系统时,用户向该系统输入查询的问题时,系统首先将该问题输入到所构建的实体识别模型中,通过该模型识别出问题所具有的关键词,随后将该些关键词转化为Cypher查询语句在Neo4j图数据库中进行模糊查询,由此返回多个带有该关键词的法规小节;随后将返回的多个小节与查询的问题一同输入到所构建文本相似度模型中,该模型能从多个小节中返回相似度最高的规范文本;最后,系统将获取到的相似度最高的规范条文与查询的问题一同输入到搭建的问答Term-BERT模型中,由此获取用户查询问题的答案,并将答案文本返回给用户。
在一实施例中,整个系统可以划分为存储层、服务层和应用层,其中,数据存储层负责Neo4j图数据库和数据集等数据的存储、保证数据的准确性、完整性和安全性,包括访问控制、备份和恢复等方面;服务层负责连接下层的数据层和上层的应用层,实现系统的功能性需求,是整个系统的核心;应用层主要包括可视化问答页面,它主要用于人机交互,使用户能够更加直观地与系统进行交互,从而更加方便地获取所需的信息和服务。具体地,上述系统的实体识别模型、模糊查询模块、文本相似度模型和问答Term-BERT模型均位于服务层,问答Term-BERT模型从匹配的规范条文中抽取出答案并将结果传输给应用层的可视化问答页面,将最终结果反馈给用户。
首先,考虑在质量安全规范中可能会出现的特殊专有名词,本申请在构建模型词典的过程中向中文词典中加入了质量安全法规中出现的规范术语,构建了专为质量安全法规问答模型设计的领域词典,将领域词典加入训练过程中,建立改进BERT模型。模型利用词级掩码替换原先的字节级掩码,依据领域词典对训练的语料进行分词,基于这种改进,可以使BERT改进模型分出中文词语,提高模型对于领域术语的解析能力同时提高模型训练的效率。
其次,本申请通过构建知识图谱,并通过实体识别模型、模糊查询模块和文本相似度模型定位知识图谱中最相关的小节,再基于问答Term-BERT模型从最相关的小节中搜索答案,如此,问答Term-BERT模型不需要遍历整个文档,而只需考虑所查询到的答案集,在保证答案准确度的前提下能提升整体问答的效率。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。需要说明的是,本申请的“一实施例中”、“例如”、“又如”等,旨在对本申请进行举例说明,而不是用于限制本申请。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。
Claims (10)
1.一种用于施工信息查询的问答Term-BERT模型的构建方法,其特征在于,包括:
获取基于施工参考文档建立的领域词典、文本语料库和问答数据集,所述领域词典包含施工专业词汇,所述文本语料库包含施工条文,所述问答数据集包含{施工条文,问题,施工条文中关于问题的答案标签}三元组;
在中文BERT模型已有分词器的基础上增加预分词模块并将领域词典加入BERT模型的词表中,形成Term-BERT模型,利用所述文本语料库中的施工条文对所述Term-BERT模型进行分词与掩码语言模型预训练,在进行预训练时,所述Term-BERT模型接收到输入内容后先通过所述预分词模块实现所输入内容的施工专业词汇的分词,再通过分词器实现所输入内容中的其他内容的分词,完成所有分词后执行掩码语言模型预训练,以使所述Term-BERT模型对所输入内容的解析趋近于正确理解;
在经预训练后的Term-BERT模型后面依次增加全连接层和归一化指数函数,得到问答Term-BERT模型,使用所述问答数据集中的三元组对所述问答Term-BERT模型进行训练以优化所述全连接层和归一化指数函数的参数,使所述问答Term-BERT模型能够基于输入的问题和施工条文输出趋近于答案标签的结果。
2.如权利要求1所述的问答Term-BERT模型的构建方法,其特征在于,所述Term-BERT模型接收到输入内容后先通过所述预分词模块实现所输入内容的施工专业词汇的分词,再通过分词器实现所输入内容中的其他内容的分词,包括:
分词:先通过所述预分词模块对所输入内容的施工专业词汇进行分词后再通过分词器对所输入内容的其他内容进行分词;
标记:对分词结果进行遍历,将词表中存在的分词结果做分词标记;
重复分词和标记直至完成所有输入内容的标记。
3.一种施工质量安全问答系统,其特征在于,包括实体识别模型、图数据库、模糊查询模块、文本相似度模型和问答Term-BERT模型,其中,
所述实体识别模型用于提取所输入的问题中的施工专业词汇并作为关键词;
所述图数据库包括反映施工参考文档章节从属关系的知识图谱,所述知识图谱中的不同节点对应不同的章节,其中,母节点对子节点是包含关系,子节点对母节点是属于关系;
所述模糊查询模块用于在从所述知识图谱中查询出包含所述关键词的最小节施工条文;
所述文本相似度模型用于计算所输入的问题与最小节施工条文之间的相似度;
所述问答Term-BERT模型为利用权利要求1或2所述的方法构建而成的模型,用于从相似度最高的最小节施工条文中找出所输入的问题的答案。
4.如权利要求3所述的施工质量安全问答系统,其特征在于,所述实体识别模型包括Term-BERT模型以及连接于所述Term-BERT模型后面的实体提取下游网络结构,所述Term-BERT模型的参数与所述问答Term-BERT模型中的Term-BERT模型的参数相同,所述实体提取下游网络结构的参数为利用实体识别数据集对所述实体识别模型进行训练所确定,训练期间,固定所述Term-BERT模型的参数并微调所述实体提取下游网络结构的参数;所述实体识别数据集包括对施工专业词汇进行BIO标注的施工条文。
5.如权利要求4所述的施工质量安全问答系统,其特征在于,所述实体提取下游网络结构包括注意力机制模块、双向LSTM、条件随机场模块和归一化指数函数。
6.如权利要求3所述的施工质量安全问答系统,其特征在于,所述文本相似度模型包括Term-BERT模型以及连接于所述Term-BERT模型后面的相似度计算下游网络结构,所述Term-BERT模型的参数与所述问答Term-BERT模型中的Term-BERT模型的参数相同,所述相似度计算下游网络结构的参数为利用文本相似度数据集对所述文本相似度模型进行训练所确定,训练期间,固定所述Term-BERT模型的参数并微调所述相似度计算下游网络结构的参数;所述文本相似度数据集包括{问题,施工条文,问题与施工条文的相似度}三元组。
7.如权利要求6所述的施工质量安全问答系统,其特征在于,所述相似度计算下游网络结构包括注意力机制模块、全连接层和归一化指数函数。
8.如权利要求3所述的施工质量安全问答系统,其特征在于,所述图数据库为Neo4j图数据库,所述模糊查询模块用于将所述关键词转换为Cypher查询语句连接所述Neo4j图数据库进行模糊搜索,获得包含所述关键词的所有最小节施工条文并放入候选答案集。
9.如权利要求8所述的施工质量安全问答系统,其特征在于,所述图数据库通过以下方法构建而成:
梳理施工参考文档各章节的从属关系,构建知识库,所述知识库包含反映章节条文之间的从属关系的二元组;
将反映章节条文之间的从属关系的二元组插入Neo4j图数据库进行存储。
10.如权利要求3所述的施工质量安全问答系统,其特征在于,所述施工参考文档包括建筑施工工程质量安全相关的法规文件、标准和技术手册。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410312034.8A CN117909484B (zh) | 2024-03-19 | 2024-03-19 | 用于施工信息查询的问答Term-BERT模型的构建方法与问答系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410312034.8A CN117909484B (zh) | 2024-03-19 | 2024-03-19 | 用于施工信息查询的问答Term-BERT模型的构建方法与问答系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117909484A CN117909484A (zh) | 2024-04-19 |
CN117909484B true CN117909484B (zh) | 2024-05-28 |
Family
ID=90696316
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410312034.8A Active CN117909484B (zh) | 2024-03-19 | 2024-03-19 | 用于施工信息查询的问答Term-BERT模型的构建方法与问答系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117909484B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190059084A (ko) * | 2017-11-22 | 2019-05-30 | 한국전자통신연구원 | 자연어 질의응답 시스템 및 그 학습 방법 |
CN110516055A (zh) * | 2019-08-16 | 2019-11-29 | 西北工业大学 | 一种结合bert的用于教学任务的跨平台智能问答实现方法 |
CN111104503A (zh) * | 2019-12-24 | 2020-05-05 | 华中科技大学 | 一种建筑工程质量验收规范问答系统及其构建方法 |
CN111538824A (zh) * | 2020-05-25 | 2020-08-14 | 武汉烽火普天信息技术有限公司 | 一种基于bert的智能问答实现方法及系统 |
CN112002411A (zh) * | 2020-08-20 | 2020-11-27 | 杭州电子科技大学 | 一种基于电子病历的心脑血管病知识图谱问答方法 |
WO2021139283A1 (zh) * | 2020-06-16 | 2021-07-15 | 平安科技(深圳)有限公司 | 基于深度学习技术的知识图谱问答方法、装置及设备 |
CN113157885A (zh) * | 2021-04-13 | 2021-07-23 | 华南理工大学 | 一种面向人工智能领域知识的高效智能问答系统 |
CN114036281A (zh) * | 2021-11-22 | 2022-02-11 | 华南农业大学 | 基于知识图谱的柑橘管控问答模块构建方法及问答系统 |
CN115293142A (zh) * | 2022-07-15 | 2022-11-04 | 浙江大学 | 一种基于词典增强预训练模型的常识问答方法 |
CN116561264A (zh) * | 2023-02-07 | 2023-08-08 | 南京博雅区块链研究院有限公司 | 一种基于知识图谱的智能问答系统的构建方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11347803B2 (en) * | 2019-03-01 | 2022-05-31 | Cuddle Artificial Intelligence Private Limited | Systems and methods for adaptive question answering |
US20210240775A1 (en) * | 2020-02-03 | 2021-08-05 | Intuit Inc. | System and method for providing automated and unsupervised inline question answering |
-
2024
- 2024-03-19 CN CN202410312034.8A patent/CN117909484B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190059084A (ko) * | 2017-11-22 | 2019-05-30 | 한국전자통신연구원 | 자연어 질의응답 시스템 및 그 학습 방법 |
CN110516055A (zh) * | 2019-08-16 | 2019-11-29 | 西北工业大学 | 一种结合bert的用于教学任务的跨平台智能问答实现方法 |
CN111104503A (zh) * | 2019-12-24 | 2020-05-05 | 华中科技大学 | 一种建筑工程质量验收规范问答系统及其构建方法 |
CN111538824A (zh) * | 2020-05-25 | 2020-08-14 | 武汉烽火普天信息技术有限公司 | 一种基于bert的智能问答实现方法及系统 |
WO2021139283A1 (zh) * | 2020-06-16 | 2021-07-15 | 平安科技(深圳)有限公司 | 基于深度学习技术的知识图谱问答方法、装置及设备 |
CN112002411A (zh) * | 2020-08-20 | 2020-11-27 | 杭州电子科技大学 | 一种基于电子病历的心脑血管病知识图谱问答方法 |
CN113157885A (zh) * | 2021-04-13 | 2021-07-23 | 华南理工大学 | 一种面向人工智能领域知识的高效智能问答系统 |
CN114036281A (zh) * | 2021-11-22 | 2022-02-11 | 华南农业大学 | 基于知识图谱的柑橘管控问答模块构建方法及问答系统 |
CN115293142A (zh) * | 2022-07-15 | 2022-11-04 | 浙江大学 | 一种基于词典增强预训练模型的常识问答方法 |
CN116561264A (zh) * | 2023-02-07 | 2023-08-08 | 南京博雅区块链研究院有限公司 | 一种基于知识图谱的智能问答系统的构建方法 |
Non-Patent Citations (6)
Title |
---|
基于BI-LSTM-CRF模型的限定领域知识库问答系统;程树东;胡鹰;;计算机与现代化;20180715(第07期);全文 * |
基于知识库的开放领域问答系统;张涛;贾真;李天瑞;黄雁勇;;智能系统学报;20180410(第04期);全文 * |
基于问题生成的知识图谱问答方法;乔振浩;车万翔;刘挺;;智能计算机与应用;20200501(第05期);全文 * |
文本词向量与预训练语言模型研究;徐菲菲;冯东升;;上海电力大学学报;20200815(第04期);全文 * |
管立本 ; 李实.融合多粒度语义信息和知识图谱的中文医疗问答匹配模型.《计算机工程与应用》.2023,全文. * |
面向自然语言处理的预训练技术研究综述;李舟军;范宇;吴贤杰;;计算机科学;20200324(第03期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117909484A (zh) | 2024-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110399457B (zh) | 一种智能问答方法和系统 | |
CN108804521B (zh) | 一种基于知识图谱的问答方法及农业百科问答系统 | |
CN110825721B (zh) | 大数据环境下高血压知识库构建与系统集成方法 | |
CN109684448B (zh) | 一种智能问答方法 | |
CN109271529B (zh) | 西里尔蒙古文和传统蒙古文双文种知识图谱构建方法 | |
CN106649260B (zh) | 基于评论文本挖掘的产品特征结构树构建方法 | |
KR100533810B1 (ko) | 백과사전 질의응답 시스템의 지식베이스 반자동 구축 방법 | |
CN111291161A (zh) | 法律案件知识图谱查询方法、装置、设备及存储介质 | |
CN111061882A (zh) | 一种知识图谱构建方法 | |
CN112328766B (zh) | 一种基于路径搜索的知识图谱问答方法和装置 | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及系统 | |
CN113312922B (zh) | 一种改进的篇章级三元组信息抽取方法 | |
CN106886565B (zh) | 一种基础房型自动聚合方法 | |
CN111814485A (zh) | 一种基于海量标准文献数据的语义解析方法及装置 | |
CN116775874B (zh) | 一种基于多重语义信息的资讯智能分类方法及系统 | |
WO2020074788A1 (en) | Method of training a natural language search system, search system and corresponding use | |
CN113919366A (zh) | 一种面向电力变压器知识问答的语义匹配方法和装置 | |
CN111553160A (zh) | 一种获取法律领域问句答案的方法和系统 | |
CN108153851B (zh) | 一种基于规则和语义的通用论坛主题帖页面信息抽取方法 | |
CN115618883A (zh) | 一种业务语义识别方法及装置 | |
CN111597349A (zh) | 一种基于人工智能的轨道交通规范实体关系自动补全方法 | |
CN111104503A (zh) | 一种建筑工程质量验收规范问答系统及其构建方法 | |
CN111178080A (zh) | 一种基于结构化信息的命名实体识别方法及系统 | |
CN117909484B (zh) | 用于施工信息查询的问答Term-BERT模型的构建方法与问答系统 | |
CN113392189B (zh) | 基于自动分词的新闻文本处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |