CN117786190A - 检测检验行业知识库的构建方法、装置、设备及介质 - Google Patents

检测检验行业知识库的构建方法、装置、设备及介质 Download PDF

Info

Publication number
CN117786190A
CN117786190A CN202311804263.3A CN202311804263A CN117786190A CN 117786190 A CN117786190 A CN 117786190A CN 202311804263 A CN202311804263 A CN 202311804263A CN 117786190 A CN117786190 A CN 117786190A
Authority
CN
China
Prior art keywords
detection
knowledge
data set
knowledge data
industry
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311804263.3A
Other languages
English (en)
Inventor
戴铮
陈新华
陈思仪
徐晹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Aerospace Tianlu New Material Testing Co ltd
Original Assignee
Hunan Aerospace Tianlu New Material Testing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Aerospace Tianlu New Material Testing Co ltd filed Critical Hunan Aerospace Tianlu New Material Testing Co ltd
Priority to CN202311804263.3A priority Critical patent/CN117786190A/zh
Publication of CN117786190A publication Critical patent/CN117786190A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

本申请涉及一种检测检验行业知识库的构建方法、装置、设备及介质。所述方法包括:通过对检测检验行业的业务流程进行调研,梳理检测人员所需的检测知识,并通过爬取检测检验行业的相关网站获取整理检测知识数据集;其中,检测知识数据集为表格格式;对检测知识数据集进行预处理,获取预处理后的检测知识数据集;将预处理后的检测知识数据集转换为文本格式,并对文本格式的检测知识数据集进行分段处理,根据分段获取的检测知识文本段构建得到检测检验行业知识库。本方法通过构建专业、全面的检测检验行业知识库,便于检测人员检索学习相关领域的专业知识,并便于将检测检验行业知识融入到大语言模型进行学习,扩充大语言模型的知识储备。

Description

检测检验行业知识库的构建方法、装置、设备及介质
技术领域
本申请涉及知识库构建技术领域,特别是涉及一种检测检验行业知识库的构建方法、装置、设备及介质。
背景技术
随着人工智能技术的发展,大语言模型在各个领域的应用越来越广泛,但是这些模型学到的知识是滞后的,并且这些知识大部分是通用领域的,缺少新兴领域的业务知识。同时,近年来检测检验行业作为一个新兴领域,市场上的检测机构和实验室的数量不断增多,行业逐渐朝向市场化发展,检测检验行业的知识数据也急剧增加,如何将检测检验行业知识融合到大语言模型里,使大语言模型不断学习到新增的检测检验知识数据成为需要考虑的一个重要问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够收集和整合检测检验行业的业务知识,便于大语言模型融合并学习检测检验行业知识的检测检验行业知识库的构建方法、装置、设备及介质。
一种检测检验行业知识库的构建方法,所述方法包括:
通过对检测检验行业的业务流程进行调研,梳理检测人员所需的检测知识,并通过爬取检测检验行业的相关网站获取整理检测知识数据集;其中,检测知识数据集为表格格式;
对检测知识数据集进行预处理,获取预处理后的检测知识数据集;
将预处理后的检测知识数据集转换为文本格式,并对文本格式的检测知识数据集进行分段处理,根据分段获取的检测知识文本段构建得到检测检验行业知识库。
在其中一个实施例中,通过爬取检测检验行业的相关网站获取整理检测知识数据集,包括:
在检测检验行业相关领域的网站内,通过直接下载复制或者采用光学字符识别算法识别提取网站截图中检测人员所需的检测知识,并整理为检测知识数据集。
在其中一个实施例中,检测知识数据集包括:检测样品目录、检测标准文件、检测机构列表以及各检测机构的检测能力表、设备信息表、地址和联系方式;其中,检测能力表包括检测类别、检测项目、检测标准以及检测范围。
在其中一个实施例中,对检测知识数据集进行预处理,获取预处理后的检测知识数据集,包括:
对检测知识数据集进行质量控制,去除重复和错误数据,并将检测知识数据集中的检测能力表与设备信息表进行匹配对应,得到预处理后的检测知识数据集;其中,预处理后的检测知识数据集中的检测能力表包括:检测类别、检测项目、检测标准、检测设备以及检测范围。
在其中一个实施例中,将检测知识数据集中的检测能力表与设备信息表进行匹配对应,包括:
将检测能力表中的检测项目与设备信息表中的检测设备进行匹配对应。
在其中一个实施例中,将预处理后的检测知识数据集转换为文本格式,并对文本格式的检测知识数据集进行分段处理,根据分段获取的检测知识文本段构建得到检测检验行业知识库,包括:
将预处理后的检测知识数据集转换为文本格式,得到文本格式的检测知识数据集;
对文本格式的检测知识数据集进行分段处理,得到检测知识文本段,并根据检测知识文本段构建得到检测检验行业知识库;其中,每一段检测知识文本段包含的属性为:检测机构名称、地址、联系方式、检测项目、检测标准、检测设备以及检测设备的信息参数,且检测知识文本段中每个属性之间用换行符隔开。
一种检测检验行业知识库的构建装置,所述装置包括:
数据获取模块,用于通过对检测检验行业的业务流程进行调研,梳理检测人员所需的检测知识,并通过爬取检测检验行业的相关网站获取整理检测知识数据集;其中,检测知识数据集为表格格式;
预处理模块,用于对检测知识数据集进行预处理,获取预处理后的检测知识数据集;
知识库构建模块,用于将预处理后的检测知识数据集转换为文本格式,并对文本格式的检测知识数据集进行分段处理,根据分段获取的检测知识文本段构建得到检测检验行业知识库。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
通过对检测检验行业的业务流程进行调研,梳理检测人员所需的检测知识,并通过爬取检测检验行业的相关网站获取整理检测知识数据集;其中,检测知识数据集为表格格式;
对检测知识数据集进行预处理,获取预处理后的检测知识数据集;
将预处理后的检测知识数据集转换为文本格式,并对文本格式的检测知识数据集进行分段处理,根据分段获取的检测知识文本段构建得到检测检验行业知识库。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
通过对检测检验行业的业务流程进行调研,梳理检测人员所需的检测知识,并通过爬取检测检验行业的相关网站获取整理检测知识数据集;其中,检测知识数据集为表格格式;
对检测知识数据集进行预处理,获取预处理后的检测知识数据集;
将预处理后的检测知识数据集转换为文本格式,并对文本格式的检测知识数据集进行分段处理,根据分段获取的检测知识文本段构建得到检测检验行业知识库。
上述检测检验行业知识库的构建方法,通过集合整理检测检验行业的业务知识数据构建专业、全面的检测检验行业知识库,便于检测人员检索学习相关领域的专业知识,并且,通过该知识库便于将检测检验行业知识融入到大语言模型进行学习,能够在不进行额外模型训练的前提下扩充大语言模型的知识储备,解决语言大模型缺少检测机构相关信息与检测知识的痛点问题,降低大语言模型的训练成本,实现大模型的知识增强。
附图说明
图1为一个实施例中检测检验行业知识库的构建方法的流程示意图;
图2为一个实施例中检测检验行业知识库的构建装置的结构示意图;
图3为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种检测检验行业知识库的构建方法,包括以下步骤:
步骤S1,通过对检测检验行业的业务流程进行调研,梳理检测人员所需的检测知识,并通过爬取检测检验行业的相关网站获取整理检测知识数据集;其中,检测知识数据集为表格格式。
步骤S2,对检测知识数据集进行预处理,获取预处理后的检测知识数据集。
步骤S3,将预处理后的检测知识数据集转换为文本格式,并对文本格式的检测知识数据集进行分段处理,根据分段获取的检测知识文本段构建得到检测检验行业知识库。
在其中一个实施例中,通过爬取检测检验行业的相关网站获取整理检测知识数据集,包括:
在检测检验行业相关领域的网站内,通过直接下载复制或者采用光学字符识别算法(OCR)识别提取网站截图中检测人员所需的检测知识,并整理为检测知识数据集。其中,检测知识数据集包括:检测样品目录、检测标准文件、检测机构列表以及各检测机构的检测能力表、设备信息表、地址和联系方式;其中,检测能力表包括检测类别、检测项目、检测标准以及检测范围。
具体地,检测能力表通过CMA官网连接到市场监督管理局进行查询,查询条件是公司全称或者通过检测类别、检测标准等进行筛选。检测样品目录通过官方文件进行搜索,如卫健委官网等。检测机构的设备信息,通过检测机构的官网或者部分省市的市场监督管理局进行查找。检测标准通过工业标准网或道客巴巴等网站下载。检测机构的地址和联系方式通过机构官网或者爱企查获得。
在其中一个实施例中,对检测知识数据集进行预处理,获取预处理后的检测知识数据集,包括:
对检测知识数据集进行质量控制,去除重复和错误数据,并将检测知识数据集中的检测能力表与设备信息表进行匹配对应,得到预处理后的检测知识数据集;其中,预处理后的检测知识数据集中的检测能力表包括:检测类别、检测项目、检测标准、检测设备以及检测范围。
在其中一个实施例中,将检测知识数据集中的检测能力表与设备信息表进行匹配对应,包括:
将检测能力表中的检测项目与设备信息表中的检测设备进行匹配对应。
在其中一个实施例中,将预处理后的检测知识数据集转换为文本格式,并对文本格式的检测知识数据集进行分段处理,根据分段获取的检测知识文本段构建得到检测检验行业知识库,包括:
将预处理后的检测知识数据集转换为文本格式,得到文本格式的检测知识数据集;具体地,格式转换采用Excel实现;
对文本格式的检测知识数据集进行分段处理,得到检测知识文本段,并根据检测知识文本段构建得到检测检验行业知识库;其中,每一段检测知识文本段包含的属性为:检测机构名称、地址、联系方式、检测项目、检测标准、检测设备以及检测设备的信息参数,且检测知识文本段中每个属性之间用换行符隔开。
可以理解,分段处理便于对检测知识信息进行分析和处理。同时,可以通过查看切割后的文本段,快速定位到问题所在,从而提高检测知识的排查效率。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图2所示,提供了一种检测检验行业知识库的构建装置,包括:
数据获取模块201,用于通过对检测检验行业的业务流程进行调研,梳理检测人员所需的检测知识,并通过爬取检测检验行业的相关网站获取整理检测知识数据集;其中,检测知识数据集为表格格式;
预处理模块202,用于对检测知识数据集进行预处理,获取预处理后的检测知识数据集;
知识库构建模块203,用于将预处理后的检测知识数据集转换为文本格式,并对文本格式的检测知识数据集进行分段处理,根据分段获取的检测知识文本段构建得到检测检验行业知识库。
关于检测检验行业知识库的构建装置的具体限定可以参见上文中对于检测检验行业知识库的构建方法的限定,在此不再赘述。上述检测检验行业知识库的构建装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种检测检验行业知识库的构建方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
通过对检测检验行业的业务流程进行调研,梳理检测人员所需的检测知识,并通过爬取检测检验行业的相关网站获取整理检测知识数据集;其中,检测知识数据集为表格格式;
对检测知识数据集进行预处理,获取预处理后的检测知识数据集;
将预处理后的检测知识数据集转换为文本格式,并对文本格式的检测知识数据集进行分段处理,根据分段获取的检测知识文本段构建得到检测检验行业知识库。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
通过对检测检验行业的业务流程进行调研,梳理检测人员所需的检测知识,并通过爬取检测检验行业的相关网站获取整理检测知识数据集;其中,检测知识数据集为表格格式;
对检测知识数据集进行预处理,获取预处理后的检测知识数据集;
将预处理后的检测知识数据集转换为文本格式,并对文本格式的检测知识数据集进行分段处理,根据分段获取的检测知识文本段构建得到检测检验行业知识库。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (9)

1.一种检测检验行业知识库的构建方法,其特征在于,所述方法包括:
通过对检测检验行业的业务流程进行调研,梳理检测人员所需的检测知识,并通过爬取检测检验行业的相关网站获取整理检测知识数据集;其中,所述检测知识数据集为表格格式;
对所述检测知识数据集进行预处理,获取预处理后的检测知识数据集;
将所述预处理后的检测知识数据集转换为文本格式,并对文本格式的检测知识数据集进行分段处理,根据分段获取的检测知识文本段构建得到检测检验行业知识库。
2.根据权利要求1所述的方法,其特征在于,通过爬取检测检验行业的相关网站获取整理检测知识数据集,包括:
在检测检验行业相关领域的网站内,通过直接下载复制或者采用光学字符识别算法识别提取网站截图中检测人员所需的检测知识,并整理为检测知识数据集。
3.根据权利要求2所述的方法,其特征在于,所述检测知识数据集包括:
检测样品目录、检测标准文件、检测机构列表以及各检测机构的检测能力表、设备信息表、地址和联系方式;其中,所述检测能力表包括检测类别、检测项目、检测标准以及检测范围。
4.根据权利要求1至3任意一项所述的方法,其特征在于,对所述检测知识数据集进行预处理,获取预处理后的检测知识数据集,包括:
对所述检测知识数据集进行质量控制,去除重复和错误数据,并将所述检测知识数据集中的检测能力表与设备信息表进行匹配对应,得到预处理后的检测知识数据集;其中,预处理后的检测知识数据集中的检测能力表包括:检测类别、检测项目、检测标准、检测设备以及检测范围。
5.根据权利要求4所述的方法,其特征在于,将所述检测知识数据集中的检测能力表与设备信息表进行匹配对应,包括:
将所述检测能力表中的检测项目与所述设备信息表中的检测设备进行匹配对应。
6.根据权利要求1所述的方法,其特征在于,将所述预处理后的检测知识数据集转换为文本格式,并对文本格式的检测知识数据集进行分段处理,根据分段获取的检测知识文本段构建得到检测检验行业知识库,包括:
将所述预处理后的检测知识数据集转换为文本格式,得到文本格式的检测知识数据集;
对所述文本格式的检测知识数据集进行分段处理,得到检测知识文本段,并根据所述检测知识文本段构建得到检测检验行业知识库;其中,每一段所述检测知识文本段包含的属性为:检测机构名称、地址、联系方式、检测项目、检测标准、检测设备以及检测设备的信息参数,且所述检测知识文本段中每个属性之间用换行符隔开。
7.一种检测检验行业知识库的构建装置,其特征在于,所述装置包括:
数据获取模块,用于通过对检测检验行业的业务流程进行调研,梳理检测人员所需的检测知识,并通过爬取检测检验行业的相关网站获取整理检测知识数据集;其中,所述检测知识数据集为表格格式;
预处理模块,用于对所述检测知识数据集进行预处理,获取预处理后的检测知识数据集;
知识库构建模块,用于将所述预处理后的检测知识数据集转换为文本格式,并对文本格式的检测知识数据集进行分段处理,根据分段获取的检测知识文本段构建得到检测检验行业知识库。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN202311804263.3A 2023-12-25 2023-12-25 检测检验行业知识库的构建方法、装置、设备及介质 Pending CN117786190A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311804263.3A CN117786190A (zh) 2023-12-25 2023-12-25 检测检验行业知识库的构建方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311804263.3A CN117786190A (zh) 2023-12-25 2023-12-25 检测检验行业知识库的构建方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN117786190A true CN117786190A (zh) 2024-03-29

Family

ID=90390325

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311804263.3A Pending CN117786190A (zh) 2023-12-25 2023-12-25 检测检验行业知识库的构建方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN117786190A (zh)

Similar Documents

Publication Publication Date Title
CN111767228B (zh) 基于人工智能的界面测试方法、装置、设备和介质
US9390176B2 (en) System and method for recursively traversing the internet and other sources to identify, gather, curate, adjudicate, and qualify business identity and related data
CN110955608B (zh) 测试数据处理方法、装置、计算机设备和存储介质
CN112395500A (zh) 内容数据推荐方法、装置、计算机设备及存储介质
CN110674360B (zh) 一种用于数据的溯源方法和系统
CN111563051A (zh) 基于爬虫的数据核验方法、装置、计算机设备及存储介质
CN110941702A (zh) 一种法律法规和法条的检索方法及装置、可读存储介质
CN115438740A (zh) 一种多源数据的汇聚融合方法和系统
CN111143191B (zh) 网站测试方法、装置、计算机设备和存储介质
CN113806613B (zh) 训练图像集生成方法、装置、计算机设备及存储介质
CN112989256B (zh) 识别响应信息中web指纹的方法和装置
CN111460268B (zh) 数据库查询请求的确定方法、装置和计算机设备
US11574491B2 (en) Automated classification and interpretation of life science documents
CN117251777A (zh) 数据处理方法、装置、计算机设备和存储介质
CN111898378A (zh) 政企客户的行业分类方法和装置、电子设备、存储介质
CN110781310A (zh) 目标概念图谱的构建方法、装置、计算机设备和存储介质
CN114579834B (zh) 网页登录实体识别方法、装置、电子设备及存储介质
CN117786190A (zh) 检测检验行业知识库的构建方法、装置、设备及介质
CN115186240A (zh) 基于关联性信息的社交网络用户对齐方法、装置、介质
CN114756671A (zh) 文章推荐方法、装置、计算机设备及存储介质
CN113901817A (zh) 文档分类方法、装置、计算机设备和存储介质
CN112182218A (zh) 文本数据的分类方法及装置
CN117436429B (zh) 文档导出方法、装置、计算机设备和存储介质
CN109766438B (zh) 简历信息提取方法、装置、计算机设备和存储介质
CN112749294B (zh) 页面隐藏文案识别方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination