CN118170933B

CN118170933B - 一种面向科学领域多模态语料数据的构建方法和装置

Info

Publication number: CN118170933B
Application number: CN202410585594.0A
Authority: CN
Inventors: 罗实; 刘念; 程曦; 恽爽; 苗宇; 毛瑞琛; 赵丹
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2024-05-13
Filing date: 2024-05-13
Publication date: 2024-08-13
Anticipated expiration: 2044-05-13
Also published as: CN118170933A

Abstract

本发明公开了一种面向科学领域多模态语料数据的构建方法和装置，方法包括以下步骤：按语料主题分类采集待处理的科学领域相关多模态原始语料数据；构建任务处理流管线对原始语料数据依次进行预处理、内容解析、数据清洗和结构化得到整体语料数据；对包括文本、图片、表格和公式的不同子类型语料数据进行语料评测，基于语料评测结果对整体语料数据进行质量评估；根据质量评估结果优化整体语料数据完成科学领域语料数据库构建。本发明通过自动化任务处理流管线高效处理并生成语料数据，同时提供统一存储与质量评测，通过不断优化处理流程得到高质量科学领域语料数据库，能够为大模型训练提供可靠的数据基础，推动科学研究和应用技术的不断发展。

Description

一种面向科学领域多模态语料数据的构建方法和装置

技术领域

本发明属于大数据工程技术领域，具体涉及一种面向科学领域多模态语料数据的构建方法和装置。

背景技术

近年来，大语言模型技术得到了快速发展与行业应用，已然成为人工智能领域的关键推动力。这一创新性革命不仅将自然语言处理带入了新的高度，而且深刻影响了人们对人机交互、智能助手和信息处理的认知，专家问答、机器翻译、图文生成等越来越多的行业应用进入到大众生活。预训练数据作为大语言模型的基础，数据的体量和质量直接影响了大语言模型的基础能力，碎片化低质量的数据和冗长的处理流程无法保证大模型预训练的学习要求。

在海量信息时代，数据的种类呈现异构多模态的特性。相比于传统的文本数据，图片、语音、视频等数据的加入不仅能够丰富语料资源，同时还能扩充语义提高质量。因此，对于这类复杂且多样化的数据处理能力，已然成为衡量预训练大语言模型性能优劣的关键指标。

如公开号为CN112966525A的中国专利申请公开了一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法，通过对法律领域词语进行聚类，构建原始法律事件知识库IE，然后通过远程监督学习的方式实现法律事件语料数据的大规模自动标注，利用预训练语言模型和卷积神经网络算法挖掘法律文本数据的深层语义信息，用于法律事件抽取任务。

再如公开号为CN116881463A的中国专利申请公开了一种基于数据的艺术多模态语料库构建系统，通过一种自适应获取待聚类的语料数据的特征向量及转换向量的方式来进行自适应Single-Pass聚类，最终获取准确的聚类结果来构建艺术多模态语料库。

然而，面向科学领域，在处理科学专业的语料数据时，需要考虑到数据的异构多模态特性，包括其中的文本、图片、表格和公式等多种形式的数据，因此，如何高效处理并生成语料数据，并提供统一存储与质量评测，继而满足大语言模型的预训练要求，目前尚未有明确的规划与技术方案。

发明内容

鉴于上述，本发明的目的是提供一种面向科学领域多模态语料数据的构建方法和装置，为面向科学领域的语料数据构建自动化任务处理流管线，通过高效处理并生成语料数据，同时提供统一存储与质量评测，能够为大语言模型预训练快速生成符合要求的语料数据。

为实现上述发明目的，本发明提供的技术方案如下：

本发明实施例提供的一种面向科学领域多模态语料数据的构建方法，包括以下步骤：

按语料主题分类采集待处理的科学领域相关多模态原始语料数据；

构建任务处理流管线对原始语料数据依次进行预处理、内容解析、数据清洗和结构化得到整体语料数据；

对包括文本、图片、表格和公式的不同子类型语料数据进行语料评测，基于语料评测结果对整体语料数据进行质量评估；

根据质量评估结果优化整体语料数据完成科学领域语料数据库构建。

优选地，所述语料主题分类包括一般性数据和专业性数据，所述一般性数据包括网页、对话文本和书籍，所述专业性数据包括多语言文本、科学文本、代码和多模态数据集，其中多模态数据集包括科学数据库、知识库、图片、语音和视频数据。

优选地，对于每种语料主题分类定义元数据信息用于描述原始语料数据和整体语料数据，所述元数据信息的字段包括用于区分不同数据资源的唯一键、标题、作者、日期、类型、学科分类、语种、来源、关键字和权重。

优选地，在进行原始语料数据的采集时，需遵循包括数据大体量、数据多样性和数据时效性的原则，以确保原始语料数据的有效性和科学性；

对于数据大体量的采集方法包括：通过编写爬虫服务、建立数据库的数据交换技术和针对公共数据集的下载链接大量获取高质量语料数据；

对于数据多样性的采集方法包括：通过大语言模型问答的方式自动化识别采集数据的学科分类以满足采集数据的学科覆盖率；

对于数据时效性的采集方法包括：通过数据增量采集的方式按照设定周期定时触发增量采集任务，将配置好的采集数据源在上一个周期内新增的数据进行自动化收集并存储。

优选地，所述构建任务处理流管线对原始语料数据依次进行预处理、内容解析、数据清洗和结构化得到整体语料数据，包括：

预处理：将原始语料数据转化得到的原始文档进行单页拆分、矫正、对齐和增强；

内容解析：对预处理后的原始文档进行版面分析和内容识别；其中版面分析包括基于文本的版面分析和基于视觉的版面分析，对于文本型数据通过基于文本的版面分析直接利用协议进行信息抽取，对于图像类数据通过基于视觉的版面分析利用视觉算法工具进行解析和识别；其中内容识别包括对基于视觉的版面分析后的文档进行文本提取、图片切割、表格解析和公式解析；

数据清洗：对内容解析后的语料数据进行规则过滤、信息去重、引用删除和数据整理；其中规则过滤包括通过文档粒度筛选出符合指定文档大小、类型和是否完整的数据后再通过内置关键词过滤掉敏感文档及文档片段；其中信息去重包括采用基于子串的精确匹配去重，在序列级而不是文档粒度进行操作，通过使用后缀数组查找字符串之间的精确匹配，然后删除文档中重复的字符串及相关段落；其中引用删除包括对引用文献直接识别后进行删除；其中数据整理包括对特殊字符进行转义、统一语料中的空白字符标识、删除长单词和删除具有不正确子字符串的单词；

结构化：对数据清洗后的语料数据，根据大语言模型预训练的要求按照元数据信息进行抽取并结构化拼接，最终得到整体语料数据。

优选地，所述文本提取包括：将通过视觉算法工具解析出的文本及其坐标信息一起提取并保存；

所述图片切割包括：将通过视觉算法工具解析出的图及其坐标信息中的图的坐标部分截取出来并标记，保存为单独的图片；

所述表格解析包括：将通过视觉算法工具解析出的表格内容以标签形式放入语料段落并添加表格注释和描述，将表格的引用替换为超链接格式；

所述公式解析包括：将通过视觉算法工具解析出的公式采用LaTeX格式以确保被正常编译。

优选地，所述对包括文本、图片、表格和公式的不同子类型语料数据进行语料评测，包括：

对于文本子类型的语料数据，采用包括最小编辑距离的相似度指标评估文本在数据清洗前后的语义相似性；

对于图片子类型的语料数据，采用交并比IoU值计算内容解析后得到图片的检测召回率和检测准确率；

对于表格子类型的语料数据，对于表格结构采用交并比IoU值计算内容解析后得到表格的检测召回率和检测准确率，对于表格内容采用包括最小编辑距离的相似度指标计算识别准确率；

对于公式子类型的语料数据，对于公式定位采用交并比IoU值计算内容解析后得到公式的检测召回率，对于公式内容采用包括最小编辑距离的相似度指标计算识别准确率。

优选地，所述基于语料评测结果对整体语料数据进行质量评估，包括：

将整体语料数据从整篇的角度评估总体的质量，包括完整性分析、准确率分析和可信度分析。

优选地，所述根据质量评估结果优化整体语料数据完成科学领域语料数据库构建，包括：

根据质量评估结果进行问题识别与反馈，对任务处理流管线中的数据清洗逻辑提供直接的反馈以优化数据清洗流程；

根据质量评估结果进行性能基准的设定，根据性能基准作为改进数据清洗逻辑的依据进而指导数据清洗流程的更新和优化；

根据质量评估结果进行迭代优化，基于历史的质量评估结果自动调整数据清洗流程的参数，实现自动化的迭代优化。

为实现上述发明目的，本发明实施例还提供了一种面向科学领域多模态语料数据的构建装置，包括：原始语料数据采集模块、自动化任务数据处理模块、语料评测与质量评估模块和语料数据库构建优化模块；

所述原始语料数据采集模块用于按语料主题分类采集待处理的科学领域相关多模态原始语料数据；

所述自动化任务数据处理模块用于构建任务处理流管线对原始语料数据依次进行预处理、内容解析、数据清洗和结构化得到整体语料数据；

所述语料评测与质量评估模块用于对包括文本、图片、表格和公式的不同子类型语料数据进行语料评测，基于语料评测结果对整体语料数据进行质量评估；

所述语料数据库构建优化模块用于根据质量评估结果优化整体语料数据完成科学领域语料数据库构建。

与现有技术相比，本发明具有的有益效果至少包括：

（1）本发明通过建立语料的分类主题，全覆盖多模态语料类型，为科学领域大模型原始数据的准备提供了科学的采集方法，也为其它垂直领域大模型提供了有效参考。

（2）本发明构建了一套自动化任务处理流管线，该处理流管线包含了预处理、内容解析、数据清洗和结构化的标准流程，能够高效用于生成大模型预训练所需语料数据。

（3）本发明定义了不同子类型语料的评测指标和方法，能够综合评判大模型语料数据的质量，并指导处理流程的持续优化改进。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是本发明实施例提供的面向科学领域多模态语料数据的构建方法的流程示意图；

图2是本发明实施例提供的语料主题分类示意图；

图3是本发明实施例提供的任务处理流管线示意图；

图4是本发明实施例提供的质量评估内容示意图；

图5是本发明实施例提供的面向科学领域多模态语料数据的构建装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

本发明的发明构思为：针对现有技术中在处理科学专业的语料数据时缺乏明确的规划与技术方案的问题，本发明实施例提供了一种面向科学领域多模态语料数据的构建方法和装置，通过分主题收集科学相关科技文献与多模态数据，然后构建一套实时的自动化任务处理流管线（Pipeline）用于生成语料数据，最后定义量化评测指标对生成的语料数据进行整体质量评估，适用于科学专业领域语料数据构建和大语言模型预训练应用场景。

图1是本发明实施例提供的面向科学领域多模态语料数据的构建方法的流程示意图。如图1所示，实施例提供了一种面向科学领域多模态语料数据的构建方法，包括以下步骤：

S1，按语料主题分类采集待处理的科学领域相关多模态原始语料数据。

S1.1，主题分类。

实施例中，如图2所示，目前大模型预训练语料按来源通常分为一般性数据和专业性数据，其中一般性数据包括网页、对话文本和书籍，而专业性数据包括多语言文本、科学文本、代码和多模态数据集。

网页：主要来自于爬虫，可以细分为静态资源，如来自新闻网站、博客、维基百科的网络文章；动态资源，如来自于推特、微博、脸书等社交媒体平台上用户的发帖、评论等。网页数据的特点是数量大类型多但质量岑差不齐，使大模型能够获取多样性语言知识并增强其泛化能力。

对话文本：主要来源于公共对话库、聊天记录和客服对话等。对话文本能够增强大模型对话能力并提高问答性能。

书籍：面向科学领域的大模型使用大量书籍作为语料来源，涵盖各种题材和风格，包括教材、工具书和专著等。书籍作为重要的正式长文本来源，有助于大模型学习语言知识、建模长期依赖性及生成连贯叙述文本。

多语言文本：主要来源于语料的不同语言版本。常用于多语言任务，如翻译、多语言摘要和问答。

科学文本：主要来源于学科专业论文、科学教材、以及其他相关科学资源。科学文本数据具有领域复杂性，需特定的标记和处理，对构建大模型的专业性和技术性有较高要求。

代码：主要来源于编程问答社区和公共软件库。

多模态数据集：包括科学数据库、知识库、图片、语音和视频等。

S1.2，元数据提取。

实施例中，对于每种语料主题分类定义元数据信息用于描述原始语料数据和整体语料数据，提取如下表1所示的元数据信息。

表1 元数据信息表

元数据是描述数据的数据，元数据对大模型的训练至关重要，对于缺失的元数据信息需要进行手动补全，以确保语料的完整性和准确性。

S1.3，内容采集。

实施例中，针对每种主题数据，建立不同的内容采集通道。如对不同的网站编写爬虫服务、建立数据库的数据交换技术、针对公共数据集的下载链接等。在内容采集的过程中，为确保数据的有效性和科学性，需要遵循以下三个方面的原则：

（1）数据大体量：如今大模型动辄上拥有上千亿的参数量，对语料数据的需求也是非常庞大的，例如ChatGPT-4模型已使用了超过一万亿个单词的大型语料库进行训练，包括来自多个来源的互联网文本、书籍、新闻文章等。实施例中，面向科学领域的多模态语料库数据来自公开的科技文献，包括论文、书籍、报告、地质图、专家标注集等，通过大量获取高质量内容，使语料数据库拥有数百万级论文和数十万级的学科书籍可以更好地生成相关知识，精准应用于垂直领域大模型。

（2）数据多样性：学科的覆盖率是数据体现多样性的一个重要指标，要求对采集的论文和书籍等重要文献进行学科的识别，对于如此庞大的数据量，通过人为标注学科的方式显然不现实。实施例中，采用通过大模型问答的方式进行自动化识别，首先通过设计大模型Prompt模版，然后将论文、书籍、报告等摘要信息和所有学科分类目录作为大语言模型如ChatGPT-4的输入，最后经过智能问答方式获取对应文献的学科分类。

（3）数据时效性：由于大模型预训练过程十分耗时，且成本颇高，那么数据的时效性就显得特别重要，这要求内容采集具有增量更新的能力，能够发现近期科学相关的信息并自动化完成采集，以满足大模型在各种能力上的时效性体现。实施例中，采用数据增量采集的方式，以一个自然日为周期，定时触发增量采集任务，将配置好的采集数据源在上一个周期内新增的数据自动化的进行收集并存储。

S2，构建任务处理流管线对原始语料数据依次进行预处理、内容解析、数据清洗和结构化得到整体语料数据。

数据处理首先通过将原始语料数据如科学文档和图像集，经过一系列的分析与处理，生成大模型能直接使用的原始文档，包括Markdown片段文档或对象文件。如图3所示，通过将数据处理按先后划分为预处理、内容解析、数据清洗和结构化四个环节，这四个环节前后依赖组成自动化任务处理流Pipeline。

S2.1，预处理。

实施例中，首先将书籍或论文等综合性文档进行单页拆分，保证后续的任务在处理的过程中都是针对最小单元，对拆分的文档保留原始文档的唯一号和页码，便于对后续的处理和结果进行追踪和还原。

另外，在采集过程中，不同类型和不同渠道的文档会被收集和整理起来，部分内容由于在获取、存储、保存或者传输的方式比较差（如年代久远的扫描图像文档、业余场景或低质量拍摄、传输采样率低等），所以在进行文档内容解析之前，需要根据文档的质量进行一些提升工作，包含但不限于噪声的去除、模糊数据的锐化增强、亚采样文档的复原、以及针对拍摄角度、光照、文档实体畸形导致的扭曲进行矫正和对齐，以保证后续内容解析中在各方面质量上保持较好且一致的形态，降低大模型方面非一致性内容的鲁棒性要求。

S2.2，内容解析。

内容解析环节分为版面分析和内容识别两个部分。

实施例中，版面分析又细分为基于文本的版面分析和基于视觉的版面分析。由于采集的数据主要是文本和图像两类，文本型的内容均由特定的协议规定了版面的分布和类型，可以直接通过相应协议进行信息抽取，而图像类数据，其中版面和结构化信息无法通过特定协议进行解析，需要借助视觉算法工具如OCR（Optical Character Recognition，光学字符识别）进行解析和识别得到语料提取元信息。

实施例中，内容识别需要针对不同的数据类型进行识别，主要包括文本提取、图片切割、表格解析和公式解析，作为内容识别后续的不同处理逻辑，这几个识别可以采用批量并行的方式进行：

（1）文本提取：将通过视觉算法工具解析出的文本及其坐标信息一起提取并保存，保存信息的示例如下：

<s

coords="123,0.20197,0.2112,0.85396,0.22383,0;123,0.13218,0.22957,0.78958,0.24219,0">There are several bulk properties of the media that areimportant and that are more readily determined than their microscopiccomponents.</s>

其中，coords和数字部分表示坐标信息，后续部分表示文本，译为介质有几个重要的整体属性，并且比其微观成分更容易确定。

（2）图片切割：将通过视觉算法工具解析出的图及其坐标信息，将图的坐标部分截取出来形成图框，并用figure对框选区域进行标记，保存为单独的图片。

（3）表格解析：将通过视觉算法工具解析出的表格内容以标签形式放入语料提取元信息的段落并添加表格注释和描述，将表格的引用替换为Markdown超链接的格式，超链接的内容与语料提取元信息的段落中对应表格\label内容相同，示例如下：

[Tabel 1](tbl:stones) show that stones are not the hardest materialin the world.

其中，[Tabel 1]表示表1 的标签，(tbl:stones)表示表格的注释，译为表格1为关于石头，剩余部分表示对表格的描述，译为表明石头不是世界上最坚硬的材料。

（4）公式解析：将通过视觉算法工具解析出的公式采用LaTeX格式以确保被正常编译。对于行内公式（将公式嵌入到文段中的排版方式），采用[START_EQU]<equation>[END_EQU]格式。对于单行或者多行公式，如为无编号公式，采用[START_EQU]<equation>[END_EQU]格式，如为有编号公式，则采用\begin{equation}或者\begin{eqnarray}形式，公式里包含文档中唯一\label字段则以"eq:"开头，原始语料中的公式编号去除放入\label中，引用到公式换成Markdown超链接，下面给出一个带标签的二次方程的例子：

\begin{equation}

x = \frac{-b \pm \sqrt{b^2 - 4ac}}{2a} \label{eq:quadratic}

\end{equation}

As we can see in equation [1.1](eq:quadratic), the solutions dependon the coefficients $a$, $b$, and $c$.

其中，前三行表示公式内容，译为一个（b²-4ac）的公式，后两行表示对公式的描述，译为如在方程[1.1](eq:quadratic )中所见，其解依赖于系数a、b和c 。

S2.3，数据清洗。

实施例中，数据清洗是根据行业经验和背景指定相应的数据质量标准，用于指导数据的清洗，采用了一套通用规则结合语言模型算法的方案，从多维度异构的数据中定位无效数据和纠正错误格式的数据，包括：

（1）规则过滤：通过文档粒度筛选出符合指定文档大小、类型和是否完整的数据，然后通过内置的涉黄涉政关键词过滤出敏感文档及文档片段。基于规则的数据清洗能够有效解决字符层面的数据异常，但在实际科学数据解析中还存在大量错误分行、分段及错误的表格公式语义层面异常，这就要求在传统的规则之上结合大模型推理，从语义层面修复数据异常。

（2）信息去重：删除训练语料中相似度高的文档，用于数据集内部或者跨数据之间，采用基于子串的精确匹配去重，在序列级而不是文档粒度进行操作，通过使用后缀数组查找字符串之间的精确匹配，然后删除文档中重复的字符串及相关段落。对于较长的专业数据文档，子串去重的准确率表现更好。

（3）引用删除：引用文献对大模型预训练没有实际作用，反而会增量模型幻觉和训练开销，需要对引用文献直接识别后进行删除。

（4）数据整理：包括对一些特殊字符进行转义、统一语料中的空白字符标识、删除长单词和删除具有不正确子字符串的单词等。

S2.4，结构化。

实施例中，对数据清洗后的语料数据，根据大语言模型预训练的要求，需要将文档的元数据例如作者、机构、发布时期、学科等信息抽取出来并结构化拼接，其中抽取的结构化信息则采用规则分析的方法进行，最终得到整体语料数据。结构化增强旨在增加训练数据的多样性及结构化关系，从而提高模型泛化与在多模态场景中的表示学习能力。

S3，对包括文本、图片、表格和公式的不同子类型语料数据进行语料评测，基于语料评测结果对整体语料数据进行质量评估。

多模态科学文件经过数据清洗后形成科学语料，这些语料的质量直接影响了大模型的基础能力，清洗后的科学语料具有数据规模庞大、多源性、校对困难的特点，对语料的大规模质量评测非常关键，通过评测确保多模态语料的质量，包括准确性、完整性和一致性。

S3.1，语料评测。

实施例中，对于整体语料数据中不同子类型的语料数据，包括文本、图片、表格和公式等，每种数据评测指标和评估方法均有不同，针对不同子类型数据的评测指标包括：

（1）对于文本子类型语料数据的评测，主要从NLP（Natural LanguageProcessing，自然语言处理）的语义相似度考虑，通过相似度指标如最小编辑距离（Levenshtein距离）来评估文本在数据清洗前后的语义相似性。分别用|a|和|b|表示a和b两个字符串的长度，那么它们的Levenshtein距离表示为，具体公式如下：

，

其中，表示字符串a的前i个字符与字符串b的前j个字符之间的Levenshtein距离，为指示函数（Indicator Function），当时，其值为0，其他时候其值为1。

（2）对于图片子类型语料数据的评测，分别从检测召回率和检测准确率这个指标来进行，针对不规则的科学图像、子图像以及不完整的图像，从面积覆盖度也就是交并比IoU（Intersection over Union）方法计算预测图片框与真实图片框的重叠程度，同时设定一个IoU阈值来判断检测是否成功，则可以计算出这两个指标：

检测召回率：计算IoU大于阈值的检测图片数占实际图片总数的比例；

检测准确率：计算IoU大于阈值的检测图片数占总检测结果数的比例。

（3）对于表格子类型语料数据的评测，除了检测以外还需要考虑表格内容的识别，表格的检测也可以通过覆盖面积交并比IoU方法来计算检测召回率和检测准确率。表格内容的识别细致地区分结构和内容识别两个层面，结构检测关注于表格的边界、行列的划分，而内容识别关注于表格内部的数据和文本信息，这需要依赖于有标注的表格数据集，数据集提供了表格LaTeX格式的Ground Truth（标准答案），表格识别后的结果也是LaTeX格式，通过计算这两段LaTeX文本的最小编辑距离来计算识别准确率，它反映了表格识别相似性。

（4）对于公式子类型语料数据的评测，主要涉及两个方面：公式的检测（定位）和识别（内容理解）。对于公式定位采用交并比IoU值计算内容解析后得到公式的检测召回率，计算方法为：

检测召回率=正确检测到的公式数量/实际公式总数。

对于公式内容的识别目的是解析公式的每个符号和结构，通过识别准确率来评测，评估系统是否正确理解了公式中的结构，如上下标、分数、根号，可以将解析的公式与Ground Truth（标准答案）计算最小编辑距离的方法来计算，反映了与真实公式的相似度或者准确率。

S3.2，质量评估。

实施例中，语料的评测是将语料分成各种类型分别判断各种类型的质量，质量评估是将语料从整篇文章的角度给出总体的质量，以量化的指标来直观反映文章语料的好坏，如图4所示，质量评估主要从以下三个方面进行：

（1）完整性分析：完整性包括元数据的完整性，多模态数据的完整性。对于元数据的完整性，每个语料都有语料提取元信息，包括标题、目录、摘要、引用、表格等，统计缺失的语料提取元信息数量，计算其占语料提取元信息总数量的比例。对于多模态数据的完整性，评估不同数据类型（如文本、图像、表格、引用、公式）是否都存在，计算文章包含的数据类型占所有数据类型的比例。

（2）准确率分析：评估语料是否经过准确率检测，反映了语料质量的准确性。通过检查语料是否分别进行了文本、图片、表格、公式相关的召回率、准确率指标，以及各项指标是否达到阈值要求，统计出整体语料的准确率指标。

（3）可信度分析：评估语料数据的来源，判断来源的可靠性和权威性。来源可以是官方机构、专业机构、公开数据库，为不同数据来源设定信誉评分，基于其历史准确性和公信力。另外从搜集到的用户实际使用效果来逆向反映语料的预测准确性、应用支持能力，综合给出语料的可信度。

S4，根据质量评估结果优化整体语料数据完成科学领域语料数据库构建。

实施例中，语料质量评估对语料处理的逻辑优化具有推动作用，主要体现在以下三个方面：

（1）问题识别与反馈：通过系统的语料质量评估，能够准确地识别出语料中的各类问题，如格式错误、引用丢失等，这些问题一旦被识别，能够对任务处理流Pipeline中的数据清洗逻辑提供直接的反馈，帮助开发人员优化现有的数据清洗流程，使其更加精确地针对这些具体问题进行处理。

（2）性能基准设定：通过定期的质量评估，可以为语料库设定质量基准，这些基准不仅可以用于评价语料清洗逻辑的效果，还可以作为改进数据清洗方法的依据。通过比较不同清洗方法前后的语料质量评估结果，可以明确哪些方法更有效，进而指导数据清洗逻辑的更新和优化。

（3）迭代优化：在大规模数据清洗中，自动化工具和算法发挥着核心作用。基于历史的质量评估结果自动调整数据清洗流程的参数，实现自动化的迭代优化。例如，表格识别算法对合并单元格的表格识别效果不佳，通过提高合并单元格这类型表格的比例来生成更多这类型的数据集，供下一迭代的算法优化和效果评估。

综上，一种面向科学领域多模态语料数据的构建方法，通过建立语料的分类主题，全覆盖多模态语料类型；通过构建自动化任务处理流管线，其中包含的预处理、内容解析、数据清洗和结构化的标准流程，能够高效用于生成大模型预训练所需语料数据；通过定义不同子类型语料的评测指标和方法，能够综合评判大模型语料数据的质量，并最终指导处理流程的持续优化改进，为模型训练提供了可靠的数据基础，从而有利于推动科学研究和应用技术的不断发展。

基于同样的发明构思，如图5所示，本发明实施例还提供了一种面向科学领域多模态语料数据的构建装置500，包括：原始语料数据采集模块510、自动化任务数据处理模块520、语料评测与质量评估模块530和语料数据库构建优化模块540。

其中，原始语料数据采集模块510用于按语料主题分类采集待处理的科学领域相关多模态原始语料数据；

自动化任务数据处理模块520用于构建任务处理流管线对原始语料数据依次进行预处理、内容解析、数据清洗和结构化得到整体语料数据；

语料评测与质量评估模块530用于对包括文本、图片、表格和公式的不同子类型语料数据进行语料评测，基于语料评测结果对整体语料数据进行质量评估；

语料数据库构建优化模块540用于根据质量评估结果优化整体语料数据完成科学领域语料数据库构建。

需要说明的是，上述实施例提供的一种面向科学领域多模态语料数据的构建装置与一种面向科学领域多模态语料数据的构建方法属于同一发明构思，其具体实现过程详见一种面向科学领域多模态语料数据的构建方法实施例，这里不再赘述。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种面向科学领域多模态语料数据的构建方法，其特征在于，包括以下步骤：

按语料主题分类采集待处理的科学领域相关多模态原始语料数据，其中，对于每种语料主题分类定义元数据信息用于描述原始语料数据和整体语料数据，所述元数据信息的字段包括用于区分不同数据资源的唯一键、标题、作者、日期、类型、学科分类、语种、来源、关键字和权重；

构建任务处理流管线对原始语料数据依次进行预处理、内容解析、数据清洗和结构化得到整体语料数据，具体包括：

内容解析：对预处理后的原始文档进行版面分析和内容识别；其中版面分析包括基于文本的版面分析和基于视觉的版面分析，对于文本型数据通过基于文本的版面分析直接利用协议进行信息抽取，对于图像类数据通过基于视觉的版面分析利用视觉算法工具进行解析和识别；其中内容识别包括对基于视觉的版面分析后的文档进行文本提取、图片切割、表格解析和公式解析，所述文本提取包括：将通过视觉算法工具解析出的文本及其坐标信息一起提取并保存，所述图片切割包括：将通过视觉算法工具解析出的图及其坐标信息中的图的坐标部分截取出来并标记，保存为单独的图片，所述表格解析包括：将通过视觉算法工具解析出的表格内容以标签形式放入语料段落并添加表格注释和描述，将表格的引用替换为超链接格式，所述公式解析包括：将通过视觉算法工具解析出的公式采用LaTeX格式以确保被正常编译；

结构化：对数据清洗后的语料数据，根据大语言模型预训练的要求按照元数据信息进行抽取并结构化拼接，最终得到整体语料数据；

2.根据权利要求1所述的面向科学领域多模态语料数据的构建方法，其特征在于，所述语料主题分类包括一般性数据和专业性数据，所述一般性数据包括网页、对话文本和书籍，所述专业性数据包括多语言文本、科学文本、代码和多模态数据集，其中多模态数据集包括科学数据库、知识库、图片、语音和视频数据。

3.根据权利要求1所述的面向科学领域多模态语料数据的构建方法，其特征在于，在进行原始语料数据的采集时，需遵循包括数据大体量、数据多样性和数据时效性的原则，以确保原始语料数据的有效性和科学性；

4.根据权利要求1所述的面向科学领域多模态语料数据的构建方法，其特征在于，所述对包括文本、图片、表格和公式的不同子类型语料数据进行语料评测，包括：

5.根据权利要求1或4所述的面向科学领域多模态语料数据的构建方法，其特征在于，所述基于语料评测结果对整体语料数据进行质量评估，包括：

6.根据权利要求1所述的面向科学领域多模态语料数据的构建方法，其特征在于，所述根据质量评估结果优化整体语料数据完成科学领域语料数据库构建，包括：

7.一种面向科学领域多模态语料数据的构建装置，其特征在于，包括：原始语料数据采集模块、自动化任务数据处理模块、语料评测与质量评估模块和语料数据库构建优化模块；

所述原始语料数据采集模块用于按语料主题分类采集待处理的科学领域相关多模态原始语料数据，其中，对于每种语料主题分类定义元数据信息用于描述原始语料数据和整体语料数据，所述元数据信息的字段包括用于区分不同数据资源的唯一键、标题、作者、日期、类型、学科分类、语种、来源、关键字和权重；

所述自动化任务数据处理模块用于构建任务处理流管线对原始语料数据依次进行预处理、内容解析、数据清洗和结构化得到整体语料数据，具体包括：