CN117520754B

CN117520754B - 一种模型训练数据的预处理系统

Info

Publication number: CN117520754B
Application number: CN202410019191.XA
Authority: CN
Inventors: 王全修; 于伟; 靳雯; 石江枫; 赵洲洋; 吴凡
Original assignee: Rizhao Ruian Information Technology Co ltd; Beijing Rich Information Technology Co ltd
Current assignee: Rizhao Ruian Information Technology Co ltd; Beijing Rich Information Technology Co ltd
Priority date: 2024-01-05
Filing date: 2024-01-05
Publication date: 2024-04-12
Anticipated expiration: 2044-01-05
Also published as: CN117520754A

Abstract

本发明涉及一种模型训练数据的预处理系统，涉及数据处理技术领域，系统包括：样本文本列表、处理器和存储有计算机程序的存储器，当计算机程序被处理器执行时，实现以下步骤：根据样本文本列表，获取样本事件列表集，获取样本标签列表，根据样本标签列表，获取第一中间文本列表集，获取第二中间文本列表集，根据每个第二中间文本列表中第二中间文本的特征分别采用第一处理方式和第二处理方式进行处理以获取目标训练集，本发明采用不同的处理方式获取不同标签下的文本作为目标训练集，使得目标训练数据集的类型更加多样化，基于不同标签下文本和文本中词的特征进行处理，使得每个标签下的文本数量是均衡的，从而提高了模型训练结果的准确度。

Description

一种模型训练数据的预处理系统

技术领域

本发明涉及数据处理技术领域，特别是涉及一种模型训练数据的预处理系统。

背景技术

随着人工智能领域的不断发展，当下涌现出大量的大语言模型，通过训练大语言模型，能够将许多问题自动化处理，然而在运行大预言模型之前需要大量的文本数据进行训练，训练完成后可以执行广泛的任务，因此，数据预处理是模型训练过程中重要的一环，一份高质量的数据是非常重要的，好的训练数据集能够大大提高模型训练的准确性和可靠性，

已知一种现有技术中，对模型训练数据预处理的方法为：对文本数据进行过滤，删除低质量的段落和文档等，得到高质量的文档，最后对文档进行去重，删除重复的文档或者段落，以上所述对模型训练数据预处理的方法存在如下问题：

未基于文本对应的不同标签选择不同标签下的文本作为目标训练集，减少了获取到的目标训练数据集的类型，缩小了采集到的数据类型的范围；未基于不同下文本的特征对文本进行处理，未考虑每个标签下文本数量的均衡性，从而降低了模型训练结果的准确性。

发明内容

针对上述技术问题，本发明采用的技术方案为：一种模型训练数据的预处理系统，系统包括：存储介质、处理器和存储有计算机程序的存储器，其中，存储介质包括样本文本列表，样本文本列表包括若干个样本文本，样本文本为用于目标模型训练所需要的文本，当计算机程序被处理器执行时，实现以下步骤：

S100，根据样本文本列表，获取样本文本列表对应的样本事件列表集，其中，所述样本事件列表集包括若干个样本事件列表，每个样本文本对应一个样本事件列表，所述样本事件列表包括若干个样本事件，所述样本事件为样本文本中所包括的事件。

S200，根据样本事件列表集，获取样本标签列表，其中，所述样本标签列表包括若干个样本标签，所述样本标签为基于样本事件列表集获取到的样本事件中事件触发词的类型。

S300，根据样本标签列表，获取样本标签列表对应的第一中间文本列表集A={A₁，……，A_i，……，A_n}，A_i为第i个样本标签对应的第一中间文本列表，i=1……n，n为样本标签的数量，所述第一中间文本列表包括若干个第一中间文本，其中，所述第一中间文本为基于样本标签从样本文本列表中获取到的与样本标签相对应的样本文本。

S400，根据A，获取A对应的第二中间文本列表集B={B₁，……，B_e，……，B_f}，B_e={B_e1，……，B_er，……，B_es（e）}，B_er为第e个样本标签对应的第二中间文本列表中的第r个第二中间文本，r=1……s（e），s（e）为第e个样本标签对应的第二中间文本列表中第二中间文本的数量，e=1……f，f=n，其中，s（1）≥……≥s（e）≥……≥s（f），s（1）为第1个样本标签对应的第二中间文本列表中第二中间文本的数量，s（f）为第f个样本标签对应的第二中间文本列表中第二中间文本的数量。

S500，当＞s⁰时，采用第一处理方式对B进行处理以获取目标训练集，其中，，/>，s（ε）为第ε个样本标签对应的第二中间文本列表中第二中间文本的数量，λ₁为第一预设参数阈值，λ₂为第二预设参数阈值，/>为不小于（f×λ₁）的最小整数，所述第一处理方式为将B中重复出现的第二中间文本从B中的每个第二中间文本列表中进行删除仅将其保留在一个包括第二中间文本数量最小的第二中间文本列表中。

S600，当≤s⁰时，采用第二处理方式对B进行处理以获取目标训练集，其中，所述第二处理方式为基于B中每个第二中间文本列表中第二中间文本的不同特征对B中的每个第二第二中间文本列表进行处理。

本发明与现有技术相比具有明显的有益效果，借由上述技术方案，本发明提供的一种模型训练数据的预处理系统可达到相当的技术进步性及实用性，并具有产业上的广泛利用价值，其至少具有以下有益效果：

本发明提供了一种模型训练数据的预处理系统，系统包括：存储介质、处理器和存储有计算机程序的存储器，存储介质包括样本文本列表，当计算机程序被处理器执行时，实现以下步骤：根据样本文本列表，获取样本文本列表对应的样本事件列表集，根据样本事件列表集，获取样本标签列表，根据样本标签列表，获取样本标签列表对应的第一中间文本列表集，根据第一中间文本列表集，获取第一中间文本列表集对应的第二中间文本列表集，根据第二中间文本列表集中每个第二中间文本列表中第二中间文本的特征分别采用第一处理方式和第二处理方式对第二中间文本列表集进行处理以获取目标训练集，本发明，基于文本对应的不同标签以及不同标签下文本的特征信息，采用不同的处理方式对文本进行处理获取不同标签下的文本作为目标训练集，使得获取到的目标训练数据集的类型更加多样化，扩大了采集到的数据类型的范围；基于不同标签下文本的特征以及文本中词的特征对文本进行处理，使得获取到的每个标签下的文本数量是均衡的，从而提高了模型训练结果的准确度。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图,详细说明如下。

附图说明

图1为本发明实施例提供的一种模型训练数据的预处理系统的处理器执行计算机程序时实现的流程图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例

本实施例提供了一种模型训练数据的预处理系统，所述系统包括：存储介质、处理器和存储有计算机程序的存储器，其中，所述存储介质包括样本文本列表，所述样本文本列表包括若干个样本文本，所述样本文本为用于目标模型训练所需要的文本，当所述计算机程序被处理器执行时，实现以下步骤，如图1所示：

具体的，所述目标模型为基于LLM模型训练出的可根据输入的文本生成提问问题的模型。

进一步的，所述样本文本的获取方式为从数据平台中获取到的具有描述事件特征信息的文本，其中，本领域技术人员知晓，可根据实际需求进行任一数据平台的选取，均落入本发明的保护范围，在此不再赘述，例如百度百科等数据平台。

具体的，样本事件的获取方式为通过事件抽取模型对样本文本进行处理获取到的，其中，本领域技术人员知晓，现有技术中任一基于事件抽取模型从文本中抽取事件的方法，均落入本发明的保护范围，在此不再赘述。

进一步的，每个样本文本包括若干段文本字符串，每段文本字符之间由逗号或分号进行分割，可以理解为：在一段描述性的文本中，里面有很多句话，每句话对应的就是每段文本字符串。

S500，当＞s⁰时，采用第一处理方式对B进行处理以获取目标训练集，其中，，/>，s（ε）为第ε个样本标签对应的第二中间文本列表中第二中间文本的数量，λ₁为第一预设参数阈值，λ₂为第二预设参数阈值，所述第一处理方式为将B中重复出现的第二中间文本从B中的每个第二中间文本列表中进行删除只保留在一个第二中间文本列表中。

具体的，λ₁的取值范围为0.6～0.7，其中，本领域技术人员知晓，可根据实际需求进行λ₁的选取，均落入本发明的保护范围，在此不在赘述。

具体的，λ₂的取值范围为0.2～0.4，其中，本领域技术人员知晓，可根据实际需求进行λ₂的选取，均落入本发明的保护范围，在此不在赘述。

具体的，为不小于（f×λ₁）的最小整数。

具体的，在S500中通过如下步骤获取目标训练集：

S501，根据B，获取指定文本E⁰，其中，所述指定文本E⁰为从B中获取到的出现在两个及以上个样本标签对应的第二中间文本列表中的第二中间文本。

S503，根据E⁰，获取E⁰对应的候选文本列表数量集Q={Q₁，……，Q_x，……，Q_p}，Q_x为第x个候选文本列表中候选文本的数量，x=1……p，p为候选文本列表的数量，所述候选文本列表为包括E⁰的第二中间文本列表。

具体的，所述候选文本为包括E⁰的第二中间文本列表中的第二中间文本。

S505，当Q_x为Q中最小值时，获取目标训练集，其中，所述目标训练集为从B中将Q中除Q_x之外的任一候选文本列表数量对应的第二中间文本列表中的E⁰进行删除后获取到的样本文本集。

具体的，在S600中还包括如下步骤：

S601，从B中获取前个第二中间文本列表构成第三中间文本列表集B⁰={B₁，……，B_v，……，B_b}和第四中间文本列表集C，其中，B_v为第v个样本标签对应的第二中间文本列表，B_b为第b个样本标签对应的第二中间文本列表，v=1……b，b=/>，所述第四中间文本列表集C包括（f-/>）个第四中间文本列表，所述第四中间文本列表为从B中获取到的除B⁰之外的任一第二中间文本列表。

具体的，为小于（f×λ₁）的最大整数。

具体的，所述第四中间文本列表包括若若干个第四中间文本，其中，所述第四中间文本为从B中获取到的除B⁰之外的任一第二中间文本列表中的任一第二中间文本。

S603，根据B⁰，获取样本标签列表对应的第一关键文本列表集T={T₁，……，T_v，……，T_b}，T_v为第v个样本标签对应的第一关键文本列表，其中，当B_v中存在第二中间文本与C中任一第二中间文本一致时，将其从B_v中进行删除以获取到T_v。

S605，根据T，获取样本标签列表对应的第二关键文本列表集U={U₁，……，U_v，……，U_b}，U_v为第v个样本标签对应的第二关键文本列表，其中，所述第二关键文本列表中包括若干个第二关键文本，所述第二关键文本为基于第一关键文本列表中第一关键文本的数量对第一关键文本列表中的第一关键文本进行处理后获取到的第一关键文本。

具体的，在S605中通过如下步骤获取U_v：

S6051，获取T_v={T_v1，……，T_va，……，T_vz（v）}，T_va为T_v中的第a个第一关键文本，a=1……，z（v）为T_v中第一关键文本的数量。

S6053，当z（v）≤θ时，获取U_v=T_v，其中，θ=/（f-/>）。

S6055，当z（v）＞θ时，对T_v进行处理以获取U_v，其中，对T_v进行处理的方式为根据T_v中关键词的数量以及关键词对应的优先级对T_v中的第一关键文本进行删除。

具体的，在S6055中还包括如下步骤：

S1，获取T_v对应的目标关键词列表集DT_v={DT_v1，……，DT_va，……，DT_vz（v）}，DT_va={DT¹ _va，……，DT^g _va，……，DT^h（va） _va}，DT^g _va为T_va对应的目标关键词列表中的第g个目标关键词，h=1……h（va），h（va）为T_va对应的目标关键词列表中目标关键词的数量，其中，所述目标关键词为将第一关键文本输入至NLP序列标注模型获取到的第一关键文本中的实体。

具体的，本领域技术人员知晓，现有技术中任一利用NLP序列标注模型获取实体的方法，均落入本发明的保护范围，在此不再赘述，例如BIOES等NLP序列标注模型。

S3，根据DT_v，获取DT_v对应的候选优先级列表集GT_v={GT_v1，……，GT_va，……，}，GT_va={GT¹ _va，……，GT^g _va，……，GT^h（va） _va}，GT^g _va为DT^g _va对应的候选优先级，其中，GT^g _va符合如下条件：

，β^g _va为DT^g _va在T_va中出现的频数，η_va为T_va中的词频数，μ^g _va为T_v中包括DT^g _va的第一关键文本的数量。

具体的，所述词频数为词的数量。

S5，根据DT_v和GT_v，获取T_v对应的目标优先级列表FT_v={FT_v1，……，FT_va，……，}，FT_va为T_va对应的目标优先级，其中，FT_va符合如下条件：

。

S7，根据FT_v，获取U_v，其中，U_v为将FT_v中的目标优先级按照从大到小的顺序进行排序后截取前θ个目标优先级中每个目标优先级对应的第一关键文本。

上述，根据第二中间文本列表集，获取第三中间文本列表集和第四中间文本列表集，基于第三中间文本列表集和第四中间文本列表集中文本的特征采用不同方式进行处理，获取第一关键文本列表集和第二关键文本列表集，其中，基于第二关键文本列表集对应的目标关键词和目标关键词对应的权重获取第儿关键文本列表对应的目标优先级，从而获取目标训练集，根据第基于不同标签下文本的特征以及文本中词的特征对文本进行处理，使得获取到的每个标签下的文本数量是均衡的，从而提高了模型训练结果的准确度。

S607，根据U和C，获取目标训练集，其中，所述目标训练集包括第二关键文本列表集U和第四中间文本列表集C。

上述，根据样本标签列表对应的第二中间文本的数量特征，分别采用第一处理方式和第二处理方式对第二中间文本列表集进行处理以获取目标训练集，基于文本对应的不同标签以及不同标签下文本的特征信息，采用不同的处理方式对文本进行处理获取不同标签下的文本作为目标训练集，使得获取到的目标训练数据集的类型更加多样化，扩大了采集到的数据类型的范围。

本实施例提供的一种模型训练数据的预处理系统，系统包括：存储介质、处理器和存储有计算机程序的存储器，存储介质包括样本文本列表，当计算机程序被处理器执行时，实现以下步骤：根据样本文本列表，获取样本文本列表对应的样本事件列表集，根据样本事件列表集，获取样本标签列表，根据样本标签列表，获取样本标签列表对应的第一中间文本列表集，根据第一中间文本列表集，获取第一中间文本列表集对应的第二中间文本列表集，根据第二中间文本列表集中每个第二中间文本列表中第二中间文本的特征分别采用第一处理方式和第二处理方式对第二中间文本列表集进行处理以获取目标训练集，本发明，基于文本对应的不同标签以及不同标签下文本的特征信息，采用不同的处理方式对文本进行处理获取不同标签下的文本作为目标训练集，使得获取到的目标训练数据集的类型更加多样化，扩大了采集到的数据类型的范围；基于不同标签下文本的特征以及文本中词的特征对文本进行处理，使得获取到的每个标签下的文本数量是均衡的，从而提高了模型训练结果的准确度。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员还应理解，可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。

Claims

1.一种模型训练数据的预处理系统，其特征在于，所述系统包括：存储介质、处理器和存储有计算机程序的存储器，其中，所述存储介质包括样本文本列表，所述样本文本列表包括若干个样本文本，所述样本文本为用于目标模型训练所需要的文本，当所述计算机程序被处理器执行时，实现以下步骤：

S100，根据样本文本列表，获取样本文本列表对应的样本事件列表集，其中，所述样本事件列表集包括若干个样本事件列表，每个样本文本对应一个样本事件列表，所述样本事件列表包括若干个样本事件，所述样本事件为样本文本中所包括的事件；

S200，根据样本事件列表集，获取样本标签列表，其中，所述样本标签列表包括若干个样本标签，所述样本标签为基于样本事件列表集获取到的样本事件中事件触发词的类型；

S300，根据样本标签列表，获取样本标签列表对应的第一中间文本列表集A={A₁，……，A_i，……，A_n}，A_i为第i个样本标签对应的第一中间文本列表，i=1……n，n为样本标签的数量，所述第一中间文本列表包括若干个第一中间文本，其中，所述第一中间文本为基于样本标签从样本文本列表中获取到的与样本标签相对应的样本文本；

S400，根据A，获取A对应的第二中间文本列表集B={B₁，……，B_e，……，B_f}，B_e={B_e1，……，B_er，……，B_es（e）}，B_er为第e个样本标签对应的第二中间文本列表中的第r个第二中间文本，r=1……s（e），s（e）为第e个样本标签对应的第二中间文本列表中第二中间文本的数量，e=1……f，f=n，其中，s（1）≥……≥s（e）≥……≥s（f），s（1）为第1个样本标签对应的第二中间文本列表中第二中间文本的数量，s（f）为第f个样本标签对应的第二中间文本列表中第二中间文本的数量；

S500，当∆s＞s⁰时，采用第一处理方式对B进行处理以获取目标训练集，其中，，/>，s（ε）为第ε个样本标签对应的第二中间文本列表中第二中间文本的数量，λ₁为第一预设参数阈值，λ₂为第二预设参数阈值，/>为不小于（f×λ₁）的最小整数，所述第一处理方式为将B中重复出现的第二中间文本从B中的每个第二中间文本列表中进行删除仅将其保留在一个包括第二中间文本数量最小的第二中间文本列表中；

S600，当∆s≤s⁰时，采用第二处理方式对B进行处理以获取目标训练集，其中，所述第二处理方式为基于B中每个第二中间文本列表中第二中间文本的不同特征对B中的每个第二中间文本列表进行处理，其中，在S600中还包括如下步骤：

S601，从B中获取前个第二中间文本列表构成第三中间文本列表集B⁰={B₁，……，B_v，……，B_b}和第四中间文本列表集C，其中，B_v为第v个样本标签对应的第二中间文本列表，B_b为第b个样本标签对应的第二中间文本列表，v=1……b，b=/>，所述第四中间文本列表集C包括/>个第四中间文本列表，所述第四中间文本列表为从B中获取到的除B⁰之外的任一第二中间文本列表；

S603，根据B⁰，获取样本标签列表对应的第一关键文本列表集T={T₁，……，T_v，……，T_b}，T_v为第v个样本标签对应的第一关键文本列表，其中，当B_v中存在第二中间文本与C中任一第二中间文本一致时，将其从B_v中进行删除以获取到T_v；

S605，根据T，获取样本标签列表对应的第二关键文本列表集U={U₁，……，U_v，……，U_b}，U_v为第v个样本标签对应的第二关键文本列表，其中，所述第二关键文本列表中包括若干个第二关键文本，所述第二关键文本为基于第一关键文本列表中第一关键文本的数量对第一关键文本列表中的第一关键文本进行处理后获取到的第一关键文本，其中，在S605中通过如下步骤获取U_v：

S6051，获取T_v={T_v1，……，T_va，……，T_vz（v）}，T_va为T_v中的第a个第一关键文本，a=1……z（v），z（v）为T_v中第一关键文本的数量；

S6053，当z（v）≤θ时，获取U_v=T_v，其中，θ=∆s/（f-）；

S6055，当z（v）＞θ时，对T_v进行处理以获取U_v，其中，对T_v进行处理的方式为根据T_v中关键词的数量以及关键词对应的优先级对T_v中的第一关键文本进行删除，其中，在S6055中还包括如下步骤：

S1，获取T_v对应的目标关键词列表集DT_v={DT_v1，……，DT_va，……，DT_vz（v）}，DT_va={DT¹ _va，……，DT^g _va，……，DT^h（va） _va}，DT^g _va为T_va对应的目标关键词列表中的第g个目标关键词，h=1……h（va），h（va）为T_va对应的目标关键词列表中目标关键词的数量，其中，所述目标关键词为将第一关键文本输入至NLP序列标注模型获取到的第一关键文本中的实体；

S3，根据DT_v，获取DT_v对应的候选优先级列表集GT_v={GT_v1，……，GT_va，……，GT_vz（v）}，GT_va={GT¹ _va，……，GT^g _va，……，GT^h（va） _va}，GT^g _va为DT^g _va对应的候选优先级，其中，GT^g _va符合如下条件：

，β^g _va为DT^g _va在T_va中出现的频数，η_va为T_va中的词频数，μ^g _va为T_v中包括DT^g _va的第一关键文本的数量；

S5，根据DT_v和GT_v，获取T_v对应的目标优先级列表FT_v={FT_v1，……，FT_va，……，FT_vz（v）}，FT_va为T_va对应的目标优先级，其中，FT_va符合如下条件：

；

S7，根据FT_v，获取U_v，其中，U_v为将FT_v中的目标优先级按照从大到小的顺序进行排序后截取前θ个目标优先级中每个目标优先级对应的第一关键文本；

2.根据权利要求1所述的模型训练数据的预处理系统，其特征在于，所述目标模型为基于LLM模型训练出的可根据输入的文本生成提问问题的模型。

3.根据权利要求1所述的模型训练数据的预处理系统，其特征在于，样本事件的获取方式为通过事件抽取模型对样本文本进行处理。

4.根据权利要求1所述的模型训练数据的预处理系统，其特征在于，λ₁的取值范围为0.6～0.7。

5.根据权利要求1所述的模型训练数据的预处理系统，其特征在于，λ₂的取值范围为0.2～0.4。

6.根据权利要求1所述的模型训练数据的预处理系统，其特征在于，在S500中通过如下步骤获取目标训练集：

S501，根据B，获取指定文本E⁰，其中，所述指定文本E⁰为从B中获取到的出现在两个及以上个样本标签对应的第二中间文本列表中的第二中间文本；

S503，根据E⁰，获取E⁰对应的候选文本列表数量集Q={Q₁，……，Q_x，……，Q_p}，Q_x为第x个候选文本列表中候选文本的数量，x=1……p，p为候选文本列表的数量，所述候选文本列表为包括E⁰的第二中间文本列表；