CN117520754B - 一种模型训练数据的预处理系统 - Google Patents

一种模型训练数据的预处理系统 Download PDF

Info

Publication number
CN117520754B
CN117520754B CN202410019191.XA CN202410019191A CN117520754B CN 117520754 B CN117520754 B CN 117520754B CN 202410019191 A CN202410019191 A CN 202410019191A CN 117520754 B CN117520754 B CN 117520754B
Authority
CN
China
Prior art keywords
sample
list
text
texts
text list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410019191.XA
Other languages
English (en)
Other versions
CN117520754A (zh
Inventor
王全修
于伟
靳雯
石江枫
赵洲洋
吴凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rizhao Ruian Information Technology Co ltd
Beijing Rich Information Technology Co ltd
Original Assignee
Rizhao Ruian Information Technology Co ltd
Beijing Rich Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rizhao Ruian Information Technology Co ltd, Beijing Rich Information Technology Co ltd filed Critical Rizhao Ruian Information Technology Co ltd
Priority to CN202410019191.XA priority Critical patent/CN117520754B/zh
Publication of CN117520754A publication Critical patent/CN117520754A/zh
Application granted granted Critical
Publication of CN117520754B publication Critical patent/CN117520754B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种模型训练数据的预处理系统,涉及数据处理技术领域,系统包括:样本文本列表、处理器和存储有计算机程序的存储器,当计算机程序被处理器执行时,实现以下步骤:根据样本文本列表,获取样本事件列表集,获取样本标签列表,根据样本标签列表,获取第一中间文本列表集,获取第二中间文本列表集,根据每个第二中间文本列表中第二中间文本的特征分别采用第一处理方式和第二处理方式进行处理以获取目标训练集,本发明采用不同的处理方式获取不同标签下的文本作为目标训练集,使得目标训练数据集的类型更加多样化,基于不同标签下文本和文本中词的特征进行处理,使得每个标签下的文本数量是均衡的,从而提高了模型训练结果的准确度。

Description

一种模型训练数据的预处理系统
技术领域
本发明涉及数据处理技术领域,特别是涉及一种模型训练数据的预处理系统。
背景技术
随着人工智能领域的不断发展,当下涌现出大量的大语言模型,通过训练大语言模型,能够将许多问题自动化处理,然而在运行大预言模型之前需要大量的文本数据进行训练,训练完成后可以执行广泛的任务,因此,数据预处理是模型训练过程中重要的一环,一份高质量的数据是非常重要的,好的训练数据集能够大大提高模型训练的准确性和可靠性,
已知一种现有技术中,对模型训练数据预处理的方法为:对文本数据进行过滤,删除低质量的段落和文档等,得到高质量的文档,最后对文档进行去重,删除重复的文档或者段落,以上所述对模型训练数据预处理的方法存在如下问题:
未基于文本对应的不同标签选择不同标签下的文本作为目标训练集,减少了获取到的目标训练数据集的类型,缩小了采集到的数据类型的范围;未基于不同下文本的特征对文本进行处理,未考虑每个标签下文本数量的均衡性,从而降低了模型训练结果的准确性。
发明内容
针对上述技术问题,本发明采用的技术方案为:一种模型训练数据的预处理系统,系统包括:存储介质、处理器和存储有计算机程序的存储器,其中,存储介质包括样本文本列表,样本文本列表包括若干个样本文本,样本文本为用于目标模型训练所需要的文本,当计算机程序被处理器执行时,实现以下步骤:
S100,根据样本文本列表,获取样本文本列表对应的样本事件列表集,其中,所述样本事件列表集包括若干个样本事件列表,每个样本文本对应一个样本事件列表,所述样本事件列表包括若干个样本事件,所述样本事件为样本文本中所包括的事件。
S200,根据样本事件列表集,获取样本标签列表,其中,所述样本标签列表包括若干个样本标签,所述样本标签为基于样本事件列表集获取到的样本事件中事件触发词的类型。
S300,根据样本标签列表,获取样本标签列表对应的第一中间文本列表集A={A1,……,Ai,……,An},Ai为第i个样本标签对应的第一中间文本列表,i=1……n,n为样本标签的数量,所述第一中间文本列表包括若干个第一中间文本,其中,所述第一中间文本为基于样本标签从样本文本列表中获取到的与样本标签相对应的样本文本。
S400,根据A,获取A对应的第二中间文本列表集B={B1,……,Be,……,Bf},Be={Be1,……,Ber,……,Bes(e)},Ber为第e个样本标签对应的第二中间文本列表中的第r个第二中间文本,r=1……s(e),s(e)为第e个样本标签对应的第二中间文本列表中第二中间文本的数量,e=1……f,f=n,其中,s(1)≥……≥s(e)≥……≥s(f),s(1)为第1个样本标签对应的第二中间文本列表中第二中间文本的数量,s(f)为第f个样本标签对应的第二中间文本列表中第二中间文本的数量。
S500,当>s0时,采用第一处理方式对B进行处理以获取目标训练集,其中,,/>,s(ε)为第ε个样本标签对应的第二中间文本列表中第二中间文本的数量,λ1为第一预设参数阈值,λ2为第二预设参数阈值,/>为不小于(f×λ1)的最小整数,所述第一处理方式为将B中重复出现的第二中间文本从B中的每个第二中间文本列表中进行删除仅将其保留在一个包括第二中间文本数量最小的第二中间文本列表中。
S600,当≤s0时,采用第二处理方式对B进行处理以获取目标训练集,其中,所述第二处理方式为基于B中每个第二中间文本列表中第二中间文本的不同特征对B中的每个第二第二中间文本列表进行处理。
本发明与现有技术相比具有明显的有益效果,借由上述技术方案,本发明提供的一种模型训练数据的预处理系统可达到相当的技术进步性及实用性,并具有产业上的广泛利用价值,其至少具有以下有益效果:
本发明提供了一种模型训练数据的预处理系统,系统包括:存储介质、处理器和存储有计算机程序的存储器,存储介质包括样本文本列表,当计算机程序被处理器执行时,实现以下步骤:根据样本文本列表,获取样本文本列表对应的样本事件列表集,根据样本事件列表集,获取样本标签列表,根据样本标签列表,获取样本标签列表对应的第一中间文本列表集,根据第一中间文本列表集,获取第一中间文本列表集对应的第二中间文本列表集,根据第二中间文本列表集中每个第二中间文本列表中第二中间文本的特征分别采用第一处理方式和第二处理方式对第二中间文本列表集进行处理以获取目标训练集,本发明,基于文本对应的不同标签以及不同标签下文本的特征信息,采用不同的处理方式对文本进行处理获取不同标签下的文本作为目标训练集,使得获取到的目标训练数据集的类型更加多样化,扩大了采集到的数据类型的范围;基于不同标签下文本的特征以及文本中词的特征对文本进行处理,使得获取到的每个标签下的文本数量是均衡的,从而提高了模型训练结果的准确度。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
图1为本发明实施例提供的一种模型训练数据的预处理系统的处理器执行计算机程序时实现的流程图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例
本实施例提供了一种模型训练数据的预处理系统,所述系统包括:存储介质、处理器和存储有计算机程序的存储器,其中,所述存储介质包括样本文本列表,所述样本文本列表包括若干个样本文本,所述样本文本为用于目标模型训练所需要的文本,当所述计算机程序被处理器执行时,实现以下步骤,如图1所示:
S100,根据样本文本列表,获取样本文本列表对应的样本事件列表集,其中,所述样本事件列表集包括若干个样本事件列表,每个样本文本对应一个样本事件列表,所述样本事件列表包括若干个样本事件,所述样本事件为样本文本中所包括的事件。
具体的,所述目标模型为基于LLM模型训练出的可根据输入的文本生成提问问题的模型。
进一步的,所述样本文本的获取方式为从数据平台中获取到的具有描述事件特征信息的文本,其中,本领域技术人员知晓,可根据实际需求进行任一数据平台的选取,均落入本发明的保护范围,在此不再赘述,例如百度百科等数据平台。
具体的,样本事件的获取方式为通过事件抽取模型对样本文本进行处理获取到的,其中,本领域技术人员知晓,现有技术中任一基于事件抽取模型从文本中抽取事件的方法,均落入本发明的保护范围,在此不再赘述。
进一步的,每个样本文本包括若干段文本字符串,每段文本字符之间由逗号或分号进行分割,可以理解为:在一段描述性的文本中,里面有很多句话,每句话对应的就是每段文本字符串。
S200,根据样本事件列表集,获取样本标签列表,其中,所述样本标签列表包括若干个样本标签,所述样本标签为基于样本事件列表集获取到的样本事件中事件触发词的类型。
S300,根据样本标签列表,获取样本标签列表对应的第一中间文本列表集A={A1,……,Ai,……,An},Ai为第i个样本标签对应的第一中间文本列表,i=1……n,n为样本标签的数量,所述第一中间文本列表包括若干个第一中间文本,其中,所述第一中间文本为基于样本标签从样本文本列表中获取到的与样本标签相对应的样本文本。
S400,根据A,获取A对应的第二中间文本列表集B={B1,……,Be,……,Bf},Be={Be1,……,Ber,……,Bes(e)},Ber为第e个样本标签对应的第二中间文本列表中的第r个第二中间文本,r=1……s(e),s(e)为第e个样本标签对应的第二中间文本列表中第二中间文本的数量,e=1……f,f=n,其中,s(1)≥……≥s(e)≥……≥s(f),s(1)为第1个样本标签对应的第二中间文本列表中第二中间文本的数量,s(f)为第f个样本标签对应的第二中间文本列表中第二中间文本的数量。
S500,当>s0时,采用第一处理方式对B进行处理以获取目标训练集,其中,,/>,s(ε)为第ε个样本标签对应的第二中间文本列表中第二中间文本的数量,λ1为第一预设参数阈值,λ2为第二预设参数阈值,所述第一处理方式为将B中重复出现的第二中间文本从B中的每个第二中间文本列表中进行删除只保留在一个第二中间文本列表中。
具体的,λ1的取值范围为0.6~0.7,其中,本领域技术人员知晓,可根据实际需求进行λ1的选取,均落入本发明的保护范围,在此不在赘述。
具体的,λ2的取值范围为0.2~0.4,其中,本领域技术人员知晓,可根据实际需求进行λ2的选取,均落入本发明的保护范围,在此不在赘述。
具体的,为不小于(f×λ1)的最小整数。
具体的,在S500中通过如下步骤获取目标训练集:
S501,根据B,获取指定文本E0,其中,所述指定文本E0为从B中获取到的出现在两个及以上个样本标签对应的第二中间文本列表中的第二中间文本。
S503,根据E0,获取E0对应的候选文本列表数量集Q={Q1,……,Qx,……,Qp},Qx为第x个候选文本列表中候选文本的数量,x=1……p,p为候选文本列表的数量,所述候选文本列表为包括E0的第二中间文本列表。
具体的,所述候选文本为包括E0的第二中间文本列表中的第二中间文本。
S505,当Qx为Q中最小值时,获取目标训练集,其中,所述目标训练集为从B中将Q中除Qx之外的任一候选文本列表数量对应的第二中间文本列表中的E0进行删除后获取到的样本文本集。
S600,当≤s0时,采用第二处理方式对B进行处理以获取目标训练集,其中,所述第二处理方式为基于B中每个第二中间文本列表中第二中间文本的不同特征对B中的每个第二第二中间文本列表进行处理。
具体的,在S600中还包括如下步骤:
S601,从B中获取前个第二中间文本列表构成第三中间文本列表集B0={B1,……,Bv,……,Bb}和第四中间文本列表集C,其中,Bv为第v个样本标签对应的第二中间文本列表,Bb为第b个样本标签对应的第二中间文本列表,v=1……b,b=/>,所述第四中间文本列表集C包括(f-/>)个第四中间文本列表,所述第四中间文本列表为从B中获取到的除B0之外的任一第二中间文本列表。
具体的,为小于(f×λ1)的最大整数。
具体的,所述第四中间文本列表包括若若干个第四中间文本,其中,所述第四中间文本为从B中获取到的除B0之外的任一第二中间文本列表中的任一第二中间文本。
S603,根据B0,获取样本标签列表对应的第一关键文本列表集T={T1,……,Tv,……,Tb},Tv为第v个样本标签对应的第一关键文本列表,其中,当Bv中存在第二中间文本与C中任一第二中间文本一致时,将其从Bv中进行删除以获取到Tv
S605,根据T,获取样本标签列表对应的第二关键文本列表集U={U1,……,Uv,……,Ub},Uv为第v个样本标签对应的第二关键文本列表,其中,所述第二关键文本列表中包括若干个第二关键文本,所述第二关键文本为基于第一关键文本列表中第一关键文本的数量对第一关键文本列表中的第一关键文本进行处理后获取到的第一关键文本。
具体的,在S605中通过如下步骤获取Uv
S6051,获取Tv={Tv1,……,Tva,……,Tvz(v)},Tva为Tv中的第a个第一关键文本,a=1……,z(v)为Tv中第一关键文本的数量。
S6053,当z(v)≤θ时,获取Uv=Tv,其中,θ=/(f-/>)。
S6055,当z(v)>θ时,对Tv进行处理以获取Uv,其中,对Tv进行处理的方式为根据Tv中关键词的数量以及关键词对应的优先级对Tv中的第一关键文本进行删除。
具体的,在S6055中还包括如下步骤:
S1,获取Tv对应的目标关键词列表集DTv={DTv1,……,DTva,……,DTvz(v)},DTva={DT1 va,……,DTg va,……,DTh(va) va},DTg va为Tva对应的目标关键词列表中的第g个目标关键词,h=1……h(va),h(va)为Tva对应的目标关键词列表中目标关键词的数量,其中,所述目标关键词为将第一关键文本输入至NLP序列标注模型获取到的第一关键文本中的实体。
具体的,本领域技术人员知晓,现有技术中任一利用NLP序列标注模型获取实体的方法,均落入本发明的保护范围,在此不再赘述,例如BIOES等NLP序列标注模型。
S3,根据DTv,获取DTv对应的候选优先级列表集GTv={GTv1,……,GTva,……,},GTva={GT1 va,……,GTg va,……,GTh(va) va},GTg va为DTg va对应的候选优先级,其中,GTg va符合如下条件:
,βg va为DTg va在Tva中出现的频数,ηva为Tva中的词频数,μg va为Tv中包括DTg va的第一关键文本的数量。
具体的,所述词频数为词的数量。
S5,根据DTv和GTv,获取Tv对应的目标优先级列表FTv={FTv1,……,FTva,……,},FTva为Tva对应的目标优先级,其中,FTva符合如下条件:
S7,根据FTv,获取Uv,其中,Uv为将FTv中的目标优先级按照从大到小的顺序进行排序后截取前θ个目标优先级中每个目标优先级对应的第一关键文本。
上述,根据第二中间文本列表集,获取第三中间文本列表集和第四中间文本列表集,基于第三中间文本列表集和第四中间文本列表集中文本的特征采用不同方式进行处理,获取第一关键文本列表集和第二关键文本列表集,其中,基于第二关键文本列表集对应的目标关键词和目标关键词对应的权重获取第儿关键文本列表对应的目标优先级,从而获取目标训练集,根据第基于不同标签下文本的特征以及文本中词的特征对文本进行处理,使得获取到的每个标签下的文本数量是均衡的,从而提高了模型训练结果的准确度。
S607,根据U和C,获取目标训练集,其中,所述目标训练集包括第二关键文本列表集U和第四中间文本列表集C。
上述,根据样本标签列表对应的第二中间文本的数量特征,分别采用第一处理方式和第二处理方式对第二中间文本列表集进行处理以获取目标训练集,基于文本对应的不同标签以及不同标签下文本的特征信息,采用不同的处理方式对文本进行处理获取不同标签下的文本作为目标训练集,使得获取到的目标训练数据集的类型更加多样化,扩大了采集到的数据类型的范围。
本实施例提供的一种模型训练数据的预处理系统,系统包括:存储介质、处理器和存储有计算机程序的存储器,存储介质包括样本文本列表,当计算机程序被处理器执行时,实现以下步骤:根据样本文本列表,获取样本文本列表对应的样本事件列表集,根据样本事件列表集,获取样本标签列表,根据样本标签列表,获取样本标签列表对应的第一中间文本列表集,根据第一中间文本列表集,获取第一中间文本列表集对应的第二中间文本列表集,根据第二中间文本列表集中每个第二中间文本列表中第二中间文本的特征分别采用第一处理方式和第二处理方式对第二中间文本列表集进行处理以获取目标训练集,本发明,基于文本对应的不同标签以及不同标签下文本的特征信息,采用不同的处理方式对文本进行处理获取不同标签下的文本作为目标训练集,使得获取到的目标训练数据集的类型更加多样化,扩大了采集到的数据类型的范围;基于不同标签下文本的特征以及文本中词的特征对文本进行处理,使得获取到的每个标签下的文本数量是均衡的,从而提高了模型训练结果的准确度。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。

Claims (6)

1.一种模型训练数据的预处理系统,其特征在于,所述系统包括:存储介质、处理器和存储有计算机程序的存储器,其中,所述存储介质包括样本文本列表,所述样本文本列表包括若干个样本文本,所述样本文本为用于目标模型训练所需要的文本,当所述计算机程序被处理器执行时,实现以下步骤:
S100,根据样本文本列表,获取样本文本列表对应的样本事件列表集,其中,所述样本事件列表集包括若干个样本事件列表,每个样本文本对应一个样本事件列表,所述样本事件列表包括若干个样本事件,所述样本事件为样本文本中所包括的事件;
S200,根据样本事件列表集,获取样本标签列表,其中,所述样本标签列表包括若干个样本标签,所述样本标签为基于样本事件列表集获取到的样本事件中事件触发词的类型;
S300,根据样本标签列表,获取样本标签列表对应的第一中间文本列表集A={A1,……,Ai,……,An},Ai为第i个样本标签对应的第一中间文本列表,i=1……n,n为样本标签的数量,所述第一中间文本列表包括若干个第一中间文本,其中,所述第一中间文本为基于样本标签从样本文本列表中获取到的与样本标签相对应的样本文本;
S400,根据A,获取A对应的第二中间文本列表集B={B1,……,Be,……,Bf},Be={Be1,……,Ber,……,Bes(e)},Ber为第e个样本标签对应的第二中间文本列表中的第r个第二中间文本,r=1……s(e),s(e)为第e个样本标签对应的第二中间文本列表中第二中间文本的数量,e=1……f,f=n,其中,s(1)≥……≥s(e)≥……≥s(f),s(1)为第1个样本标签对应的第二中间文本列表中第二中间文本的数量,s(f)为第f个样本标签对应的第二中间文本列表中第二中间文本的数量;
S500,当∆s>s0时,采用第一处理方式对B进行处理以获取目标训练集,其中,,/>,s(ε)为第ε个样本标签对应的第二中间文本列表中第二中间文本的数量,λ1为第一预设参数阈值,λ2为第二预设参数阈值,/>为不小于(f×λ1)的最小整数,所述第一处理方式为将B中重复出现的第二中间文本从B中的每个第二中间文本列表中进行删除仅将其保留在一个包括第二中间文本数量最小的第二中间文本列表中;
S600,当∆s≤s0时,采用第二处理方式对B进行处理以获取目标训练集,其中,所述第二处理方式为基于B中每个第二中间文本列表中第二中间文本的不同特征对B中的每个第二中间文本列表进行处理,其中,在S600中还包括如下步骤:
S601,从B中获取前个第二中间文本列表构成第三中间文本列表集B0={B1,……,Bv,……,Bb}和第四中间文本列表集C,其中,Bv为第v个样本标签对应的第二中间文本列表,Bb为第b个样本标签对应的第二中间文本列表,v=1……b,b=/>,所述第四中间文本列表集C包括/>个第四中间文本列表,所述第四中间文本列表为从B中获取到的除B0之外的任一第二中间文本列表;
S603,根据B0,获取样本标签列表对应的第一关键文本列表集T={T1,……,Tv,……,Tb},Tv为第v个样本标签对应的第一关键文本列表,其中,当Bv中存在第二中间文本与C中任一第二中间文本一致时,将其从Bv中进行删除以获取到Tv
S605,根据T,获取样本标签列表对应的第二关键文本列表集U={U1,……,Uv,……,Ub},Uv为第v个样本标签对应的第二关键文本列表,其中,所述第二关键文本列表中包括若干个第二关键文本,所述第二关键文本为基于第一关键文本列表中第一关键文本的数量对第一关键文本列表中的第一关键文本进行处理后获取到的第一关键文本,其中,在S605中通过如下步骤获取Uv
S6051,获取Tv={Tv1,……,Tva,……,Tvz(v)},Tva为Tv中的第a个第一关键文本,a=1……z(v),z(v)为Tv中第一关键文本的数量;
S6053,当z(v)≤θ时,获取Uv=Tv,其中,θ=∆s/(f-);
S6055,当z(v)>θ时,对Tv进行处理以获取Uv,其中,对Tv进行处理的方式为根据Tv中关键词的数量以及关键词对应的优先级对Tv中的第一关键文本进行删除,其中,在S6055中还包括如下步骤:
S1,获取Tv对应的目标关键词列表集DTv={DTv1,……,DTva,……,DTvz(v)},DTva={DT1 va,……,DTg va,……,DTh(va) va},DTg va为Tva对应的目标关键词列表中的第g个目标关键词,h=1……h(va),h(va)为Tva对应的目标关键词列表中目标关键词的数量,其中,所述目标关键词为将第一关键文本输入至NLP序列标注模型获取到的第一关键文本中的实体;
S3,根据DTv,获取DTv对应的候选优先级列表集GTv={GTv1,……,GTva,……,GTvz(v)},GTva={GT1 va,……,GTg va,……,GTh(va) va},GTg va为DTg va对应的候选优先级,其中,GTg va符合如下条件:
,βg va为DTg va在Tva中出现的频数,ηva为Tva中的词频数,μg va为Tv中包括DTg va的第一关键文本的数量;
S5,根据DTv和GTv,获取Tv对应的目标优先级列表FTv={FTv1,……,FTva,……,FTvz(v)},FTva为Tva对应的目标优先级,其中,FTva符合如下条件:
S7,根据FTv,获取Uv,其中,Uv为将FTv中的目标优先级按照从大到小的顺序进行排序后截取前θ个目标优先级中每个目标优先级对应的第一关键文本;
S607,根据U和C,获取目标训练集,其中,所述目标训练集包括第二关键文本列表集U和第四中间文本列表集C。
2.根据权利要求1所述的模型训练数据的预处理系统,其特征在于,所述目标模型为基于LLM模型训练出的可根据输入的文本生成提问问题的模型。
3.根据权利要求1所述的模型训练数据的预处理系统,其特征在于,样本事件的获取方式为通过事件抽取模型对样本文本进行处理。
4.根据权利要求1所述的模型训练数据的预处理系统,其特征在于,λ1的取值范围为0.6~0.7。
5.根据权利要求1所述的模型训练数据的预处理系统,其特征在于,λ2的取值范围为0.2~0.4。
6.根据权利要求1所述的模型训练数据的预处理系统,其特征在于,在S500中通过如下步骤获取目标训练集:
S501,根据B,获取指定文本E0,其中,所述指定文本E0为从B中获取到的出现在两个及以上个样本标签对应的第二中间文本列表中的第二中间文本;
S503,根据E0,获取E0对应的候选文本列表数量集Q={Q1,……,Qx,……,Qp},Qx为第x个候选文本列表中候选文本的数量,x=1……p,p为候选文本列表的数量,所述候选文本列表为包括E0的第二中间文本列表;
S505,当Qx为Q中最小值时,获取目标训练集,其中,所述目标训练集为从B中将Q中除Qx之外的任一候选文本列表数量对应的第二中间文本列表中的E0进行删除后获取到的样本文本集。
CN202410019191.XA 2024-01-05 2024-01-05 一种模型训练数据的预处理系统 Active CN117520754B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410019191.XA CN117520754B (zh) 2024-01-05 2024-01-05 一种模型训练数据的预处理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410019191.XA CN117520754B (zh) 2024-01-05 2024-01-05 一种模型训练数据的预处理系统

Publications (2)

Publication Number Publication Date
CN117520754A CN117520754A (zh) 2024-02-06
CN117520754B true CN117520754B (zh) 2024-04-12

Family

ID=89746109

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410019191.XA Active CN117520754B (zh) 2024-01-05 2024-01-05 一种模型训练数据的预处理系统

Country Status (1)

Country Link
CN (1) CN117520754B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111639181A (zh) * 2020-04-30 2020-09-08 深圳壹账通智能科技有限公司 基于分类模型的论文分类方法、装置、电子设备及介质
CN114706992A (zh) * 2022-02-17 2022-07-05 中科雨辰科技有限公司 一种基于知识图谱的事件信息处理系统
WO2022160490A1 (zh) * 2021-01-29 2022-08-04 平安科技(深圳)有限公司 信息提取模型训练方法、装置、终端设备及存储介质
CN115659226A (zh) * 2022-11-15 2023-01-31 每日互动股份有限公司 一种获取app标签的数据处理系统
WO2023060795A1 (zh) * 2021-10-12 2023-04-20 平安科技(深圳)有限公司 关键词自动提取方法、装置、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111639181A (zh) * 2020-04-30 2020-09-08 深圳壹账通智能科技有限公司 基于分类模型的论文分类方法、装置、电子设备及介质
WO2022160490A1 (zh) * 2021-01-29 2022-08-04 平安科技(深圳)有限公司 信息提取模型训练方法、装置、终端设备及存储介质
WO2023060795A1 (zh) * 2021-10-12 2023-04-20 平安科技(深圳)有限公司 关键词自动提取方法、装置、设备及存储介质
CN114706992A (zh) * 2022-02-17 2022-07-05 中科雨辰科技有限公司 一种基于知识图谱的事件信息处理系统
CN115659226A (zh) * 2022-11-15 2023-01-31 每日互动股份有限公司 一种获取app标签的数据处理系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种基于注意力机制的中文短文本关键词提取模型;杨丹浩;吴岳辛;范春晓;;计算机科学;20200115(01);全文 *
一种面向非平衡生物医学数据的自训练半监督方法;王凯;杨枢;张钰;;大庆师范学院学报;20171110(06);全文 *

Also Published As

Publication number Publication date
CN117520754A (zh) 2024-02-06

Similar Documents

Publication Publication Date Title
CN110147551B (zh) 多类别实体识别模型训练、实体识别方法、服务器及终端
CN108073568B (zh) 关键词提取方法和装置
CN108804641B (zh) 一种文本相似度的计算方法、装置、设备和存储介质
CN111444320B (zh) 文本检索方法、装置、计算机设备和存储介质
US7028250B2 (en) System and method for automatically classifying text
US8341159B2 (en) Creating taxonomies and training data for document categorization
CN110516074B (zh) 一种基于深度学习的网站主题分类方法及装置
US20080208836A1 (en) Regression framework for learning ranking functions using relative preferences
CN108519971B (zh) 一种基于平行语料库的跨语种新闻主题相似性对比方法
CN109165040B (zh) 一种基于随机森林模型的代码抄袭嫌疑检测的方法
CN112231555A (zh) 基于用户画像标签的召回方法、装置、设备及存储介质
CN106951565B (zh) 文本分类方法及获得的文本分类器
CN112016294B (zh) 一种基于文本的新闻重要性评估方法、装置及电子设备
CN115238040A (zh) 一种钢铁材料学知识图谱构建方法及系统
CN115659226A (zh) 一种获取app标签的数据处理系统
CN104714977A (zh) 一种实体与知识库项的关联方法及装置
CN117520754B (zh) 一种模型训练数据的预处理系统
CN113515699A (zh) 信息推荐方法及装置、计算机可读存储介质、处理器
Revindasari et al. Traceability between business process and software component using Probabilistic Latent Semantic Analysis
JP4479745B2 (ja) 文書の類似度補正方法、プログラムおよびコンピュータ
CN112131415B (zh) 基于深度学习提高数据采集质量的方法和装置
CN113688633A (zh) 一种提纲确定方法及装置
CN113656575A (zh) 训练数据的生成方法、装置、电子设备及可读介质
CN108733824B (zh) 考虑专家知识的交互式主题建模方法及装置
Setiadi et al. Recommendation feature of scientific articles on open journal system using content-based filtering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant