CN114020877B

CN114020877B - 一种用于标注文本的数据处理系统

Info

Publication number: CN114020877B
Application number: CN202111371800.0A
Authority: CN
Inventors: 傅晓航; 刘羽; 张正义; 林方
Original assignee: Zhongke Yuchen Technology Co Ltd
Current assignee: Zhongke Yuchen Technology Co Ltd
Priority date: 2021-11-18
Filing date: 2021-11-18
Publication date: 2024-05-10
Anticipated expiration: 2041-11-18
Also published as: CN114020877A

Abstract

本发明涉及一种用于标注文本的数据处理系统，包括数据库、处理器和存储有计算机程序的存储器，当计算机程序被处理器执行时，实现步骤：获取第一样本文本列表和若干个第二样本文本列表，使得多个标注端对应对第一样本文本列表进行标注，同时每一标注端分别标注对应的第二样本文本列表，得到训练集对学习模型进行训练，用于将所述目标语句列表输入至已训练的学习模型中，获取所述目标文本对应的标注文本，本发明能够对不同标注人员的准确性和差异性进行确定，进行根据标注人员的特性训练模型，提高文本标注的准确性和效率。

Description

一种用于标注文本的数据处理系统

技术领域

本发明涉及数据处理技术领域，尤其涉及一种用于标注文本的数据处理系统。

背景技术

随着时代的发展和无纸化办公技术的不断进步，人们生活中需要处理的电子文档越来越多，纸质文档占比则在渐渐降低。企业内的文档处理如果借助NLP相关技术则往往需要大量的文本标注工作用于模型训练，而在电子文档上完成这些操作则需要一种操作便捷、使用方便的标注系统。

当下热门的标注方式中，针对不同标注人员对问题理解不一致的情况，通常采用多个标注员对同一数据进行反复标注，在通过投票的方式，决定出数据的标注结果，并且在标注时采取基于PDF文档解析后在文字上划选来完成标注，会导致多种弊端情况出现，例如无法在单层PDF上划选、无法对印章水印等内容进行标记、无法在文档上进行表格标注等，同时，也会出现标注错误或者漏标注的情况，并且影响到文本标注效率，此外，也无法对不同标注人员的准确性和差异性进行确定，因此，如何准确的对文本进行标注，提高文本标注的准确性和效率成为亟待解决的技术问题。

发明内容

本发明目的在于，提供一种用于标注文本的数据处理系统，能够对不同标注人员的准确性和差异性进行确定，进行根据标注人员的特性训练模型，提高文本标注的准确性和效率。

本发明一方面提供了一种用于标注文本的数据处理系统，所述系统包括：数据库、处理器和存储有计算机程序的存储器，其中，所述数据库包括N个样本文本和M个标注端ID，当所述计算机程序被处理器执行时，实现以下步骤：

S100、获取第一样本文本列表A＝(A₁，A₂，A₃，……，A_m)，A_i是指第i个第一样本文本，i＝1……m，m为第一样本文本数量，和M个第二样本文本列表B＝(B₁，B₂，B₃，……，B_n)，B_j是指第j个第二样本文本，j＝1……n，n为第二样本文本数量；

S200、将A发送至所有的标注端ID对应的标注端进行标注，获取A_i对应的M个第一标注文本同时，将B发送至单一所述标注端ID对应的标注端进行标注，B_j对应的第二标注文本/>以根据所有/>构建的第一标注文本列表作为第一训练集和所有/>构建的第一标注文本列表作为的第二标注文本列表作为第二训练集；

S300、将第一训练集输入至预设的学习模型中，获取所有的标注端ID的第一目标函数T(x)；

S400、将第二训练集输入至预设的学习模型中，获取每一所述标注端ID的第二目标函数H_t(x)，t＝1……M，并根据所有H_t(x)，获取总目标函数H0(x)，其中，H₀(x)符合如下条件：

S500、根据T(x)和H₀(x)插入至所述学习模型，得到目标学习模型，以从数据库中获取K个目标样本文本作为目标训练集输入至所述目标学习模型中进行训练，得到已训练的目标学习模型；

S600、获取目标文本且对每一所述目标文本进行预处理，得到所述目标文本对应的目标语句列表，以将所述目标语句列表输入至已训练的目标学习模型中，获取所述目标文本对应的标注文本。

本发明与现有技术相比具有明显的优点和有益效果。借由上述技术方案，本发明提供的一种用于标注文本的数据处理系统可达到相当的技术进步性及实用性，并具有产业上的广泛利用价值，其至少具有下列优点：

本发明通过获取不同的样本对标注端进行标注，进而获取准确的函数插入至学习模型中，能够避免了标注端出现的异常标注或者漏标注的情况，提高了文本标注的准确性；

同时通过获取若干个关键文本列表实现不同标注端ID对同一关键文本和不同关键文本进行标注，进而获取标注端对应的共性函数和差异函数，且插入至学习模型中，能够有效的提高了学习模型的准确性和效率，避免了出现标注端出现的异常标注或者漏标注的情况，提高了文本标注的准确性，且能够无需对同一数据进行反复标注，提高了标注的准确性。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图,详细说明如下。

附图说明

图1为本发明实施例一提供的用于标注文本的数据处理系统的数据处理方法流程图。

具体实施方式

为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例，对依据本发明提出的一种用于标注文本的数据处理系统的具体实施方式及其功效，详细说明如后。

本发明实施例提供了一种用于标注文本的数据处理系统，所述系统包括：数据库、处理器和存储有计算机程序的存储器，其中，所述数据库包括N个样本文本和M个标注端ID，所述标注端ID是指标注端的唯一识别码，所述标注端是指用于标注文本的用户端，当所述计算机程序被处理器执行时，实现以下步骤：

S100、获取第一样本文本列表A＝(A₁，A₂，A₃，……，A_m)，Ai是指第i个第一样本文本，i＝1……m，m为第一样本文本数量，和M个第二样本文本列表B＝(B₁，B₂，B₃，……，B_n)，Bj是指第j个第二样本文本，j＝1……n，n为第二样本文本数量。

具体地，所述第二样本文本是指在所有样本中除所述第一样本文本之外的其他样本文本，其中，所述第一样本文本和所述第二样本文本从数据库存储的样本文本中获取的。

优先地，所述数据库中还包括R个原始文本，并从数据库中获取待处理文本Z个待处理文本，构建成待处理文本列表Q＝(Q₁，Q₂，Q₃，……，Q_z)，其中，Q_g是指第g个待处理文本，g＝1……z。

进一步地，在S100步骤之前还包括如下步骤确定样本文本：

S1、基于Q且每一所述待处理文本进行预处理，获取所述待处理文本对应的指定语句列表。

具体地，在S1步骤中，所述指定语句是指将所述待处理文本按照预设规则进行语句划分处理生成的语句，其中，预设规则可为现有技术中任一规则，例如，所述待处理文本按照标点符号进行语句划分处理生成的语句。

S2、将所有待处理文本作为指定训练集输入至所述学习模型中进行训练，获取任一待处理文本对应的语句向量集且当所述待处理文本对应的语句向量集中任一所述语句向量对应的概率值＜预设的第一概率阈值时，将所述待处理文本作为样本文本。

优选地，所述学习模型为主动学习模型。

在一个具体的实施例中，在S2步骤中，还包括如下步骤确定语句向量：

S201、获取任一指定语句对应的字符列表C＝(C₁，C₂，C₃，……，C_p)，C_q是指在所述指定语句中第q个字符，q＝1……p，p为字符数量；

S203、将任一C输入至所述学习模型中，获取C_q对应的中间函数E_q(x)，以根据C_q对应的中间函数E_q(x)，确定出C_q对应的概率值F_q，可以理解为：E_q(x)为将C_q作为变量输入所述学习模型，得到的所述学习模型对应的函数，且本领域技术人员可以采取任一方法基于E_q(x)得到C_q对应的概率值F_q，在此不再赘述。

S205、当F_q≥预设的第二概率阈值时，将C_q对应的标记为1；

S207当F_q＜预设的第二概率阈值时，将C_q对应的标记为0；

S209、根据所有C_q对应的标记，获取指定语句的语句向量。

具体地，所述第二概率阈值的范围为50～60％，优选地，所述第二概率阈值为50％。

在一些实施例中，S205步骤和S207步骤中，当F_q处于若干个预设概率阈值区间中的任一概率阈值区间，将F_q对应的标记为所述预设概率阈值区间对应的标记值，其中，任一所述预设概率阈值区间为将0～100％阈值划分成若干个相等距离的区间中的一个，所述预设概率阈值区间对应的标记值可以根据预设概率阈值区间预先设置，在此不再赘述，能够优化字符向量，提高字符概率值的准确性，有利于确定是否标注准确，便有后续对学习模型的训练。

具体地，在S2步骤之后，还包括如下步骤：

S3、当任一指定语句对应的概率值≥所述第一概率阈值时，获取任一所述待处理文本对应的概率值F，F符合如下条件：

其中，F_q是指在第α个指定语句中第q个字符的概率值，p为第α个指定语句中字符数量，α＝1……β，β为任一待处理文本中指定语句数量。

S5、当F＜预设的第三概率阈值时，将F对应的所述待处理文本作为样本文本。

上述实施例中：根据任一指定语句对应的概率值确定中间文本，并根据任一样本语句中所有字符的概率进行确定，一方面，避免标注语句的异常情况的发生，另一方面，能够对整体语句进行判断，避免出现语句判断错误，影响到文本标注。

S200、将A发送至所有的标注端ID对应的标注端进行标注，获取A_i对应的M个第一标注文本同时，将B发送至单一所述标注端ID对应的标注端进行标注，B_j对应的第二标注文本/>以根据所有/>构建的第一标注文本列表作为第一训练集和所有/>构建的第二标注文本列表作为第二训练集，可以理解为：A为所有标注端ID对应的标注端均处理的文本列表，而每一B为单一标注端ID对应的标注端处理的文本列表，能够获取不同标注端对文本进行标注的共性特征和不同标注端对文本进行标注的差异特征，有利于训练模型，进而提高文本标注的准确性和效率。

具体地，不同所述标注端ID对应的B中所有第二样本文本不相同，可以理解为：任一所述标注端ID对应的B中所有第二关键文本，与其他的M-1个所述标注端ID对应的B中所有第二样本文本均不一致，能够获取不同标注端对文本进行标注的差异特征，有利于训练模型，进而提高文本标注的准确性和效率。

S300、将第一训练集输入至预设的学习模型中，获取所有的标注端ID的第一目标函数T(x)，可以理解为：T(x)用于表征标注端差异的函数且T(x)为将第一训练集作为变量输入至所述学习模型，得到所述学习模型对应的函数。

可以理解为：H₀(x)用于表征标注端共性的函数H_t(x)为将第t个第二训练集作为变量输入至所述学习模型，得到所述学习模型对应的函数。

具体地，S300中T(x)和S400中H_t(x)为相同位数的矩阵函数。

优选地，H₀(x)还符合如下条件：

其中，λ为权重值，其中，所述权重值根据所述标注端的优先等级进行确定，λ的取值范围为1～5，可以理解为：λ包括λ₁、λ₂、λ₃、λ₄和λ₅，λ₁、λ₂、λ₃、λ₄和λ₅分别对应所述标注端的五个优先等级且λ₁＜λ₂＜λ₃＜λ₄＜λ₅。

S500、根据T(x)和H₀(x)插入至所述学习模型，得到目标学习模型，以从数据库中获取K个目标样本文本作为目标训练集输入至所述目标学习模型中进行训练，得到已训练的目标学习模型。

具体地，所述目标样本文本是指在数据库中除第一样本文本和第二样本文本之外的其他样本文本。

在一些具体的实施例中，对T(x)和H_t(x)进行处理，获取和/>其中，W为预设概率阈值区间数量，并将和/>插入至所述学习模型，得到目标学习模型，以从数据库中获取K个目标样本文本作为目标训练集输入至所述目标学习模型中进行训练，得到已训练的目标学习模型，可以理解为：将/>和/>均与所述学习模型对应的函数进行合并，即T(x)和均与所述学习模型对应的函数的加和，得到新的所述学习模型对应的函数作为目标学习模型。

具体地，所述目标文本为数据库中除待处理文本之外的原始文本，所述目标文本与所述待处理文本采取相同的预设规则进行语句划分，在此不再赘述，所述目标文本的数量为R-Z。

具体地，在S600步骤中，当所述目标文本对应的目标语句列表输入至所述已训练的目标学习模型时，所述已训练的目标学习模型中只具有H₀(x)，能够优化不同标注端对文本标注的差异性，避免了出现标注端出现的异常标注或者漏标注的情况，提高了文本标注的准确性。

本实施例获取若干个原始文本的概率值生成待处理文本，在基于待处理文本中确定出第一样本文本列表和第二样本文本列表，以将第一样本文本列表发送至所有标注端ID的标注端，以根据第一样本文本列表确定出不同标注端ID的差异特性，同时，将不同的第二样本文本列表发送至对应的标注端ID的标注端，以根据第二样本文本列表确定出所有标注端ID的共同特性，且将差异特性对应的函数和共同特性对应的函数，且插入至学习模型中，能够有效的提高了学习模型的准确性和效率，避免了出现标注端出现的异常标注或者漏标注的情况，提高了文本标注的准确性，且能够无需对同一数据进行反复标注，提高了标注的准确性。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明,任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种用于标注文本的数据处理系统，其特征在于，所述系统包括：数据库、处理器和存储有计算机程序的存储器，其中，所述数据库包括N个样本文本和M个标注端ID，所述数据库中还包括R个原始文本，并从数据库中获取待处理文本Z个待处理文本，构建成待处理文本列表Q＝(Q₁，Q₂，Q₃，……，Q_z)，其中，Q_g是指第g个待处理文本，当所述计算机程序被处理器执行时，实现以下步骤：

S100、获取第一样本文本列表A＝(A₁，A₂，A₃，……，A_m)，A_i是指第i个第一样本文本，i＝1……m，m为第一样本文本数量，和M个第二样本文本列表B＝(B₁，B₂，B₃，……，B_n)，B_j是指第j个第二样本文，j＝1……n，n为第二样本文本数量；

其中，在S100步骤之前还包括如下步骤确定样本文本：

S1、基于Q且每一所述待处理文本进行预处理，获取所述待处理文本对应的指定语句列表；

S2、将所有待处理文本作为指定训练集输入至学习模型中进行训练，获取任一待处理文本对应的语句向量集且当所述待处理文本对应的语句向量集中任一所述语句向量对应的概率值＜预设的第一概率阈值时，将所述待处理文本作为样本文本；

其中，在S2步骤之后，还包括如下步骤：

其中，F_q是指在第α个指定语句中第q个字符的概率值，p为第α个指定语句中字符数量，α＝1……β，β为任一待处理文本中指定语句数量；

S5、当F＜预设的第三概率阈值时，将F对应的所述待处理文本作为样本文本；

S200、将A发送至所有的标注端ID对应的标注端进行标注，获取A_i对应的M个第一标注文本同时，将B发送至单一所述标注端ID对应的标注端进行标注，B_j对应的第二标注文本以根据所有/>构建的第一标注文本列表作为第一训练集和所有/>构建的第二标注文本列表作为第二训练集；

S400、将第二训练集输入至预设的学习模型中，获取每一所述标注端ID的第二目标函数H_t(x)，t＝1……M，并根据所有H_t(x)，获取总目标函数H₀(x)，其中，H₀(x)符合如下条件：

其中，λ为标注端对应的权重列表；

2.根据权利要求1所述的用于标注文本的数据处理系统，其特征在于，在S1步骤中，所述指定语句列表中指定语句是指将所述待处理文本按照预设规则进行语句划分处理生成的语句。

3.根据权利要求1所述的用于标注文本的数据处理系统，其特征在于，在S2步骤中，还包括如下步骤确定语句向量：

获取任一指定语句对应的字符列表C＝(C₁，C₂，C₃，……，C_p)，C_q是指在所述指定语句中第q个字符，q＝1……p，p为字符数量；

将任一C输入至所述学习模型中，获取C_q对应的中间函数E_q(x)，以根据C_q对应的函数E_q(x)，确定出C_q对应的概率值F_q；

当F_q≥预设的第二概率阈值时，将C_q对应的标记为1；

当F_q＜预设的第二概率阈值时，将C_q对应的标记为0；

根据所有C_q对应的标记，获取指定语句。

4.根据权利要求1所述的用于标注文本的数据处理系统，其特征在于，所述第二样本文本是指在所有样本中除所述第一样本文本之外的其他样本文本。

5.根据权利要求1所述的用于标注文本的数据处理系统，其特征在于，不同所述标注端ID对应的B中所有第二样本文本不相同。

6.根据权利要求1所述的用于标注文本的数据处理系统，其特征在于，在S600步骤中，当所述目标文本对应的目标语句列表输入至所述已训练的目标学习模型时，所述已训练的目标学习模型中只具有H₀(x)。

7.根据权利要求1所述的用于标注文本的数据处理系统，其特征在于，所述目标文本是指在数据库中除待处理文本之外的其他任一原始文本。