CN113806565A - 一种文本标注的数据处理系统 - Google Patents

一种文本标注的数据处理系统 Download PDF

Info

Publication number
CN113806565A
CN113806565A CN202111369886.3A CN202111369886A CN113806565A CN 113806565 A CN113806565 A CN 113806565A CN 202111369886 A CN202111369886 A CN 202111369886A CN 113806565 A CN113806565 A CN 113806565A
Authority
CN
China
Prior art keywords
text
sample
texts
learning model
data processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111369886.3A
Other languages
English (en)
Other versions
CN113806565B (zh
Inventor
傅晓航
刘羽
张正义
林方
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Yuchen Technology Co Ltd
Original Assignee
Zhongke Yuchen Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongke Yuchen Technology Co Ltd filed Critical Zhongke Yuchen Technology Co Ltd
Priority to CN202111369886.3A priority Critical patent/CN113806565B/zh
Publication of CN113806565A publication Critical patent/CN113806565A/zh
Application granted granted Critical
Publication of CN113806565B publication Critical patent/CN113806565B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Library & Information Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种文本标注的数据处理系统,所述包括数据库、处理器和存储有计算机程序的存储器,当计算机程序被处理器执行时,实现步骤:获取第一样本文本对应的样本语句列表;将所有样本语句列表输入至预设的学习模型中进行训练,获取所有中间文本且从所有中间文本中获取若干个中间文本且划分成若干个中间文本列表,将中间文本列表每一发送至每一标注端ID对应的标注端,获取第二样本文本;将所有第二样本文本输入至学习模型中进行训练,得到已训练的学习模型,将目标语句列表作为预测集输入至已训练的学习模型中,得到目标文本对应的标注文本。本发明能够无需人员进行标注且对文本进行标注,提高文本标注的准确性和效率。

Description

一种文本标注的数据处理系统
技术领域
本发明涉及数据处理技术领域,尤其涉及一种文本标注的数据处理系统。
背景技术
随着时代的发展和无纸化办公技术的不断进步,人们生活中需要处理的电子文档越来越多,纸质文档占比则在渐渐降低。企业内的文档处理如果借助NLP相关技术则往往需要大量的文本标注工作用于模型训练,而在电子文档上完成这些操作则需要一种操作便捷、使用方便的标注系统。
当下热门的标注方式中,针对不同标注原对问题理解不一致的情况,通常采用多个标注员对同一数据进行反复标注,再通过投票的方式,决定出数据的标注结果,并且在标注时采取基于PDF文档解析后在文字上划选来完成标注,会导致多种弊端情况出现,例如无法在单层PDF上划选、无法对印章水印等内容进行标记、无法在文档上进行表格标注等,同时,也会出现标注错误或者漏标注的情况,并且影响到文本标注效率,此外,也无法对不同标注人员的准确性和差异性进行确定,因此,如何准确的对文本进行标注,提高文本标注的准确性和效率成为亟待解决的技术问题。
发明内容
本发明目的在于,提供一种文本标注的数据处理系统,通过对主动学习模型的训练,能够无需人员进行标注且对文本进行标注,提高文本标注的准确性和效率。
本发明一方面提供了一种文本标注的数据处理系统,所述系统包括:数据库、处理器和存储有计算机程序的存储器,其中,所述数据库包括N个文本和M个标注端ID,当所述计算机程序被处理器执行时,实现以下步骤:
S100、从数据库中获取n个文本均作为第一样本文本且对每一所述第一样本文本进行预处理,获取所述第一样本文本对应的样本语句列表A=(A1,A2,A3,……,Am),Aj为所述第一样本文本中第j个样本语句,j=1……m,m为样本语句数量;
S200、将所有A作为第一训练集输入至预设的学习模型中进行训练,获取A对应的样本向量集B=(B1,B2,B3,……,Bm),Bj是指Aj对应的语句向量且当任一Bj对应的概率值Fj<预设的第一概率阈值时,将B对应的第一样本文本作为中间文本;
S300、获取所有中间文本且从所有中间文本中获取若干个中间文本且划分成M个中间文本列表,并将每一所述中间文本列表D=(D1,D2,D3,……,DS),Dr是指第r个中间文本,r=1……s,s为每一所述标注端ID对应的中间文本数量且s≤n,发送至每一所述标注端ID对应的标注端,以使得所述标注端对Dr进行标注,将标注后的Dr作为第二样本文本;
S400、将所有第二样本文本作为第二训练集输入至所述学习模型中进行训练,得到已训练的学习模型;
S500、从所述数据库中N-n个文本均作为目标文本且对每一所述目标文本进行预处理,获取所述目标文本对应的目标语句列表,以所有的所述目标语句列表作为预测集输入至已训练的学习模型中,得到所述目标文本对应的标注文本。
本发明与现有技术相比具有明显的优点和有益效果。借由上述技术方案,本发明提供的一种文本标注的数据处理系统可达到相当的技术进步性及实用性,并具有产业上的广泛利用价值,其至少具有下列优点:
本发明通过获取不同的样本对标注端进行标注,进而获取准确的函数插入至学习模型中,能够避免了标注端出现的异常标注或者漏标注的情况,提高了文本标注的准确性;
同时通过获取若干个关键文本列表实现不同标注端ID对同一关键文本和不同关键文本进行标注,进而获取标注端对应的共性函数和差异函数,且插入至学习模型中,能够有效的提高了学习模型的准确性和效率,避免了出现标注端出现的异常标注或者漏标注的情况,提高了文本标注的准确性,且能够无需对同一数据进行反复标注,提高了标注的准确性
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
图1为本发明实施例一提供的文本标注的数据处理系统执行的数据处理方法的流程图;
图2为本发明实施例二提供的文本标注的数据处理系统执行的数据处理方法的流程图。
具体实施方式
为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种获取目标位置的数据处理系统的具体实施方式及其功效,详细说明如后。
本发明实施例提供了一种文本标注的数据处理系统,所述系统包括:数据库、处理器和存储有计算机程序的存储器,其中,所述数据库包括N个文本和M个标注端ID,当所述计算机程序被处理器执行时,实现以下步骤,如图1所示:
S100、从数据库中获取n个文本均作为第一样本文本且对每一所述第一样本文本进行预处理,获取所述第一样本文本对应的样本语句列表A=(A1,A2,A3,……,Am),Aj为所述第一样本文本中第j个样本语句,j=1……m,m为样本语句数量。
具体地,在S100步骤中,所述样本语句是指将所述第一样本文本按照预设规则进行语句划分处理生成的语句,其中,预设规则可为现有技术中任一规则,例如,所述第一样本文本按照标点符号进行语句划分处理生成的语句。
S200、将所有A作为第一训练集输入至预设的学习模型中进行训练,获取A对应的样本向量集B=(B1,B2,B3,……,Bm),Bj是指Aj对应的语句向量且当任一Bj对应的概率值Fj<预设的第一概率阈值时,将B对应的第一样本文本作为中间文本。
具体地,在S200步骤中,还包括如下步骤确定Bj
S201、获取Aj对应的字符列表(Aj1,Aj2,Aj3,……,Ajp),Ajq是指Aj中第q个字符,q=1……p,p为字符数量;
S203、将任一Aj对应的字符列表输入至所述学习模型中,获取Ajq对应的第一中间函数fq(x),以根据Ajq对应的函数fq(x),确定出Ajq对应的概率值Fjq,可以理解为:Ajq对应的函数fq(x)进行预设的数据处理,生成Ajq对应的概率值Fjq,其中fq(x)为768位的函数,即fq(x)为768位的矩阵,本领域技术人员可以根据现有的任一数据处理得到字符的概率值,在此不再赘述;
S205、当Fjq≥预设的第二概率阈值时,将Ajq对应的标记为1;
S207、当Fjq<预设的第二概率阈值时,将Ajq对应的标记为0;
S209、根据所有Ajq对应的标记,获取Bj
具体地,所述第二概率阈值的范围为50~60%,优选地,所述第二概率阈值为50%。
在一些实施例中,S205步骤和S207步骤中,当Fjq处于若干个预设概率阈值区间中的任一概率阈值区间,将Ajq对应的标记为所述预设概率阈值区间对应的标记值,其中,任一所述预设概率阈值区间为将0~100%阈值划分成若干个相等距离的区间中的一个,所述预设概率阈值区间对应的标记值可以根据预设概率阈值区间预先设置,在此不再赘述,能够优化语句向量,提高字符概率值的准确性,有利于确定是否标注准确,便有后续对学习模型的训练。
优选地,在S300步骤之前,还包括:
当任一Bj对应的概率值Fj≥所述第一概率阈值时,获取任一所述第一样本文本对应的概率值F,F符合如下条件:
Figure DEST_PATH_IMAGE001
当F<预设的第三概率阈值时,将F对应的所述第一样本文本作为中间文本。
上述实施例中在S300步骤之前实施的步骤:根据Bj对应的概率值Fj确定中间文本,并根据任一样本语句中所有字符的概率进行确定,一方面,避免标注语句的异常情况的发生,另一方面,能够对整体语句进行判断,避免出现语句判断错误,影响到文本标注。
S300、获取所有中间文本且从所有中间文本中获取若干个中间文本且划分成M个中间文本列表,并将每一所述中间文本列表D=(D1,D2,D3,……,DS),Dr是指第r个中间文本,r=1……s,s为每一所述标注端ID对应的中间文本数量且s≤n,发送至每一所述标注端ID对应的标注端,以使得所述标注端对Dr进行标注,将标注后的Dr作为第二样本文本。
具体地,在S300步骤中,每一所述标注端ID对应的标注端接收到的D中的中间文本数量一致;其中,所述标注端ID是指标注端的唯一识别码,所述标注端是指用于标注文本的用户端。
S400、将所有第二样本文本作为第二训练集输入至所述学习模型中进行训练,得到已训练的学习模型,能够基于标注后的文件对模型进行训练,避免了标注端出现的异常标注或者漏标注的情况,提高了文本标注的准确性。
具体地,在S400步骤中,还包括如下步骤:
S401、对每一所述第二样本文本进行预处理,获取所述第二样本文本对应的目标 语句列表
Figure 503136DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE003
为所述第二样本文本中第j个目标语句;
S403、获取`Aj对应的字符列表
Figure 132831DEST_PATH_IMAGE004
Figure DEST_PATH_IMAGE005
是指
Figure 604264DEST_PATH_IMAGE003
中第q个 字符;
S405、将任一
Figure 65332DEST_PATH_IMAGE003
对应的字符列表输入至所述学习模型中,获取
Figure 432860DEST_PATH_IMAGE005
对应的第二中间 函数hq(x),以根据
Figure 538133DEST_PATH_IMAGE005
对应的函数hq(x)与
Figure 891885DEST_PATH_IMAGE005
对应的fq(x),对所述学习模型中进行训练,得 到已训练的学习模型。
具体地,在S401步骤中,可以理解为:同一所述第二样本文本是有不同的所述标注端ID对应的标注端进行标注生成的文本。
优先地,第二样本文本和第一样本文本采取相同的预设规则进行语句划分,在此不再赘述。
优先地,hq(x)为fq(x)的可逆函数,能有有效的将样本语句对应的函数转化成向量,便于生成对应的概率值。
S500、从所述数据库中N-n个文本均作为目标文本且对每一所述目标文本进行预处理,获取所述目标文本对应的目标语句列表,以所有的所述目标语句列表作为预测集输入至已训练的学习模型中,得到所述目标文本对应的标注文本。
具体地,所述目标文本为数据库中除第一样本文本之外的文本,所述目标文本与所述第一样本文本采取相同的预设规则进行语句划分,在此不再赘述。
实施例一提供了一种文本标注的数据处理系统,通过获取不同的样本对标注端进行标注,进而获取准确的函数插入至学习模型中,能够避免了标注端出现的异常标注或者漏标注的情况,提高了文本标注的准确性。
在另一个具体的实施例中,当所述计算机程序被处理器执行时,实现以下步骤,如图2所示:
S1、获取第一关键文本列表a=(a1,a2,a3,……,aθ),aβ是指第β个第一关键文本,β=1……θ,θ为第一关键文本数量,和M个第二关键文本列表b=(b1,b2,b3,……,bλ),bγ是指第γ个第二样本文,γ=1……λ,λ为第二关键文本数量。
具体地,所述第二关键文本是指在所有样本中除所述第一关键文本之外的其他关键文本,其中,所述第一关键文本和所述第二关键文本从数据库存储的关键文本中获取的,可以理解为,所述关键文本是基于实施例一中S100-S200步骤进行确定的中间文本,在此不再赘述。
S3、将a发送至所有标注端ID对应的标注端进行标注,获取aβ对应的M个第一标注 文本
Figure 332093DEST_PATH_IMAGE006
,同时,将b发送至单一所述标注端ID对应的标注端进行标注,bγ对应的第二标注文 本
Figure DEST_PATH_IMAGE007
,以根据所有aβ构建的第一标注文本列表作为第一目标训练集和所有
Figure 542626DEST_PATH_IMAGE007
构建的第二 标注文本列表作为第二目标训练集,可以理解为:a为所有标注端ID对应的标注端均处理的 文本列表,而每一b为单一标注端ID对应的标注端处理的文本列表,能够获取不同标注端对 文本进行标注的共性特征和不同标注端对文本进行标注的差异特征,有利于训练模型,进 而提高文本标注的准确性和效率。
具体地,不同所述标注端ID对应的b中所有第二关键文本不相同,可以理解为:任一所述标注端ID对应的b中所有第二关键文本,与其他的M-1个所述标注端ID对应的b中所有第二关键文本均不一致,能够获取不同标注端对文本进行标注的差异特征,有利于训练模型,进而提高文本标注的准确性和效率。
S5、将第一关键训练集输入至预设的学习模型中,获取所有标注端ID的第一目标函数T(x),可以理解为:T(x)用于表征标注端差异的函数。
S7、将第二关键训练集输入至预设的学习模型中,获取每一所述标注端ID的第二目标函数Ht(x),t=1……M,并根据所有Ht(x),获取总目标函数H0(x),其中,H0(x)符合如下条件:
Figure 209231DEST_PATH_IMAGE008
,其中,λ为标注端对应的权重列表,可以理解为:H0(x)用 于表征标注端共性的函数,且λ=(λ1,λ2,λ3,λ4,……,λM),λt是指第t个标注端对应的权重值, t=1……M,M为标注端数量。其中,所述权重值根据所述标注端的优先等级进行确定,λt的取 值范围为1~5,λ包括W1、W2、W3、W4和W5,其中,W1、W2、W3、W4和W5分别对应所述标注端的五个优 先等级且W1≤W2≤W3≤W4≤W5,能够对不优先级不同的标注端附加不同的权重,有利于训练 模型,进而提高文本标注的准确性和效率,优先地,λ12=λ3=λ4=……=λM
具体地,S5中T(x)和S7中Ht(x)为相同位数的矩阵函数。
S9、根据T(x)和H0(x)插入至所述学习模型,得到目标学习模型,以从数据库中获取η个目标关键文本作为目标训练集输入至所述目标学习模型中进行训练,得到已训练的目标学习模型。
具体地,所述目标关键文本是指在数据库中除第一关键文本和第二关键文本之外的其他关键文本。
在一些具体的实施例中,对T(x)和Ht(x)进行处理,获取
Figure DEST_PATH_IMAGE009
Figure 163411DEST_PATH_IMAGE010
,其中,
Figure DEST_PATH_IMAGE011
Figure 677700DEST_PATH_IMAGE012
,W为预设概率阈值区间数量,并将
Figure 387030DEST_PATH_IMAGE009
Figure 134407DEST_PATH_IMAGE010
插 入至所述学习模型,得到目标学习模型,以从数据库中获取η个目标关键文本作为目标训练 集输入至所述目标学习模型中进行训练,得到已训练的目标学习模型。
S11、获取目标文本且对每一所述目标文本进行预处理,得到所述目标文本对应的目标语句列表,以将所述目标语句列表输入至已训练的目标学习模型中,获取所述目标文本对应的标注文本。
具体地,所述目标文本的预处理参照实施例一中S600步骤,在此不再赘述。
具体地,在S11步骤中,当所述目标文本对应的目标语句列表输入至所述已训练的目标学习模型时,所述已训练的目标学习模型中只具有H0(x),能够优化不同标注端对文本标注的差异性,避免了出现标注端出现的异常标注或者漏标注的情况,提高了文本标注的准确性。
实施例二提供通过获取若干个关键文本列表实现不同标注端ID对同一关键文本和不同关键文本进行标注,进而获取标注端对应的共性函数和差异函数,且插入至学习模型中,能够有效的提高了学习模型的准确性和效率,避免了出现标注端出现的异常标注或者漏标注的情况,提高了文本标注的准确性,且能够无需对同一数据进行反复标注,提高了标注的准确性。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (10)

1.一种文本标注的数据处理系统,其特征在于,所述系统包括:数据库、处理器和存储有计算机程序的存储器,其中,所述数据库包括N个文本和M个标注端ID,当所述计算机程序被处理器执行时,实现以下步骤:
S100、从数据库中获取n个文本均作为第一样本文本且对每一所述第一样本文本进行预处理,获取所述第一样本文本对应的样本语句列表A=(A1,A2,A3,……,Am),Aj为所述第一样本文本中第j个样本语句,j=1……m,m为样本语句数量;
S200、将所有A作为第一训练集输入至预设的学习模型中进行训练,获取A对应的样本向量集B=(B1,B2,B3,……,Bm),Bj是指Aj对应的语句向量且当任一Bj对应的概率值Fj<预设的第一概率阈值时,将B对应的第一样本文本作为中间文本;
S300、获取所有中间文本且从所有中间文本中获取若干个中间文本且划分成M个中间文本列表,并将每一所述中间文本列表D=(D1,D2,D3,……,DS),Dr是指第r个中间文本,r=1……s,s为每一所述标注端ID对应的中间文本数量且s≤n,发送至每一所述标注端ID对应的标注端,以使得所述标注端对Dr进行标注,将标注后的Dr作为第二样本文本;
S400、将所有第二样本文本作为第二训练集输入至所述学习模型中进行训练,得到已训练的学习模型;
S500、从所述数据库中N-n个文本均作为目标文本且对每一所述目标文本进行预处理,获取所述目标文本对应的目标语句列表,以所有的所述目标语句列表作为预测集输入至已训练的学习模型中,得到所述目标文本对应的标注文本。
2.根据权利要求1所述的文本标注的数据处理系统,其特征在于,在S100步骤中,所述样本语句是指将所述第一样本文本按照预设规则进行语句划分处理生成的语句。
3.根据权利要求1所述的文本标注的数据处理系统,其特征在于,在S200步骤中,还包括如下步骤确定Bj
获取Aj对应的字符列表(Aj1,Aj2,Aj3,……,Ajp),Ajq是指Aj中第q个字符,q=1……p,p为字符数量;
将任一Aj对应的字符列表输入至所述学习模型中,获取Ajq对应的第一中间函数fq(x),以根据Ajq对应的函数fq(x),确定出Ajq对应的概率值Fjq
当Fjq≥预设的第二概率阈值时,将Ajq对应的标记为1;
当Fjq<预设的第二概率阈值时,将Ajq对应的标记为0;
根据所有Ajq对应的标记,获取Bj
4.根据权利要求3所述的文本标注的数据处理系统,其特征在于,fq(x)为768位的函数。
5.根据权利要求1所述的文本标注的数据处理系统,其特征在于,在S300步骤之前,还包括:
当任一Bj对应的概率值Fj≥所述第一概率阈值时,获取任一所述第一样本文本对应的概率值F,F符合如下条件:
Figure 646984DEST_PATH_IMAGE001
当F<预设的第三概率阈值时,将F对应的所述第一样本文本作为中间文本。
6.根据权利要求1所述的文本标注的数据处理系统,其特征在于,在S300步骤中,每一所述标注端ID对应的标注端接收到的D中的中间文本数量一致。
7.根据权利要求1所述的文本标注的数据处理系统,其特征在于,在S400步骤中,还包括如下步骤:
S401、对每一所述第二样本文本进行预处理,获取所述第二样本文本对应的目标语句 列表
Figure DEST_PATH_IMAGE002
Figure 173912DEST_PATH_IMAGE003
为所述第二样本文本中第j个目标语句;
S403、获取
Figure 189534DEST_PATH_IMAGE003
对应的字符列表
Figure DEST_PATH_IMAGE004
Figure 268566DEST_PATH_IMAGE005
是指
Figure 630409DEST_PATH_IMAGE003
中第q个字符;
S405、将任一
Figure 390554DEST_PATH_IMAGE003
对应的字符列表输入至所述学习模型中,获取
Figure 595271DEST_PATH_IMAGE005
对应的第二中间函数 hq(x),以根据
Figure 951428DEST_PATH_IMAGE005
对应的函数hq(x)与
Figure 823569DEST_PATH_IMAGE005
对应的fq(x),对所述学习模型中进行训练,得到已 训练的学习模型。
8.根据权利要求7所述的文本标注的数据处理系统,其特征在于,第二样本文本和第一样本文本采取相同的预设规则进行语句划分。
9.根据权利要求1所述的文本标注的数据处理系统,其特征在于,hq(x)为fq(x)的可逆函数。
10.根据权利要求1所述的文本标注的数据处理系统,其特征在于,
所述目标文本与所述第一样本文本采取相同的预设规则进行语句划分。
CN202111369886.3A 2021-11-18 2021-11-18 一种文本标注的数据处理系统 Active CN113806565B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111369886.3A CN113806565B (zh) 2021-11-18 2021-11-18 一种文本标注的数据处理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111369886.3A CN113806565B (zh) 2021-11-18 2021-11-18 一种文本标注的数据处理系统

Publications (2)

Publication Number Publication Date
CN113806565A true CN113806565A (zh) 2021-12-17
CN113806565B CN113806565B (zh) 2022-03-25

Family

ID=78938347

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111369886.3A Active CN113806565B (zh) 2021-11-18 2021-11-18 一种文本标注的数据处理系统

Country Status (1)

Country Link
CN (1) CN113806565B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114792085A (zh) * 2022-06-22 2022-07-26 中科雨辰科技有限公司 一种标注文本纠错的数据处理系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110327A (zh) * 2019-04-26 2019-08-09 网宿科技股份有限公司 一种基于对抗学习的文本标注方法和设备
CN110807086A (zh) * 2019-10-08 2020-02-18 腾讯科技(深圳)有限公司 文本数据标注方法及装置、存储介质、电子设备
CN111783518A (zh) * 2020-05-14 2020-10-16 北京三快在线科技有限公司 训练样本生成方法、装置、电子设备及可读存储介质
WO2021174864A1 (zh) * 2020-03-03 2021-09-10 平安科技(深圳)有限公司 基于少量训练样本的信息抽取方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110327A (zh) * 2019-04-26 2019-08-09 网宿科技股份有限公司 一种基于对抗学习的文本标注方法和设备
CN110807086A (zh) * 2019-10-08 2020-02-18 腾讯科技(深圳)有限公司 文本数据标注方法及装置、存储介质、电子设备
WO2021174864A1 (zh) * 2020-03-03 2021-09-10 平安科技(深圳)有限公司 基于少量训练样本的信息抽取方法及装置
CN111783518A (zh) * 2020-05-14 2020-10-16 北京三快在线科技有限公司 训练样本生成方法、装置、电子设备及可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114792085A (zh) * 2022-06-22 2022-07-26 中科雨辰科技有限公司 一种标注文本纠错的数据处理系统
CN114792085B (zh) * 2022-06-22 2022-09-16 中科雨辰科技有限公司 一种标注文本纠错的数据处理系统

Also Published As

Publication number Publication date
CN113806565B (zh) 2022-03-25

Similar Documents

Publication Publication Date Title
CN109902307B (zh) 命名实体识别方法、命名实体识别模型的训练方法及装置
CN111222305B (zh) 一种信息结构化方法和装置
WO2022105122A1 (zh) 基于人工智能的答案生成方法、装置、计算机设备及介质
EP3358471A1 (en) Systems and methods for assessing quality of input text using recurrent neural networks
US9830314B2 (en) Error correction in tables using a question and answer system
CN109918640B (zh) 一种基于知识图谱的中文文本校对方法
JP7149721B2 (ja) 情報処理装置、文字認識エンジン最適化方法及びプログラム
CN115048925B (zh) 一种确定异常文本的数据处理系统
CN113761880B (zh) 一种用于文本校验的数据处理方法、电子设备及存储介质
CN113806565B (zh) 一种文本标注的数据处理系统
CN115169319B (zh) 一种识别符号的数据处理系统
WO2024045527A1 (zh) 词句的纠错方法、装置、可读存储介质和计算机程序产品
CN112257444B (zh) 金融信息负面实体发现方法、装置、电子设备及存储介质
EP4057193A1 (en) Method and system for identifying mislabeled data samples using adversarial attacks
US10331789B2 (en) Semantic analysis apparatus, method, and non-transitory computer readable storage medium thereof
CN110705281B (zh) 一种基于机器学习的简历信息抽取方法
WO2022105181A1 (zh) 结构化三元组的纠错方法、装置、计算机设备及存储介质
CN111859854A (zh) 一种数据标注方法、装置、设备及计算机可读存储介质
CN114595661A (zh) 用于评审投标文件的方法、设备和介质
CN108415971B (zh) 采用知识图谱推荐供求信息的方法和装置
CN115129951B (zh) 一种获取目标语句的数据处理系统
CN114547232A (zh) 一种低标注成本的嵌套实体识别方法及系统
CN114020877A (zh) 一种用于标注文本的数据处理系统
CN115935964A (zh) 一种招标文件文本内容纠错方法
CN117709334A (zh) 文本纠错方法及装置、存储介质和服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant