CN115238702A - 一种实体库处理方法及存储介质 - Google Patents

一种实体库处理方法及存储介质 Download PDF

Info

Publication number
CN115238702A
CN115238702A CN202211148098.6A CN202211148098A CN115238702A CN 115238702 A CN115238702 A CN 115238702A CN 202211148098 A CN202211148098 A CN 202211148098A CN 115238702 A CN115238702 A CN 115238702A
Authority
CN
China
Prior art keywords
entity
text
library
num
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211148098.6A
Other languages
English (en)
Other versions
CN115238702B (zh
Inventor
刘羽
杨波
秦克良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Yuchen Technology Co Ltd
Original Assignee
Zhongke Yuchen Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongke Yuchen Technology Co Ltd filed Critical Zhongke Yuchen Technology Co Ltd
Priority to CN202211148098.6A priority Critical patent/CN115238702B/zh
Publication of CN115238702A publication Critical patent/CN115238702A/zh
Application granted granted Critical
Publication of CN115238702B publication Critical patent/CN115238702B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及电数字数据处理技术领域,特别是涉及一种实体库处理方法及存储介质,所述方法包括以下步骤:利用实体库对未标注文本库进行实体类型标注,得到text;遍历text,如果对texti,j的实体类型标注结果有误,则将修正后的texti,j追加到Textnew;利用Textnew对预训练模型进行训练,得到经训练的模型;利用经训练的模型对未标注文本库进行预测,得到T;遍历num,如果实体库中实体类型为typex的实体不包含Entx,y且numx,y满足第一预设条件,则将Entx,y追加到实体库。本发明提高了对未标注文本库标注的全面性。

Description

一种实体库处理方法及存储介质
技术领域
本发明涉及电数字数据处理技术领域,特别是涉及一种实体库处理方法及存储介质。
背景技术
在实际的应用场景中,可能会出现这样的情况:未标注文本库没有进行实体类型标注,但是有这样的一个实体库,实体库中记录着一定数量的实体以及这些实体对应的实体类型;弱监督标注的方法是将实体库与未标注文本库进行匹配,如果未标注文本库中某个实体与实体库中的某个实体匹配,则将未标注文本库中该实体标注为该实体在实体库中对应的实体类型。
但是弱监督标注的方法存在这样一个问题:实体库中某些实体类型包括的实体并不全,只是列出了属于这些实体类型的一些实体,而未标注文本库中可能存在一些属于这些实体类型但并没有出现在实体库中的实体,所以按照上述的弱监督标注方法并不会将未标注文本库中的这些实体标注为对应的实体类型,存在标注不全面的问题。如何提高对未标注文本库标注的全面性,是亟待解决的技术问题。
发明内容
本发明目的在于,提供一种实体库处理方法及存储介质,提高了对未标注文本库标注的全面性。
根据本发明的第一方面,提供了一种实体库处理方法,包括以下步骤:
S100,利用实体库对未标注文本库进行实体类型标注,得到text={text1,text2,…,texti,…,textN},texti={texti,1,texti,2,…,texti,j,…,texti,Mi},texti,j为对未标注文本库中第j个与entityi匹配的文本进行标注后的文本,j的取值范围是1到Mi,Mi为未标注文本库中与entityi匹配的文本的总数量,entityi为实体库中第i个与未标注文本库匹配的实体,i的取值范围为1到N,N为实体库中与未标注文本库匹配的实体的总数量。
S200,遍历text,如果对texti,j的实体类型标注结果有误,则将修正后的texti,j追加到Textnew;如果对texti,j的实体类型标注结果无误,则将texti,j追加到Textnew;Textnew的初始化为Null。
S300,利用Textnew对预训练模型进行训练,得到经训练的模型。
S400,利用经训练的模型对未标注文本库进行预测,得到带实体类型标注的文本库T。
S500,获取num={num1,num2,…,numx,…,numP},numx={numx,1,numx,2,...,numx,y,...,numx,Qx},numx,y为T中Entx,y被标注为typex的次数,Entx,y为T中第y个被标注为typex的实体,typex为实体库中的第x个实体类型;x的取值范围为1到P,P为实体库中实体类型的总数量,y的取值范围为1到Qx,Qx为T中被标注为typex的实体的总数量。
S600,遍历num,如果实体库中实体类型为typex的实体不包含Entx,y且numx,y满足第一预设条件,则将Entx,y追加到实体库;所述第一预设条件包括:numx,y≥n0,n0为预设次数阈值。
本发明与现有技术相比具有明显的有益效果,借由上述技术方案,本发明提供的实体库处理方法及存储介质可达到相当的技术进步性及实用性,并具有产业上的广泛利用价值,其至少具有以下有益效果:
本发明对text中实体类型标注有误的文本进行了修正,得到了准确率较高的带有实体类型标注的文本;基于这些文本,本发明对预训练模型进行了训练,得到的经训练的模型可以更准确地对未标注文本库中实体的实体类型进行预测,由此,可以得到一些出现在T中、未出现在实体库中且实体类型为实体库中实体类型的实体,当这些实体在T中出现的次数超过n0时即可将这些实体追加到实体库中,实现对实体库的扩充。由此,再利用扩充后的实体库和经训练的模型对未标注文本库标注时,就可以得到标注较为全面的标注结果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的实体库处理方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
根据本发明的第一方面,提供了一种实体库处理方法,如图1所示,包括以下步骤:
S100,利用实体库对未标注文本库进行实体类型标注,得到text={text1,text2,…,texti,…,textN},texti={texti,1,texti,2,…,texti,j,…,texti,Mi},texti,j为对未标注文本库中第j个与entityi匹配的文本进行标注后的文本,j的取值范围是1到Mi,Mi为未标注文本库中与entityi匹配的文本的总数量,entityi为实体库中第i个与未标注文本库匹配的实体,i的取值范围为1到N,N为实体库中与未标注文本库匹配的实体的总数量。
根据本发明,未标注文本库中包括多个文本,这些文本都是未标注的文本。可选的,实体库包括两列内容,第一列为实体,第二列为对应实体的实体类型。实体库中实体与未标注文本库匹配指的是实体库中实体出现在了未标注文本库中。未标注文本库中某个文本与实体库中实体匹配指的是未标注文本库的该文本中出现了实体库中的实体。
可选的,利用实体库对未标注文本库进行实体类型标注的方法包括:
将实体库与未标注文本库进行匹配,如果未标注文本库中某个实体与实体库中的某个实体匹配,则将未标注文本库中该实体标注为该实体在实体库中对应的实体类型。
S200,遍历text,如果对texti,j的实体类型标注结果有误,则将修正后的texti,j追加到Textnew;如果对texti,j的实体类型标注结果无误,则将texti,j追加到Textnew;Textnew的初始化为Null。
应当理解的是,对texti,j的实体类型标注结果有误指的是:texti,j中出现了属于实体库中实体类型的实体,但是该实体没有被标注为正确的实体类型。例如,texti,j中出现了cow,其属于动物实体类型,但由于实体库中动物实体类型中并不包括cow实体,导致texti,j中出现的cow没有被标注为动物实体类型。
可选的,利用人工的方式对texti,j的实体类型标注结果是否有误进行判断,以及在判断出有误之后对texti,j进行修正。
本领域技术人员知悉,使用现有技术中任何对标注结果进行修正的方法对实体类型标注有误的texti,j进行修正均落入本发明的保护范围。
S300,利用Textnew对预训练模型进行训练,得到经训练的模型。
可选的,预训练模型为以BERT为代表的预训练模型。
本领域技术人员知悉,将Textnew作为训练样本,使用现有技术中任何对模型进行训练的方法对预训练模型进行训练均落入本发明的保护范围。
应当理解的是,经训练的模型相较于预训练模型能够更准确地对未标注实体库进行实体类型标注。
S400,利用经训练的模型对未标注文本库进行预测,得到带实体类型标注的文本库T。
根据本发明,经训练的模型具有判断文本中实体的实体类型的功能,由此,将未标注文本库作为经训练的模型的输入,根据经训练的模型的输出可以得到带实体类型标注的文本库T。
S500,获取num={num1,num2,…,numx,…,numP},numx={numx,1,numx,2,...,numx,y,...,numx,Qx},numx,y为T中Entx,y被标注为typex的次数,Entx,y为T中第y个被标注为typex的实体,typex为实体库中的第x个实体类型;x的取值范围为1到P,P为实体库中实体类型的总数量,y的取值范围为1到Qx,Qx为T中被标注为typex的实体的总数量。
作为本发明的第一实施例,实体库中第2个实体类型为动物实体类型,T中被标注为动物实体类型的实体的总数量为3,其中第1个被标注为动物实体类型的为dog,且T中dog被标注为动物实体类型的次数为12;第2个被标注为动物实体类型的为cat,且T中cat被标注为动物实体类型的次数为25;第3个被标注为动物实体类型的为chicken,且T中chicken被标注为动物实体类型的次数为8,那么num2={12,25,8}。
根据本发明,获取numx,y包括:
遍历T,如果Entx,y被标注为typex,则更新numx,y为numx,y+1;如果Entx,y未被标注为typex,则不对numx,y进行更新;numx,y的初始值为0。
作为本发明的第二实施例,T中共出现了10次Entx,y,但只有第1-3和5-9次出现的Entx,y被标注为typex,在遍历T的过程中,从开始遍历T至第1次出现Entx,y,numx,y更新为0+1;从第1次出现Entx,y至第2次出现Entx,y,numx,y更新为1+1;从第2次出现Entx,y至第3次出现Entx,y,numx,y更新为2+1;从第3次出现Entx,y至第4次出现Entx,y,numx,y保持为3;从第4次出现Entx,y至第5次出现Entx,y,numx,y更新为3+1;以此类推,从第8次出现Entx,y至第9次出现Entx,y,numx,y更新为7+1;从第9次出现Entx,y至第10次出现Entx,y,numx,y保持为8。可以理解的是,遍历T后numx,y=8。
S600,遍历num,如果实体库中实体类型为typex的实体不包含Entx,y且numx,y满足第一预设条件,则将Entx,y追加到实体库;所述第一预设条件包括:numx,y≥n0,n0为预设次数阈值。
根据本发明,如果实体库中第x个实体类型中包含Entx,y或numx,y不满足第一预设条件,则不将Entx,y追加到实体库。
优选的,n0≥5。经小规模实验表明,n0的值设置在n0≥5范围内时本发明利用追加后的实体库对未标注文本库标注的准确性较高。
优选的,第一预设条件还包括:numx,y/Nx,y≥k,k为预设占比阈值,Nx,y为T中Entx,y出现的次数。本发明还设置了预设占比阈值,只有当T中Entx,y被标注为typex的次数与T中Entx,y出现的次数的比值大于预设占比阈值时,才考虑将Entx,y追加到实体库,本发明避免了由于经训练的模型对Entx,y实体类型的误判而误将Entx,y追加到实体库的情形,提高了利用追加后的实体库对未标注文本库标注的准确性。
优选的,k≥0.3。经小规模实验表明,k的值设置在k≥0.3范围内时本发明利用追加后的实体库对未标注文本库标注的准确性较高。
作为本发明的第三实施例,实体库中实体类型为NLP model实体类型的实体有transformer和BERT,并不包括ELMO;但T中ELMO出现了420次,并且T中ELMO被标注为NLPmodel实体类型的次数为400次,可见,T中ELMO被标注为NLP model实体类型的次数满足第一预设条件,由此,可将ELMO追加至实体库,并且追加后的实体库中ELMO为NLP model实体类型。
作为本发明的第四实施例,实体库中实体类型为NLP model实体类型的实体有transformer和BERT,并不包括car;但T中car出现了100次,并且T中car被标注为NLP model实体类型的次数为4次,可见,T中ELMO被标注为NLP model实体类型的次数并不满足第一预设条件,由此,无需将car追加至实体库。
根据本发明,将Entx,y追加到实体库后,还包括:
S610,利用追加后的实体库对未标注文本库进行实体类型标注,得到标注后的文本库。
S620,对标注后的文本库中实体类型标注有误的文本进行修正,得到修正后的文本库。
S630,利用修正后的文本库对经训练的模型进行训练,得到再训练的模型。
S640,利用再训练的模型对未标注文本库进行预测,得到再标注的文本库。
S650,获取num1={num1 1,num1 2,…,num1 x1,…,num1 P1},num1 x1={num1 x1,1,num1 x1,2,...,num1 x1,y1,...,num1 x1,Qx1},num1 x1,y1为再标注的文本库中Entx1,y1被标注为type1 x1的次数,Entx1,y1为再标注的文本库中第y1个被标注为type1 x1的实体,type1 x1为追加后的实体库中的第x1个实体类型;x1的取值范围为1到P1,P1为追加后的实体库中实体类型的总数量,y1的取值范围为1到Qx1,Qx1为再标注的文本库中被标注为type1 x1的实体的总数量。
应当理解的是,本发明追加后的实体库相较于之前的实体库只是增加了实体库中实体的数量,并没有改变实体库中实体类型的总数量,因此,P1=P。
S660,遍历num1,如果追加后的实体库中实体类型为type1 x1的实体不包含Entx1,y1且num1 x1,y1满足第二预设条件,则将Entx1,y1追加到追加后的实体库,并重复步骤S610-S660,直至没有实体被追加到追加后的实体库;所述第二预设条件包括:num1 x1,y1≥n0
本发明在得到追加后的实体库和经训练的模型之后,又基于追加后的实体库和经训练的模型执行了步骤S610-S660,应当理解的是,S610-S660与S100-S600的区别在于:步骤S610、S650和S660中利用的是追加后的实体库;S630中是对经训练的模型进行训练,得到的是再训练的模型;S640中利用的是再训练的模型对未标注文本库进行预测。经过步骤S610-S660,本发明的实体库越来越丰富,进行预测的模型对实体类型判断的准确性也越来越高,由此,本发明对未标注文本库标注的全面性和准确性也均有所提高。
本发明实施例还提供了一种非瞬时性计算机可读存储介质,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行本发明实施例所述的方法。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明的范围由所附权利要求来限定。

Claims (10)

1.一种实体库处理方法,其特征在于,包括以下步骤:
S100,利用实体库对未标注文本库进行实体类型标注,得到text={text1,text2,…,texti,…,textN},texti={texti,1,texti,2,…,texti,j,…,texti,Mi},texti,j为对未标注文本库中第j个与entityi匹配的文本进行标注后的文本,j的取值范围是1到Mi,Mi为未标注文本库中与entityi匹配的文本的总数量,entityi为实体库中第i个与未标注文本库匹配的实体,i的取值范围为1到N,N为实体库中与未标注文本库匹配的实体的总数量;
S200,遍历text,如果对texti,j的实体类型标注结果有误,则将修正后的texti,j追加到Textnew;如果对texti,j的实体类型标注结果无误,则将texti,j追加到Textnew;Textnew的初始化为Null;
S300,利用Textnew对预训练模型进行训练,得到经训练的模型;
S400,利用经训练的模型对未标注文本库进行预测,得到带实体类型标注的文本库T;
S500,获取num={num1,num2,…,numx,…,numP},numx={numx,1,numx,2,...,numx,y,...,numx,Qx},numx,y为T中Entx,y被标注为typex的次数,Entx,y为T中第y个被标注为typex的实体,typex为实体库中的第x个实体类型;x的取值范围为1到P,P为实体库中实体类型的总数量,y的取值范围为1到Qx,Qx为T中被标注为typex的实体的总数量;
S600,遍历num,如果实体库中实体类型为typex的实体不包含Entx,y且numx,y满足第一预设条件,则将Entx,y追加到实体库;所述第一预设条件包括:numx,y≥n0,n0为预设次数阈值。
2.根据权利要求1所述的方法,其特征在于,S600中,所述第一预设条件还包括:numx,y/Nx,y≥k,k为预设占比阈值,Nx,y为T中Entx,y出现的次数。
3.根据权利要求2所述的方法,其特征在于,S600中,k≥0.3。
4.根据权利要求1所述的方法,其特征在于,S600中,将Entx,y追加到实体库后,还包括:
S610,利用追加后的实体库对未标注文本库进行实体类型标注,得到标注后的文本库;
S620,对标注后的文本库中实体类型标注有误的文本进行修正,得到修正后的文本库;
S630,利用修正后的文本库对经训练的模型进行训练,得到再训练的模型;
S640,利用再训练的模型对未标注文本库进行预测,得到再标注的文本库;
S650,获取num1={num1 1,num1 2,…,num1 x1,…,num1 P1},num1 x1={num1 x1,1,num1 x1,2,...,num1 x1,y1,...,num1 x1,Qx1},num1 x1,y1为再标注的文本库中Entx1,y1被标注为type1 x1的次数,Entx1,y1为再标注的文本库中第y1个被标注为type1 x1的实体,type1 x1为追加后的实体库中的第x1个实体类型;x1的取值范围为1到P1,P1为追加后的实体库中实体类型的总数量,y1的取值范围为1到Qx1,Qx1为再标注的文本库中被标注为type1 x1的实体的总数量;
S660,遍历num1,如果追加后的实体库中实体类型为type1 x1的实体不包含Entx1,y1且num1 x1,y1满足第二预设条件,则将Entx1,y1追加到追加后的实体库,并重复步骤S610-S660,直至没有实体被追加到追加后的实体库;所述第二预设条件包括:num1 x1,y1≥n0
5.根据权利要求1所述的方法,其特征在于,S600中,n0≥5。
6.根据权利要求1所述的方法,其特征在于,所述实体库包括两列,第一列为实体的名称,第二列为实体对应的实体类型。
7.根据权利要求1所述的方法,其特征在于,S300中,预训练模型为BERT模型。
8.根据权利要求1所述的方法,其特征在于,S500中,获取numx,y包括:
遍历T,如果Entx,y被标注为typex,则更新numx,y为numx,y+1;如果Entx,y未被标注为typex,则不对numx,y进行更新;numx,y的初始值为0。
9.根据权利要求1所述的方法,其特征在于,S600中,如果实体库中第x个实体类型中包含Entx,y或numx,y不满足第一预设条件,则不将Entx,y追加到实体库。
10.一种非瞬时性计算机可读存储介质,所述存储介质中存储有至少一条指令或至少一段程序,其特征在于,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-9中任意一项的所述方法。
CN202211148098.6A 2022-09-21 2022-09-21 一种实体库处理方法及存储介质 Active CN115238702B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211148098.6A CN115238702B (zh) 2022-09-21 2022-09-21 一种实体库处理方法及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211148098.6A CN115238702B (zh) 2022-09-21 2022-09-21 一种实体库处理方法及存储介质

Publications (2)

Publication Number Publication Date
CN115238702A true CN115238702A (zh) 2022-10-25
CN115238702B CN115238702B (zh) 2022-12-06

Family

ID=83680587

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211148098.6A Active CN115238702B (zh) 2022-09-21 2022-09-21 一种实体库处理方法及存储介质

Country Status (1)

Country Link
CN (1) CN115238702B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116049447A (zh) * 2023-03-24 2023-05-02 中科雨辰科技有限公司 一种基于知识库的实体链接系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102682763A (zh) * 2011-03-10 2012-09-19 北京三星通信技术研究有限公司 修正语音输入文本中命名实体词汇的方法、装置及终端
WO2014084712A1 (en) * 2012-11-29 2014-06-05 Mimos Berhad A system and method for automated generation of contextual revised knowledge base
CN108491373A (zh) * 2018-02-01 2018-09-04 北京百度网讯科技有限公司 一种实体识别方法及系统
CN113822026A (zh) * 2021-09-10 2021-12-21 神思电子技术股份有限公司 一种多标签实体标注方法
CN114118092A (zh) * 2021-12-03 2022-03-01 东南大学 一种快速启动的交互式关系标注与抽取框架

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102682763A (zh) * 2011-03-10 2012-09-19 北京三星通信技术研究有限公司 修正语音输入文本中命名实体词汇的方法、装置及终端
WO2014084712A1 (en) * 2012-11-29 2014-06-05 Mimos Berhad A system and method for automated generation of contextual revised knowledge base
CN108491373A (zh) * 2018-02-01 2018-09-04 北京百度网讯科技有限公司 一种实体识别方法及系统
CN113822026A (zh) * 2021-09-10 2021-12-21 神思电子技术股份有限公司 一种多标签实体标注方法
CN114118092A (zh) * 2021-12-03 2022-03-01 东南大学 一种快速启动的交互式关系标注与抽取框架

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116049447A (zh) * 2023-03-24 2023-05-02 中科雨辰科技有限公司 一种基于知识库的实体链接系统
CN116049447B (zh) * 2023-03-24 2023-06-13 中科雨辰科技有限公司 一种基于知识库的实体链接系统

Also Published As

Publication number Publication date
CN115238702B (zh) 2022-12-06

Similar Documents

Publication Publication Date Title
CN110717039B (zh) 文本分类方法和装置、电子设备、计算机可读存储介质
CN111222317A (zh) 序列标注方法、系统和计算机设备
US11157686B2 (en) Text sequence segmentation method, apparatus and device, and storage medium thereof
CN111651983B (zh) 一种基于自训练与噪声模型的因果事件抽取方法
CN111666427A (zh) 一种实体关系联合抽取方法、装置、设备及介质
WO2022116445A1 (zh) 文本纠错模型建立方法、装置、介质及电子设备
WO2019075967A1 (zh) 企业名称识别方法、电子设备及计算机可读存储介质
CN115238702B (zh) 一种实体库处理方法及存储介质
CN111428470B (zh) 文本连贯性判定及其模型训练方法、电子设备及可读介质
CN110472248A (zh) 一种中文文本命名实体的识别方法
Racine Reproducible econometrics using R
CN115147607A (zh) 一种基于凸优化理论的抗噪声零样本图像分类方法
CN113806514A (zh) 基于Transformer模型的实体关系抽取方法和系统
CN117454987B (zh) 基于事件自动抽取的矿山事件知识图谱构建方法及装置
CN117875310A (zh) 一种基于前后缀词库与困惑度的垂域文本纠错方法
CN117009223A (zh) 基于抽象语法的软件测试方法、系统、存储介质及终端
CN117112743A (zh) 文本自动生成问题的可回答性评估方法、系统及存储介质
CN116629244A (zh) 融合理解与生成的文档级事件抽取方法
WO2023108981A1 (zh) 文本生成模型的训练方法、装置、存储介质及计算机设备
CN112861519B (zh) 医疗文本纠错方法、装置以及存储介质
CN116306663A (zh) 语义角色标注方法、装置、设备以及介质
CN115525777A (zh) 一种基于自然语言问答的知识图谱三元组显著性评估方法
CN114492377A (zh) 一种事件角色的标注方法和计算机设备、计算机可读存储介质
CN113610161A (zh) 一种基于图像分类技术的目标检测数据标注方法
CN114065777A (zh) 双语语料检测方法、设备以及计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant