CN115221886A - 一种未标注文本库处理方法及介质 - Google Patents
一种未标注文本库处理方法及介质 Download PDFInfo
- Publication number
- CN115221886A CN115221886A CN202211141305.5A CN202211141305A CN115221886A CN 115221886 A CN115221886 A CN 115221886A CN 202211141305 A CN202211141305 A CN 202211141305A CN 115221886 A CN115221886 A CN 115221886A
- Authority
- CN
- China
- Prior art keywords
- entity
- library
- cluster
- enc
- sim
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及电数字数据处理技术领域,特别是涉及一种未标注文本库处理方法及介质,方法包括以下步骤:获取enci={enci,1,enci,2,…,enci,k,…,enci,Qi};获取clusteri={clusteri,1,clusteri,2,…,clusteri,a,…,clusteri,Pi};获取Encod={Encod1,Encod2,…,Encodb,…,EncodB};遍历clusteri和Encod,获取Simi,a;如果maxi,a≥Sim0,则判定Enti,a为maxi,a对应的实体类型。本发明提高了对未标注文本库中各实体的实体类型判断的准确性。
Description
技术领域
本发明涉及电数字数据处理技术领域,特别是涉及一种未标注文本库处理方法及介质。
背景技术
在实际的应用场景中,可能会出现这样的情况:未标注文本库没有进行实体类型标注,但是有这样的一个实体库,实体库中记录着一定数量的实体以及这些实体所属的实体类型;弱监督标注的方法是直接拿这个实体库在未标注文本库中进行匹配,如果未标注文本库中某个实体与实体库中的某个实体匹配,则将未标注文本库中这个实体标注为该实体在实体库中所属的实体类型。
但是弱监督标注的方法存在这样一个问题:实体库中的某些实体存在包括多种含义的情况,即使文本库中某个实体与实体库中的某个实体匹配,但文本库中该实体也不属于该实体在实体库中所属的实体类型。可见,弱监督标注方法存在标注结果准确性不高的问题。如何提高对未标注文本库中各实体的实体类型判断的准确性,是亟待解决的技术问题。
发明内容
本发明目的在于,提供一种未标注文本库处理方法及介质,以提高对未标注文本库中各实体的实体类型判断的准确性。
根据本发明的第一方面,提供了一种未标注文本库处理方法,包括以下步骤:
S100,获取enci={enci,1,enci,2,…,enci,k,…,enci,Qi},其中,enci,k为entityi,k的编码向量,entityi,k为未标注文本库中第k个与entityi匹配的实体,k的取值范围为1到Qi,Qi为未标注文本库中与entityi匹配的实体的总数量,entityi为实体库中第i个与未标注文本库匹配的实体,i的取值范围为1到N,N为实体库中与未标注文本库匹配的实体的总数量。
S200,获取clusteri={clusteri,1,clusteri,2,…,clusteri,a,…,clusteri,Pi},其中,cluster i,a为对enci进行聚类后得到的第a个编码向量簇,a的取值范围为1到Pi,Pi为对enci进行聚类后得到的簇的总数量。
S300,获取Encod={Encod1,Encod2,…,Encodb,…,EncodB},其中,Encodb为实体库中第b个实体类型的编码向量,b的取值范围为1到B,B为实体库中包括的实体类型的总数量。
S400,遍历clusteri和Encod,获取Simi,a={Simi,a,1,Simi,a,2,...,Simi,a,b,...,Simi,a,B},其中,Simi,a,b为meani,a与Encodb的相似度,meani,a为clusteri,a中编码向量的平均。
S500,遍历clusteri,如果maxi,a≥Sim0,则判定Enti,a为maxi,a对应的实体类型,maxi,a为Simi,a中相似度的最大值,Sim0为预设相似度阈值,Enti,a为clusteri,a中编码向量对应的实体的集合。
本发明与现有技术相比具有明显的有益效果,借由上述技术方案,本发明提供的未标注文本库处理方法及存储介质可达到相当的技术进步性及实用性,并具有产业上的广泛利用价值,其至少具有以下有益效果:
本发明考虑了实体库中实体可能出现多种语义的情况,没有直接把未标注文本库中实体标注为实体库中匹配的实体的实体类型,而是将未标注文本库中能够与实体库中同一实体匹配的所有实体进行编码,然后对编码得到的编码向量进行分簇,使语义相似的实体分到一个簇,语义不相似的分到其他簇,然后再分别比较每个簇与实体库中出现的各实体类型对应的编码向量的相似度,将相似度最大且相似度值大于预设相似度阈值对应的实体类型赋予对应簇的实体。本发明在未标注文本库中实体与实体库中实体匹配的基础上,还结合实体的语义对实体所属实体类型进行了判断,相较于现有直接将未标注文本库中实体标注为该实体在实体库中所属的实体类型的方法,提高了对未标注文本库中各实体的实体类型判断的准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的未标注文本库处理方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
根据本发明的第一方面,提供了一种未标注文本库处理方法,如图1所示,包括以下步骤:
S100,获取enci={enci,1,enci,2,…,enci,k,…,enci,Qi},其中,enci,k为entityi,k的编码向量,entityi,k为未标注文本库中第k个与entityi匹配的实体,k的取值范围为1到Qi,Qi为未标注文本库中与entityi匹配的实体的总数量,entityi为实体库中第i个与未标注文本库匹配的实体,i的取值范围为1到N,N为实体库中与未标注文本库匹配的实体的总数量。
根据本发明,未标注文本库中包括多个文本,这些文本都是未标注的文本。实体库包括两列内容,第一列为实体,第二列为对应实体的实体类型。实体库中实体与未标注文本库中实体匹配指的是未标注文本库中出现了实体库中的实体。例如,实体库中包括的一个实体为transformer,如果未标注文本库中某个文本中出现了transformer,即说明未标注文本库中该文本中出现的transformer与实体库中的transformer匹配。
根据本发明,实体库中包括多个实体,未标注文本库中可能会多次出现实体库中的某一实体,但是未标注文本库中多次出现的该实体的可能并不是该实体在实体库中对应的实体类型。例如,实体库中包括transformer这个实体,其在实体库中对应的实体类型为NLP model实体类型;虽然未标注文本库中的文本多次出现了transformer这个实体,但是未标注文本库中的文本中有些transformer的实体类型并不是实体库中transformer对应的NLP model实体类型。
根据本发明,获取enci,k的方法包括:
S110,利用预训练模型的编码器对未标注文本库中entityi,k所在的文本进行编码,得到entityi,k对应的初始编码向量。
S120,对得到的entityi,k对应的初始编码向量进行池化(pooling)操作,即可得到enci,k。
可选的,预训练模型为以BERT为代表的预训练模型。本发明对实体对应的初始编码向量进行池化操作的目的在于将不同长度的实体对应的不同维度的编码向量压缩到同一维度的编码向量,例如,均压缩为768的编码向量,以便于S400中计算相似度。
S200,获取clusteri={clusteri,1,clusteri,2,…,clusteri,a,…,clusteri,Pi},其中,cluster i,a为对enci进行聚类后得到的第a个编码向量簇,a的取值范围为1到Pi,Pi为对enci进行聚类后得到的簇的总数量。
优选的,采用无监督聚类方法对enci进行聚类,将语义相近的entityi的编码向量聚在一起,语义不同的entityi的编码向量聚在不同的簇。可选的,无监督聚类方法为Dbscan算法。
S300,获取Encod={Encod1,Encod2,…,Encodb,…,EncodB},其中,Encodb为实体库中第b个实体类型的编码向量,b的取值范围为1到B,B为实体库中包括的实体类型的总数量。
根据本发明,获取Encodb包括:
S310,获取Entb={Entb,1,Entb,2,…,Entb,x,…,Entb,Qb},其中,Entb,x为实体库中实体类型为第b个实体类型的第x个实体,x的取值范围为1到Qb,Qb为实体库中实体类型为实体库中第b个实体类型的实体的总数量。
S320,遍历Entb,如果Entb,x与未标注文本库匹配,则将Entb,x追加到Jb={Jb,1,Jb,2,…,Jb,y,…,Jb,Zb},Jb,y为第y个追加到Jb的实体,y的取值范围为1到Zb,Zb为追加到Jb的实体的总数量,Jb的初始化为Null。
S330,遍历Jb,获取Mb,y,Mb,y为Jb,y在未标注文本库中的编码向量的平均。
根据本发明,Jb,y可能在未标注文本库中出现多次,每次出现的Jb,y对应一个编码向量,那么Mb,y即未标注文本库中所有Jb,y对应的编码向量的平均。例如,Jb,y在未标注文本库中出现了 3次,第一次出现的Jb,y对应的编码向量是[element1,1,element1,2,…,element1,768],第二次出现的Jb,y对应的编码向量是[element2,1,element2,2,…,element2,768],第三次出现的Jb,y对应的编码向量是[element3,1,element3,2,…,element3,768],那么Mb,y=[(element1,1+element2,1+ element3,1)/3,(element1,2+element2,2+element3,2)/3,…,(element1,768+element2,768+ element3,768)/3]。
S340,获取Encodb=(∑Zb y=1 Mb,y)/Zb。
根据本发明,Entb,x与未标注文本库匹配指的是未标注文本库中出现了Entb,x。可选的,如果Entb中Entb,x均不与未标注文本库匹配,即遍历Entb后Jb仍为Null,则根据包含Entb,x且Entb,x的实体类型为实体库中第b个实体类型的其他文本库获取Entb,x的编码向量的平均,并进一步计算Encodb。
S400,遍历clusteri和Encod,获取Simi,a={Simi,a,1,Simi,a,2,...,Simi,a,b,...,Simi,a,B},其中,Simi,a,b为meani,a与Encodb的相似度,meani,a为clusteri,a中编码向量的平均。
根据本发明,clusteri,a中entityi的编码向量是相似的,那么clusteri,a中包括的entityi的编码向量的平均meani,a即可代表clusteri,a。
根据本发明,利用实体库中各实体类型包括的各实体的编码向量的平均来代表实体库中各实体类型的编码向量,并计算实体库中各实体类型的编码向量与meani,a的相似度。可见,本发明除了考虑clusteri,a中entityi为实体库中entityi的实体类型之外,还考虑了clusteri,a中entityi还可能为实体库中其他实体类型的可能,本发明考虑更为全面,提高了本发明对未标注文本库中各实体的实体类型判断的准确性。
本领域技术人员知悉,现有技术中使用任意计算相似度的算法计算Simi,a,b均落入本发明的保护范围。可选的,利用余弦相似度算法获取Simi,a,b。
S500,遍历clusteri,如果maxi,a≥Sim0,则判定Enti,a为maxi,a对应的实体类型,maxi,a为Simi,a中相似度的最大值,Sim0为预设相似度阈值,Enti,a为clusteri,a中编码向量对应的实体的集合。
根据本发明,如果maxi,a<Sim0,则判定Enti,a不为实体库中包括的实体类型。
根据本发明,计算实体库中各实体类型的编码向量与meani,a的相似度,将相似度最大的实体类型作为clusteri,a中entityi最有可能是的实体类型。通过进一步比较maxi,a是否大于等于预设相似度阈值的方法,来最终判定clusteri,a中entityi是否为实体库中与其相似度最大的实体类型。
本发明引入了预设相似度阈值,考虑到了实体库中与clusteri,a中entityi编码向量最相似的实体类型也不一定是clusteri,a中entityi的情形,提高了本发明对未标注文本库中各实体的实体类型判断的准确性。例如,entityi有三种语义,而实体库中entityi的实体类型为entityi第一语义对应的实体类型,而在未标注文本库的文本中仅出现了第二和第三语义的entityi,且第二和第三语义的entityi也不是实体库中的其他实体类型,在这种情况下,对未标注文本库中的entityi进行聚类会得到两个簇,第一簇对应的是第二语义的entityi,第二簇对应的是第三语义的entityi,由于本发明S500引入了预设相似度阈值,最终会避免将未标注文本库的entityi判定为属于实体库中实体类型的情形,可见,本发明提高了对未标注文本库中各实体的实体类型判断的准确性。
优选的Sim0≥0.6。经小规模实验表明,Sim0的值设置在Sim0≥0.6范围内时,本发明对未标注文本库中各实体的实体类型判断的准确性较高。
本发明实施例还提供了一种非瞬时性计算机可读存储介质,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行本发明实施例所述的方法。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。
Claims (10)
1.一种未标注文本库处理方法,其特征在于,包括以下步骤:
S100,获取enci={enci,1,enci,2,…,enci,k,…,enci,Qi},其中,enci,k为entityi,k的编码向量,entityi,k为未标注文本库中第k个与entityi匹配的实体,k的取值范围为1到Qi,Qi为未标注文本库中与entityi匹配的实体的总数量,entityi为实体库中第i个与未标注文本库匹配的实体,i的取值范围为1到N,N为实体库中与未标注文本库匹配的实体的总数量;
S200,获取clusteri={clusteri,1,clusteri,2,…,clusteri,a,…,clusteri,Pi},其中,cluster i,a为对enci进行聚类后得到的第a个编码向量簇,a的取值范围为1到Pi,Pi为对enci进行聚类后得到的簇的总数量;
S300,获取Encod={Encod1,Encod2,…,Encodb,…,EncodB},其中,Encodb为实体库中第b个实体类型的编码向量,b的取值范围为1到B,B为实体库中包括的实体类型的总数量;
S400,遍历clusteri和Encod,获取Simi,a={Simi,a,1,Simi,a,2,...,Simi,a,b,...,Simi,a,B},其中,Simi,a,b为meani,a与Encodb的相似度,meani,a为clusteri,a中编码向量的平均;
S500,遍历clusteri,如果maxi,a≥Sim0,则判定Enti,a为maxi,a对应的实体类型,maxi,a为Simi,a中相似度的最大值,Sim0为预设相似度阈值,Enti,a为clusteri,a中编码向量对应的实体的集合。
2.根据权利要求1所述的方法,其特征在于,S300中,获取Encodb包括:
S310,获取Entb={Entb,1,Entb,2,…,Entb,x,…,Entb,Qb},其中,Entb,x为实体库中实体类型为第b个实体类型的第x个实体,x的取值范围为1到Qb,Qb为实体库中实体类型为实体库中第b个实体类型的实体的总数量;
S320,遍历Entb,如果Entb,x与未标注文本库匹配,则将Entb,x追加到Jb={Jb,1,Jb,2,…,Jb,y,…,Jb,Zb},Jb,y为第y个追加到Jb的实体,y的取值范围为1到Zb,Zb为追加到Jb的实体的总数量,Jb的初始化为Null;
S330,遍历Jb,获取Mb,y,Mb,y为Jb,y在未标注文本库中的编码向量的平均;
S340,获取Encodb=(∑Zb y=1 Mb,y)/Zb。
3.根据权利要求1所述的方法,其特征在于,步骤S100中,利用BERT预训练模型的编码器获取enci,k。
4.根据权利要求3所述的方法,其特征在于,步骤S100中,获取enci,k包括:
S110,利用BERT预训练模型的编码器对texti,k进行编码,获取entityi,k对应的初始编码向量,texti,k为未标注文本库中entityi,k所在的文本;
S120,对entityi,k对应的初始编码向量进行池化操作,得到enci,k。
5.根据权利要求1所述的方法,其特征在于,步骤S200中,利用无监督聚类算法对enci进行聚类。
6.根据权利要求5所述的方法,其特征在于,所述无监督聚类算法为Dbscan算法。
7.根据权利要求1所述的方法,其特征在于,步骤S400中,利用余弦相似度算法获取Simi,a,b。
8.根据权利要求1所述的方法,其特征在于,步骤S500中,Sim0≥0.6。
9.根据权利要求1所述的方法,其特征在于,步骤S500中,如果maxi,a<Sim0,则判定Enti,a不为实体库中包括的实体类型。
10.一种非瞬时性计算机可读存储介质,所述存储介质中存储有至少一条指令或至少一段程序,其特征在于,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-9中任意一项的所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211141305.5A CN115221886B (zh) | 2022-09-20 | 2022-09-20 | 一种未标注文本库处理方法及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211141305.5A CN115221886B (zh) | 2022-09-20 | 2022-09-20 | 一种未标注文本库处理方法及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115221886A true CN115221886A (zh) | 2022-10-21 |
CN115221886B CN115221886B (zh) | 2022-11-25 |
Family
ID=83617504
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211141305.5A Active CN115221886B (zh) | 2022-09-20 | 2022-09-20 | 一种未标注文本库处理方法及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115221886B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109522415A (zh) * | 2018-10-17 | 2019-03-26 | 厦门快商通信息技术有限公司 | 一种语料标注方法及装置 |
CN109960800A (zh) * | 2019-03-13 | 2019-07-02 | 安徽省泰岳祥升软件有限公司 | 基于主动学习的弱监督文本分类方法及装置 |
CN111191032A (zh) * | 2019-12-24 | 2020-05-22 | 深圳追一科技有限公司 | 语料扩充方法、装置、计算机设备和存储介质 |
WO2021204704A1 (en) * | 2020-04-06 | 2021-10-14 | Koninklijke Philips N.V. | Method for transfer learning in clustering |
CN114090769A (zh) * | 2021-10-14 | 2022-02-25 | 深圳追一科技有限公司 | 实体挖掘方法、装置、计算机设备和存储介质 |
-
2022
- 2022-09-20 CN CN202211141305.5A patent/CN115221886B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109522415A (zh) * | 2018-10-17 | 2019-03-26 | 厦门快商通信息技术有限公司 | 一种语料标注方法及装置 |
CN109960800A (zh) * | 2019-03-13 | 2019-07-02 | 安徽省泰岳祥升软件有限公司 | 基于主动学习的弱监督文本分类方法及装置 |
CN111191032A (zh) * | 2019-12-24 | 2020-05-22 | 深圳追一科技有限公司 | 语料扩充方法、装置、计算机设备和存储介质 |
WO2021204704A1 (en) * | 2020-04-06 | 2021-10-14 | Koninklijke Philips N.V. | Method for transfer learning in clustering |
CN114090769A (zh) * | 2021-10-14 | 2022-02-25 | 深圳追一科技有限公司 | 实体挖掘方法、装置、计算机设备和存储介质 |
Non-Patent Citations (2)
Title |
---|
刘明等: "基于双向选择调整策略的半监督聚类算法", 《计算机技术与发展》 * |
易黎等: "基于联合模型的中文社交媒体命名实体识别", 《计算机与数字工程》 * |
Also Published As
Publication number | Publication date |
---|---|
CN115221886B (zh) | 2022-11-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108416058B (zh) | 一种基于Bi-LSTM输入信息增强的关系抽取方法 | |
CN110163181B (zh) | 手语识别方法及装置 | |
Pan et al. | Product quantization with dual codebooks for approximate nearest neighbor search | |
CN114245896A (zh) | 向量查询方法、装置、电子设备及存储介质 | |
CN109783547B (zh) | 一种相似性连接查询方法及装置 | |
CN111783478B (zh) | 机器翻译质量估计方法、装置、设备及存储介质 | |
EP4390725A1 (en) | Video retrieval method and apparatus, device, and storage medium | |
CN112464642A (zh) | 文本添加标点的方法、装置、介质及电子设备 | |
CN113655893A (zh) | 一种词句生成方法、模型训练方法及相关设备 | |
CN112257417A (zh) | 一种多任务命名实体识别训练方法、介质及终端 | |
CN114420107A (zh) | 基于非自回归模型的语音识别方法及相关设备 | |
CN114332500A (zh) | 图像处理模型训练方法、装置、计算机设备和存储介质 | |
CN114328988A (zh) | 多媒体数据的特征提取方法、多媒体数据检索方法及装置 | |
CN111209741A (zh) | 表格数据字典的处理方法及装置 | |
CN115221886B (zh) | 一种未标注文本库处理方法及介质 | |
CN112182337B (zh) | 从海量短新闻中识别相似新闻的方法及相关设备 | |
CN112364647A (zh) | 一种基于余弦相似度算法的查重方法 | |
Li et al. | Embedding Compression in Recommender Systems: A Survey | |
CN112613307A (zh) | 文本处理装置、方法、设备以及计算机可读存储介质 | |
CN115565177A (zh) | 文字识别模型训练、文字识别方法、装置、设备及介质 | |
CN115033683A (zh) | 摘要生成方法、装置、设备及存储介质 | |
CN115345158A (zh) | 基于无监督学习的新词发现方法、装置、设备及存储介质 | |
CN109710943B (zh) | 矛盾语句识别方法和系统及条款逻辑鉴别方法和系统 | |
CN114742045A (zh) | 一种语义文本相似度的计算方法、装置及存储介质 | |
CN114359291A (zh) | 一种训练实例分割模型的方法以及实例分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |