CN111160034A - 一种实体词的标注方法、装置、存储介质及设备 - Google Patents

一种实体词的标注方法、装置、存储介质及设备 Download PDF

Info

Publication number
CN111160034A
CN111160034A CN201911417133.8A CN201911417133A CN111160034A CN 111160034 A CN111160034 A CN 111160034A CN 201911417133 A CN201911417133 A CN 201911417133A CN 111160034 A CN111160034 A CN 111160034A
Authority
CN
China
Prior art keywords
labeling
word
words
verification
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911417133.8A
Other languages
English (en)
Other versions
CN111160034B (zh
Inventor
李玉信
崔朝辉
赵立军
张霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Neusoft Corp
Original Assignee
Neusoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Neusoft Corp filed Critical Neusoft Corp
Priority to CN201911417133.8A priority Critical patent/CN111160034B/zh
Publication of CN111160034A publication Critical patent/CN111160034A/zh
Application granted granted Critical
Publication of CN111160034B publication Critical patent/CN111160034B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种实体词的标注方法、装置、存储介质及设备,该方法包括:在获取到具有第一人工标注结果、第二人工标注结果和第三人工标注结果的待标注的目标实体词时,首先根据目标实体词的第一人工标注结果生成第一标注特征;根据第二人工标注结果生成第二标注特征;以及根据第三人工标注结果生成第三标注特征,然后,再利用预先构建的实体词标注模型,对第一标注特征、第二标注特征、第三标注特征进行标注,以获得目标实体词的最终标注结果,可见,相比于人工选择标注结果的方式,本申请可以实现快速且准确地获得目标实体词的标注结果,且标注结果消除了人工选择的主观性带来的影响,从而能够更准确地标注出目标实体词的类别。

Description

一种实体词的标注方法、装置、存储介质及设备
技术领域
本申请涉及自然语言处理领域,尤其涉及一种实体词的标注方法、装置、存储介质及设备。
背景技术
命名实体是信息的主要载体,一般指的是文本中具有特定意义或者指代性强的实体。命名实体识别是指从文本中识别出这些具有特定意义和类别的实体,例如识别出人名、地名、机构名、专有名词等,命名实体识别的效果会直接影响到凌驾于其之上的相关研究和应用系统的性能,如文本的结构化表示、信息抽取、信息检索、机器翻译和问答系统等。
在实际应用中,通常是采用训练好的实体识别模型对文本中的实体词进行识别,而为了提高识别结果的准确度,需要利用包含预先标注好的实体词的语料来训练实体识别模型,因此,实体词标注结果的准确性越高,训练出的实体识别模型的识别准确性也就更高。目前在对实体词进行标注时,通常是采用多人协作的方式,即,采用多个人(通常为3人)同时向同一实体词进行标注的方式,但当多个人同时对同一实体词进行类别标注时,容易受到个人主观因素影响,标注的质量标准不一致,导致标注的结果存在差异性,因此,为了消除这些差异性,通常还需要人工对标注结果进行审核,即,从多人标注结果中选择出最为准确的标注结果作为最终的标注结果,用以训练实体识别模型,但这种需要审核人员进行人工选择的方式,主观性强、难以量化,不仅选择的效率低,而且还需要花费大量的人力资源。
发明内容
本申请实施例的主要目的在于提供一种实体词的标注方法、装置、存储介质及设备,能够更加快速且准确地确定出实体词的标注结果。
本申请实施例提供了一种实体词的标注方法,包括:
获取待标注的目标实体词;所述目标实体词具有至少三种不同的人工标注结果:第一人工标注结果、第二人工标注结果和第三人工标注结果;
根据所述目标实体词的第一人工标注结果生成第一标注特征;根据所述目标实体词的第二人工标注结果生成第二标注特征;根据所述目标实体词的第三人工标注结果生成第三标注特征;
利用预先构建的实体词标注模型,对所述目标实体词的第一标注特征、所述第二标注特征、所述第三标注特征进行标注,获得所述目标实体词的最终标注结果。
在一种可能的实现方式中,所述根据所述目标实体词的第一人工标注结果生成第一标注特征,包括:
在所述目标实体词所属的第一目标文本中,选取所述目标实体词之前第一预设个数的词语,以及选取所述目标实体词之后第二预设个数的词语;
对选取出的所有词语进行向量化,获得每一所述选取出的词语的词向量;
将获得的词向量构成一组词向量集合,作为所述目标实体词的第一标注特征。
在一种可能的实现方式中,所述根据所述目标实体词的第二人工标注结果生成第二标注特征,包括:
在所述目标实体词所属的第二目标文本中,选取所述目标实体词之前第一预设个数的词语,以及选取所述目标实体词之后第二预设个数的词语;
对选取出的所有词语进行向量化,获得每一所述选取出的词语的词向量;
将获得的词向量构成一组词向量集合,作为所述目标实体词的第二标注特征。
在一种可能的实现方式中,所述根据所述目标实体词的第三人工标注结果生成第三标注特征,包括:
在所述目标实体词所属的第三目标文本中,选取所述目标实体词之前第一预设个数的词语,以及选取所述目标实体词之后第二预设个数的词语;
对选取出的所有词语进行向量化,获得每一所述选取出的词语的词向量;
将获得的词向量构成一组词向量集合,作为所述目标实体词的第三标注特征。
在一种可能的实现方式中,所述方法还包括:
获取所述训练实体词所属的样本文本;所述样本文本中训练实体词具有至少三种人工标注的训练标注结果:第一训练标注结果、第二训练标注结果和第三训练标注结果,其中,所述至少三种人工标注的训练标注结果中至少过半数种类的训练标注结果是相同的;
利用所述训练实体词所属的样本文本,对预先构建的初始实体词标注模型进行训练,得到所述实体词标注模型。
在一种可能的实现方式中,所述方法还包括:
根据所述样本文本中训练实体词的第一训练标注结果生成第一训练标注特征;根据所述样本文本中训练实体词的第二训练标注结果生成第二训练标注特征;根据所述样本文本中训练实体词的第三训练标注结果生成第三训练标注特征;
根据所述样本文本中训练实体词的第一训练标注特征、第二训练标注特征和第三训练标注特征,构建对应的分类器模型,作为初始实体词标注模型。
在一种可能的实现方式中,所述方法还包括:
获取验证实体词所属的验证文本;所述验证文本中验证实体词具有至少三种人工标注的验证标注结果:第一验证标注结果、第二验证标注结果和第三验证标注结果,其中,所述至少三种人工标注的验证标注结果中至少过半数种类的验证标注结果是相同的;
根据所述验证文本中的验证实体词的第一验证标注结果生成第一验证标注特征;根据所述验证文本中的验证实体词的第二验证标注结果生成第二验证标注特征;根据所述验证文本中的验证实体词的第三验证标注结果生成第三验证标注特征;
将所述验证文本中验证实体词的第一验证标注特征、第二验证标注特征以及第三验证标注特征输入所述实体词标注模型,获得所述验证文本中验证实体词的标注结果;
当所述验证文本中验证实体词的标注结果与所述验证文本中验证实体词对应的类别标记结果不一致时,将所述验证实体词所属的验证文本重新作为所述训练实体词所属的样本文本,对所述实体词标注模型进行参数更新。
本申请实施例还提供了一种实体词的标注装置,所述装置包括:
第一获取单元,用于获取待标注的目标实体词;所述目标实体词具有至少三种不同的人工标注结果:第一人工标注结果、第二人工标注结果和第三人工标注结果;
第一生成单元,用于根据所述目标实体词的第一人工标注结果生成第一标注特征;根据所述目标实体词的第二人工标注结果生成第二标注特征;根据所述目标实体词的第三人工标注结果生成第三标注特征;
标注单元,用于利用预先构建的实体词标注模型,对所述目标实体词的第一标注特征、所述第二标注特征、所述第二标注特征进行标注,获得所述目标实体词的最终标注结果。
在一种可能的实现方式中,所述第一生成单元包括:
第一选取子单元,用于在所述目标实体词所属的第一目标文本中,选取所述目标实体词之前第一预设个数的词语,以及选取所述目标实体词之后第二预设个数的词语;
第一获得子单元,用于对选取出的所有词语进行向量化,获得每一所述选取出的词语的词向量;
第一构成子单元,用于将获得的词向量构成一组词向量集合,作为所述目标实体词的第一标注特征。
在一种可能的实现方式中,所述第一生成单元包括:
第二选取子单元,用于在所述目标实体词所属的第二目标文本中,选取所述目标实体词之前第一预设个数的词语,以及选取所述目标实体词之后第二预设个数的词语;
第二获得子单元,用于对选取出的所有词语进行向量化,获得每一所述选取出的词语的词向量;
第二构成子单元,用于将获得的词向量构成一组词向量集合,作为所述目标实体词的第二标注特征。
在一种可能的实现方式中,所述第一生成单元包括:
第三选取子单元,用于在所述目标实体词所属的第三目标文本中,选取所述目标实体词之前第一预设个数的词语,以及选取所述目标实体词之后第二预设个数的词语;
第三获得子单元,用于对选取出的所有词语进行向量化,获得每一所述选取出的词语的词向量;
第三构成子单元,用于将获得的词向量构成一组词向量集合,作为所述目标实体词的第三标注特征。
在一种可能的实现方式中,所述装置还包括:
第二获取单元,用于获取所述训练实体词所属的样本文本;所述样本文本中训练实体词具有至少三种人工标注的训练标注结果:第一训练标注结果、第二训练标注结果和第三训练标注结果,其中,所述至少三种人工标注的训练标注结果中至少过半数种类的训练标注结果是相同的;
训练单元,用于利用所述训练实体词所属的样本文本,对预先构建的初始实体词标注模型进行训练,得到所述实体词标注模型。
在一种可能的实现方式中,所述装置还包括:
第二生成单元,用于根据所述样本文本中训练实体词的第一训练标注结果生成第一训练标注特征;根据所述样本文本中训练实体词的第二训练标注结果生成第二训练标注特征;根据所述样本文本中训练实体词的第三训练标注结果生成第三训练标注特征;
构建单元,用于根据所述样本文本中训练实体词的第一训练标注特征、第二训练标注特征和第三训练标注特征,构建对应的分类器模型,作为初始实体词标注模型。
在一种可能的实现方式中,所述装置还包括:
第三获取单元,用于获取验证实体词所属的验证文本;所述验证文本中验证实体词具有至少三种人工标注的验证标注结果:第一验证标注结果、第二验证标注结果和第三验证标注结果,其中,所述至少三种人工标注的验证标注结果中至少过半数种类的验证标注结果是相同的;
第三生成单元,用于根据所述验证文本中的验证实体词的第一验证标注结果生成第一验证标注特征;根据所述验证文本中的验证实体词的第二验证标注结果生成第二验证标注特征;根据所述验证文本中的验证实体词的第三验证标注结果生成第三验证标注特征;
获得单元,用于将所述验证文本中验证实体词的第一验证标注特征、第二验证标注特征以及第三验证标注特征输入所述实体词标注模型,获得所述验证文本中验证实体词的标注结果;
更新单元,用于当所述验证文本中验证实体词的标注结果与所述验证文本中验证实体词对应的类别标记结果不一致时,将所述验证实体词所属的验证文本重新作为所述训练实体词所属的样本文本,对所述实体词标注模型进行参数更新。
一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述的实体词的标注方法。
一种实体词的标注设备,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现上述的实体词的标注方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请实施例提供的一种实体词的标注方法、装置及存储介质,在获取到具有第一人工标注结果、第二人工标注结果和第三人工标注结果的待标注的目标实体词时,首先根据目标实体词的第一人工标注结果生成第一标注特征;根据目标实体词的第二人工标注结果生成第二标注特征;根据目标实体词的第三人工标注结果生成第三标注特征,然后,再利用预先构建的实体词标注模型,对第一标注特征、第二标注特征、第三标注特征进行标注,以获得目标实体词的最终标注结果,可见,本申请实施例是利用预先训练好的实体词标注模型对待标注的目标实体词进行类别标注,相比于人工选择标注结果的方式,可以实现快速且准确地获得目标实体词的标注结果,且该标注结果消除了人工选择的主观性带来的影响,从而能够更准确地标注出目标实体词的类别。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本申请提供的一种实体词的标注方法的流程示意图;
图2为本申请提供的构建实体词标注模型的流程示意图;
图3为本申请提供的一种实体词的标注装置的结构框图。
具体实施方式
在一些实体词的标注方法中,通常需要专业的审核人员对多人标注结果进行人工审核,以便从多个人工标注结果中选择出最为准确的标注结果作为最终的标注结果,例如,假设对于实体词“小明”,有三个人对其所属类别进行了标注,且标注结果分别为“人”、“动物”、“植物”,此时,为了能够准确地对“小明”进行标注,需要审核人员从这三个标注结果中选择出一个最为准确的结果(如“人”),作为实体词“小明”的标注结果。但这种通过审核人员进行人工选择的方式来获得实体词的标注结果,容易受到人为主观因素的影响,造成标注结果产生随机偏差。不仅标注的效率较低、准确率不高,而且还需要花费大量的人力资源。
为解决上述缺陷,本申请实施例提供了一种实体词的标注方法,在获取到具有第一人工标注结果、第二人工标注结果和第三人工标注结果的待标注的目标实体词时,首先根据目标实体词的第一人工标注结果生成第一标注特征;根据目标实体词的第二人工标注结果生成第二标注特征;以及根据目标实体词的第三人工标注结果生成第三标注特征,然后,再利用预先构建的实体词标注模型,对第一标注特征、第二标注特征、第三标注特征进行标注,以获得目标实体词的最终标注结果,可见,本申请实施例是利用预先训练好的实体词标注模型对待标注的目标实体词进行类别标注,相比于人工选择标注结果的方式,可以实现快速且准确地获得目标实体词的标注结果,且该标注结果消除了人工选择的主观性带来的影响,从而能够更准确地标注出目标实体词的类别。
进一步的,在得到目标实体词的准确标注结果后,可以将该标注好的目标实体词语料作为训练语料,来训练实体识别模型,以提高识别结果的准确度。进而有助于文本的结构化表示、信息抽取、信息检索、机器翻译和问答系统等领域的相关研究。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例一
参见图1,为本实施例提供的一种实体词的标注方法的流程示意图,该方法包括以下步骤:
S101:获取待标注的目标实体词;其中,目标实体词具有以下至少三种不同的人工标注结果:第一人工标注结果、第二人工标注结果和第三人工标注结果。
在本实施例中,将采用本实施例实现类别标注的任一实体词定义为待标注的目标实体词。且本申请对目标实体词所属类别的类型不做限定,比如,可以是人、电子产品、地名等。其中,目标实体词可以是利用多人协作的方式,通过多个人预先对其进行了人工标注后,获得的多个不同的标注结果,需要说明的是,本申请后续将以3个人对目标实体词进行了人工标注为例进行介绍,并预先获得了目标实体词对应的3种不同的人工标注结果,分别为第一人工标注结果、第二人工标注结果和第三人工标注结果。
S102:根据目标实体词的第一人工标注结果生成第一标注特征;根据目标实体词的第二人工标注结果生成第二标注特征;根据目标实体词的第三人工标注结果生成第三标注特征。
在本实施例中,通过步骤S101获取到具有第一人工标注结果、第二人工标注结果和第三人工标注结果的目标实体词后,为了提高目标实体词标注结果的准确性,消除这三个人工标注结果中的差异性,以训练出识别结果准确度更高的实体识别模型,需要充分考虑每个人预先对目标实体词进行标注时,目标实体词所处的语境,更确切的说,需要充分考虑目标实体词的上下文对目标实体词所属类别的标注产生的影响,目标实体词所处的语境不同,对应的标注结果可能也是不同的,例如,若目标实体词“汪汪”上下文中并列出现多个表示“动物”的实体词,则目标实体词的标注类别也极有可能为“动物”。因此,可以将目标实体词相邻的上下文中的词语作为标注目标实体词类别的一种参考数据,以准确获得目标实体词的类别标注结果。
基于此,为了能够更加快速且准确地标注出目标实体词的类别,消除人工标注的主观性带来的影响,首先需要根据目标实体词的第一人工标注结果生成第一标注特征,并根据目标实体词的第二人工标注结果生成第二标注特征,以及目标实体词的第三人工标注结果生成第三标注特征,然后,可以利用这三个标注特征执行后续步骤S103,以获得目标实体词的最终标注结果。
接下来,对第一标注特征、第二标注特征以及第三标注特征的具体生成过程进行依次介绍。
(1)、在本实施例中,一种可选的实现方式是,步骤S102中“根据目标实体词的第一人工标注结果生成第一标注特征”的具体实现过程可以包括下述步骤A1-A3:
步骤A1:在目标实体词所属的第一目标文本中,选取目标实体词之前第一预设个数的词语,以及选取目标实体词之后第二预设个数的词语。
在对目标实体词进行人工标注时,首先会选取目前中文分词领域中具有较好分词效果的通用分词方法,对目标实体词所属的第一目标文本进行分词,比如,可以利用条件随机场(Conditional Random Field,简称CRF)分词模型,对第一目标文本进行分词,以得到第一目标文本包含的各个分词,并对分词结果中的目标实体词进行标注,得到第一标注结果。
举例说明:假设目标实体词“小明”所属的第一目标文本为“小明是中国人”,则对该第一目标文本进行分词后得到的分词结果为:“小明”、“是”、“中国”、“人”,并可以将目标实体词“小明”进行标注,得到第一标注结果为“人”。
在此基础上,为了生成第一标注特征,可以在第一目标文本的分词结果中,选取出目标实体词之前的第一预设个数的词语以及目标实体词之后的第二预设个数的词语,其中,第一预设个数和第二预设个数是根据实际情况和经验值来确定的,二者可以相同也可以不同,本申请实施例对此不进行限制,比如,可以将第一预设个数和第二预设个数分别取值为3和5,也可以将二者均取值为4等。例如:基于上述举例,对于目标实体词“小明”,若将第一预设个数和第二预设个数均取值为3,则由于上述分词结果中目标实体词“小明”之前没有任何分词,因此,无法在目标实体词“小明”之前选取出3个词语,但由于上述分词结果中目标实体词“小明”之后存在分词“是”、“中国”、“人”,因此,可以在目标实体词“小明”之后选取出3个词语:“是”、“中国”、“人”。或者,若将第二预设个数取值为4,但由于上述分词结果中目标实体词“小明”之后仅存在“是”、“中国”、“人”这3个分词,因此,只选取这3个词语。
需要说明的是,在第一目标文本中,可能有多个位置中包含有目标实体词,或者,第一目标文本可能包含有多句话,这多句话中可能有多个位置包含有目标实体词,且均将目标实体词标注为第一标注结果,则可以分别选取出每一出现目标实体词位置之前的第一预设个数的词和之后的第二预设个数的词,构成对应的一组上下文分词的集合,并将每一组上下文分词集合合并为一个总的分词集合,用以表征从第一目标文本中选出的所有目标实体词之前第一预设个数的词语以及之后第二预设个数的词语的总集合,并利用如下公式来表示:
L第一标注结果={WA1,WA2,...,WAm}, (1)
其中,L第一标注结果表示第一目标文本中所有目标实体词之前的第一预设个数的词语以及之后第二预设个数的词语的总集合;WA1表示第一目标文本中目标实体词被标注为第一标注结果的第1个位置处,目标实体词之前的第一预设个数的词语以及之后第二预设个数的词语集合;WAm表示第一目标文本中目标实体词被标注为第一标注结果的第m个位置处,目标实体词之前的第一预设个数的词语以及之后第二预设个数的词语集合,m表示第一目标文本中目标实体词被标注为第一标注结果的次数,m的取值可根据实际情况进行选取,本申请实施例对此不进行限定。
可以理解的是,第一目标文本也可以是一个文本集合,即,该文本集合中包含有多个文本,且这些文本中有多个位置处的目标实体词均被标注为第一标注结果,则同理可以利用上述公式(1)表示出第一目标文本中所有目标实体词之前的第一预设个数的词语以及之后第二预设个数的词语的总集合。
步骤A2:对选取出的所有词语进行向量化,获得每一选取出的词语的词向量。
在本实现方式中,通过步骤A1选取出第一目标文本中目标实体词之前的第一预设个数的词语以及之后的第二预设个数的词语后,进一步可以利用词向量化算法,计算出这些词语的词向量,比如,可以利用word2vec,或者其他开放领域内语料训练词向量模型,计算这些选取出的词语的词向量。
步骤A3:将获得的词向量构成一组词向量集合,作为目标实体词的第一标注特征。
在本实现方式中,通过步骤A2得到每一选取出的词语的词向量后,进一步将这些词向量构成一组词向量集合,并将其作为目标实体词的第一标注特征。具体构成公式如下:
Figure BDA0002351478020000111
其中,
Figure BDA0002351478020000112
表示目标实体词的第一标注特征,也就是第一目标文本中所有目标实体词之前的第一预设个数的词语以及之后第二预设个数的词语的总集合对应的词向量;
Figure BDA0002351478020000113
表示第一目标文本中目标实体词被标注为第一标注结果的第1个位置处,目标实体词之前的第一预设个数的词语以及之后第二预设个数的词语集合对应的词向量集合;
Figure BDA0002351478020000114
表示第一目标文本中目标实体词被标注为第一标注结果的第m个位置处,目标实体词之前的第一预设个数的词语以及之后第二预设个数的词语集合对应的词向量集合,m表示第一目标文本中目标实体词被标注为第一标注结果的次数,m的取值可根据实际情况进行选取,本申请实施例对此不进行限定。
(2)、在本实施例中,一种可选的实现方式是,步骤S102中“根据目标实体词的第二人工标注结果生成第二标注特征”的具体实现过程可以包括下述步骤B1-B3:
步骤B1:在目标实体词所属的第二目标文本中,选取目标实体词之前第一预设个数的词语,以及选取目标实体词之后第二预设个数的词语。
在对目标实体词进行人工标注时,首先会选取目前中文分领域中具有较好分词效果的通用分词方法,对目标实体词所属的第二目标文本进行分词,比如,可以利用CRF分词模型,对第二目标文本进行分词,以得到第二目标文本包含的各个分词,并对分词结果中的目标实体词进行标注,得到第二标注结果。
举例说明:假设目标实体词“小明”所属的第二目标文本为“小明是小红的宠物狗”,则对该第二目标文本进行分词后得到的分词结果为:“小明”、“是”、“小红”、“的”、“宠物”、“狗”,并可以将目标实体词“小明”进行标注,得到第二标注结果为“动物”。
在此基础上,为了生成第二标注特征,可以在第二目标文本的分词结果中,选取出目标实体词之前的第一预设个数的词语以及目标实体词之后的第二预设个数的词语,其中,第一预设个数和第二预设个数是根据实际情况和经验值来确定的,二者可以相同也可以不同,本申请实施例对此不进行限制。
需要说明的是,与第一目标文本类似,在第二目标文本中,可能有多个位置中包含有目标实体词,或者,第二目标文本可能包含有多句话,这多句话中可能有多个位置包含有目标实体词,且均将目标实体词标注为第二标注结果,则可以分别选取出每一出现目标实体词位置之前的第一预设个数的词和之后的第二预设个数的词,构成对应的一组上下文分词集合,并将每一组上下文分词集合合并为一个总的分词集合,用以表征从第二目标文本中选出的所有目标实体词之前第一预设个数的词语以及之后第二预设个数的词语的总集合,并利用如下公式来表示:
L第二标注结果={WB1,WB2,...,WBn}, (3)
其中,L第二标注结果表示第二目标文本中所有目标实体词之前的第一预设个数的词语以及之后第二预设个数的词语的总集合;WB1表示第二目标文本中目标实体词被标注为第二标注结果的第1个位置处,目标实体词之前的第一预设个数的词语以及之后第二预设个数的词语集合;WBn表示第二目标文本中目标实体词被标注为第二标注结果的第m个位置处,目标实体词之前的第一预设个数的词语以及之后第二预设个数的词语集合,n表示第二目标文本中目标实体词被标注为第二标注结果的次数,与上述公式中m的取值可以相同,也可以不同,且n的取值也是根据实际情况进行选取的,本申请实施例对此不进行限定。
可以理解的是,与第一目标文本类似,第二目标文本也可以是一个文本集合,即,该文本集合中包含有多个文本,且这些文本中有多个位置处的目标实体词均被标注为第二标注结果,则同理可以利用上述公式(3)表示出第二目标文本中所有目标实体词之前的第一预设个数的词语以及之后第二预设个数的词语的总集合。
步骤B2:对选取出的所有词语进行向量化,获得每一选取出的词语的词向量。
在本实现方式中,通过步骤B1选取出第二目标文本中目标实体词之前的第一预设个数的词语以及之后的第二预设个数的词语后,进一步可以利用词向量化算法,计算出这些词语的词向量,比如,可以利用word2vec,或者其他开放领域内语料训练词向量模型,计算这些选取出的词语的词向量。
步骤B3:将获得的词向量构成一组词向量集合,作为目标实体词的第二标注特征。
在本实现方式中,通过步骤B2得到每一选取出的词语的词向量后,进一步将这些词向量构成一组词向量集合,并将其作为目标实体词的第二标注特征。具体构成公式如下:
Figure BDA0002351478020000141
其中,
Figure BDA0002351478020000142
表示目标实体词的第二标注特征,也就是第二目标文本中所有目标实体词之前的第一预设个数的词语以及之后第二预设个数的词语的总集合对应的词向量;WB1表示第二目标文本中目标实体词被标注为第二标注结果的第1个位置处,目标实体词之前的第一预设个数的词语以及之后第二预设个数的词语集合对应的词向量集合;
Figure BDA0002351478020000143
表示第二目标文本中目标实体词被标注为第二标注结果的第n个位置处,目标实体词之前的第一预设个数的词语以及之后第二预设个数的词语集合对应的词向量集合,n表示第二目标文本中目标实体词被标注为第二标注结果的次数,与上述公式中m的取值可以相同,也可以不同,且n的取值也是根据实际情况进行选取的,本申请实施例对此不进行限定。
(3)、在本实施例中,一种可选的实现方式是,步骤S102中“根据目标实体词的第三人工标注结果生成第三标注特征”的具体实现过程可以包括下述步骤C1-C3:
步骤C1:在目标实体词所属的第三目标文本中,选取目标实体词之前第一预设个数的词语,以及选取目标实体词之后第二预设个数的词语。
在对目标实体词进行人工标注时,首先会选取目前中文分词领域中具有较好分词效果的通用分词方法,对目标实体词所属的第三目标文本进行分词,比如,可以利用CRF分词模型,对第三目标文本进行分词,以得到第三目标文本包含的各个分词,并对分词结果中的目标实体词进行标注,得到第三标注结果。
举例说明:假设目标实体词“小明”所属的第三目标文本为“小明是我养的绿植”,则对该第三目标文本进行分词后得到的分词结果为:“小明”、“是”、“我”、“养”、“的”、“绿植”,并可以将目标实体词“小明”进行标注,得到第三标注结果为“植物”。
在此基础上,为了生成第三标注特征,可以在第三目标文本的分词结果中,选取出目标实体词之前的第一预设个数的词语以及目标实体词之后的第二预设个数的词语,其中,第一预设个数和第二预设个数是根据实际情况和经验值来确定的,二者可以相同也可以不同,本申请实施例对此不进行限制。
需要说明的是,与第一目标文本和第二目标文本类似,在第三目标文本中,可能有多个位置中包含有目标实体词,或者,第三目标文本可能包含有多句话,这多句话中可能有多个位置包含有目标实体词,且均将目标实体词标注为第三标注结果,则可以分别选取出每一出现目标实体词位置之前的第一预设个数的词和之后的第二预设个数的词,构成对应的一组上下文分词集合,并将每一组上下文分词集合合并为一个总的分词集合,用以表征从第三目标文本中选出的所有目标实体词之前第一预设个数的词语以及之后第二预设个数的词语的总集合,并利用如下公式来表示:
L第三标注结果={WC1,WC2,...,WCp}, (5)
其中,L第三标注结果表示第三目标文本中所有目标实体词之前的第一预设个数的词语以及之后第二预设个数的词语的总集合;WC1表示第三目标文本中目标实体词被标注为第三标注结果的第1个位置处,目标实体词之前的第一预设个数的词语以及之后第二预设个数的词语集合;WCp表示第三目标文本中目标实体词被标注为第三标注结果的第m个位置处,目标实体词之前的第一预设个数的词语以及之后第二预设个数的词语集合,p表示第三目标文本中目标实体词被标注为第三标注结果的次数,与上述公式中m、n的取值可以相同,也可以不同,且p的取值也是根据实际情况进行选取的,本申请实施例对此不进行限定。
可以理解的是,与第一目标文本和第二目标文本类似,第三目标文本也可以是一个文本集合,即,该文本集合中包含有多个文本,且这些文本中有多个位置处的目标实体词均被标注为第三标注结果,则同理可以利用上述公式(5)表示出第三目标文本中所有目标实体词之前的第一预设个数的词语以及之后第二预设个数的词语的总集合。
步骤C2:对选取出的所有词语进行向量化,获得每一选取出的词语的词向量。
在本实现方式中,通过步骤C1选取出第三目标文本中目标实体词之前的第一预设个数的词语以及之后的第二预设个数的词语后,进一步可以利用词向量化算法,计算出这些词语的词向量,比如,可以利用word2vec,或者其他开放领域内语料训练词向量模型,计算这些选取出的词语的词向量。
步骤C3:将获得的词向量构成一组词向量集合,作为目标实体词的第三标注特征。
在本实现方式中,通过步骤C2得到每一选取出的词语的词向量后,进一步将这些词向量构成一组词向量集合,并将其作为目标实体词的第三标注特征。具体构成公式如下:
Figure BDA0002351478020000161
其中,
Figure BDA0002351478020000162
表示目标实体词的第三标注特征,也就是第三目标文本中所有目标实体词之前的第一预设个数的词语以及之后第二预设个数的词语的总集合对应的词向量;
Figure BDA0002351478020000163
表示第三目标文本中目标实体词被标注为第三标注结果的第1个位置处,目标实体词之前的第一预设个数的词语以及之后第二预设个数的词语集合对应的词向量集合;
Figure BDA0002351478020000164
表示第三目标文本中目标实体词被标注为第三标注结果的第p个位置处,目标实体词之前的第一预设个数的词语以及之后第二预设个数的词语集合对应的词向量集合,p表示第三目标文本中目标实体词被标注为第三标注结果的次数,与上述公式中m、n的取值可以相同,也可以不同,且p的取值也是根据实际情况进行选取的,本申请实施例对此不进行限定。
S103:利用预先构建的实体词标注模型,对目标实体词的第一标注特征、第二标注特征、第三标注特征进行标注,获得目标实体词的最终标注结果。
在本实施例中,通过步骤S102生成目标实体词的第一标注特征、第二标注特征以及第三标注特征后,进一步可以对这些标注特征进行数据处理,并根据处理结果确定出目标实体词所属的类别。具体的,可以将目标实体词的第一标注特征、第二标注特征以及第三标注特征作为输入数据,输入至预先构建的实体词标注模型中,以获得目标实体词的最终标注结果。需要说明的是,为实现本步骤S103,需要预先构建一个实体词标注模型,具体构建过程可参见后续实施例二的相关介绍。
具体来讲,通过步骤S102生成目标实体词的第一标注特征、第二标注特征以及第三标注特征后,可以将该第一标注特征、第二标注特征以及第三标注特征输入实体词标注模型中的入口,并利用该实体词标注模型的出口输出一个表征目标实体词所属类别分类的一组向量,向量中每一维度的值可以为区间[0,1]中的一个数值,且每一维度的值分别代表了目标实体词所属分类类型的概率值。此时,可将其中最大概率值对应的类别作为目标实体词所属的类别。
举例说明:假设目标实体词为“小明”,且该目标实体词存在“人、动物、植物”这3种预设的类别类型,并假设模型的输出向量为s=[0.9,0.1,0.05],可见,第一维度的值0.9最高,因此,该维度对应的类别即为目标实体词所属的类别类型,即可以选择“人”作为目标实体词“小明”的标注结果。
综上,本实施例提供的一种实体词的标注方法,在获取到具有第一人工标注结果、第二人工标注结果和第三人工标注结果的待标注的目标实体词时,首先根据目标实体词的第一人工标注结果生成第一标注特征;根据目标实体词的第二人工标注结果生成第二标注特征;根据目标实体词的第三人工标注结果生成第三标注特征,然后,再利用预先构建的实体词标注模型,对第一标注特征、第二标注特征、第三标注特征进行标注,以获得目标实体词的最终标注结果,可见,本申请实施例是利用预先训练好的实体词标注模型对待标注的目标实体词进行类别标注,相比于人工选择标注结果的方式,可以实现快速且准确地获得目标实体词的标注结果,且该标注结果消除了人工选择的主观性带来的影响,从而能够更准确地标注出目标实体词的类别。
实施例二
本实施例将对实施例一中提及的实体词标注模型的具体构建过程进行介绍。利用该预先构建的实体词标注模型,可以更加快速且准确地确定出实体词的标注结果。
参见图2,其示出了本实施例提供的构建实体词标注模型的流程示意图,该流程包括以下步骤:
S201:获取训练实体词所属的样本文本;其中,样本文本中训练实体词具有至少三种人工标注的训练标注结果:第一训练标注结果、第二训练标注结果和第三训练标注结果,其中,所述至少三种人工标注的训练标注结果中至少过半数种类的训练标注结果是相同的。
在本实施例中,为了构建实体词标注模型,需要预先进行大量的准备工作,首先,需要收集大量训练实体词所属的样本文本,比如,可以预先收集1000个包含训练实体词的样本文本,且这些样本文本中的训练实体词预先由至少3个人进行了类别标注,并且这至少3个人对每一位置处训练实体词的标注结果中,至少有过半数人的训练标注结果是一致的,例如,假设这些样本文本中的训练实体分词预先由5个人进行了人工标注,且在每一位置处训练实体词的5种训练标注结果中,有至少3个人的训练标注结果是一致的,并将该一致的训练标注结果作为此位置处训练实体词对应的最终训练标注结果。进而可以利用这些训练实体词所属的样本文本以及各个位置处训练实体词对应的各种训练标注结果,训练实体词标注模型。
其中,为了获取符合条件的样本文本,在获取到包含训练实体词的文本时,进一步需要判断多个人对该文本中每一位置处对训练实体词的标注结果是否满足至少有过半数人的训练标注结果是一致的,若是,则可以将该文本作为训练文本,若否,则需要进一步判断该文本中标注结果不满足预设条件(即至少有过半数人的训练标注结果是一致的)的训练实体词数量是否在可忽略的范围,若是,则可以将该文本作为训练文本,若否,则需要由人工进行重新标注。具体来讲,可以预先设定一个临界值γ,若该文本中过半数人的训练标注结果是不一致的训练实体词数量,与该文本中至少有过半数人的训练标注结果是一致的训练实体词数量之间的比值大于等于该临界值γ,则表明该文本中过半数人的训练标注结果是不一致的训练实体词数量过多,标注结果的差异性较大,需要由人工进行重新标注,若小于临界值γ,则表明该文本中过半数人的训练标注结果是不一致的训练实体词数量较少,是在可忽略的范围内,可以将该文本作为训练文本。需要说明的是,γ的取值可根据实际情况进行设定,本申请实施例对此不进行限定,比如,可以将γ取为1或0.5。
接下来,将以3个人对某一文本中所有位置处的训练实体词进行了人工标注为例进行介绍,以判断该文本是否可以作为样本文本,来训练实体词标注模型。具体处理过程如下:
(1)对于该文本中的某些位置处训练实体词的标注结果均为一致的情况,即3个人对训练实体词的标注结果均一致,比如,均将训练实体词“小明”标注为“人”,则满足预设条件,可以直接将该标注结果作为该文本中这些位置处目标实体词的最终标注结果。
(2)对于该文本中的某些位置处训练实体词的标注结果为两人一致,但和另外一人不一致的情况,比如,有两人将训练实体词“小明”标注为“人”,但有一人将小明标注为“动物”,则也满足预设条件,可以将两人一致的标注结果作该样本文本中这些位置处训练实体词的最终标注结果。
(3)对于该文本中的某些位置处训练实体词的标注结果为3人不一致的情况,即3个人对训练实体词的标注结果均不一致,比如,一人将训练实体词“小明”标注为“人”,一人将训练实体词“小明”标注为“动物”,一人将训练实体词“小明”标注为“植物”,则需要判断该文本中3人标注结果均不一致的训练实体词数量是否在可忽略的范围内,具体可以利用下述公式进行判断:
Figure BDA0002351478020000191
其中,num1表示该文本中3人标注结果均不一致的训练实体词数量;num 2表示该文本中2人标注结果一致的训练实体词数量;num 3表示该文本中3人标注结果均一致的训练实体词数量;γ表示该文本中3人标注结果不一致的训练实体词数量是否在可忽略的范围的临界值,若上述公式(7)不成立,则表明该文本中3人标注结果均不一致的训练实体词数量未超过该临界值,也就是说,该文本中3人标注结果不一致的训练实体词数量在可忽略的范围内,进而可以将该文本作为样本文本,以训练实体词标注模型;但若上述公式(7)成立,则表明该文本中3人标注结果均不一致的训练实体词数量超过了临界值,也就是说,该文本中训练实体词的标注结果的差异性较大,需要将其中3人标注结果不一致的位置处的训练实体词,由人工进行重新标注,并且,为了提高标注结果的准确性,也可以将2人标注结果不一致的位置处的训练实体词,也由人工进行重新标注,以保证训练实体词的标注结果能够尽可能是3人一致、或2人一致、或者是3人不一致的训练实体词数量是在可忽略的范围内,以提高训练出的实体词标注模型的标注准确度。需要说明的是,γ的取值可根据实际情况进行设定,本申请实施例对此不进行限定,比如,可以将γ取为1或0.5。
一种可选的实现方式是,对于训练实体词所在文本,若该文本中实体词标注结果中3人不一致的数量的占比超过了临界值,则需要将该文本中除了3人标注结果一致外的其他所有实体词由人工进行重新标注,以保证该文本中实体词标注结果中3人不一致的数量能够小到可以忽略不计,具体判断公式如下:
q≥ε (8)
其中,q表示文本中实体词标注结果中3人不一致的数量的占比,比如:该文本中实体词有20个,其中,3人标注结果不一致的实体词数量为10,则q=0.5,即,10/20=0.5;ε表示该文本中实体词标注结果中3人不一致的数量的占比是否在可忽略的范围的临界值,若上述公式(8)不成立,则表明该文本中实体词标注结果中3人不一致的数量的占比未超过该临界值,也就是说,该文本中实体词标注结果中3人不一致的数量的占比在可忽略的范围内,进而可以将该文本作为样本文本,以训练实体词标注模型;但若上述公式(8)成立,则表明该文本中实体词标注结果中3人不一致的数量的占比超过了临界值,也就是说,该文本中实体词标注结果中3人不一致的数量过大,标注准确性较低,此时,需要将该文本中除了3人标注结果一致外的其他所有实体词由人工进行重新标注,以保证该文本中实体词标注结果中3人不一致的数量能够小到可以忽略不计。需要说明的是,ε的取值可根据实际情况进行设定,本申请实施例对此不进行限定,比如,可以将ε取为0.2。
进一步的,在获取到训练实体词所属的这些样本文本后,可以将这些样本文本作为训练数据,以训练实体词标注模型。
S202:利用样本文本,对预先构建的初始实体词标注模型进行训练,得到实体词标注模型。
在本实施例中,通过步骤S201获取到训练实体词所属的、可以作为训练数据的样本文本后,进一步可以将利用这些样本文本,对预先构建的初始实体词标注模型进行训练,以训练得到实体词标注模型。接下来,将以3个人对某一样本文本中所有位置处的训练实体词进行了人工标注为例进行介绍。
具体来讲,在获取到的各个样本文本后,可以采用与实施例一步骤S102中生成目标实体词的第一标注特征、第二标注特征以及第三标注特征类似的方法,将目标实体词替换为训练实体词,将第一目标文本、第二目标文本、第三目标文本均替换为对应标注结果所属的样本文本,即可生成各个训练文本中训练实体词的第一训练标注特征、第二训练标注特征以及第三训练标注特征,相关之处请参见实施例一的介绍,在此不再赘述。进一步的,可以利用样本文本中训练实体词的第一训练标注特征、第二训练标注特征以及第三训练标注特征对预先构建的初始实体词标注模型进行训练,调整初始实体词标注模型中的相关模型参数,以得到实体词标注模型。
接下来,本申请实施例通过下述步骤D1-D2,对如何构建初始实体词标注模型进行介绍:
步骤D1:根据所述样本文本中训练实体词的第一训练标注结果生成第一训练标注特征;根据所述样本文本中训练实体词的第二训练标注结果生成第二训练标注特征;根据所述样本文本中训练实体词的第三训练标注结果生成第三训练标注特征。
在本实施例中,为了构建初始实体词标注模型,用以训练生成实体词标注模型,提高目标实体词的标注效率和准确性,一种可选的实施方式是,在获取到大量样本文本后,可以从中随机选择出一部分样本文本作为初始训练数据,用以构建初始实体词标注模型。具体来讲,可以采用与实施例一步骤S102中生成第一目标文本、第二目标文本、第三目标文本的第一标注特征、第二标注特征以及第三标注特征类似的方法,将第一目标文本、第二目标文本、第三目标文本分别替换为各个标注结果对应的样本文本,即可根据这部分样本文本中训练实体词的第一训练标注结果生成第一训练标注特征、第二训练标注特征以及第三训练标注特征,相关之处请参见实施例一的介绍,在此不再赘述。
步骤D2:根据样本文本中训练实体词的第一训练标注特征、第二训练标注特征和第三训练标注特征,构建对应的分类器模型,作为初始实体词标注模型。
在本实施例中,通过步骤B1生成这部分样本文本中训练实体词的第一训练标注特征、第二训练标注特征以及第三训练标注特征后,进一步可以根据这些特征数据及其对应的标注结果,利用分类器的训练方法,对预先选取的分类器进行训练,以构建出对应的分类器模型,作为初始实体词标注模型。比如,可以选用支持向量机(Support Vector Machine,简称SVM)、朴素贝叶斯、k最邻近分类算法(k-NearestNeighbor,简称KNN)、简单向量距离分类法等分类器训练方法,来构建初始实体词标注模型。
需要说明的是,通过上述步骤B1-B2构建了初始实体词标注模型后,可以依次从通过步骤S201获取的大量样本中提取各个标注结果对应的各个样本文本,进行多轮模型训练,直到满足训练结束条件为止,此时,即生成实体词标注模型。
具体地,在进行本轮训练时,可以将实施例一中的第一目标文本替换为本轮提取的第一训练标注结果对应的样本文本,将实施例一中的第二目标文本替换为本轮提取的第二训练标注结果对应的样本文本,将实施例一中的第三目标文本替换为本轮提取的第三训练标注结果对应的样本文本,通过当前的初始实体词标注模型,按照实施例一中的执行过程,便可以获得训练实体词的类别标注结果。具体地,按照上述实施例一中的步骤S101-S103,便可以在生成样本文本中训练实体词的第一训练标注特征、第二训练标注特征以及第三训练标注特征后,通过初始实体词标注模型输出一个表征训练实体词所属类别分类的一组向量,向量中每一维度的值可以为区间[0,1]中的一个数值,且每一维度的值分别代表了训练实体词所属分类类型的概率值。此时可以选择出其中最大概率值对应的类别作为训练实体词所属的类别,然后,可以将该类别标注结果与对应的审核人员的人工标注结果进行比较,并根据二者之间的差异对模型参数进行更新,直至满足预设的条件,则停止模型参数的更新,完成实体词标注模型的训练,生成一个训练好的实体词标注模型。
通过上述实施例,可以利用样本文本训练生成实体词标注模型,则进一步的,可以利用验证文本对生成的实体词标注模型进行验证。具体验证过程可以包括下述步骤E1-E4:
步骤E1:获取验证实体词所属的验证文本;其中,验证文本中验证实体词具有至少三种人工标注的验证标注结果:第一验证标注结果、第二验证标注结果和第三验证标注结果,其中,所述至少三种人工标注的验证标注结果中至少过半数种类的验证标注结果是相同的。
在本实施例中,为了实现对实体词标注模型进行验证,首先需要获取验证实体词所属的验证文本,其中,验证文本指的是可以用来进行实体词标注模型验证的文本,在获取到验证实体词所属的验证文本后,可继续执行后续步骤E2。
步骤E2:根据验证文本中的验证实体词的第一验证标注结果生成第一验证标注特征;根据验证文本中的验证实体词的第二验证标注结果生成第二验证标注特征;根据验证文本中的验证实体词的第三验证标注结果生成第三验证标注特征。
通过步骤E1获取到验证实体词所属的验证文本后,并不能直接用于验证实体词标注模型,而是需要根据验证验证文本中验证实体词对应的第一验证标注结果、第二验证标注结果和第三验证标注结果,分别对应生成第一验证标注特征、第二验证标注特征以及第三验证标注特征,进而可以利用生成的第一验证标注特征、第二验证标注特征以及第三验证标注特征,验证得到的实体词标注模型。
步骤E3:将验证文本中验证实体词的第一验证标注特征、第二验证标注特征以及第三验证标注特征输入实体词标注模型,获得验证文本中验证实体词的标注结果。
通过步骤E2生成验证文本中验证实体词对应的第一验证标注特征、第二验证标注特征以及第三验证标注特征后,进一步的,可以将得到的第一验证标注特征、第二验证标注特征以及第三验证标注特征输入实体词标注模型,获得验证文本中验证实体词的类别标注结果,进而可继续执行后续步骤E4。
步骤E4:当验证文本中验证实体词的标注结果与验证文本中验证实体词对应的类别标记结果不一致时,将验证实体词重新作为训练实体词,将验证实体词所属的验证文本重新作为训练实体词所属的样本文本,对实体词标注模型进行参数更新。
通过步骤E3获得验证文本中验证实体词的类别标注结果后,若验证文本中验证实体词的类别标注结果与验证文本中验证实体词对应的审核人员的人工标记结果不一致,则可以将该验证实体词重新作为训练实体词,将该验证实体词所属的文本重新作为训练实体词所属的样本文本,对实体词标注模型进行参数更新。
通过上述实施例,可以利用验证实体词所属的验证文本对实体词标注模型进行有效验证,当验证文本中验证实体词的类别标注结果与验证文本中验证实体词对应的审核人员的人工标记结果不一致时,可以及时调整更新实体词标注模型,进而有助于提高实体词标注模型的标注精度和准确性。
综上,利用本实施例训练而成的实体词标注模型,可以利用目标实体词的第一标注特征、第二标注特征以及第三标注特征,快速且准确地确定出实体词的标注结果,有效提高了对目标实体词所属类别标注的效率及准确性,避免了人力资源的浪费。
实施例三
本实施例将对一种实体词的标注装置进行介绍,相关内容请参见上述方法实施例。
参见图3,为本实施例提供的一种实体词的标注装置的结构框图,该装置包括:
第一获取单元301,用于获取待标注的目标实体词;所述目标实体词具有至少三种不同的人工标注结果:第一人工标注结果、第二人工标注结果和第三人工标注结果;
第一生成单元302,用于根据所述目标实体词的第一人工标注结果生成第一标注特征;根据所述目标实体词的第二人工标注结果生成第二标注特征;根据所述目标实体词的第三人工标注结果生成第三标注特征;
标注单元303,用于利用预先构建的实体词标注模型,对所述目标实体词的第一标注特征、所述第二标注特征、所述第二标注特征进行标注,获得所述目标实体词的最终标注结果。
在一种可能的实现方式中,所述第一生成单元302包括:
第一选取子单元,用于在所述目标实体词所属的第一目标文本中,选取所述目标实体词之前第一预设个数的词语,以及选取所述目标实体词之后第二预设个数的词语;
第一获得子单元,用于对选取出的所有词语进行向量化,获得每一所述选取出的词语的词向量;
第一构成子单元,用于将获得的词向量构成一组词向量集合,作为所述目标实体词的第一标注特征。
在一种可能的实现方式中,所述第一生成单元302包括:
第二选取子单元,用于在所述目标实体词所属的第二目标文本中,选取所述目标实体词之前第一预设个数的词语,以及选取所述目标实体词之后第二预设个数的词语;
第二获得子单元,用于对选取出的所有词语进行向量化,获得每一所述选取出的词语的词向量;
第二构成子单元,用于将获得的词向量构成一组词向量集合,作为所述目标实体词的第二标注特征。
在一种可能的实现方式中,所述第一生成单元302包括:
第三选取子单元,用于在所述目标实体词所属的第三目标文本中,选取所述目标实体词之前第一预设个数的词语,以及选取所述目标实体词之后第二预设个数的词语;
第三获得子单元,用于对选取出的所有词语进行向量化,获得每一所述选取出的词语的词向量;
第三构成子单元,用于将获得的词向量构成一组词向量集合,作为所述目标实体词的第三标注特征。
在一种可能的实现方式中,所述装置还包括:
第二获取单元,用于获取所述训练实体词所属的样本文本;所述样本文本中训练实体词具有至少三种人工标注的训练标注结果:第一训练标注结果、第二训练标注结果和第三训练标注结果,其中,所述至少三种人工标注的训练标注结果中至少过半数种类的训练标注结果是相同的;
训练单元,用于利用所述训练实体词所属的样本文本,对预先构建的初始实体词标注模型进行训练,得到所述实体词标注模型。
在一种可能的实现方式中,所述装置还包括:
第二生成单元,用于根据所述样本文本中训练实体词的第一训练标注结果生成第一训练标注特征;根据所述样本文本中训练实体词的第二训练标注结果生成第二训练标注特征;根据所述样本文本中训练实体词的第三训练标注结果生成第三训练标注特征;
构建单元,用于根据所述样本文本中训练实体词的第一训练标注特征、第二训练标注特征和第三训练标注特征,构建对应的分类器模型,作为初始实体词标注模型。
在一种可能的实现方式中,所述装置还包括:
第三获取单元,用于获取验证实体词所属的验证文本;所述验证文本中验证实体词具有至少三种人工标注的验证标注结果:第一验证标注结果、第二验证标注结果和第三验证标注结果,其中,所述至少三种人工标注的验证标注结果中至少过半数种类的验证标注结果是相同的;
第三生成单元,用于根据所述验证文本中的验证实体词的第一验证标注结果生成第一验证标注特征;根据所述验证文本中的验证实体词的第二验证标注结果生成第二验证标注特征;根据所述验证文本中的验证实体词的第三验证标注结果生成第三验证标注特征;
获得单元,用于将所述验证文本中验证实体词的第一验证标注特征、第二验证标注特征以及第三验证标注特征输入所述实体词标注模型,获得所述验证文本中验证实体词的标注结果;
更新单元,用于当所述验证文本中验证实体词的标注结果与所述验证文本中验证实体词对应的类别标记结果不一致时,将所述验证实体词所属的验证文本重新作为所述训练实体词所属的样本文本,对所述实体词标注模型进行参数更新。
综上,本实施例提供的一种实体词的标注装置,在获取到具有第一人工标注结果、第二人工标注结果和第三人工标注结果的待标注的目标实体词时,首先根据目标实体词的第一人工标注结果生成第一标注特征;根据目标实体词的第二人工标注结果生成第二标注特征;根据目标实体词的第三人工标注结果生成第三标注特征,然后,再利用预先构建的实体词标注模型,对第一标注特征、第二标注特征、第三标注特征进行标注,以获得目标实体词的最终标注结果,可见,本申请实施例是利用预先训练好的实体词标注模型对待标注的目标实体词进行类别标注,相比于人工选择标注结果的方式,可以实现快速且准确地获得目标实体词的标注结果,且该标注结果消除了人工选择的主观性带来的影响,从而能够更准确地标注出目标实体词的类别。
另外,本申请实施例还提供了一种计算机可读存储介质,所述机算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述的实体词的标注方法。
本申请实施例还提供了一种实体词的标注设备,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上述的实体词的标注方法。
本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行所述的实体词的标注方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种实体词的标注方法,其特征在于,包括:
获取待标注的目标实体词;所述目标实体词具有至少三种不同的人工标注结果:第一人工标注结果、第二人工标注结果和第三人工标注结果;
根据所述目标实体词的第一人工标注结果生成第一标注特征;根据所述目标实体词的第二人工标注结果生成第二标注特征;根据所述目标实体词的第三人工标注结果生成第三标注特征;
利用预先构建的实体词标注模型,对所述目标实体词的第一标注特征、所述第二标注特征、所述第三标注特征进行标注,获得所述目标实体词的最终标注结果。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标实体词的第一人工标注结果生成第一标注特征,包括:
在所述目标实体词所属的第一目标文本中,选取所述目标实体词之前第一预设个数的词语,以及选取所述目标实体词之后第二预设个数的词语;
对选取出的所有词语进行向量化,获得每一所述选取出的词语的词向量;
将获得的词向量构成一组词向量集合,作为所述目标实体词的第一标注特征。
3.根据权利要求1所述的方法,其特征在于,所述根据所述目标实体词的第二人工标注结果生成第二标注特征,包括:
在所述目标实体词所属的第二目标文本中,选取所述目标实体词之前第一预设个数的词语,以及选取所述目标实体词之后第二预设个数的词语;
对选取出的所有词语进行向量化,获得每一所述选取出的词语的词向量;
将获得的词向量构成一组词向量集合,作为所述目标实体词的第二标注特征。
4.根据权利要求1所述的方法,其特征在于,所述根据所述目标实体词的第三人工标注结果生成第三标注特征,包括:
在所述目标实体词所属的第三目标文本中,选取所述目标实体词之前第一预设个数的词语,以及选取所述目标实体词之后第二预设个数的词语;
对选取出的所有词语进行向量化,获得每一所述选取出的词语的词向量;
将获得的词向量构成一组词向量集合,作为所述目标实体词的第三标注特征。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述方法还包括:
获取所述训练实体词所属的样本文本;所述样本文本中训练实体词具有至少三种人工标注的训练标注结果:第一训练标注结果、第二训练标注结果和第三训练标注结果,其中,所述至少三种人工标注的训练标注结果中至少过半数种类的训练标注结果是相同的;
利用所述训练实体词所属的样本文本,对预先构建的初始实体词标注模型进行训练,得到所述实体词标注模型。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
根据所述样本文本中训练实体词的第一训练标注结果生成第一训练标注特征;根据所述样本文本中训练实体词的第二训练标注结果生成第二训练标注特征;根据所述样本文本中训练实体词的第三训练标注结果生成第三训练标注特征;
根据所述样本文本中训练实体词的第一训练标注特征、第二训练标注特征和第三训练标注特征,构建对应的分类器模型,作为初始实体词标注模型。
7.根据权利要求5所述的方法,其特征在于,所述方法还包括:
获取验证实体词所属的验证文本;所述验证文本中验证实体词具有至少三种人工标注的验证标注结果:第一验证标注结果、第二验证标注结果和第三验证标注结果,其中,所述至少三种人工标注的验证标注结果中至少过半数种类的验证标注结果是相同的;
根据所述验证文本中的验证实体词的第一验证标注结果生成第一验证标注特征;根据所述验证文本中的验证实体词的第二验证标注结果生成第二验证标注特征;根据所述验证文本中的验证实体词的第三验证标注结果生成第三验证标注特征;
将所述验证文本中验证实体词的第一验证标注特征、第二验证标注特征以及第三验证标注特征输入所述实体词标注模型,获得所述验证文本中验证实体词的标注结果;
当所述验证文本中验证实体词的标注结果与所述验证文本中验证实体词对应的类别标记结果不一致时,将所述验证实体词所属的验证文本重新作为所述训练实体词所属的样本文本,对所述实体词标注模型进行参数更新。
8.一种实体词的标注装置,其特征在于,所述装置包括:
第一获取单元,用于获取待标注的目标实体词;所述目标实体词具有至少三种不同的人工标注结果:第一人工标注结果、第二人工标注结果和第三人工标注结果;
第一生成单元,用于根据所述目标实体词的第一人工标注结果生成第一标注特征;根据所述目标实体词的第二人工标注结果生成第二标注特征;根据所述目标实体词的第三人工标注结果生成第三标注特征;
标注单元,用于利用预先构建的实体词标注模型,对所述目标实体词的第一标注特征、所述第二标注特征、所述第二标注特征进行标注,获得所述目标实体词的最终标注结果。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行权利要求1-7任一项所述的实体词的标注方法。
10.一种实体词的标注设备,其特征在于,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-7任一项所述的实体词的标注方法。
CN201911417133.8A 2019-12-31 2019-12-31 一种实体词的标注方法、装置、存储介质及设备 Active CN111160034B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911417133.8A CN111160034B (zh) 2019-12-31 2019-12-31 一种实体词的标注方法、装置、存储介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911417133.8A CN111160034B (zh) 2019-12-31 2019-12-31 一种实体词的标注方法、装置、存储介质及设备

Publications (2)

Publication Number Publication Date
CN111160034A true CN111160034A (zh) 2020-05-15
CN111160034B CN111160034B (zh) 2024-02-27

Family

ID=70560276

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911417133.8A Active CN111160034B (zh) 2019-12-31 2019-12-31 一种实体词的标注方法、装置、存储介质及设备

Country Status (1)

Country Link
CN (1) CN111160034B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111681730A (zh) * 2020-05-22 2020-09-18 上海联影智能医疗科技有限公司 医学影像报告的分析方法和计算机可读存储介质
CN113065332A (zh) * 2021-04-22 2021-07-02 深圳壹账通智能科技有限公司 基于阅读模型的文本处理方法、装置、设备及存储介质
WO2023024975A1 (zh) * 2021-08-24 2023-03-02 北京字跳网络技术有限公司 文本处理方法、装置和电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010250814A (ja) * 2009-04-14 2010-11-04 Nec (China) Co Ltd 品詞タグ付けシステム、品詞タグ付けモデルのトレーニング装置および方法
CN103077164A (zh) * 2012-12-27 2013-05-01 新浪网技术(中国)有限公司 文本分析方法及文本分析器
CN105243129A (zh) * 2015-09-30 2016-01-13 清华大学深圳研究生院 商品属性特征词聚类方法
WO2019024704A1 (zh) * 2017-08-03 2019-02-07 阿里巴巴集团控股有限公司 实体标注方法、意图识别方法及对应装置、计算机存储介质
CN109933664A (zh) * 2019-03-12 2019-06-25 中南大学 一种基于情感词嵌入的细粒度情绪分析改进方法
WO2019174422A1 (zh) * 2018-03-16 2019-09-19 北京国双科技有限公司 实体关联关系的分析方法及相关装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010250814A (ja) * 2009-04-14 2010-11-04 Nec (China) Co Ltd 品詞タグ付けシステム、品詞タグ付けモデルのトレーニング装置および方法
CN103077164A (zh) * 2012-12-27 2013-05-01 新浪网技术(中国)有限公司 文本分析方法及文本分析器
CN105243129A (zh) * 2015-09-30 2016-01-13 清华大学深圳研究生院 商品属性特征词聚类方法
WO2019024704A1 (zh) * 2017-08-03 2019-02-07 阿里巴巴集团控股有限公司 实体标注方法、意图识别方法及对应装置、计算机存储介质
WO2019174422A1 (zh) * 2018-03-16 2019-09-19 北京国双科技有限公司 实体关联关系的分析方法及相关装置
CN109933664A (zh) * 2019-03-12 2019-06-25 中南大学 一种基于情感词嵌入的细粒度情绪分析改进方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111681730A (zh) * 2020-05-22 2020-09-18 上海联影智能医疗科技有限公司 医学影像报告的分析方法和计算机可读存储介质
CN111681730B (zh) * 2020-05-22 2023-10-27 上海联影智能医疗科技有限公司 医学影像报告的分析方法和计算机可读存储介质
CN113065332A (zh) * 2021-04-22 2021-07-02 深圳壹账通智能科技有限公司 基于阅读模型的文本处理方法、装置、设备及存储介质
WO2023024975A1 (zh) * 2021-08-24 2023-03-02 北京字跳网络技术有限公司 文本处理方法、装置和电子设备

Also Published As

Publication number Publication date
CN111160034B (zh) 2024-02-27

Similar Documents

Publication Publication Date Title
CN111160034B (zh) 一种实体词的标注方法、装置、存储介质及设备
CN106202030B (zh) 一种基于异构标注数据的快速序列标注方法及装置
CN112908436B (zh) 临床试验数据结构化方法、临床试验推荐方法和装置
CN111222305A (zh) 一种信息结构化方法和装置
CN109829151B (zh) 一种基于分层狄利克雷模型的文本分割方法
CN107844558A (zh) 一种分类信息的确定方法以及相关装置
CN111899090B (zh) 企业关联风险预警方法及系统
CN111143571B (zh) 实体标注模型的训练方法、实体标注方法以及装置
CN114549241A (zh) 合同审查方法、装置、系统与计算机可读存储介质
CN110674301A (zh) 一种情感倾向预测方法、装置、系统及存储介质
CN112613321A (zh) 一种抽取文本中实体属性信息的方法及系统
CN113343696A (zh) 电子病历命名实体的识别方法、装置、远程终端及系统
CN107704869B (zh) 一种语料数据抽样方法及模型训练方法
CN117076688A (zh) 基于领域知识图谱的知识问答方法及其装置、电子设备
CN112507095A (zh) 基于弱监督学习的信息识别方法及相关设备
CN109299470A (zh) 文本公告中触发词的抽取方法及系统
CN107783958B (zh) 一种目标语句识别方法及装置
CN110362828B (zh) 网络资讯风险识别方法及系统
CN110472231A (zh) 一种识别法律文书案由的方法和装置
CN113051869B (zh) 一种结合语义识别实现标识文本差异内容的方法及系统
CN115080732A (zh) 投诉工单处理方法、装置、电子设备和存储介质
CN114756617A (zh) 一种工程档案结构化数据提取方法、系统、设备和存介质
CN111090742B (zh) 一种问答对的评价方法、装置、存储介质及设备
CN110427624B (zh) 实体关系抽取方法及装置
CN112528887A (zh) 审核方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant