CN112633002A - 样本标注、模型训练、命名实体识别方法和装置 - Google Patents
样本标注、模型训练、命名实体识别方法和装置 Download PDFInfo
- Publication number
- CN112633002A CN112633002A CN202011588642.XA CN202011588642A CN112633002A CN 112633002 A CN112633002 A CN 112633002A CN 202011588642 A CN202011588642 A CN 202011588642A CN 112633002 A CN112633002 A CN 112633002A
- Authority
- CN
- China
- Prior art keywords
- sample
- labeled
- sample set
- recognition model
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种样本标注、模型训练、命名实体识别方法和装置,其中,样本标注方法包括:获取目标样本集,所述目标样本集为未标注样本集;将所述目标样本集中的目标样本输入命名实体识别模型,获取所述识别模型的全连接层的输出结果,所述识别模型基于预标注样本集训练得到;基于预设样本选择策略在所述输出结果中选择待标注样本;对所述待标注样本进行标注,得到标注样本。提高命名实体识别的效率和准确率。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种样本标注、模型训练、命名实体识别方法和装置。
背景技术
随着信息化水平持续的提高,互联网上产生了海量的非结构化文本数据,但是人们从这些数据中获取有效信息却变的越来越困难。命名实体识别作为信息抽取技术中的重要组成部分,其主要任务是自动找出文本中人名、地名、组织名、时间等实体。因此,命名实体识别在海量文本数据挖掘中扮演着重要的作用。受益于近些年深度学习的快速发展,命名实体识别任务的准确率得到了极大的提高。然而,在医疗、金融、法律等专业领域内,由于领域的专业性,对样本标注的要求较高,导致样本标注效率低,标注准确率低,进而导致识别效率和识别准确率降低。
因此,如何提高命名实体识别的效率和准确率成为亟待解决的技术问题。
发明内容
本申请提供了一种样本标注、模型训练、命名实体识别方法和装置,以至少解决相关技术中存在的如何提高命名实体识别的效率和准确率的技术问题。
根据本申请实施例的一个方面,提供了一种样本标注方法,包括:获取目标样本集,所述目标样本集为未标注样本集;将所述目标样本集中的目标样本输入命名实体识别模型,获取所述识别模型的全连接层的输出结果,所述识别模型基于预标注样本集训练得到;基于预设样本选择策略在所述输出结果中选择待标注样本;对所述待标注样本进行标注,得到标注样本。
可选地,所述基于预设样本选择策略在所述输出结果中选择待标注样本包括:基于预设原本选择策略评估所述输出结果对应的样本的信息量;判断所述信息量是否大于预设信息量;当所述信息量大于预设信息量时,将所述输出结果对应的样本作为所述待标注样本。
可选地,所述获取所述识别模型的全连接层的输出结果包括:获取所述全连接层的输出矩阵,所述输出矩阵包括目标样本中的实体非标准化概率矩阵;利用损失函数对所述输出矩阵进行标准化得到目标对象分类概率分布矩阵;将所述目标对象分类概率分布矩阵作为所述输出结果。
可选地,样本标注方法还包括:基于所述标注样本对所述识别模型进调整。
可选地,所述基于所述标注样本对所述识别模型进行调整包括:基于所述标注样本对所述预标注样本集和所述目标样本集进行更新;基于更新后的预标注样本集对所述识别模型进行训练,调整所述识别模型参数;在所述目标样本集为空时,停止对所述模型更新。
根据本申请实施例的又一个方面,还提供了一种模型训练方法,包括:获取预标注样本集;基于所述预标注样本集训练初始化的命名实体识别模型,得到预训练识别模型;将未标注样本集对所述预训练识别模型进行增量训练,得到命名实体识别模型,其中,在增量训练过程中,采用预设样本选择策略预训练识别模型的全连接层的输出结果中选择多个待标注样本进行标注后对所述预标注样本集和所述未标注样本集进行更新。
根据本申请实施例的又一个方面,还提供了一种命名实体识别方法,包括:获取待识别样本,所述待识别样本包括基于上述实施例中描述的样本标注方法得到的标注样本;基于训练完成的深度学习模型对所述标注样本进行命名实体识别。
根据本申请实施例的又一个方面,还提供了一种样本标注装置,包括:获取模块,用于获取目标样本集,所述目标样本集为未标注样本集;识别模块,用于将所述目标样本集中的目标样本输入命名实体识别模型,获取所述识别模型的全连接层的输出结果,所述识别模型基于预标注样本集训练得到;选择模块,用于基于预设样本选择策略在所述输出结果中选择待标注样本;标注模块,用于对所述待标注样本进行标注,得到标注样本。
根据本申请实施例的又一个方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;其中,存储器,用于存储计算机程序;处理器,用于通过运行所述存储器上所存储的所述计算机程序来执行上述任一实施例中的方法步骤。
根据本申请实施例的又一个方面,还提供了一种计算机可读的存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一实施例中的方法步骤。
在本申请实施例中,将未标注样本集中目标样本输入至经过预标注样本集训练得到的命名实体识别模型中,并获取到识别模型中的全连接层的输出结果,基于主动学习中的预设样本选择策略在输出结果中选择,得到待标注样本进行标注。利用命名实体识别模型中的全连接层的输出结果的目标对象的分类概率矩阵作为主动学习算法中样本选择策略实现基础,即后验概率分布,将主动学习算法的样本选择策略迁移至命名实体识别模型,利用命名实体识别模型识别出未标注样本中的实体分类概率,再利用主动学习算法利用输出的实体分类概率进行样本选择和标注,可以辅助理解专业领域知识,提高标注效率和准确率,提高命名实体的识别效率和准确率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的一种可选的样本标注方法的硬件环境的示意图;
图2是根据本申请实施例的一种可选的样本标注方法的流程示意图;
图3是根据本申请实施例的另一种可选的命名实体识别模型构建示意图;
图4是根据本申请实施例的一种可选的样本标注装置的结构框图;
图5是根据本申请实施例的一种可选的电子设备的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
正如背景技术所述,为了提高识别准确率和效率以及降低对样本的标注要求,现有技术中采用识别率更高样本要求更少的BERT-CRF模型,然而,发明人发现,BERT-CRF模型对于一些较为专业领域的命名实体识别时其效率和准确率仍然难以提高,发明人经研究发现,对于命名实体的识别时最基础的工作是对于样本的标注,准确、快速、高效的样本标注不仅可以提高识别准确率,而且,可以提高模型的训练效率和识别效率,降低识别成本,然而,对于一些较为专业的领域,例如在医疗、金融、法律等专业领域内,由于对这些领域中的文本进行样本标注时,不仅需要了解命名实体识别任务本身,而且还需要对专业领域有深入的了解。导致样本标注效率低下,准确率差。进而导致命名实体的识别效率和准确率较差,因此,发明人发现,提高识别效率和准确率的根本在于提高对于专业领域的样本的标注效率和准确率。
发明人发现,主动学习算法作为一种降低样本标注成本的方法,在传统机器学习模型上有些广泛的研究及应用。但是,可以将这类算法应用到基于CRF的深度模型上,例如BiLSTM-CRF、Albert-CRF和BERT-CRF这样的深度学习模型上,从而降低样本标注成本。
基于此,根据本申请实施例的一个方面,提供了一种样本标注方法。可选地,在本实施例中,上述样本标注方法可以应用于如图1所示的硬件环境中。如图1所示,
根据本申请实施例的一个方面,提供了一种样本标注方法。可选地,在本实施例中,上述样本标注方法可以应用于如图1所示的由终端102和服务器104所构成的硬件环境中。如图1所示,服务器104通过网络与终端102进行连接,可用于为终端或终端上安装的客户端提供服务,可在服务器上或独立于服务器设置数据库,用于为服务器104提供数据存储服务,还可以用于处理云服务,上述网络包括但不限于:广域网、城域网或局域网,终端102并不限定于PC、手机、平板电脑等。本申请实施例的样本标注方法可以由服务器104来执行,也可以由终端102来执行,还可以是由服务器104和终端102共同执行。其中,终端102执行本申请实施例的样本标注方法也可以是由安装在其上的客户端来执行。
以由终端102和/或服务器104来执行本实施例中的样本标注方法为例,图2是根据本申请实施例的一种可选的样本标注方法的流程示意图,如图2所示,该方法的流程可以包括以下步骤:
步骤S202,获取目标样本集,所述目标样本集为未标注样本集;
步骤S204,将所述目标样本集中的目标样本输入命名实体识别模型,获取所述识别模型的全连接层的输出结果,所述识别模型基于预标注样本集训练得到;
步骤S206,基于预设样本选择策略在所述输出结果中选择待标注样本;
步骤S208,对所述待标注样本进行标注,得到标注样本。
通过上述步骤S202至步骤S208,将未标注样本集中目标样本输入至经过预标注样本集训练得到的命名实体识别模型中,并获取到识别模型中的全连接层的输出结果,基于主动学习中的预设样本选择策略在输出结果中选择,得到待标注样本进行标注。利用命名实体识别模型中的全连接层的输出结果的目标对象的分类概率矩阵作为主动学习算法中样本选择策略实现基础,即后验概率分布,将主动学习算法的样本选择策略迁移至命名实体识别模型,利用命名实体识别模型识别出未标注样本中的实体分类概率,再利用主动学习算法利用输出的实体分类概率进行样本选择和标注,可以辅助理解专业领域知识,提高标注效率和准确率,提高命名实体的识别效率和准确率。
对于步骤S204中的技术方案,将所述目标样本集中的目标样本输入命名实体识别模型,获取所述识别模型的全连接层的输出结果,所述识别模型基于预标注样本集训练得到该命名实体识别模型可以采用基于CRF的深度模型,例如BiLSTM-CRF、Albert-CRF和BERT-CRF等深度学习模型,在本实施例中,以BERT-CRF模型为例,使用标注好的命名实体识别数据集训练模型BERT-CRF,设输入模型的文本序列为x=(x1,x2…xn),模型的输出则为y=(y1,y2…yn),其中xi是序列中的第i个输入,yi是xi对应的类别标签,n是整个序列的长度。
命名实体识别的标签体系通常采用BIO标注体系,示例性的,使用“B”、“I”和“O”作为前缀来表示实体的位置,使用自定义的标签表示实体的类别。具体来说,“B”表示命名实体的开始位置,“I”表示命名实体的内部,“O”表示非命名实体。常见的命名实体识别任务中需要识别人名、地名和组织机构名,分别使用PER、LOC和ORG表示对应的实体类别。那么,实体标签共有7个类别,包括:B-PER、I-PER、B-LOC、I-LOC、B-ORG、I-ORG、O。其中,如图3所示,模型BERT-CRF的结构可以分为四部分,分别是:输入表示层、BERT编码层、全连接层和CRF层,其中,将目标样本集中的目标样本输入到模型BERT-CRF中,其全连接层输出的是每个字的非标准化分类概率,以“沙特队教练佩雷拉。”为目标样本为例,如下表所示的全连接层输出的每个字的非标准化分类概率,参见表1:
表1
矩阵的每列对应输入文本中的一个字,列的值是对该字进行分类的非标准化概率。例如,“沙”字对应的列为[-2.615,-1.177,-0.943,-0.128,0.7966,-0.366,0.0056],由于0.7966是列中的最大值,所以“沙”字的预测标签为B-ORG。
对于步骤S206,可以采用预设的主动学习算法中的样本选择策略,例如样本选择策略TE(Token Entropy),TTE、MNLP或者其他使用后验概率分布的主动学习方法对全连接层的输出结果对应的样本进行信息量评估,选择待标注样本,在选择出待标注的样本之后,可以待标注样本进行标注,得到标注样本。
作为示例性的实施例,下面将介绍主动学习算法对于样本的标注利用已有的模型对未标注样本的信息量进行评估,然后挑选出信息量最大的样本交由人类专家进行标注。这种方式可以有效的提高样本的标注效率,减少对不必要样本的标注。常见的主动学习可以分为以下五大类:基于不确定性采样的主动学习、基于委员会查询的主动学习、基于模型变化期望的主动学习、基于期望误差缩减的主动学习、基于密度的主动学习。
具体来说,主动学习算法可以由以下五个组件进行建模:
A=(M,L,S,Q,U)
其中M为一个或者一组模型;L是一组已标注的训练数据集;U是整个待标注数据集;Q为样本选择策略,用于在未标注的样本中查询信息量大的样本;S为人类专家,可以对未标注样本进行标注。主动学习是一个不断循环的过程,算法通过样本选择策略获得一部分未标注样本xu,然后请求人类专家对其进行样本标注。将标注好的样本合并到数据集L中,并使用L训练模型M。
作为示例性的实施例,基于预设样本选择策略在所述输出结果中选择待标注样本可以包括:BERT-CRF模型前向传播的过程中,全连接层输出的非标准化分类概率矩阵(参见表1所示)其中n是输入样本的长度,M是实体类别的标签数量;
使用softmax函数对矩阵z的列进行标准化,得到矩阵s,形式化表示为
其中,zij表示矩阵z的第i行、第j列的取值;T是一个用于平滑的超参数,由人工指定;
使用样本选择策略TE(Token Entropy)评估样本x的信息量,即
其中,p(yi=m|x;θ)表示输入文本中第i个字属于类别m的概率;
若φ(x)≥λ(λ为人工设置的阈值),则认为样本x的信息量足够,将其交给人类专家进行标注;否则,放弃标注。
作为示例性的实施例,在样本标注的过程中,还可以对识别模型进行实时调整,具体的,基于所述标注样本对所述识别模型进调整。示例性的,基于所述标注样本对所述预标注样本集和所述目标样本集进行更新;基于更新后的预标注样本集对所述识别模型进行训练,调整所述识别模型参数;在所述目标样本集为空时,停止对所述模型更新。在利用已经标注的样本更新预标注样本集,并对识别模型进行实时调整可以保证识别模型的识别的准确性,提高标注准确率和效率。
由于模型BERT-CRF复杂,将主动学习算法应用在模型BERT-CRF上将会消耗大量的时间导致模型训练效率低,因此,本申请实施例提出了一种模型训练方法,该模型训练方法采用增量训练,具体可以包括:获取预标注样本集;基于所述预标注样本集训练初始化的命名实体识别模型,得到预训练识别模型;将未标注样本集对所述预训练识别模型进行增量训练,得到命名实体识别模型,其中,在增量训练过程中,采用预设样本选择策略预训练识别模型的全连接层的输出结果中选择多个待标注样本进行标注后对所述预标注样本集和所述未标注样本集进行更新。具体的,将未标注样本集输入至所述预训练识别模型,获取所述预训练识别模型的全连接层的输出结果;基于预设样本选择策略在所述输出结果中选择多个待标注样本;对多个所述待标注样本进行标注,得到多个标注样本;基于多个所述标注样本对所述预标注样本集和所述目标样本集进行更新;基于更新后的预标注样本集对所述预训练识别模型进行参数调整,并重复将未标注样本集输入至所述预训练识别模型,获取所述预训练识别模型的全连接层的输出结果;基于预设样本选择策略在所述输出结果中选择多个待标注样本;对多个所述待标注样本进行标注,得到多个标注样本;基于多个所述标注样本对所述预标注样本集和所述目标样本集进行更新;基于更新后的预标注样本集对所述预训练识别模型进行参数调整的步骤,直至所述未标注样本集为空。
示例性的,可以包括如下步骤:
步骤1.初始化标注数据集L和未标注数据集U;
步骤2.初始化一个未训练的模型BERT-CRF,称为M;
步骤3.选择一种能够迁移至模型BERT-CRF的样本选择策略,令其信息量评估函数为φ(x);
步骤4.使用标注数据集L训练当前的模型M,即M←Train(M,L,ε);Train表示模型的训练过程,ε表示模型M在数据集L上迭代训练的次数;
步骤5.将U中的所有样本输入至模型M中,使用φ(x)评估这些样本的信息量,并选择最具信息量的前b个样本,组成样本集xu;
步骤6.对样本集xu进行标注,并更新数据集L和U,即L=L∪xu,U=U∪xu;
步骤7.微调模型M,即M←Train(M,L,ε'),其中ε'=ε;
步骤9.输出最终的标注数据集L;
采用增量训练的方式训练将主动学习算法应用在模型BERT-CRF的命名实体识别模型,只在开始时训练整个模型,之后只需要进行简单微调模型即可,从而降低了算法的时间消耗,提高样本标注效率和准确率,进而提高了识别效率和准确率。
本发明实施例还提供了一种命名实体识别方法,包括:
获取待识别样本,所述待识别样本包括基于上述实施例描述的样本标注方法得到的标注样本;
基于训练完成的深度学习模型对所述标注样本进行命名实体识别。
在本实施例中,深度学习模型可以选择上述实施例中训练完成的基于CRF的深度学习模型,在上述实施例中的方法提高样本标注效率和准确率的前提下,采用上述标注样本进行命名实体识别,可以提高专业领域命名实体识别的效率和准确率,并且,样本标注和命名实体识别采用同一训练完成的模型,节省单独模型的训练时间,进一步提高了识别效率。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM(Read-Only Memory,只读存储器)/RAM(Random Access Memory,随机存取存储器)、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
根据本申请实施例的另一个方面,还提供了一种用于实施上述样本标注方法的样本标注装置。图4是根据本申请实施例的一种可选的样本标注装置的示意图,如图4所示,该装置可以包括:
(1)获取模块402,用于获取目标样本集,所述目标样本集为未标注样本集;
(2)识别模块404,用于将所述目标样本集中的目标样本输入命名实体识别模型,获取所述识别模型的全连接层的输出结果,所述识别模型基于预标注样本集训练得到
(3)选择模块406,用于基于预设样本选择策略在所述输出结果中选择待标注样本;
(4)标注模块408,用于对所述待标注样本进行标注,得到标注样本。
需要说明的是,该实施例中的获取模块402可以用于执行上述步骤S202,该实施例中的识别模块404可以用于执行上述步骤S204,该实施例中的选择模块406可以用于执行上述步骤S206,该实施例中的标注模块408可以用于执行上述步骤S208。
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现,其中,硬件环境包括网络环境。
根据本申请实施例的又一个方面,还提供了一种用于实施上述样本标注方法的电子设备,该电子设备可以是服务器、终端、或者其组合。
图5是根据本申请实施例的一种可选的电子设备的结构框图,如图5所示,包括处理器502、通信接口504、存储器506和通信总线508,其中,处理器502、通信接口504和存储器506通过通信总线508完成相互间的通信,其中,
存储器506,用于存储计算机程序;
处理器502,用于执行存储器506上所存放的计算机程序时,实现如下步骤:
获取目标样本集,所述目标样本集为未标注样本集;
将所述目标样本集中的目标样本输入命名实体识别模型,获取所述识别模型的全连接层的输出结果,所述识别模型基于预标注样本集训练得到;
基于预设样本选择策略在所述输出结果中选择待标注样本;
对所述待标注样本进行标注,得到标注样本。
可选地,在本实施例中,上述的通信总线可以是PCI(Peripheral ComponentInterconnect,外设部件互连标准)总线、或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括RAM,也可以包括非易失性存储器(non-volatile memory),例如,至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。
作为一种示例,如图5所示,上述存储器502中可以但不限于包括上述样本标注装置中的获取模块402、识别模块404以及选择模块406和标注模块408。此外,还可以包括但不限于上述样本标注装置中的其他模块单元,本示例中不再赘述。
上述处理器可以是通用处理器,可以包含但不限于:CPU(Central ProcessingUnit,中央处理器)、NP(Network Processor,网络处理器)等;还可以是DSP(DigitalSignal Processing,数字信号处理器)、ASIC(Application Specific IntegratedCircuit,专用集成电路)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
本领域普通技术人员可以理解,图5所示的结构仅为示意,实施上述样本标注方法的设备可以是终端设备,该终端设备可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图5其并不对上述电子装置的结构造成限定。例如,终端设备还可包括比图5中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图5所示的不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、ROM、RAM、磁盘或光盘等。
根据本申请实施例的又一个方面,还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于执行样本标注方法的程序代码。
可选地,在本实施例中,上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:
获取目标样本集,所述目标样本集为未标注样本集;
将所述目标样本集中的目标样本输入命名实体识别模型,获取所述识别模型的全连接层的输出结果,所述识别模型基于预标注样本集训练得到;
基于预设样本选择策略在所述输出结果中选择待标注样本;
对所述待标注样本进行标注,得到标注样本。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例中对此不再赘述。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、ROM、RAM、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例中所提供的方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种样本标注方法,其特征在于,包括:
获取目标样本集,所述目标样本集为未标注样本集;
将所述目标样本集中的目标样本输入命名实体的识别模型,获取所述识别模型的全连接层的输出结果,所述识别模型基于预标注样本集训练得到;
基于预设样本选择策略在所述输出结果中选择待标注样本;
对所述待标注样本进行标注,得到标注样本。
2.如权利要求1所述的样本标注方法,其特征在于,所述基于预设样本选择策略在所述输出结果中选择待标注样本包括:
基于预设原本选择策略评估所述输出结果对应的样本的信息量;
判断所述信息量是否大于预设信息量;
当所述信息量大于预设信息量时,将所述输出结果对应的样本作为所述待标注样本。
3.如权利要求1所述的样本标注方法,其特征在于,所述获取所述识别模型的全连接层的输出结果包括:
获取所述全连接层的输出矩阵,所述输出矩阵包括目标样本中的实体非标准化概率矩阵;
利用损失函数对所述输出矩阵进行标准化得到目标对象分类概率分布矩阵,
将所述目标对象分类概率分布矩阵作为所述输出结果。
4.如权利要求1所述的样本标注方法,其特征在于,还包括:
基于所述标注样本对所述识别模型进调整。
5.如权利要求4所述的样本标注方法,其特征在于,所述基于所述标注样本对所述识别模型进行调整包括:
基于所述标注样本对所述预标注样本集和所述目标样本集进行更新;
基于更新后的预标注样本集对所述识别模型进行训练,调整所述识别模型的参数;
在所述目标样本集为空时,停止对所述识别模型更新。
6.一种模型训练方法,其特征在于,包括:
获取预标注样本集;
基于所述预标注样本集训练初始化的命名实体识别模型,得到预训练识别模型;
将未标注样本集对所述预训练识别模型进行增量训练,得到命名实体识别模型,其中,在增量训练过程中,采用预设样本选择策略预训练识别模型的全连接层的输出结果中选择多个待标注样本进行标注后对所述预标注样本集和所述未标注样本集进行更新。
7.一种命名实体识别方法,其特征在于,包括:
获取待识别样本,所述待识别样本包括基于权利要求1-5任意一项所述的样本标注方法得到的标注样本;
基于训练完成的深度学习模型对所述标注样本进行命名实体识别。
8.一种样本标注装置,其特征在于,包括:
获取模块,用于获取目标样本集,所述目标样本集为未标注样本集;
识别模块,用于将所述目标样本集中的目标样本输入命名实体识别模型,获取所述识别模型的全连接层的输出结果,所述识别模型基于预标注样本集训练得到;
选择模块,用于基于预设样本选择策略在所述输出结果中选择待标注样本;
标注模块,用于对所述待标注样本进行标注,得到标注样本。
9.一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口和所述存储器通过所述通信总线完成相互间的通信,其特征在于,
所述存储器,用于存储计算机程序;
所述处理器,用于通过运行所述存储器上所存储的所述计算机程序来执行权利要求1至5中任一项所述的样本标注方法步骤和/或如权利要求6所述的模型训练方法步骤和/或权利要求7所述的命名实体识别方法步骤。
10.一种计算机可读的存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行权利要求1至5中任一项所述的样本标注方法步骤和/或如权利要求6所述的模型训练方法步骤和/或权利要求7所述的命名实体识别方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011588642.XA CN112633002A (zh) | 2020-12-29 | 2020-12-29 | 样本标注、模型训练、命名实体识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011588642.XA CN112633002A (zh) | 2020-12-29 | 2020-12-29 | 样本标注、模型训练、命名实体识别方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112633002A true CN112633002A (zh) | 2021-04-09 |
Family
ID=75285989
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011588642.XA Pending CN112633002A (zh) | 2020-12-29 | 2020-12-29 | 样本标注、模型训练、命名实体识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112633002A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113763572A (zh) * | 2021-09-17 | 2021-12-07 | 北京京航计算通讯研究所 | 一种基于ai智能识别的3d实体标注方法及存储介质 |
CN114118305A (zh) * | 2022-01-25 | 2022-03-01 | 广州市玄武无线科技股份有限公司 | 一种样本筛选方法、装置、设备及计算机介质 |
CN114417871A (zh) * | 2021-12-17 | 2022-04-29 | 北京百度网讯科技有限公司 | 模型训练及命名实体识别方法、装置、电子设备及介质 |
CN114510943A (zh) * | 2022-02-18 | 2022-05-17 | 北京大学 | 一种基于伪样本重放的增量式命名实体识别方法 |
CN115146716A (zh) * | 2022-06-22 | 2022-10-04 | 腾讯科技(深圳)有限公司 | 标注方法、装置、设备、存储介质及程序产品 |
CN117634489A (zh) * | 2023-11-29 | 2024-03-01 | 中国电子投资控股有限公司 | 一种样本选择方法、样本选择系统、识别方法和识别系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109697289A (zh) * | 2018-12-28 | 2019-04-30 | 北京工业大学 | 一种改进的用于命名实体识别的主动学习方法 |
CN110704633A (zh) * | 2019-09-04 | 2020-01-17 | 平安科技(深圳)有限公司 | 命名实体识别方法、装置、计算机设备及存储介质 |
CN111553164A (zh) * | 2020-04-29 | 2020-08-18 | 平安科技(深圳)有限公司 | 命名实体识别模型的训练方法、装置、计算机设备 |
CN111680512A (zh) * | 2020-05-11 | 2020-09-18 | 上海阿尔卡特网络支援系统有限公司 | 命名实体识别模型、电话总机转接分机方法及系统 |
CN111738004A (zh) * | 2020-06-16 | 2020-10-02 | 中国科学院计算技术研究所 | 一种命名实体识别模型的训练方法及命名实体识别的方法 |
-
2020
- 2020-12-29 CN CN202011588642.XA patent/CN112633002A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109697289A (zh) * | 2018-12-28 | 2019-04-30 | 北京工业大学 | 一种改进的用于命名实体识别的主动学习方法 |
CN110704633A (zh) * | 2019-09-04 | 2020-01-17 | 平安科技(深圳)有限公司 | 命名实体识别方法、装置、计算机设备及存储介质 |
CN111553164A (zh) * | 2020-04-29 | 2020-08-18 | 平安科技(深圳)有限公司 | 命名实体识别模型的训练方法、装置、计算机设备 |
CN111680512A (zh) * | 2020-05-11 | 2020-09-18 | 上海阿尔卡特网络支援系统有限公司 | 命名实体识别模型、电话总机转接分机方法及系统 |
CN111738004A (zh) * | 2020-06-16 | 2020-10-02 | 中国科学院计算技术研究所 | 一种命名实体识别模型的训练方法及命名实体识别的方法 |
Non-Patent Citations (3)
Title |
---|
康莉: "基于知识图谱的心血管病问答系统的研究与实现", 《万方学位论文全文数据库》, pages 1 - 87 * |
李焕: "基于深度学习与主动学习的中医术语识别研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, pages 1 - 62 * |
王润奇: "基于主动学习和半监督学习方法的医疗实体及其修饰识别研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, pages 1 - 35 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113763572A (zh) * | 2021-09-17 | 2021-12-07 | 北京京航计算通讯研究所 | 一种基于ai智能识别的3d实体标注方法及存储介质 |
CN113763572B (zh) * | 2021-09-17 | 2023-06-27 | 北京京航计算通讯研究所 | 一种基于ai智能识别的3d实体标注方法及存储介质 |
CN114417871A (zh) * | 2021-12-17 | 2022-04-29 | 北京百度网讯科技有限公司 | 模型训练及命名实体识别方法、装置、电子设备及介质 |
CN114118305A (zh) * | 2022-01-25 | 2022-03-01 | 广州市玄武无线科技股份有限公司 | 一种样本筛选方法、装置、设备及计算机介质 |
CN114510943A (zh) * | 2022-02-18 | 2022-05-17 | 北京大学 | 一种基于伪样本重放的增量式命名实体识别方法 |
CN114510943B (zh) * | 2022-02-18 | 2024-05-28 | 北京大学 | 一种基于伪样本重放的增量式命名实体识别方法 |
CN115146716A (zh) * | 2022-06-22 | 2022-10-04 | 腾讯科技(深圳)有限公司 | 标注方法、装置、设备、存储介质及程序产品 |
CN117634489A (zh) * | 2023-11-29 | 2024-03-01 | 中国电子投资控股有限公司 | 一种样本选择方法、样本选择系统、识别方法和识别系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112633002A (zh) | 样本标注、模型训练、命名实体识别方法和装置 | |
CN106980683B (zh) | 基于深度学习的博客文本摘要生成方法 | |
CN109992664B (zh) | 争议焦点的标注分类方法、装置、计算机设备和存储介质 | |
CN111881671B (zh) | 一种属性词提取方法 | |
CN111209738A (zh) | 一种联合文本分类的多任务命名实体识别方法 | |
CN110866107A (zh) | 素材语料的生成方法、装置、计算机设备和存储介质 | |
CN111259647A (zh) | 基于人工智能的问答文本匹配方法、装置、介质及电子设备 | |
CN108829671B (zh) | 基于调查数据的决策的方法、装置、存储介质和终端设备 | |
CN113360654B (zh) | 文本分类方法、装置、电子设备及可读存储介质 | |
CN111324738A (zh) | 一种确定文本标签的方法和系统 | |
CN115687610A (zh) | 文本意图分类模型训练方法、识别方法、装置、电子设备及存储介质 | |
CN116821373A (zh) | 基于图谱的prompt推荐方法、装置、设备及介质 | |
CN115018656A (zh) | 风险识别方法、风险识别模型的训练方法、装置和设备 | |
CN110807693A (zh) | 专辑的推荐方法、装置、设备和存储介质 | |
CN114428860A (zh) | 院前急救病例文本的识别方法、装置、终端及存储介质 | |
CN111382243A (zh) | 文本的类别匹配方法、类别匹配装置及终端 | |
CN112597299A (zh) | 文本的实体分类方法、装置、终端设备和存储介质 | |
CN112132269B (zh) | 模型处理方法、装置、设备及存储介质 | |
CN113987170A (zh) | 基于卷积神经网络的多标签文本分类方法 | |
CN114840642A (zh) | 事件抽取方法、装置、设备及存储介质 | |
CN112328879A (zh) | 新闻推荐方法、装置、终端设备及存储介质 | |
CN116911955B (zh) | 目标推荐模型的训练方法及装置 | |
CN116205230A (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN113407843A (zh) | 用户画像生成方法、装置、电子设备及计算机存储介质 | |
CN114020930A (zh) | 基于会话场景的用户标签识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |