CN110287481A - 命名实体语料标注训练系统 - Google Patents

命名实体语料标注训练系统 Download PDF

Info

Publication number
CN110287481A
CN110287481A CN201910455086.XA CN201910455086A CN110287481A CN 110287481 A CN110287481 A CN 110287481A CN 201910455086 A CN201910455086 A CN 201910455086A CN 110287481 A CN110287481 A CN 110287481A
Authority
CN
China
Prior art keywords
model
name entity
corpus
name
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910455086.XA
Other languages
English (en)
Other versions
CN110287481B (zh
Inventor
代翔
崔莹
黄细凤
杨露
丁洪丽
张志�
朱宇涛
谭礼晋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Electronic Technology Institute No 10 Institute of Cetc
Original Assignee
Southwest Electronic Technology Institute No 10 Institute of Cetc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Electronic Technology Institute No 10 Institute of Cetc filed Critical Southwest Electronic Technology Institute No 10 Institute of Cetc
Priority to CN201910455086.XA priority Critical patent/CN110287481B/zh
Publication of CN110287481A publication Critical patent/CN110287481A/zh
Application granted granted Critical
Publication of CN110287481B publication Critical patent/CN110287481B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Abstract

本发明公开的一种命名实体语料标注训练系统,旨在提供一种能够提高命名实体识别的准确率、正确率、召回率的命名实体识别的半自动化标注训练装置。本发明通过下述技术方案予以实现:命名实体语料标注准备模块在标注过程中提供可选择适用的标注算法;半自动化语料命名实体标注模块自主选择适配算法并开展自动标注,基于命名实体提取算法中至少一个命名实体抽取算法,对待标注文本语料数据进行单一命名实体的预标注处理;当标注任务完成后,反馈式模型学习训练模块使用标注语料对命名实体模型进行训练,自动反馈调整完成新的命名实体标注任务;命名实体标注模型效果评估模块对模型指标量化标注效果进行评估,根据评估结果推荐默认最适算法模型。

Description

命名实体语料标注训练系统
技术领域
本发明涉及训练语料和应用的文本挖掘技术领域,尤其涉及命名实体语料半自动化标注训练方法和装置。
背景技术
近年来,基于神经网络的深度学习方法在计算机视觉、语音识别等领域取得了巨大成功,另外在自然语言处理领域也取得了不少进展。在NLP的关键性基础任务—命名实体识别(Named Entity Recognition,NER)的研究中,深度学习也获得了不错的效果。但对于深度学习方法,一般需要大量标注语料,否则极易出现过拟合,无法达到预期的泛化能力。伴随大数据采集获取手段的高速发展,从数据中挖掘最大化价值变得尤为急迫,这对大数据的智能化分析提出了全新需求。其技术底层使用的模型算法更多需要依赖于大量的数据标注语料作为基础训练支撑。海量数据语料标注工作对算法模型的训练有着重要影响,同时作为大数据分析过程中的基础性工作,主要支撑了大数据日常研发、算法调优、演示验证等环节,是大数据挖掘分析的核心基础。命名实体识别(NER)是在自然语言处理中的一个经典问题,其应用也极为广泛。比如从一句话中识别出人名、地名,从电商的搜索中识别出产品的名字,识别药物名称等等。传统的公认比较好的处理算法是条件随机场(CRF),它是一种判别式概率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列。命名实体识别是自然语言处理研究领域中的一项很重要的基础性任务。命名实体识别NER,又称作“专名识别”,是指识别文本中具有特定意义的实体,应用范围非常广泛。命名实体一般指的是文本中具有特定意义或者指代性强的实体,通常包括人名、地名、机构名、组织机构名、日期时间、专有名词等。NER系统就是从非结构化的输入文本中抽取出上述实体,并且可以按照业务需求识别出更多类别的实体,比如产品名称、型号、价格等。因此实体这个概念可以很广,只要是业务需要的特殊文本片段都可以称为实体。序列标注问题如中文分词、命名实体识别,分类问题如关系识别、情感分析、意图分析等,均需要标注数据进行模型训练。从自然语言处理的流程来看,NER可以看作词法分析中未登录词识别的一种,是未登录词中数量最多、识别难度最大、对分词效果影响最大问题。同时NER也是关系抽取、事件抽取、知识图谱、机器翻译、问答系统等诸多NLP任务的基础。与其他信息检索领域相比,实体命名评测预料较小,容易产生过拟合;命名实体识别更侧重高召回率,但在信息检索领域,高准确率更重要;通用的识别多种类型的命名实体的系统性能很差。命名实体中的汉语和英语相比,汉语命名实体识别任务更加复杂,而且相对于实体类别标注子任务,实体边界的识别更加困难。同时,目前领域内命名实体语料相对匮乏,且命名实体语料标注工作目前主要通过人工标注来完成,广泛存在语料标注质量差、标注过程繁琐、标注效率低、人力资源成本高等问题。因此,迫切需要一套能够辅助人工标注语料的半自动命名实体标注和训练平台来解决以上问题。
命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。一般来说,命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。NER任务中的常用模型包括生成式模型HMM、判别式模型CRF等。条件随机场(ConditionalRandom Field,CRF)是NER目前的主流模型。它的目标函数不仅考虑输入的状态特征函数,而且还包含了标签转移特征函数。在训练时可以使用SGD学习模型参数。在已知模型时,给输入序列求预测输出序列即求使目标函数最大化的最优序列,是一个动态规划问题,可以使用Viterbi算法解码来得到最优标签序列。神经网络可以有效处理许多NLP任务。这类方法对于序列标注任务(如CWS、POS、NER)的处理方式是类似的:将token从离散one-hot表示映射到低维空间中成为稠密的embedding,随后将句子的embedding序列输入到RNN中,用神经网络自动提取特征,Softmax来预测每个token的标签。这种方法使得模型的训练成为一个端到端的过程,而非传统的pipeline,不依赖于特征工程,是一种数据驱动的方法,但网络种类繁多、对参数设置依赖大,模型可解释性差。此外,这种方法的一个缺点是对每个token打标签的过程是独立的进行,不能直接利用上文已经预测的标签(只能靠隐含状态传递上文信息),进而导致预测出的标签序列可能是无效的,例如标签I-PER后面是不可能紧跟着B-PER的,但Softmax不会利用到这个信息。在对GPU并行计算的利用上不如CNN那么强大。而对NER来讲,整个输入句子中每个字都有可能对当前位置的标注产生影响,即所谓的长距离依赖问题。对于序列标注来讲,普通CNN有一个不足,就是卷积之后,末层神经元可能只是得到了原始输入数据中一小块的信息。为了覆盖到全部的输入信息就需要加入更多的卷积层,导致层数越来越深,参数越来越多。而为了防止过拟合又要加入更多的Dropout之类的正则化,带来更多的超参数,整个模型变得庞大且难以训练。
命名实体识别属于未登录词识别的范畴。对于这类未登录词的识别,一直是中文信息处理领域研究的热点问题之一。因为这类词在界定规范上不存在太大的分歧,其构成形式也有一定的规律可循;另一方面,这类词汇在通常的文本中出现的次数仅占文本总词数的大约8.7%,但是它们引起的错误却往往在错误总数的中占很大比重,如由他们引起的分词错误占分词错误总数的59.2%,也就是说,由命名实体的错误识别引发的错误已经成为影响一些中文信息处理方法性能的重要因素。传统的方法是需要先预定义一组实体所属类型,随后使用大量的标注数据来训练多分类器。早期的命名实体识别方法基本都是基于规则的。之后由于基于大规模的语料库的统计方法在自然语言处理各个方面取得不错的效果之后,一大批机器学习的方法也出现在命名实体类识别任务。近年来,基于统计的方法已经成为解决命名实体识别任务的主流,其基本思想是通过对人工标注的语料进行统计分析,从中学习到相应的知识,然后构建标注器,并利用标注器来完成任务。得益于新闻领域的丰富语料,目前,命名实体识别在该领域已经取得了很好的性能,这种方法一般需要先使用大量的人工标注语料来训练模型,然后再使用训练好的模型来完成相应的任务。因而,基于统计的方法往往需要收集大量人工标注的数据。当训练数据与测试数据属于不同的领域时,使用训练数据训练的模型在测试数据上的性能会下降很多,这主要是在不同领域中,人们习惯使用的词汇不同,并且相同的词汇可能所表达的意思也是不同的,这就导致词汇特征的分布的不同,因而,当使用训练数据中的词汇特征分布来估计另一种不同领域中的词汇特征分布时,将会产生很大的偏差,所以模型的性能就会下降。在非新闻领域,特别是缺乏人工标注数据的领域,命名实体识别的性能仍然很差。基于统计的方法对特征选取的要求较高,需要从文本中选择对该项任务有影响的各种特征,并将这些特征加入到特征向量中。而且基于统计的方法对语料库的依赖也比较大,而可以用来建设和评估命名实体识别系统的大规模通用语料库又比较少。由于大规模的人工标注数据的获取需要花费较大的人力物力,训练语料的缺乏,导致模型的领域自适应能力较差。这也就导致了现有的命名实体识别方法很难得到大范围的推广。针对这种现象,通常使用半监督的学习方法或者寻找更为通用的特征来提高模型在这些领域的性能。有监督的学习方法需要利用大规模的已标注语料对模型进行参数训练。命名实体识别(Named Entity Recognition,简称NER)是信息提取、问答系统、句法分析、机器翻译等应用领域的重要基础工具。词性标注是分词后紧接着的一个任务,命名实体识别是词性标注的后续任务,命名实体识别器的输入不再是纯文本,而是分词结果与词性标注结果。
本发明研究一种命名实体语料标注训练系统,技术着眼于解决上述命名实体语料标注及训练过程中使用语料存在的弊端,并提出相应的命名实体语料半自动化标注训练方法和装置。
发明内容
本发明的发明目的针对现有技术存在的不足之处,提供一种能够提高命名实体识别的准确率、中文命名实体识别的正确率、召回率的命名实体识别;命名实体语料半自动化标注训练方法和装置,
本发明的上述目的可以通过以下措施来得到,一种命名实体语料标注训练系统,包括:命名实体语料标注准备模块、半自动化语料命名实体标注模块、反馈式命名实体标注算法模型学习训练模块和命名实体标注模型效果评估模块,其特征在于:命名实体语料标注准备模块针对不同命名实体语料,对命名实体语料来源选择,对不同来源的数据进行区分,在标注过程中提供可选择适用的标注算法;半自动化语料命名实体标注模块针对不同标注使用需求及语料特点,自主选择适配算法并开展自动标注,通过集成条件随机场CRF、长短时记忆网络LSTM+CRF、隐马尔科夫模型HMM、支持向量机SVM、基于图排序的命名实体提取算法中至少一个命名实体抽取算法,对待标注文本语料数据进行单一命名实体的预标注处理或多命名实体融合的预标注处理,提供统一的命名实体模型接入标准完成语料命名实体标注工作;当标注任务完成后,反馈式模型学习训练模块针对内外部标注模型算法,提供模型学习训练、使用标注语料对命名实体模型进行重新训练,反馈模型完善更新,通过模型更新与语料标注之间的不断迭代,自动反馈调整完成新的命名实体标注任务;命名实体标注模型效果评估模块根据评估指标构建标注、构建规则,自动构建标注算法,建立标注算法综合评估模型,对模型指标量化标注效果进行评估,根据评估结果为半自动化命名实体语料标注模块推荐默认最适算法模型。
本发明相比于现有技术具有如下有益效果:
可降低人工标注过程繁复度,减轻人力工作成本。本发明采用主要由命名实体语料标注准备、半自动化语料命名实体标注、反馈式模型学习训练、命名实体标注模型效果评估四部分模块组成系统,可针对不同标注使用需求及语料特点,提供基于自主选择适配算法和多算法融合的自动标注方式,多算法融合自动标注采用投票方法对多算法结果进行融合处理,在忽略相关性的条件下,集成方法的性能优于单一方法,通过该方法进行的预标注工作可降低人工标注过程繁复度,减轻人力工作成本,具有一定的灵活性和较高的自动化处理能力。
命名实体语料标注效率高。本发明通过对不同来源的数据进行区分,实现对命名实体语料的管理;通过支持实时后台集成条件随机场CRF、长短时记忆网络LSTM+CRF、隐马尔科夫模型HMM、支持向量机SVM、基于图排序的命名实体提取算法等命名实体抽取算法,针对不同命名实体语料,在标注过程中提供适用的标注算法供可选择,同时可通过基于业务规则的自动标注对待标注文本语料数据进行单一算法的命名实体预标注处理,也可同时选取多种命名实体提取算法进行命名实体标注,并对多种算法标注结果进行融合,引入人工判证环节,融合后的标注结果通过人工按照命名实体标注业务标准进一步干预判证,将标注结果保存为熟语料,通过命名实体语料标注准备模块进行管理,供标注算法模型训练时使用,系统支持实时后台命名实体使用的标注算法模型的自动反馈,调整完成新的命名实体标注任务,可大大缩短获取信息的时间,提高信息获取的效率,大幅提高语料标注效率。
本发明针对不同标注使用需求及语料特点,自主选择适配算法并开展自动标注,通过集成条件随机场CRF、长短时记忆网络LSTM+CRF、隐马尔科夫模型HMM、支持向量机SVM、基于图排序的命名实体提取算法中至少一个命名实体抽取算法,对待标注文本语料数据进行单一算法模型的命名实体的预标注处理或多命名实体算法模型融合的预标注处理,提供统一的命名实体模型接入标准完成语料命名实体标注工作;当标注任务完成后,使用标注语料对命名实体标注使用的算法模型进行重新训练。通过建立标注算法综合评估模型对模型标注效果进行评估,反馈命名实体标注算法模型学习训练,使模型达到最好效果,后续新增标注任务,通过模型更新与语料标注之间的不断迭代提高命名实体语料标注质量和算法模型效果,减少了命名实体标注的错误率。最后通过人工判证环节实现标注结果的干预判证,用人工确认环节对命名实体标注语料进行修改、确认、提交,完成语料命名实体标注工作,大幅提高了命名实体提取的准确率和准确精度;经过实验,证明了主动学习算法应用于命名实体识别的有效性。大大降低了人工标注语料的工作量。
本发明简化用户标注操作流程,支持通过友好的人机交互式标注界面,支持外部模型的导入、训练和使用。
附图说明
图1是本发明命名实体语料标注训练系统工作原理示意图。
图2是图1命名实体模型训练处理流程图。
为使本发明的目的、技术方案和优点更加清楚,下面结合实施方式和附图,对本发明作进一步地详细描述。
具体实施方式
参阅图1。在以下描述的优选实施例中,一种命名实体语料标注训练系统,包括:命名实体语料标注准备模块、半自动化语料命名实体标注模块、反馈式模型学习训练模块、和命名实体标注模型效果评估模块,其特征在于:命名实体语料标注准备模块对不同来源的数据进行区分,针对不同命名实体语料,对命名实体语料来源选择,在标注过程中提供可选择适用的标注算法;半自动化语料命名实体标注模块针对不同标注使用需求及语料特点,自主选择适配算法并开展自动标注,通过集成条件随机场CRF、长短时记忆网络LSTM+CRF、隐马尔科夫模型HMM、支持向量机SVM、基于图排序的命名实体提取算法中至少一个命名实体抽取算法,对待标注文本语料数据进行单一命名实体的预标注处理或多命名实体融合的预标注处理,提供统一的命名实体模型接入标准完成语料命名实体标注工作;当标注任务完成后,反馈式模型学习训练模块针对内外部标注模型算法,提供模型学习训练、使用标注语料对命名实体模型进行重新训练,反馈模型完善更新,通过模型更新与语料标注之间的不断迭代,自动反馈调整完成新的命名实体标注任务;命名实体标注模型效果评估模块根据评估指标构建标注、构建规则,自动构建标注算法,建立标注算法综合评估模型,对模型指标量化标注效果进行评估。
本实施例提供文本语料标注准备模块完成对待标注语料按来源或主题进行管理,为标注任务提供准备;半自动化语料命名实体标注模块针对不同标注使用需求及语料特点,自主选择适配算法并开展自动标注,通过人工判证环节实现标注结果的干预判证,具体步骤如下:
半自动化语料命名实体标注模块根据不同来源语料创建命名实体标注任务,针对每一类标注任务选择效果适配的算法模型,诸如在命名实体标注任务中可以选择条件随机场CRF、长短时记忆网络LSTM+CRF、隐马尔科夫模型HMM、支持向量机SVM、基于图排序的命名实体提取等命名实体抽取算法完成自动标注,具体标注算法可以根据语料自动标注效果进行配置;针对特殊标注任务创建业务标注规则,并对标注业务规则进行管理,这里标注业务规则主要包括业务字典和正则表达式,如下表所示。半自动化语料命名实体标注模块采用标注业务规则对语料进行自动标注,对基于算法模型的自动标注结果和基于业务规则的自动标注结果进行融合处理;在自动标注融合处理结果基础上,依据标注业务标准,人工对标注结果进行修改、确认和保存。
表部分命名实体半自动化标注规则
命名实体类型 半自动化标注规则
时间 {[0-2]?\d时|\d?\d分(至|[0-2]?\d时|\d?\d分|?(\d?\d秒)?)}
日期 ([0-1]?\d月)?([0-2]\d日)
地点 (\d{0,3}度\d{0,2}分(\d{0,2}秒))?
参阅图2。反馈式模型学习训练模块针对内部已集成的命名实体标注算法模型和外部深度增强标注算法模型,提供算法模型的学习训练,在命名实体模型训练处理流程中,读取已标注好的熟语料,选择关键算法训练,针对不可训练算法,无训练过程并结束,使用已标注语料数据对条件随机场CRF、长短时记忆网络LSTM+CRF、隐马尔科夫模型HMM、支持向量机SVM、基于图排序的命名实体提取等可训练算法进行离线训练,调用统一训练模型接口Train,生成命名实体模型序列文件Kryo,使模型准确度达到最佳。生成命名实体模型序列文件Kryo后,反馈式模型学习训练模块判断是否保存命名实体模型,否,结束,是则按统一模型接入接口导入外部算法模型,对外部算法模型进行更新或导出,保存命名实体模型文件,包括算法名称、模型名称、序列化模型的命名实体算法模型文件,并更新命名实体训练模型表;使用训练好的模型对平台中用于命名实体标注的模型进行更新,完成新的命名实体标注任务。在命名实体模型更新中,反馈式模型学习训练模块启动命名实体服务,选择命名实体算法,对于基于规则或字典的不可训练算法,则结束;根据选择的件随机场CRF、长短时记忆网络LSTM+CRF、隐马尔科夫模型HMM、支持向量机SVM等可训练算法,判断是否更新命名实体模型,否,结束。根据解析配置文件中是否更新命名实体模型的开关来判断是否更新命名实体标注模型,否,结束。是则根据命名实体模型名称和命名实体训练模型表,读取指定命名实体模型文件,反序列化命名实体模型文件,加载模型,结束程序。
本方法对命名实体语料库标注的基本评价指标包括命名实体抽取准确率P)、召回率R、F值、E值等,具体定义如下:
准确率和召回率一般称反比的关系。通过某些方法提高准确率,会导致召回率下降,反之亦然。为了定义应用系统对于准确率和召回率的不同需求,可以给出一个权重值对其进行加权的考量,从而得到,对命名实体准确率和召回率给出的一个权重值以对其进行加权考量值E:
其中b为加入的权重,b越大,则表示E值的考量中准确率的权重越大,反之则召回率的权重越大。
综上所述,本发明公开了一种命名实体语料标注训练系统,主要由文本语料标注准备、半自动化语料命名实体标注、反馈式模型学习训练、标注模型效果评估四部分模块组成。
通过对待标注语料按来源或主题进行管理,为标注任务提供准备;通过集成数据收集工具CRF、基于深度神经网络、基于字典和规则等多种命名实体处理算法,完成命名实体语料的半自动化标注,在标注过程中提供适用的标注算法可选择,对待标注语料数据进行命名实体预标注处理;使用预训练模型,构建CRF-RNN定制的C++代码,检验本项目的代码,并激活Tensorflow/Keras virtualenv,然后在cpp目录下运行compile.sh脚本。引进由卷积神经网络(CNN)和基于条件随机场(CRF)的概率图模型所组成的卷积神经网络,通过Gaussian pairwise potential为条件随机场制定平均场近似推断,并将其作为循环神经网络CRF-RNN,然后可以把它嵌入作为CNN的一部分,并获得同时拥有CNN和CRF性质的深度网络。在CNN中集成CRF建模,令该模型能通过反向传播算法端到端地训练整个深度网络,可避免为目标描述使用离线后处理方法;最后通过人工确认环节对标注语料进行修改、确认和提交,完成语料标注工作。当标注任务完成后,使用标注语料对模型进行重新训练。通过建立标注算法综合评估模型对模型标注效果进行评估,反馈模型学习训练使模型达到最好效果,用于后续新增标注任务,通过模型更新与语料标注之间的不断迭代提高语料标注质量和算法模型效果。
以上所述为本发明较佳实施例,应该注意的是上述实施例对本发明进行说明,然而本发明并不局限于此,并且本领域技术人员在脱离所附权利要求的范围情况下可设计出替换实施例。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。

Claims (10)

1.一种命名实体语料标注训练系统,包括:命名实体语料标注准备模块、半自动化语料命名实体标注模块、反馈式命名实体标注算法模型学习训练模块和命名实体标注模型效果评估模块,其特征在于:命名实体语料标注准备模块针对不同命名实体语料,对命名实体语料来源选择,对不同来源的数据进行区分,在标注过程中提供可选择适用的标注算法;半自动化语料命名实体标注模块针对不同标注使用需求及语料特点,自主选择适配算法并开展自动标注,通过集成条件随机场CRF、长短时记忆网络LSTM+CRF、隐马尔科夫模型HMM、支持向量机SVM、基于图排序的命名实体提取算法中至少一个命名实体抽取算法,对待标注文本语料数据进行单一命名实体的预标注处理或多命名实体融合的预标注处理,提供统一的命名实体模型接入标准完成语料命名实体标注工作;当标注任务完成后,反馈式模型学习训练模块针对内外部标注模型算法,提供模型学习训练、使用标注语料对命名实体模型进行重新训练,反馈模型完善更新,通过模型更新与语料标注之间的不断迭代,自动反馈调整完成新的命名实体标注任务;命名实体标注模型效果评估模块根据评估指标构建标注、构建规则,自动构建标注算法,建立标注算法综合评估模型,对模型指标量化标注效果进行评估,根据评估结果为半自动化命名实体语料标注模块推荐默认最适算法模型。
2.如权利要求1所述的命名实体语料标注训练系统,其特征在于:半自动化语料命名实体标注模块针对不同标注使用需求及语料特点,自主选择适配算法并开展自动标注,通过人工判证环节实现标注结果的干预判证。
3.如权利要求2所述的命名实体语料标注训练系统,其特征在于:半自动化语料命名实体标注模块根据不同来源语料创建命名实体标注任务,针对每一类标注任务选择效果适配的算法模型,在命名实体标注任务中选择条件随机场CRF、长短时记忆网络LSTM+CRF、隐马尔科夫模型HMM、支持向量机SVM、基于图排序的命名实体提取命名实体抽取算法,完成自动标注,
如权利要求3所述的命名实体语料标注训练系统,其特征在于:半自动化语料命名实体标注模块根据语料自动标注效果进行配置;针对特殊标注任务创建业务标注规则,并对标注业务规则进行管理,这里标注业务规则主要包括业务字典和正则表达式,采用标注业务规则对语料进行自动标注。
4.如权利要求3所述的命名实体语料标注训练系统,其特征在于:半自动化语料命名实体标注模块对基于算法模型的自动标注结果和基于业务规则的自动标注结果进行融合处理,在自动标注融合处理结果基础上,依据标注业务标准,人工对标注结果进行修改、确认和保存。
5.如权利要求1所述的命名实体语料标注训练系统,其特征在于:反馈式模型学习训练模块针对内部已集成的命名实体标注算法模型和外部深度增强标注算法模型,提供算法模型的学习训练,在命名实体模型训练处理流程中,读取已标注好的熟语料,选择关键算法训练,针对不可训练算法,无训练过程并结束,使用已标注语料数据对条件随机场CRF、长短时记忆网络LSTM+CRF、隐马尔科夫模型HMM、支持向量机SVM、基于图排序的命名实体提取可训练算法进行离线训练,调用统一训练模型接口Train,生成命名实体模型序列文件Kryo,使模型准确度达到最佳。
6.如权利要求1所述的命名实体语料标注训练系统,其特征在于:生成命名实体模型序列文件Kryo后,反馈式模型学习训练模块判断是否保存命名实体模型,否,结束,是则按统一模型接入接口导入外部算法模型,对外部算法模型进行更新或导出,保存命名实体模型文件,包括算法名称、模型名称、序列化模型的命名实体算法模型文件,并更新命名实体训练模型表。
7.如权利要求1所述的命名实体语料标注训练系统,其特征在于:反馈式模型学习训练模块使用训练好的模型对平台中用于命名实体标注的模型进行更新,完成新的命名实体标注任务,并在命名实体模型更新中,启动命名实体服务,选择命名实体算法,对于基于规则或字典的不可训练算法,则结束;根据选择的件随机场CRF、长短时记忆网络LSTM+CRF、隐马尔科夫模型HMM、支持向量机SVM可训练算法,判断是否更新命名实体模型,否,结束。
8.如权利要求1所述的命名实体语料标注训练系统,其特征在于:反馈式模型学习训练模块根据解析配置文件中是否更新命名实体模型的开关来判断是否更新命名实体标注模型,否则,结束,是则根据命名实体模型名称和命名实体训练模型表,读取指定命名实体模型文件,反序列化命名实体模型文件,加载模型,结束程序。
9.如权利要求1所述的命名实体语料标注训练系统,其特征在于:命名实体语料库标注的基本评价指标包括准确率P、召回率R、F值、E值,其中:
对提取的实体准确率和召回率的调和平均值
10.如权利要求1所述的命名实体语料标注训练系统,其特征在于:为了定义应用系统对于准确率和召回率的不同需求,给出一个权重值对其进行加权的考量,从而得到对实体提取准确率和召回率的一个权重值E值:
其中,b为加入的权重,b越大,则表示E值的考量中准确率的权重越大,反之则召回率的权重越大。
CN201910455086.XA 2019-05-29 2019-05-29 命名实体语料标注训练系统 Active CN110287481B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910455086.XA CN110287481B (zh) 2019-05-29 2019-05-29 命名实体语料标注训练系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910455086.XA CN110287481B (zh) 2019-05-29 2019-05-29 命名实体语料标注训练系统

Publications (2)

Publication Number Publication Date
CN110287481A true CN110287481A (zh) 2019-09-27
CN110287481B CN110287481B (zh) 2022-06-14

Family

ID=68002871

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910455086.XA Active CN110287481B (zh) 2019-05-29 2019-05-29 命名实体语料标注训练系统

Country Status (1)

Country Link
CN (1) CN110287481B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110737646A (zh) * 2019-10-21 2020-01-31 北京明略软件系统有限公司 数据标注方法、装置、设备及可读存储介质
CN110807328A (zh) * 2019-10-25 2020-02-18 华南师范大学 面向法律文书多策略融合的命名实体识别方法及系统
CN110968695A (zh) * 2019-11-18 2020-04-07 罗彤 基于弱监督技术主动学习的智能标注方法、装置及平台
CN111859854A (zh) * 2020-06-11 2020-10-30 第四范式(北京)技术有限公司 一种数据标注方法、装置、设备及计算机可读存储介质
CN111881105A (zh) * 2020-07-30 2020-11-03 北京智能工场科技有限公司 业务数据的标注模型及其模型训练方法
CN111984790A (zh) * 2020-08-26 2020-11-24 南京柯基数据科技有限公司 一种实体关系抽取方法
CN112200273A (zh) * 2020-12-07 2021-01-08 长沙海信智能系统研究院有限公司 数据标注方法、装置、设备及计算机存储介质
CN112270180A (zh) * 2020-11-03 2021-01-26 北京阳光云视科技有限公司 一种实体识别训练数据bio自动标注系统及方法
CN112434535A (zh) * 2020-11-24 2021-03-02 上海浦东发展银行股份有限公司 基于多模型的要素抽取方法、装置、设备及存储介质
CN112528659A (zh) * 2020-11-30 2021-03-19 京东方科技集团股份有限公司 实体识别方法、实体识别装置、电子设备和存储介质
CN112802570A (zh) * 2021-02-07 2021-05-14 成都延华西部健康医疗信息产业研究院有限公司 一种针对电子病历命名实体识别系统及方法
CN113066479A (zh) * 2019-12-12 2021-07-02 北京沃东天骏信息技术有限公司 一种评测模型的方法和装置
WO2021139257A1 (zh) * 2020-06-24 2021-07-15 平安科技(深圳)有限公司 标注数据的选择方法、装置、计算机设备和存储介质
CN113255342A (zh) * 2021-06-11 2021-08-13 云南大学 一种5g移动业务产品名称识别方法及系统
CN113392633A (zh) * 2021-08-05 2021-09-14 中国医学科学院阜外医院 一种医疗命名实体识别的方法、装置及存储介质
CN113761215A (zh) * 2021-03-25 2021-12-07 中科天玑数据科技股份有限公司 一种基于反馈自学习的动态字典库生成方法
CN114613384A (zh) * 2022-03-14 2022-06-10 中国电子科技集团公司第十研究所 一种基于深度学习多输入语音信号波束形成信息互补方法
CN115757784A (zh) * 2022-11-21 2023-03-07 中科世通亨奇(北京)科技有限公司 基于标注模型和标签模板筛选的语料标注方法及装置

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104836720A (zh) * 2014-02-12 2015-08-12 北京三星通信技术研究有限公司 交互式通信中进行信息推荐的方法及装置
CN106355628A (zh) * 2015-07-16 2017-01-25 中国石油化工股份有限公司 图文知识点标注方法和装置、图文标注的修正方法和系统
CN106815293A (zh) * 2016-12-08 2017-06-09 中国电子科技集团公司第三十二研究所 一种面向情报分析的构建知识图谱的系统及方法
CN108268447A (zh) * 2018-01-22 2018-07-10 河海大学 一种藏文命名实体的标注方法
WO2018153130A1 (zh) * 2017-02-22 2018-08-30 华为技术有限公司 一种翻译方法及装置
CN108763201A (zh) * 2018-05-17 2018-11-06 南京大学 一种基于半监督学习的开放域中文文本命名实体识别方法
CN108763213A (zh) * 2018-05-25 2018-11-06 西南电子技术研究所(中国电子科技集团公司第十研究所) 主题特征文本关键词提取方法
CN108875045A (zh) * 2018-06-28 2018-11-23 第四范式(北京)技术有限公司 针对文本分类来执行机器学习过程的方法及其系统
CN108959252A (zh) * 2018-06-28 2018-12-07 中国人民解放军国防科技大学 基于深度学习的半监督中文命名实体识别方法
CN109471949A (zh) * 2018-11-09 2019-03-15 袁琦 一种宠物知识图谱的半自动化构建方法
CN109508453A (zh) * 2018-09-28 2019-03-22 西南电子技术研究所(中国电子科技集团公司第十研究所) 跨媒体情报目标要素关联分析系统及其关联分析方法
CN109543181A (zh) * 2018-11-09 2019-03-29 中译语通科技股份有限公司 一种基于主动学习和深度学习相结合的命名实体模型和系统

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104836720A (zh) * 2014-02-12 2015-08-12 北京三星通信技术研究有限公司 交互式通信中进行信息推荐的方法及装置
CN106355628A (zh) * 2015-07-16 2017-01-25 中国石油化工股份有限公司 图文知识点标注方法和装置、图文标注的修正方法和系统
CN106815293A (zh) * 2016-12-08 2017-06-09 中国电子科技集团公司第三十二研究所 一种面向情报分析的构建知识图谱的系统及方法
WO2018153130A1 (zh) * 2017-02-22 2018-08-30 华为技术有限公司 一种翻译方法及装置
CN108268447A (zh) * 2018-01-22 2018-07-10 河海大学 一种藏文命名实体的标注方法
CN108763201A (zh) * 2018-05-17 2018-11-06 南京大学 一种基于半监督学习的开放域中文文本命名实体识别方法
CN108763213A (zh) * 2018-05-25 2018-11-06 西南电子技术研究所(中国电子科技集团公司第十研究所) 主题特征文本关键词提取方法
CN108875045A (zh) * 2018-06-28 2018-11-23 第四范式(北京)技术有限公司 针对文本分类来执行机器学习过程的方法及其系统
CN108959252A (zh) * 2018-06-28 2018-12-07 中国人民解放军国防科技大学 基于深度学习的半监督中文命名实体识别方法
CN109508453A (zh) * 2018-09-28 2019-03-22 西南电子技术研究所(中国电子科技集团公司第十研究所) 跨媒体情报目标要素关联分析系统及其关联分析方法
CN109471949A (zh) * 2018-11-09 2019-03-15 袁琦 一种宠物知识图谱的半自动化构建方法
CN109543181A (zh) * 2018-11-09 2019-03-29 中译语通科技股份有限公司 一种基于主动学习和深度学习相结合的命名实体模型和系统

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
HANGFENG HE等: "A Unified Model for Cross-Domain and Semi-Supervised Named Entity Recognition in Chinese Social Media", 《AAAI》 *
JINSEOK NAM: "Semi-Supervised Neural Networks for Nested Named Entity Recognition", 《CITESEER》 *
MATTHEW E. PETERS等: "Semi-supervised sequence tagging with bidirectional language models", 《ARXIV》 *
冯浩哲等: "面向 3D CT 影像处理的无监督推荐标注算法", 《计算机辅助设计与图形学学报》 *
刘晓娟等: "国外知识抽取系统研究", 《情报科学》 *
许浩亮等: "中文嵌套命名实体关系抽取研究", 《北京大学学报(自然科学版)》 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110737646A (zh) * 2019-10-21 2020-01-31 北京明略软件系统有限公司 数据标注方法、装置、设备及可读存储介质
CN110807328A (zh) * 2019-10-25 2020-02-18 华南师范大学 面向法律文书多策略融合的命名实体识别方法及系统
CN110807328B (zh) * 2019-10-25 2023-05-05 华南师范大学 面向法律文书多策略融合的命名实体识别方法及系统
CN110968695A (zh) * 2019-11-18 2020-04-07 罗彤 基于弱监督技术主动学习的智能标注方法、装置及平台
CN113066479A (zh) * 2019-12-12 2021-07-02 北京沃东天骏信息技术有限公司 一种评测模型的方法和装置
CN111859854A (zh) * 2020-06-11 2020-10-30 第四范式(北京)技术有限公司 一种数据标注方法、装置、设备及计算机可读存储介质
WO2021139257A1 (zh) * 2020-06-24 2021-07-15 平安科技(深圳)有限公司 标注数据的选择方法、装置、计算机设备和存储介质
CN111881105B (zh) * 2020-07-30 2024-02-09 北京智能工场科技有限公司 业务数据的标注模型及其模型训练方法
CN111881105A (zh) * 2020-07-30 2020-11-03 北京智能工场科技有限公司 业务数据的标注模型及其模型训练方法
CN111984790A (zh) * 2020-08-26 2020-11-24 南京柯基数据科技有限公司 一种实体关系抽取方法
CN111984790B (zh) * 2020-08-26 2023-07-25 南京柯基数据科技有限公司 一种实体关系抽取方法
CN112270180A (zh) * 2020-11-03 2021-01-26 北京阳光云视科技有限公司 一种实体识别训练数据bio自动标注系统及方法
CN112434535A (zh) * 2020-11-24 2021-03-02 上海浦东发展银行股份有限公司 基于多模型的要素抽取方法、装置、设备及存储介质
CN112434535B (zh) * 2020-11-24 2023-05-02 上海浦东发展银行股份有限公司 基于多模型的要素抽取方法、装置、设备及存储介质
CN112528659A (zh) * 2020-11-30 2021-03-19 京东方科技集团股份有限公司 实体识别方法、实体识别装置、电子设备和存储介质
CN112200273A (zh) * 2020-12-07 2021-01-08 长沙海信智能系统研究院有限公司 数据标注方法、装置、设备及计算机存储介质
CN112802570A (zh) * 2021-02-07 2021-05-14 成都延华西部健康医疗信息产业研究院有限公司 一种针对电子病历命名实体识别系统及方法
CN113761215A (zh) * 2021-03-25 2021-12-07 中科天玑数据科技股份有限公司 一种基于反馈自学习的动态字典库生成方法
CN113255342A (zh) * 2021-06-11 2021-08-13 云南大学 一种5g移动业务产品名称识别方法及系统
CN113392633B (zh) * 2021-08-05 2021-12-24 中国医学科学院阜外医院 一种医疗命名实体识别的方法、装置及存储介质
CN113392633A (zh) * 2021-08-05 2021-09-14 中国医学科学院阜外医院 一种医疗命名实体识别的方法、装置及存储介质
CN114613384A (zh) * 2022-03-14 2022-06-10 中国电子科技集团公司第十研究所 一种基于深度学习多输入语音信号波束形成信息互补方法
CN114613384B (zh) * 2022-03-14 2023-08-29 中国电子科技集团公司第十研究所 一种基于深度学习多输入语音信号波束形成信息互补方法
CN115757784A (zh) * 2022-11-21 2023-03-07 中科世通亨奇(北京)科技有限公司 基于标注模型和标签模板筛选的语料标注方法及装置

Also Published As

Publication number Publication date
CN110287481B (zh) 2022-06-14

Similar Documents

Publication Publication Date Title
CN110287481A (zh) 命名实体语料标注训练系统
CN110633409B (zh) 一种融合规则与深度学习的汽车新闻事件抽取方法
CN111222340B (zh) 基于多标准主动学习的乳腺电子病历实体识别系统
CN110348008A (zh) 基于预训练模型和微调技术的医疗文本命名实体识别方法
CN109960800A (zh) 基于主动学习的弱监督文本分类方法及装置
CN110287482B (zh) 半自动化分词语料标注训练装置
CN112417880A (zh) 一种面向法院电子卷宗的案情信息自动抽取方法
CN106484682A (zh) 基于统计的机器翻译方法、装置及电子设备
CN111949759A (zh) 病历文本相似度的检索方法、系统及计算机设备
CN108875809A (zh) 联合attention机制与神经网络的生物医学实体关系分类方法
CN109670191A (zh) 机器翻译的校准优化方法、装置与电子设备
CN110209822A (zh) 基于深度学习的学术领域数据相关性预测方法、计算机
CN115357719B (zh) 基于改进bert模型的电力审计文本分类方法及装置
CN110750646B (zh) 一种旅店评论文本的属性描述提取方法
CN109872775B (zh) 一种文献标注方法、装置、设备及计算机可读介质
CN111553159B (zh) 一种问句生成方法及系统
CN113705238A (zh) 基于bert和方面特征定位模型的方面级情感分析方法及模型
CN113128233A (zh) 一种心理疾病知识图谱的构建方法及系统
CN115017884A (zh) 基于图文多模态门控增强的文本平行句对抽取方法
CN116882402A (zh) 基于多任务的电力营销小样本命名实体识别方法
CN111125378A (zh) 一种基于自动样本标注的闭环实体抽取方法
CN116362247A (zh) 一种基于mrc框架的实体抽取方法
CN115545021A (zh) 一种基于深度学习的临床术语识别方法与装置
CN114692615A (zh) 一种针对小语种的小样本意图识别方法
Xiong et al. Pinyin-to-Chinese conversion on sentence-level for domain-specific applications using self-attention model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant