CN109710933A - 训练语料的获取方法、装置、计算机设备和存储介质 - Google Patents
训练语料的获取方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN109710933A CN109710933A CN201811589159.6A CN201811589159A CN109710933A CN 109710933 A CN109710933 A CN 109710933A CN 201811589159 A CN201811589159 A CN 201811589159A CN 109710933 A CN109710933 A CN 109710933A
- Authority
- CN
- China
- Prior art keywords
- label
- samples
- terminals
- labels
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 63
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000002372 labelling Methods 0.000 claims description 87
- 238000004590 computer program Methods 0.000 claims description 27
- 238000012545 processing Methods 0.000 claims description 19
- 238000012360 testing method Methods 0.000 claims description 19
- 238000000605 extraction Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000011156 evaluation Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000013473 artificial intelligence Methods 0.000 description 6
- 206010011224 Cough Diseases 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 5
- 238000007726 management method Methods 0.000 description 4
- 208000024891 symptom Diseases 0.000 description 4
- 239000003086 colorant Substances 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 238000013523 data management Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Landscapes
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明涉及一种训练语料的获取方法、装置、计算机设备和存储介质,获取携带训练语料的多个样本,然后将该多个样本分配给多个终端,使得多个终端识别出多个样本中的命名实体,并生成对该命名实体的标注,接着可以获取各个终端生成的标注,并根据各个终端的批注提取出多个样本中的训练语料,使得多个样本的命名实体能够通过多个终端进行批量识别和标注,从而在多个终端的识别和标注下快速提取出多个样本中的训练语料,提高了训练语料的获取效率。
Description
技术领域
本发明涉及自然语言处理技术领域,特别是涉及一种训练语料的获取方法、训练语料的获取装置、计算机设备和计算机可读存储介质。
背景技术
随着信息技术的迅速发展,人工智能技术已经应用到人们的日常生活和工作当中,例如通过命名实体识别技术可以快速地识别出非结构化文本等样本中的命名实体,命名实体是指文本中具有特定意义的实体,常见的实体包括人名、地名、机构名和专有名词等,基于识别出的命名实体可以产生用于人工智能模型进行训练的训练语料,而高效地获取训练语料有利于更好地对人工智能模型进行训练。
传统技术在对大量的样本进行处理的时候,通常需要将样本进行逐个导入和处理,通过命令行对导入的单个样本进行操作,在单个样本处理完成后再导入下一个样本进行处理,从而获取样本中的训练语料,导致获取训练语料的效率偏低。
发明内容
基于此,有必要针对传统技术获取训练语料的效率低的技术问题,提供一种训练语料的获取方法、训练语料的获取装置、计算机设备和计算机可读存储介质。
一种训练语料的获取方法,包括步骤:
获取携带训练语料的多个样本;
将所述多个样本分配给多个终端,触发所述多个终端识别所述多个样本中的命名实体,并生成对所述命名实体的标注;
获取所述多个终端生成的所述标注;
根据所述标注提取所述多个样本的所述训练语料。
一种训练语料的获取装置,包括:
样本获取模块,用于获取携带训练语料的多个样本;
标注生成模块,用于将所述多个样本分配给多个终端,触发所述多个终端识别所述多个样本中的命名实体,并生成对所述命名实体的标注;
标注获取模块,用于获取所述多个终端生成的所述标注;
语料提取模块,用于根据所述标注提取所述多个样本的所述训练语料。
一种计算机设备,包括处理器和存储器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如下步骤:获取携带训练语料的多个样本;将所述多个样本分配给多个终端,触发所述多个终端识别所述多个样本中的命名实体,并生成对所述命名实体的标注;获取所述多个终端生成的所述标注;根据所述标注提取所述多个样本的所述训练语料。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如下步骤:获取携带训练语料的多个样本;将所述多个样本分配给多个终端,触发所述多个终端识别所述多个样本中的命名实体,并生成对所述命名实体的标注;获取所述多个终端生成的所述标注;根据所述标注提取所述多个样本的所述训练语料。
上述训练语料的获取方法、装置、计算机设备和存储介质,获取携带训练语料的多个样本,然后将该多个样本分配给多个终端,使得多个终端识别出多个样本中的命名实体,并生成对该命名实体的标注,接着可以获取各个终端生成的标注,并根据各个终端的批注提取出多个样本中的训练语料,使得多个样本的命名实体能够通过多个终端进行批量识别和标注,从而在多个终端的识别和标注下快速提取出多个样本中的训练语料,提高了训练语料的获取效率。
附图说明
图1为一个实施例中训练语料的获取方法的应用场景图;
图2为一个实施例中训练语料的获取方法的流程示意图;
图3为一个应用实例中命名实体写作平台的功能示意图;
图4为一个实施例中训练语料的获取装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供的训练语料的获取方法,可以应用于如图1所示的应用场景中,图1为一个实施例中训练语料的获取方法的应用场景图,其中,服务器100可以通过网络与终端200建立通信连接,终端200的数量可以是多个,服务器100可以与各个终端进行通信,用户可以将携带训练语料的多个样本上传到该服务器100中进行存储,服务器100可以获取该携带训练语料的多个样本,然后将该多个样本分配给多个终端200,使得多个终端200接收到多个样本后识别出这些样本中的命名实体,并生成对该命名实体的标注然后将标注发送给服务器100,服务器100可以接收多个终端200发送的标注,并根据该标注从多个样本中提取训练语料。其中,终端200可以但不限于是各种个人计算机、笔记本电脑、智能手机和平板电脑,服务器100可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,提供了一种训练语料的获取方法,参考图2,图2为一个实施例中训练语料的获取方法的流程示意图,该方法可以应用于服务器100,该训练语料的获取方法可以包括以下步骤:
步骤S101,获取携带训练语料的多个样本。
本步骤中,服务器100可以获取携带训练语料的多个样本,其中,样本是指携带相关数据的文件,这些数据可以是非结构化数据,而语料是指非结构化的文本数据,训练语料是这些语料中可以用于人工智能模型等数据模型进行训练的语料。具体的,患者的病史文本可以作为一个样本,该样本中携带的与患者的病症相关的文本数据可以作为该样本携带的语料,如果该语料可以用于识别相关病症的人工智能模型,则该语料可以作为训练语料。由于携带相关语料的样本的数量通常是多个,本步骤可以将携带训练语料的多个样本导入到服务器100当中,便于后续通过服务器100从多个样本中获取这些训练语料。
步骤S102,将多个样本分配给多个终端,触发多个终端识别多个样本中的命名实体,并生成对命名实体的标注。
本步骤主要是服务器100将多个样本分配给多个终端200,通过多个终端200对这些样本进行命名实体的识别以及对命名实体进行标注处理。其中,命名实体是指如文本文件等样本中具有特定意义的实体,如人名、地名、机构名和专有名词等等,对命名实体进行标注是指对该命名实体进行归类,从而建立该命名实体与归属类别的对应关系,以患者的病史文本作为一个样本为例,该样本中具有特定意义的实体可以是“咳嗽”,所以可以将“咳嗽”识别为命名实体,然后可以将该命名实体进行归类,如将“咳嗽”标注为“症状”类实体。
由于终端200的数量通常少于样本的数量,因此一般难以满足每个终端200只处理一个样本,因此,在服务器100将样本分配给终端200之前,可以将该多个样本平均分配给各个终端200,该服务器100还可以结合终端200的样本处理效率、识别和标注的准确度等样本处理特征将多个样本按照不同的比例分配给各个终端200,使得各个终端200能够准确且高效地从样本中识别出各个命名实体,并生成对各个命名实体的标注。其中,在识别出各个命名实体以后,终端200可以在界面展示出命名实体,例如通过不同颜色在样本中将各个命名实体显示出来,让用户可以在该终端200上对显示的命名实体进行标注,在用户的标注完成以后,终端200即可生成对各个命名实体的标注。
步骤S103,获取多个终端生成的标注。
本步骤中,在多个终端200生成对命名实体的标注以后,各个终端200可以将标注发送给服务器100,服务器100可以获取各个终端200发送的对命名实体的标注。服务器100在得到对多个样本中的命名实体的标注以后,可以将样本的命名实体及其对应的标注推动到相关终端的显示界面上进行展示,便于相关用户可以在该显示界面上对标注进行查阅,在界面上进行展示的形式可以有很多种,例如在样本中把这些命名实体及其标注用不同颜色标注出来,或以表格的形式进行展示,展示的信息可以包括原始样本、样本中的各个命名实体及其标注等等,在标注错误的情况下,用户还可以对错误的标注进行修改等操作。
步骤S104,根据标注提取多个样本的训练语料。
本步骤主要是可以根据各个终端生成的标注从多个样本中提取出训练语料,具体的,由于终端生成的标注一般是对该样本中的各个命名实体进行的标注,而训练语料通常需要针对特定类型的命名实体进行选取,而命名实体的具体类型可以通过标注进行确定,例如当需要A类型的命名实体及其标注作为训练语料,而样本当中还携带有B类型的命名实体以及相应的标注,则本步骤可以该样本携带的A类型和B类型的命名实体中选择A类型的命名实体及其标注作为多个样本的训练语料,由于与特定类型相匹配的命名实体的数量通常包括多个,因此提取的训练语料的数量也可以是多个。
上述训练语料的获取方法,获取携带训练语料的多个样本,然后将该多个样本分配给多个终端,使得多个终端识别出多个样本中的命名实体,并生成对该命名实体的标注,接着可以获取各个终端生成的标注,并根据各个终端的批注提取出多个样本中的训练语料,使得多个样本的命名实体能够通过多个终端进行批量识别和标注,从而在多个终端的识别和标注下快速提取出多个样本中的训练语料,提高了训练语料的获取效率。
在一个实施例中,将多个样本分配给多个终端的步骤可以包括:
获取各个终端的标注能力值;根据标注能力值将多个样本分配至多个终端。
本实施例主要是根据各个终端的标注能力值将多个样本进行合理分配。其中,标注能力值是指终端对命名实体进行准确标注的能力,也就是说该标注能力值可以根据终端对命名实体进行标注的准确性来衡量,准确性越高,该终端的标注能力值越高,本实施例可以为标注能力值高的终端分配更多的样本,使得多个终端在标注样本的命名实体时能够得到更高的准确度,基于对命名实体的准确标注也有利于对相关模型进行有效训练。
在一个实施例中,获取各个终端的标注能力值的步骤可以包括:
获取各个终端对标准样本中的命名实体进行标注生成的测试标注;获取标准样本中的命名实体的标准标注;将测试标注与标准标注进行比较,根据比较结果确定标注能力值。
本实施例主要是根据各个终端在标准样本中进行标注测试,从而通过标注测试来确定各个终端的标注能力值。其中,服务器100可以创建一个标注能力评测项目,在该标注能力评测项目中导入标准样本,然后各个终端200可以在该标注能力评测项目中进行标注能力值的测评,该标准样本中携带有设定的多个命名实体,各个命名实体被预先进行标注,从而生成与各个命名实体相匹配的标准标注。在各个终端200标注能力值的评测过程中,各个终端200可以对该标准样本中的各个命名实体进行标注,生成相应的测试标注,在各个终端200的测试标注生成完成以后,服务器100可以调用预先生成的标准标注,然后将测试标注和标准标注进行比较从而得到各个终端的标注能力值,一般来说,测试标注与标准标注的一致性越高,说明该终端200的标注能力值也越高。具体的,设测试标注与标准标注相一致的标注数为X,标准标注的标注总数为Y,则标注能力值Z可以标识为X/Y,也就是说,如果测试标注与标准标注相一致的标注数为50,标准标注的标注总数为100,则标注能力值为0.5。
具体的,各个终端200通常是标注人员在标注作业的过程中所使用的终端,因此,各个终端200的标注能力值即反映了相应标注人员的标注能力值,也就是说,终端的标注能力值越高,说明相应的标注人员的标注能力也越强,所以在分配样本进行命名实体的识别和标注任务的时候,可以为标注能力值高的终端分配更多的样本,使得这些样本在总体上能达到一个更高的命名实体的识别和标注的准确度,便于更加更精准地提取样本中的训练语料。
在一个实施例中,生成对命名实体的标注的步骤可以包括:
获取对命名实体的预标注;接收用户对预标注的编辑操作;根据编辑操作对预标注进行编辑生成标注。
本实施例中,各个终端200在接收到样本以后,可以先对该样本中的命名实体进行预标注,然后用户可以在该预标注的基础上进行相应的编辑操作,终端200再根据这些编辑操作对预标注进行编辑从而生成各个命名实体的标注。
其中,各个终端200可以配置有结构化处理模块,结构化处理是把非结构化文本数据汇总的实体提取出来的一种技术,通过该结构化处理模块,各个终端200可以从样本中提取出命名实体并对其进行预标注,该结构化处理模块中可以通过配置命名实体识别模型来实现,该命名实体识别模型是指用于对样本的命名实体进行识别和标注的数学模型,可以对多种类型的命名实体进行识别和标注,而通过相应的训练语料对该命名实体模型进行训练还可以使得该命名实体模型支持更多的实体类型的识别和标注。其中,可以采用BILSTM-CRF模型作为命名实体识别模型来对样本中的命名实体进行预标注,通过BILSTM层,BILSTM-CRF模型可以自己学习到特征规则,并不需要用户自己拟定。
具体的,终端200可以基于预先训练好的BILSTM-CRF模型对样本中的命名实体进行标注,将样本输入到该BILSTM-CRF模型当中,使得该BILSTM-CRF模型对样本进行标注处理,从而得到该BILSTM-CRF模型输出的标注作为预标注,然后,标注人员等用户可以通过终端200在该预标注的基础上进行修改,例如对命名实体的错误标注进行调整等,然后终端200可以在用户的修改完成以后,生成样本中的各个命名实体的最终标注。这样,一方面可以提高对命名实体进行识别和标注的效率,节省人力物力,还可以提高对命名实体进行识别和标注的准确度。
在一个实施例中,生成对命名实体的标注的步骤可以包括:
接收多个终端同步的对命名实体的参考标注;根据参考标注生成对命名实体的标注。
本实施例主要是各个终端的标注进行同步分享,从而使得每个终端都能够根据其他终端同步分享的标注加速其对命名实体进行标注的速度。由于分配到各个终端的多个样本通常归属于同一个标注项目或标注任务,各个样本中的命名实体的类型通常比较类似,而通过标注的同步分享能够快速地对各个终端中的命名实体进行识别和标注。具体的,设分配到多个样本的终端包括终端A、终端B和终端C,在三个终端对样本进行标注的过程当中,终端A对某个样本的某个命名实体的标注可以分享到终端B和终端C当中作为参考标注,例如终端A对现病史文本中的“咳嗽”标注为“症状”类实体,则咳嗽为症状类实体的标注可以同步分享到终端B和终端C当中对其样本中的“咳嗽”进行标注并作为终端B和终端C的参考标注,终端B和终端C的标注人员还可以在该参考标注的基础上进行修改,假设终端B的标注人员认为该参考标注不准确,则可以修改该参考标注从而终端B可以基于修改后的标注作为对该命名实体的最终标注,从而在提高对命名实体进行标注效率的情况下,还保证对命名实体进行标注的准确性。
在一个实施例中,在获取多个终端生成的标注的步骤之后,还可以包括:
对多个终端生成的标注的一致性进行检查;根据检查结果生成用于提取训练语料的标注。
本实施例,服务器100可以在获取各个终端200生成的对各个样本中的命名实体的标注后,对这些标注的一致性进行检查,根据检查结果最终生成用于提取训练语料的标注。其中,各个终端200在对样本的命名实体进行标注时,可能会存在不同终端对同一命名实体生成多种不同的标注的情况,还可能会存在样本A中对如命名实体A进行了标注而在样本B中未对该命名实体A进行标注的情况,因此本实施例可以对各个样本中的各个命名实体的标注进行一致性检查,可以将一致性检查的检查结果展示在相应的结果表格当中,检查结果可以包括不同终端对同一命名实体生成的不同标注有哪些、有哪些命名实体未在所有样本中进行标注等内容,使得用户可以基于该检查结果对命名实体的标注进行统一修改,从而得到对各个样本中的各个命名实体准确的标注,进一步确保了对命名实体进行标注的准确性,进而在该准确的标注的基础上可以选取用于训练人工智能模型的训练语料,提高该训练语料的准确性。
为了更清晰阐述本发明的训练语料的获取方法,将该训练语料的获取方法应用于命名实体协作平台中进行说明,参考图3,图3为一个应用实例中命名实体写作平台的功能示意图,其中,获取训练语料的任务可以通过命名实体识别协作平台来实现,该命名实体协作平台可以部署在如图1所示的服务器100当中,用户可以通过相应的终端访问该服务器100部署的命名实体协作平台,该命名实体协作平台可以用于对导入的批量样本进行命名实体的快速识别和标注,从而快速生成相应的训练语料,该命名实体协作平台可以包括结构化处理模块、标注工具模块、标注能力评测模块、训练模型模块、数据管理模块和用户管理模块;其中,
结构化处理模块,可以用于采用命名实体识别技术实现对样本中的命名实体进行识别和预标注,还可以对识别和预标注的结果进行可视化。命名识别技术可以采用BILSTM-CRF的深度学习模型实现,通过BILSTM层,模型可以自己学习到特征规则,并不需要用户自己拟定。
标注工具模块,可以用于对样本中的命名实体进行标注,从而基于标注的命名实体生成相应的训练语料,该标注工具模块可以通过多个子功能来提高标注效率,可以包括任务形式管理功能、预标注功能、智能填充功能和标注存储功能;其中,任务形式管理功能可以用于用户通过创建标注任务,可以批量操作多个样本,也可以将任务拆分分配给其他用户进行协同标注,节省了标注的人力物力;预标注功能可以根据已有的实体字典进行自动预标注,之后用户可以基于预标注的语料再进行修改,语料指的是非结构化的文本数据;智能填充功能,可以用于将用户的标注同步到其他样本当中,比如用户在某个样本中标注了“咳嗽”为“症状”类实体,那么同个项目的所有样本中的“咳嗽”词汇都会被标注为“症状”类实体;标注存储功能,可以用于将结构化处理的处理结果保存为标注项目,也就是说,用户可以通过结构化处理模块进行预标注,之后用户再在预标注的基础上进行添加修改即可,结构化处理是把非结构化文本数据中的实体提取出来的一种技术,而先把文本数据用结构化处理模块进行处理,就可以得到机器标注后的数据,这些数据的展示形式和存储形式都跟人工标注是一样的,所以可以把结构化处理后的数据存为标注项目,然后相关人员再在此基础上进行进一步的修正补充,以节省标注的人力物力。
上述标注工具模块也提供了相应的多种标注的可视化模式,便于用户查看标注结果,可以设有两种可视化模式,第一种可视化模式是直接在文本中把各种实体用不同颜色标注出来,这种可视化模式直观便于检查,每次可以只能展示一个样本;第二种可视化模式是以普通表格形式展示,展示的内容可以包括:原始样本和命名实体识别和标注后的样本等等。此外,该标注工具模块还提供了一致性检查功能,用于检查是否有同样的词汇被标注为不同类型的实体,或是否有漏标注的情况,从而为标注样本的质量提供了进一步的保证,其中,一致性检查可以包括两种检查结果:case1,如果标注任务中有出现不一致的标注,那么就统一展示在“一致性检查”的结果表格中,让用户为被标注为多个实体类型的命名实体做统一的实体类型指定;case2,如果标注任务中没有出现不一致的标注,那么会告知通过一致性检查。一致性检查的内容可以包括:同一个词被标注为多个实体类型和同一个词在某些样本中有被标注出来,在某些样本中没有被标注出来等等。
标注能力评测模块,可以用于评估用户对命名实体的标注水平,因为训练语料的标注质量是非常重要的,所以一般在标注任务开始之前,都会拟定标注的标准,并对参与标注的标注人员进行培训,然而在标注培训以后,未必每个参与人员的标注能力都能达到标准,所以命名识别协作平台可以通过标注能力测评模块对各个标注人员进行标注测试评估其标注能力。其中,通过对比标准的标注样本,可以计算各个参与评测的标注人员的标注能力,并把相关的信息同步显示在标注工具模块作为参考,这样,在分配标注任务的各个样本的时候,就可以根据标注人员的标注能力参考是否要分配给该标注人员,或者是否需要重新培训或进一步完善标注标准。
训练模型模块,可以用于训练命名实体识别模型,命名实体识别协作平台内嵌了一个基准的命名实体识别模型,用户可以在不训练该命名实体识别模型的情况下,就可以直接对相关样本进行做结构化处理,但是该命名实体识别模型通常只具备预测它支持的实体类型,其他的实体类型则需要通过再训练去获得支持,所以还可以对该命名实体识别模型进行训练,对于用户而言,一般只需要在该平台展示的界面上填写一些训练模型的简单参数,选择用于训练的标注样本,如果是基于某个模型继续训练的话,还需要选择相应的模型。
数据管理模块,可以用于统一管理该命名实体识别协作平台的各个功能模块的数据源,方便数据的重复使用,也便于对数据进行统一管理。
用户管理模块,可以对用户的相关信息进行管理。
上述命名实体识别协作平台还提供了全图形化界面操作,所以用户的操作入门门槛低,适用人群广,操作简单、无需自定义特征模板、效率高、可多人协作。
在一个实施例中,提供了一种训练语料的获取装置,参考图4,图4为一个实施例中训练语料的获取装置的结构框图,该训练语料的获取装置可以包括:
样本获取模块101,用于获取携带训练语料的多个样本;
标注生成模块102,用于将多个样本分配给多个终端,触发多个终端识别多个样本中的命名实体,并生成对命名实体的标注;
标注获取模块103,用于获取多个终端生成的标注;
语料提取模块104,用于根据标注提取多个样本的训练语料。
在一个实施例中,标注生成模块102进一步用于:
获取各个终端的标注能力值;根据标注能力值将多个样本分配至多个终端。
在一个实施例中,标注生成模块102进一步用于:
获取各个终端对标准样本中的命名实体进行标注生成的测试标注;获取标准样本中的命名实体的标准标注;将测试标注与标准标注进行比较,根据比较结果确定标注能力值。
在一个实施例中,标注生成模块102进一步用于:
获取对命名实体的预标注;接收用户对预标注的编辑操作;根据编辑操作对预标注进行编辑生成标注。
在一个实施例中,标注生成模块102进一步用于:
基于BILSTM-CRF模型对命名实体进行标注,得到BILSTM-CRF模型输出的预标注。
在一个实施例中,标注生成模块102进一步用于:
接收多个终端同步的对命名实体的参考标注;根据参考标注生成对命名实体的标注。
在一个实施例中,还可以包括:
检查模块,用于对多个终端生成的标注的一致性进行检查;根据检查结果生成用于提取训练语料的标注。
本发明的训练语料的获取装置与本发明的训练语料的获取方法一一对应,关于训练语料的获取装置的具体限定可以参见上文中对于训练语料的获取方法的限定,在上述训练语料的获取方法的实施例阐述的技术特征及其有益效果均适用于训练语料的获取装置的实施例中,在此不再赘述。上述训练语料的获取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示,图5为一个实施例中计算机设备的内部结构图。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库可以用于存储训练语料的获取方法的步骤流程中涉及的如样本、命名实体和标注等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种训练语料的获取方法。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括处理器和存储器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取携带训练语料的多个样本;将多个样本分配给多个终端,触发多个终端识别多个样本中的命名实体,并生成对命名实体的标注;获取多个终端生成的标注;根据标注提取多个样本的训练语料。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
获取各个终端的标注能力值;根据标注能力值将多个样本分配至多个终端。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
获取各个终端对标准样本中的命名实体进行标注生成的测试标注;获取标准样本中的命名实体的标准标注;将测试标注与标准标注进行比较,根据比较结果确定标注能力值。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
获取对命名实体的预标注;接收用户对预标注的编辑操作;根据编辑操作对预标注进行编辑生成标注。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
基于BILSTM-CRF模型对命名实体进行标注,得到BILSTM-CRF模型输出的预标注。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
接收多个终端同步的对命名实体的参考标注;根据参考标注生成对命名实体的标注。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
对多个终端生成的标注的一致性进行检查;根据检查结果生成用于提取训练语料的标注。
上述计算机设备,通过所述处理器上运行的计算机程序,使得多个样本的命名实体能够通过多个终端进行批量识别和标注,从而在多个终端的识别和标注下快速提取出多个样本中的训练语料,提高了训练语料的获取效率。
本领域普通技术人员可以理解实现如上任一项实施例所述的训练语料的获取方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
据此,在一个实施例中提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取携带训练语料的多个样本;将多个样本分配给多个终端,触发多个终端识别多个样本中的命名实体,并生成对命名实体的标注;获取多个终端生成的标注;根据标注提取多个样本的训练语料。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
获取各个终端的标注能力值;根据标注能力值将多个样本分配至多个终端。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
获取各个终端对标准样本中的命名实体进行标注生成的测试标注;获取标准样本中的命名实体的标准标注;将测试标注与标准标注进行比较,根据比较结果确定标注能力值。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
获取对命名实体的预标注;接收用户对预标注的编辑操作;根据编辑操作对预标注进行编辑生成标注。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
基于BILSTM-CRF模型对命名实体进行标注,得到BILSTM-CRF模型输出的预标注。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
接收多个终端同步的对命名实体的参考标注;根据参考标注生成对命名实体的标注。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
对多个终端生成的标注的一致性进行检查;根据检查结果生成用于提取训练语料的标注。
上述计算机可读存储介质,通过其存储的计算机程序,使得多个样本的命名实体能够通过多个终端进行批量识别和标注,从而在多个终端的识别和标注下快速提取出多个样本中的训练语料,提高了训练语料的获取效率。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种训练语料的获取方法,其特征在于,包括步骤:
获取携带训练语料的多个样本;
将所述多个样本分配给多个终端,触发所述多个终端识别所述多个样本中的命名实体,并生成对所述命名实体的标注;
获取所述多个终端生成的所述标注;
根据所述标注提取所述多个样本的所述训练语料。
2.根据权利要求1所述的训练语料的获取方法,其特征在于,所述将所述多个样本分配给多个终端的步骤包括:
获取各个所述终端的标注能力值;
根据所述标注能力值将所述多个样本分配至所述多个终端。
3.根据权利要求2所述的训练语料的获取方法,其特征在于,所述获取各个所述终端的标注能力值的步骤包括:
获取各个所述终端对标准样本中的命名实体进行标注生成的测试标注;
获取所述标准样本中的命名实体的标准标注;
将所述测试标注与标准标注进行比较,根据比较结果确定所述标注能力值。
4.根据权利要求1所述的训练语料的获取方法,其特征在于,所述生成对所述命名实体的标注的步骤包括:
获取对所述命名实体的预标注;
接收用户对所述预标注的编辑操作;
根据所述编辑操作对所述预标注进行编辑生成所述标注。
5.根据权利要求4所述的训练语料的获取方法,其特征在于,所述获取对所述命名实体的预标注的步骤包括:
基于BILSTM-CRF模型对所述命名实体进行标注,得到所述BILSTM-CRF模型输出的所述预标注。
6.根据权利要求1所述的训练语料的获取方法,其特征在于,所述生成对所述命名实体的标注的步骤包括:
接收多个所述终端同步的对所述命名实体的参考标注;
根据所述参考标注生成对所述命名实体的所述标注。
7.根据权利要求1所述的训练语料的获取方法,其特征在于,在所述获取所述多个终端生成的所述标注的步骤之后,还包括:
对所述多个终端生成的标注的一致性进行检查;
根据检查结果生成用于提取所述训练语料的标注。
8.一种训练语料的获取装置,其特征在于,包括:
样本获取模块,用于获取携带训练语料的多个样本;
标注生成模块,用于将所述多个样本分配给多个终端,触发所述多个终端识别所述多个样本中的命名实体,并生成对所述命名实体的标注;
标注获取模块,用于获取所述多个终端生成的所述标注;
语料提取模块,用于根据所述标注提取所述多个样本的所述训练语料。
9.一种计算机设备,包括处理器和存储器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的训练语料的获取方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述的训练语料的获取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811589159.6A CN109710933A (zh) | 2018-12-25 | 2018-12-25 | 训练语料的获取方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811589159.6A CN109710933A (zh) | 2018-12-25 | 2018-12-25 | 训练语料的获取方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109710933A true CN109710933A (zh) | 2019-05-03 |
Family
ID=66257433
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811589159.6A Pending CN109710933A (zh) | 2018-12-25 | 2018-12-25 | 训练语料的获取方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109710933A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111078984A (zh) * | 2019-11-05 | 2020-04-28 | 深圳奇迹智慧网络有限公司 | 网络模型发布方法、装置、计算机设备和存储介质 |
CN111261140A (zh) * | 2020-01-16 | 2020-06-09 | 云知声智能科技股份有限公司 | 韵律模型训练方法及装置 |
CN111553161A (zh) * | 2020-04-28 | 2020-08-18 | 郑州大学 | 一种面向医疗文本的实体及关系标注系统 |
CN111738008A (zh) * | 2020-07-20 | 2020-10-02 | 平安国际智慧城市科技股份有限公司 | 基于多层模型的实体识别方法、装置、设备及存储介质 |
CN112101026A (zh) * | 2019-06-18 | 2020-12-18 | 掌阅科技股份有限公司 | 语料样本集合的构建方法、计算设备及计算机存储介质 |
CN113191120A (zh) * | 2021-06-02 | 2021-07-30 | 云知声智能科技股份有限公司 | 一种智能标注平台的方法、装置、电子设备和存储介质 |
CN113569988A (zh) * | 2021-08-23 | 2021-10-29 | 广州品唯软件有限公司 | 一种算法模型评测方法及系统 |
WO2022007527A1 (zh) * | 2020-07-06 | 2022-01-13 | 华为技术有限公司 | 样本数据标注系统、方法以及相关设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103914334A (zh) * | 2012-12-31 | 2014-07-09 | 北京百度网讯科技有限公司 | 地图的标注方法和系统 |
CN106156025A (zh) * | 2015-03-25 | 2016-11-23 | 阿里巴巴集团控股有限公司 | 一种数据标注的管理方法及装置 |
WO2018023981A1 (zh) * | 2016-08-03 | 2018-02-08 | 平安科技(深圳)有限公司 | 舆情分析方法、装置、设备及计算机可读存储介质 |
CN107729378A (zh) * | 2017-07-13 | 2018-02-23 | 华中科技大学 | 一种数据标注方法 |
CN108875769A (zh) * | 2018-01-23 | 2018-11-23 | 北京迈格威科技有限公司 | 数据标注方法、装置和系统及存储介质 |
CN108984490A (zh) * | 2018-07-17 | 2018-12-11 | 北京猎户星空科技有限公司 | 一种数据标注方法、装置、电子设备及存储介质 |
-
2018
- 2018-12-25 CN CN201811589159.6A patent/CN109710933A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103914334A (zh) * | 2012-12-31 | 2014-07-09 | 北京百度网讯科技有限公司 | 地图的标注方法和系统 |
CN106156025A (zh) * | 2015-03-25 | 2016-11-23 | 阿里巴巴集团控股有限公司 | 一种数据标注的管理方法及装置 |
WO2018023981A1 (zh) * | 2016-08-03 | 2018-02-08 | 平安科技(深圳)有限公司 | 舆情分析方法、装置、设备及计算机可读存储介质 |
CN107729378A (zh) * | 2017-07-13 | 2018-02-23 | 华中科技大学 | 一种数据标注方法 |
CN108875769A (zh) * | 2018-01-23 | 2018-11-23 | 北京迈格威科技有限公司 | 数据标注方法、装置和系统及存储介质 |
CN108984490A (zh) * | 2018-07-17 | 2018-12-11 | 北京猎户星空科技有限公司 | 一种数据标注方法、装置、电子设备及存储介质 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112101026A (zh) * | 2019-06-18 | 2020-12-18 | 掌阅科技股份有限公司 | 语料样本集合的构建方法、计算设备及计算机存储介质 |
CN112101026B (zh) * | 2019-06-18 | 2024-05-31 | 掌阅科技股份有限公司 | 语料样本集合的构建方法、计算设备及计算机存储介质 |
CN111078984A (zh) * | 2019-11-05 | 2020-04-28 | 深圳奇迹智慧网络有限公司 | 网络模型发布方法、装置、计算机设备和存储介质 |
CN111078984B (zh) * | 2019-11-05 | 2024-02-06 | 深圳奇迹智慧网络有限公司 | 网络模型发布方法、装置、计算机设备和存储介质 |
CN111261140B (zh) * | 2020-01-16 | 2022-09-27 | 云知声智能科技股份有限公司 | 韵律模型训练方法及装置 |
CN111261140A (zh) * | 2020-01-16 | 2020-06-09 | 云知声智能科技股份有限公司 | 韵律模型训练方法及装置 |
CN111553161A (zh) * | 2020-04-28 | 2020-08-18 | 郑州大学 | 一种面向医疗文本的实体及关系标注系统 |
CN111553161B (zh) * | 2020-04-28 | 2022-11-18 | 郑州大学 | 一种面向医疗文本的实体及关系标注系统 |
WO2022007527A1 (zh) * | 2020-07-06 | 2022-01-13 | 华为技术有限公司 | 样本数据标注系统、方法以及相关设备 |
CN111738008A (zh) * | 2020-07-20 | 2020-10-02 | 平安国际智慧城市科技股份有限公司 | 基于多层模型的实体识别方法、装置、设备及存储介质 |
CN111738008B (zh) * | 2020-07-20 | 2021-04-27 | 深圳赛安特技术服务有限公司 | 基于多层模型的实体识别方法、装置、设备及存储介质 |
CN113191120A (zh) * | 2021-06-02 | 2021-07-30 | 云知声智能科技股份有限公司 | 一种智能标注平台的方法、装置、电子设备和存储介质 |
CN113569988A (zh) * | 2021-08-23 | 2021-10-29 | 广州品唯软件有限公司 | 一种算法模型评测方法及系统 |
CN113569988B (zh) * | 2021-08-23 | 2024-04-19 | 广州品唯软件有限公司 | 一种算法模型评测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109710933A (zh) | 训练语料的获取方法、装置、计算机设备和存储介质 | |
CN111666401B (zh) | 基于图结构的公文推荐方法、装置、计算机设备及介质 | |
CN110059320B (zh) | 实体关系抽取方法、装置、计算机设备和存储介质 | |
CN112651238A (zh) | 训练语料扩充方法及装置、意图识别模型训练方法及装置 | |
CN110162627A (zh) | 数据增量方法、装置、计算机设备及存储介质 | |
CN111680634B (zh) | 公文文件处理方法、装置、计算机设备及存储介质 | |
CN108664595B (zh) | 领域知识库构建方法、装置、计算机设备和存储介质 | |
CN112711937A (zh) | 一种模板推荐方法、装置、设备及存储介质 | |
CN107291840B (zh) | 一种用户属性预测模型构建方法和装置 | |
CN113536735B (zh) | 一种基于关键词的文本标记方法、系统和存储介质 | |
CN110955608B (zh) | 测试数据处理方法、装置、计算机设备和存储介质 | |
US11868714B2 (en) | Facilitating generation of fillable document templates | |
CN110674131A (zh) | 财务报表数据处理方法、装置、计算机设备和存储介质 | |
CN113379398B (zh) | 一种项目需求的生成方法、装置、电子设备及存储介质 | |
US20180101521A1 (en) | Avoiding sentiment model overfitting in a machine language model | |
CN112699923A (zh) | 文档分类预测方法、装置、计算机设备及存储介质 | |
CN112286934A (zh) | 数据库表导入方法、装置、设备及介质 | |
CN115391439A (zh) | 文档数据导出方法、装置、电子设备和存储介质 | |
CN108986786B (zh) | 语音交互设备评级方法、系统、计算机设备和存储介质 | |
CN113849644A (zh) | 文本分类模型的配置方法、装置、计算机设备及存储介质 | |
CN111078564B (zh) | 一种ui测试用例管理方法、装置、计算机设备以及计算机可读存储介质 | |
CN113642337A (zh) | 数据处理方法和装置、翻译方法、电子设备以及计算机可读存储介质 | |
CN116861881A (zh) | 数据处理方法、装置、设备及介质 | |
CN111597336A (zh) | 训练文本的处理方法、装置、电子设备及可读存储介质 | |
CN116796758A (zh) | 对话交互方法、对话交互装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190503 |