CN112241445B - 一种标注方法及装置、电子设备、存储介质 - Google Patents
一种标注方法及装置、电子设备、存储介质 Download PDFInfo
- Publication number
- CN112241445B CN112241445B CN202011159870.5A CN202011159870A CN112241445B CN 112241445 B CN112241445 B CN 112241445B CN 202011159870 A CN202011159870 A CN 202011159870A CN 112241445 B CN112241445 B CN 112241445B
- Authority
- CN
- China
- Prior art keywords
- labeling
- field
- error
- result
- marking
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 285
- 238000012937 correction Methods 0.000 claims abstract description 28
- 238000000034 method Methods 0.000 claims abstract description 26
- 238000004590 computer program Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 6
- 238000003058 natural language processing Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008451 emotion Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 239000003086 colorant Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
Abstract
本申请提供了一种标注方法及装置、电子设备、存储介质;该方法包括:获取符合预设要求的文本信息;利用选取的与文本信息对应的标注模型,获得文本信息的自动标注结果;获取基于自动标注结果的人工标注信息;按照配置的纠错规则,识别出人工标注信息中包含的错误标注字段;显示自动标注结果和人工标注信息,并标记出错误标注字段。本申请上述实施例提供的技术方案,降低了人工标注的工作量,提高了标注效率,提高了标注的准确性。
Description
技术领域
本申请涉及文本处理技术领域,特别涉及一种标注方法及装置、电子设备、计算机可读存储介质。
背景技术
自然语言处理(Natural Language Processing,NLP)技术可以高效地对文本数据进行系统化分析、理解与信息提取,使得计算机能够理解自然语言以及生成自然语言,进而实现人与计算机之间采用自然语言进行有效交互(例如消息自动回复、语音助手等应用程序的使用)。其中,文本标注技术为自然语言处理的产业化应用提供了基础。
现有技术中做长文本分析时,需要耗费大量人力,一般分为标注员,质检员,抽检员,管理员四个角色进行管控,多角色层层管控,导致标注效率低,人力成本高,而标注准确性仍有待提高。
发明内容
本申请实施例提供了一种标注方法,用以提高标注效率,降低人力成本,提高标注准确性。
本申请实施例提供的了一种标注方法,包括:
获取符合预设要求的文本信息;
利用选取的与所述文本信息对应的标注模型,获得所述文本信息的自动标注结果;
获取基于所述自动标注结果的人工标注信息;
按照配置的纠错规则,识别出所述人工标注信息中包含的错误标注字段;
显示所述自动标注结果和人工标注信息,并标记出所述错误标注字段。
在一实施例中,所述获取符合预设要求的文本信息,包括:
拦截超出预设要求的信息,获得所述符合预设要求的文本信息;
显示所述预设要求。
在一实施例中,在所述利用选取的与所述文本信息对应的标注模型,获得所述文本信息的自动标注结果之后,所述方法包括:
按照配置的纠错规则,识别出所述自动标注结果中包含的错误标注字段;
显示所述自动标注结果,并标记出所述错误标注字段。
在一实施例中,所述按照配置的纠错规则,识别出所述自动标注结果中包含的错误标注字段,包括:
针对所述自动标注结果中的目标字段,判断所述目标字段是否以指定字符开始或结尾;若是,确定所述目标字段为错误标注字段。
在一实施例中,所述按照配置的纠错规则,识别出所述人工标注信息中包含的错误标注字段,包括:
针对所述人工标注信息中的目标字段,判断所述目标字段是否以指定字符开始或结尾;若是,确定所述目标字段为错误标注字段。
在一实施例中,在所述标记出所述错误标注字段之后,所述方法还包括:
获取不同用户对所述错误标注字段的判别结果;
根据所述判别结果,统计所述错误标注字段判别为标注正确的正确次数,若所述正确次数大于第一阈值,删除对所述错误标注字段的标记。
在一实施例中,在获取不同用户对所述错误标注字段的判别结果之后,所述方法还包括:
获取不同用户对所述错误标注字段的判别结果;
根据所述判别结果,统计所述错误标注字段判别为标注错误的错误次数,若所述错误次数大于第二阈值,自动修改所述错误标注字段的标注结果。
在一实施例中,在所述标记出所述错误标注字段之后,所述方法还包括:
将所述文本信息的最终标注结果作为样本数据,优化所述文本信息对应的标注模型。
本申请实施例提供了一种标注装置,包括:
文本获取模块,用于获取符合预设要求的文本信息;
自动标注模块,用于利用选取的与所述文本信息对应的标注模型,获得所述文本信息的自动标注结果;
人工标注模块,用于获取基于所述自动标注结果的人工标注信息;
字段纠错模块,用于按照配置的纠错规则,识别出所述人工标注信息中包含的错误标注字段;
错误标记模块,用于显示所述自动标注结果和人工标注信息,并标记出所述错误标注字段。
本申请实施例提供了一种电子设备,所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行上述标注方法。
本申请实施例提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序可由处理器执行以完成上述标注方法。
本申请上述实施例提供的技术方案,通过与文本信息对应的标注模型自动对文本信息进行标注,降低了人工标注的工作量,提高了标注效率,对于人工标注结果,可以基于纠错规则自动识别错误标注字段,并标记出错误标注字段,从而提高标注的准确性,可以具有辅助人工标注的作用。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的标注方法的应用场景示意图;
图2为本申请实施例提供的电子设备示意图;
图3为本申请实施例提供的标注方法的流程示意图;
图4为本申请另一实施例提供的标注方法的流程示意图;
图5为本申请又一实施例提供的标注方法的流程示意图;
图6为本申请实施例提供的标注装置的框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
图1为本申请实施例提供的标注方法的应用场景示意图。如图1所示,该应用场景包括服务端110以及多个客户端120。服务端110与客户端120之间通过有线或无线网络通信。服务端110可以是服务器、服务器集群以及云计算中心。客户端120可以是智能手机、平板电脑、笔记本电脑或台式电脑。服务端110可以获取符合预设要求的文本信息;利用选取的与所述文本信息对应的标注模型,获得所述文本信息的自动标注结果。
服务端110可以将自动标注结果推送到客户端120进行显示,并接收客户端120返回的用户基于所述自动标注结果的人工标注信息。服务端110可以按照配置的纠错规则,识别出所述人工标注信息中包含的错误标注字段,并将错误标注字段返回客户端。客户端120可以显示自动标注结果和人工标注信息,并标记出所述错误标注字段。
由此,人工标注仅是起到辅助作用,基于标注模型和纠错规则,可以自动进行文本标注并识别出错误标注字段,提高了标注效率,降低了人力成本,提高了标注准确性。
图2是本申请实施例提供的电子设备的框图。如图2所示,该电子设备200包括处理器210,以及用于存储处理器210可执行指令的存储器220。其中,所述处理器210被配置为执行下述的标注方法。
处理器210可以是一种集成电路芯片,具有信号处理能力。上述处理器210可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(NetworkProcessor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。其可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。
存储器220可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM),可编程只读存储器(Programmable Red-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。存储器204中还存储有一个或多个模块,分别借由该一个或多个处理器210执行,以完成下述标注方法步骤。
本申请实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序可由处理器210执行以完成下述标注方法。
图3是本申请实施例提供的标注方法的流程示意图。如图3所示,该方法包括以下步骤S310-步骤S350。
步骤S310:获取符合预设要求的文本信息。
其中,预设要求可以是字数限制、语言限制或文件格式限制。符合预设要求可以是满足字数要求、语言要求以及文件格式要求的文本信息。例如,字数不少于500字,语言为汉语,文件格式为doc格式、txt格式等。
其中,文本信息可以提前存储在服务端,也可以由服务端从其他设备获取。在一实施例中,服务端可以通过拦截超出预设要求(即不符合预设要求)的信息,获得符合预设要求的信息,即为文本信息。
在一实施例中,服务端可以将预设要求发送到客户端,便于客户端的用户更加精准的自我选择标注模型。其中,标注模型按照标注需求的不同,可以有多种类型。例如,标注模块可以是按照统计学原理,将出现频次较多的内容标注;也可以是按照行业属性,将所属行业的内容进行标注(例如,法律行业,具有与法律行业对应的训练模型;新闻行业,具有与新闻行业对应的训练模型);也可以是按照用户的历史记录,将历史上已经标注过的内容进行标注;也可能是按照情感逻辑,将与情感相关的内容进行标注。用户可以根据需要,从多种标注模型中选取至少一个,参与后续文本信息的自动标注。在一实施例中,客户端可以将用户选取的标注模型发送到服务端,从而服务端可以得到用户从多种标注模型中选取的标注模型。
在其他实施例中,服务端也可以根据不同行业的关键词,判断文本信息中是否携带上述关键词,从而确定文本信息的行业类型,由此服务端可以自动选取与行业类型对应的标注模型。与人工选取合适的标注模型相比,本申请实施例由服务端等机器自动选取与文本信息的内容匹配的标注模型,进一步可以减少人力成本,提高标注效率。
步骤S320:利用选取的与所述文本信息对应的标注模型,获得所述文本信息的自动标注结果。
服务端可以将文本信息输入选取的标注模型,标注模型的输出即为文本信息的自动标注结果。其中,标注模型可以通过已标注的少量样本数据训练得到。自动标注结果是相当于人工标注而言的,通过标注模型自动抽取待标注字段(例如,上半年供给稳定增长)打上相应的标签(例如,利好消息)。
步骤S330:获取基于所述自动标注结果的人工标注信息。
其中,人工标注信息是用户在自动标注结果的基础上,人为标注的结果。在一实施例中,服务端可以将自动标注结果发送到客户端进行显示,从而客户端的用户可以参考自动标注结果,对于未标注的字段进行标注,或者修改已标注字段的标签内容,从而减少标注员的工作量,提高标注效率。服务端可以获取用户所在客户端的人工标注信息。
步骤S340:按照配置的纠错规则,识别出所述人工标注信息中包含的错误标注字段。
其中,错误标注字段是指符合纠错规则的字段。纠错规则可以是判断标注字段是否以指定字符开始或结尾。指定字符可以是标点符号、助词、虚词、叹词等。为提高人工标注的准确性,在一实施例中,服务端可以提前存储上述指定字符,之后针对人工标注信息中的目标字段,判断所述目标字段是否以指定字符开始或结尾;若是,确定所述目标字段为错误标注字段。
人工标注信息中的目标字段是指人工标注的字段,目标字段可能是一个或多个。服务端可以通过判断目标字段是否以标点符号、助词、虚词或叹词开始或结尾。如果目标字段以标点符号、助词、虚词或叹词开始或结尾,则认为此目标字段属于错误标注字段。相反,则可以认为不是错误标注字段。例如,“的上半年供给稳定增长”这个字段,以助词“的”开始,可以认为“的上半年供给稳定增长”这个字段标注错误,即属于错误标注字段。
步骤S350:显示所述自动标注结果和人工标注信息,并标记出所述错误标注字段。
客户端可以同时进行自动标注结果和人工标注信息的显示。对于人工标注信息中的错误标注字段,客户端可以用预设图案进行标记,例如可以在错误标注字段的下方显示不同颜色的直线或波浪线,圈出或框出错误标注字段。根据需要,客户端还可以对错误标注字段进行高亮显示、加粗显示、放大显示等标记手段。
在一实施例中,人工标注信息可以包括对自动标注结果的部分修改,故如果某个字段在人工标注信息和自动标注结果中的标注结果不一致时,可以以人工标注信息为准进行显示,并且,对于识别出的错误标注字段客户端可以一一标记出来,便于用户再次确认是否正确。由此可以大大提高标注的准确性,提高标注效率,降低人力成本。
图4是本申请另一实施例提供的标注方法的流程示意图。如图4所示,在上述步骤S320之后,本申请实施例提供的方法还包括:步骤S321:按照配置的纠错规则,识别出所述自动标注结果中包含的错误标注字段;步骤S322:显示所述自动标注结果,并标记出所述错误标注字段。
参见上文,纠错规则可以判断标注字段是否以指定字符开始或结尾。为提高标注准确性,减少人工标注的工作量,提高标注效率,在获得自动标注结果后,服务端可以针对自动标注结果中的目标字段,判断目标字段是否以指定字符开始或结尾;若是,确定目标字段为错误标注字段。
其中,自动标注结果中的目标字段可以是自动标注结果中的每个标注字段。针对自动标注结果中的每个标注字段,服务端可以判断此标注字段是否以标点符号、助词、虚词、叹词开始或结尾,如果是,则确认此标注字段为错误标注字段。客户端可以先进行自动标注结果的显示,并标记出自动标注结果中的错误标注字段,从而自动标注结果中的错误标注字段可以快速被发现,辅助用户进行人工标注,获得人工标注信息。
在一实施例中,如图5所示,在上述步骤S350标记出所述错误标注字段之后,本申请实施例提供的方法还包括:
步骤S360:获取不同用户对所述错误标注字段的判别结果。
服务端可以将自动标注结果以及人工标注信息发送到不同的客户端进行显示,并在客户端标记出人工标注信息中的错误标注字段。由此可以由多个用户同时来确认错误标注字段是否真的标注错误。判别结果是指用户对错误标注字段是否真的标注错误的判断结果,可能是标注正确,也可能是标注错误。
步骤S361:根据所述判别结果,统计所述错误标注字段判别为标注正确的正确次数,若所述正确次数大于第一阈值,删除对所述错误标注字段的标记。
如果某个错误标注字段,多个用户认为是标注正确的,则可以认为不属于错误标注字段。故针对每个错误标注字段,服务端可以通过统计此错误标注字段被用户判别为标注正确的次数(即正确次数),如果正确次数大于第一阈值(例如3),可以认为至少3个用户认为不属于错误标注字段,故可以删除对错误标注字段的标记,例如删除下划的波浪线。
在其他实施例中,在步骤S360获取不同用户对所述错误标注字段的判别结果之后,本申请实施例提供的方法还可以包括:
步骤S362:根据所述判别结果,统计所述错误标注字段判别为标注错误的错误次数,若所述错误次数大于第二阈值,自动修改所述错误标注字段的标注结果。
针对每个错误标注字段,服务端可以通过统计此错误标注字段被用户判别为标注错误的次数(即错误次数),如果错误次数大于第二阈值(例如3),可以认为至少3个用户认为属于错误标注字段,故可以自动修改错误标注字段的标注结果。例如,可以通过标注模型的自动标注结果替换人工对错误标注字段的标注结果。
在一实施例中,在步骤S350标记出错误标注字段之后,服务端还可以接收用户所在客户端发送的对错误标注字段的修改结果,由此得到文本信息的最终标注结果。本申请实施例提供的方法还可以包括:将所述文本信息的最终标注结果作为样本数据,优化所述文本信息对应的标注模型。
其中,最终标注结果可以认为是已对错误标注字段完成了修改。最终标注结果可以认为包括自动标注结果和人工标注信息,且不存在错误标注字段。文本信息以及最终标注结果可以作为样本数据,优化文本信息对应的标注模型的参数。具体的,可以将文本信息作为标注模型的输入,调整标注模型的参数,使标注模型输出的标注结果与最终标注结果之间的差异最小。
下述为本申请装置实施例,可以用于执行本申请上述标注方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请标注方法实施例。
图6为本申请一实施例示出的标注装置的框图,如图6所示,该装置包括:文本获取模块610、自动标注模块620、人工标注模块630、字段纠错模块640以及错误标记模块650。
文本获取模块610,用于获取符合预设要求的文本信息。
自动标注模块620,用于利用选取的与所述文本信息对应的标注模型,获得所述文本信息的自动标注结果。
人工标注模块630,用于获取基于所述自动标注结果的人工标注信息。
字段纠错模块640,用于按照配置的纠错规则,识别出所述人工标注信息中包含的错误标注字段。
错误标记模块650,用于显示所述自动标注结果和人工标注信息,并标记出所述错误标注字段。
上述装置中各个模块的功能和作用的实现过程具体详见上述标注方法中对应步骤的实现过程,在此不再赘述。
在一实施例中,上述文本获取模块610具体用于:拦截超出预设要求的信息,获得所述符合预设要求的文本信息,并显示所述预设要求。
在一实施例中,本申请实施例提供的标注装置还包括:
模型获取模块,用于在所述利用选取的与所述文本信息对应的标注模型,获得所述文本信息的自动标注结果之前,获取用户从多种训练模型中选取的标注模型。
在一实施例中,本申请实施例提供的标注装置还包括:
字段识别模块,用于在所述利用选取的与所述文本信息对应的标注模型,获得所述文本信息的自动标注结果之后,按照配置的纠错规则,识别出所述自动标注结果中包含的错误标注字段;
字段标记模块,用于显示所述自动标注结果,并标记出所述错误标注字段。
在一实施例中,上述字段识别模块具体用于:针对所述自动标注结果中的目标字段,判断所述目标字段是否以指定字符开始或结尾;若是,确定所述目标字段为错误标注字段。
在一实施例中,所述字段纠错模块640具体用于:针对所述人工标注信息中的目标字段,判断所述目标字段是否以指定字符开始或结尾;若是,确定所述目标字段为错误标注字段。
在一实施例中,本申请实施例提供的标注装置还包括:
字段判别模块,用于在所述标记出所述错误标注字段之后,获取不同用户对所述错误标注字段的判别结果;
正确统计模块,用于根据所述判别结果,统计所述错误标注字段判别为标注正确的正确次数,若所述正确次数大于第一阈值,删除对所述错误标注字段的标记。
在一实施例中,本申请实施例提供的标注装置还包括:
字段判别模块,用于在获取不同用户对所述错误标注字段的判别结果之后,获取不同用户对所述错误标注字段的判别结果。
错误判别模块,用于根据所述判别结果,统计所述错误标注字段判别为标注错误的错误次数,若所述错误次数大于第二阈值,自动修改所述错误标注字段的标注结果。
在一实施例中,本申请实施例提供的标注装置还包括:
模型优化模块,用于在所述标记出所述错误标注字段之后,将所述文本信息的最终标注结果作为样本数据,优化所述文本信息对应的标注模型。
在本申请所提供的几个实施例中,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
Claims (8)
1.一种标注方法,其特征在于,包括:
获取符合预设要求的文本信息;
利用选取的与所述文本信息对应的标注模型,获得所述文本信息的自动标注结果;
获取基于所述自动标注结果的人工标注信息;
按照配置的纠错规则,识别出所述人工标注信息中包含的错误标注字段;
显示所述自动标注结果和人工标注信息,并标记出所述错误标注字段;
在所述利用选取的与所述文本信息对应的标注模型,获得所述文本信息的自动标注结果之后,所述方法还包括:
按照配置的纠错规则,识别出所述自动标注结果中包含的错误标注字段;
显示所述自动标注结果,并标记出所述错误标注字段;
所述按照配置的纠错规则,识别出所述自动标注结果中包含的错误标注字段,包括:针对所述自动标注结果中的目标字段,判断所述目标字段是否以指定字符开始或结尾;若是,确定所述目标字段为错误标注字段;
和/或,
所述按照配置的纠错规则,识别出所述人工标注信息中包含的错误标注字段,包括:针对所述人工标注信息中的目标字段,判断所述目标字段是否以指定字符开始或结尾;若是,确定所述目标字段为错误标注字段。
2.根据权利要求1所述的方法,其特征在于,所述获取符合预设要求的文本信息,包括:
拦截超出预设要求的信息,获得所述符合预设要求的文本信息;
显示所述预设要求。
3.根据权利要求1所述的方法,其特征在于,在所述标记出所述错误标注字段之后,所述方法还包括:
获取不同用户对所述错误标注字段的判别结果;
根据所述判别结果,统计所述错误标注字段判别为标注正确的正确次数,若所述正确次数大于第一阈值,删除对所述错误标注字段的标记。
4.根据权利要求1所述的方法,其特征在于,在获取不同用户对所述错误标注字段的判别结果之后,所述方法还包括:
获取不同用户对所述错误标注字段的判别结果;
根据所述判别结果,统计所述错误标注字段判别为标注错误的错误次数,若所述错误次数大于第二阈值,自动修改所述错误标注字段的标注结果。
5.根据权利要求1所述的方法,其特征在于,在所述标记出所述错误标注字段之后,所述方法还包括:
将所述文本信息的最终标注结果作为样本数据,优化所述文本信息对应的标注模型。
6.一种标注装置,其特征在于,包括:
文本获取模块,用于获取符合预设要求的文本信息;
自动标注模块,用于利用选取的与所述文本信息对应的标注模型,获得所述文本信息的自动标注结果;
人工标注模块,用于获取基于所述自动标注结果的人工标注信息;
字段纠错模块,用于按照配置的纠错规则,识别出所述人工标注信息中包含的错误标注字段;
错误标记模块,用于显示所述自动标注结果和人工标注信息,并标记出所述错误标注字段。
字段识别模块,用于在所述利用选取的与所述文本信息对应的标注模型,获得所述文本信息的自动标注结果之后,按照配置的纠错规则,识别出所述自动标注结果中包含的错误标注字段;
字段标记模块,用于显示所述自动标注结果,并标记出所述错误标注字段;
所述字段识别模块具体用于:针对所述自动标注结果中的目标字段,判断所述目标字段是否以指定字符开始或结尾;若是,确定所述目标字段为错误标注字段;
和/或,
所述字段纠错模块具体用于:针对所述人工标注信息中的目标字段,判断所述目标字段是否以指定字符开始或结尾;若是,确定所述目标字段为错误标注字段。
7.一种电子设备,其特征在于,所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行权利要求1-5任意一项所述的标注方法。
8.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序可由处理器执行以完成权利要求1-5任意一项所述的标注方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011159870.5A CN112241445B (zh) | 2020-10-26 | 2020-10-26 | 一种标注方法及装置、电子设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011159870.5A CN112241445B (zh) | 2020-10-26 | 2020-10-26 | 一种标注方法及装置、电子设备、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112241445A CN112241445A (zh) | 2021-01-19 |
CN112241445B true CN112241445B (zh) | 2023-11-07 |
Family
ID=74169760
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011159870.5A Active CN112241445B (zh) | 2020-10-26 | 2020-10-26 | 一种标注方法及装置、电子设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112241445B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112926221B (zh) * | 2021-03-25 | 2022-02-25 | 广东利元亨智能装备股份有限公司 | 机械图标注方法、装置及电子设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106407407A (zh) * | 2016-09-22 | 2017-02-15 | 江苏通付盾科技有限公司 | 一种文件标注系统及方法 |
CN109192194A (zh) * | 2018-08-22 | 2019-01-11 | 北京百度网讯科技有限公司 | 语音数据标注方法、装置、计算机设备及存储介质 |
CN109460552A (zh) * | 2018-10-29 | 2019-03-12 | 朱丽莉 | 基于规则和语料库的汉语语病自动检测方法及设备 |
WO2019137196A1 (zh) * | 2018-01-11 | 2019-07-18 | 阿里巴巴集团控股有限公司 | 图像标注信息助理方法、装置、服务器及系统 |
CN110069602A (zh) * | 2019-04-15 | 2019-07-30 | 网宿科技股份有限公司 | 语料标注方法、装置、服务器及存储介质 |
WO2019153996A1 (zh) * | 2018-02-09 | 2019-08-15 | 叶伟 | 一种语音识别文本纠错方法及装置 |
CN110969012A (zh) * | 2019-11-29 | 2020-04-07 | 北京字节跳动网络技术有限公司 | 文本纠错方法、装置、存储介质及电子设备 |
CN111325017A (zh) * | 2019-11-25 | 2020-06-23 | 国网福建省电力有限公司晋江市供电公司 | 一种配电网设备名称台账筛选方法及装置 |
CN111368504A (zh) * | 2019-12-25 | 2020-07-03 | 厦门快商通科技股份有限公司 | 语音数据标注方法、装置、电子设备及介质 |
-
2020
- 2020-10-26 CN CN202011159870.5A patent/CN112241445B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106407407A (zh) * | 2016-09-22 | 2017-02-15 | 江苏通付盾科技有限公司 | 一种文件标注系统及方法 |
WO2019137196A1 (zh) * | 2018-01-11 | 2019-07-18 | 阿里巴巴集团控股有限公司 | 图像标注信息助理方法、装置、服务器及系统 |
WO2019153996A1 (zh) * | 2018-02-09 | 2019-08-15 | 叶伟 | 一种语音识别文本纠错方法及装置 |
CN109192194A (zh) * | 2018-08-22 | 2019-01-11 | 北京百度网讯科技有限公司 | 语音数据标注方法、装置、计算机设备及存储介质 |
CN109460552A (zh) * | 2018-10-29 | 2019-03-12 | 朱丽莉 | 基于规则和语料库的汉语语病自动检测方法及设备 |
CN110069602A (zh) * | 2019-04-15 | 2019-07-30 | 网宿科技股份有限公司 | 语料标注方法、装置、服务器及存储介质 |
CN111325017A (zh) * | 2019-11-25 | 2020-06-23 | 国网福建省电力有限公司晋江市供电公司 | 一种配电网设备名称台账筛选方法及装置 |
CN110969012A (zh) * | 2019-11-29 | 2020-04-07 | 北京字节跳动网络技术有限公司 | 文本纠错方法、装置、存储介质及电子设备 |
CN111368504A (zh) * | 2019-12-25 | 2020-07-03 | 厦门快商通科技股份有限公司 | 语音数据标注方法、装置、电子设备及介质 |
Non-Patent Citations (3)
Title |
---|
Towards Auto-labelling Issue Reports for Pull-Based Software Development using Text Mining Approach;Hassan Fazayeli等;《Procedia Computer Science》;全文 * |
基于BERT在税务公文系统中实现纠错功能;袁野;朱荣钊;;现代信息科技(第13期);全文 * |
知识图谱在知识库网站建设中的应用;董翔等;《电子技术与软件工程》(第16期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112241445A (zh) | 2021-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110472114B (zh) | 异常数据预警方法、装置、计算机设备及存储介质 | |
WO2019153589A1 (zh) | 消息数据处理方法、装置、计算机设备和存储介质 | |
CN113379398B (zh) | 一种项目需求的生成方法、装置、电子设备及存储介质 | |
WO2023231380A1 (zh) | 极片缺陷识别及模型训练方法、装置及电子设备 | |
JP2019079347A (ja) | 文字種推定システム、文字種推定方法、および文字種推定プログラム | |
CN114005126A (zh) | 表格重构方法、装置、计算机设备及可读存储介质 | |
CN111126058B (zh) | 文本信息自动抽取方法、装置、可读存储介质和电子设备 | |
CN113360768A (zh) | 基于用户画像的产品推荐方法、装置、设备及存储介质 | |
CN112241445B (zh) | 一种标注方法及装置、电子设备、存储介质 | |
CN115391439A (zh) | 文档数据导出方法、装置、电子设备和存储介质 | |
CN109933803B (zh) | 一种成语信息展示方法、展示装置、电子设备及存储介质 | |
CN111652658A (zh) | 画像融合方法、装置、电子设备及计算机可读存储介质 | |
CN107493370B (zh) | 流量模板确定方法、流量信息识别方法及装置 | |
CN109815243B (zh) | 一种文档界面化修改时的结构化存储方法和装置 | |
CN113934834A (zh) | 一种问句匹配的方法、装置、设备和存储介质 | |
CN116562247A (zh) | 电子表格内容生成方法、装置和计算机设备 | |
CN115982272A (zh) | 一种城市大数据管理的数据标注方法、装置及计算机存储介质 | |
CN114220113A (zh) | 一种论文质量检测方法、装置和设备 | |
CN114329190A (zh) | 一种数据标准处理系统 | |
CN113792545A (zh) | 一种基于深度学习的新闻事件活动名称抽取方法 | |
CN114049686A (zh) | 签名识别模型训练方法、装置及电子设备 | |
CN113377775A (zh) | 信息处理方法及装置 | |
CN113177389A (zh) | 文本处理方法、装置、电子设备及存储介质 | |
CN107704484B (zh) | 网页错误信息处理方法、装置、计算机设备和存储介质 | |
US20180165267A1 (en) | System and method for cell comparison between spreadsheets |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |