CN112445897A

CN112445897A - 文本类数据大规模分类标注方法、系统、装置及存储介质

Info

Publication number: CN112445897A
Application number: CN202110120553.0A
Authority: CN
Inventors: 蓝建敏; 申鑫
Original assignee: Excellence Information Technology Co ltd
Current assignee: Excellence Information Technology Co ltd
Priority date: 2021-01-28
Filing date: 2021-01-28
Publication date: 2021-03-05

Abstract

本发明公开了一种文本类数据大规模分类标注方法、系统、装置及存储介质，该方法包括从待标注语料中筛选具有代表性的语料作为典型语料；对典型语料进行分析，提取关键特征；根据关键特征，提取分类对应的匹配规则和特征词，对匹配规则和特征词进行验证；将验证通过的匹配规则保存至规则库，将验证通过的特征词保存至特征词库；根据规则库和特征词库，对文本类数据进行大规模机器分类标注；对大规模机器分类标注的标注效果进行核验；输出核验合格的标注数据。本发明能够提取得到准确率较高的规则和特征词；能够提升大规模机器分类标注的质量和标注的效率，大幅度降低人工对大规模文本类数据进行标注的工作量。本发明可广泛应用于文本分类技术领域。

Description

文本类数据大规模分类标注方法、系统、装置及存储介质

技术领域

本发明涉及文本分类技术领域，尤其是一种文本类数据大规模分类标注方法、系统、装置及存储介质。

背景技术

在机器学习领域，目前比较成熟和实际应用比较多是有监督的机器学习。有监督的机器学习依赖大量的、已经标注的数据，数据标注是生产标注数据的过程。数据标注有许多类型，如分类、画框、注释、标记等等，标注的对象主要包括文本、图像、语音、视频等。

现有技术主要还是依赖人工标注，在现阶段，文本类数据标注由于主观性强，且对于标注人员的专业素质要求高，普遍存在工作量大，效率低等问题。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出一种文本类数据大规模分类标注方法、系统、装置及存储介质。

本发明所采取的技术方案是：

一方面，本发明实施例包括一种文本类数据大规模分类标注方法，包括：

从待标注语料中筛选具有代表性的语料作为典型语料；

对所述典型语料进行分析，提取关键特征，所述关键特征包括所述典型语料中的关键词、关键词组、关键句式和词性序列；

根据所述关键特征，提取分类对应的匹配规则和特征词，所述匹配规则包括词性序列规则；

对所述匹配规则和特征词进行验证；

将验证通过的匹配规则保存至规则库，将验证通过的特征词保存至特征词库；

根据所述规则库和所述特征词库，对文本类数据进行大规模机器分类标注；

对所述大规模机器分类标注的标注效果进行核验；

输出核验合格的标注数据。

进一步地，所述对所述匹配规则和特征词进行验证这一步骤，具体包括：

验证所述匹配规则和特征词是否正确和是否符合预期匹配效果；

若所述匹配规则和特征词不正确或者不符合预期匹配效果，则重新调整所述匹配规则和特征词。

进一步地，所述验证所述匹配规则和特征词是否正确和是否符合预期匹配效果这一步骤，具体包括：

对所述匹配特征和特征词的书写是否正确进行判断；

从待标注文本类数据中选择一批模拟数据模拟标注过程；

输出模拟标注结果及所述模拟标注结果对应的匹配规则和特征词；

根据所述模拟标注结果及所述模拟标注结果对应的匹配规则和特征词，判断所述匹配规则和特征词是否符合预期匹配效果及判断所述标注效果是否符合预期。

进一步地，所述对所述大规模机器分类标注的标注效果进行核验具体为：

对所述大规模机器分类标注的结果进行随机抽样，得到抽样数据；

核验所述抽样数据的标注结果的正确率是否达到预期标注质量标准。

进一步地，若抽样数据的标注结果的正确率达到预期标注质量标准，则判断核验合格，否则，判断核验不合格。

进一步地，所述输出核验合格的标注数据之后，所述方法还包括：

将核验合格的标注数据保存至标注语料库，所述标注语料库用于训练机器学习模型。

另一方面，本发明实施例还包括一种文本类数据大规模分类标注系统，包括：

筛选模块，用于从待标注语料中筛选具有代表性的语料作为典型语料；

第一提取模块，用于对所述典型语料进行分析，提取关键特征，所述关键特征包括所述典型语料中的关键词、关键词组、关键句式和词性序列；

第二提取模块，用于根据所述关键特征，提取分类对应的匹配规则和特征词，所述匹配规则包括词性序列规则；

验证模块，用于对所述匹配规则和特征词进行验证；

保存模块，用于将验证通过的匹配规则保存至规则库，将验证通过的特征词保存至特征词库；

分类标注模块，用于根据所述规则库和所述特征词库，对文本类数据进行大规模机器分类标注；

核验模块，用于对所述大规模机器分类标注的标注效果进行核验；

输出模块，用于输出核验合格的标注数据。

进一步地，所述验证模块包括：

验证单元，用于验证所述匹配规则和特征词是否正确和是否符合预期匹配效果；

调整单元，用于若所述匹配规则和特征词不正确或者不符合预期匹配效果，则重新调整所述匹配规则和特征词。

另一方面，本发明实施例还包括一种文本类数据大规模分类标注装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现所述的标注方法。

另一方面，本发明实施例还包括计算机可读存储介质，其上存储有处理器可执行的程序，所述处理器可执行的程序在被处理器执行时用于实现所述的标注方法。

本发明的有益效果是：

本发明通过从待标注语料中筛选具有代表性的语料作为典型语料；对所述典型语料进行分析，提取关键特征，根据所述关键特征，提取分类对应的匹配规则和特征词，所述匹配规则包括词性序列规则；能够提取得到准确率较高的规则和特征词；再对所述匹配规则和特征词进行验证；和对所述大规模机器分类标注的标注效果进行核验；能够提升大规模机器分类标注的质量和标注的效率，大幅度降低人工对大规模文本类数据进行标注的工作量。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例所述文本类数据大规模分类标注方法的步骤流程图；

图2为本发明实施例所述分类标注系统的结构示意图；

图3为本发明实施例所述文本类数据大规模分类标注方法的流程图；

图4为本发明实施例所述文本类数据大规模分类标注装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，涉及到方位描述，例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

下面结合附图，对本申请实施例作进一步阐述。

参照图1，本发明实施例包括一种文本类数据大规模分类标注方法，包括但不限于以下步骤：

S1.从待标注语料中筛选具有代表性的语料作为典型语料；

S2.对所述典型语料进行分析，提取关键特征，所述关键特征包括所述典型语料中的关键词、关键词组、关键句式和词性序列；

S3.根据所述关键特征，提取分类对应的匹配规则和特征词，所述匹配规则包括词性序列规则；

S4.对所述匹配规则和特征词进行验证；

S5.将验证通过的匹配规则保存至规则库，将验证通过的特征词保存至特征词库；

S6.根据所述规则库和所述特征词库，对文本类数据进行大规模机器分类标注；

S7.对所述大规模机器分类标注的标注效果进行核验；

S8.输出核验合格的标注数据。

关于步骤S1，本实施例中，可通过人工检视的方式，从待标注语料中筛选具有代表性的语料作为典型语料。

关于步骤S2，本实施例中，通过对典型语料的分析，提取关键特征，关键特征包括词、词组、句式。基于词、词组和句式提炼规则，对于区分性非常明显的词或者词组可以作为特征词。例如：通过人工检视发现能源领域类文本标题中通常包含“火电XX能源”“地热XX能源”等结构，或者包含“能源行业”“能源规划”“能源综合利用”等词组，或者包含“油气”“电网”“供电”等领域特征鲜明的词汇，依据上述人工总结的特点可以提炼规则和特征词。

关于步骤S3，本实施例中，利用本发明实施例提供的分类标注系统（参照图2）协助规则整理人员验证匹配规则的正确性以及匹配规则和关键词的标注效果，例如：在整理出一批规则、特征词后，并将其录入系统，系统会对规则书写是否正确进行判断，最后通过录入或者从待标注文本中选择一批数据模拟标注过程，并实时输出标注结果和命中的规则或者特征词，由人工判断标注效果，若效果不佳，则重新调整规则和特征词。如果效果理想，那么规则及特征词保存到正式的规则库和特征词库；

具体地，所述分类标注系统参照图2，包括数据层、支撑层、应用层和交互层，其中数据层包括规则库、特征词库、语料库和标签库，所述数据层用于将规则、特征词、语料、标签等数据按照各自数据特点使用不同的数据格式持久化存储；支撑层包括规则管理模块、语料管理模块、特征词管理模块和标签管理模块，所述规则管理模块用于大量规则数据的录入以及规则数据迁移的规则导入导出功能，以及实现规则匹配的核心功能组件；所述语料管理模块用于提供大量语料录入及语料数据迁移的导入导出能力；所述特征词管理模块用于大量特征词录入以及特征词数据迁移的特征词导入导出功能，以及实现特征词匹配的核心功能组件；所述标签管理模块用于提供大量标签数据录入及标签数据迁移的导入导出能力；所述应用层包括规则和特征词验证模块、标注任务管理模块、机器预分类模块和人工标注及核验模块，其中所述规则和特征词验证模块用于验证人工整理出来的规则和特征词是否正确和是否符合预期匹配效果；所述标注任务管理模块用于将语料划分为一个个标注任务，分配不同的标注人员进行标注和预分类核验；所述机器预分类模块用于利用录入的规则和特征词进行匹配，对语料进行预分类处理；所述人工标注及核验模块用于通过人工标注和核验，提升机器标注的准确度和质量。而交互层用于提供人机交互界面，实现人机交互。

关于步骤S4，本实施例中，所述对所述匹配规则和特征词进行验证这一步骤，具体包括：

S401.验证所述匹配规则和特征词是否正确和是否符合预期匹配效果；

S402.若所述匹配规则和特征词不正确或者不符合预期匹配效果，则重新调整所述匹配规则和特征词。

关于步骤S5和S6，本实施例中，当规则库中录入足够的规则，特征词库中录入足够的特征词之后，就可以利用图2所示的分类标注系统进行大规模分类标注。

关于步骤S7，本实施例中，利用图2所示的分类标注系统进行大规模分类标注后，进一步对标注结果进行人工核验，具体地，可先对所述大规模机器分类标注结果进行抽样；然后展示抽样所得的抽样数据，并记录核验结果；最后对核验结果进行统计，得到抽样数据机器标注的正确率。人工核验的作用主要有两点：一是确保语料标注的质量；二是通过人工核验，收集机器标注效果不佳的语料，从收集语料中进一步提取规则和特征词，提升机器标注的质量。根据标注语料的数量，语料数量较小的情况下可以采取全量核验，量大可以采用抽样核验的方式进行人工核验。采用机器标注后人工核验，比单纯的人工标注效率更高，在机器标注和人工核验两重操作下，标注的质量更高，并且可以不断提升机器标注的准确度。

关于步骤S8，本实施例中，通过人工核验后，将达到一定精度的标注数据加入到正式的标注语料库，用于训练机器学习模型。

具体地，参照图3，文本类数据大规模分类标注方法包括以下步骤：

（1）筛选典型语料；

（2）人工整理规则及关键词；

（3）验证规则及关键词；

（4）若验证通过，则进行大规模机器分类标注；

（5）人工核验标注结果；

（6）产出核验合格的标注数据；

（7）收集大规模机器分类标注效果不佳的语料，从收集语料中进一步提取规则和特征词。

本发明实施例所述文本类数据大规模分类标注方法具有以下技术效果：

本发明实施例通过从待标注语料中筛选具有代表性的语料作为典型语料；对所述典型语料进行分析，提取关键特征，根据所述关键特征，提取分类对应的匹配规则和特征词，所述匹配规则包括词性序列规则；能够提取得到准确率较高的规则和特征词；再对所述匹配规则和特征词进行验证；和对所述大规模机器分类标注的标注效果进行核验；能够提升大规模机器分类标注的质量和标注的效率，大幅度降低人工对大规模文本类数据进行标注的工作量。

本发明实施例还包括一种文本类数据大规模分类标注系统，包括：

验证模块，用于对所述匹配规则和特征词进行验证；

输出模块，用于输出核验合格的标注数据。

具体地，所述验证模块包括：

参照图4，本发明实施例还包括一种文本类数据大规模分类标注装置200，具体包括：

至少一个处理器210；

至少一个存储器220，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器210执行，使得所述至少一个处理器210实现如图1所示的方法。

其中，存储器220作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。存储器220可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器220可选包括相对于处理器210远程设置的远程存储器，这些远程存储器可以通过网络连接至处理器210。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

可以理解到，图4中示出的装置结构并不构成对装置200的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图4所示的装置200中，处理器210可以调取存储器220中储存的程序，并执行但不限于图1所示实施例的步骤。

以上所描述的装置200实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现实施例的目的。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有处理器可执行的程序，所述处理器可执行的程序在被处理器执行时用于实现如图1所示的方法。

本申请实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行图1所示的方法。

可以理解的是，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

上面结合附图对本发明实施例作了详细说明，但是本发明不限于上述实施例，在技术领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种文本类数据大规模分类标注方法，其特征在于，包括：

从待标注语料中筛选具有代表性的语料作为典型语料；

对所述匹配规则和特征词进行验证；

对所述大规模机器分类标注的标注效果进行核验；

输出核验合格的标注数据。

2.根据权利要求1所述的一种文本类数据大规模分类标注方法，其特征在于，所述对所述匹配规则和特征词进行验证这一步骤，具体包括：

3.根据权利要求2所述的一种文本类数据大规模分类标注方法，其特征在于，所述验证所述匹配规则和特征词是否正确和是否符合预期匹配效果这一步骤，具体包括：

对所述匹配特征和特征词的书写是否正确进行判断；

从待标注文本类数据中选择一批模拟数据模拟标注过程；

4.根据权利要求1所述的一种文本类数据大规模分类标注方法，其特征在于，所述对所述大规模机器分类标注的标注效果进行核验具体为：

5.根据权利要求4所述的一种文本类数据大规模分类标注方法，其特征在于，若抽样数据的标注结果的正确率达到预期标注质量标准，则判断核验合格，否则，判断核验不合格。

6.根据权利要求1所述的一种文本类数据大规模分类标注方法，其特征在于，所述输出核验合格的标注数据之后，所述方法还包括：

7.一种文本类数据大规模分类标注系统，其特征在于，包括：

验证模块，用于对所述匹配规则和特征词进行验证；

输出模块，用于输出核验合格的标注数据。

8.根据权利要求7所述的一种文本类数据大规模分类标注系统，其特征在于，所述验证模块包括：

9.一种文本类数据大规模分类标注装置，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1-6任一项所述的标注方法。

10.计算机可读存储介质，其特征在于，其上存储有处理器可执行的程序，所述处理器可执行的程序在被处理器执行时用于实现如权利要求1-6任一项所述的标注方法。