CN113627191A

CN113627191A - 一种气象预警样本语义自动化标注方法及系统

Info

Publication number: CN113627191A
Application number: CN202110758205.6A
Authority: CN
Inventors: 王慕华; 渠寒花; 惠建忠; 唐卫; 梅钰; 刘博文; 刘兆英
Original assignee: Public Meteorological Service Center Of China Meteorological Administration National Early Warning Information Release Center; Beijing University of Technology
Current assignee: Public Meteorological Service Center Of China Meteorological Administration National Early Warning Information Release Center; Beijing University of Technology
Priority date: 2021-07-05
Filing date: 2021-07-05
Publication date: 2021-11-09

Abstract

本发明公开了一种气象预警样本语义自动化标注方法及系统，系统包括气象预警数据读入系统、气象预警添加错误系统和气象预警数据生成系统；本方法可自动根据正样本生成负样本，从而为深度学习模型提供足够的数据集。其依次包括以下步骤：首先读入待处理文本；然后根据选择的错误类型添加错误；最后照固定的格式生成伪数据。生成的伪数据包括原文本、添加错误后的文本、错误的位置和错误类型。本发明对每一类错误设计制作负样本数据，可以按照一定格式手动或自动生成规范格式的数据。本发明生成的数据集还包括错误类型和错误所在文本中的位置，便于模型处理，具有极大的工作便利性。

Description

一种气象预警样本语义自动化标注方法及系统

技术领域

本发明属于自然语言处理技术领域，尤其涉及一种用于气象预警纠错的自动生成伪数据系统及方法。

背景技术

气象预警在人类生产生活中扮演着十分重要的角色，但是在编辑气象预警信息的过程中难免出错，导致错误的预警信息的出现。错误的预警信息会误导人们，即便是非专业人士也可以发现的错误仍会带来不便。因此，气象预警信息的纠错显得极为重要。而包含错误的预警信息中的语义类型的错误依靠传统方法难以找出，由于错误的数据量太大无法单纯依靠人力解决。

深度学习技术是当前人工智能领域最热门的一项技术，它在图像识别、图像分类、自然语言处理等任务中表现出了出色的性能。但是深度学习技术十分依赖数据集，数据集的数量和质量直接影响了深度学习模型的性能。当前气象预警领域由于其特殊性，仅大量存在正样本(即正确的预警信息)，负样本(错误的预警信息)数目极小。由于正负样本的数目极不平衡，导致无法直接采用深度学习模型训练。

如今，还不存在用于生成气象预警样本伪数据的工具。学者在遇到缺乏数据集的问题时通常针对所遇到的问题生成伪数据，并且生成的伪数据通常仅包括一段错误文本。微软亚洲研究院的Tao Ge等人借鉴NMT领域的back translation思想利用NLP生成模型制作伪数据。Google研究院的Jared Lichtarge等人提出利用机器翻译系统来生成伪数据，即首先将文本转换为中间语言再翻译为原语种语言。自然语言处理模型需要大量的数据作为训练集，此外，不同的模型对数据集的要求不同。大多数模型仅需要正样本和负样本，但某些模型，例如Seq2Seq和transformer还需要错误类型和错误位置。不同模型需要的错误文本的错误类型也不同。更重要的一点是没有直接用于生成规范格式数据的工具，这极大增加了使用深度学习方法解决问题的难度。

气象预警领域的原始数据大多为正样本，负样本极少，正负样本的数目极不平衡，因此需要扩充数据集，即制作负样本。

发明内容

本发明要解决的技术问题是，提供一种用于信息文本纠错的伪数据自动生成方法，可自动根据正样本生成负样本，从而为深度学习模型提供足够的数据集。本发明更多地针对预警信息常见的错误进行伪数据生成，同时至今未有用于生成伪数据的先关技术，本发明也可以为气象预警信息纠错模型或其他文本纠错模型提供充足的伪数据。

为实现上述目的，本发明采用如下方案：

气象预警纠错的深度学习伪数据生成系统，包括气象预警数据读入系统、气象预警添加错误系统和气象预警数据生成系统。

气象预警数据读入系统将气象预警的源数据读入到机器的随机存储空间中，气象预警添加错误系统从随机存储空间中依次提取出气象预警数据进行处理，处理后交由气象预警数据生成系统完成最终步骤。

气象预警的初始数据由人工生成，气象预警信息中包含的错误文本由于输入错误引起，错误类型为气象预警数据的同音错别字或多字漏字等错误。

气象预警数据读入系统用于读入待处理的气象预警信息文本。

气象预警添加错误系统根据选择的气象预警信息的错误类型添加错误。

气象预警添加错误系统包括数据人工添加错误子系统和自动添加错误子系统。添加错误系统将文本包含的错误分为四种：气象预警信息的缺词错误，指的是文本中丢失了部分字或词(气象预警信息中会出现不完整的预警信息，缺词错误与之相对应)；气象预警信息的重复错误，指的是文本中部分字或词重复；气象预警信息的倒序错误，指的是文本中连续的字或词顺序错乱；气象预警信息的替换错误，指的是气象预警信息文本中部分字或词被替换成了其他错误字词(重复、倒序、替换错误对应预警信息中的输入错误)。

气象预警数据生成系统用于在点击生成后，生成的伪数据将按照固定的格式输出到指定文件中。生成的伪数据包括原文本、添加错误后的文本、错误的位置和错误类型。

气象预警伪数据生成系统的标注方法，其实现过程包括以下步骤：

步骤1：读入待处理的气象预警信息文本。

步骤2：利用jieba分词工具对步骤1读入的待处理的气象预警信息文本进行分词。

步骤3：利用N-gram训练出分词的词组搭配。选择词组搭配中出现频率最高的字词作为添加错误的位置，但不选择气象预警的地名、标点符号和数字。

步骤4：在步骤3选择的字词所在的文本中的位置处根据选择的错误类型添加错误；具体而言，其实施过程如下：

步骤4.1：对于气象预警信息缺词错误，将其去掉。

步骤4.2：对于气象预警信息重复错误，将其复制并粘贴到原字词后面。

步骤4.3：对于气象预警信息倒序错误，将选择的字词和与其相邻的字词顺序颠倒。

步骤4.4：对于气象预警信息替换错误，将其替换为同音或近形的其他字词。

步骤5：将生成的伪数据将按照固定的格式输出到指定文件中。生成的伪数据包括气象预警信息原文本、添加错误后的气象预警信息文本、气象预警信息中出现的错误位置和错误类型。

与现有技术相比较，本发明为了制作负样本，对文本中常见的错误类型进行分类，并对每一类错误设计了制作负样本数据的方法，并且开发了一款工具用于生成伪数据。该工具可以按照一定格式手动或自动生成规范格式的数据。本发明生成的数据集基本上可以涵盖常见的文本错误类型，并且生成的数据集还包括错误类型和错误所在文本中的位置，便于模型处理，这将为科研和工业行业的发展提供巨大助力。

附图说明

图1为原始文本。

图2为添加错误系统结构。

图3为添加缺词错误后的文本。

图4为添加重复错误后的文本。

图5为添加倒序错误后的文本。

图6为添加替换错误后的文本。

图7为本方法实施的流程图。

具体实施方式

下面结合具体实例对本发明进行详细说明。以下实例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于发明的保护范围。本发明的实施方案流程如下：

步骤1：读入待处理的气象预警信息文本。文本如附图1所示。

步骤2：利用jieba分词工具进行分词。

步骤3：利用N-gram训练出分词的词组搭配。选择词组搭配中出现频率最高的字词作为添加错误的位置(不选择地名、标点符号和数字)。

步骤4：在选择的字词所在的文本中的位置处根据选择的气象预警信息错误类型添加错误。添加错误步骤如附图2所示。

步骤4.1：对于气象预警信息缺词错误，将其去掉。

步骤5：将生成的伪数据将按照固定的格式输出到指定文件中。生成的伪数据包括原文本、添加错误后的文本、错误的位置和错误类型。生成的添加缺词错误后的文本如附图3所示。生成的添加重复错误后的文本如附图4所示。生成的添加倒序错误后的文本如附图5所示。生成的添加替换错误后的文本如附图6所示。

Claims

1.一种气象预警样本语义自动化标注系统，其特征在于：包括气象预警数据读入系统、气象预警添加错误系统和气象预警数据生成系统。

气象预警数据读入系统将气象预警的源数据读入到机器的随机存储空间中，气象预警添加错误系统从随机存储空间中依次提取出气象预警数据进行处理，处理后交由气象预警数据生成系统。

2.根据权利要求1所述的一种气象预警样本语义自动化标注系统，其特征在于：气象预警的初始数据由人工生成，气象预警信息中包含的错误文本由于输入错误引起，错误类型为气象预警数据的同音错别字或多字漏字错误。

3.根据权利要求1所述的一种气象预警样本语义自动化标注系统，其特征在于：气象预警数据读入系统用于读入待处理的气象预警信息文本。

4.根据权利要求1所述的一种气象预警样本语义自动化标注系统，其特征在于：气象预警添加错误系统根据选择的气象预警信息的错误类型添加错误。

5.根据权利要求1所述的一种气象预警样本语义自动化标注系统，其特征在于：气象预警添加错误系统包括数据人工添加错误子系统和自动添加错误子系统。添加错误系统将文本包含的错误分为四种：气象预警信息的缺词错误，指的是文本中丢失了部分字或词；气象预警信息的重复错误，指的是文本中部分字或词重复；气象预警信息的倒序错误，指的是文本中连续的字或词顺序错乱；气象预警信息的替换错误，指的是气象预警信息文本中部分字或词被替换成了其他错误字词。

6.根据权利要求1所述的一种气象预警样本语义自动化标注系统，其特征在于：气象预警数据生成系统用于在点击生成后，生成的伪数据将按照固定的格式输出到指定文件中。生成的伪数据包括原文本、添加错误后的文本、错误的位置和错误类型。

7.利用权利要求1-6任一所述气象预警伪数据生成系统进行的标注方法，其特征在于：该方法的实现过程包括以下步骤：

步骤1：读入待处理的气象预警信息文本。

步骤4：在步骤3选择的字词所在的文本中的位置处根据选择的错误类型添加错误；：

8.根据权利要求7所述的标注方法，其特征在于：步骤4的实施过程如下，

步骤4.1：对于气象预警信息缺词错误，将其去掉。