CN113627191A - 一种气象预警样本语义自动化标注方法及系统 - Google Patents
一种气象预警样本语义自动化标注方法及系统 Download PDFInfo
- Publication number
- CN113627191A CN113627191A CN202110758205.6A CN202110758205A CN113627191A CN 113627191 A CN113627191 A CN 113627191A CN 202110758205 A CN202110758205 A CN 202110758205A CN 113627191 A CN113627191 A CN 113627191A
- Authority
- CN
- China
- Prior art keywords
- early warning
- error
- weather early
- data
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种气象预警样本语义自动化标注方法及系统,系统包括气象预警数据读入系统、气象预警添加错误系统和气象预警数据生成系统;本方法可自动根据正样本生成负样本,从而为深度学习模型提供足够的数据集。其依次包括以下步骤:首先读入待处理文本;然后根据选择的错误类型添加错误;最后照固定的格式生成伪数据。生成的伪数据包括原文本、添加错误后的文本、错误的位置和错误类型。本发明对每一类错误设计制作负样本数据,可以按照一定格式手动或自动生成规范格式的数据。本发明生成的数据集还包括错误类型和错误所在文本中的位置,便于模型处理,具有极大的工作便利性。
Description
技术领域
本发明属于自然语言处理技术领域,尤其涉及一种用于气象预警纠错的自动生成伪数据系统及方法。
背景技术
气象预警在人类生产生活中扮演着十分重要的角色,但是在编辑气象预警信息的过程中难免出错,导致错误的预警信息的出现。错误的预警信息会误导人们,即便是非专业人士也可以发现的错误仍会带来不便。因此,气象预警信息的纠错显得极为重要。而包含错误的预警信息中的语义类型的错误依靠传统方法难以找出,由于错误的数据量太大无法单纯依靠人力解决。
深度学习技术是当前人工智能领域最热门的一项技术,它在图像识别、图像分类、自然语言处理等任务中表现出了出色的性能。但是深度学习技术十分依赖数据集,数据集的数量和质量直接影响了深度学习模型的性能。当前气象预警领域由于其特殊性,仅大量存在正样本(即正确的预警信息),负样本(错误的预警信息)数目极小。由于正负样本的数目极不平衡,导致无法直接采用深度学习模型训练。
如今,还不存在用于生成气象预警样本伪数据的工具。学者在遇到缺乏数据集的问题时通常针对所遇到的问题生成伪数据,并且生成的伪数据通常仅包括一段错误文本。微软亚洲研究院的Tao Ge等人借鉴NMT领域的back translation思想利用NLP生成模型制作伪数据。Google研究院的Jared Lichtarge等人提出利用机器翻译系统来生成伪数据,即首先将文本转换为中间语言再翻译为原语种语言。自然语言处理模型需要大量的数据作为训练集,此外,不同的模型对数据集的要求不同。大多数模型仅需要正样本和负样本,但某些模型,例如Seq2Seq和transformer还需要错误类型和错误位置。不同模型需要的错误文本的错误类型也不同。更重要的一点是没有直接用于生成规范格式数据的工具,这极大增加了使用深度学习方法解决问题的难度。
气象预警领域的原始数据大多为正样本,负样本极少,正负样本的数目极不平衡,因此需要扩充数据集,即制作负样本。
发明内容
本发明要解决的技术问题是,提供一种用于信息文本纠错的伪数据自动生成方法,可自动根据正样本生成负样本,从而为深度学习模型提供足够的数据集。本发明更多地针对预警信息常见的错误进行伪数据生成,同时至今未有用于生成伪数据的先关技术,本发明也可以为气象预警信息纠错模型或其他文本纠错模型提供充足的伪数据。
为实现上述目的,本发明采用如下方案:
气象预警纠错的深度学习伪数据生成系统,包括气象预警数据读入系统、气象预警添加错误系统和气象预警数据生成系统。
气象预警数据读入系统将气象预警的源数据读入到机器的随机存储空间中,气象预警添加错误系统从随机存储空间中依次提取出气象预警数据进行处理,处理后交由气象预警数据生成系统完成最终步骤。
气象预警的初始数据由人工生成,气象预警信息中包含的错误文本由于输入错误引起,错误类型为气象预警数据的同音错别字或多字漏字等错误。
气象预警数据读入系统用于读入待处理的气象预警信息文本。
气象预警添加错误系统根据选择的气象预警信息的错误类型添加错误。
气象预警添加错误系统包括数据人工添加错误子系统和自动添加错误子系统。添加错误系统将文本包含的错误分为四种:气象预警信息的缺词错误,指的是文本中丢失了部分字或词(气象预警信息中会出现不完整的预警信息,缺词错误与之相对应);气象预警信息的重复错误,指的是文本中部分字或词重复;气象预警信息的倒序错误,指的是文本中连续的字或词顺序错乱;气象预警信息的替换错误,指的是气象预警信息文本中部分字或词被替换成了其他错误字词(重复、倒序、替换错误对应预警信息中的输入错误)。
气象预警数据生成系统用于在点击生成后,生成的伪数据将按照固定的格式输出到指定文件中。生成的伪数据包括原文本、添加错误后的文本、错误的位置和错误类型。
气象预警伪数据生成系统的标注方法,其实现过程包括以下步骤:
步骤1:读入待处理的气象预警信息文本。
步骤2:利用jieba分词工具对步骤1读入的待处理的气象预警信息文本进行分词。
步骤3:利用N-gram训练出分词的词组搭配。选择词组搭配中出现频率最高的字词作为添加错误的位置,但不选择气象预警的地名、标点符号和数字。
步骤4:在步骤3选择的字词所在的文本中的位置处根据选择的错误类型添加错误;具体而言,其实施过程如下:
步骤4.1:对于气象预警信息缺词错误,将其去掉。
步骤4.2:对于气象预警信息重复错误,将其复制并粘贴到原字词后面。
步骤4.3:对于气象预警信息倒序错误,将选择的字词和与其相邻的字词顺序颠倒。
步骤4.4:对于气象预警信息替换错误,将其替换为同音或近形的其他字词。
步骤5:将生成的伪数据将按照固定的格式输出到指定文件中。生成的伪数据包括气象预警信息原文本、添加错误后的气象预警信息文本、气象预警信息中出现的错误位置和错误类型。
与现有技术相比较,本发明为了制作负样本,对文本中常见的错误类型进行分类,并对每一类错误设计了制作负样本数据的方法,并且开发了一款工具用于生成伪数据。该工具可以按照一定格式手动或自动生成规范格式的数据。本发明生成的数据集基本上可以涵盖常见的文本错误类型,并且生成的数据集还包括错误类型和错误所在文本中的位置,便于模型处理,这将为科研和工业行业的发展提供巨大助力。
附图说明
图1为原始文本。
图2为添加错误系统结构。
图3为添加缺词错误后的文本。
图4为添加重复错误后的文本。
图5为添加倒序错误后的文本。
图6为添加替换错误后的文本。
图7为本方法实施的流程图。
具体实施方式
下面结合具体实例对本发明进行详细说明。以下实例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于发明的保护范围。本发明的实施方案流程如下:
步骤1:读入待处理的气象预警信息文本。文本如附图1所示。
步骤2:利用jieba分词工具进行分词。
步骤3:利用N-gram训练出分词的词组搭配。选择词组搭配中出现频率最高的字词作为添加错误的位置(不选择地名、标点符号和数字)。
步骤4:在选择的字词所在的文本中的位置处根据选择的气象预警信息错误类型添加错误。添加错误步骤如附图2所示。
步骤4.1:对于气象预警信息缺词错误,将其去掉。
步骤4.2:对于气象预警信息重复错误,将其复制并粘贴到原字词后面。
步骤4.3:对于气象预警信息倒序错误,将选择的字词和与其相邻的字词顺序颠倒。
步骤4.4:对于气象预警信息替换错误,将其替换为同音或近形的其他字词。
步骤5:将生成的伪数据将按照固定的格式输出到指定文件中。生成的伪数据包括原文本、添加错误后的文本、错误的位置和错误类型。生成的添加缺词错误后的文本如附图3所示。生成的添加重复错误后的文本如附图4所示。生成的添加倒序错误后的文本如附图5所示。生成的添加替换错误后的文本如附图6所示。
Claims (8)
1.一种气象预警样本语义自动化标注系统,其特征在于:包括气象预警数据读入系统、气象预警添加错误系统和气象预警数据生成系统。
气象预警数据读入系统将气象预警的源数据读入到机器的随机存储空间中,气象预警添加错误系统从随机存储空间中依次提取出气象预警数据进行处理,处理后交由气象预警数据生成系统。
2.根据权利要求1所述的一种气象预警样本语义自动化标注系统,其特征在于:气象预警的初始数据由人工生成,气象预警信息中包含的错误文本由于输入错误引起,错误类型为气象预警数据的同音错别字或多字漏字错误。
3.根据权利要求1所述的一种气象预警样本语义自动化标注系统,其特征在于:气象预警数据读入系统用于读入待处理的气象预警信息文本。
4.根据权利要求1所述的一种气象预警样本语义自动化标注系统,其特征在于:气象预警添加错误系统根据选择的气象预警信息的错误类型添加错误。
5.根据权利要求1所述的一种气象预警样本语义自动化标注系统,其特征在于:气象预警添加错误系统包括数据人工添加错误子系统和自动添加错误子系统。添加错误系统将文本包含的错误分为四种:气象预警信息的缺词错误,指的是文本中丢失了部分字或词;气象预警信息的重复错误,指的是文本中部分字或词重复;气象预警信息的倒序错误,指的是文本中连续的字或词顺序错乱;气象预警信息的替换错误,指的是气象预警信息文本中部分字或词被替换成了其他错误字词。
6.根据权利要求1所述的一种气象预警样本语义自动化标注系统,其特征在于:气象预警数据生成系统用于在点击生成后,生成的伪数据将按照固定的格式输出到指定文件中。生成的伪数据包括原文本、添加错误后的文本、错误的位置和错误类型。
7.利用权利要求1-6任一所述气象预警伪数据生成系统进行的标注方法,其特征在于:该方法的实现过程包括以下步骤:
步骤1:读入待处理的气象预警信息文本。
步骤2:利用jieba分词工具对步骤1读入的待处理的气象预警信息文本进行分词。
步骤3:利用N-gram训练出分词的词组搭配。选择词组搭配中出现频率最高的字词作为添加错误的位置,但不选择气象预警的地名、标点符号和数字。
步骤4:在步骤3选择的字词所在的文本中的位置处根据选择的错误类型添加错误;:
步骤5:将生成的伪数据将按照固定的格式输出到指定文件中。生成的伪数据包括气象预警信息原文本、添加错误后的气象预警信息文本、气象预警信息中出现的错误位置和错误类型。
8.根据权利要求7所述的标注方法,其特征在于:步骤4的实施过程如下,
步骤4.1:对于气象预警信息缺词错误,将其去掉。
步骤4.2:对于气象预警信息重复错误,将其复制并粘贴到原字词后面。
步骤4.3:对于气象预警信息倒序错误,将选择的字词和与其相邻的字词顺序颠倒。
步骤4.4:对于气象预警信息替换错误,将其替换为同音或近形的其他字词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110758205.6A CN113627191A (zh) | 2021-07-05 | 2021-07-05 | 一种气象预警样本语义自动化标注方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110758205.6A CN113627191A (zh) | 2021-07-05 | 2021-07-05 | 一种气象预警样本语义自动化标注方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113627191A true CN113627191A (zh) | 2021-11-09 |
Family
ID=78379008
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110758205.6A Pending CN113627191A (zh) | 2021-07-05 | 2021-07-05 | 一种气象预警样本语义自动化标注方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113627191A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115658853A (zh) * | 2022-12-28 | 2023-01-31 | 中国气象局公共气象服务中心(国家预警信息发布中心) | 一种基于自然语言处理的气象预警信息审核方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20040089774A (ko) * | 2003-04-15 | 2004-10-22 | 한국전자통신연구원 | 어절 엔-그램을 이용한 띄어쓰기와 철자 교정장치 및 방법 |
CN109492549A (zh) * | 2018-10-24 | 2019-03-19 | 杭州睿琪软件有限公司 | 一种训练样本集处理、模型训练方法及系统 |
CN110110334A (zh) * | 2019-05-08 | 2019-08-09 | 郑州大学 | 一种基于自然语言处理的远程会诊记录文本纠错方法 |
CN111488466A (zh) * | 2020-04-16 | 2020-08-04 | 清华大学 | 中文带标记错误语料生成方法、计算装置和存储介质 |
CN112560451A (zh) * | 2021-02-20 | 2021-03-26 | 京华信息科技股份有限公司 | 一种自动生成训练数据的错别字校对方法及装置 |
-
2021
- 2021-07-05 CN CN202110758205.6A patent/CN113627191A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20040089774A (ko) * | 2003-04-15 | 2004-10-22 | 한국전자통신연구원 | 어절 엔-그램을 이용한 띄어쓰기와 철자 교정장치 및 방법 |
CN109492549A (zh) * | 2018-10-24 | 2019-03-19 | 杭州睿琪软件有限公司 | 一种训练样本集处理、模型训练方法及系统 |
CN110110334A (zh) * | 2019-05-08 | 2019-08-09 | 郑州大学 | 一种基于自然语言处理的远程会诊记录文本纠错方法 |
CN111488466A (zh) * | 2020-04-16 | 2020-08-04 | 清华大学 | 中文带标记错误语料生成方法、计算装置和存储介质 |
CN112560451A (zh) * | 2021-02-20 | 2021-03-26 | 京华信息科技股份有限公司 | 一种自动生成训练数据的错别字校对方法及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115658853A (zh) * | 2022-12-28 | 2023-01-31 | 中国气象局公共气象服务中心(国家预警信息发布中心) | 一种基于自然语言处理的气象预警信息审核方法及系统 |
CN115658853B (zh) * | 2022-12-28 | 2023-04-11 | 中国气象局公共气象服务中心(国家预警信息发布中心) | 一种基于自然语言处理的气象预警信息审核方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109947836B (zh) | 英语试卷结构化方法和装置 | |
CN105279149A (zh) | 一种中文文本自动校正方法 | |
CN114386371B (zh) | 中文拼写纠错方法、系统、设备及存储介质 | |
WO2023093525A1 (zh) | 模型训练方法、中文文本纠错方法、电子设备和存储介质 | |
CN115034218A (zh) | 一种基于多阶段训练和编辑级别投票的中文语法错误诊断方法 | |
CN114065738B (zh) | 基于多任务学习的中文拼写纠错方法 | |
CN114925170B (zh) | 文本校对模型训练方法及装置、计算设备 | |
CN111160026B (zh) | 一种模型训练方法、装置、实现文本处理的方法及装置 | |
CN115658898A (zh) | 一种中英文本实体关系抽取方法、系统及设备 | |
CN115064154A (zh) | 混合语言语音识别模型的生成方法及装置 | |
CN114492396A (zh) | 用于汽车专有名词的文本错误纠正方法及可读存储介质 | |
CN113627191A (zh) | 一种气象预警样本语义自动化标注方法及系统 | |
CN112395858A (zh) | 融合试题数据和解答数据的多知识点标注方法和系统 | |
CN116909435A (zh) | 一种数据处理方法、装置、电子设备及存储介质 | |
CN116681061A (zh) | 一种基于多任务学习和注意力机制的英文语法纠正技术 | |
Hocking et al. | Optical character recognition for South African languages | |
CN111540343B (zh) | 一种语料识别方法和装置 | |
CN114462427A (zh) | 基于术语保护的机器翻译方法及装置 | |
CN109446537B (zh) | 一种针对机器翻译的译文评估方法及装置 | |
CN117035064B (zh) | 一种检索增强语言模型的联合训练方法及存储介质 | |
CN116737935B (zh) | 基于提示学习的藏文文本分类方法、装置及存储介质 | |
CN112328737B (zh) | 一种拼写数据的生成方法 | |
CN113033188B (zh) | 一种基于神经网络的藏文语法纠错方法 | |
CN117149987B (zh) | 多语言对话状态追踪模型的训练方法及装置 | |
CN114117014A (zh) | 一种面向新工科的教育知识图谱问答系统构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |