CN112016322B

CN112016322B - 一种英文粘连词错误的还原方法

Info

Publication number: CN112016322B
Application number: CN202010883348.5A
Authority: CN
Inventors: 刘兴宇; 杜权
Original assignee: Shenyang Yayi Network Technology Co ltd
Current assignee: Shenyang Yayi Network Technology Co ltd
Priority date: 2020-08-28
Filing date: 2020-08-28
Publication date: 2023-06-27
Anticipated expiration: 2040-08-28
Also published as: CN112016322A

Abstract

本发明公开一种英文粘连词错误的还原方法，步骤为：在现有的已清洗过的高质量英文数据集中随机抽取数据；对采集到的问题数据进行抽样统计，得到粘连词数及粘连位置的分布概率；数据构造，根据粘连词的分布情况构造伪粘连词数据，根据对待清洗数据的抽样统计出含有粘连词的句子占比，结合粘连词数及粘连位置的分布构造伪粘连数据；在将构造的伪粘连词数据送入模型训练之前，对其做预处理操作；数据训练，对模型参数进行调整，选取最优模型，利用最优模型对获取到的待清洗的英文数据中的粘连词进行修正，得到还原后的正确数据。本发明能够精确地识别英文粘连词，并将其还原成独立词汇，整个过程由训练的模型完成，高效且便捷，且具备可迁移性。

Description

一种英文粘连词错误的还原方法

技术领域

本发明涉及一种英文数据清洗技术，具体为一种英文数据中粘连词错误的还原方法。

背景技术

在以海量数据为驱动的自然语言处理任务中，数据清洗是保证数据质量的首要工作。数据获取的渠道繁多，在使用网络爬虫、OCR(Optical Character Recognition，光学字符识别)识别等计算机自动采集技术获取英文数据单语或包含英文的双语数据的过程中，会因为以下几种错误导致英文数据中单词之间空格丢失，造成多词粘连的情况，以下统称为粘连词。

造成粘连词问题的几种常见错误：

1)转换错误：在转换过程中，单词之间的一些空格可能会丢失，例如，通过删除换行符而不是将其替换为空格；

2)OCR错误：原始文档或手写文本的质量较差可能会导致无法正确识别单词之间的所有空格；

3)传输错误：在嘈杂的信道上传输时，空格可能会丢失或引入拼写错误；

4)获取错误：从URL地址、域名、表列描述或编程变量中提取的关键字，这些变量不带空格。

粘连词错误数据如下所示：

错误句子：There is the prospectof employment once the training iscompleted.

正确形式：There is the prospect of employment once the training iscompleted.

目前大多自然语言处理任务(机器翻译、命名实体识别、语义分析等)均依赖语料库，在任务训练过程中，使用训练语料的数量越多，在训练过程中能够学到的信息就越丰富，效果就会更好；同时，训练语料中数据的质量好坏也尤为重要，数据质量越好，效果就越好，数据数量和质量是相辅相成的关系，在自然语言处理任务中缺一不可。

英文粘连词问题严重影响了英文数据的质量，因此，在清洗数据的过程中考虑对英文粘连词进行还原是非常重要的，并进一步影响语料库的质量，而目前能够提高语料库质量的英文粘连词错误的还原方法尚未见报道。

发明内容

针对在获取大量数据时，使用网络爬虫、OCR识别等计算机自动采集技术造成的英文数据中有粘连词的数据错误，本发明要解决的问题是提供一种可避免英文数据出现粘连词的数据错误、提高英文数据质量的英文数据粘连词的还原方法。

为解决上述粘连词问题，本发明采用的技术方案是：

本发明提供一种英文数据中粘连词的还原方法，包括以下步骤：

1)在现有的已清洗过的高质量英文数据集中随机抽取数据，为任务训练所需的高质量数据做准备；

2)观察获取到的待清洗的英文数据集中含有粘连词的数据，对采集到的问题数据进行抽样统计，得到粘连词数及粘连位置的分布概率；

3)利用步骤1)中抽取的数据进行数据构造，根据粘连词的分布情况构造伪粘连词数据，根据对待清洗数据的抽样统计出含有粘连词的句子占比，结合粘连词数及粘连位置的分布构造伪粘连数据；

4)在将构造的伪粘连词数据送入模型训练之前，对其做预处理操作，使数据更利于模型训练；

5)使用fairSeq下的Transformer模型对预处理后的数据进行训练，对模型参数进行调整，模型训练完成后，根据困惑度(ppl)和loss损失选取最优模型，利用最优模型对获取到的待清洗的英文数据中的粘连词进行修正，得到还原后的正确数据。

步骤2)中粘连词数及粘连位置的分布概率为：

粘连词数为2词粘连的概率为0.6，3词粘连的概率为0.25，4词粘连的概率为0.14，5词粘连的概率为0.01，统计粘连位置为句首句尾位置粘连占其他位置的1/3。

步骤3)中利用步骤1)中抽取的数据进行数据构造，具体为：

301)根据粘连词数及粘连位置的概率分布构造粘连数据模块；

302)判定粘连句子，随机选取句子作为含有粘连词的句子，利用random()函数在遍历1)中得到的文件时，每读取一句话得到一个0-1之间的随机数x，按照70％占比构造伪粘连词数据，即若x<＝0.7则将该句子作为含有粘连词的句子，进入构造粘连词模块进行处理；若x>0.7则不做处理，直接输出伪粘连词数据到文件1。

步骤301)中构造粘连数据模块为：

30101)确定粘连词数，根据粘连词数的分布，利用random()函数得到一个0-1随机数m，m的不同取值对应着构造该句话粘连词的粘连词数gram，gram的取值结果如下：

30102)确定可选取的位置n，n的取值具体如下，其中words为该语句的单词数目；

n＝words-gram+1

30103)确定粘连的位置，根据粘连位置分布得知，第一个位置和最后一个位置的概率相等均为其余位置的1/3，按比例构造随机数的范围[1,x]，其中x＝3*n-4，根据随机范围映射粘连位置的周期为：T＝x/(n-1)，得到的随机数ran映射的位置信息为：(ran-1)/T；

30104)按照得到的位置信息构造粘连词，将构造好的数据进行输出，将经上述步骤处理后的数据作为源语，原始数据作为目标语输出到文件1。

步骤4)中数据预处理包括：

401)将步骤3)中得到的源语和目标语作为句对进行分词，分词按空格标点进行切分；

402)对粘连词进行变化，利用一个判定粘连词函数寻找数据中可能的粘连词，将粘连词按字符用指定符号切分，以区别于真正单词间的空格；

403)将步骤402)中的源语和步骤401)中分词后的目标语进行BPE，以减少词表的大小。

步骤402)中判定粘连词函数设计方法如下：

40201)从现有的已清洗过的高质量英文数据集抽取高质量英文数据作为该函数的语料库，该语料库与步骤1)中抽取的数据呈互斥的关系；

40202)利用n-gram模型统计出Tri-Gram的词对，并保留词对信息；

40203)读取源语数据，遍历源语数据句子，根据当前词w的后面3个词利用步骤40202)中得到的词对信息进行查询，若可查询到词w，则判断词w不是粘连词；

40204)继续遍历，若未查询到词w，则判定词w是粘连词，将词w按字符用指定符号切分。

本发明具有以下有益效果及优点为：

1.本发明提出一种英文粘连词还原的方法，能够精确地识别英文粘连词，并将其还原成独立词汇，整个过程由训练的模型完成，高效且便捷。

2.本发明方法具备可迁移性，对其他单词间用空格分隔的语言，面对粘连词问题可采用同样的方法。

3.本发明采用Transformer模型训练出一套针对英文粘连词还原的模型，并在后处理时，对更改数据进行检测，对于英文粘连词问题能够达到很高的检测和修正精度，保障处理结果的准确。

附图说明

图1为本发明方法的流程图；

图2为本发明方法应用的Transformer框架图；

图3为本发明方法中随机数ran映射的位置信息图示。

具体实施方式

下面结合说明书附图对本发明作进一步阐述。

本发明提出一种英文粘连词错误的还原方法，用于解决英文数据中粘连词的问题。

如图1所示，本发明英文粘连词错误的还原方法英文粘连词还原，包括以下步骤：

步骤2)中，观察待清洗的英文数据中含有粘连词的数据，发现2词粘连的数量是最多的，其次依次是3词、4词、5词粘连，整体上随着粘连词数的增多粘连数量呈下降趋势；除此之外另一个需要考虑的问题是：粘连位置，大部分的粘连词都出现在句中，偶尔有句首和句尾是粘连词的情况,经统计句首句尾粘连占其他位置的1/3。为了促使构造的数据更贴合真实数据，对采集到的问题数据进行抽样统计，得到粘连词数的分布如下：

步骤3)中，利用步骤1)中抽取的数据进行数据构造：选用的Transformer模型需要大量的句对做训练，如果使用现有的真实数据，人工标注的成本过高，因此需要根据粘连词的分布情况构造大量的伪粘连词数据，根据对待清洗数据的抽样统计出含有粘连词的句子占比为65％，为了提高容错率，在构造数据时，选定为70％占比的粘连词，粘连词数及粘连位置的分布如步骤2)中所示；

301)判定粘连句子：在构造数据时，随机选取句子作为含有粘连词的句子，利用random()函数在遍历步骤1)中得到的文件时，每读取一句话得到一个0-1之间的随机数x，按照70％占比构造伪粘连词数据，即若x<＝0.7则将该句子作为含有粘连词的句子，进入构造粘连词模块进行处理；若x>0.7则不做处理，直接输出伪粘连词数据到文件1。

302)构造粘连数据模块：

30201)要确定粘连词数，根据步骤2)中粘连词数的分布，利用random()函数得到一个0-1随机数m，m的不同取值对应着构造该句话粘连词的粘连词数gram，gram的取值结果如下：

30202)得到可选取的位置n，n的取值具体如下，其中words为这句话的单词数目；

n＝words-gram+1

30203)选取粘连的位置，根据步骤2)中得到的粘连位置分布得知，句首和句尾即第一个位置和最后一个位置的概率相等均为其余的1/3，因此按比例构造随机数的范围[1,x]，其中x＝3*n-4，根据随机范围映射粘连位置的周期为：T＝x/(n-1)，得到的随机数ran映射的位置信息为：(ran-1)/T

示例：粘连词数为3，句子信息如下：

There is the prospect of employment once the training is completed.

该句话中能够选取的位置有n＝words-gram+1＝11-3+1＝9种，如图3所示；

随机数的最大值为x＝3*n-4＝3*9-4＝23，即随机数范围为[1,23]，周期T＝3，

得到的随机数ran的映射如下：

30204)按照得到的位置信息构造粘连词，将构造好的数据进行输出，将经上述步骤处理后的数据作为源语，原始数据作为目标语输出到文件1。

步骤4)中，数据预处理：在将构造的伪粘连词数据送入模型训练之前，对其做预处理操作，使数据更利于模型训练。

402)为了给模型一个强有力的信息，避免模型将粘连词视为未登录词处理，将粘连词做一个变化，要利用一个函数寻找数据中可能的粘连词，将粘连词按字符用‘^^’切分，这样做的目的是区别于真正单词间的空格；

函数的设计：

40202)利用n-gram模型(本实施例采用Tri-Gram)的思想，统计出Tri-Gram的词对，将词对信息保留；

40203)读取源语数据，按行遍历源语数据句子，根据当前词w的后面3个词Tri去步骤40202)中得到的词对信息中查询，若可查询到词w，则判断词w不是粘连词；

40204)继续遍历，若未查询到词w，则判定词w是粘连词，将词w按字符用‘^^’切分；

403)将步骤402)中的源语和步骤401)中分词后的目标语进行BPE，(byte pairencoder，字节对编码)，BPE的目的是减少词表的大小，BPE参数设置为10000；

步骤5)中，使用fairSeq下的Transformer模型(模型结构如图2所示)进行训练，对模型参数进行适当的调整，具体参数如下所示：

模型训练完成，根据困惑度(ppl)和loss损失选取最优模型，利用最优模型对获取到的待清洗的英文数据中的粘连词进行修正，得到还原后的正确数据。

还原数据示例：

通过分析以上实验数据可知，本发明提出的针对英文粘连词的还原方法能够准确识别并还原英文粘连词，经人工统计，英文粘连词还原的准确率为99％，满足粘连词清洗的需求。本发明方法由Transformer训练得到一套针对英文粘连词还原的模型，高效且便捷，对于英文粘连词问题能够达到很高的检测和修正精度，能够保障处理结果的准确性，进一步提高了数据质量。

Claims

1.一种英文粘连词错误的还原方法，其特征在于包括以下步骤：

1)在现有的已清洗过的高质量英文数据集中随机抽取数据，得到文件1，为任务训练所需的高质量数据做准备；

3)利用步骤1)中抽取的数据进行数据构造，根据粘连词的分布情况构造伪粘连词数据，根据对待清洗数据的抽样统计出含有粘连词的句子占比，结合粘连词数及粘连位置的分布构造伪粘连词数据；

5)使用fairSeq下的Transformer模型对预处理后的数据进行训练，对模型参数进行调整，模型训练完成后，根据困惑度ppl和loss损失选取最优模型，利用最优模型对获取到的待清洗的英文数据中的粘连词进行修正，得到还原后的正确数据；

步骤3)中利用步骤1)中抽取的数据进行数据构造，具体为：

301)根据粘连词数及粘连位置的概率分布构造粘连数据模块；

302)判定粘连句子，随机选取句子作为含有粘连词的句子，利用random()函数在遍历步骤1)中得到的文件时，每读取一句话得到一个0-1之间的随机数x，按照70％占比构造伪粘连词数据，即若x<＝0.7则将该句子作为含有粘连词的句子，进入构造粘连词模块进行处理；若x>0.7则不做处理，直接输出伪粘连词数据到文件1；

步骤301)中构造粘连数据模块为：

n＝words-gram+1

2.根据权利要求1所述的英文粘连词错误的还原方法，其特征在于：2)中粘连词数及粘连位置的分布概率为：

3.根据权利要求1所述的英文粘连词错误的还原方法，其特征在于：步骤4)中数据预处理包括：

403)将步骤402)中的源语和步骤401)中分词后的目标语进行BPE，以减少词表的大小；

所述步骤402)中判定粘连词函数设计方法如下：

40202)利用n-gram模型统计出Tri-Gram的词对，并保留词对信息；