CN117195878A

CN117195878A - 基于人工智能的自然语言数据处理方法

Info

Publication number: CN117195878A
Application number: CN202311473723.9A
Authority: CN
Inventors: 魏洁; 梁敬岚; 李金鹏
Original assignee: Shaanxi Xinsheng Chain Cloud Information Technology Co ltd
Current assignee: Shaanxi Xinsheng Chain Cloud Information Technology Co ltd
Priority date: 2023-11-08
Filing date: 2023-11-08
Publication date: 2023-12-08
Anticipated expiration: 2043-11-08
Also published as: CN117195878B

Abstract

本发明涉及自然语言处理领域，具体涉及基于人工智能的自然语言数据处理方法，根据双语词嵌入词表构建语句对的词对相似矩阵；根据正常数据集各词的词频‑逆文档频率值构建语句对的词对共现权重矩阵；通过语句对的词对共现权重矩阵及词对相似矩阵得到语句对的加权词对相似矩阵；根据语句对的加权词对相似矩阵计算语句对的最大加权相似指数；根据语句对的加权词对相似矩阵计算语句对的阈值加权相似指数；根据语句对的最大加权相似指数及阈值加权相似指数得到语句对的潜在噪声指数；根据语句对的潜在噪声指数训练机器翻译模型，便于自然语言数据的处理。本发明能够更容易过滤语义引起的噪声，得到更准确的过滤结果，从而训练出性能更好的翻译模型。

Description

基于人工智能的自然语言数据处理方法

技术领域

本申请涉及自然语言处理领域，具体涉及基于人工智能的自然语言数据处理方法。

背景技术

自然语言数据处理是指对文本、语音以及其他形式的自然语言数据进行分析、理解和处理的技术和方法，是自然语言处理（NLP）领域中的核心任务之一。自然语言处理主要为计算机对自然语言文本或语音进行处理、理解和生成等操作过程，其中包括语音识别、机器翻译、文本分类、信息抽取等一系列任务。从自然语言处理领域问世以来，主要经历了基于规则的方法、基于统计的方法、基于深度学习的方法和基于预训练语言模型的方法等阶段。

随着技术的不断进步，自然语言处理变得越来越重要，其中神经网络模型得到飞速发展，大多数领域均离不开神经网络模型，而神经网络模型是数据驱动的模型，其有效性离不开大规模和高质量的数据。因此，在进行具体的任务之前，通常会对数据进行预处理，其中最主要的便是对噪声数据的去除。常规的技术手段通常采用基于规则的方法进行数据清洗、或采用基于统计和机器学习等方法进行数据的过滤。但是在自然语言中，噪声类型是多样的，对噪声的判断也存在一定的主观性，且缺乏准确的标注和标签，这使得在噪声去除方面存在着许多困难。

综上所述，本发明提出基于人工智能的自然语言数据处理方法，通过对获取的源语言、目标语言的单语语料、正常数据集及噪声数据集进行分析，对噪声数据集各语句对构建潜在噪声指数，用于对机器翻译模型的训练中数据的采样，从而完成对自然语言数据的处理。

发明内容

为了解决上述技术问题，本发明提供基于人工智能的自然语言数据处理方法，以解决现有的问题。

本发明的基于人工智能的自然语言数据处理方法采用如下技术方案：

本发明一个实施例提供了基于人工智能的自然语言数据处理方法，该方法包括以下步骤：

获取源语言和目标语言的单语语料、正常数据集及噪声数据集；

获取源语言、目标语言的双语词嵌入词表；将噪声数据集中源语言与目标语言中任意两句组成语句对，对于噪声数据集各语句对，根据双语词嵌入词表构建语句对的词对相似矩阵；获取正常数据集各词的词频-逆文档频率值；根据正常数据集各词的词频-逆文档频率值构建语句对的词对共现权重矩阵；通过语句对的词对共现权重矩阵及词对相似矩阵得到语句对的加权词对相似矩阵；根据语句对的加权词对相似矩阵计算语句对的最大加权相似指数；根据语句对的加权词对相似矩阵计算语句对的阈值加权相似指数；根据语句对的最大加权相似指数及阈值加权相似指数得到语句对的潜在噪声指数；

根据语句对的潜在噪声指数训练机器翻译模型，便于自然语言数据的处理。

优选的，所述获取源语言、目标语言的双语词嵌入词表，包括：

通过Glove模型获取源语言和目标语言的单语词嵌入词表，采用vecmap工具将源语言、目标语言的单语词嵌入词表映射到相同的向量空间得到源语言、目标语言的双语词嵌入词表。

优选的，所述根据双语词嵌入词表构建语句对的词对相似矩阵，包括：

语句对的词对相似矩阵的尺寸大小为源语言和目标语言的词对数乘积；

将语句对中源语言各词的双语词向量与目标语言所有词的双语词向量的乘积得到源语言各词的语义相似度序列，将所述语义相似度序列作为所述词对相似矩阵各个行向量。

优选的，所述获取正常数据集各词的词频-逆文档频率值，包括：

对于正常数据集各词，将每个词在正常数据集中出现的个数与总词数的比值作为每个词的词频；

统计每个词在正常数据集中出现的句子数，将正常数据集的句子总数与所述句子数的比值作为以自然常数为底数的对数函数的对数，将对数函数的计算结果作为每个词的逆文档频率；

将每个词的词频与逆文档频率的乘积的归一化值作为每个词的词频-逆文档频率值。

优选的，所述根据正常数据集各词的词频-逆文档频率值构建语句对的词对共现权重矩阵，包括：

语句对的共现权重矩阵的尺寸大小为源语言和目标语言的词数乘积；

将语句对中源语言各词的词频-逆文档频率值与目标语言所有词的词频-逆文档频率值的乘积组成源语言各词的共现权重序列，将所述共现权重序列作为所述共现权重矩阵各个行向量。

优选的，所述通过语句对的词对共现权重矩阵及词对相似矩阵得到语句对的加权词对相似矩阵，包括：

对于语句对的加权词对相似矩阵各元素，根据元素在词对共现权重矩阵对应位置元素的共现权重与词对相似矩阵对应位置元素的语义相似度的乘积得到元素的加权语义相似度。

优选的，所述根据语句对的加权词对相似矩阵计算语句对的最大加权相似指数，包括：

获取语句对的加权词对相似矩阵各行向量、各列向量最大的加权语义相似度，计算所有行向量和所有列向量的所述最大加权语义相似度的均值作为语句对的最大加权相似指数。

优选的，所述根据语句对的加权词对相似矩阵计算语句对的阈值加权相似指数，包括：

对于语句对的加权词对相似矩阵各元素，将加权语义相似度大于阈值选择系数的所有元素的加权语义相似度均值作为语句对的阈值加权相似指数。

优选的，所述根据语句对的最大加权相似指数及阈值加权相似指数得到语句对的潜在噪声指数，包括：

将语句对的最大加权相似指数与阈值加权相似指数的乘积作为语句对的潜在噪声指数。

优选的，所述根据语句对的潜在噪声指数训练机器翻译模型，包括：

对于噪声数据集各语句对，将语句对的潜在噪声指数作为机器翻译模型中各语句对的采样权重进行采样，通过采样的数据训练机器翻译模型。

本发明至少具有如下有益效果：

本发明通过为机器翻译训练语料衡量其语义相似度来过滤包含噪声的训练语料，以此得到质量更高规模更大的训练语料，使之能够训练更好翻译模型；首先为每个语句对构建语义相似矩阵，然后通过词频-逆文档频率对语义相似矩阵加权，得到更能表现语句对语义相似性的加权词对相似矩阵，最终，通过加权词对相似矩阵提取潜在噪声指数为过滤噪声数据集中可能含有噪声的句子在训练采样时提供采样依据；

机器翻译领域目前的主要问题是在低资源语句对之间没有足够的训练数据，而从网络通过技术手段获取的数据多包含许多噪声；本发明相较与常规的基于规则的过滤方法，更容易过滤掉因语义引起的噪声，得到更准确的过滤结果，从而训练出性能更好的翻译模型。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明提供的基于人工智能的自然语言数据处理方法的流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的基于人工智能的自然语言数据处理方法，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的基于人工智能的自然语言数据处理方法的具体方案。

本发明一个实施例提供的基于人工智能的自然语言数据处理方法。

具体的，提供了如下的基于人工智能的自然语言数据处理方法，请参阅图1，该方法包括以下步骤：

步骤S001，获取源语言和目标语言的单语语料、正常数据集及噪声数据集。

本实施例通过提出一种对于自然语言数据的处理方法，针对自然语言数据中的噪声问题，在不同的细分领域有不同的特点，本实施例针对机器翻译领域中的数据噪声问题进行展开。

机器翻译领域的任务主要是指利用计算机将一种自然语言（源语言）转换为另一种自然语言（目标语言）的过程，实现计算机在不同种类语言之间自动翻译的功能。通常是采用大量的数据集训练翻译模型。其中用于训练机器翻译模型的数据集通常是以源语言-目标语言的语句对形式出现的，即每一个样本的源语言和目标语言是相互翻译的两个种类的语言。其中噪声存在的形式通常是指源语言和目标语言不是其对应的语种、语句对之间不存在相互翻译或相互翻译不完整等情况。

这里数据集采用2020年WMT平行语料过滤任务提供的英语-高棉语的语料。其中包括英语（源语言）与高棉语（目标语言）的单语语料、干净的平行语料和待过滤的噪声平行语料。这里的干净平行语料是指句对之间相互翻译的正常数据集，噪声平行语料是指句对之间包含上诉噪声的噪声数据集。

在自然语言处理领域中，所有数据进行处理前都需要将文本数据进行分词处理。本实施例对英语语料采用NLTK工具包进行分词，高棉语语料采用PyKhmer工具包进行分词。在对句子进行分词之后，采用去停用词方法，将多余的没有具体含义的高频词滤除，例如“the”、“of”、“in”等。然后采用LangID语言检测工具将噪声平行语料中语种不符合的噪声数据过滤掉得到噪声数据集。其中，NLTK工具包、PyKhmer工具包、去停用词方法及LangID语言检测工具均为公知技术，本实施例不再赘述。

至此，可通过上述方法获取源语言和目标语言的单语语料、正常数据集及噪声数据集。

步骤S002，结合源语言和目标语言的单语语料、正常数据集，对噪声数据集各语句对进行分析，得到各语句对的潜在噪声指数。

首先，根据源语言和目标语言各自的单语语料通过Glove模型分别获取各自的单语词嵌入词表，单语词嵌入词表中任意一个词的单语词嵌入即为一个词在空间分布的向量，也称单语词向量。

为了表征源语言和目标语言各词之间较为相似的对应关系，采用vecmap工具，将获取的源语言和目标语言的单语词嵌入词表映射到相同的向量空间，分别得到源语言和目标语言的双语词嵌入词表，各语言的双语词嵌入词表中任意一个词的双语词嵌入即为该词的向量，又称双语词向量，用来表征该词在向量空间的分布。当源语言和目标语言中的两个词的双语词向量在向量空间分布越近，则说明这两个词的语义越相近。其中，Glove模型和vecmap工具均为公知技术，本实施例不再赘述。

针对机器翻译领域的训练数据是以源语言-目标语言的语句对形式出现的，它的噪声主要是翻译不完整造成的，即源语言和目标语言之间不互为翻译。

这是由于用于机器翻译的语料需要大量的训练样本，其人工构建成本太大，且训练样本大多通过技术手段从网络上爬取相应类型的平行语句对，但是由网络爬取的数据会使语料库中出现许多源语言与目标语言翻译不对齐的情况。因此，我们针对噪声数据集中的各个语句对，构建词对相似矩阵，来体现一个语句对的对齐程度，从而达到过滤噪声的目的。

针对待过滤的语句对，形如和/>，/>表示源语言的双语词向量序列，/>表示目标语言的双语词向量序列，/>和/>分别表示语句对中源语言和目标语言第i个词的双语词向量。对于噪声数据集中任意一个语句对，语句对的词对相似矩阵具体构建如下所示：

式中，表示词对相似矩阵中第i行第j列的元素，即该语句对中源语言第i个词与目标语言第j个词的语义相似度，/>为点乘符号，/>表示源语言第i个词的双语词向量，/>表示目标语言第j个词的双语词向量。

计算该语句对中源语言与目标语言所有词对之间的双语词向量的余弦值，将源语言各词与目标语言所有词的双语词向量的乘积组成的序列作为源语言各词的语义相似度序列，将源语言所有词的语义相似度序列作为行向量，构成该语句对的词对相似矩阵。矩阵中的元素值越大，说明该元素所在行的源语言词与所在列的目标语言词之间越相似，即越可能为对应翻译的词对。

在语句对中，并不是每个相互翻译的词对的共现程度是相同的。例如，程度副词在语句对中出现的概率非常高，而名词通常作为语句对的描述对象存在，在每个语句对中同时出现的概率较低。因此，显然这类语句对中存在相互翻译的程度副词的词对并没有存在互相翻译的名词的词对更具有说服力。

首先，统计并计算每个词在各自正常数据集中的词频（TF）和逆文档频率（IDF），并计算TF-IDF记为F：

式中，表示第i个词的词频，/>表示正常数据集第i个词出现的次数，表示正常数据集中的总词数；/>表示第i个词的逆文档频率，/>表示正常数据集中句子的总数，/>表示正常数据集第i个词所在的句子数，/>为修正系数，取经验值1，目的是为了避免有些新词没有在正常数据集中出现过导致分母为0的情况发生，/>表示正常数据集第i个词的词频-逆文档频率值，/>表示归一化函数。

需要说明的是，词频-逆文档频率从词频、逆文档频次两个角度对词的重要性进行度量，越大表明该词越适合为句子的关键词。

至此，我们可以得到待过滤的噪声数据集中的源语言和目标语言的TF-IDF值，即和/>。

然后，为了考虑噪声数据集中各语句对之间关键词的共现权重，通过上述得到的词频-逆文档频率构建各语句对的词对共现权重矩阵B，具体如下：

式中，表示该语句对的词对共现权重矩阵第i行第j列的元素，即该语句对中源语言第i个词与目标语言第j个词的共现权重，/>表示该语句对中源语言第i个词的词频-逆文档频率值，/>表示该句对中目标语言第j个词的词频-逆文档频率值，/>表示归一化函数。

计算该语句对中所有词之间的共现权重，构建得到该语句对的词对共现权重矩阵。其中，共现权重矩阵的每个行向量表示源语言各词与目标语言所有词的词频-逆文档频率值对应乘积的共现权重序列。词对共现权重矩阵中的元素的值越大，说明该元素所在行的源语言词与所在列的目标语言词之间的共现权重越大，说明这两个词都越大可能为句子中的关键词而非不重要的词。

上述的词对相似矩阵中每个元素表示每个词对之间的语义相似性，但是其只考虑了语义相似性，忽略了句子中关键词互为翻译与普通词互为翻译带来的差异。因此，这里考虑将上述计算得到的词对共现权重矩阵与上述计算得到的词对相似度矩阵相结合，得到加权词对相似矩阵C。具体如下：

式中，表示加权词对相似矩阵第i行第j列的元素，即源语言第i个词与目标语言第j个词的加权语义相似度，/>表示源语言第i个词与目标语言第j个词的语义相似度，/>表示源语言第i个词与目标语言第j个词的共现权重。

需要说明的是，当两个词之间的加权语义相似度与共现权重越大时，即越大，则表明包含该词对的语句对互为翻译的概率越大，越不可能是噪声句对；反之，越不能说明包含该词对的语句对是互为翻译的两个句子，也越有可能是噪声句对。

根据上述步骤，至此，我们可以为每个语句对计算出一个加权词对相似矩阵，以此来表现两个句子之间翻译程度的状态。

为了表征该语句对之间可能存在的噪声情况，使得用于评价该语句对是否具有训练的意义，因此，通过每个语句对的加权词对相似矩阵为每个语句对生成一个潜在噪声指数，并以此为依据对噪声数据集进行过滤。步骤如下：

首先，计算每个语句对的最大加权相似指数，具体如下：

式中，表示语句对的最大加权相似指数，/>表示源语言句子长度，/>表示加权词对相似矩阵第i行所有元素的加权语义相似度，/>表示目标语言句子长度，/>表示加权词对相似矩阵第j列所有元素的加权语义相似度。

需要说明的是，计算得到的该语句对的最大加权相似指数越大，则说明该语句对中对应词对越相似，句对相互翻译的程度越高，则越可能不具备潜在噪声。

然后，计算每个语句对的阈值加权相似指数，具体如下：

式中，表示语句对的阈值加权相似指数，这里是指将加权词对相似矩阵中所有超过阈值的元素的加权语义相似度均值，n表示源语言句子长度，m表示目标语言句子长度，/>表示源语言第i个词与目标语言第j个词的加权语义相似度，/>表示阈值选择系数，当加权语义相似度超过阈值选择系数的元素才具备语义相似性，本实施例/>取值为0.5。

需要说明的是，通过得到每个语句对的阈值加权相似指数，当/>越大时，则说明该语句对的加权词对相似矩阵中具备相似性的词对的翻译程度越高，即该语句对中越不可能是噪声。

结合语句对的最大加权相似指数及阈值加权相似指数，得出每个语句对的潜在噪声指数，如下：

式中，表示潜在噪声指数，是指一个语句对为噪声的可能性，值越大，则该语句对越可能是噪声，反之该语句对越不可能是噪声；/>表示语句对的最大加权相似指数，其值越大，表明语句对相互翻译的程度越高，越不可能是噪声，反之，越可能是噪声；/>表示语句对的阈值加权相似指数，其值越大，表明语句对相互翻译的程度越高，越不可能是噪声，反之，越可能是噪声。

步骤S003，根据各语句对的潜在噪声指数训练机器翻译模型。

机器翻译模型的训练通常包括数据准备、数据预处理、构建模型、定义损失函数、模型训练、参数调优、模型评估和推理等步骤。其中，数据集采用噪声数据集，这里翻译模型采用Transformer作为基准模型，损失函数采用交叉熵损失函数。其中，Transformer模型与交叉熵损失函数均为公知技术，本实施例不再赘述。

其中，在模型进行训练时，通常采用随机梯度下降（Stochastic GradientDescent, SGD）的方式对模型参数进行更新。这种方式会将数据分为小批次进行训练，而不是一次性使用全部数据。一般来说，随机梯度下降会多次迭代训练数据集，通过每次迭代只使用一小部分数据进行参数更新，从而逐渐调整模型参数，提高模型性能。其中，随机梯度下降为公知技术，本实施例不再赘述。

在模型训练时，通常每个批次的数据选择采用随机采样的方式。本实施例将噪声数据集中每个语句对的潜在噪声指数作为采样权重进行采样，将潜在噪声指数较大的语句对的采样概率降低，将潜在噪声指数较小的语句对的采样概率增大，这样便可以使模型在训练时获取到更多样的数据且降低了含有噪声的数据对模型性能的影响。

至此，可构建对自然语言数据处理的机器翻译模型，便于对自然语言数据进行处理。

综上所述，本发明实施例提出基于人工智能的自然语言数据处理方法，通过对获取的源语言、目标语言的单语语料、正常数据集及噪声数据集进行分析，对噪声数据集各语句对构建潜在噪声指数，用于对机器翻译模型的训练中数据的采样，从而完成对自然语言数据的处理。

本发明实施例通过为机器翻译训练语料衡量其语义相似度来过滤包含噪声的训练语料，以此得到质量更高规模更大的训练语料，使之能够训练更好翻译模型；首先为每个语句对构建语义相似矩阵，然后通过词频-逆文档频率对语义相似矩阵加权，得到更能表现语句对语义相似性的加权词对相似矩阵，最终，通过加权词对相似矩阵提取潜在噪声指数为过滤噪声数据集中可能含有噪声的句子在训练采样时提供采样依据；

机器翻译领域目前的主要问题是在低资源语句对之间没有足够的训练数据，而从网络通过技术手段获取的数据多包含许多噪声；本发明实施例相较与常规的基于规则的过滤方法，更容易过滤掉因语义引起的噪声，得到更准确的过滤结果，从而训练出性能更好的翻译模型。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围，均应包含在本申请的保护范围之内。

Claims

1.基于人工智能的自然语言数据处理方法，其特征在于，该方法包括以下步骤：

2.如权利要求1所述的基于人工智能的自然语言数据处理方法，其特征在于，所述获取源语言、目标语言的双语词嵌入词表，包括：

3.如权利要求1所述的基于人工智能的自然语言数据处理方法，其特征在于，所述根据双语词嵌入词表构建语句对的词对相似矩阵，包括：

4.如权利要求1所述的基于人工智能的自然语言数据处理方法，其特征在于，所述获取正常数据集各词的词频-逆文档频率值，包括：

5.如权利要求1所述的基于人工智能的自然语言数据处理方法，其特征在于，所述根据正常数据集各词的词频-逆文档频率值构建语句对的词对共现权重矩阵，包括：

6.如权利要求1所述的基于人工智能的自然语言数据处理方法，其特征在于，所述通过语句对的词对共现权重矩阵及词对相似矩阵得到语句对的加权词对相似矩阵，包括：

7.如权利要求1所述的基于人工智能的自然语言数据处理方法，其特征在于，所述根据语句对的加权词对相似矩阵计算语句对的最大加权相似指数，包括：

8.如权利要求1所述的基于人工智能的自然语言数据处理方法，其特征在于，所述根据语句对的加权词对相似矩阵计算语句对的阈值加权相似指数，包括：

9.如权利要求1所述的基于人工智能的自然语言数据处理方法，其特征在于，所述根据语句对的最大加权相似指数及阈值加权相似指数得到语句对的潜在噪声指数，包括：

10.如权利要求1所述的基于人工智能的自然语言数据处理方法，其特征在于，所述根据语句对的潜在噪声指数训练机器翻译模型，包括：