CN114328939B

CN114328939B - 基于大数据的自然语言处理模型构建方法

Info

Publication number: CN114328939B
Application number: CN202210260578.5A
Authority: CN
Inventors: 李晋; 刘宇鹏
Original assignee: Tianjin Sirui Information Technology Co ltd
Current assignee: Li Jin
Priority date: 2022-03-17
Filing date: 2022-03-17
Publication date: 2022-05-27
Anticipated expiration: 2042-03-17
Also published as: CN114328939A

Abstract

本发明提出了一种基于大数据的自然语言处理模型构建方法，首先，构建文本分类模型；采用嵌入语言模型获取输出词向量输出序列；将词向量输出序列表示分为正序序列和逆序序列，分别计算所述正序序列和逆序序列的概率分布，得到正序语义编码和逆序语义编码，最终输出特征编码；其次基于所述最终输出的特征编码进行语义信息分类，将目标特征编码与两个子集进行比较，其中将具有较高匹配度的子集标记为目标特征编码的所属集合。通过词向量表示单元、特征提取单元和概率分布计算单元来联合优化自然语言处理模型，这样能够显著提高词嵌入深度学习模型的泛化能力。

Description

基于大数据的自然语言处理模型构建方法

技术领域

本发明涉及自然语言处理技术领域，具体涉及一种基于大数据的自然语言处理模型构建方法。

背景技术

目前，互联网己经进入了大数据时代，大量的信息源源不断的产生，例如文本，音频，图片，视频等信息，其中文本信息的数量最大，也是人们最容易最方便获取的信息。文本信息产生的方式造成了文本信息杂乱的现象，又因为信息数量的巨大，人工难以区分和整理。因此，如何有效地快速地对文本信息分类整理变得相当重要，这也催生了文本分类技术。文本分类技术意图实现文本的自动分类，解决信息杂乱的问题，提供一种高效的信息分类方法和信息获取途径。

随着机器学习技术的发展，基于机器学习的文本分类技术取代了早期的关键词分类技术和基于知识工程体系的分类技术，成为了主流的研究方向。机器学习分类技术有很好的适应力，逐渐被应用于特殊的领域，并取得了很好的效果。近年来随着深度学习在自然语言识别、自然语言分类等领域取得了很大的进展，研究者逐渐将深度学习模型应用到自然语言处理领域。文本分类是自然语言处理（NLP，Natural Language Processing）应用领域中最常见也最重要的任务类型。对于预先定义的两个到多个类别，由计算机自动将一段文本归属于其中的一个类别。用来分类的一段文本可以是短语、句子、段落、直至整篇文档。所以在自然语言处理领域成为了国内外学者的研究重点。同样的，在自然语言处理领域用深度学习模型解决文本分类问题变得很受关注，也成为了文本分类技术的一个新的挑战。

例如专利文献CN109992783A提出了一种中文词向量建模方法，利用BPE算法对中文笔画进行自适应的组合，构造汉字子块并利用注意力机制完成汉字内部结构的组合与表示；通过CNN结构对已完成的汉字表示进行信息提取利用Highway network进行细粒度信息增强；考虑到中文语法的复杂性在语义提取阶段构造了双向LSTM结构进行语义编码，构造了以汉字自适应组合层、形态学信息提取层、细粒度信息增强层与语义信息提取层为基本组件的端对端的深度神经语言模型。但是该技术方案没有考虑到在句子词语的差异性。

例如专利文献CN112612898A提出了一种文本分类的方法和装置，由语义编码模型得到待分类文本的语义特征向量；对待分类文本中词的统计信息进行编码，得到待分类文本的统计特征向量；将所述语义特征向量和统计特征向量输入门控网络模型，在门控网络模型中先对所述语义特征向量中满足预定增强条件的元素采用所述统计特征向量进行增强，得到待分类文本的增强特征向量，再基于增强特征向量对所述待分类文本进行分类；所述语义编码模型和门控网络模型采用有标签的训练样本进行联合训练。但是该技术方案中，没有对语义进行充分的获取，分类的准确性不够高。

发明内容

为了解决上述技术问题，本发明提出了基于大数据的自然语言处理模型构建方法，包括如下步骤：

步骤一，构建文本分类模型：

采用嵌入语言模型获取输出词向量输出序列；

将所述词向量输出序列表示为正序序列

和逆序序列

，输入到概率分布模型，分别计算所述正序序列

和逆序序列

的概率分布，将所述正序序列

和逆序序列

与其对应的概率分布相乘，得到正序语义编码和逆序语义编码；

计算所述正序语义编码和逆序语义编码的最终输出的特征编码；

步骤二，基于所述最终输出的特征编码进行语义信息分类：

提取所有输出的特征编码；

确定两个连用的特征编码的语义信息，将具有不同语义信息的特征编码之间连接构成树状图，包括如下两个阶段：

第一阶段，树状图关系划分，对于树状图关系中的任何一个特征编码ei，它的信息度计算公式为：

；

其中g^E为树状图中不同的特征编码类型个数，num(ei)为特征编码ei在树状图中出现的次数,G为特征编码ei构成的集合；

当所有实体的信息度均计算完毕之后，将特征编码ei按其信息度从小到大排序，并把把排序后的特征编码ei平均划分成M个组，对于树状图中的任何一个特征编码关系r的语义强度计算公式为：

；

其中g^R为树状图中不同的特征编码类型关系个数，e₁和e₂分别是特征编码关系r的左实体和右实体，num(e₁)、num(e₂)和num(r)分别为特征编码e₁和e₂以及特征编码关系r在树状图中出现的次数，而num(r,e₁,e₂)为数据<e₁,r,e₂>在G中出现的次数；

第二阶段，排序阶段；将特征编码关系按其语义强度从小到大排序，并把排序后的特征编码关系平均划分成N个组；

使用聚类算法生成代表不同语义信息的两个子集；

通过预设的识别引擎识别目标输出特征编码，将识别的目标输出特征编码与两个子集进行比较，获得匹配子集合；

根据语义信息匹配数据，获取目标输出特征编码的预设标签因子，将匹配子集合按照预设标签因子分成多个识别子集合；根据预设标签因子，获取与目标输出特征编码匹配数据相似度最高的匹配子集合；

并将替换后的匹配子集合作为识别结果。

进一步地，所述步骤一中，将自然语言的训练文本X={x1,x2,…，xi,…xt}的每个单词xi训练成k维向量表示形式：xi={xi1,xi2,…，xik}，通过对k维向量xi1,xi2,…，xik的累加求均值，得到训练文本每个单词xi的输出词向量表示形式Xi'，得到词向量输出序列X’={X1’,X2’,…，Xi’,…,Xt’}。

进一步地，所述步骤一中，正序语义编码和逆序语义编码分别输入到特征提取单元，得到两个含有概率分布的语义特征编码，分别为正序语义特征编码和逆序语义特征编码，将所述逆序语义特征编码倒置为正常顺序，并与上述正序语义特征编码组合，作为最终输出的特征编码。

进一步地，所述使用聚类算法生成代表不同语义信息的两个子集，包括：

代表不同语义信息的树状图连接构成总图，使用迭代优化的非层次聚类方法，将总图分割为2个子集；

定义目标函数

:

;

其中，

代表聚类i所在的集合C_i的基，d(x,y)是两个语义信息x和y的差异度，选择一个能够最小化

的分割方式Pmin；

构造一个随机的分割方式，从当前聚簇中移去降低目标函数值的语义信息，不断迭代，直到任何语义信息的移动无法降低目标函数的值。

本发明具有以下优点：1.本发明引入树状图来增加词语的语义信息，并基于不同语义强度的实体关系来构造大规模训练样本，这样能够显著提高词嵌入深度学习模型的准确度。2.本发明基于大数据的自然语言处理模型技术，并通过词向量表示单元、特征提取单元、概率分布计算单元和分类器来联合优化自然语言处理模型，这样能够显著提高词嵌入深度学习模型的泛化能力。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

附图1为本发明的基于大数据的自然语言处理模型构建方法的流程图。

附图2为本发明的文本分类模型示意图。

附图3 为Sigmoid型活化函数曲线的S形曲线图。

附图4为本发明的标签因子约束算法的总体结构示意图。

附图5为采用本发明的基于大数据的自然语言处理模型训练的自然语言文本的正确率变化曲线。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

如图1所示，为本发明的基于大数据的自然语言处理模型构建方法的流程图，包括如下步骤：

步骤一，构建文本分类模型，如图2所示，文本分类模型包括三个部分:词向量表示单元、概率分布计算单元和特征提取单元。

词向量表示单元:采用嵌入语言模型获取输出序列。将自然语言的训练文本X={x1,x2,…，xi,…xt}的每个单词xi训练成k维向量表示形式,xi={xi1,xi2,…，xik}，通过对k维向量xi1,xi2,…，xik的累加求均值，得到训练文本每个单词xi的输出词向量Xi'，得到词向量输出序列X’={X1’,X2’,…，Xi’,…,Xt’}。

概率分布计算单元: 将所述词向量输出序列分别表示为正序序列

和逆序序列

。正序序列

为{X1’,X2’,…，Xi’,…,Xt-1’,Xt’}；逆序序列

为{Xt’, Xt-1’, …Xi’, …, X2’, X1’}。将正序序列和逆序序列分别作为特征向量提取单元的输入序列。

采用概率分布模型作为计算模型，概率分布模型利用正序序列

和逆序序列

分别作为概率分布模型的输入序列，分别计算两个输入序列的概率分布，将输入序列与其对应的概率分布相乘，得到正序语义编码和逆序语义编码。概率分布模型引入关键词经验概率分布,使得概率分布模型输出端生成语义编码时，既包含了序列信息，又包含了概率分布信息，增加语义的倾向性,同时可提高概率分布模型输出端的收敛速度。

优选地，概率分布模型采用活化函数进行概率分布计算，对于活化函数的选取较为灵活，可以根据具体模型运行情况进行选取，不同的活化函数会给神经网络带来不同的效果。在本实施例中，采用Sigmoid型活化函数。

Sigmoid型活化函数的公式形式为：

；

Sigmoid型活化函数是e指数形式，e约等于2.71828,是一个无理数，Sigmoid型活化函数的变量t的定义域为：(−∞,+∞)(−∞,+∞)，值域为：(−1,1)(−1,1)，Sigmoid型活化函数在定义域内为连续和光滑函数，以(0,0.5)中心对称，是非常良好的阈值函数。

Sigmoid型活化函数f(x)处处可导，严格单调，导数f'(x)为：

f'(x)=f(x)(1−f(x))f'(x)=f(x)(1−f(x))；

如图3所示Sigmoid型活化函数曲线为S形曲线。起初阶段大致是指数增长；然后随着开始变得饱和，增加变慢；最后，达到成熟时增加停止。从图像上可以观察到一些直观的特性：函数的取值在0-1之间，且在0.5处为中心对称，并且越靠近x=0的取值斜率越大。当x趋近负无穷时，y趋近于0；趋近于正无穷时，y趋近于1；x=0时，y=0.5。在x超出[-6,6]的范围后，函数值基本上没有变化，值非常接近。

特征提取单元：计算待处理的正序语义编码和逆序语义编码的最终特征向量表示。将正序语义编码和逆序语义编码分别输入到特征提取单元，得到两个含有概率分布的语义特征编码，分别为正序语义特征编码和逆序语义特征编码，将逆序语义特征编码倒置为正常顺序，并与正序语义特征编码组合，作为最终输出的特征编码。

步骤二，基于最终输出的特征编码进行语义信息分类。采用逻辑回归构建多分类分类器，多分类分类器的输入向量是特征提取单元的最终的输出特征编码。

(1)把所有输出特征编码提取出来。

(2)使用树状图归类模型，结合不同的连用信息，从而确定两个连用的特征编码的语义信息，将具有不同语义信息的特征编码之间连接构成树状图。

具体地，包括如下两个阶段：

第一阶段，树状图关系划分。树状图关系划分算法是一种基于关系划分选择的树型结构。树状图模型对应了特征特点和对应值的相互对照关系。树状图结构中的每一个节点都是一个特征对象，而树的每一根枝丫都代表了不同的可能性。从树状图的根节点到叶子节点的路程都对应了不同的可能性值。

树状图关系划分算法有着明显的优点，一个是，在树状图学习规则与建立规则的过程都十分的明显又清晰明朗。另一点是不仅适用于分类算法，也适用回归算法。在一个，不仅使用二分类，多分类的处理也可以完成。而且对于数值型数据与连续样本型的数据都可以适应。

树状图关系划分算法具体步骤为：对于树状图关系中的任何一个特征编码ei，它的信息度计算公式为：

；

其中g^E为树状图中不同的特征编码类型个数，num(ei)为特征编码ei在树状图中出现的次数,G为特征编码ei构成的集合。当所有特征编码ei的信息度均计算完毕之后，本实施例将特征编码ei按其信息度从小到大排序，并把把排序后的特征编码ei平均划分成M个组，记为E1,E2,…,EM，每个分组为Ei(1≤i≤M)，同时把这M个组的信息度类别依次标记为1～M。对于树状图中的任何一个特征编码关系r，它的语义强度计算公式为：

；

其中g^R为树状图中不同的特征编码类型关系个数，e₁和e₂分别是特征编码关系r的左实体和右实体，num(e₁)、num(e₂)和num(r)分别为特征编码e₁和e₂以及特征编码关系r在树状图中出现的次数，而num(r,e₁,e₂)为数据<e₁,r,e₂>在G中出现的次数。

第二阶段，排序阶段。当所有特征编码关系的语义强度均计算完毕之后，将特征编码关系按其语义强度从小到大排序，并把排序后的特征编码关系平均划分成N个组，记为R1,R2,…,RN，同时把这N个组的语义强度类别依次标记为1～N。

(3)使用聚类算法生成代表不同语义信息的两个子集。

代表不同语义信息的树状图的连接构成了一个总图。

使用迭代优化的非层次聚类方法，将总图分割为2个子集。首先，为将总图分割为C1和C2两个子集的分割方式定义一个目标函数

:

;

其中，

代表聚类i所在的集合C_i的基，d(x,y)是两个语义信息x和y的差异度。选择一个能够最小化

的分割方式Pmin，为了寻找Pmin，首先构造一个随机的分割方式，然后从当前聚簇中移去那些能够最大程度上降低目标函数值的语义信息。如此不断迭代，直到任何语义信息的移动无法降低目标函数的值。

为了给所有不同语义的信息标记出它的语义倾向，给每个信息分配一个0-1之间的差异度，如果两个信息具有相同的语义倾向，则差异度的值较小；如果两个信息具有不同的语义倾向，则差异度的值较大。

如果两个语义信息在文本中没有连用过，那个给这两个语义信息之间分配一个中立的差异度0.5。定义一个相同语义倾向的语义信息间的差异度为1减去分类正确的概率，不同语义倾向的语义信息间的差异度为这种分类正确的概率，通过训练数据可以估计出他们的值。

在优选实施例中，将形容词的语义信息集合A、连用的和基于变形的连接L组成训练和测试数据。通过选择不同的参数值a确定语义信息集合A的最大子集数，对于某一个子集Aa，如果子集Aa中的一个形容词x与子集Aa中的其他词仅且存在a条连接，那么x∈Aa。这个操作反过来又定义了L的子集La，即Aa中所有词的连接。在L-La上训练计算La中所有连接的差异度，然后使用它们来标记Aa中所有词的倾向性。

(4)将目标特征编码与两个子集进行比较，其中具有较高匹配度的那一个子集标记为目标特征编码的所属集合，具体包括：

S1：通过预设的识别引擎识别目标输出特征编码，将识别的目标输出特征编码与两个子集进行比较，获得匹配子集合；其中，所述匹配子集合包括目标输出特征编码和语义信息匹配数据。

S2：根据语义信息匹配数据，获取目标输出特征编码的预设标签因子，将匹配子集合按照预设标签因子分成多个识别子集合；根据预设标签因子，获取与目标输出特征编码匹配数据相似度最高的匹配子集合。

预设标签因子作为匹配条件的生成任务需要满足:生成的目标输出特征编码的预设标签因子和对应的匹配子集合要有较高的匹配度，这要求生成的目标输出特征编码内容要和预设标签因子所代表的标签内容保持语义高度一致性；将匹配子集合按照预设标签因子分成多个识别子集合的步骤应该支持对生成内容和生成类型的语义编辑。

在优选实施例中，根据预设标签因子，获取与目标输出特征编码匹配数据相似度最高的匹配子集合的具体过程为：

采用标签因子约束算法进行匹配，标签因子约束算法的总体结构如图4所示，在解码器部分，解码器每个网络层的输入不仅来自于上一层的运算结果，还来自于标签因子经过下采样后的直连，即将上一层的特征编码和下采样后对应的预设标签因子在通道方向拼接起来共同作为当前层的输入参与后续网络运算。

例如，在解码器的第一层，将预设标签因子进行4倍下采样(0.25x)，然后和解码器第一层特征图拼接，共同参与第二层特征编码的计算;在解码器第二层，将标签因子进行2倍下采样（0.5x）和第二层特征编码拼接，共同参与下一层的计算。

多级的标签因子约束算法能够将特征编码时特征提取过程中丢失的标签条件信息在解码器中重新获得，这样，标签因子约束算法既通过编码得到了标签因子的低维特征表示，获取了标签因子的全局视野，又可以在解码器生成过程将丢失的标签位置信息重新捕捉，用于支持匹配子集合的准确生成，从而有效提高了获取与目标输出特征编码匹配数据相似度最高的匹配子集合的准确度。

S3：将目标输出特征编码替换为相似度最高的匹配子集合，并将替换后的匹配子集合作为识别结果。

本发明引入树状图来增加词语的语义信息，并基于不同语义强度的特征编码关系来构造大规模训练样本，这样能够显著提高词嵌入深度学习模型的准确度。基于大数据的自然语言处理模型技术，并通过词向量表示单元、概率分布计算单元、特征提取单元和分类器来联合优化自然语言处理模型，这样能够显著提高词嵌入深度学习模型的泛化能力，如图5所示为采用本发明的基于大数据的自然语言处理模型训练的自然语言文本的正确率变化曲线,其横坐标代表输入的训练样本的数量，纵坐标代表正确率，可见随着输入样本数量的增加，处理后的正确率也是逐渐提高。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者通过所述计算机可读存储介质进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如，固态硬盘(solid state disk，SSD))等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.基于大数据的自然语言处理模型构建方法，其特征在于，包括如下步骤：

步骤一，构建文本分类模型：

采用嵌入语言模型获取输出词向量输出序列；

将所述词向量输出序列表示为正序序列

和逆序序列

，输入到概率分布模型，分别计算所述正序序列

和逆序序列

的概率分布，将所述正序序列

和逆序序列

步骤二，基于所述最终输出的特征编码进行语义信息分类：

提取所有输出的特征编码；

；

；

使用聚类算法生成代表不同语义信息的两个子集；

并将替换后的匹配子集合作为识别结果。

2.根据权利要求1所述的基于大数据的自然语言处理模型构建方法，其特征在于，所述步骤一中，将自然语言的训练文本X={x1,x2,…，xi,…xt}的每个单词xi训练成k维向量表示形式：xi={xi1,xi2,…，xik}，通过对k维向量xi1,xi2,…，xik的累加求均值，得到训练文本每个单词xi的输出词向量表示形式Xi'，得到词向量输出序列X’={X1’,X2’,…，Xi’,…,Xt’}。

3.根据权利要求1所述的基于大数据的自然语言处理模型构建方法，其特征在于，所述步骤一中，正序语义编码和逆序语义编码分别输入到特征提取单元，得到两个含有概率分布的语义特征编码，分别为正序语义特征编码和逆序语义特征编码，将所述逆序语义特征编码倒置为正常顺序，并与上述正序语义特征编码组合，作为最终输出的特征编码。

4.根据权利要求1所述的基于大数据的自然语言处理模型构建方法，其特征在于，所述使用聚类算法生成代表不同语义信息的两个子集，包括：

定义目标函数

:

;

其中，

的分割方式Pmin；