CN114386425B

CN114386425B - 用于对自然语言文本内容进行处理的大数据体系建立方法

Info

Publication number: CN114386425B
Application number: CN202210292434.8A
Authority: CN
Inventors: 李晋; 刘宇鹏
Original assignee: Tianjin Sirui Information Technology Co ltd
Current assignee: Liu Yupeng
Priority date: 2022-03-24
Filing date: 2022-03-24
Publication date: 2022-06-10
Anticipated expiration: 2042-03-24
Also published as: CN114386425A

Abstract

本发明提出了用于对自然语言文本内容进行处理的大数据体系建立方法，包括：获得待处理的自然语言文本；对待处理的自然语言文本进行预处理，将待处理的自然语言文本进行规范化表示；用多个大小不等的卷积窗口对规范化表示的自然语言文本进行卷积及最大池化操作，得到特征向量矩阵；将具有相同实体对的句子经过步骤卷积及最大池化操作后，输出相同实体对特征向量矩阵，计算每个相同实体对特征向量的权重值，得到过滤后的特征向量矩阵，将过滤后的特征向量矩阵与预定的关系矩阵相乘，得到关联程度矩阵，利用目标函数训练和优化参数，得到大数据优化体系对待处理的自然语言文本做处理，输出处理后的目标结果。

Description

用于对自然语言文本内容进行处理的大数据体系建立方法

技术领域

本申请涉及自然语言处理领域，特别涉及用于对自然语言文本内容进行处理的大数据体系建立方法。

背景技术

自然语言处理是人工智能在众多研究学科领域中的一个重要分支，信息抽取IE(Information Extraction)是自然语言处理中的一个研究方向，它是从大量文本信息中获取命名实体及关系的结构化信息的过程。信息抽取是其他自然语言处理子任务的前置任务，其输出的结果实体关系对是知识图谱、问答系统等系统重要的组成部分，信息抽取是发现知识的有效手段之一，信息抽取分为命名实体识别和关系抽取。命名实体识别是给句子标注出能够表示时间地点人物等实体含义的词汇的过程，确定句子中哪些词有重要的含义。关系抽取是从己经被标注好实体的句子中，根据句子语义以及实体背景信息等预测句中实体之间的关系。

关系抽取是信息抽取的关键任务，其目的是从给定的自然语言文本中识别实体与实体之间的关系，并转化为人机可读的结构化形式存储。该任务不仅对知识图谱构建和扩充具有重要的作用，而且在智能搜索、自动问答及知识推理等任务中具有重要的应用价值。传统的关系抽取方法依赖特征工程和关系抽取模式，无法满足动态海量文本关系抽取的需求。近年来，随着深度学习技术在自然语言处理不同任务上的成功应用，深度学习成为关系抽取的主流方法。基于深度学习的关系抽取能够从大规模文本中自动学习关系表达的语义特征和关系模式，在性能上己经显著超越了传统模型，但仍然在语义表示、远程监督噪音、数据不平衡等方面存在着函待解决的问题。

例如专利文献CN111339407A，提出了一种信息抽取云平台的实现方法，数据获取，由用户输入选定的领域和初始关系集合，从中获取知识库，包括数据中的实体与关系；之后，采用经过训练的远程监督获取方法，通过远程监督获取文本库；最后，采用命名实体识别方法，利用知识库进行数据标注；设计关系抽取方法，句子级别注意力的关系抽取方法，将句子级别注意力关系抽取方法中使用字向量作为句子中每个单词的表示换成基于双向门控循环单元的方法来表示输入序列，建立关系抽取模型并运算输出结果。但是该技术方案仍然无法解决现有技术中数据不平衡等方面的问题，无法弥补了传统信息抽取方法的不足。

再例如CN102439590A，提出了一种用于自然语言文本的自动标注的方法和系统，接收来自电子形式的至少一个自然语言文件的文本；执行所述文本的基本语言分析；将在语言上分析的所述文本与存储的目标语义关系模式相匹配；通过基于在语言上分析的所述文本和在语言上分析的所述文本与所述目标语义关系模式的匹配的结果生成语义关系标签，来产生在语义上标注的文本，其中，所述语义关系标签与来自所述文本内的句子的词或短语相关联，并且指示预定类型的语义关系的成分；以及将所述在语义上标注的文本存储在数据库中。但该技术方案仍无法满足动态海量文本关系抽取的需求。

发明内容

为了解决上述技术问题，本发明提出了用于对自然语言文本内容进行处理的大数据体系建立方法，包括如下步骤：

S1、获得待处理的自然语言文本；

S2、对待处理的自然语言文本进行预处理，将待处理的自然语言文本进行规范化表示；

S3、用多个大小不等的卷积窗口对规范化表示的自然语言文本进行卷积及最大池化操作，得到句子特征向量矩阵；

S4、将具有相同实体对的句子S₁，S₂，…，S_i，…，S_n经过步骤S3后，输出相同实体对特征向量矩阵

；

计算每个相同实体对特征向量的权重值

，得到过滤后特征向量矩阵

：

；其中，n表示所有句子的总数量；

S5、将过滤后特征向量矩阵

与预定的关系矩阵R相乘，得到关联程度矩阵O，

O=R

+B；

其中B是偏置向量；

S6、计算条件概率

：

；

其中，O是关联程度矩阵，O_k是关联程度矩阵中代表第k个关系类型的关系向量，θ是条件概率参数，

是过滤后特征向量矩阵，n_Z是关系类型的总数量；

S7、利用目标函数

，训练和优化条件概率参数，得到大数据优化体系；

；

其中，

为第j个条件概率参数，M为条件概率参数的总数；

S8、利用步骤S7优化后的大数据体系对待处理的自然语言文本做处理，输出处理后的目标结果。

进一步地，所述步骤S2中，对所述待处理的自然语言文本的句子S=w₁w₂…w_i…w_n，通过查询词向量词典将词w_i表示为dw维的词向量

,通过查询位置向量词典将w_i相对位置信息表示为2×dp维的位置向量

，

分别表示词w_i与句子中的前一个词和后一个词的距离，将词向量与位置向量连接成一个dw + 2×dp维的向量

，则所述待处理的自然语言文本的句子S被表示成大小为(dw + 2×dp)×n的矩阵x=[x₁,x₂,x₃,…，x_n]。

进一步地，所述步骤S3中，使用大小为k的卷积窗q，将x_i、x_i的父节点、x_i的兄弟节点的词向量进行卷积操作，得到特征值h_i：

；

其中，

，

是查找词向量词典

得到的词w_i的向量表示，

是w_i的父节点的词向量，

是w_i的兄弟节点的词向量，tanh是双曲正切函数，b是偏置项；

得到特征向量矩阵H = [h₁，h₂，...，h_i，...，h_n]，最大池化操作将特征向量矩阵H中所有元素的最大值提取出来，作为卷积窗口q的最终抽取特征。

进一步地，所述步骤S4中，计算每个相同实体对特征向量的权重值

，

定义如下：

；

是中间过程的优先权重值。

进一步地，所述步骤S7中，采用Dropout进行正则化约束，在迭代时将目标函数J乘以一个小于１的因子λ，用于减小参数θ的值。

进一步地，使用Dropout进行正则化约束的具体过程如下：

S7.1、随机删掉用于训练的前馈神经网络中一半的隐藏神经元，输入输出神经元保持不变；

S7.2、把输入的条件概率参数通过删掉一半隐藏神经元的前馈神经网络中进行前向传播，然后把得到的输出结果通过前馈神经网络反向传播，利用一批训练样本执行完这个过程后，在没有被删除的神经元上按照随机梯度下降法更新对应的条件概率参数θ；

S7.3、继续重复上述过程，再次利用一批训练样本，先前向传播然后反向传播，并根据随机梯度下降法更新条件概率参数θ，没有被删除的神经元上的条件概率参数得到更新，删除的神经元参数保持被删除前的结果。

进一步地，设置所述迭代的上限次数为20，超过20次迭代后，无论大数据优化体系是否收敛都会停止训练和优化。

与现有技术相比，本申请具有以下优点：

在卷积提取特征时，使用多个数据处理单元并行地从多个卷积窗口中提取特征数据，提高了数据提取的速度，从而提高了卷积的处理效率。

采用Dropout进行正则化约束，比较有效的缓解过拟合的发生，在一定程度上达到正则化的效果。

反正传播更新模型中参数的时候，采用随机梯度下降的方式，加快训练速度以使得模型在尽可能短的时间内收敛。

采用本发明提供的用于对自然语言文本内容进行处理的大数据体系建立方法，利用大规模知识库数据生成目标自然语言文本句子向量，并将句子向量用于对目标自然语言文本进行文本处理，从而在有限的训练集场景下引入大量的外部信息的实体对，扩展了有限训练集所能表示的信息。

附图说明

附图1为本发明提供的用于对自然语言文本内容进行处理的大数据体系建立方法的流程图；

附图2为具有相同实体对的四个句子组成句子级别特征向量的形成过程示意图；

附图3为不同条件概率参数下的自然语言文本处理精度对比示意图；

附图4为本发明的Dropout的具体过程示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请实施例方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。因此，基于本发明中的实施例，本领域普通技术人员在未经创造性劳动而能够获得的所有其他实施例都属于本发明保护的范围。

现有技术下，在将非结构化的自然语言文本转化为结构化信息的技术中，通常采用人工标注的方法获得样本对事件抽取系统进行训练，存在着样本量较小的问题，在一定程度上影响了事件抽取系统的性能。

在自然语言处理(NLP)中，为了通过比较连续空间中的向量表示来确定相似性，将自然语言文本表示为向量是有帮助的。然而，将词和短语表示为向量可能是一项困难的任务，每个已知的方法都具有其自身的缺点。本发明的实施例使用结构化信息，例如语法和语义信息，作为用于将词和/或短语表示为向量的上下文，而现有技术的方法仅包括使用相邻词（而不是结构化信息）来创建。

如图1所示为本申请实施例提供的一种用于对自然语言文本内容进行处理的大数据体系建立方法的流程图，该方法可包括：

S1、获得待处理的自然语言文本。

该待处理的自然语言文本可以是数据处理设备当前待处理的一个句子。该数据处理设备可以逐句对接收到的自然语言文本或者识别语音得到的自然语言文本做处理。获得待处理的自然语言文本可以是数据处理设备接收用户设备发送的语音或文本等数据，根据接收到的语音或文本等数据获得待处理的自然语言文本。但事实上转换的文本数据不限于短信内容，还可以是电子邮件，新闻等任何形式的文本数据。所述用户设备可以是手机、个人电脑、平板电脑、可穿戴设备、个人数字助理、游戏机、信息处理中心等智能终端。所述用户设备为自然语言数据处理的发起端，作为自然语言处理任务(例如翻译任务、复述任务等)的发起方，通常用户通过所述用户设备发起自然语言处理任务。复述任务是将一个自然语言文本转换为另一个与该自然语言文本意思相同但表达不同的文本的任务。

S2、对待处理的自然语言文本进行预处理，将待处理的自然语言文本进行规范化表示。

依存卷积神经网络的处理过程要求输入的待处理的自然语言文本长度相同，本步骤中使用增加同义词或去掉连词、介词等对语义影响小的词语的方式，将所有的待处理的自然语言文本的句子表示填充到预先设定的最长长度n。

本申请实施方式中获取同义词的方法可以利用《同义词词林》、《中文概念词典》等现有语义词典中蕴含的同义关系获取同义词，也可以根据百度百科信息框中特征词和汉典网中HTML标记获取同义词，同时还可利用DIPRE自动获取模式的方法，从百科文本中发现置信度较高的模式和同义关系。

本申请实施方式中去掉连词、介词等对语义影响小的词语的方式包括，去掉“的”“和”等。

填充到预先设定的最长长度n后，对一个待处理的自然语言文本的句子S=w₁w₂…w_i…w_n，通过查询词向量词典将词w_i表示为dw维的词向量

，通过查询位置向量词典将w_i相对的位置信息表示为2×dp维的位置向量

，

分别表示词w_i与句子中的前一个词和后一个词的距离，将词向量与位置向量连接成一个dw + 2×dp维的向量表示

，则所述待处理的自然语言文本的句子S被表示成大小为(dw + 2×dp)×n的矩阵x=[x₁，x₂，x₃，…，x_n]。

S3、卷积及最大池化操作。

使用大小为k的卷积窗q，将词x_i、x_i的父节点、x_i的兄弟节点的词向量按照如下方式进行卷积操作，得到特征值h_i：

；

其中，

，

是查找词向量词典

得到的词w_i的向量表示。V是将词按照语义类别组织在一起的词典，R代表词之间的关系，

是w_i的父节点的词向量，

是w_i的兄弟节点的词向量，tanh是双曲正切函数，

是偏置项。

当w_i左侧的兄弟节点的数量小于k-2时，使用“自定义符号”来填充卷积窗口q。在本实施例中，节点w_i到父节点路径上的节点为节点到父节点的一条或多条路径上的节点。也即，响应于节点w_i到父节点有多条路径，可以选择其中一条路径上的节点，也可以选择其中的多条或全部路径上的节点。

当将卷积窗口q应用到矩阵x=[x₁，x₂，x₃，…，x_n]中的每一个词时，即i在区间「1，n]依次取值时，会得到一个特征向量矩阵H = [h₁，h₂，...，h_i，...，h_n]。用l₃个大小不等的卷积窗口提取特征，会得到l₃个与h_i相同的特征向量。

在待处理的自然语言文本的句子S进行卷积操作提取特征时，每一个卷积窗口都会得到特征向量及一个特征向量矩阵。例如，使用第一种类型的卷积窗口q对句子S=w₁w₂…w_i…w_n提取特征时，会得到特征向量h_i和一个特征向量矩阵H = [h₁，h₂，...，h_i，...，h_n]。

最大池化操作将特征向量矩阵H中所有特征向量的最大值h_max提取出来，作为卷积窗口q的最终抽取特征。

使用l₁个卷积窗口对候选关系实例进行卷积、最大池化后，会得到一个l₁维的特征向量矩阵Z₁。同样地，使用l₂个第二类卷积窗口及l₃个第三类卷积窗口提取特征，会分别得到一个l₂维的特征向量矩阵Z₂及一个l₃维的特征向量矩阵Z₃。最后，将向量Z₁、Z₂、Z₃首尾连接得到一个l₁+ l₂+ l₃维的特征向量矩阵Z′，用于表示待处理的句子特征向量矩阵，即：Z′=[Z₁，Z₂，Z₃]。

在优选实施例中，在卷积提取特征时，可以使用多个数据处理单元并行地从多个卷积窗口中提取特征数据，提高了数据提取的速度，从而提高了卷积的处理效率。

如果将步骤S3输出的表示待处理的句子的特征向量矩阵Z直接输入到分类器中进行分类，会发现由于错误标签的影响，整个分类的精确度较差。为了解决这一问题，进入步骤S4。

S4、将具有相同实体对的句子S₁，S₂，…，S_i，…，S_n都经过上述卷积操作和最大池化后，输出句子级别的特征向量矩阵

，其中，

表示第i个句子的特征向量，最后输出的句子级别的特征向量矩阵表示为

。

其中，对于相同实体对是指，如果两个实体存在某种语义关系，那么所有包含这两个实体的句子都表达了它们之间的语义关系。对于一个己有的外部领域无关的实体知识库中的高质量实体关系实例，假设外部文档库中任何包含这对实体的句子，在一定程度上都反映了这种关系。例如知识库中的实体关系实例“发现者” (牛顿,力学定律)，某些句子中同时存在“牛顿”和“力学定律"这一实体对，那么这些句子都将自动标注为“发现者”关系。

如图2为例，说明具有相同实体对的四个句子组成句子级别特征向量的过程。

上图可以明显看出，S₁，S₂，S₃，S₄四个句子构成的矩阵具有相同的实体对。经过步骤S4后，输出了句子级别的特征向量矩阵

。

对每个句子的特征向量作进一步的筛选，使得对句子级别的特征向量矩阵产生的影响较大的噪音数据直接被过滤。计算第i个相同实体对特征向量的权重值

，定义如下：

；

是中间过程的优先权重值。

最后根据每个相同实体对特征向量获取到的权重值将句子级别的特征向量矩阵组合过滤后得到特征向量矩阵

。具体的计算公式如下：

；

其中，n表示所有句子的总数量。

S5、将过滤后的特征向量矩阵

与预定的关系矩阵R相乘，得到关联程度矩阵O，计算方法如下：

O=R

+B；

其中B是偏置向量。

虽然得到了过滤后的特征向量矩阵

与预定的关系矩阵R的关联程度，但是为了便于计算，进入步骤S6，利用条件概率

公式，将关系程度映射到(0，1)之间的值。

S6、计算条件概率

，公式如下：

；

是过滤后的特征向量矩阵，n_Z是关系类型的总数量，最终输出层的输出为体现了句子级别的特征向量矩阵与所有关系类型的匹配程度的一个概率的特征向量。

S7、利用目标函数训练和优化条件概率参数θ。

本发明采用交叉熵代价函数作为目标函数

训练和优化条件概率参数θ，目标函数

定义如下：

；

其中，

为第j个条件概率参数，M为条件概率参数的总数，使用优化器进行参数更新。如图3所示，四条曲线分别表示S₁，S₂，S₃，S₄四个句子在不同条件概率参数下的自然语言文本处理精度对比。

当用一个复杂的前馈神经网络作为目标函数训练条件概率参数θ时，在采用小的数据集时，容易造成过拟合。为了防止过拟合，可以通过阻止特征检测的共同作用来提高神经网络的性能，采用Dropout进行正则化约束。Dropout可以比较有效的缓解过拟合的发生，在一定程度上达到正则化的效果。

使用Dropout的具体过程如下：

（1）首先随机删掉前馈神经网络中一半的隐藏神经元，输入输出神经元保持不变，如图4中所示，虚线为部分临时被删除的神经元；

（2）然后把输入的条件概率参数通过删掉一半隐藏神经元的前馈神经网络中进行前向传播，然后把得到的输出结果通过前馈神经网络反向传播。利用一批训练样本执行完这个过程后，在没有被删除的神经元上按照随机梯度下降法更新对应的条件概率参数θ。

（3）然后继续重复这一过程，在迭代时，将目标函数乘以一个小于１的因子λ，用于减小参数θ的值，再次利用一批训练样本，先前向传播然后反向传播，并根据随机梯度下降法更新条件概率参数θ，没有被删除的神经元上的条件概率参数得到更新，删除的神经元参数保持被删除前的结果。

反复重复上述过程，Dropout在每次前向传播时，随机地丢弃一些隐层节点特征，即权值更新不依赖于固定的节点共同作用。正则化操作降低了数据偏移对结果的影响，增强了大数据优化体系的抗扰动性，避免了过拟合现象。

在优选实施例中，设置迭代的上限次数为20，即超过20次迭代轮次后无论大数据优化体系是否收敛都会停止训练。为了加快训练速度，将会分批次将数据放入模型中进行训练，每个批次设置为160个包。

采用dropout技术，每次在训练过程中以0.5的概率随机丢弃模型中的一些神经元，这样既加快了训练过程，同时避免了过拟合的现象产生。最小化损失函数，反正传播更新模型中参数的时候，采用随机梯度下降的方式，加快训练速度以使得模型在尽可能短的时间内收敛。

在优选实施例中，本发明还提出了一种用于对自然语言文本内容进行处理的大数据体系，采用上述的用于对自然语言文本内容进行处理的大数据体系建立方法进行构建。

大数据体系包括：

获取模块，用于获得待处理的自然语言文本。

还包括处理器，用于对自然语言文本内容进行预处理和训练，得到大数据优化体系，并利用处理器优化后的大数据体系对待处理的自然语言文本处理。

本实施例中提供的处理器可以部署于计算机设备，该处理器可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)和存储器，一个或一个以上存储应用程序或数据的存储介质 (例如一个或一个以上海量存储设备)。其中，存储器和存储介质可以是短暂存储或持久存储。存储在存储介质的程序可以包括一个或一个以上模块，每个模块可以包括对服务器中的一系列指令操作。更进一步地，处理器可以设置为与存储介质通信，在处理器上执行存储介质中的一系列指令操作。

本实施例的大数据体系还包括输出模块，用于输出自然语言文本处理后的的目标结果。

在优选实施例中，本发明用于实现构建大数据体系的数据处理设备可以是云服务器、网络服务器、应用服务器以及管理服务器等具有数据处理功能的设备或服务器。所述数据处理设备通过交互接口接收来自所述智能终端的查询语句/语音/文本等问句，再通过存储数据的存储器以及执行数据处理的处理器进行机器学习，深度学习，搜索，推理，决策等方式的语言数据处理。所述存储器可以是一个统称，包括本地存储以及存储历史数据的数据库，所述数据库可以在数据处理设备上，也可以在其它网络服务器上。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其他实施例的相关描述。

本申请实施例中还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行如前述各个实施例描述的方法。

本申请实施例中还提供一种包括程序的计算机程序产品，当其在计算机上运行时，使得计算机执行前述各个实施例描述的方法。

采用本实施例提供的用于对自然语言文本内容进行处理的大数据体系建立方法，利用大规模知识库数据生成目标自然语言文本句子向量，并将句子向量用于对目标自然语言文本进行文本处理，从而在有限的训练集场景下引入大量的外部信息的实体对，扩展了有限训练集所能表示的信息。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(ReadOnlyMemory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(RandomAccessMemory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(StaticRandomAccessMemory，SRAM)或动态随机存取存储器(DynamicRandomAccessMemory，DRAM)等。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.用于对自然语言文本内容进行处理的大数据体系建立方法，其特征在于，包括如下步骤：

S1、获得待处理的自然语言文本；

S2、对待处理的自然语言文本进行预处理，将待处理的自然语言文本进行规范化表示；将所有的待处理的自然语言文本的句子表示填充到预先设定的最长长度n，对所述待处理的自然语言文本的句子S=w₁w₂…w_i…w_n，通过查询词向量词典将词w_i表示为dw维的词向量

，通过查询位置向量词典将w_i相对位置信息表示为2×dp维的位置向量

，则所述待处理的自然语言文本的句子S被表示成大小为(dw + 2×dp)×n的矩阵x=[x₁，x₂，x₃，…，x_n]；

使用l₁个卷积窗口对候选关系实例进行卷积、最大池化后，得到一个l₁维的特征向量矩阵Z₁，使用l₂个第二类卷积窗口及l₃个第三类卷积窗口提取特征，分别得到一个l₂维的特征向量矩阵Z₂及一个l₃维的特征向量矩阵Z₃，将向量Z₁、Z₂、Z₃首尾连接得到一个l₁+ l₂+ l₃维的特征向量矩阵Z′，用于表示待处理的句子特征向量矩阵Z′，Z′=[Z₁，Z₂，Z₃]；