CN107015963A

CN107015963A - 基于深度神经网络的自然语言语义分析系统及方法

Info

Publication number: CN107015963A
Application number: CN201710172099.7A
Authority: CN
Inventors: 李鹏华; 赵芬; 孙健; 朱智勤; 程安宇; 米怡
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2017-03-22
Filing date: 2017-03-22
Publication date: 2017-08-04

Abstract

本发明公开了一种基于深度神经网络的自然语言语义分析系统及方法，包括构建知识图、输入训练集、得到N‑Gram概率模型、利用word2vec将词表征为向量得到矩阵作为输入、利用深度置信网络模型进行实体识别、输入验证集，调整分类器参数、输入测试集，测试模型的分类能力、采用知识图的方法，对语言描述中的实体进行推理、得到相应结论。与现有技术相比，本发明采用知识图的方法对语言描述中的实体进行推理，得到相应的结论，使我们的自然语言理解功能不仅具备理解字面意思的能力，还具备逻辑推理，理解深层意思的能力，具有推广使用的价值。

Description

基于深度神经网络的自然语言语义分析系统及方法

技术领域

本发明涉及机器学习研究的新领域，尤其涉及一种基于深度神经网络的自然语言语义分析系统及方法。

背景技术

深度学习在图像和语音处理领域硕果累累，但在同属人类认知范畴的自然语言处理任务中，研究尚未取得重大突破。与语音和图像不同，自然语言”在深度学习中用于初始输入的“数据源”是字或词，已经包含了人类的语义解释，是经过人类主观思考处理后形成的。本质上，人类语言的理解，是一个复杂的知识推理过程。然而，当前的深度学习过多关注于“自动学习”，导致对自然语言的处理大多依旧停留在“浅层语义”的理解。本发明在深度学习中引入知识图的概念，在构建知识图的基础上，将浅层语义理解结果注入知识图，通过相应的知识推理获得较为深层的语义理解。

发明内容

本发明的目的就在于为了解决上述问题而提供一种基于深度神经网络的自然语言语义分析系统及方法。

本发明通过以下技术方案来实现上述目的：

本发明包括以下步骤：

(1)构建知识图，用知识图作为实体构造的知识表示方法，以期基于此建立出知识表示准确的实体；以长短文本为语义知识资源，知识图为语义表示方法，构建一种基于深度神经网络下的自然语言语义知识图，利用构建的知识图对自然语言中的实体进行描述。

知识图表示一个概念体系，概念用结点表示，概念之间的关联用箭头表示；结点的内容可以是文字、图形、嵌套的知识图及其组合，箭头上面也可以用文字或图形标志关联的名称或内容。知识图不限定图的结构为树，也可以是网。

知识图表示中，实体的表示称之为概念，概念用节点表示。知识图由两种节点组成：概念节点和关系节点。概念节点表示出现在应用领域的实体，关系节点表示实体之间的关系。概念类型(实体类型)的顺序集用T_C来表示。个体概念是引用单独标记，该单独标记属于单独标记集I。有一个通用标记*，它用来表示一个未指明的实体。相同标记*用来表示一个通用实体不管它的类型。关系集用T_R来表示，T_R的一个元素叫做关系符号或关系类型。这三种集(T_C,T_R,I)组成词汇，该词汇被用来标注知识图的两种节点。一个知识图的词汇，或者简单的一个词汇，是一个三元关系(T_C,T_R,I)。

图5是概念类型的一个子集，图6是关系类型集的一部分。其都描述孩子们玩耍的一张照片。描述如下：一个男孩和他的姐姐，名字叫Mary，正在一个房间里面玩耍，房间里面有一个方块状的玩具车和家具。

知识图由两个互斥节点集组成,也就是说，知识图中的任意一条边连接来自不同集的节点，节点可以同时被几个边所连接。节点的一个集叫做概念节点的集(表示实体)，另一个集叫做关系节点的集(表示实体之间的关系)。

知识图上概念关系抽取。在构建本体框架时，概念及概念间的关系需要被准确定义。每个概念都与其他概念构成上下位关系，所以采用语义概念相似度的计算，首先先选取领域中综合的、概括性的概念作为大的类，然后逐步细化、说明，生成子类。

义原间的语义相似度计算:

1)义原a与义原b的语义距离Distance(a,b):

Distance(a,b)＝a与b在义原分类树上的最短距离

2)义原a与义原b的语义相似度Sim(a,b):

两个词图G1，G2的相似度记为Sim(G1,G2)＝Sim₁(a,b)×β₁+Sim₂(a,b)×β₂，其中β₁，β₂为两个参数，β₁+β₂＝1，β₁＞0.5。

图7表示一个知识图由4个概念节点(表示实体)和3个关系节点(表示实体之间的关系)组成。4个概念节点分别为：一个名字叫保罗的孩子，一辆小汽车，一个人，小尺寸；3个关系节点：一个三元关系：玩，两个二元关系：属性和拥有。该图能被理解为描述下面的事实：一个名叫保罗的孩子拥有一辆玩具小车，保罗和一个人正在玩这辆玩具小轿车。

图8展示另一个知识图，描述如下事实：一个名叫保罗的孩子一边洗澡，一边和他的妈妈玩耍。可以看出概念(孩子：保罗)和关系(洗澡)之间的平行边，显示关系(洗澡)的主语和宾语是相同的实体(孩子：保罗)。

图9展示带有更多复杂圈的知识图，描述如下事实：爸爸和孩子正坐在垫子上一起玩，孩子的妈妈坐在靠近垫子的沙发上看着他们。

对于领域的描述仅仅通过类是不够的，还要对于类的内部结构进行描述，即定义类的属性。属性往往具有自己的特征，如本质特征，外部特征，等等。所以我们需要对属性添加其属性值来说明其取值类型、个数及其他特征。我们根据语义相似度运算对结果进行分类，并对每个概念添加属性和属性值。

(2)输入训练集；

(3)中文分词是中文信息处理领域的关键技术之一，其质量高低直接影响中文信息处理效率；利用基于统计的分词方法中的N-Gram算法，N-Gram模型思想:一个单词的出现与其上下文环境中出现的单词序列密切相关，第n个词的出现只与前面n-1个词相关，而与其它任何词都不相关，设W₁，W₂，…，W_n是长度为n的字串，由于预测词W_n的出现概率，必须知道它前面所有词的出现概率，太过复杂；为了简化计算，规定任意词W_i只与其前两个相关，得到三元概率模型如下:

P(W)≈P(W₁)P(W₂/W₁)Π_i＝_3…n P(W_i/IW_i-2W_i-1) (1)

以此类推，N元模型就是假设当前词的出现概率只同它前面的N-1个词有关而得出的；

(4)利用word2vec将词表征为向量，得到矩阵作为输入；词向量这种方式最主要的优点在于让有一定关系的词，在数学意义上的距离更近了；要想对词向量进行训练，其中最广泛被使用的方法有神经网络语言模型，Word2vec也是基于它进行改进的，针对此种模型进行研宄；Word2vec(Word To Vector)，它可以将词汇转换成向量形式，从而把对文本的处理转化为向量空间中的向量运算，方便地完成各种自然语言处理任务；Word2vec以文本语料库作为输入，首先在训练文本数据集中构建一个词汇表，然后训练出每个单词的词向量作为输出，产生的词向量文件可以作为特征向量供后续的自然语言处理和机器学习等算法使用；Word2Vec模型提取文本中词汇的位置关系，提取词汇的上下文信息，生成词汇的向量模型；词汇可以通过数值向量量化表示，词汇之间的相似度可以由向量计算得到；

(5)利用深度置信网络模型进行实体识别，实体识别的目的是识别出数据集中描述同一真实世界实体的元组；利用深度置信网络(Deep Belief Net，简称DBN)模型进行基于特征的实体关系抽取任务，DBN模型结合了无监督学习和有监督学习的优点，是一种对高维稀疏特征向量具有强大分类能力的神经网络；

(6)输入验证集，调整分类器参数；

(7)输入测试集，测试模型的分类能力；

(8)采用知识图的方法，对语言描述中的实体进行推理；

(9)得到相应结论；构建基于深度置信网络的知识图，实现对自然语言语义的分析和理解，有利于可视化或分类，得出相应的结论，使我们的自然语言理解功能不仅具备理解字面意思的能力，还具备逻辑推理，理解深层意思的能力。

本发明的有益效果在于：

本发明是一种基于深度神经网络的自然语言语义分析系统及方法，与现有技术相比，本发明采用知识图的方法对语言描述中的实体进行推理，得到相应的结论，使我们的自然语言理解功能不仅具备理解字面意思的能力，还具备逻辑推理，理解深层意思的能力，具有推广使用的价值。

附图说明

图1为：本发明利用基于深度置信网络的知识图对自然语言语义处理的流程图；

图2为：本发明的采用深度置信网络DBN训练模型的示意图；

图3为：本发明的受限玻尔兹曼机RBM的示意图；

图4为：本发明的基于马尔可夫链的RBM网络自训练过程；

图5为：本发明的概念类型集图；

图6为：本发明的关系标志集；

图7为：本发明的三元关系的知识图：

图8为：本发明的带有平行边的知识图；

图9为：本发明的带有复杂圈的知识图。

具体实施方式

下面结合附图对本发明作进一步说明：

图1为本发明的基于深度置信网络的知识图对自然语言语义分析的示意图。以长短文本为语义知识资源,知识图为语义表示方法。本发明构建一种基于深度神经网络下的自然语言语义知识图，利用构建的知识图对自然语言中的实体进行描述。下面结合附图给出一个利用深度置信网络对自然语言语义知识图构建的实施例以对本发明作进一步的阐述。如图1所示，本发明各部分具体实施细节如下：

1.构建知识图。知识图是一种属于语义网络范畴的知识表示方法,它使用节点表示概念,使用有向弧表示概念之间的关系。在自然语言处理中,知识表示是其中的核心问题,知识图作为一种语义网络范畴的概念图,是一种更为一般的知识表示方法,并且其“结构就是含义“的思想是一种独到的自然语言理解的思想,其带来最为明显的优点就是在其上所构建的语义模型具有层次清晰,语义明确的特点,以长短文本为语义知识资源提出了一种构造词图的方法,用知识图作为本体构造的知识表示方法,以期基于此建立出知识表示准确的本体。

以语义的描述为出发点,提出了一种基于知识图的本体构建方法。以长短文本为语义知识资源,知识图为语义表示方法,采用成熟的软件工程流程,最终构建出的领域本体具有结构明确,语义清晰的特点。对于在其上的信息抽取、语义网等应用提供了有效支持。本发明构建一种基于深度神经网络下的自然语言语义知识图，利用构建的知识图对自然语言中的实体进行描述。

2.输入训练集。

3.基于统计的分词方法：N-Gram算法。中文分词是中文信息处理领域的关键技术之一，其质量高低直接影响中文信息处理效率。中文分词就是将中文连续的字序列按照一定的规则重新组合成词序列的过程。

本发明利用基于统计的分词方法中的N-Gram算法，N-Gram模型思想:一个单词的出现与其上下文环境中出现的单词序列密切相关,第n个词的出现只与前面n-1个词相关,而与其它任何词都不相关,设W₁，W₂,…,W_n是长度为n的字串,由于预测词W_n的出现概率,必须知道它前面所有词的出现概率,太过复杂。为了简化计算,规定任意词W_i只与其前两个相关,得到三元概率模型如下:

P(W)≈P(W₁)P(W₂/W₁)Π_i＝_3…n P(W_i/IW_i-2W_i-1)(2)

以此类推,N元模型就是假设当前词的出现概率只同它前面的N-1个词有关而得出的。

4.利用word2vec将词表征为向量，得到矩阵作为输入。词向量这种方式最主要的优点在于让有一定关系的词，在数学意义上的距离更近了。通过语言模型，我们能获得符合实际需求的最好的词向量。要想对词向量进行训练，其中最广泛被使用的方法有神经网络语言模型，Word2vec也是基于它进行改进的，因此，本发明针对此种模型进行研宄。

Word2vec(Word To Vector)可以将词汇转换成向量形式，从而把对文本的处理转化为向量空间中的向量运算，方便地完成各种自然语言处理任务。Word2vec以文本语料库作为输入，首先在训练文本数据集中构建一个词汇表，然后训练出每个单词的词向量作为输出，产生的词向量文件可以作为特征向量供后续的自然语言处理和机器学习等算法使用。Word2Vec模型提取文本中词汇的位置关系，提取词汇的上下文信息，生成词汇的向量模型。词汇可以通过数值向量量化表示，词汇之间的相似度可以由向量计算得到。

5.利用深度置信网络模型进行实体识别。实体识别的目的是识别出数据集中描述同一真实世界实体的元组。利用深度置信网络(Deep Belief Net，简称DBN)模型进行基于特征的实体关系抽取任务，DBN模型结合了无监督学习和有监督学习的优点,是一种对高维稀疏特征向量具有强大分类能力的神经网络,它由若干层无监督的受限玻尔兹曼机(Restricted Boltzmann Machine，简称RBM)网络和一层有监督的反向传播网络(back-propagation,简称BP)组成.DBN模型的训练过程分为两个阶段:首先利用多层RBM对特征集合进行聚类,然后利用BP对聚类结果进行分类,并同时对RBM网络进行微调。

6.输入验证集，调整分类器参数。

7.输入测试集，测试模型的分类能力。

8.采用基于深度置信网络的知识图的方法对自然语言描述中的实体进行推理。人工智能研究的目的无非是用机器模拟人脑的思维，真正的人工智能系统要能很好反映人脑思维的不确定性并能对各种无所不在的不确定性信息进行处理。于是，如何表示和处理知识的不确定性也就成为人工智能研究的重要课题之一，也是人工智能面临的一大难题。知识图推理理论，是一种不确定性推理模型。

9.得到相应结论。构建基于深度神经网络的知识图，实现对自然语言语义的分析和理解，有利于可视化或分类，使我们的自然语言理解功能不仅具备理解字面意思的能力，还具备逻辑推理，理解深层意思的能力。

图2为本发明的采用深度置信网络DBN训练模型的示意图。深度置信网络DBN是由若干层受限玻尔兹曼机RBM和一层反向传播BP组成的一种深层神经网络,其结构如下图2所示。

DBN在训练模型的过程中主要分为两步:第1步,分别单独无监督地训练每一层RBM网络,确保特征向量映射到不同特征空间时,都尽可能多地保留特征信息；

第2步,在DBN的最后一层设置BP网络,接收RBM的输出特征向量作为它的输入特征向量,有监督地训练实体关系分类器。

DBN底层的神经网络接收原始的特征向量,在自底向上的传递过程中,从具体的特征向量逐渐转化为抽象的特征向量,在顶层的神经网络形成更易于分类的组合特征向量.增加网络层数能够将特征向量更加抽象化。

图3为受限玻尔兹曼机RBM的示意图。RBM由一个可见层V和一个隐含层H组成,层间的节点两两相连,层内的节点不相连,其结构如下图3所示。

令v_i和h_j分别表示可视层和隐含层内的节点值,b和c分别表示可视层和隐含层的偏置量,W表示可视层和隐含层之间的权值.利用公式(3)可以由已知的可视层的节点值得到隐含层的节点值:

RBM是对称网络,同理,利用公式(4)可以由已知的隐含层的节点值得到可视层的节点值:

那么,可视层内的特征向量v和隐含层内的特征向量h的联合概率分布满足:

其中,E(v,h)是特征向量v和特征向量h数学期望,其绝对值的大小代表特征向量h保存着特征向量v的信息的多少,需要确定的参数为θ＝(W,b,c)，其中,W是RBM的权值参数,b是可视层的偏置量,c是隐含层的偏置量,使得联合概率分布P(v,h)最大.最大似然法并不能求出满足条件的参数,传统的做法是利用马尔可夫链蒙特卡罗(Markov chain MonteCarlo,简称MCMC).MCMC的特性使得可视层和隐含层互为条件,不断地求得更新状态,最后它们共同趋向平稳状态,而此时的P(v,h)达到最大.此后可以求得最大联合概率分布与初始状态的联合概率分布的斜率然后用公式(6)更新权值θ.

其中,τ为迭代次数,η为学习速度.其过程如图4所示.

v⁰是t＝0时刻可视层的特征向量,即是RBM的输入向量；h⁰是由v⁰根据公式(3)得到的隐含层特征向量；v¹是t＝1时刻可视层的特征向量,根据h⁰由公式(4)计算得到.以此类推,v^∞和h^∞分别是t＝∞时刻可视层和隐含层的特征向量.斜率可由公式(7)计算得出:

其中,＜h⁰v⁰＞为输入特征向量与其对应的隐含层特征向量的点乘的平均值；＜h^∞v^∞＞为马尔可夫链末端可视层特征向量与其对应的隐含层特征向量的乘积的平均值,＜h^∞v^∞＞是收敛的.由公式(7)可知,联合概率分布的斜率与中间状态无关,只与网络的初始状态和最终状态有关.根据公式(6)可以得出修改后的参数,从而达到自训练的目的.

BP神经网络其训练过程主要分为两步:第1步是前向传播,将输入特征向量沿输入端传播至输出端；

第2步是反向传播,将BP网络的输出结果与正确结果相比较得到误差,然后将误差从输出端反向传播至输入端,以修改DBN的参数.

利用sigmoid函数作为BP的网络节点的求值函数,其实现步骤如算法1所示.

算法1.BP网络的训练过程.

(1)随机初始化顶层反向传播网络的参数,设定训练步长为N；

(2)进行前向计算,对第l层的j单元节点,其值为若神经元j属于输出层(l＝L),则令误差e_j(n)＝d_j(n)-O_j(n),d_j为正确信息；

(3)计算δ,将δ反向传递用以自顶向下修正网络的权值参数,对于输出单元:对于隐含层单元:

(4)修改权值:为学习速率；

(5)如果n＝N,则训练结束；反之,n＝n+1,转步骤(2).

以上显示和描述了本发明的基本原理和主要特征及本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于深度神经网络的自然语言语义分析系统及方法，其特征在于，包括以下步骤：

(1)构建知识图，用知识图作为实体构造的知识表示方法，以期基于此建立出知识表示准确的实体；以长短文本为语义知识资源，知识图为语义表示方法，构建一种基于深度神经网络下的自然语言语义知识图，利用构建的知识图对自然语言中的实体进行描述；

(2)输入训练集；

(3)利用基于统计的分词方法中的N-Gram算法，N-Gram模型思想:一个单词的出现与其上下文环境中出现的单词序列密切相关，第n个词的出现只与前面n-1个词相关，而与其它任何词都不相关，设W₁，W₂，…，W_n是长度为n的字串，由于预测词W_n的出现概率，必须知道它前面所有词的出现概率，太过复杂；为了简化计算，规定任意词W_i只与其前两个相关，得到三元概率模型如下:

P(W)≈P(W₁)P(W₂/W₁)∏_i＝3…n P(W_i/IW_i-2W_i-1) (1)

(4)利用word2vec将词表征为向量，得到矩阵作为输入；Word2vec以文本语料库作为输入，首先在训练文本数据集中构建一个词汇表，然后训练出每个单词的词向量作为输出，产生的词向量文件可以作为特征向量供后续的自然语言处理和机器学习等算法使用；Word2Vec模型提取文本中词汇的位置关系，提取词汇的上下文信息，生成词汇的向量模型；词汇可以通过数值向量量化表示，词汇之间的相似度可以由向量计算得到；

(5)利用深度置信网络模型进行实体识别，实体识别的目的是识别出数据集中描述同一真实世界实体的元组；利用深度置信网络模型进行基于特征的实体关系抽取任务；

(6)输入验证集，调整分类器参数；

(7)输入测试集，测试模型的分类能力；

(8)采用知识图的方法，对语言描述中的实体进行推理；

(9)得到相应结论；构建基于深度置信网络的知识图，实现对自然语言语义的分析和理解，有利于可视化或分类，得出相应的结论。