CN112347196B

CN112347196B - 基于神经网络的实体关系抽取方法及装置

Info

Publication number: CN112347196B
Application number: CN201910722284.8A
Authority: CN
Inventors: 陈培华; 陈成才
Original assignee: Shanghai Xiaoi Robot Technology Co Ltd
Current assignee: Shanghai Xiaoi Robot Technology Co Ltd
Priority date: 2019-08-06
Filing date: 2019-08-06
Publication date: 2023-05-23
Anticipated expiration: 2039-08-06
Also published as: CN112347196A

Abstract

本发明提供了一种基于神经网络的实体关系抽取方法及装置，所述方法包括：对待处理的句子信息依次进行分词处理、实体识别、向量化处理、融合处理、全局平均池化处理、筛选处理、去噪处理、更新处理和降维处理以得到一个目标特征，然后根据所述目标特征就可以计算所述实体对的实体关系。本发明通过多方面、多角度挖掘句子及句子中实体间的关系，将这种多方面多角度的表示进行融合，进而更准确更全面地进行实体关系抽取，方法简便、高效，成本低廉，且能够在不同数据领域之间进行迁移；通过增加筛选处理滤除了对实体关系预测贡献不大的噪声特征，节省了后续的计算量，提高了抽取的效率。

Description

基于神经网络的实体关系抽取方法及装置

技术领域

本发明涉及自然语言处理技术领域，特别涉及一种基于神经网络的实体关系抽取方法、自动问答方法、基于神经网络的实体关系抽取装置、存储介质及电子设备。

背景技术

现如今，随着网络信息资源的日渐丰富、计算机速度的大幅度提高，主要以文字、图像等形式为依托的信息化时代强势到来。信息化时代的标志是信息爆发价值，如今信息化成为了时代发展的主流趋势，是前沿生产力的主要标志。随着信息时代的高速发展，信息数据呈现规模巨大、模态多样和高速增长等特征。在网络搜索过程中，当用户输入要查询的信息时，希望计算机能够从语义层面理解用户真实想要获取的信息，而不只是关键字的提取和搜索，这就迫切要求能快速、准确地获取用户真正所需信息的技术手段-信息抽取技术的进一步发展，以满足用户搜索的需求。比如说，当用户输入“英国伦敦”时，希望得到的是关于英国伦敦这座城市的多方面相关信息，如政治、经济、文化、地理位置、旅游景点、教育机制等，而不仅仅是简单的关于伦敦的关键字的句子提取。

信息抽取的研究内容主要包括三个方面：实体抽取、实体关系抽取、事件抽取。实体关系抽取是核心任务，其问题定义为“输入一段文本，抽取出每句话中的实体及其之间的语义关系”。目前的研究主要是指从一句话中抽取出两个实体及语义关系，通常用三元组(实体1，关系，实体2)表示。

在商业需求的推动下，实体关系抽取方法从上世纪九十年代基于知识工程的方法发展到近十年基于统计的机器学习方法。随着在线文本数量的增加和硬件计算能力的提高，基于统计的机器学习方法应用广泛，主要分为有监督、半监督和无监督三大类方法。由于有监督的方法准确率和召回率较高，国内外学者大多采用有监督的方法有监督机器学习方法将实体关系抽取视为一个分类任务，将句子中出现的实体关系划分到预先定义好的类别中。近年来，深度学习框架的神经网络模型成为实体关系抽取的新方法，深度学习是一种特殊的有监督机器学习方法，是机器学习的一个分支，不同之处在于神经网络模型自动学习句子特征，无需复杂的特征工程同时能够取得更好的效果，所以受到广泛的应用。

现有技术的关系抽取通常依赖于逻辑规则和手工构建的特征，这些特征耗费劳动力且难以泛化。而基于神经网络的模型也只是端到端训练，输入只是文本及两个实体一方面的信息，而忽视了从不同角度对同一个文本及实体对进行表示，这种单一的表示很容易产生误差，从而影响到最后对两个实体关系的抽取。

因此，如何准确高效地抽取实体关系就成为本领域技术人员亟待解决的技术问题之一。

发明内容

为了解决上述问题，本发明提出一种基于神经网络的实体关系抽取方法、自动问答方法、基于神经网络的实体关系抽取装置、存储介质及电子设备，以提高实体关系抽取的准确率和效率。

根据上述目的，本发明实施例提供了一种基于神经网络的实体关系抽取方法，包括以下步骤：

获取待处理的句子信息；

对所述句子信息进行分词处理，得到多个单独词；

识别所述多个单独词中的实体对，每个实体对包括两个实体；

对所述句子信息进行向量化处理，得到所述句子信息对应的句子向量；

对所述句子向量进行融合处理，得到所述句子信息的多个方面的表示特征，每个所述表示特征包括多个特征向量；

对所述特征向量进行全局平均池化处理，得到每个所述特征向量对应的聚合信息；

利用两个全连接网络对所述聚合信息进行筛选处理，得到每个所述特征向量对应的筛选参数；

根据所述筛选参数判断所述特征向量是否为噪声特征，若是，则将所述特征向量屏蔽，并更新剩余的所述特征向量，得到更新后的特征向量；

根据更新后的所述特征向量，更新所述多个方面的表示特征；

对更新后的多个方面的表示特征进行降维处理，得到一个目标特征；

根据所述目标特征计算所述实体对的实体关系。

可选地，所述句子向量包括多个所述单独词的词-位置向量，所述单独词的词-位置向量包括所述单独词的词向量以及所述单独词与所述实体对的相对位置向量。

可选地，对所述句子向量进行融合处理，得到所述句子信息的多个方面的表示特征采用以下公式处理：

其中，h_i为第i个方面的所述表示特征，i的取值范围为[1,l]，l为预设次数，v为所述句子向量，d_v为构成所述句子向量的单独词的数目，

和

分别表示第i次计算时的不同的参数矩阵且分别通过神经网络训练获得。

可选地，所述降维处理包括：

将每个方面的所述表示特征分别放入卷积神经网络的一个单独通道；

对于每一所述单独通道，通过下述公式计算所述目标特征中的每个特征向量：

c_j＝f(w_f·h_(i:i+n-1)+b_f)

其中，j的取值范围为[1,m]，c_j表示所述融合特征中的第j项特征向量，m为卷积核的个数，f为非线性函数，w_f为参数矩阵，b_f为偏置参数，h_(i：i+n-1)由h_i、h_i+1、…、h_i+n-1依次连接组成，n为卷积窗口的长度，h_i表示第i个方面的所述表示特征；

根据计算得到的m个特征向量生成所述目标特征。

可选地，根据所述筛选参数判断所述特征向量是否为噪声特征，若是，则将所述特征向量屏蔽，并更新剩余的所述特征向量，得到更新后的特征向量采用以下公式处理：

其中，所述c_j表示第j项所述特征向量，所述x_j为所述c_j对应的所述更新后的特征向量，所述s_j为所述c_j对应的所述筛选参数。

可选地，根据所述目标特征计算所述实体对的实体关系包括：

获取所述目标特征包括的每个特征向量的突出特征，所述突出特征包括所述特征向量中元素的最大值和平均值；

根据所述突出特征，获取高层特征集合；

根据所述高层特征集合，利用全连接网络预测所述实体对的每个关系概率向量；

将所述关系概率向量中最大的元素对应的关系作为所述实体对的实体关系。

可选地，所述根据所述高层特征集合，利用全连接网络预测所述实体对的每个关系概率向量采用以下公式处理：

其中，y为关系概率向量，w_p为全连接网络的参数矩阵，r为符合伯努利分布的遮蔽向量，q为所述高层特征集合，b_p为偏置参数。

根据上述目的，本发明实施例还提供了一种自动问答方法，包括以下步骤：

预先建设实体信息库，所述实体信息库包括多个实体对信息，每个所述实体对信息包括两个实体以及两个实体的实体关系，所述实体关系采用上述的基于神经网络的实体关系抽取方法获取；

预先建设问答知识库，所述问答知识库包括多个知识点，每个所述知识点包括多个问题和一个答案；

获取用户的请求信息；

判断所述用户的请求信息中是否包括实体以及实体关系；

当包括一个实体和与之相关的一个实体关系时，从多个实体对信息中获取同时与所述实体及所述实体关系对应的另一个实体作为补充信息，结合所述补充信息从所述问答知识库中提取答案以发送给用户；

当包括两个实体时，从多个实体对信息中获取所述两个实体之间的实体关系作为补充信息，结合所述补充信息从所述问答知识库中提取答案；

否则，直接从所述问答知识库中提取答案以发送给用户。

根据上述目的，本发明实施例还提供了一种基于神经网络的实体关系抽取装置，包括：

输入模块，用于获取待处理的句子信息；

分词模块，用于对所述句子信息进行分词处理，得到多个单独词；

识别模块，用于识别所述多个单独词中的实体对，每个实体对包括两个实体；

向量化模块，用于对所述句子信息进行向量化处理，得到所述句子信息对应的句子向量；

融合模块，用于对所述句子向量进行融合处理，得到所述句子信息的多个方面的表示特征，每个所述表示特征包括多个特征向量；

池化模块，用于对所述特征向量进行全局平均池化处理，得到每个所述特征向量对应的聚合信息；

筛选模块，用于利用两个全连接网络对所述聚合信息进行筛选处理，得到每个所述特征向量对应的筛选参数；

去噪模块，用于根据所述筛选参数判断所述特征向量是否为噪声特征，若是，则将所述特征向量屏蔽，并更新剩余的所述特征向量，得到更新后的特征向量；

更新模块，用于根据更新后的所述特征向量，更新所述多个方面的表示特征；

降维模块，用于对更新后的多个方面的表示特征进行降维处理，得到一个目标特征；

输出模块，用于根据所述目标特征计算所述实体对的实体关系。

根据上述目的，本发明实施例还提供了一种存储介质，其上存储有计算机指令，所述计算机指令运行时执行上述方法的步骤。

根据上述目的，本发明实施例还提供了一种电子设备，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行上述方法的步骤。

与现有技术相比，本发明实施例的技术方案具有以下有益效果：在实体关系的抽取中，对待处理的句子信息依次进行分词处理、实体识别、向量化处理、融合处理、全局平均池化处理、筛选处理、更新处理和降维处理，期间通过多方面、多角度挖掘句子及句子中实体间的关系，将这种多方面多角度的表示进行融合，进而更准确更全面地进行实体关系抽取，方法简便、高效，成本低廉，且能够在不同数据领域之间进行迁移；通过增加筛选处理滤除了对实体关系预测贡献不大的噪声特征，节省了后续的计算量，提高了抽取的效率。

附图说明

图1为本发明实施例一中基于神经网络的实体关系抽取方法的流程示意图；

图2为本发明实施例二中基于神经网络的实体关系抽取装置的结构示意图；

图3为本发明实施例三中电子设备的结构示意图。

具体实施方式

如背景技术中所述，现有实体关系抽取技术的准确率比较差，且抽取效率有待提高。

为解决上述技术问题，本发明在实体关系的抽取中，对待处理的句子信息依次进行分词处理、实体识别、向量化处理、融合处理、全局平均池化处理、筛选处理、更新处理和降维处理，期间通过多方面、多角度挖掘句子及句子中实体间的关系，将这种多方面多角度的表示进行融合，进而更准确更全面地进行实体关系抽取，方法简便、高效，成本低廉，且能够在不同数据领域之间进行迁移；通过增加筛选处理滤除了对实体关系预测贡献不大的噪声特征，节省了后续的计算量，提高了抽取的效率。

为使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

实施例一

如图1所示，本实施例提供了一种基于神经网络的实体关系抽取方法，包括以下步骤：

步骤S1，获取待处理的句子信息；

步骤S2，对所述句子信息进行分词处理，得到多个单独词；

步骤S3，识别所述多个单独词中的实体对，每个实体对包括两个实体；

步骤S4，对所述句子信息进行向量化处理，得到所述句子信息对应的句子向量；

步骤S5，对所述句子向量进行融合处理，得到所述句子信息的多个方面的表示特征，每个所述表示特征包括多个特征向量；

步骤S6，对所述特征向量进行全局平均池化处理，得到每个所述特征向量对应的聚合信息；

步骤S7，利用两个全连接网络对所述聚合信息进行筛选处理，得到每个所述特征向量对应的筛选参数；

步骤S8，根据所述筛选参数判断所述特征向量是否为噪声特征，若是，则将所述特征向量屏蔽，并更新剩余的所述特征向量，得到更新后的特征向量；

步骤S9，根据更新后的所述特征向量，更新所述多个方面的表示特征；

步骤S10，对更新后的多个方面的表示特征进行降维处理，得到一个目标特征；

步骤S11，根据所述目标特征计算所述实体对的实体关系。

首先执行步骤S1，获取待处理的句子信息。

本实施例中可以采用任意可实施的方式获取待处理的句子信息(即文本信息)，例如可以从外部直接采集得到待处理的句子信息，也可以通过接口调用待处理的句子信息。具体地，待处理的句子信息可以是直接采集得到的，也可以是通过语音、图像等数据转换成文本得到的。

接着执行步骤S2，对所述句子信息进行分词处理，得到多个单独词。

本实施例通过任一种分词技术将待处理的句子信息划分为多个单独词。在分词的过程中，还可以对每个单独词进行词性标注，获得词性标注结果，如：名词、动词等。

接着执行步骤S3，识别所述多个单独词中的实体对，每个实体对包括两个实体。

本实施例中进行实体识别的方法可以采用基于规则的方法，或者基于模型的方法(例如基于隐马尔科夫模型、条件随机场或循环神经网络模型)等不同手段，在此对于如何进行实体识别不做限制，只要能够从分词结果中提取出实体词语即可，如：人名、地名、机构名、时间等。

接着执行步骤S4，对所述句子进行向量化处理，得到所述句子信息对应的句子向量。

本实施例中所述句子向量可以包括多个所述单独词的词-位置向量，所述单独词的词-位置向量包括所述单独词的词向量以及所述单独词与所述实体对的相对位置向量，具体采用下述几个步骤实现：

第一步，计算所述句子信息中所述单独词的词向量；

第二步，计算所述句子信息中所述单独词分别与所述实体对中两个实体的相对位置向量；

第三步，根据所述词向量和所述相对位置向量得到所述单独词的词-位置向量；

第四步，根据所述句子中包括的所述多个单独词的词-位置向量得到所述句子向量。

所述句子向量v可以是经由句子包含单独词的词-位置向量依次拼接组成的矩阵。句子中第i个单独词的词-位置向量v_i由它的词向量WF_i和与实体对的相对位置向量PF_i连接组成。

在计算句子中单独词的词向量WF_i时，可以根据预设的词向量模型，例如skip-gram模型来训练词向量。在词向量模型中，所有的词向量均被编码在预设的词向量矩阵

中，其中的d_w表示词向量的维度，V则为该词向量矩阵对应的固定大小的词表。

在计算句子中单独词的相对位置向量PF_i时，相对位置向量PF_i可以包括该单独词与实体对中两个实体分别的相对距离关系。即，对于实体对中的第一实体e₁和第二实体e₂，分别计算所述单独词相对于所述第一实体e₁以及所述单独词相对于第二实体e₂的相对距离。

例如，在句子“Robert Downey Jr.is the actor of Iron Man”中，有两个实体“Robert Downey Jr.(e₁)”与“Iron Man(e₂)”，对于单独词“actor”来说，它与实体e₁和e₂的相对距离分别为3和-2。

当一个句子较长时，距离实体对中某一实体较远的词语有较大概率与要预测的实体关系无关。因此，在实际计算过程中，可以对相对距离设定有效的阈值范围，即预设最小距离e_min和最大距离e_max的取值，将超出阈值范围的相对距离视作无效距离，降低与实体之间关系不大的词语在表示句子特征中的影响。

在计算单独词相对于某一实体的相对距离之后，可以判断所述相对距离是否在预设的最小距离e_min与最大距离e_max的范围之内，若所述相对距离小于所述最小距离e_min，则以所述最小距离e_min替换所述相对距离；若所述相对距离大于所述最大距离e_max，则以所述最大距离e_max替换所述相对距离。

在确定了相对距离之后，可以根据位置向量矩阵

将所述相对距离转换为向量表示，其中的d_p表示一个相对位置向量的维度，P为固定大小的相对距离集合。该位置向量矩阵V_p一般是一个随机初始化的矩阵，通过查找的方式将相对距离转换为对应的实值向量表示。

得到词向量WF_i和相对位置向量PF_i之后，可以通过将它们前后连接，得到句子中第i个单独词的词-位置向量v_i，本实施例对如何连接词向量和相对位置向量不做限制。v_i的维度为(d_w+2d_p)。

此外，在进行向量化处理之前，还可以对待处理的句子进行预处理操作，将语气词、助词、停用词等无用词滤除，再进行句向量的计算，从而在不影响准确率的情况下，可以节省后续计算量，提高抽取效率。

需要说明的是，在本发明的其它实施例中，所述句子向量可以仅通过词向量拼接而成，即此时不考虑位置向量；还可以增加考虑词性向量信息和/或实体向量信息，其都在本发明的包含范围之内，在此不再赘述。

接着执行步骤S5，对所述句子向量进行融合处理，得到所述句子信息的多个方面的表示特征，每个所述表示特征包括多个特征向量。

本实施例根据句向量提取所述句子多个方面的表示特征。传统的特征提取通常只关注句子或实体的一个方面，缺乏多角度、多方面的特征分析。而本实施例中将自注意力机制与多头机制相结合来实现对句子和实体的不同方面的表示，在多头机制中，每一“头”即表示一种方面，各“头”之间的运算参数相互独立，通过多头来自动学习句子不同方面的特征，从而使得到的句子特征更加充分和全面。

具体地，对所述句子向量进行融合处理，得到所述句子信息的多个方面的表示特征采用以下公式处理：

和

分别表示第i次计算时的不同的参数矩阵且分别通过神经网络训练获得，T为转置，softmax为softmax激活函数。

和

的维度均相同，其具体的训练方法对本领域技术人员是熟知的，在此不再赘述。

其中，预设次数l的取值在5ˉ12之间，比如：5、7、9、12等。若预设次数的取值过小，则不能很好地体现出多方面特征的效果，而预设次数的取值太大时，则会产生不必要的冗余，增加计算负担，因而发明人经过创造性的劳动发现：当选取5ˉ12种不同角度的特征表示时，所能获得的实体关系抽取效果比较理想。

上述方式的优势在于其能够将单个序列中不同位置的元素联系起来，可以很灵活地表现长距离依赖和本地依赖的情况，进而很好地描述词语间的关系，提高后续实体关系抽取的准确性。

接着执行步骤S6，对所述特征向量进行全局平均池化处理，得到每个所述特征向量对应的聚合信息。

由于所述表示特征中各特征向量对于实体关系抽取的重要性具有差异，因而采用全局平均池化的方式，将全局的特征信息聚合到一层聚合信息中，具体可以采用下面的公式，

其中，z_j为特征向量c_j对应的池化后的聚合信息，M×N为向量c_j的维度。

接着执行步骤S7，利用两个全连接网络对所述聚合信息进行筛选处理，得到每个所述特征向量对应的筛选参数。

为了限制模型的复杂度，同时将非线性矩阵引入计算，本实施例中采用了两个全连接网络来获取特征向量对应的筛选参数，以用来判断该特征向量是否为噪声特征。

为了充分利用聚合信息，并获得全局的特征依赖分布，在进行特征筛选时，需要选择一种灵活、非互斥的门限机制，以获取判断该特征向量是否为噪声的筛选参数。具体可以分别采用ReLu函数和softsign函数作为两个全连接网络的激活函数，如下述公式所示：

s_j＝softsign(W₂ReLu(W₁z_j))

其中，z_j为特征向量c_j对应的筛选参数，W₁、W₂分别为两个全连接网络的参数矩阵。采用softsign函数作为激活函数不仅能够适合各种情况的特征分布，又允许强调足够多种类的类型特征，可以将特征的筛选参数映射到-1至+1之间。

接着执行步骤S8，根据所述筛选参数判断所述特征向量是否为噪声特征，若是，则将所述特征向量屏蔽，并更新剩余的所述特征向量，得到更新后的特征向量。

具体地，采用以下公式处理：

接着执行步骤S9，根据更新后的所述特征向量，更新所述多个方面的表示特征。

本实施例中筛选过程的最终输出是通过屏蔽转换的，将被softsign函数映射为负数的特征向量转换为0向量，以达到屏蔽噪声的目的。若筛选参数s_j＝0，则无论哪种情况，最终x_j均会被转换为0向量，从而在后续步骤中，用更新后的特征向量x_j更新原本的表示特征，得到新的表示特征

用于后续实体关系抽取处理。这样一来，更新后的表示特征中，噪声特征已经被屏蔽，剩余的有价值的特征参数更加具有针对性，不仅降低了计算压力，也使得结果受到的干扰更少，提高了准确性。

接着执行步骤S10，对更新后的多个方面的表示特征进行降维处理，得到一个目标特征。

本实施例中所述降维处理可以包括：

c_j＝f(w_f·h_(i：i+n-1)+b_f)

根据计算得到的m个特征向量生成所述目标特征。

最后执行步骤S11，根据所述目标特征得到所述实体对的实体关系。

本实施例具体可以通过以下步骤得到所述实体对的实体关系：

首先，获取所述目标特征包括的每一特征向量的突出特征，所述突出特征包括所述特征向量中元素的最大值和平均值；

其次，根据所述突出特征，获取高层特征集合；

再次，根据所述高层特征集合，利用全连接网络预测所述实体对的关系概率向量；

最后，将所述关系概率向量中最大的元素对应的关系作为所述实体对的实体关系。

本实施例可以对表示特征中各特征向量进行最大池化和平均池化操作，得到突出特征，如下式所示：

即取特征向量中各元素的最大值和平均值，连接组成突出特征向量。

本实施例中将各特征向量的突出特征连接组成高层特征集合，如下式所示：

本实施例中根据所述高层特征集合，利用全连接网络得到所述实体对的关系概率向量采用以下公式处理，

其中，y为所述关系概率向量，W_p为所述全连接网络的参数矩阵，r为符合伯努利分布的遮蔽向量，q为所述高层特征集合，b_p为偏置参数，符号

表示的是两个矩阵逐元素相乘的操作。

关系概率向量中每一个元素代表了实体对之间某一种实体关系可能性的概率，其中每一坐标确定的元素预设了一种实体关系。通过上述公式可以学习得到每种可能的实体关系具体的概率值。

这里在前向传播的过程中，采用了dropout算法代替普通的向前传播的计算方式，dropout不会对代价函数进行修改，而是对深度网络本身进行调整，通过遮蔽向量r随机屏蔽掉部分神经元，因而能够有效地提升算法的泛化能力。

本实施例将关系概率向量中概率最高的元素代表的实体关系输出，作为该实体对实体关系的预测结果。

本实施例通过多方面、多角度挖掘句子及句子中实体间的关系，将这种多方面多角度的表示进行融合，进而更准确更全面地进行实体关系抽取，方法简便、高效，成本低廉，且能够在不同数据领域之间进行迁移；通过增加筛选处理滤除了对实体关系预测贡献不大的噪声特征，节省了后续的计算量，提高了抽取的效率。

实施例二

如图2所示，本实施例提供了一种基于神经网络的实体关系抽取装置，具体可以包括：

输入模块101，用于获取待处理的句子信息；

分词模块102，用于对所述句子信息进行分词处理，得到多个单独词；

识别模块103，用于识别所述多个单独词中的实体对，每个实体对包括两个实体；

向量化模块104，用于对所述句子信息进行向量化处理，得到所述句子信息对应的句子向量；

融合模块105，用于对所述句子向量进行融合处理，得到所述句子信息的多个方面的表示特征，每个所述表示特征包括多个特征向量；

池化模块106，用于对所述特征向量进行全局平均池化处理，得到每个所述特征向量对应的聚合信息；

筛选模块107，用于利用两个全连接网络对所述聚合信息进行筛选处理，得到每个所述特征向量对应的筛选参数；

去噪模块108，用于根据所述筛选参数判断所述特征向量是否为噪声特征，若是，则将所述特征向量屏蔽，并更新剩余的所述特征向量，得到更新后的特征向量；

更新模块109，用于根据更新后的所述特征向量，更新所述多个方面的表示特征；

降维模块110，用于对更新后的多个方面的表示特征进行降维处理，得到一个目标特征；

输出模块111，用于根据所述目标特征计算所述实体对的实体关系。

其中，所述句子向量包括多个所述单独词的词-位置向量，所述单独词的词-位置向量包括所述单独词的词向量以及所述单独词与所述实体对的相对位置向量。

其中，所述融合模块105可以采用以下公式处理：

和

其中，所述降维模块110的处理过程包括：

c_j＝f(w_f·h_(i:i+n-1)+b_f)

根据计算得到的m个特征向量生成所述目标特征。

其中，所述去噪模块108可以采用以下公式处理：

其中，所述c_j表示第j项所述特征向量，所述x_j为所述c_j对应的所述更新后的特征向量，所述s_j为所述c_j对应的所述筛选参数

其中，所述输出模块111的处理过程可以包括：

根据所述突出特征，获取高层特征集合；

其中，所述根据所述高层特征集合，利用全连接网络预测所述实体对的每个关系概率向量采用以下公式处理：

本实施例中输入模块101、分词模块102、识别模块103、向量化模块104、融合模块105、池化模块106、筛选模块107、去噪模块108、更新模块109、降维模块110和输出模块111的具体工作过程可以分别参考实施例一中的步骤S1、步骤S2、步骤S3、步骤S4、步骤S5、步骤S6、步骤S7、步骤S8、步骤S9、步骤S10和步骤S11，在此不再赘述。

综上，本实施例在实体关系的抽取中，对待处理的句子信息依次进行分词处理、实体识别、向量化处理、融合处理、全局平均池化处理、筛选处理、更新处理和降维处理，期间通过多方面、多角度挖掘句子及句子中实体间的关系，将这种多方面多角度的表示进行融合，进而更准确更全面地进行实体关系抽取，方法简便、高效，成本低廉，且能够在不同数据领域之间进行迁移；通过增加筛选处理滤除了对实体关系预测贡献不大的噪声特征，节省了后续的计算量，提高了抽取的效率。

实施例三

本实施例提供了一种自动问答方法，具体可以包括以下步骤：

预先建设实体信息库，所述实体信息库包括多个实体对信息，每个所述实体对信息包括两个实体以及两个实体的实体；

获取用户的请求信息；

判断所述用户的请求信息中是否包括实体以及实体关系；

否则，直接从所述问答知识库中提取答案以发送给用户。

其中，所述实体关系可以采用实施例一所述的基于神经网络的实体关系抽取方法获取，进而基于实体对及抽取的实体关系建设实体信息库，在此不再赘述。

其中，所述问答知识库既可以采用人工方式建设，也可以通过大数据和深度学习自动建设，其都在本发明的包含范围内。

需要说明的是，所述知识点中的问题可以包括一个标准问和多个扩展问，同一知识点的标准问和扩展问采用不同的表达方式表达同一语义，而标准问和所述扩展问既可以采用普通语句进行表示，也可以采用语义表达式的方式进行表示，其对于本领域的技术人员是熟知的，在此不再赘述。

其中，用户的请求信息可以通过任意途径获取，比如：获取用户的语音信息，进而对语音信息进行语音转文本处理，得到对应的文本信息作为用户的请求信息。

在获得用户的请求信息之后，可以对用户的请求信息依次进行分词处理和词性标注处理，从而获得与用户的请求信息对应的多个单独词以及每个单独词的词性。

接着，对用户的请求信息进行实体识别处理，如：用户的请求信息中单独词是否包括实体信息库中的实体，实体识别处理的具体方式并不限制。

此外，还可以对用户的请求信息进行实体关系识别处理，如：用户的请求信息中单独词是否包括实体信息库中的实体关系，实体关系识别处理的具体方式并不限制。

需要说明的是，本实施例在进行实体识别处理以及实体关系识别处理时，可以为每个实体以及实体关系分别建立对应的词类，每个词类为同一实体或实体关系的同义表达，比如：上海这一实体的词类可以包括魔都、申、沪等，妻子这一实体关系的词类可以包括老婆、娘子、夫人等，从而当用户的请求信息中包括的实体或实体关系虽然未包含在实体信息库中，但通过查找对应的词类，仍然可以在实体信息库中找到与之同义的实体或实体关系，从而提高了问答准确率。

经过上面的步骤，就可以继续判断用户的请求信息中是否包括实体以及实体关系，并针对不同情况进行不同处理：

情况一：当至少包括一个实体和与之相关的一个实体关系时，从多个实体对信息中获取同时与所述实体及所述实体关系对应的另一个实体作为补充信息，结合所述补充信息从所述问答知识库中提取答案以发送给用户。

情况二，当至少包括两个实体时，从多个实体对信息中获取所述两个实体之间的实体关系作为补充信息，结合所述补充信息从所述问答知识库中提取答案。

情况三，对于其他情况，直接从所述问答知识库中提取答案以发送给用户。

其中，当获取补充信息时，可以将获取的补充信息替换对应的一个实体和与之相关的一个实体关系或者两个实体，从而对用户的请求信息进行更新，进而根据更新后的用户请求信息从问答知识库中提取答案。

而直接根据用户的请求信息从问答知识库中提取答案或者根据更新后的用户请求信息从问答知识库中提取答案的方法对于本领域技术人员都是熟知的，本实施例对此不做限制，在此不再赘述。

最后，将提取的答案发送给用户。此时的答案还可以是一个具体的操作，其都在本发明的保护范围内。

至此，基于神经网络的实体关系抽取技术实现自动问答，提高了问答准确率，方法简便、高效，成本低廉。

实施例四

如图3所示，本实施例提供一种电子设备90，包括：一个或多个处理器91和存储器92；以及存储在存储器92中的计算机程序指令，计算机程序指令在被处理器91运行时使得处理器91执行实施例一所述的基于神经网络的实体关系抽取方法的各步骤或者实施例三所述的自动问答方法的各步骤。

需要说明的是，根据本申请实施例的基于神经网络的实体关系抽取装置可以作为一个软件模块和/或硬件模块而集成到电子设备90中，换言之，该电子设备90可以包括该基于神经网络的实体关系抽取装置。例如，该基于神经网络的实体关系抽取装置可以是该电子设备90的操作系统中的一个软件模块，或者可以是针对于其所开发的一个应用程序；当然，该基于神经网络的实体关系抽取装置同样可以是该电子设备90的众多硬件模块之一。

在其它例子中，该基于神经网络的实体关系抽取装置与该电子设备90也可以是分立的设备(例如，服务器)，并且该基于神经网络的实体关系抽取装置可以通过有线和/或无线网络连接到该电子设备90，并且按照约定的数据格式来传输交互信息。

处理器91可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备90中的其他组件以执行期望的功能。

存储器92可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器91可以运行所述程序指令，以实现上文所述的本申请的各个实施例的基于神经网络的实体关系抽取装置中的步骤以及/或者其他期望的功能。

在一个示例中，电子设备90还可以包括：输入装置93和输出装置94，这些组件通过总线系统和/或其他形式的连接机构(图3中未示出)互连。

该输出装置94可以向外部输出各种信息，例如可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图3中仅示出了该电子设备90中与本申请有关的组件中的一些，省略了诸如总线、输入装置/输出接口等组件。除此之外，根据具体应用情况，电子设备90还可以包括任何其他适当的组件。

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，包括计算机程序指令，计算机程序指令在被处理器运行时使得处理器执行如上述任一实施例的基于神经网络的实体关系抽取方法中的步骤。

计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述基于神经网络的实体关系抽取装置部分中描述的根据本申请各种实施例的基于神经网络的实体关系抽取方法中的步骤或自动问答方法的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

需要指出的是，在本申请的装置和设备中，各部件是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种基于神经网络的实体关系抽取方法，其特征在于，包括以下步骤：

获取待处理的句子信息，所述待处理的句子信息是直接采集得到的文本信息或通过语音、图像转换得到的文本信息；

对所述句子信息进行分词处理，得到多个单独词；

识别所述多个单独词中的实体对，每个实体对包括两个实体；所述实体从分词结果中提取，包括：人名、地名、机构名或时间；

预设最小距离和最大距离，在计算单独词相对于一实体的相对距离之后，判断所述相对距离是否在预设的最小距离与最大距离的范围之内，若所述相对距离小于所述最小距离，则以所述最小距离替换所述相对距离；若所述相对距离大于所述最大距离，则以所述最大距离替换所述相对距离；

利用两个全连接网络对所述聚合信息进行筛选处理，得到每个所述特征向量对应的筛选参数；具体分别采用Relu函数和softsign函数作为两个所述全连接网络的激活函数，即：s_j＝softsign(W₂ReLu(W₁z_j))，其中，z_j为特征向量c_j对应的筛选参数，W₁、W₂分别为两个全连接网络的参数矩阵；

根据所述目标特征计算所述实体对的实体关系；

所述句子向量包括多个所述单独词的词-位置向量，所述单独词的词-位置向量包括所述单独词的词向量以及所述单独词与所述实体对的相对位置向量；

对所述句子向量进行融合处理，得到所述句子信息的多个方面的表示特征采用以下公式处理：

其中，h_i为第i个方面的所述表示特征，i的取值范围为[1，l]，l为预设次数，v为所述句子向量，d_v为构成所述句子向量的单独词的数目，

和

分别表示第i次计算时的不同的参数矩阵且分别通过神经网络训练获得；所述预设次数的取值在5-12之间；

根据所述筛选参数判断所述特征向量是否为噪声特征，若是，则将所述特征向量屏蔽，并更新剩余的所述特征向量，得到更新后的特征向量采用以下公式处理：

其中，所述c_j表示第j项所述特征向量，所述x_j为所述c_j对应的所述更新后的特征向量，所述s_j为所述c_j对应的所述筛选参数；

所述降维处理包括：

c_j＝f(w_f·h_(i：i+n-1)+b_f)

其中，j的取值范围为[1，m]，c_j表示所述融合特征中的第j项特征向量，m为卷积核的个数，f为非线性函数，w_f为参数矩阵，b_f为偏置参数，h_(i：i+n-1)由h_i、h_i+1、…、h_i+n-1依次连接组成，n为卷积窗口的长度，h_i表示第i个方面的所述表示特征；

根据计算得到的m个特征向量生成所述目标特征。

2.如权利要求1所述的方法，其特征在于，根据所述目标特征计算所述实体对的实体关系包括：

根据所述突出特征，获取高层特征集合；

3.如权利要求2所述的方法，其特征在于，所述根据所述高层特征集合，利用全连接网络预测所述实体对的每个关系概率向量采用以下公式处理：

4.一种自动问答方法，其特征在于，包括以下步骤：

预先建设实体信息库，所述实体信息库包括多个实体对信息，每个所述实体对信息包括两个实体以及两个实体的实体关系，所述实体关系采用权利要求1-3中任一项所述的基于神经网络的实体关系抽取方法获取；

获取用户的请求信息；

判断所述用户的请求信息中是否包括实体以及实体关系；

否则，直接从所述问答知识库中提取答案以发送给用户。

5.一种基于神经网络的实体关系抽取装置，其特征在于，包括：

输入模块，用于获取待处理的句子信息，所述待处理的句子信息是直接采集得到的文本信息或通过语音、图像转换得到的文本信息；

识别模块，用于识别所述多个单独词中的实体对，每个实体对包括两个实体；所述实体从分词结果中提取，包括：人名、地名、机构名或时间；

向量化模块，用于对所述句子信息进行向量化处理，得到所述句子信息对应的句子向量；还用于预设最小距离和最大距离，在计算单独词相对于一实体的相对距离之后，判断所述相对距离是否在预设的最小距离与最大距离的范围之内，若所述相对距离小于所述最小距离，则以所述最小距离替换所述相对距离；若所述相对距离大于所述最大距离，则以所述最大距离替换所述相对距离；

筛选模块，用于利用两个全连接网络对所述聚合信息进行筛选处理，得到每个所述特征向量对应的筛选参数；具体分别采用Relu函数和softsign函数作为两个所述全连接网络的激活函数，即：s_j＝softsign(W₂ReLu(W₁z_j))，其中，z_j为特征向量c_j对应的筛选参数，W₁、W₂分别为两个全连接网络的参数矩阵；

输出模块，用于根据所述目标特征计算所述实体对的实体关系；

所述融合模块采用以下公式处理：

和

所述去噪模块采用以下公式处理：

所述降维处理包括：

c_j＝f(w_f·h_(i：i+n-1)+b_f)

根据计算得到的m个特征向量生成所述目标特征。

6.一种存储介质，其上存储有计算机指令，其特征在于，所述计算机指令运行时执行如权利要求1至4任一项所述方法的步骤。

7.一种电子设备，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机指令，其特征在于，所述处理器运行所述计算机指令时执行如权利要求1至4任一项所述方法的步骤。