CN111178039A

CN111178039A - 一种模型训练方法、装置、实现文本处理的方法及装置

Info

Publication number: CN111178039A
Application number: CN201911309483.2A
Authority: CN
Inventors: 李嘉琛; 付骁弈; 陈栋; 姜旭
Original assignee: Beijing Mininglamp Software System Co ltd
Current assignee: Beijing Mininglamp Software System Co ltd
Priority date: 2019-12-18
Filing date: 2019-12-18
Publication date: 2020-05-19
Anticipated expiration: 2039-12-18
Also published as: CN111178039B

Abstract

一种模型训练方法、装置、实现文本处理的方法及装置，包括：将样本文本根据依存关系信息表示为样本依存关系编码；以样本文本包含的词语的特征向量为节点，将样本文本表示为样本矩阵；将样本矩阵及其邻接矩阵，通过初始化运行参数的图神经网络模型进行训练，获得样本依存关系编码中的依存词向量和从属词向量；以正样本和配置的负样本为图神经网络模型的输入，利用反向传播方法进行训练，确定图神经网络模型的运行参数矩阵；根据确定运行参数矩阵的图神经网络模型，对输入的待处理文本进行处理。本发明实施例在对文本进行处理的模型中加入依存关系信息，提升了文本内容的特征表示效率。

Description

一种模型训练方法、装置、实现文本处理的方法及装置

技术领域

本文涉及但不限于信息处理技术，尤指一种模型训练方法、装置、实现文本处理的方法及装置。

背景技术

自然语言处理中最重要的一步是将文本表示为一个特征向量，通过特征向量进行文本相似度、分类等任务；文本的特征向量由文本包含词语的语义转换获得，而自然语言是由语法组织成，通过特征向量进行文本分析会丢失一部分语法中的信息；一些文本分析模型会加入词语的位置信息来表达词语间关系，但仍然会丢失词语间的相互关系。如何更为有效的对文本内容进行表示，成为一个有待解决的问题。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本发明实施例提供一种模型训练方法、装置、实现文本处理的方法及装置，能够提升文本内容的特征表示效率。

本发明实施例提供了一种模型训练方法，包括：

将样本文本根据依存关系信息表示为预设格式的样本依存关系编码；

以样本文本包含的词语的特征向量为节点，将样本文本表示为样本矩阵；

将样本矩阵及其邻接矩阵，通过初始化运行参数的图神经网络模型进行训练，获得样本依存关系编码中的依存词向量和从属词向量；

以正样本和按照预设策略配置的负样本为图神经网络模型的输入，利用反向传播方法进行训练，确定图神经网络模型的运行参数矩阵；

根据确定的运行参数矩阵，获得用于对待处理文本进行文本特征处理的模型；

其中，所述样本依存关系编码包括：由依存词向量、用于标识依存关系及类别的对角矩阵及从属词向量构建的编码；所述正样本包括：包含所述样本文本词语间的依存关系信息的样本；所述负样本包括：对所述正样本按预设策略进行编辑获得的样本。

在一种示例性实施例中，所述样本依存关系编码的表达式为：

其中，所述

是基于支配词编码的所述支配词向量，所述e_d是基于从属词编码的所述从属词向量。

在一种示例性实施例中，所述确定图神经网络模型的运行参数包括：

基于预设的交叉熵损失函数，确定所述图神经网络模型的运行参数；

其中，所述交叉熵损失函数包括：基于初始化对角矩阵后确定的样本依存关系编码构建的函数。

在一种示例性实施例中，所述交叉熵损失函数包括：

其中，所述ω表示所述负样本的个数，所述|E|为所述样本文本中依存关系的个数；所述y为信号函数，所述图神经网络输入为所述正样本时取值为1，所述图神经网络输入为所述负样本时取值为0；l(·)为激活函数。

在一种示例性实施例中，所述图神经网络模型包含：输入层、一层或一层以上隐藏层和输出层；其中，

所述输入层接收的输入包括：H⁽⁰⁾＝X；

所述隐藏层的处理函数包括：H^(l+1)＝σ(AH^(l)W^(l))；

所述输出层的输出包括：H_L＝Z；

其中，所述X为所述样本矩阵；所述A为所述样本矩阵的邻接矩阵；所述H^(l)为在上一层隐藏层的处理结果，所述l为0时，所述H^(l)为第一矩阵；所述σ(·)为激活函数；所述W^(l)为所述运行参数矩阵；所述Z为输出矩阵。

另一方面，本发明实施例还提供一种实现文本处理的方法，包括：

根据确定运行参数矩阵的图神经网络模型，对输入的待处理文本进行处理；

再一方面，本发明实施例还提供一种模型训练装置，包括：

编码单元、矩阵单元、向量训练单元、参数训练单元及模型单元；其中，

编码单元用于：将样本文本根据依存关系信息表示为预设格式的样本依存关系编码；

矩阵单元用于：以样本文本包含的词语的特征向量为节点，将样本文本表示为样本矩阵；

向量训练单元用于：将样本矩阵及其邻接矩阵，通过初始化运行参数的图神经网络模型进行训练，获得样本依存关系编码中的依存词向量和从属词向量；

参数训练单元用于：以正样本和按照预设策略配置的负样本为图神经网络模型的输入，利用反向传播方法进行训练，确定图神经网络模型的运行参数矩阵；

模型单元用于：根据确定的运行参数矩阵，获得用于对待处理文本进行文本特征处理的模型；

其中，所述

在一种示例性实施例中，所述参数训练单元用于确定图神经网络模型的运行参数包括：

还一方面，本发明实施例还提供一种实现文本处理的装置，包括：编码单元、矩阵单元、向量训练单元、参数训练单元及处理单元；其中，

处理单元用于：根据确定运行参数矩阵的图神经网络模型，对输入的待处理文本进行处理；

与相关技术相比，本申请技术方案包括：将样本文本根据依存关系信息表示为预设格式的样本依存关系编码；以样本文本包含的词语的特征向量为节点，将样本文本表示为样本矩阵；将样本矩阵及其邻接矩阵，通过初始化运行参数的图神经网络模型进行训练，获得样本依存关系编码中的依存词向量和从属词向量；以正样本和按照预设策略配置的负样本为图神经网络模型的输入，利用反向传播方法进行训练，确定图神经网络模型的运行参数矩阵；根据确定运行参数矩阵的图神经网络模型，对输入的待处理文本进行处理。其中，所述样本依存关系编码包括：由依存词向量、用于标识依存关系及类别的对角矩阵及从属词向量构建的编码；所述正样本包括：包含所述样本文本词语间的依存关系信息的样本；所述负样本包括：对所述正样本按预设策略进行编辑获得的样本。本发明实施例在对文本进行处理的模型中加入依存关系信息，提升了文本内容的特征表示效率。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1为本发明实施例模型训练方法的流程图；

图2为本发明实施例实现文本处理的方法的流程图；

图3为本发明实施例模型训练装置的结构框图；

图4为本发明实施例实现文本处理的装置的结构框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下文中将结合附图对本发明的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1为本发明实施例模型训练方法的流程图，如图1所示，包括：

步骤101、将样本文本根据依存关系信息表示为预设格式的样本依存关系编码；

需要说明的是，本发明实施例可以参照已有的依据句法分析方法获得依存关系信息。依存关系表示支配词和从属词之间的关系，包括但不限于：主谓关系、介宾关系、形容词性修饰关系等。参照相关原理，除根节点的词只有从属词外，每一个分词都有且只有一个支配词。依存关系表示支配词和从属词之间的关系，例如主谓关系、介宾关系、形容词性修饰关系等。本发明实施例可以通过已有的基础自然语言处理工具(例如斯坦福核心(StanfordCore)自然语言处理(NLP)等)。

其中，所述样本依存关系编码包括：由依存词向量、用于标识依存关系及类别的对角矩阵及从属词向量构建的编码；

其中，所述

步骤102、以样本文本包含的词语的特征向量为节点，将样本文本表示为样本矩阵；

需要说明的是，本发明实施例可以通过预训练语言模型对样本文本分词获得的词语进行处理，获得每一个词语的特征向量，预训练的语言模型包括相关技术中已有的语言分析模型。本发明实施例样本矩阵包括：将节点根据特征向量编码的N*D的矩阵；其中，N表示节点的数量，D表示特征向量的维度，D可以根据预训练的语言模型确定。

在一种示例性实施例中，本发明实施例可以参照相关技术计算样本矩阵的邻近矩阵；此外，邻接矩阵是一种二维矩阵；如果两个节点邻接(两个词语之间具有依存关系)，本发明实施例设定矩阵对应位置为1，如果两个节点不邻接，设定矩阵对应位置为0。

步骤103、将样本矩阵及其邻接矩阵，通过初始化运行参数的图神经网络模型进行训练，获得样本依存关系编码中的依存词向量和从属词向量；

所述输入层接收的输入包括：H⁽⁰⁾＝X；

所述隐藏层的处理函数包括：H^(l+1)＝σ(AH^(l)W^(l))；

所述输出层的输出包括：H_L＝Z；

在一种示例性实施例中，本发明实施例可以通过调节图神经网络模型参数的维度设置输出矩阵的维度。

在一种示例性实施例中，本发明实施例激活函数σ(·)可以是线性整流函数(ReLU)：

步骤104、以正样本和按照预设策略配置的负样本为图神经网络模型的输入，利用反向传播方法进行训练，确定图神经网络模型的运行参数矩阵；

所述正样本包括：包含所述样本文本词语间的依存关系信息的样本；所述负样本包括：对所述正样本按预设策略进行编辑获得的样本。

在一种示例性实施例中，本发明实施例可以以文本的依存关系信息中的支配词、从属词及依存关系作为正样本；负样本可以包括：以错误词语作为从属词和/或支配词后组成的样本。

在一种示例性实施例中，所述交叉熵损失函数包括：

其中，所述ω表示所述负样本的个数，所述|E|为所述样本文本中依存关系的个数；所述y为信号函数，所述图神经网络输入为所述正样本时取值为1，所述图神经网络输入为所述负样本时取值为0；l(·)为激活函数。在一种示例性实施例中，激活函数l(·)可以取S形函数(Sigmoid函数)

本发明实施例使用交叉熵损失函数进行模型参数训练时，主要以提高正样本的得分并且降低负样本的得分作为参考，具体可以根据交叉熵损失函数的输出进行表征确定。

步骤105、根据确定的运行参数矩阵，获得用于对待处理文本进行文本特征处理的模型；

与相关技术相比，本申请技术方案包括：将样本文本根据依存关系信息表示为预设格式的样本依存关系编码；以样本文本包含的词语的特征向量为节点，将样本文本表示为样本矩阵；将样本矩阵及其邻接矩阵，通过初始化运行参数的图神经网络模型进行训练，获得样本依存关系编码中的依存词向量和从属词向量；以正样本和按照预设策略配置的负样本为图神经网络模型的输入，利用反向传播方法进行训练，确定图神经网络模型的运行参数矩阵；根据确定的运行参数矩阵，获得用于对待处理文本进行文本特征处理的模型。其中，所述样本依存关系编码包括：由依存词向量、用于标识依存关系及类别的对角矩阵及从属词向量构建的编码；所述正样本包括：包含所述样本文本词语间的依存关系信息的样本；所述负样本包括：对所述正样本按预设策略进行编辑获得的样本。本发明实施例实现了提升文本内容的特征表示效率的模型的训练，为提升文本内容的特征表示效率提供了技术基础。

图2为本发明实施例实现文本处理的方法的流程图，如图2所示，包括：

步骤201、将样本文本根据依存关系信息表示为预设格式的样本依存关系编码；

其中，所述

步骤202、以样本文本包含的词语的特征向量为节点，将样本文本表示为样本矩阵；

步骤203、将样本矩阵及其邻接矩阵，通过初始化运行参数的图神经网络模型进行训练，获得样本依存关系编码中的依存词向量和从属词向量；

所述输入层接收的输入包括：H⁽⁰⁾＝X；

所述隐藏层的处理函数包括：H^(l+1)＝σ(AH^(l)W^(l))；

所述输出层的输出包括：H_L＝Z；

其中，所述X为所述样本矩阵；所述A为所述样本矩阵的邻接矩阵；所述H^(l)为在上一层隐藏层的处理结果，所述l为0时，所述H⁽¹⁾为第一矩阵；所述σ(·)为激活函数；所述W⁽¹⁾为所述运行参数矩阵；所述Z为输出矩阵。

需要说明的是，本发明实施例样本依存关系编码中的依存词向量和从属词向量可以通过初始化W⁽¹⁾的图神经网络模型输出的Z中得到。

步骤204、以正样本和按照预设策略配置的负样本为图神经网络模型的输入，利用反向传播方法进行训练，确定图神经网络模型的运行参数矩阵；

其中，所述正样本包括：包含所述样本文本词语间的依存关系信息的样本；所述负样本包括：对所述正样本按预设策略进行编辑获得的样本。

在一种示例性实施例中，所述交叉熵损失函数包括：

在一种示例性实施例中，激活函数l(·)可以取S形函数(Sigmoid函数)

步骤205、根据确定运行参数矩阵的图神经网络模型，对输入的待处理文本进行处理；

在一种示例性实施例中，本发明实施例对输入的待处理文本进行处理，包括：将待处理文本按照样本文本整理为样本矩阵的方式，整理为待处理矩阵；计算待处理矩阵的邻近矩阵；将待处理矩阵及其邻近矩阵通过图神经网络模型的输入层、掩藏层及输出层处理后，获得待处理文本的特征矩阵Z。

图3为本发明实施例模型训练装置的结构框图，如图3所示，包括：

其中，所述

在一种示例性实施例中，所述交叉熵损失函数包括：

其中，所述ω表示所述负样本的个数，所述|E|为所述样本文本中依存关系的个数；y为信号函数，所述图神经网络输入为所述正样本时取值为1，所述图神经网络输入为所述负样本时取值为0；l(·)为激活函数。在一种示例性实施例中，激活函数l(·)可以取S形函数(Sigmoid函数)

所述输入层接收的输入包括：H⁽⁰⁾＝X；

所述隐藏层的处理函数包括：H^(l+1)＝σ(AH^(l)W^(l))；

所述输出层的输出包括：H_L＝Z；

图4为本发明实施例实现文本处理的装置的结构框图，如图4所示，包括：编码单元、矩阵单元、向量训练单元、参数训练单元及处理单元；其中，

其中，所述

在一种示例性实施例中，所述交叉熵损失函数包括：

所述输入层接收的输入包括：H⁽⁰⁾＝X；

所述隐藏层的处理函数包括：H^(l+1)＝σ(AH^(l)W^(l))；

所述输出层的输出包括：H_L＝Z；

本发明实施例还提供一种计算机存储介质，所述计算机存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现上述模型训练方法。

本发明实施例还提供一种终端，包括：存储器和处理器，所述存储中保存有计算机程序；其中，

处理器被配置为执行存储器中的计算机程序；

所述计算机程序被所述处理器执行时实现如上述模型训练方法。

本发明实施例还提供一种计算机存储介质，所述计算机存储介质中存储有计算机程序，所述计算机程序被处理器执行上述实现文本处理的方法。

处理器被配置为执行存储器中的计算机程序；

所述计算机程序被所述处理器执行上述实现文本处理的方法。

“本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器，如数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。”