CN111178039B - 一种模型训练方法、装置、实现文本处理的方法及装置 - Google Patents
一种模型训练方法、装置、实现文本处理的方法及装置 Download PDFInfo
- Publication number
- CN111178039B CN111178039B CN201911309483.2A CN201911309483A CN111178039B CN 111178039 B CN111178039 B CN 111178039B CN 201911309483 A CN201911309483 A CN 201911309483A CN 111178039 B CN111178039 B CN 111178039B
- Authority
- CN
- China
- Prior art keywords
- sample
- matrix
- dependency
- text
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 83
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000003672 processing method Methods 0.000 title abstract description 3
- 239000011159 matrix material Substances 0.000 claims abstract description 208
- 239000013598 vector Substances 0.000 claims abstract description 124
- 238000003062 neural network model Methods 0.000 claims abstract description 95
- 238000012545 processing Methods 0.000 claims abstract description 61
- 230000001419 dependent effect Effects 0.000 claims abstract description 52
- 230000006870 function Effects 0.000 claims description 90
- 230000004913 activation Effects 0.000 claims description 22
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 230000009131 signaling function Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 description 10
- 238000012512 characterization method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Abstract
一种模型训练方法、装置、实现文本处理的方法及装置,包括:将样本文本根据依存关系信息表示为样本依存关系编码;以样本文本包含的词语的特征向量为节点,将样本文本表示为样本矩阵;将样本矩阵及其邻接矩阵,通过初始化运行参数的图神经网络模型进行训练,获得样本依存关系编码中的依存词向量和从属词向量;以正样本和配置的负样本为图神经网络模型的输入,利用反向传播方法进行训练,确定图神经网络模型的运行参数矩阵;根据确定运行参数矩阵的图神经网络模型,对输入的待处理文本进行处理。本发明实施例在对文本进行处理的模型中加入依存关系信息,提升了文本内容的特征表示效率。
Description
技术领域
本文涉及但不限于信息处理技术,尤指一种模型训练方法、装置、实现文本处理的方法及装置。
背景技术
自然语言处理中最重要的一步是将文本表示为一个特征向量,通过特征向量进行文本相似度、分类等任务;文本的特征向量由文本包含词语的语义转换获得,而自然语言是由语法组织成,通过特征向量进行文本分析会丢失一部分语法中的信息;一些文本分析模型会加入词语的位置信息来表达词语间关系,但仍然会丢失词语间的相互关系。如何更为有效的对文本内容进行表示,成为一个有待解决的问题。
发明内容
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
本发明实施例提供一种模型训练方法、装置、实现文本处理的方法及装置,能够提升文本内容的特征表示效率。
本发明实施例提供了一种模型训练方法,包括:
将样本文本根据依存关系信息表示为预设格式的样本依存关系编码;
以样本文本包含的词语的特征向量为节点,将样本文本表示为样本矩阵;
将样本矩阵及其邻接矩阵,通过初始化运行参数的图神经网络模型进行训练,获得样本依存关系编码中的依存词向量和从属词向量;
以正样本和按照预设策略配置的负样本为图神经网络模型的输入,利用反向传播方法进行训练,确定图神经网络模型的运行参数矩阵;
根据确定的运行参数矩阵,获得用于对待处理文本进行文本特征处理的模型;
其中,所述样本依存关系编码包括:由依存词向量、用于标识依存关系及类别的对角矩阵及从属词向量构建的编码;所述正样本包括:包含所述样本文本词语间的依存关系信息的样本;所述负样本包括:对所述正样本按预设策略进行编辑获得的样本。
在一种示例性实施例中,所述样本依存关系编码的表达式为:
在一种示例性实施例中,所述确定图神经网络模型的运行参数包括:
基于预设的交叉熵损失函数,确定所述图神经网络模型的运行参数;
其中,所述交叉熵损失函数包括:基于初始化对角矩阵后确定的样本依存关系编码构建的函数。
在一种示例性实施例中,所述交叉熵损失函数包括:
其中,所述ω表示所述负样本的个数,所述|E|为所述样本文本中依存关系的个数;所述y为信号函数,所述图神经网络输入为所述正样本时取值为1,所述图神经网络输入为所述负样本时取值为0;l(·)为激活函数。
在一种示例性实施例中,所述图神经网络模型包含:输入层、一层或一层以上隐藏层和输出层;其中,
所述输入层接收的输入包括:H(0)=X;
所述隐藏层的处理函数包括:H(l+1)=σ(AH(l)W(l));
所述输出层的输出包括:HL=Z;
其中,所述X为所述样本矩阵;所述A为所述样本矩阵的邻接矩阵;所述H(l)为在上一层隐藏层的处理结果,所述l为0时,所述H(l)为第一矩阵;所述σ(·)为激活函数;所述W(l)为所述运行参数矩阵;所述Z为输出矩阵。
另一方面,本发明实施例还提供一种实现文本处理的方法,包括:
将样本文本根据依存关系信息表示为预设格式的样本依存关系编码;
以样本文本包含的词语的特征向量为节点,将样本文本表示为样本矩阵;
将样本矩阵及其邻接矩阵,通过初始化运行参数的图神经网络模型进行训练,获得样本依存关系编码中的依存词向量和从属词向量;
以正样本和按照预设策略配置的负样本为图神经网络模型的输入,利用反向传播方法进行训练,确定图神经网络模型的运行参数矩阵;
根据确定运行参数矩阵的图神经网络模型,对输入的待处理文本进行处理;
其中,所述样本依存关系编码包括:由依存词向量、用于标识依存关系及类别的对角矩阵及从属词向量构建的编码;所述正样本包括:包含所述样本文本词语间的依存关系信息的样本;所述负样本包括:对所述正样本按预设策略进行编辑获得的样本。
再一方面,本发明实施例还提供一种模型训练装置,包括:
编码单元、矩阵单元、向量训练单元、参数训练单元及模型单元;其中,
编码单元用于:将样本文本根据依存关系信息表示为预设格式的样本依存关系编码;
矩阵单元用于:以样本文本包含的词语的特征向量为节点,将样本文本表示为样本矩阵;
向量训练单元用于:将样本矩阵及其邻接矩阵,通过初始化运行参数的图神经网络模型进行训练,获得样本依存关系编码中的依存词向量和从属词向量;
参数训练单元用于:以正样本和按照预设策略配置的负样本为图神经网络模型的输入,利用反向传播方法进行训练,确定图神经网络模型的运行参数矩阵;
模型单元用于:根据确定的运行参数矩阵,获得用于对待处理文本进行文本特征处理的模型;
其中,所述样本依存关系编码包括:由依存词向量、用于标识依存关系及类别的对角矩阵及从属词向量构建的编码;所述正样本包括:包含所述样本文本词语间的依存关系信息的样本;所述负样本包括:对所述正样本按预设策略进行编辑获得的样本。
在一种示例性实施例中,所述样本依存关系编码的表达式为:
在一种示例性实施例中,所述参数训练单元用于确定图神经网络模型的运行参数包括:
基于预设的交叉熵损失函数,确定所述图神经网络模型的运行参数;
其中,所述交叉熵损失函数包括:基于初始化对角矩阵后确定的样本依存关系编码构建的函数。
还一方面,本发明实施例还提供一种实现文本处理的装置,包括:编码单元、矩阵单元、向量训练单元、参数训练单元及处理单元;其中,
编码单元用于:将样本文本根据依存关系信息表示为预设格式的样本依存关系编码;
矩阵单元用于:以样本文本包含的词语的特征向量为节点,将样本文本表示为样本矩阵;
向量训练单元用于:将样本矩阵及其邻接矩阵,通过初始化运行参数的图神经网络模型进行训练,获得样本依存关系编码中的依存词向量和从属词向量;
参数训练单元用于:以正样本和按照预设策略配置的负样本为图神经网络模型的输入,利用反向传播方法进行训练,确定图神经网络模型的运行参数矩阵;
处理单元用于:根据确定运行参数矩阵的图神经网络模型,对输入的待处理文本进行处理;
其中,所述样本依存关系编码包括:由依存词向量、用于标识依存关系及类别的对角矩阵及从属词向量构建的编码;所述正样本包括:包含所述样本文本词语间的依存关系信息的样本;所述负样本包括:对所述正样本按预设策略进行编辑获得的样本。
与相关技术相比,本申请技术方案包括:将样本文本根据依存关系信息表示为预设格式的样本依存关系编码;以样本文本包含的词语的特征向量为节点,将样本文本表示为样本矩阵;将样本矩阵及其邻接矩阵,通过初始化运行参数的图神经网络模型进行训练,获得样本依存关系编码中的依存词向量和从属词向量;以正样本和按照预设策略配置的负样本为图神经网络模型的输入,利用反向传播方法进行训练,确定图神经网络模型的运行参数矩阵;根据确定运行参数矩阵的图神经网络模型,对输入的待处理文本进行处理。其中,所述样本依存关系编码包括:由依存词向量、用于标识依存关系及类别的对角矩阵及从属词向量构建的编码;所述正样本包括:包含所述样本文本词语间的依存关系信息的样本;所述负样本包括:对所述正样本按预设策略进行编辑获得的样本。本发明实施例在对文本进行处理的模型中加入依存关系信息,提升了文本内容的特征表示效率。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1为本发明实施例模型训练方法的流程图;
图2为本发明实施例实现文本处理的方法的流程图;
图3为本发明实施例模型训练装置的结构框图;
图4为本发明实施例实现文本处理的装置的结构框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1为本发明实施例模型训练方法的流程图,如图1所示,包括:
步骤101、将样本文本根据依存关系信息表示为预设格式的样本依存关系编码;
需要说明的是,本发明实施例可以参照已有的依据句法分析方法获得依存关系信息。依存关系表示支配词和从属词之间的关系,包括但不限于:主谓关系、介宾关系、形容词性修饰关系等。参照相关原理,除根节点的词只有从属词外,每一个分词都有且只有一个支配词。依存关系表示支配词和从属词之间的关系,例如主谓关系、介宾关系、形容词性修饰关系等。本发明实施例可以通过已有的基础自然语言处理工具(例如斯坦福核心(StanfordCore)自然语言处理(NLP)等)。
其中,所述样本依存关系编码包括:由依存词向量、用于标识依存关系及类别的对角矩阵及从属词向量构建的编码;
在一种示例性实施例中,所述样本依存关系编码的表达式为:
步骤102、以样本文本包含的词语的特征向量为节点,将样本文本表示为样本矩阵;
需要说明的是,本发明实施例可以通过预训练语言模型对样本文本分词获得的词语进行处理,获得每一个词语的特征向量,预训练的语言模型包括相关技术中已有的语言分析模型。本发明实施例样本矩阵包括:将节点根据特征向量编码的N*D的矩阵;其中,N表示节点的数量,D表示特征向量的维度,D可以根据预训练的语言模型确定。
在一种示例性实施例中,本发明实施例可以参照相关技术计算样本矩阵的邻近矩阵;此外,邻接矩阵是一种二维矩阵;如果两个节点邻接(两个词语之间具有依存关系),本发明实施例设定矩阵对应位置为1,如果两个节点不邻接,设定矩阵对应位置为0。
步骤103、将样本矩阵及其邻接矩阵,通过初始化运行参数的图神经网络模型进行训练,获得样本依存关系编码中的依存词向量和从属词向量;
在一种示例性实施例中,所述图神经网络模型包含:输入层、一层或一层以上隐藏层和输出层;其中,
所述输入层接收的输入包括:H(0)=X;
所述隐藏层的处理函数包括:H(l+1)=σ(AH(l)W(l));
所述输出层的输出包括:HL=Z;
其中,所述X为所述样本矩阵;所述A为所述样本矩阵的邻接矩阵;所述H(l)为在上一层隐藏层的处理结果,所述l为0时,所述H(l)为第一矩阵;所述σ(·)为激活函数;所述W(l)为所述运行参数矩阵;所述Z为输出矩阵。
在一种示例性实施例中,本发明实施例可以通过调节图神经网络模型参数的维度设置输出矩阵的维度。
在一种示例性实施例中,本发明实施例激活函数σ(·)可以是线性整流函数(ReLU):
步骤104、以正样本和按照预设策略配置的负样本为图神经网络模型的输入,利用反向传播方法进行训练,确定图神经网络模型的运行参数矩阵;
所述正样本包括:包含所述样本文本词语间的依存关系信息的样本;所述负样本包括:对所述正样本按预设策略进行编辑获得的样本。
在一种示例性实施例中,本发明实施例可以以文本的依存关系信息中的支配词、从属词及依存关系作为正样本;负样本可以包括:以错误词语作为从属词和/或支配词后组成的样本。
在一种示例性实施例中,所述确定图神经网络模型的运行参数包括:
基于预设的交叉熵损失函数,确定所述图神经网络模型的运行参数;
其中,所述交叉熵损失函数包括:基于初始化对角矩阵后确定的样本依存关系编码构建的函数。
在一种示例性实施例中,所述交叉熵损失函数包括:
其中,所述ω表示所述负样本的个数,所述|E|为所述样本文本中依存关系的个数;所述y为信号函数,所述图神经网络输入为所述正样本时取值为1,所述图神经网络输入为所述负样本时取值为0;l(·)为激活函数。在一种示例性实施例中,激活函数l(·)可以取S形函数(Sigmoid函数)
本发明实施例使用交叉熵损失函数进行模型参数训练时,主要以提高正样本的得分并且降低负样本的得分作为参考,具体可以根据交叉熵损失函数的输出进行表征确定。
步骤105、根据确定的运行参数矩阵,获得用于对待处理文本进行文本特征处理的模型;
与相关技术相比,本申请技术方案包括:将样本文本根据依存关系信息表示为预设格式的样本依存关系编码;以样本文本包含的词语的特征向量为节点,将样本文本表示为样本矩阵;将样本矩阵及其邻接矩阵,通过初始化运行参数的图神经网络模型进行训练,获得样本依存关系编码中的依存词向量和从属词向量;以正样本和按照预设策略配置的负样本为图神经网络模型的输入,利用反向传播方法进行训练,确定图神经网络模型的运行参数矩阵;根据确定的运行参数矩阵,获得用于对待处理文本进行文本特征处理的模型。其中,所述样本依存关系编码包括:由依存词向量、用于标识依存关系及类别的对角矩阵及从属词向量构建的编码;所述正样本包括:包含所述样本文本词语间的依存关系信息的样本;所述负样本包括:对所述正样本按预设策略进行编辑获得的样本。本发明实施例实现了提升文本内容的特征表示效率的模型的训练,为提升文本内容的特征表示效率提供了技术基础。
图2为本发明实施例实现文本处理的方法的流程图,如图2所示,包括:
步骤201、将样本文本根据依存关系信息表示为预设格式的样本依存关系编码;
其中,所述样本依存关系编码包括:由依存词向量、用于标识依存关系及类别的对角矩阵及从属词向量构建的编码;
在一种示例性实施例中,所述样本依存关系编码的表达式为:
步骤202、以样本文本包含的词语的特征向量为节点,将样本文本表示为样本矩阵;
步骤203、将样本矩阵及其邻接矩阵,通过初始化运行参数的图神经网络模型进行训练,获得样本依存关系编码中的依存词向量和从属词向量;
在一种示例性实施例中,所述图神经网络模型包含:输入层、一层或一层以上隐藏层和输出层;其中,
所述输入层接收的输入包括:H(0)=X;
所述隐藏层的处理函数包括:H(l+1)=σ(AH(l)W(l));
所述输出层的输出包括:HL=Z;
其中,所述X为所述样本矩阵;所述A为所述样本矩阵的邻接矩阵;所述H(l)为在上一层隐藏层的处理结果,所述l为0时,所述H(1)为第一矩阵;所述σ(·)为激活函数;所述W(1)为所述运行参数矩阵;所述Z为输出矩阵。
需要说明的是,本发明实施例样本依存关系编码中的依存词向量和从属词向量可以通过初始化W(1)的图神经网络模型输出的Z中得到。
在一种示例性实施例中,本发明实施例可以通过调节图神经网络模型参数的维度设置输出矩阵的维度。
在一种示例性实施例中,本发明实施例激活函数σ(·)可以是线性整流函数(ReLU):
步骤204、以正样本和按照预设策略配置的负样本为图神经网络模型的输入,利用反向传播方法进行训练,确定图神经网络模型的运行参数矩阵;
其中,所述正样本包括:包含所述样本文本词语间的依存关系信息的样本;所述负样本包括:对所述正样本按预设策略进行编辑获得的样本。
在一种示例性实施例中,所述确定图神经网络模型的运行参数包括:
基于预设的交叉熵损失函数,确定所述图神经网络模型的运行参数;
其中,所述交叉熵损失函数包括:基于初始化对角矩阵后确定的样本依存关系编码构建的函数。
在一种示例性实施例中,所述交叉熵损失函数包括:
其中,所述ω表示所述负样本的个数,所述|E|为所述样本文本中依存关系的个数;所述y为信号函数,所述图神经网络输入为所述正样本时取值为1,所述图神经网络输入为所述负样本时取值为0;l(·)为激活函数。
本发明实施例使用交叉熵损失函数进行模型参数训练时,主要以提高正样本的得分并且降低负样本的得分作为参考,具体可以根据交叉熵损失函数的输出进行表征确定。
步骤205、根据确定运行参数矩阵的图神经网络模型,对输入的待处理文本进行处理;
在一种示例性实施例中,本发明实施例对输入的待处理文本进行处理,包括:将待处理文本按照样本文本整理为样本矩阵的方式,整理为待处理矩阵;计算待处理矩阵的邻近矩阵;将待处理矩阵及其邻近矩阵通过图神经网络模型的输入层、掩藏层及输出层处理后,获得待处理文本的特征矩阵Z。
与相关技术相比,本申请技术方案包括:将样本文本根据依存关系信息表示为预设格式的样本依存关系编码;以样本文本包含的词语的特征向量为节点,将样本文本表示为样本矩阵;将样本矩阵及其邻接矩阵,通过初始化运行参数的图神经网络模型进行训练,获得样本依存关系编码中的依存词向量和从属词向量;以正样本和按照预设策略配置的负样本为图神经网络模型的输入,利用反向传播方法进行训练,确定图神经网络模型的运行参数矩阵;根据确定运行参数矩阵的图神经网络模型,对输入的待处理文本进行处理。其中,所述样本依存关系编码包括:由依存词向量、用于标识依存关系及类别的对角矩阵及从属词向量构建的编码;所述正样本包括:包含所述样本文本词语间的依存关系信息的样本;所述负样本包括:对所述正样本按预设策略进行编辑获得的样本。本发明实施例在对文本进行处理的模型中加入依存关系信息,提升了文本内容的特征表示效率。
图3为本发明实施例模型训练装置的结构框图,如图3所示,包括:
编码单元、矩阵单元、向量训练单元、参数训练单元及模型单元;其中,
编码单元用于:将样本文本根据依存关系信息表示为预设格式的样本依存关系编码;
矩阵单元用于:以样本文本包含的词语的特征向量为节点,将样本文本表示为样本矩阵;
向量训练单元用于:将样本矩阵及其邻接矩阵,通过初始化运行参数的图神经网络模型进行训练,获得样本依存关系编码中的依存词向量和从属词向量;
参数训练单元用于:以正样本和按照预设策略配置的负样本为图神经网络模型的输入,利用反向传播方法进行训练,确定图神经网络模型的运行参数矩阵;
模型单元用于:根据确定的运行参数矩阵,获得用于对待处理文本进行文本特征处理的模型;
其中,所述样本依存关系编码包括:由依存词向量、用于标识依存关系及类别的对角矩阵及从属词向量构建的编码;所述正样本包括:包含所述样本文本词语间的依存关系信息的样本;所述负样本包括:对所述正样本按预设策略进行编辑获得的样本。
在一种示例性实施例中,所述样本依存关系编码的表达式为:
在一种示例性实施例中,所述确定图神经网络模型的运行参数包括:
基于预设的交叉熵损失函数,确定所述图神经网络模型的运行参数;
其中,所述交叉熵损失函数包括:基于初始化对角矩阵后确定的样本依存关系编码构建的函数。
在一种示例性实施例中,所述交叉熵损失函数包括:
其中,所述ω表示所述负样本的个数,所述|E|为所述样本文本中依存关系的个数;y为信号函数,所述图神经网络输入为所述正样本时取值为1,所述图神经网络输入为所述负样本时取值为0;l(·)为激活函数。在一种示例性实施例中,激活函数l(·)可以取S形函数(Sigmoid函数)
本发明实施例使用交叉熵损失函数进行模型参数训练时,主要以提高正样本的得分并且降低负样本的得分作为参考,具体可以根据交叉熵损失函数的输出进行表征确定。
在一种示例性实施例中,所述图神经网络模型包含:输入层、一层或一层以上隐藏层和输出层;其中,
所述输入层接收的输入包括:H(0)=X;
所述隐藏层的处理函数包括:H(l+1)=σ(AH(l)W(l));
所述输出层的输出包括:HL=Z;
其中,所述X为所述样本矩阵;所述A为所述样本矩阵的邻接矩阵;所述H(l)为在上一层隐藏层的处理结果,所述l为0时,所述H(l)为第一矩阵;所述σ(·)为激活函数;所述W(l)为所述运行参数矩阵;所述Z为输出矩阵。
在一种示例性实施例中,本发明实施例可以通过调节图神经网络模型参数的维度设置输出矩阵的维度。
在一种示例性实施例中,本发明实施例激活函数σ(·)可以是线性整流函数(ReLU):
与相关技术相比,本申请技术方案包括:将样本文本根据依存关系信息表示为预设格式的样本依存关系编码;以样本文本包含的词语的特征向量为节点,将样本文本表示为样本矩阵;将样本矩阵及其邻接矩阵,通过初始化运行参数的图神经网络模型进行训练,获得样本依存关系编码中的依存词向量和从属词向量;以正样本和按照预设策略配置的负样本为图神经网络模型的输入,利用反向传播方法进行训练,确定图神经网络模型的运行参数矩阵;根据确定的运行参数矩阵,获得用于对待处理文本进行文本特征处理的模型。其中,所述样本依存关系编码包括:由依存词向量、用于标识依存关系及类别的对角矩阵及从属词向量构建的编码;所述正样本包括:包含所述样本文本词语间的依存关系信息的样本;所述负样本包括:对所述正样本按预设策略进行编辑获得的样本。本发明实施例实现了提升文本内容的特征表示效率的模型的训练,为提升文本内容的特征表示效率提供了技术基础。
图4为本发明实施例实现文本处理的装置的结构框图,如图4所示,包括:编码单元、矩阵单元、向量训练单元、参数训练单元及处理单元;其中,
编码单元用于:将样本文本根据依存关系信息表示为预设格式的样本依存关系编码;
矩阵单元用于:以样本文本包含的词语的特征向量为节点,将样本文本表示为样本矩阵;
将样本矩阵及其邻接矩阵,通过初始化运行参数的图神经网络模型进行训练,获得样本依存关系编码中的依存词向量和从属词向量;
参数训练单元用于:以正样本和按照预设策略配置的负样本为图神经网络模型的输入,利用反向传播方法进行训练,确定图神经网络模型的运行参数矩阵;
处理单元用于:根据确定运行参数矩阵的图神经网络模型,对输入的待处理文本进行处理;
其中,所述样本依存关系编码包括:由依存词向量、用于标识依存关系及类别的对角矩阵及从属词向量构建的编码;所述正样本包括:包含所述样本文本词语间的依存关系信息的样本;所述负样本包括:对所述正样本按预设策略进行编辑获得的样本。
在一种示例性实施例中,所述样本依存关系编码的表达式为:
在一种示例性实施例中,所述确定图神经网络模型的运行参数包括:
基于预设的交叉熵损失函数,确定所述图神经网络模型的运行参数;
其中,所述交叉熵损失函数包括:基于初始化对角矩阵后确定的样本依存关系编码构建的函数。
在一种示例性实施例中,所述交叉熵损失函数包括:
其中,所述ω表示所述负样本的个数,所述|E|为所述样本文本中依存关系的个数;y为信号函数,所述图神经网络输入为所述正样本时取值为1,所述图神经网络输入为所述负样本时取值为0;l(·)为激活函数。在一种示例性实施例中,激活函数l(·)可以取S形函数(Sigmoid函数)
本发明实施例使用交叉熵损失函数进行模型参数训练时,主要以提高正样本的得分并且降低负样本的得分作为参考,具体可以根据交叉熵损失函数的输出进行表征确定。
在一种示例性实施例中,所述图神经网络模型包含:输入层、一层或一层以上隐藏层和输出层;其中,
所述输入层接收的输入包括:H(0)=X;
所述隐藏层的处理函数包括:H(l+1)=σ(AH(l)W(l));
所述输出层的输出包括:HL=Z;
其中,所述X为所述样本矩阵;所述A为所述样本矩阵的邻接矩阵;所述H(l)为在上一层隐藏层的处理结果,所述l为0时,所述H(l)为第一矩阵;所述σ(·)为激活函数;所述W(l)为所述运行参数矩阵;所述Z为输出矩阵。
在一种示例性实施例中,本发明实施例可以通过调节图神经网络模型参数的维度设置输出矩阵的维度。
在一种示例性实施例中,本发明实施例激活函数σ(·)可以是线性整流函数(ReLU):
与相关技术相比,本申请技术方案包括:将样本文本根据依存关系信息表示为预设格式的样本依存关系编码;以样本文本包含的词语的特征向量为节点,将样本文本表示为样本矩阵;将样本矩阵及其邻接矩阵,通过初始化运行参数的图神经网络模型进行训练,获得样本依存关系编码中的依存词向量和从属词向量;以正样本和按照预设策略配置的负样本为图神经网络模型的输入,利用反向传播方法进行训练,确定图神经网络模型的运行参数矩阵;根据确定运行参数矩阵的图神经网络模型,对输入的待处理文本进行处理。其中,所述样本依存关系编码包括:由依存词向量、用于标识依存关系及类别的对角矩阵及从属词向量构建的编码;所述正样本包括:包含所述样本文本词语间的依存关系信息的样本;所述负样本包括:对所述正样本按预设策略进行编辑获得的样本。本发明实施例在对文本进行处理的模型中加入依存关系信息,提升了文本内容的特征表示效率。
本发明实施例还提供一种计算机存储介质,所述计算机存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现上述模型训练方法。
本发明实施例还提供一种终端,包括:存储器和处理器,所述存储中保存有计算机程序;其中,
处理器被配置为执行存储器中的计算机程序;
所述计算机程序被所述处理器执行时实现如上述模型训练方法。
本发明实施例还提供一种计算机存储介质,所述计算机存储介质中存储有计算机程序,所述计算机程序被处理器执行上述实现文本处理的方法。
本发明实施例还提供一种终端,包括:存储器和处理器,所述存储中保存有计算机程序;其中,
处理器被配置为执行存储器中的计算机程序;
所述计算机程序被所述处理器执行上述实现文本处理的方法。
“本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质”。
Claims (7)
1.一种模型训练方法,包括:
将样本文本根据依存关系信息表示为预设格式的样本依存关系编码;
以样本文本包含的词语的特征向量为节点,将样本文本表示为样本矩阵;
将样本矩阵及其邻接矩阵,通过初始化运行参数的图神经网络模型进行训练,获得样本依存关系编码中的依存词向量和从属词向量;
以正样本和按照预设策略配置的负样本为图神经网络模型的输入,利用反向传播方法进行训练,确定图神经网络模型的运行参数矩阵,包括:基于预设的交叉熵损失函数,确定所述图神经网络模型的运行参数;其中,所述交叉熵损失函数包括:基于初始化对角矩阵后确定的样本依存关系编码构建的函数;
所述图神经网络模型包含:输入层、一层或一层以上隐藏层和输出层;其中,
所述输入层接收的输入包括:;
所述隐藏层的处理函数包括:;
所述输出层的输出包括:;
其中,所述为所述样本矩阵;所述为所述样本矩阵的邻接矩阵;所述为在上一层隐藏层的处理结果,所述为0时,所述为第一矩阵;所述为激活函数;所述为所述运行参数矩阵;所述为输出矩阵;
根据确定的运行参数矩阵,获得用于对待处理文本进行文本特征处理的模型;
其中,所述样本依存关系编码包括:由依存词向量、用于标识依存关系及类别的对角矩阵及从属词向量构建的编码;所述正样本包括:包含所述样本文本词语间的依存关系信息的样本;所述负样本包括:对所述正样本按预设策略进行编辑获得的样本。
2.根据权利要求1所述的模型训练方法,其特征在于,所述样本依存关系编码的表达式为:
;
其中,所述是基于支配词编码的所述依存词向量,所述 是用于标识依存关系及类别的对角矩阵,所述是基于从属词编码的所述从属词向量。
3.根据权利要求1所述的模型训练方法,其特征在于,所述交叉熵损失函数包括:
;
其中,所述所述|E|为所述样本文本中依存关系的个数;所述为信号函数,所述图神经网络输入为所述正样本时取值为1,所述图神经网络输入为所述负样本时取值为0;为激活函数。
4.一种实现文本处理的方法,包括:
将样本文本根据依存关系信息表示为预设格式的样本依存关系编码;
以样本文本包含的词语的特征向量为节点,将样本文本表示为样本矩阵;
将样本矩阵及其邻接矩阵,通过初始化运行参数的图神经网络模型进行训练,获得样本依存关系编码中的依存词向量和从属词向量;
以正样本和按照预设策略配置的负样本为图神经网络模型的输入,利用反向传播方法进行训练,确定图神经网络模型的运行参数矩阵,包括:基于预设的交叉熵损失函数,确定所述图神经网络模型的运行参数;其中,所述交叉熵损失函数包括:基于初始化对角矩阵后确定的样本依存关系编码构建的函数;
所述图神经网络模型包含:输入层、一层或一层以上隐藏层和输出层;其中,
所述输入层接收的输入包括:;
所述隐藏层的处理函数包括:;
所述输出层的输出包括:;
其中,所述为所述样本矩阵;所述为所述样本矩阵的邻接矩阵;所述为在上一层隐藏层的处理结果,所述为0时,所述为第一矩阵;所述为激活函数;所述为所述运行参数矩阵;所述为输出矩阵;
根据确定运行参数矩阵的图神经网络模型,对输入的待处理文本进行处理;
其中,所述样本依存关系编码包括:由依存词向量、用于标识依存关系及类别的对角矩阵及从属词向量构建的编码;所述正样本包括:包含所述样本文本词语间的依存关系信息的样本;所述负样本包括:对所述正样本按预设策略进行编辑获得的样本。
5.一种模型训练装置,包括:编码单元、矩阵单元、向量训练单元、参数训练单元及模型单元;其中,
编码单元用于:将样本文本根据依存关系信息表示为预设格式的样本依存关系编码;
矩阵单元用于:以样本文本包含的词语的特征向量为节点,将样本文本表示为样本矩阵;
向量训练单元用于:将样本矩阵及其邻接矩阵,通过初始化运行参数的图神经网络模型进行训练,获得样本依存关系编码中的依存词向量和从属词向量;
参数训练单元用于:以正样本和按照预设策略配置的负样本为图神经网络模型的输入,利用反向传播方法进行训练,确定图神经网络模型的运行参数矩阵,包括:基于预设的交叉熵损失函数,确定所述图神经网络模型的运行参数;其中,所述交叉熵损失函数包括:基于初始化对角矩阵后确定的样本依存关系编码构建的函数;
所述图神经网络模型包含:输入层、一层或一层以上隐藏层和输出层;其中,
所述输入层接收的输入包括:;
所述隐藏层的处理函数包括:;
所述输出层的输出包括:;
其中,所述为所述样本矩阵;所述为所述样本矩阵的邻接矩阵;所述为在上一层隐藏层的处理结果,所述为0时,所述为第一矩阵;所述为激活函数;所述为所述运行参数矩阵;所述为输出矩阵;
模型单元用于:根据确定的运行参数矩阵,获得用于对待处理文本进行文本特征处理的模型;
其中,所述样本依存关系编码包括:由依存词向量、用于标识依存关系及类别的对角矩阵及从属词向量构建的编码;所述正样本包括:包含所述样本文本词语间的依存关系信息的样本;所述负样本包括:对所述正样本按预设策略进行编辑获得的样本。
6.根据权利要求5所述的模型训练装置,其特征在于,所述样本依存关系编码的表达式为:
;
其中,所述是基于支配词编码的所述依存词向量,所述 是用于标识依存关系及类别的对角矩阵,所述是基于从属词编码的所述从属词向量。
7.一种实现文本处理的装置,包括:编码单元、矩阵单元、向量训练单元、参数训练单元及处理单元;其中,
编码单元用于:将样本文本根据依存关系信息表示为预设格式的样本依存关系编码;
矩阵单元用于:以样本文本包含的词语的特征向量为节点,将样本文本表示为样本矩阵;
向量训练单元用于:将样本矩阵及其邻接矩阵,通过初始化运行参数的图神经网络模型进行训练,获得样本依存关系编码中的依存词向量和从属词向量;
参数训练单元用于:以正样本和按照预设策略配置的负样本为图神经网络模型的输入,利用反向传播方法进行训练,确定图神经网络模型的运行参数矩阵,包括:基于预设的交叉熵损失函数,确定所述图神经网络模型的运行参数;其中,所述交叉熵损失函数包括:基于初始化对角矩阵后确定的样本依存关系编码构建的函数;
所述图神经网络模型包含:输入层、一层或一层以上隐藏层和输出层;其中,
所述输入层接收的输入包括:;
所述隐藏层的处理函数包括:;
所述输出层的输出包括:;
其中,所述为所述样本矩阵;所述为所述样本矩阵的邻接矩阵;所述为在上一层隐藏层的处理结果,所述为0时,所述为第一矩阵;所述为激活函数;所述为所述运行参数矩阵;所述为输出矩阵;
处理单元用于:根据确定运行参数矩阵的图神经网络模型,对输入的待处理文本进行处理;
其中,所述样本依存关系编码包括:由依存词向量、用于标识依存关系及类别的对角矩阵及从属词向量构建的编码;所述正样本包括:包含所述样本文本词语间的依存关系信息的样本;所述负样本包括:对所述正样本按预设策略进行编辑获得的样本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911309483.2A CN111178039B (zh) | 2019-12-18 | 2019-12-18 | 一种模型训练方法、装置、实现文本处理的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911309483.2A CN111178039B (zh) | 2019-12-18 | 2019-12-18 | 一种模型训练方法、装置、实现文本处理的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111178039A CN111178039A (zh) | 2020-05-19 |
CN111178039B true CN111178039B (zh) | 2023-05-09 |
Family
ID=70657358
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911309483.2A Active CN111178039B (zh) | 2019-12-18 | 2019-12-18 | 一种模型训练方法、装置、实现文本处理的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111178039B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112085104B (zh) * | 2020-09-10 | 2024-04-12 | 杭州中奥科技有限公司 | 一种事件特征提取方法、装置、存储介质及电子设备 |
CN112069822A (zh) * | 2020-09-14 | 2020-12-11 | 上海风秩科技有限公司 | 一种词向量表示的获取方法、装置、设备及可读介质 |
CN112906873A (zh) * | 2021-03-26 | 2021-06-04 | 北京邮电大学 | 一种图神经网络训练方法、装置、电子设备及存储介质 |
CN113420121B (zh) * | 2021-06-24 | 2023-07-28 | 中国科学院声学研究所 | 文本处理模型训练方法、语音文本处理方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106844327A (zh) * | 2015-12-07 | 2017-06-13 | 科大讯飞股份有限公司 | 文本编码方法及系统 |
CN110210019A (zh) * | 2019-05-21 | 2019-09-06 | 四川大学 | 一种基于递归神经网络的事件要素抽取方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017161320A1 (en) * | 2016-03-18 | 2017-09-21 | Google Inc. | Generating dependency parses of text segments using neural networks |
-
2019
- 2019-12-18 CN CN201911309483.2A patent/CN111178039B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106844327A (zh) * | 2015-12-07 | 2017-06-13 | 科大讯飞股份有限公司 | 文本编码方法及系统 |
CN110210019A (zh) * | 2019-05-21 | 2019-09-06 | 四川大学 | 一种基于递归神经网络的事件要素抽取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111178039A (zh) | 2020-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111178039B (zh) | 一种模型训练方法、装置、实现文本处理的方法及装置 | |
CN111079532B (zh) | 一种基于文本自编码器的视频内容描述方法 | |
CN110032633B (zh) | 多轮对话处理方法、装置和设备 | |
JP5128629B2 (ja) | 品詞タグ付けシステム、品詞タグ付けモデルのトレーニング装置および方法 | |
CN112084331A (zh) | 文本处理、模型训练方法、装置、计算机设备和存储介质 | |
CN110502738A (zh) | 中文命名实体识别方法、装置、设备和查询系统 | |
CN108629414B (zh) | 深度哈希学习方法及装置 | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN113627447B (zh) | 标签识别方法、装置、计算机设备、存储介质及程序产品 | |
CN109377532B (zh) | 基于神经网络的图像处理方法及装置 | |
CN114419642A (zh) | 一种文档图像中键值对信息的抽取方法、装置及系统 | |
CN111488742B (zh) | 用于翻译的方法和装置 | |
CN115658955B (zh) | 跨媒体检索及模型训练方法、装置、设备、菜谱检索系统 | |
CN114780768A (zh) | 一种视觉问答任务处理方法、系统、电子设备及存储介质 | |
CN115438225A (zh) | 视频文本互检方法及其模型训练方法、装置、设备、介质 | |
CN115169342A (zh) | 文本相似度计算方法、装置、电子设备及存储介质 | |
US11507787B2 (en) | Model agnostic contrastive explanations for structured data | |
CN111259975B (zh) | 分类器的生成方法及装置、文本的分类方法及装置 | |
CN114065771A (zh) | 一种预训练语言处理方法及设备 | |
CN116738956A (zh) | 一种提示模板生成方法、装置、计算机设备及存储介质 | |
CN116521899A (zh) | 一种基于改进的图神经网络的文档级关系抽取算法及系统 | |
CN114707518B (zh) | 面向语义片段的目标情感分析方法、装置、设备及介质 | |
CN115810215A (zh) | 面部图像生成方法、装置、设备及存储介质 | |
CN115858777A (zh) | 文本分类方法、文本分配装置及存储介质 | |
CN115018059A (zh) | 数据处理方法及装置、神经网络模型、设备、介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |