CN110795937A - 信息处理方法、装置及存储介质 - Google Patents

信息处理方法、装置及存储介质 Download PDF

Info

Publication number
CN110795937A
CN110795937A CN201910913189.6A CN201910913189A CN110795937A CN 110795937 A CN110795937 A CN 110795937A CN 201910913189 A CN201910913189 A CN 201910913189A CN 110795937 A CN110795937 A CN 110795937A
Authority
CN
China
Prior art keywords
word
words
corpus
determining
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910913189.6A
Other languages
English (en)
Inventor
林田谦谨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuo Erzhi Lian Wuhan Research Institute Co Ltd
Original Assignee
Zhuo Erzhi Lian Wuhan Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuo Erzhi Lian Wuhan Research Institute Co Ltd filed Critical Zhuo Erzhi Lian Wuhan Research Institute Co Ltd
Priority to CN201910913189.6A priority Critical patent/CN110795937A/zh
Publication of CN110795937A publication Critical patent/CN110795937A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例公开了一种信息处理方法、装置及存储介质;其中,方法包括:对第一语料进行分词处理,得到所述第一语料的第一词集;所述第一词集包含至少两个词;确定所述第一词集中任意两个词之间的相关度;利用确定的所述第一词集中任意两个词之间的相关度,构建第一词共现网络;所述第一词共现网络表征所述第一词集中词之间的关联关系;利用所述第一词共现网络的数据,结合图卷积神经网络(GCN)模型,确定第一特征矩阵;所述第一特征矩阵为第一词共现网络中各节点对应的特征矩阵;对所述第一特征矩阵进行降维处理,得到词嵌入初始化结果。如此,能够提供合理的词嵌入初始化结果,从而利用该词嵌入初始化结果达到缩短词嵌入训练周期的效果。

Description

信息处理方法、装置及存储介质
技术领域
本发明涉及人工智能领域,尤其涉及一种信息处理方法、装置及存储介质。
背景技术
词嵌入是自然语言处理(NLP,Natural Language Processing)中语言模型与表征学习技术的统称。词嵌入是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,即将每个词或者词组映射为实数域上的向量,这种将词或者词组数字化表示的方式被认为是深度学习在NLP任务中最具有挑战性的问题之一。相关技术中,存在词嵌入初始化方案随意性强,从而使得词嵌入训练周期长的问题。
发明内容
有鉴于此,本发明实施例期望提供一种信息处理方法、装置及存储介质,能够提供合理的词嵌入初始化结果,从而利用该词嵌入初始化结果达到缩短词嵌入训练周期的效果。
本发明实施例的技术方案是这样实现的:
本发明实施例提供一种信息处理方法,包括:
对第一语料进行分词处理,得到所述第一语料的第一词集;所述第一词集包含至少两个词;
确定所述第一词集中任意两个词之间的相关度;
利用确定的所述第一词集中任意两个词之间的相关度,构建第一词共现网络;所述第一词共现网络表征所述第一词集中词之间的关联关系;
利用所述第一词共现网络的数据,结合图卷积神经网络(GCN,GraphConvolutional Networks)模型,确定第一特征矩阵;所述第一特征矩阵为第一词共现网络中各节点对应的特征矩阵;
对所述第一特征矩阵进行降维处理,得到词嵌入初始化结果。
上述方案中,所述确定所述第一词集中任意两个词之间的相关度,包括:
利用第一指标,确定任意两个词之间的相关度;其中,当所述任意两个词满足第一预设条件时,所述第一指标是根据所述任意两个词的点互信息(PMI,Pointwise MutualInformation)指标得到的;当所述任意两个词不满足所述第一预设条件时,所述第一指标为第一值。
确定两个词之间的第一指标;
将所述第一指标和第二指标两者之中的较大值作为所述两个词之间的权重值;所述第二指标为第二值;
将所述两个词之间的权重值作为所述两个词之间的相关度。上述方案中,所述利用所述第一词共现网络的数据,结合GCN模型,确定第一特征矩阵,包括:
求取所述第一词共现网络的对称拉普拉斯矩阵;
根据所述对称拉普拉斯矩阵、权重矩阵的初始化参数以及第一映射函数,确定第一特征矩阵。
上述方案中,所述对第一语料进行分词处理,得到所述第一语料的第一词集,包括:
对第一语料进行分词处理,得到处理后的第一语料;
基于第一预设规则,对所述处理后的第一语料进行过滤处理,得到所述第一语料的第一词集。
上述方案中,所述方法还包括:
基于第二预设规则,将所述第一词集中所有词进行编码,得到编码后的词;
利用所述编码后的词,确定任意两个词之间的相关度。
上述方案中,所述方法还包括:
保存所述词嵌入初始化结果。
本发明实施例还提供一种信息处理装置,包括:
分词单元,用于对第一语料进行分词处理,得到所述第一语料的第一词集;所述第一词集包含至少两个词;
第一确定单元,用于确定所述第一词集中任意两个词之间的相关度;
构建单元,用于利用确定的所述第一词集中任意两个词之间的相关度,构建第一词共现网络;所述第一词共现网络表征所述第一词集中词之间的关联关系;
第二确定单元,用于利用所述第一词共现网络的数据,结合GCN模型,确定第一特征矩阵;所述第一特征矩阵为第一词共现网络中各节点对应的特征矩阵;
第三确定单元,用于对所述第一特征矩阵进行降维处理,得到词嵌入初始化结果。
本发明实施例又提供一种信息处理装置,包括:处理器和用于存储能够在处理器上运行的可执行指令的存储器,其中,所述处理器用于运行所述可执行指令时,执行上述方法的任一步骤。
本发明实施例还提供一种计算机可读存储介质,其上存储有可执行指令,所述可执行指令被处理器执行时实现上述方法的任一步骤。
本发明实施例公开了一种信息处理方法、装置及存储介质;其中,方法包括:对第一语料进行分词处理,得到所述第一语料的第一词集;所述第一词集包含至少两个词;确定所述第一词集中任意两个词之间的相关度;利用确定的所述第一词集中任意两个词之间的相关度,构建第一词共现网络;所述第一词共现网络表征所述第一词集中词之间的关联关系;利用所述第一词共现网络的数据,结合GCN模型,确定第一特征矩阵;所述第一特征矩阵为第一词共现网络中各节点对应的特征矩阵;对所述第一特征矩阵进行降维处理,得到词嵌入初始化结果。本发明实施例中,通过语料中词之间的相关性构建词共现网络并利用GCN模型将语料中词的关联关系等信息体现在词嵌入模型嵌入层的初始化结果中,因此,初始化结果非常合理,利用该词嵌入模型嵌入层的初始化结果可以使词嵌入模型在进行词嵌入训练时更快收敛,从而缩短了词嵌入训练周期。
附图说明
图1为本发明实施例提供的信息处理方法的实现流程示意图;
图2为本发明实施例提供的信息处理方法中词共现网络举例示意图;
图3为本发明实施例提供的信息处理方法中经过GCN及主成分提取后的节点分布示意图;
图4为本发明应用实施例提供的信息处理方法的实现流程示意图;
图5为本发明实施例提供的信息处理装置的组成结构示意图;
图6为本发明实施例提供的信息处理装置的硬件组成结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
相关技术中,词嵌入模型及训练的重点都是在获得随机初始化的词嵌入结果后,如何设计网络结构以及损失函数,以得到令人满意的嵌入层参数。例如,在Word2Vec中相应的网络结构为利用语境向量预测中心词向量或者用中心词向量预测语境向量,在Bert或者Xlnet中相应的网络结构为利用网络可看见的词预测被隐藏的词或者通过上一句话预测下一句话等。换句话说,相关技术中,一般利用类似截断高斯分布等常规的初始化方案进行词嵌入模型嵌入层的初始化,对词嵌入层的初始化并没有赋予足够的关注。采用这样初始化结果生成的词向量表征,在词向量空间中,是不存在任何联系的,词嵌入模型完全依靠后续的计算,不断调整每层的参数,以达到预期效果,因此往往存在难收敛的情况,即词嵌入模型训练周期长(该周期甚至以周为单位)。然而,考虑到自然语言处理NLP时语料中词之间的共现关系(同时出现的情况)、先后顺序等信息,可以体现在词嵌入模型嵌入层的初始化结果中,以获得更高效的初始化方法,从而使词嵌入模型更快收敛,训练时间缩短。
本发明实施例提供一种信息处理方法,图1为本发明实施例信息处理方法的实现流程示意图。如图1所示,所述方法包括以下步骤:
步骤101:对第一语料进行分词处理,得到所述第一语料的第一词集;所述第一词集包含至少两个词;
步骤102:确定所述第一词集中任意两个词之间的相关度;
步骤103:利用确定的所述第一词集中任意两个词之间的相关度,构建第一词共现网络;所述第一词共现网络表征所述第一词集中词之间的关联关系;
步骤104:利用所述第一词共现网络的数据,结合GCN模型,确定第一特征矩阵;所述第一特征矩阵为第一词共现网络中各节点对应的特征矩阵;
步骤105:对所述第一特征矩阵进行降维处理,得到词嵌入初始化结果。
在步骤101中,实际应用时,所述第一语料可以为具有一定数量和广度的语言材料,如某日报某一个月刊登所有报道所包含的语料。
实际应用中,进行分词处理所使用的分词算法可以包括:基于字符串匹配的分词算法、基于理解的分词算法和基于统计的分词算法等,在本发明实施例中,进行分词处理时可以单独使用上述的一种分词算法,也可以将上述各种分词算法组合后使用。
进行分词处理后,会得到很多个词,将这些词进行统计,并将统计后的结果放在一个集合里,得到了与所述第一语料对应的第一词集。
在一实施例中,所述对第一语料进行分词处理,得到所述第一语料的第一词集,包括:
对第一语料进行分词处理,得到处理后的第一语料;
基于第一预设规则,对所述处理后的第一语料进行过滤处理,得到所述第一语料的第一词集。
这里,所述第一预设规则至少包括词形式筛选规则及词频率筛选规则;其中,所述词形式筛选规则至少可以包括:词的长度限定(如,每个词必需为长度大于1的词),词的形式限定(如,每个词必需不是标点符号),词的存活性限定(如,每个词必需不是官方通知已停止使用的词);所述词频率筛选规则至少可以包括:词在第一语料中出现的频次限定(如,需要剔除词频及逆文本频率(TF-IDF,Term Frequency–Inverse Document Frequency)指数值过低的词以及在第一语料中出现的频次小于3次的词)。
通过第一预设规则筛选后得到的第一词集使得后续的步骤的实施更有针对性,实施效率更高。
实际应用时,计算机并不能直接识别词的文本形式本身,而是需要将词的文本形式转化成编码形式。
基于此,在一实施例中,在步骤102之前,所述方法还可以包括:
基于第二预设规则,将所述第一词集中所有词进行编码,得到编码后的词;
利用所述编码后的词,确定任意两个词之间的相关度。
这里,所述第二预设规则为第一词集中的词与该词对应的编码必须一一对应,不能出现一个词对多个编码或一个编码对应多个词的情况。
实际应用时,在将第一词集中所有词转为ID编码时,假设所有词语的个数为|V|,则ID编码的范围可以是[1,|V|],即将第一词集中所有词利用阿拉伯数字从1到|V|进行顺序编码。
在步骤102中,所述相关度表征两个词之间的关联关系,一般来说,相关度越大,两个词之间的关联关系就越密切。
实际应用时,可以采用PMI指标来确定两个词之间的相关性。
PMI可用于衡量两个事物之间的相关性,计算方式如式1所示:
Figure BDA0002215308700000061
其中,PMI(x,y)表示事物x和事物y之间的PMI指标;p(x,y)表示同时出现事物x和事物y的次数;p(x)表示单独出现事物x的次数;p(y)表示单独出现事物y的次数。
在本发明实施例中,假设所述第一词集中任意两个不同的词为第一词和第二词,并将所述第一词记为x、第二词记为y。定义固定滑动窗口大小为k(即含有k个连续单词的序列),设在每次向右移动一个词的情况下,所述第一语料中共有Win个窗口,且第一语料中共出现x的窗口个数为Winx;第一语料中共出现y的窗口个数为Winy;第一语料中同时出现x、y两个词的窗口个数为Winxy,定义p(x)为Winx/Win,p(y)为Winy/Win,p(x,y)为Winxy/Win。
如果x、y两个词在第一语料中永远同时出现,则p(x)=p(y)=p(x,y),此时式1可以变化成式2,式2中所能取得的最大值为log2Win。
PMI(x,y)=log2Win-log2Winxy (2)
其中,PMI(x,y)表示第一词x和第二次y之间的PMI指标;Win表示第一语料中的窗口总数量;Winxy表示第一语料中共同时出现x、y两个词的窗口个数。
上述由式1变为式2的具体推导过程为:
Figure BDA0002215308700000071
如果x、y两个词在第一语料中从未同时出现,则式1中对数中真数为0(即),超出了对数的定义域,式1为负无穷。
基于相关技术中PMI指标的上述问题,本发明实施例利用改进的PMI指标来利用改进的PMI指标来确定x、y两个词之间的相关度。
基于此,在一实施例中,所述确定所述第一词集中任意两个词之间的相关度,包括:
利用第一指标,确定任意两个词之间的相关度;其中,当所述任意两个词满足第一预设条件时,所述第一指标是根据所述任意两个词的点互信息PMI指标得到的;当所述任意两个词不满足所述第一预设条件时,所述第一指标为第一值。
这里,所述第一指标为改进的PMI指标;所述第一预设条件是指第一语料中存在同时出现所述任意两个词的窗口;所述第一值为0。
实际应用时,改进的PMI指标可以根据式3进行计算得到。
Figure BDA0002215308700000081
其中,PMI'(x,y)表示第一词x和第二次y之间改进的PMI指标;p(x)表示第一语料中出现x的窗口个数与第一语料中总窗口的比值;p(y)表示第一语料中出现y的窗口个数与第一语料中总窗口的比值;p(x,y)表示第一语料中同时出现x、y两个词的窗口个数与第一语料中总窗口的比值;Win表示第一语料中窗口的总数量。
其中,在一实施例中,所述利用第一指标,确定任意两个词之间的相关度时,所述方法包括:
确定两个词之间的第一指标;
将所述第一指标和第二指标两者之中的较大值作为所述两个词之间的权重值;所述第二指标为第二值;
将所述两个词之间的权重值作为所述两个词之间的相关度。
这里,所述第二指标为表征任意两个词之间不存在相关性的值,实际应用时,所述第二值可以用0表示。
实施应用时,定义E(x,y)为两个词之间的权重值,并且E(x,y)可以用式4进行表示。
E(x,y)=max(PMI'(x,y),0) (4)
从上述分析可以看出,两个词之间的权重值可以是一个处于0到1之间的值,并且两个词之间的权重值越大表示两个词的之间的相关度越高。
需要说明的是,实际应用时,需要对所述第一词集中的所有词中任意两个词均需按照上述第一词x及第二词y计算两个词之间的权重值的方式获得第一词集中的所有词中任意两个词相关度。
实际应用时,对于x及y之间的权重值的计算可以通过统计x及y对应的ID编码在窗口中出现的次数来进行。
在步骤103中,将第一词集中所有词在第一语料中体现出来的关联关系用图(英文表达为Graph)的方式来表达,则得到第一词共现网络。这里,图包括顶点以及边;其中,顶点为第一词集中的每个词,边为任意两个词之间的相关度。关于图的具体表现形式可以参考图2。
需要说明的是,在图2中使用每个的词ID编码表示每个词。
在步骤104中,所述GCN模型为可在任意拓扑结构的数据上做卷积操作的神经网络模型。相关技术表明,GCN模型可以更高效且低成本地获得更准确的节点的嵌入。
所述第一特征矩阵为利用GCN模型对所述第一词共现网络的数据进行处理后得到网络最后一层各各节点对应的特征矩阵。
本发明实施中使用的GCN模型基于Kipf and Welling 2017的版本,具体实现方式如下:
在一实施例中,所述利用所述第一词共现网络的数据,结合GCN模型,确定第一特征矩阵,包括:
求取所述第一词共现网络的对称拉普拉斯矩阵;
根据所述对称拉普拉斯矩阵、权重矩阵的初始化参数以及第一映射函数,确定第一特征矩阵。
图是利用顶点和边建立的相应关系的拓扑图,可以用一个点和边的集合来表示图:G=(V,E);其中,V表示顶点的集合,E表示边的集合。
GCN模型的目标是要学习图G=(V,E)(这里,V表示图G的顶点(也可以称为节点)的集合即所述第一词集中的每个词,E表示图G的边的集合即第一词集中的任意两个词之间的相关度)上的一个函数。该函数的输入包括:(1)每一个节点的特征表示vi,如果节点数为N,特征维度为F维,则所有节点的特征可组成一个N×F的矩阵;(2)图结构的表达,一般使用图的邻接关系矩阵A表示。该函数产生一个节点层(英文表达为node-level)的输出Z(输出是一个N×F的矩阵,N代表节点数量,每一行代表一个节点,F代表节点特征向量的维度)。对于整个图(英文表达为graph-level)的特征表达,只需要将每一个节点层的表达综合起来再经过一个映射操作即可。
在GCN模型中对于图的特征提取,可以使用多层神经网络结构,对于每一层,可以使用如下式5的第一映射函数来计算:
Figure BDA0002215308700000101
其中,Hi+1为第i+1层的节点特征矩阵;Hi为第i层的节点特征矩阵;A为图的邻接矩阵添加单位矩阵后的新领接矩阵;D为A的度矩阵,即顶点的度矩阵(对角矩阵),对角线上元素依次为各个顶点的度;
Figure BDA0002215308700000102
为对称拉普拉斯矩阵;Wi为第i层的权重矩阵,tanh()为激活函数,激活函数具体计算方式如式6所示。
需要说明的是:权重矩阵Wi是每个节点权重值的矩阵,节点权重值能让网络更加差异性地对待每一个节点,从而对那些具有更强识别能力的节点赋予更多的关注。实际应用中,可以按照节点对应位置分配节点的权重值,如按照距离图重心的远近来分配权重值。实际应用时,也可以采用随机初始化的权重矩阵W0
这里,将式6中的tanh(x)计算方式代入式5中即可获得最终的节点特征矩阵即第一节点特征矩阵。
在步骤105中,实际应用时,可以采用主成分分析(PCA,Principal ComponentAnalysis)法实现对第一特征矩阵的降维处理。
PCA法的基本思想是:设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息。
具体实施时,需要先设定词向量的维度m,并在PCA后提取特征值最大的前m个主成分。这m个主成分即为词嵌入初始化结果。
以图2示意的图为例,图2是一个随机的关系网络(Zachary's Karate Clubgraph),共有33个节点,从图2可以看出:以0和33为中心可以大致划分整个群体为两个部分。现取随机初始化权重矩阵,大小为33×33,按初始特征矩阵为单位矩阵,经过两次式5运算后,将所得节点特征矩阵进行PCA,取前两个主成分,如图3,可见节点已经明显的按照其在图结构中的情况自动划分了群体。
在一实施例中,在步骤105之后,所述方法还包括:
保存所述词嵌入初始化结果。
这里,保存的所述词嵌入初始化结果,以作为后续词嵌入模型的嵌入层的初始化参数。
此外,也可以保存步骤104中的网络结构,直接串联到后续词嵌入模型的前端,用于训练权重矩阵W。
本发明实施例提供的信息处理方法,通过对第一语料进行分词处理,得到所述第一语料的第一词集;所述第一词集包含至少两个词;确定所述第一词集中任意两个词之间的相关度;利用确定的所述第一词集中任意两个词之间的相关度,构建第一词共现网络;所述第一词共现网络表征所述第一词集中词之间的关联关系;利用所述第一词共现网络的数据,结合GCN模型,确定第一特征矩阵;所述第一特征矩阵为第一词共现网络中各节点对应的特征矩阵;对所述第一特征矩阵进行降维处理,得到词嵌入初始化结果。本发明实施例中,通过语料中词之间的相关性构建词共现网络并利用GCN模型将语料中词的关联关系等信息体现在词嵌入模型嵌入层的初始化结果中,因此,初始化结果非常合理,利用该词嵌入模型嵌入层的初始化结果可以使词嵌入模型在进行词嵌入训练时更快收敛,从而缩短了词嵌入训练周期。
下面结合应用实施例对本发明再作进一步详细的描述。
本发明应用实施例提供一种词嵌入初始化方法,图4为本发明实施例词嵌入初始化方法的实现流程示意图。如图4所示,所述方法包括以下步骤:
步骤401:对目标语料进行分词,得到处理后的目标语料;
实际应用时,所述目标语料为用于进行词嵌入的语料。
步骤402:按照第一预设规则对得到的分词后的目标语料进行筛选,得到第一词集;
这里,所述第一预设规则维去掉停用词和无用的标点符号,并剔除TF-IDF值过低的词以及频次过低的词。
步骤403:基于第二预设规则,将所述第一词集中所有词进行编码;得到编码后的分词;
这里,所述第二预设规则为第一词集中的词与编号的满足一一对应,具体实施时,将所述第一词集中所有词转为ID编码的方式为:假设所有词语的个数为|V|,则ID编码的范围可以是[1,|V|],即将第一词集中所有词利用阿拉伯数字从1到|V|进行顺序编码。
步骤404:利用所述编码后的词,计算所述第一词集中任意两个分词之间相关度;
实际应用时,需要设定用于计算改进的PMI指标的滑动窗口大小k,并统计目标语料中共窗口个数Win,在目标语料中出现任意词w的窗口个数Winw,在目标语料中同时出现x、y两个词的窗口个数Winxy,并利用与前述步骤102相同的计算方式计算任意两个词x、y之间的权重值E(x,y),将所述两个词之间的权重值作为所述两个词之间的相关度。
步骤405:根据第一词集中所有词以及所述第一词集中任意两个分词之间相关度,构建所述目标语料对应的词共现网络;
步骤406:利用所述目标语料对应的词共现网络的数据,结合GCN模型,确定所述词共现网络中各节点对应的特征矩阵;
实际应用时,可以采用如下步骤a~步骤c实现各节点对应的特征矩阵的计算:
步骤a:计算所述目标语料对应的词共现网络带自环的邻接矩阵A以及对应的对称拉普拉斯矩阵
Figure BDA0002215308700000121
步骤b:设定网络层数L(可以理解为一个单词的感受野为距离L内的其它单词节点),设定随机初始化的权重矩阵W0,初始特征矩阵H0为|V|×|V|大小的单位矩阵,即所有单词被独热(英文表达为onehot)编码。
步骤c:迭代执行L次式5。
步骤407:对所述词共现网络中各节点对应的特征矩阵进行降维处理,得到词嵌入初始化结果;
实际应用时,可以采用PCA法实现对第一特征矩阵的降维处理。
具体实施时,需要先设定词向量的维度m,并在PCA后提取特征值最大的前m个主成分。这m个主成分即为词嵌入初始化结果。
步骤408:保存所述词嵌入初始化结果。
这里,保存的所述词嵌入初始化结果,以作为后续词嵌入模型的嵌入层的初始化参数。
此外,也可以保存步骤406中的网络结构,直接串联到后续词嵌入模型的前端,用于训练权重矩阵W。
本发明实施例以词间的点互信息为基础构建图,然后使用GCN的方法作为初始的词向量的结果,本发明在有限的计算资源的前提下,可以迅速地、廉价地得到语料中词的嵌入表达,并且具有较良好的表征效果,在该词嵌入初始化结果的基础上做自回归或者自编码的训练,理论上会更快收敛,并且有希望比随机初始化的嵌入层达到更好的效果。
为了实现本发明实施例的方法,本发明实施例还提供一种信息处理装置500,图5为本发明实施例装置的结构示图,如图5所示,所述装置500包括:
分词单元501,用于对第一语料进行分词处理,得到所述第一语料的第一词集;所述第一词集包含至少两个词;
第一确定单元502,用于确定所述第一词集中任意两个词之间的相关度;
构建单元503,用于利用确定的所述第一词集中任意两个词之间的相关度,构建第一词共现网络;所述第一词共现网络表征所述第一词集中词之间的关联关系;
第二确定单元504,用于利用所述第一词共现网络的数据,结合GCN模型,确定第一特征矩阵;所述第一特征矩阵为第一词共现网络中各节点对应的特征矩阵;
第三确定单元505,用于对所述第一特征矩阵进行降维处理,得到词嵌入初始化结果。
在一实施例中,所述第一确定单元502,用于:
利用第一指标,确定任意两个词之间的相关度;其中,当所述任意两个词满足第一预设条件时,所述第一指标是根据所述任意两个词的PMI指标得到的;当所述任意两个词不满足所述第一预设条件时,所述第一指标为第一值。
在一实施例中,所述第一确定单元502,用于:
确定两个词之间的第一指标;
将所述第一指标和第二指标两者之中的较大值作为所述两个词之间的权重值;所述第二指标为第二值;
将所述两个词之间的权重值作为所述两个词之间的相关度。
在一实施例中,所述第二确定单元504,用于:
求取所述第一词共现网络的对称拉普拉斯矩阵;
根据所述对称拉普拉斯矩阵、权重矩阵的初始化参数以及第一映射函数,确定第一特征矩阵。
在一实施例中,所述分词单元501,用于:
对第一语料进行分词处理,得到处理后的第一语料;
基于第一预设规则,对所述处理后的第一语料进行过滤处理,得到所述第一语料的第一词集。
在一实施例中,所述装置500还包括编码单元,所述编码单元,用于:
基于第二预设规则,将所述第一词集中所有词进行编码,得到编码后的词;
利用所述编码后的词,确定任意两个词之间的相关度。
在一实施例中,所述装置500还包括保存单元,所述保存单元,用于:
保存所述词嵌入初始化结果。
实际应用时,分词单元501、编码单元、第一确定单元502、构建单元503、第二确定单元504、第三确定单元505及保存单元可由信息处理装置500中的处理器实现。
需要说明的是:上述实施例提供的信息处理装置在进行信息处理时,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即将装置的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的信息处理装置与信息处理方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
基于上述程序模块的硬件实现,且为了实现本发明实施例的方法,本发明实施例还提供一种信息处理装置600,所述装置600包括:
存储器601,用于存储可执行指令;
处理器602,用于执行所述存储器中存储的可执行指令时,实现本发明实施例提供的信息处理方法。
实际应用时,如图6所示,所述装置600中的各个组件通过总线系统603耦合在一起。可理解,总线系统603用于实现这些组件之间的连接通信。总线系统603除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图6中将各种总线都标为总线系统603。
本发明实施例还提供一种存储介质,所述存储介质存储有可执行指令,当所述可执行指令被至少一个处理器执行时,实现本发明实施例提供的信息处理方法。
在一些实施例中,存储介质可以是磁性随机存取存储器(FRAM,FerromagneticRandom Access Memory)、只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,ErasableProgrammable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,ElectricallyErasable Programmable Read-Only Memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory)等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
为了更好地说明本发明实施例的方案能够提供合理的词嵌入初始化结果,进而利用该词嵌入初始化结果达到缩短词嵌入训练周期的效果,进行了相关测试实验。
实验条件为:以人民日报1998年1月的语料作为目标语料,来说明该方案的实际操作中的可行性。在对词的预处理中,筛选频次大于3并且长度不为1的词语共15158个;设置词向量的维度m为128,即词向量具有128维。
实验检验方法为:按照前述的词嵌入初始化方法运算后,再利用余弦相似度计算词语相似性。
实验结果:以“澳门”为例,按照前述的词嵌入初始化方法运算后与其最接近的五个词语为:港澳、同胞、华侨、回归、海外。利用余弦相似度计算这五个词语相似性,这五个词相似度如下:港澳0.801、同胞0.792、华侨0.760、回归0.758、海外0.730。
从实验结果可以看出,采用本发明实施例的信息处理方法能够提供合理的词嵌入初始化结果,即词向量具有很高的可信度。基于此,本发明实施例的信息处理方法可期在语料更大,词汇量更大的情况下,获得更好的初始化结果。
另外值得注意的是,以上过程的时间开销并不到3分钟,硬件配置为(CPU:Intel(R)Xeon(R)CPU E5-1620 v3@3.50GHz,内存32G),相对于传统随机初始化的嵌入层而言,达到这样的效果对于计算力的需求更小,所以非常本发明非常适合作为词嵌入层参数的初始化,以节约训练前期的时间。
需要说明的是:“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
另外,本发明实施例所记载的技术方案之间,在不冲突的情况下,可以任意组合。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (10)

1.一种信息处理方法,其特征在于,所述方法包括:
对第一语料进行分词处理,得到所述第一语料的第一词集;所述第一词集包含至少两个词;
确定所述第一词集中任意两个词之间的相关度;
利用确定的所述第一词集中任意两个词之间的相关度,构建第一词共现网络;所述第一词共现网络表征所述第一词集中词之间的关联关系;
利用所述第一词共现网络的数据,结合图卷积神经网络GCN模型,确定第一特征矩阵;所述第一特征矩阵为第一词共现网络中各节点对应的特征矩阵;
对所述第一特征矩阵进行降维处理,得到词嵌入初始化结果。
2.根据权利要求1所述的方法,其特征在于,所述确定所述第一词集中任意两个词之间的相关度,包括:
利用第一指标,确定任意两个词之间的相关度;其中,当所述任意两个词满足第一预设条件时,所述第一指标是根据所述任意两个词的点互信息PMI指标得到的;当所述任意两个词不满足所述第一预设条件时,所述第一指标为第一值。
3.根据权利要求2所述的方法,其特征在于,所述利用第一指标,确定任意两个词之间的相关度时,所述方法包括:
确定两个词之间的第一指标;
将所述第一指标和第二指标两者之中的较大值作为所述两个词之间的权重值;所述第二指标为第二值;
将所述两个词之间的权重值作为所述两个词之间的相关度。
4.根据权利要求1所述的方法,其特征在于,所述利用所述第一词共现网络的数据,结合GCN模型,确定第一特征矩阵,包括:
求取所述第一词共现网络的对称拉普拉斯矩阵;
根据所述对称拉普拉斯矩阵、权重矩阵的初始化参数以及第一映射函数,确定第一特征矩阵。
5.根据权利要求1所述的方法,其特征在于,所述对第一语料进行分词处理,得到所述第一语料的第一词集,包括:
对第一语料进行分词处理,得到处理后的第一语料;
基于第一预设规则,对所述处理后的第一语料进行过滤处理,得到所述第一语料的第一词集。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于第二预设规则,将所述第一词集中所有词进行编码,得到编码后的词;
利用所述编码后的词,确定任意两个词之间的相关度。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
保存所述词嵌入初始化结果。
8.一种信息处理装置,其特征在于,包括:
分词单元,用于对第一语料进行分词处理,得到所述第一语料的第一词集;所述第一词集包含至少两个词;
第一确定单元,用于确定所述第一词集中任意两个词之间的相关度;
构建单元,用于利用确定的所述第一词集中任意两个词之间的相关度,构建第一词共现网络;所述第一词共现网络表征所述第一词集中词之间的关联关系;
第二确定单元,用于利用所述第一词共现网络的数据,结合GCN模型,确定第一特征矩阵;所述第一特征矩阵为第一词共现网络中各节点对应的特征矩阵;
第三确定单元,用于对所述第一特征矩阵进行降维处理,得到词嵌入初始化结果。
9.一种信息处理装置,其特征在于,包括:处理器和用于存储能够在处理器上运行的可执行指令的存储器,其中,所述处理器用于运行所述可执行指令时,执行权利要求1至7任一项所述方法的步骤。
10.一种存储介质,其上存储有可执行指令,其特征在于,所述可执行指令被处理器执行时实现权利要求1至7任一项所述方法的步骤。
CN201910913189.6A 2019-09-25 2019-09-25 信息处理方法、装置及存储介质 Pending CN110795937A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910913189.6A CN110795937A (zh) 2019-09-25 2019-09-25 信息处理方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910913189.6A CN110795937A (zh) 2019-09-25 2019-09-25 信息处理方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN110795937A true CN110795937A (zh) 2020-02-14

Family

ID=69439703

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910913189.6A Pending CN110795937A (zh) 2019-09-25 2019-09-25 信息处理方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN110795937A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111930894A (zh) * 2020-08-13 2020-11-13 腾讯科技(深圳)有限公司 长文本匹配方法及装置、存储介质、电子设备
CN112070422A (zh) * 2020-11-05 2020-12-11 广州竞远安全技术股份有限公司 一种基于神经网络的安全测评师派工系统及方法
CN115563933A (zh) * 2022-09-19 2023-01-03 中国电信股份有限公司 词编码方法、装置、存储介质与电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180060730A1 (en) * 2016-08-29 2018-03-01 International Business Machines Corporation Leveraging class information to initialize a neural network langauge model
CN107766318A (zh) * 2016-08-17 2018-03-06 北京金山安全软件有限公司 一种关键词的抽取方法、装置及电子设备
US20180196800A1 (en) * 2017-01-06 2018-07-12 Layer 6 Inc. Learning document embeddings with convolutional neural network architectures
US20180341839A1 (en) * 2017-05-26 2018-11-29 Oracle International Corporation Techniques for sentiment analysis of data using a convolutional neural network and a co-occurrence network
CN109977226A (zh) * 2019-03-14 2019-07-05 南京邮电大学 基于卷积神经网络的高精度文本分类方法和系统
CN110083676A (zh) * 2019-04-22 2019-08-02 东北大学 一种基于短文本的领域动态跟踪方法
CN110188176A (zh) * 2019-04-30 2019-08-30 深圳大学 深度学习神经网络及训练、预测方法、系统、设备、介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766318A (zh) * 2016-08-17 2018-03-06 北京金山安全软件有限公司 一种关键词的抽取方法、装置及电子设备
US20180060730A1 (en) * 2016-08-29 2018-03-01 International Business Machines Corporation Leveraging class information to initialize a neural network langauge model
US20180196800A1 (en) * 2017-01-06 2018-07-12 Layer 6 Inc. Learning document embeddings with convolutional neural network architectures
US20180341839A1 (en) * 2017-05-26 2018-11-29 Oracle International Corporation Techniques for sentiment analysis of data using a convolutional neural network and a co-occurrence network
CN109977226A (zh) * 2019-03-14 2019-07-05 南京邮电大学 基于卷积神经网络的高精度文本分类方法和系统
CN110083676A (zh) * 2019-04-22 2019-08-02 东北大学 一种基于短文本的领域动态跟踪方法
CN110188176A (zh) * 2019-04-30 2019-08-30 深圳大学 深度学习神经网络及训练、预测方法、系统、设备、介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘梓郁: "基于图像与自然语言相融合的情感分析算法研究" *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111930894A (zh) * 2020-08-13 2020-11-13 腾讯科技(深圳)有限公司 长文本匹配方法及装置、存储介质、电子设备
CN111930894B (zh) * 2020-08-13 2022-10-28 腾讯科技(深圳)有限公司 长文本匹配方法及装置、存储介质、电子设备
CN112070422A (zh) * 2020-11-05 2020-12-11 广州竞远安全技术股份有限公司 一种基于神经网络的安全测评师派工系统及方法
CN112070422B (zh) * 2020-11-05 2021-07-30 广州竞远安全技术股份有限公司 一种基于神经网络的安全测评师派工系统及方法
CN115563933A (zh) * 2022-09-19 2023-01-03 中国电信股份有限公司 词编码方法、装置、存储介质与电子设备
CN115563933B (zh) * 2022-09-19 2023-12-01 中国电信股份有限公司 词编码方法、装置、存储介质与电子设备

Similar Documents

Publication Publication Date Title
CN111368996B (zh) 可传递自然语言表示的重新训练投影网络
Sun et al. Modeling mention, context and entity with neural networks for entity disambiguation
CN110704588A (zh) 基于长短期记忆网络的多轮对话语义分析方法和系统
WO2021072852A1 (zh) 序列标注方法、系统和计算机设备
JP2020520492A (ja) 文書要約自動抽出方法、装置、コンピュータ機器及び記憶媒体
CN110598206A (zh) 文本语义识别方法、装置、计算机设备和存储介质
CN110750965B (zh) 英文文本序列标注方法、系统及计算机设备
CN110795937A (zh) 信息处理方法、装置及存储介质
CN113220886A (zh) 文本分类方法、文本分类模型训练方法及相关设备
CN111985228B (zh) 文本关键词提取方法、装置、计算机设备和存储介质
JP6738769B2 (ja) 文ペア分類装置、文ペア分類学習装置、方法、及びプログラム
CN109710921B (zh) 词语相似度的计算方法、装置、计算机设备及存储介质
CN112580328A (zh) 事件信息的抽取方法及装置、存储介质、电子设备
CN111737406B (zh) 文本检索方法、装置及设备、文本检索模型的训练方法
CN113204611A (zh) 建立阅读理解模型的方法、阅读理解方法及对应装置
CN112329392B (zh) 双向编码的目标编码器构建方法及装置
CN113822315A (zh) 属性图的处理方法、装置、电子设备及可读存储介质
Li et al. Slim embedding layers for recurrent neural language models
CN110674301A (zh) 一种情感倾向预测方法、装置、系统及存储介质
CN114528835A (zh) 基于区间判别的半监督专业术语抽取方法、介质及设备
CN110929532B (zh) 数据处理方法、装置、设备及存储介质
CN115730597A (zh) 多级语义意图识别方法及其相关设备
CN111241843B (zh) 基于复合神经网络的语义关系推断系统和方法
CN113254649B (zh) 敏感内容识别模型的训练方法、文本识别方法及相关装置
CN112579794B (zh) 一种为中英文单词对预测义原树的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination