CN113887217A - 词向量增量方法、电子设备及计算机存储介质 - Google Patents
词向量增量方法、电子设备及计算机存储介质 Download PDFInfo
- Publication number
- CN113887217A CN113887217A CN202111218551.1A CN202111218551A CN113887217A CN 113887217 A CN113887217 A CN 113887217A CN 202111218551 A CN202111218551 A CN 202111218551A CN 113887217 A CN113887217 A CN 113887217A
- Authority
- CN
- China
- Prior art keywords
- word
- word vector
- target
- vector space
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2137—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on criteria of topology preservation, e.g. multidimensional scaling or self-organising maps
- G06F18/21375—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on criteria of topology preservation, e.g. multidimensional scaling or self-organising maps involving differential geometry, e.g. embedding of pattern manifold
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种词向量增量方法、电子设备及计算机存储介质。该词向量增量方法包括:获取待对齐词向量空间的第一词语集相对于目标词向量空间的第二词语集的新增词;将新增词在待对齐词向量空间中的词向量映射到目标词向量空间中;利用待对齐词向量空间中目标词语基于第一词语集的局部线性特征重构目标词语在目标词向量空间中的词向量。通过这种方式,能够提高不同词向量空间中词向量的对齐及融合精度,实现对目标词向量空间中词向量的扩增。
Description
技术领域
本申请涉及自然语言处理技术领域,特别是涉及一种词向量增量方法、电子设备及计算机存储介质。
背景技术
近年来,自然语言处理技术得到了迅猛的发展。其中,词向量作为自然语言处理技术中的重要基石,在自然语言处理领域发挥着重要的作用。特别地,因为语料、算法、模型参数等的差异,通常需要将不同的词向量模型进行对齐以及融合。
在传统技术中,通常在跨语言词向量中使用基于线性的假设,将不同向量空间的词向量映射到同一向量空间中,以此解决词向量空间不一致的问题。但基于线性正交映射的假设通常存在一定的局限性,使得词向量空间对齐的效果欠佳,导致部分词语映射后的词向量差异性较大,导致不同词向量空间中的词向量的对齐及融合效果较差。
发明内容
本申请主要解决的技术问题是提供一种词向量增量方法、电子设备及计算机存储介质,以提高不同词向量空间中词向量的对齐及融合精度。
为解决上述技术问题,本申请采用的一个技术方案是:提供一种词向量增量方法。该词向量增量方法包括:获取待对齐词向量空间的第一词语集相对于目标词向量空间的第二词语集的新增词;将新增词在待对齐词向量空间中的词向量映射到目标词向量空间中;利用待对齐词向量空间中目标词语基于第一词语集的局部线性特征重构目标词语在目标词向量空间中的词向量。
为解决上述技术问题,本申请采用的一个技术方案是:提供一种电子设备。该电子设备包括相互耦接的存储器和处理器,处理器用于执行存储器中存储的程序数据,以实现上述任一项的词向量增量方法。
为解决上述技术问题,本申请采用的一个技术方案是:提供一种计算机存储介质。该计算机存储介质上存储有程序数据,程序数据能够被执行以实现上述任一项的词向量增量方法。
本申请实施例的有益效果是:本申请先获取待对齐词向量空间的第一词语集相对于目标词向量空间的第二词语集的新增词,接着将该新增词在待对齐词向量空间中的词向量映射到目标词向量空间中,以将新增词对齐增量至目标词向量空间中,最后利用待对齐词向量空间中目标词语(第一词语集中的词语)基于第一词语集的局部线性特征重构该目标词语在目标词向量空间中的词向量。因本申请在重构目标词语在目标词向量空间中的词向量之前,将待对齐词向量空间的第一词语集相对于目标词向量空间的第二词语集的新增词增量到目标词向量空间中,能够增加目标词向量空间中的词语的数量。由于目标词向量空间中的词语的增加,故而对于目标词向量空间中的词语而言,其对应的邻近词也得到了丰富,即通过将其他词向量空间中的新增词映射至目词向量空间中后,能够补全词语在目标词向量空间中的邻近词集,以解决现有技术中部分词语的局部结构表示效果欠佳的问题。同时,本申请在将新增词对齐增量至目标词向量空间中后,进一步利用词语的局部线性特征重构目标词向量空间中对应的词语的词向量,即利用词语的局部线性特征调整目标词向量空间中词向量,能够提高目标词向量空间中词向量的精度;因此,本申请能够提高不同词向量空间中词向量的对齐及融合精度,且能增加目标词向量空间中的词语的数量,实现对目标词向量空间的扩增。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请词向量增量方法一实施例的流程示意图;
图2是图1实施例中步骤S12的具体流程示意图;
图3是图1实施例中步骤S13的具体流程示意图;
图4是图3实施例中步骤S31的具体流程示意图;
图5是图3实施例中步骤S32的具体流程示意图;
图6是本申请词向量增量方法一实施例的流程示意图;
图7是本申请词向量增量方法一实施例部分流程的流程示意图
图8是未应用本申请词向量增量方法前的词向量分布示意图;
图9是现有的局部线性融合方法结果及其缺点示意图;
图10是图9应用本申请词向量增量方法的词向量分布过程及结果示意图;
图11是本申请词向量增量前后的平均余弦相似度对比图;
图12为本申请词向量增量方法在不同K值下的交集词平均余弦相似度折线图;
图13为本本申请词向量增量方法在不同K值下的新增词平均余弦相似度折线图;
图14是本申请电子设备一实施例的结构示意图;
图15是本申请计算机存储介质一实施例的结构示意图;
图16是本申请词向量增量方法中待对齐词向量空间与目标词向量空间之间词向量映射过程示意图。
具体实施方式
下面结合附图和实施例,对本申请作进一步的详细描述。特别指出的是,以下实施例仅用于说明本申请,但不对本申请的范围进行限定。同样的,以下实施例仅为本申请的部分实施例而非全部实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请实施例的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
词向量作为自然语言处理技术中的重要基石,在自然语言处理领域发挥着重要的作用。特别地,因为语料、算法、模型参数等的差异,导致不同的词向量模型之间存在差异,通常需要将不同的词向量模型进行对齐以及融合。
在传统技术中,通常基于线性的假设,将不同的词向量映射到同一向量空间中,以此解决词向量空间不一致的问题。由于线性假设存在一定的局限性,也有方法考虑非线性的映射,通过构建多个线性模型或者基于局部线性的特征进行不同词向量空间中词向量的融合。但是,通过构建多个线性模型的方法忽略了不同类别之间的关联,提升的效果有限。例如,基于局部线性思想的方法能较好地保持局部线性的特征,T.Deng(2016)等人的文章将局部线性嵌入融入到降维中,DENG Tingquan(2018)将局部线性嵌入引用到离群点检测中。
为此,本申请首先提出一种词向量增量方法,如图1所示,图1是本申请词向量增量方法一实施例的流程示意图。本实施例词向量增量方法具体包括以下步骤:
步骤S11:获取待对齐词向量空间的第一词语集相对于目标词向量空间的第二词语集的新增词。
在执行步骤S11之前,本实施例还包括:获取语料文本,利用语料文本进行模型训练,得到待对齐词向量模型。其中,语料文本中包括新增词(例如可以是专有领域的专有词,)及交集词(例如可以是不同领域之间的通用词),待对齐词向量模型的词向量空间可以理解为待对齐词向量空间。
具体地,获取语料文本,并利用word2vec、Glove或者其他词向量训练方法(模型)基于语料文本进行训练,得到待对齐词向量模型。具体地,得到语料文本后,对语料文本进行清洗以及分词,清洗及分词后的语料文本使用word2vec等进行训练,得到待对齐词向量模型。
而目标词向量空间可以理解为目标词向量模型对应的空间,目标词向量模型可以采用预先训练好的词向量模型。在一些实施例中,无法获取用于训练目标词向量模型的语料,或者无法得到用于训练目标词向量模型的训练参数,故而,可以直接获取预先训练好的目标词向量模型,以解决无法获取训练词向量的语料时无法通过语料训练得到目标词向量模型的问题。当然,在另外的实施例中,目标词向量模型也可以利用word2vec、Glove或者其他词向量训练方法基于语料文本进行训练得到。
例如,可以获取开源的词向量库(目标词向量空间),开源的词向量库中包含的词向量数量庞大,其词向量是基于超大量的语料,利用超级计算机进行长时间模型训练得到的;但是仍然有大量新增词(例如专业词)在开源的词向量库中没有被包含。因开源的词向量库仅开源了词向量结果,没有开源语料和训练过程中的辅助信息,因此无法在开源的词向量库基础上通过增加专业语料的方式去继续训练而得到包含新增词(例如专业词)的目标词向量库(目标词向量空间)。
为此,本实施例可以利用包括新增词(例如专业词)的语料训练得到词向量库,例如,可以利用与A企业产品相关的新增词(例如专业词)的语料训练得到A企业的词向量库,即待对齐词向量库(待对齐词向量空间)。该待对齐词向量库与目标词向量库之间存在交集词(例如通用词),且待对齐词向量库包含交集词及新增词,即待对齐词向量空间中的第一词语集包括与目标词向量空间中的第二词语集相交的交集词及第二词语集中没有的新增词。
在一些实施例中,可以将第一词语集及第二词语集进行比对,获得第一词语集相对第二词语集的新增词,新增词是在第一词语集中,但不在第二词语集中的词语。
步骤S12:将新增词在待对齐词向量空间中的词向量映射到目标词向量空间中。
由于不同的词向量模型的训练语料不同,或者训练方式不同,故而不同的词向量模型中对同一个词语的词向量表示可能存在差异。在一些实施例中,可以基于不同的词向量模型之间的映射关系,基于该映射关系实现待对齐词向量空间的词向量到目标词向量空间的转换,实现不同词向量空间的对齐。
例如,词语“维修”在待对齐词向量空间中的词向量为“维修[1.1,0.2,…0.9]”,而在目标词向量空间中的词向量为“维修[1.9,0.7,…0.19]”,很显然,词语“维修”在不同的词向量空间中的词向量表示不同。其中,词向量的各个分量可以理解为该词语在向量空间中的坐标值。
在一些实施例中,映射关系可以包括旋转、平移以及缩放处理中的一种或者多种组合。例如,可以将待对齐词向量空间中词向量进行旋转、平移及缩放处理,使得处理后的待对其词向量空间中的词向量的坐标值与目标词向量空间中的对应的词语的坐标值相同或者接近,即完成待对齐词向量空间到目标词向量空间的对齐。
在一些实施例中,对齐是针对同一种语言类型的语料的对齐而不是不同种语言类型之间的语料的对齐。并且,通过对齐实现基于不同的词向量模型中的词语对目标词向量模型中的词语的增加,实现了目标词向量空间中词语的扩增效果。
上述实施例中,将新增词在待对齐词向量空间中的词向量映射到目标词向量空间中,实现了新增词到目标词向量空间中的对齐增量,丰富了目标词向量空间的词向量。
具体地,本实施例可以通过如图2所示的方法实现步骤S12。本实施例的方法具体包括步骤S21至步骤S24。
步骤S21:获取第一词语集与第二词语集的交集词语集。
交集词语集中的交集词为待对齐词向量空间与目标词向量空间共有的词语,新增词则为待对齐词向量空间特有的词语。
例如,A企业的词向量库(待对齐词向量空间)的新增词可以包括“强力洗”、“童锁”等A企业产品的特有词语;A企业的词向量库与B企业的词向量库(目标词向量空间)的交集词可以包括“漂亮”、“维修”等通用词语。
待对齐词向量空间中的新增词的新增词语集与该交集词语集构成第一词语集。
步骤S22:获取交集词语集中的交集词在目标词向量空间中的第一交集词向量及交集词在目标词向量空间中的第二交集词向量。
由上述分析可知,交集词在待对齐词向量空间中的词向量与在目标词向量空间中的词向量不同。
分别从待对齐词向量空间中的词向量VA中获取与交集词对应的第一交集词向量VAi,以及从目标词向量空间中的词向量VB中获取与该交集词对应的第二交集词向量VBi。
步骤S23:获取第一交集词向量与第二交集词向量之间的映射关系。
该映射关系可以通过正交映射矩阵W*进行表示。
利用交集词对应的第一交集词向量VAi的集合以及第二交集词向量VBi的集合,得到待对齐词向量空间与目标词向量空间的正交映射矩阵W*。
利用正交映射矩阵W*能够将待对齐词向量空间中新增词的词向量映射到目标词向量空间中,实现待对齐词向量空间中的新增词的词向量到目标词向量空间的对齐增量;采用正交映射矩阵W*能够减少信息损失。
本实施例可以通过奇异值分解(Singular Value Decomposition,SVD)等方法基于第一交集词向量VAi集合以及第二交集词向量VBi集合求解正交映射矩阵W*。
步骤S24:基于映射关系将新增词在待对齐词向量空间中的词向量映射到目标词向量空间中。
通过将待对齐词向量空间中的新增词映射至目标词向量空间中的方式,能够实现待对齐词向量空间中的词向量与目标词向量空间中词向量的全局对齐。
如图16所示,可以利用正交映射矩阵W*,将待对齐词向量空间中的新增词A的词向量VAO映射到目标词向量中间中,得到新增词A在目标词向量中间中的词向量VAO’,VAO’≈W*VAO;将词向量VAO’与目标词向量空间的词向量VB(包括交集词B的第二交集词向量VBi及特有词C的词向量)进行组合,得到目标词向量空间的词向量。其中,交集词B在目标词向量空间中的第二交集词向量VBi与交集词B在待对齐词向量空间中的第一交集词向量VAi存在映射关系:VBi≈W*VAi。
步骤S13:利用待对齐词向量空间中目标词语基于第一词语集的局部线性特征重构目标词语在目标词向量空间中的词向量。
基于局部线性思想对目标词语进行邻近表示时,邻近词的丰富性是保证对目标词语局部线性表示准确度的重要前提。例如,在一些实施例中,可以从待对齐词向量空间与目标词向量空间中的交集词中获取目标词语的邻近词,但是当目标词语的邻近词无法在交集词中准确找到时就会导致对该目标词语的局部线性表达效果较差,进而导致对目标词向量空间的扩增效果较差。本申请中,在重构目标词语在目标词向量空间中的词向量之前,首先将待对齐词向量空间的第一词语集相对于目标词向量空间的第二词语集的新增词增量到目标词向量空间中,实现对目标词向量空间的全局线性扩增,进而在全局线性扩增后的目标词向量空间中对目标词语进行局部线性表示,提高了对目标词语局部线性表示的准确度。通过全局线性扩增可以扩大目标词语在目标词向量空间中的邻近词集,故而在目标词向量空间中对目标词语进行局部线性表示时可以选取更加准确的邻近词,使得对目标词语的局部线性表示更加准确,以解决目标词向量空间中部分词语的局部结构表示效果欠佳的问题。且,本申请在将新增词对齐增量至目标词向量空间中后,进一步利用词语的局部线性特征重构目标词向量空间中对应的词语的词向量,即利用词语的局部线性特征调整目标词向量空间中词向量,将局部线性映射的思想融入到词向量映射中,能够提高目标词向量空间中词向量的精度,相比于线性正交映射能有较大的提升效果。因此,本申请不仅能够实现不同词向量空间之间词语的融合,实现对目标词向量空间中词语的新增,同时通过局部线性重构的方式进行词语的新增还能够提高不同词向量空间中词向量的对齐及融合的精度和效果。
可选地,本实施例的局部线性特征包括待对齐词向量空间中目标词语的邻近词及各邻近词对目标词语的权重系数。其中,目标词语为第一词语集中的词语,其包括待对齐词向量空间中新增词及交集词。本实施例可以通过如图3所示的方法实现步骤S13。本实施例的方法具体包括步骤S31至步骤S33。
步骤S31:从第一词语集中获取目标词语在待对齐词向量空间中的多个邻近词。
由上述分析可知,第一词语集包括待对齐词向量空间的新增词及交集词,因此从第一词语集中获取的目标词语的邻近词包括新增词和/或交集词。
词向量空间中的每个词语都能由其K个邻近词线性表示,该K个邻近词对该词语的线性表示体现了该词语在词向量空间中的局部线性特征。
可选地,本实施例可以采用如图4所示的方法实现步骤S31,本实施例的方法包括步骤S41及步骤S42。
步骤S41:计算目标词语在待对齐词向量空间中与第一词语集中其它词语之间的余弦距离。
分别计算目标词语在待对齐词向量空间中与第一词语集中其它每个词语之间的余弦距离。
步骤S42:确定余弦距离小于预设距离的其它词语为目标词语的邻近词。
将余弦距离与预设距离进行比较,将小于预设距离的余弦距离对应的词语作为目标词语的邻近词。
在一些实施例中,可以采用了最邻近节点算法(K Near Neighbor,KNN),通过度量余弦距离来求得待对齐词向量空间中目标词语的邻近词集合。当然,在其它实施例中,还可以通过欧式距离等来获取目标词语的邻近词。
与目标词语之间的余弦距离越小(越邻近)的邻近词对目标词语的局部线性特征的贡献越大,因此,本实施例可以先将目标词语的邻近词按照余弦距离的升序,即从小到大进行排序,得到序列,然后按从小到大的顺序从序列中获取K(下文中会介绍如何确定最佳的K)个余弦距离对应的邻近词(相对最邻近的)作为目标词语的邻近词集。
例如,在待对齐词向量空间中,新增词“洗碗机”,可以由其对应的5个(K=5)最邻近词语集{“洗”,“碗筷”,“洗衣机”,“洗涤剂”,“洗碗盐”}表示。
步骤S32:获取各邻近词在待对齐词向量空间中对目标词的权重系数。
权重系数的大小体现了邻近词与目标词语之间的远近(在待对齐目标空间中),权重系数的数值体现了邻近词与目标词语之间的距离比例(与单位距离,可预设)。
在词向量中间中,每个词语都能够由其邻近词语集中的多个(至少两个)邻近词及对应的权重系数构成的局部线性关系表示,该局部线性关系体现该词语的局部线性特征;例如,洗碗机=0.15洗+0.3碗筷+0.1洗衣机+0.2洗涤剂+0.25洗碗盐。权重系数{0.15,0.3,0.1,0.2,0.25}是邻近词{“洗”,“碗筷”,“洗衣机”,“洗涤剂”,“洗碗盐”}对目标词语“洗碗机”的权重系数。
可选地,本实施例可以通过如图5的方法实现步骤S32,本实施例的方法包括步骤S51及步骤S52。
步骤S51:构建多个邻近词对目标词语的局部线性关系,并配置多个邻近词在局部线性关系中的初始权重系数。
构建目标词语的K邻近词对目标词语的局部线性关系,并配置K邻近词在该局部线性关系中的初始权重系数。
针对待对齐词向量空间中的每个目标词语vi,根据上述方法得到其邻近词语集Qi及每个邻近词对应的权重系数wii,将目标词语vi表示成为K个邻近词的局部线性关系vi=w1i*v1+w2i*v2…wki*vk。
步骤S52:为局部线性关系构建损失函数,并利用损失函数求解配置有初始权重系数的局部线性关系,得到多个邻近词对目标词语的权重系数。
本实施例可以使用均方误差构建局部线性关系的损失函数,求解损失函数,得到新增词的邻近词该新增词的权重系数。
还可以采用局部线性嵌入算法及拉格朗日函数构建局部线性关系的损失函数。
本实施例基于损失函数能够获得最优的权重系数。
步骤S33:在目标词向量空间中,利用各邻近词在目标词向量空间中的词向量及权重系数重构目标词语在目标词向量空间中的词向量。
利用各邻近词在目标词向量空间中的词向量及在待对齐词向量空间中对目标词语的权重系数重构目标词语在目标词向量空间中的词向量。
通过上述方法已将新增词及其词向量对齐增量到目标词向量空间中,补齐了目标词向量空间中词语的邻近词集,进而使得目标词向量空间中词语的局部线性特征更精确,能够提升该词语的局部结构表示效果。
例如,在对齐增量之前,待对齐词向量空间中的新增词“洗碗盐”,不在目标词向量空间中,导致以“洗碗盐”作为邻近词的词语“洗碗机”不能用“洗碗盐”来表示其局部线性特征,导致对“洗碗机”的局部线性表示效果不佳;但通过本实施例的上述方法能够将“洗碗盐”及其词向量信息补全到词语“洗碗机”的邻近词语集中,因此,本实施例可以利用“洗碗盐”对“洗碗机”的局部线性特征进行表示,能够提高“洗碗机”的词向量的局部表示效果。
具体地,本实施例首先获取目标词语的各邻近词在目标词向量空间中的词向量,其中,每个词向量具有多个分量;然后计算各邻近词的词向量中每个分量基于权重系数的加权值,该加权值为目标词语在目标词向量中对应的分量。
也就是说,目标词语在目标词向量空间中的每个词分量都由K个邻近词的局部线性关系xi=w1i*x1+w2i*x2…wki*xk计算得到;其中,xi为目标词语在目标词向量空间中的分量,x1…xk分别为K个邻近词在目标词向量空间中的分量。
本实施例利用目标词语在待对齐词向量空间中的局部线性特征调整目标词语在目标词向量空间中的词向量,能够提高目标词语在目标词向量空间中词向量的精度;因此,能够进一步提高不同词向量空间中词向量的对齐及融合精度。
本申请进一步提出另一实施例的词向量增量方法,如图6所示,图6是本申请词向量增量方法一实施例的流程示意图。本实施例向量增量方法具体包括以下步骤:
步骤S61:获取待对齐词向量空间的第一词语集相对于目标词向量空间的第二词语集的新增词。
步骤S61与上述步骤S11类似,这里不赘述。
步骤S62:将新增词在待对齐词向量空间中的词向量映射到目标词向量空间中。
步骤S62与上述步骤S12类似,这里不赘述。
步骤S63:计算目标词语在待对齐词向量空间中与第一词语集中其它词语之间的余弦距离。
步骤S63与上述步骤S41类似,这里不赘述。
步骤S64:确定余弦距离小于预设距离的其它词语为目标词语的邻近词。
步骤S64与上述步骤S42类似,这里不赘述。
在目标词向量空间中,目标词语对应多个邻近词组,每个邻近词组包括多个邻近词,且不同组的所述邻近词组中包括的所述邻近词的个数不同。本实施例可以通过步骤S65及步骤S66获得目标词语的多个邻近词组。
步骤S65:将目标词语的邻近词按其余弦距离的升序进行排列,得到序列。
与目标词语之间的余弦距离越小(越邻近)的邻近词对目标词语的局部线性特征的贡献越大;本实施例可以先将目标词语的邻近词按照余弦距离的升序进行排序,得到序列。
步骤S66:按从小到大的顺序从序列中获取目标词语的多个邻近词组。
按从小到大(余弦距离)的顺序从序列中获取多个邻近词组,每个邻近词组的邻近词组的数量K不同。K可以为5、10等。
步骤S67:分别获取每个邻近词组中各邻近词在待对齐词向量空间中对目标词语的权重系数。
获取每个邻近词组的K个邻近词在待对齐词向量空间中对目标词语的权重系数。
本实施例还可以采用上述步骤S51及步骤S52分别确定每个邻近词的最优权重系数,这里不赘述。
步骤S68:分别利用每个邻近词组中各邻近词在目标词向量空间中的词向量及对应的权重系数重构目标词语在目标词向量空间中的词向量。
具体地,针对每个邻近词组,首先获取各邻近词在目标词向量空间中的词向量,其中,每个词向量具有多个分量;然后计算各邻近词的词向量中每个分量基于权重系数的加权值,该加权值为目标词语在目标词向量中对应的分量。
目标词语在目标词向量空间中的每个词分量都由为K个邻近词的局部线性关系xi=w1i*x1+w2i*x2…wki*xk计算得到;其中,xi为目标词语在目标词向量空间中的分量,x1…xk分别为K个邻近词在目标词向量空间中的分量。
步骤S69:利用测试语料集分别对重构后的目标词向量空间对应的目标词向量模型进行测试,获得多个余弦相似度。
获取测试语料集,并利用测试语料集分别对经每个邻近词组及对应的权重系数重构后的目标词语的词向量后的目标词向量模型进行训练,获得多个余弦相似度。
在其它实施例中,还可以采用RPD等评估指标代替余弦相似度。
步骤S691:从多个余弦相似度中获取最大值。
步骤S692:获取最大值对应的重构后的词向量为目标词语在目标词向量空间中的词向量。
获取最优值对应的权重系数重构后的词向量作为目标词语在目标词向量空间中的词向量。
本实施例是通过从目标词语的邻近词语集中获取多个邻近词组(每组邻近词的数量K不同),及获取每个邻近词组中各邻近词在待对齐词向量空间中对目标词语的权重系数,并基于每个邻近词组中各邻近词在目标词向量空间中的词向量及每个邻近词组中各邻近词对应的权重系数重构目标词向量在目标词向量空间中的词向量,也即采用不同数量的邻近词组合多次重构目标词语在目标词向量空间中的词向量;然后利用数据测试语料集分别对每次重构目标词语的词向量后的目标词向量模型进行测试,最终获取最优指标值对应的词向量作为目标词语在目标词向量空间中的词向量。
例如,从目标词语的邻近词语集中获取5个邻近词(K=5)及这5个邻近词对目标词语的权重系数,并通过损失函数不断迭代得到K=5时最优权重系数;然后从目标词语的邻近词语集中获取10个邻近词(K=10)及这10个邻近词对目标词语的权重系数,然后通过损失函数不断迭代得到K=10时最优权重系数;最后求解K=5、10时,目标词向量模型的指标值,基于最优指标值得到最优K;最优K对应的目标词语在目标词向量空间中词向量为目标词语在目标词向量空间中最终的词向量。
通过上述方式,本实施例能够提高目标词向量空间中的词语的数量,实现对目标词向量空间的扩增。
当然,本实施例的方法还可以用于语义识别等领域,不做具体限定。
上述实施例的目标词语可以包括新增词和交集词,可以通过上述方法将新增词及交集词对齐增量至目标词向量空间。在另一实施例中,目标词语可以仅包括交集词,仅利用上述方法将交集词对齐增量至目标词向量空间。
在其它实施例中,目标词语可以仅包括待对齐词向量空间相对于目标词向量空间的新增词,通过上述方法实现新增词对齐增量至目标词向量空间;而针对待对齐词向量空间的第一词语集与目标词向量空间的第二词语集的交集词,则可以通过下述方法实现对齐增量。
如图7所示,本实施例的方法包括以下步骤:
步骤S71:获取交集词语集中交集词在待对齐词向量空间中的第一交集词向量及交集词在所述目标词向量空间中的第二交集词向量。
步骤S71与步骤S22类似,这里不赘述。
步骤S72:计算第一交集词向量与第二交集词向量的平均词向量,得到交集词向量。
平均词向量可以是第一交集词向量与第二交集词向量的平均值;例如,第一交集词向量(1,1,2)+第二交集词向量(2,3,4)=平均词向量(1.5,2,3)。
步骤S73:将第二交集词向量更新为交集词向量。
本实施例交集词在目标词向量空间中的第二交集词向量更新为交集词在待对齐词向量空间中的第一交集词向量与第二交集词向量的平均词向量,能够保持部分第一交集词向量的向量信息,能够提高目标词向量模型的精准度,特别是对训练待对齐词向量的语料源。
本申请能够解决不同语料、不同算法甚至是不同参数导致训练出来的词向量模型空间不一致的问题;且解决基于局部线性融合方法中部分词语无法得到效果良好的局部线性嵌入的问题,以提升词向量对齐的整体效果;且将正交映射与局部线性嵌入思想融合后融入到向量对齐中来,能够解决线性假设的局限性问题,提高词向量对齐以及融合的效果。
在词向量融合过程中,可以有效利用原有词向量信息,减少训练时间以及资源的消耗,达到增量训练的目的。最终形成的词向量可以有效提高各类文本下游任务(如文本分类、文本聚类等)的准确率。
如图8至图13所示,图8是未应用本申请词向量增量方法前的词向量分布示意图;图9是现有的局部线性融合方法结果及其缺点示意图;图10是图9应用本申请词向量增量方法的词向量分布过程及结果示意图;图11是本申请词向量增量前后的平均余弦相似度对比图;图12为本申请词向量增量方法在不同K值下的交集词平均余弦相似度折线图;图13为本申请词向量增量方法在不同K值下的新增词平均余弦相似度折线图。可知,本申请能有效解决线性映射的局限性问题,能有效提升融合后的效果;可以基于交集词对上与新增词对上的平均余弦相似度选择合适的K值。
其中,从图11的词向量融合前后的平均余弦相似度对比,相似度越大就说明映射后的词向量与对应的原始词向量越接近,就说明映射的效果越好。
从图11-图13中可知,随着K值的增加,余弦相似度呈现先增大后减小的趋势,这是因为K值太小,局部邻近(邻近词)太少,不能保持局部线性结构;K值太大,导致计算样本点的重建权重系数将会十分接近,这就会使得样本点投影到低维空间时会互相重叠起来,丧失了原始数据的信息。
本申请进一步提出一种电子设备,如图14所示,图14是本申请电子设备一实施例的结构示意图。本实施例电子设备本实施例的电子设备80包括处理器81、存储器82、输入输出设备83以及总线84。
该处理器81、存储器82、输入输出设备83分别与总线84相连,该存储器82中存储有程序数据,处理器81用于执行程序数据以实现上述实施例的词向量增量方法。
在本实施例中,处理器81还可以称为CPU(Central Processing Unit,中央处理单元)。处理器81可能是一种集成电路芯片,具有信号的处理能力。处理器81还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器81也可以是任何常规的处理器等。
本申请进一步提出一种计算机可读存储介质,如图15所示,本实施例计算机可读存储介质160用于存储上述实施例的程序数据161,程序数据161能够被执行以实现词向量增量方法。程序数据161已在上述方法实施例中进行了详细的叙述,这里不赘述。
本实施例计算机可读存储介质160可以是但不局限于U盘、SD卡、PD光驱、移动硬盘、大容量软驱、闪存、多媒体记忆卡、服务器等。
区别于现有技术,本申请先获取待对齐词向量空间的第一词语集相对于目标词向量空间的第二词语集的新增词,接着将该新增词在待对齐词向量空间中的词向量映射到目标词向量空间中,以将新增词对齐增量至目标词向量空间中,最后利用待对齐词向量空间中目标词语(第一词语集中的词语)基于第一词语集的局部线性特征重构该目标词语在目标词向量空间中的词向量。因本申请在重构目标词语在目标词向量空间中的词向量之前,将待对齐词向量空间的第一词语集相对于目标词向量空间的第二词语集的新增词增量到目标词向量空间中,能够补全词语在目标词向量空间中的邻近词集,以解决现有技术中部分词语的局部结构表示效果欠佳的问题;同时,本申请在将新增词对齐增量至目标词向量空间中后,进一步利用词语的局部线性特征重构目标词向量空间中对应的词语的词向量,即利用词语的局部线性特征调整目标词向量空间中词向量,能够提高目标词向量空间中词向量的精度;因此,本申请能够提高不同词向量空间中词向量的对齐及融合精度。
另外,上述功能如果以软件功能的形式实现并作为独立产品销售或使用时,可存储在一个移动终端可读取存储介质中,即,本申请还提供一种存储有程序数据的存储装置,所述程序数据能够被执行以实现上述实施例的方法,该存储装置可以为如U盘、光盘、服务器等。也就是说,本申请可以以软件产品的形式体现出来,其包括若干指令用以使得一台智能终端执行各个实施例所述方法的全部或部分步骤。
在本申请的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、机构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、机构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的机构、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(可以是个人计算机,服务器,网络设备或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
以上所述仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效机构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种词向量增量方法,其特征在于,包括:
获取待对齐词向量空间的第一词语集相对于目标词向量空间的第二词语集的新增词;
将所述新增词在所述待对齐词向量空间中的词向量映射到所述目标词向量空间中;
利用所述待对齐词向量空间中目标词语基于所述第一词语集的局部线性特征重构所述目标词语在所述目标词向量空间中的词向量。
2.根据权利要求1所述的词向量增量方法,其特征在于,所述将所述新增词在所述待对齐词向量空间中的词向量映射到所述目标词向量空间中包括:
获取所述第一词语集与所述第二词语集的交集词语集;
获取所述交集词语集中的交集词在所述待对齐词向量空间中的第一交集词向量及所述交集词在所述目标词向量空间中的第二交集词向量;
获取所述第一交集词向量与所述第二交集词向量之间的映射关系;
基于所述映射关系将所述新增词在所述待对齐词向量空间中的词向量映射到所述目标词向量空间中。
3.根据权利要求1所述的词向量增量方法,其特征在于,所述局部线性特征包括所述待对齐词向量空间中目标词语的邻近词及各所述邻近词对所述目标词语的权重系数;所述利用所述待对齐词向量空间中目标词语的局部线性特征重构所述目标词语在所述目标词向量空间中的词向量包括:
从所述第一词语集中获取所述目标词语在所述待对齐词向量空间中的多个邻近词;
获取各所述邻近词在所述待对齐词向量空间中对所述目标词语的权重系数;
利用各所述邻近词在所述目标词向量空间中的词向量及所述权重系数重构所述目标词语在所述目标词向量空间中的词向量。
4.根据权利要求3所述的词向量增量方法,其特征在于,所述从所述第一词语集中获取所述目标词语在所述待对齐词向量空间中的多个邻近词包括:
计算所述目标词语在所述待对齐词向量空间中与所述第一词语集中其它词语之间的余弦距离;
确定所述余弦距离小于预设距离的所述其它词语为所述目标词语的邻近词。
5.根据权利要求3所述的词向量增量方法,其特征在于,所述目标词语对应多个所述邻近词组,每一个所述邻近词组包括多个所述邻近词,且不同组的所述邻近词组中包括的所述邻近词的个数不同;所述利用各所述邻近词在所述目标词向量空间中的词向量及所述权重系数重构所述目标词语在所述目标词向量空间中的词向量包括:
分别利用每个所述邻近词组中的所述邻近词在所述目标词向量空间中的词向量及对应的所述权重系数重构所述目标词语在所述目标词向量空间中的词向量;
利用测试语料集分别对重构后的所述目标词向量空间对应的目标词向量模型进行测试,获得每一组的所述邻近词组分别对应的余弦相似度;
在所述目标词向量空间中,利用最优的所述余弦相似度对应的所述邻近词组的邻近词及权重系数重构所述目标词语在所述目标词向量空间中的词向量。
6.根据权利要求3所述的词向量增量方法,其特征在于,所述利用各所述邻近词在所述目标词向量空间中的词向量及所述权重系数重构所述目标词语在所述目标词向量空间中的词向量包括:
在所述目标词向量空间中,基于所述各所述邻近词的词向量的每个分量基于所述权重系数的加权值,确定所述目标词语在所述目标词向量空间中的词向量的分量。
7.根据权利要求2所述的词向量增量方法,其特征在于,所述目标词语包括所述新增词和/或所述交集词。
8.根据权利要求1至7任一项所述的词向量增量方法,其特征在于,进一步包括:
利用语料文本进行模型训练,获取待对齐词向量模型,其中,所述待对齐词向量模型的词向量空间为所述待对齐词向量空间,所述语料文本中包括新增词及交集词。
9.一种电子设备,其特征在于,包括相互耦接的存储器和处理器,所述处理器用于执行所述存储器中存储的程序数据,以实现权利要求1至8任一项所述的词向量增量方法。
10.一种计算机存储介质,其特征在于,其上存储有程序数据,所述程序数据能够被执行以实现权利要求1-8任一项所述的词向量增量方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111218551.1A CN113887217A (zh) | 2021-10-20 | 2021-10-20 | 词向量增量方法、电子设备及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111218551.1A CN113887217A (zh) | 2021-10-20 | 2021-10-20 | 词向量增量方法、电子设备及计算机存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113887217A true CN113887217A (zh) | 2022-01-04 |
Family
ID=79003738
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111218551.1A Pending CN113887217A (zh) | 2021-10-20 | 2021-10-20 | 词向量增量方法、电子设备及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113887217A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113887216A (zh) * | 2021-10-20 | 2022-01-04 | 美的集团(上海)有限公司 | 词向量增量方法、电子设备及计算机存储介质 |
CN116957362A (zh) * | 2023-09-18 | 2023-10-27 | 国网江西省电力有限公司经济技术研究院 | 一种区域综合能源系统的多目标规划方法及系统 |
-
2021
- 2021-10-20 CN CN202111218551.1A patent/CN113887217A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113887216A (zh) * | 2021-10-20 | 2022-01-04 | 美的集团(上海)有限公司 | 词向量增量方法、电子设备及计算机存储介质 |
CN116957362A (zh) * | 2023-09-18 | 2023-10-27 | 国网江西省电力有限公司经济技术研究院 | 一种区域综合能源系统的多目标规划方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zulehner et al. | Advanced simulation of quantum computations | |
Friedman | Recent advances in predictive (machine) learning | |
Shakhnarovich et al. | Nearest-neighbor methods in learning and vision | |
CN113887217A (zh) | 词向量增量方法、电子设备及计算机存储介质 | |
Csordás et al. | The neural data router: Adaptive control flow in transformers improves systematic generalization | |
US20090271761A1 (en) | Generative Programming System and Method Employing Focused Grammars | |
Havel et al. | The combinatorial distance geometry method for the calculation of molecular conformation. I. A new approach to an old problem | |
Guo et al. | A two-level topic model towards knowledge discovery from citation networks | |
Gillenwater et al. | A tree-based method for fast repeated sampling of determinantal point processes | |
Sarkar et al. | An algorithm for DNA read alignment on quantum accelerators | |
Gu | Modeling Sequences with Structured State Spaces | |
Abu-Aisheh et al. | Anytime graph matching | |
Chen et al. | A hybrid monotone decision tree model for interval-valued attributes | |
KR20220066554A (ko) | Qa 모델을 이용하여 지식 그래프를 구축하는 방법, 장치 및 컴퓨터 프로그램 | |
Kumar et al. | Graphical models and message-passing algorithms: Some introductory lectures | |
CN116779061A (zh) | 交互式药物分子设计方法、装置、电子设备及介质 | |
CN117034916A (zh) | 构建词向量表示模型和词向量表示的方法、装置及设备 | |
CN115758145A (zh) | 模型训练方法、文本识别方法、电子设备及可读存储装置 | |
CN113887216A (zh) | 词向量增量方法、电子设备及计算机存储介质 | |
Aloisio et al. | Spectral Measures and Dynamics: Typical Behaviors | |
US11526795B1 (en) | Executing variational quantum algorithms using hybrid processing on different types of quantum processing units | |
Bennett et al. | Fitting sparse Markov models through a collapsed Gibbs sampler | |
Li et al. | A stochastic composite augmented Lagrangian method for reinforcement learning | |
Ferris et al. | Slice models in general purpose modeling systems: An application to DEA | |
Toal et al. | Simple surrogate model assisted optimization with covariance matrix adaptation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |