CN113887216A - 词向量增量方法、电子设备及计算机存储介质 - Google Patents
词向量增量方法、电子设备及计算机存储介质 Download PDFInfo
- Publication number
- CN113887216A CN113887216A CN202111218455.7A CN202111218455A CN113887216A CN 113887216 A CN113887216 A CN 113887216A CN 202111218455 A CN202111218455 A CN 202111218455A CN 113887216 A CN113887216 A CN 113887216A
- Authority
- CN
- China
- Prior art keywords
- word
- word vector
- words
- adjacent
- intersection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000013598 vector Substances 0.000 title claims abstract description 364
- 238000000034 method Methods 0.000 title claims abstract description 80
- 238000012360 testing method Methods 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 16
- 230000003190 augmentative effect Effects 0.000 claims description 15
- 230000004927 fusion Effects 0.000 abstract description 16
- 238000012549 training Methods 0.000 description 20
- 230000000694 effects Effects 0.000 description 13
- 238000013507 mapping Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 5
- 239000000463 material Substances 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 239000003599 detergent Substances 0.000 description 3
- 238000004851 dishwashing Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 150000003839 salts Chemical class 0.000 description 3
- 238000005406 washing Methods 0.000 description 3
- 230000001174 ascending effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2137—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on criteria of topology preservation, e.g. multidimensional scaling or self-organising maps
- G06F18/21375—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on criteria of topology preservation, e.g. multidimensional scaling or self-organising maps involving differential geometry, e.g. embedding of pattern manifold
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种词向量增量方法、电子设备及计算机存储介质。该词向量增量方法包括:获取待对齐词向量空间中第一词语集与目标词向量空间中第二词语集之间的交集词语集;获取第一词语集相对于第二词语集的新增词;获取新增词的在待对齐词向量空间中由交集词语集中的交集词构成的局部线性关系;利用局部线性关系构造新增词在目标词向量空间中的词向量。通过这种方式,能够提高不同词向量空间中词向量的对齐及融合质量,实现对目标词向量空间的扩增。
Description
技术领域
本申请涉及自然语言处理技术领域,特别是涉及一种词向量增量方法、电子设备及计算机存储介质。
背景技术
近年来,自然语言处理技术得到了迅猛的发展。其中,词向量作为自然语言处理技术中的重要基石,在自然语言处理领域发挥着重要的作用。特别地,因为语料、算法、模型参数等的差异,通常需要将不同的词向量模型进行对齐以及融合。
在传统技术中,通常在跨语言词向量中使用基于线性的假设,将不同向量空间的词向量通过正交映射等方法映射到同一词向量空间中,以此解决词向量空间不一致的问题。但基于线性正交映射的假设通常存在一定的局限性,使得词向量空间对齐的效果欠佳,导致部分词语映射后的词向量差异性较大,导致词向量的对齐及融合效果较差。
发明内容
本申请主要解决的技术问题是提供一种词向量增量方法、电子设备及计算机存储介质,以提高不同词向量空间中词向量的对齐及融合质量。
为解决上述技术问题,本申请采用的一个技术方案是:提供一种词向量增量方法。该词向量增量方法包括:获取待对齐词向量空间中第一词语集与目标词向量空间中第二词语集之间的交集词语集;获取第一词语集相对于第二词语集的新增词;获取新增词的在待对齐词向量空间中由交集词语集中的交集词构成的局部线性关系;利用局部线性关系构造新增词在目标词向量空间中的词向量。
为解决上述技术问题,本申请采用的一个技术方案是:提供一种电子设备。该电子设备包括相互耦接的存储器和处理器,处理器用于执行存储器中存储的程序数据,以实现上述词向量增量方法。
为解决上述技术问题,本申请采用的一个技术方案是:提供一种计算机存储介质。该计算机存储介质上存储有程序数据,程序数据能够被执行以实现上述词向量增量方法。
本申请实施例的有益效果是:本申请词向量增量方法包括:获取待对齐词向量空间中第一词语集与目标词向量空间中第二词语集之间的交集词语集;获取第一词语集相对于第二词语集的新增词;获取新增词的在待对齐词向量空间中由交集词语集中的交集词构成的局部线性关系;利用局部线性关系构造新增词在目标词向量空间中的词向量。通过局部线性映射的方式,本申请利用待对齐词向量空间相对于目标词向量空间的新增词在待对齐词向量空间中由交集词构成的局部线性关系构造该新增词在目标词向量空间中的词向量,能够将待对齐词向量空间中的新增词增量至目标词向量空间,不仅能够增加目标词向量空间中的词语的数量,实现对目标词向量空间的扩增,且能够将待对齐词向量空间中的新增词的局部线性特征保持到目标词向量空间中,实现局部线性嵌入,能够改善线性假设的局限性问题,进而能够有效提升不同词向量空间中词向量的对齐及融合质量。且本申请将新增词的邻近词语集限定在待对齐词向量空间的第一词语集与目标词向量空间的第二词语集之间的交集词语集,能够避免后续在目标词向量空间中利用新增词的邻近词构造新增词时,部分邻近词不存在而导致新增词的局部线性特征表示欠佳的问题,因此能够提高不同词向量空间中词向量对齐及融合效果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请词向量增量方法一实施例的流程示意图;
图2是图1实施例中步骤S13的具体流程示意图;
图3是图2实施例中步骤S21的具体流程示意图;
图4是图1实施例中步骤S14的具体流程示意图;
图5是本申请词向量增量方法一实施例的流程示意图;
图6是图5实施例词向量增量方法中步骤S55的具体流程示意图;
图7是本申请词向量增量方法一实施例中部分流程的流程示意图;
图8是未应用本申请词向量增量方法前的词向量分布示意图;
图9是应用本申请词向量增量方法的词向量分布过程及结果示意图;
图10是本申请词向量增量前后的平均余弦相似度对比图;
图11为本申请词向量增量方法在不同K值下的交集词平均余弦相似度折线图;
图12为本本申请词向量增量方法在不同K值下的新增词平均余弦相似度折线图;
图13是本申请电子设备一实施例的结构示意图;
图14是本申请计算机存储介质一实施例的结构示意图。
具体实施方式
下面结合附图和实施例,对本申请作进一步的详细描述。特别指出的是,以下实施例仅用于说明本申请,但不对本申请的范围进行限定。同样的,以下实施例仅为本申请的部分实施例而非全部实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请实施例的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
在传统技术中,通常使用word2vec、glove或者其他的词向量生成技术得到词向量,但是,不同语言、不同语料以及不同算法甚至是不同参数训练出来的词向量存在空间上的差异性。因此,通常在跨语言词向量中使用基于线性的假设,将不同的词向量通过回归、正交映射等方法映射到同一向量空间中,以此解决词向量空间不一致的问题。基于正交映射方法的初衷是为了保持词向量嵌入的酉不变性,如果能保持词向量的完美嵌入,映射后的词向量与目标词向量的RPD值应该为0(RPD值是由Xuhui Zhou等人提出的,是可以用来衡量不同词向量差异性的评价指标,其数值越小,代表词向量的差异性越小,特殊地,完全相同的词向量RPD值为0),但实际测试发现基于线性正交映射的方法保持酉不变性并不能得到完全一致的词向量空间,这可能是训练的语料、算法以及模型参数等造成的差异。
因此,基于线性正交映射的假设通常存在一定的局限性,HaoZhou Wang(2021)、Nakashole(2018)等人的研究中也指出了线性假设的局限性,特别是对于差异性较大的语言词向量(如中文与英文)。线性假设的局限性使得不同词向量空间之间对齐的效果欠佳,使得部分词语映射前后的词向量差异性较大,对于不同词向量空间的词对齐、词融合等都有着较大的影响。
本申请将局部线性嵌入思想融入到向量对齐及词增量中来,以解决线性假设的局限性问题,提高词向量对齐以及融合的效果。
为此,本申请首先提出一种词向量增量方法,如图1所示,图1是本申请词向量增量方法一实施例的流程示意图。本实施例词向量增量方法具体包括以下步骤:
步骤S11:获取待对齐词向量空间中第一词语集与目标词向量空间中第二词语集之间的交集词语集。
在执行步骤S11之前,本实施例还包括:利用语料文本进行模型训练,获取待对齐词向量模型。其中,待对齐词向量模型的词向量空间为待对齐词向量空间,语料文本中包括新增词(例如可以是专有领域的专有词,)及交集词(例如可以是不同领域之间的通用词)。
具体地,获取语料文本,并利用word2vec、Glove或者其他词向量训练方法(模型)基于语料文本进行训练,得到待对齐词向量模型。具体地,得到语料源文本后,对语料文本进行清洗以及分词,清洗以及分词后的语料文本使用word2vec等进行训练,得到待对齐词向量模型。
而目标词向量空间可以理解为目标词向量模型的词向量空间;目标词向量模型可以采用预先训练好的词向量模型。在一些实施例中,无法获取用于训练目标词向量模型的语料,或者无法得到用于训练目标词向量模型的训练参数,故而,可以直接获取预先训练好的目标词向量模型,以解决无法获取训练词向量的语料时无法通过语料训练得到目标词向量模型的问题。当然,在另外的实施例中,目标词向量模型也可以利用word2vec、Glove或者其他词向量训练方法基于语料文本进行训练得到。
例如,可以获取开源的词向量库(目标词向量空间),比如开源的词向量库中包含的词向量数量庞大,其词向量是基于超大量的语料,利用超级计算机及长时间的模型训练得到的;但是仍然有大量新增词(例如专业词)在开源的词向量库中没有被包含。
因开源的词向量库仅开源了词向量结果,没有开源语料和训练过程中的辅助信息,因此无法在开源的词向量库基础上通过增加专业语料的方式去继续训练而得到包含专业词/新增词的目标词向量库(目标词向量空间)。
为此,本实施例可以利用专业词/新增词的语料训练得到词向量库,例如,可以利用A企业产品相关的专业词/新增词的语料训练得到A企业词向量库,即待对齐词向量库(待对齐词向量空间)。该待对齐词向量库与目标词向量库之间存在交集词,且待对齐词向量库包含交集词及新增词,即待对齐词向量空间中的第一词语集包括与目标词向量空间中的第二词语集的交集词及新增词。
本实施例的词向量对齐可以将一个或者多个不同的待对齐词向量空间的词向量映射到同一个目标词向量空间中。在一些实施例中,对齐是针对同一种语言类型的语料的对齐而不是不同种语言类型之间的语料的对齐。
交集词语集中的交集词为待对齐词向量空间与目标词向量空间共有的词语(例如通用词),新增词则为待对齐词向量空间特有的词语。
例如,A企业词向量库(待对齐词向量空间)的新增词可以包括“强力洗”、“童锁”等A企业产品的特有词语;A企业词向量库与B企业词向量库(目标词向量空间)的交集词可以包括“漂亮”、“维修”等通用词语。
步骤S12:获取第一词语集相对于第二词语集的新增词。
可以将第一词语集及第二词语集进行比对,获得第一词语集相对第二词语集的新增词,新增词是在第一词语集中,但不在第二词语集中的词语;待对齐词向量空间中的新增词的新增词语集与该交集词语集构成第一词语集。
步骤S13:获取新增词的在待对齐词向量空间中由交集词语集中的交集词构成的局部线性关系。
可选地,本实施例新增词的局部线性关系包括新增词的邻近词及邻近词对新增词的权重系数。本实施例可以通过如图2所示的方法实现步骤S13。本实施例的方法具体包括步骤S21及步骤S22。
步骤S21:从交集词语集中获取新增词的邻近词语集。
本实施例将新增词的邻近词语集限定在待对齐词向量空间的第一词语集与目标词向量空间的第二词语集之间的交集词语集,能够避免后续在目标词向量空间中利用新增词的邻近词构造新增词时,部分邻近词不存在而导致新增词的局部线性特征表示欠佳的问题,因此能够提高不同词向量空间中的词向量对齐及融合效果。
词向量空间中的每个词语都能由其K个邻近词线性表示,该K个邻近词对该词语的线性表示体现了该词语在词向量空间中的局部线性特征。
可选地,本实施例可以采用如图3所示的方法实现步骤S21,本实施例的方法包括步骤S31及步骤S32。
步骤S31:计算新增词在待对齐词向量空间中与交集词语集中其它词语之间的余弦距离。
分别计算新增词在待对齐词向量空间中与交集词语集中其它每个词语之间的余弦距离。
步骤S32:确定余弦距离小于预设距离的其它词语为新增词的邻近词。
将余弦距离与预设距离进行比较,将小于预设距离的余弦距离对应的词语作为新增词的邻近词,得到新增词的邻近词语集。
本实施例采用了最邻近节点算法(K Near Neighbor,KNN)等算法,即通过度量余弦距离来求得待对齐词向量空间中新增词的邻近词组合,即邻近词语集。当然,在其它实施例中,还可以通过欧式距离等来获取新增词的近邻词。
与新增词之间的余弦距离越小(越邻近)的邻近词对新增词的局部线性特征的贡献越大,因此,本实施例可以先将新增词的邻近词按照余弦距离的升序,即从小到大进行排序,得到序列,然后按从小到大的顺序从序列中获取K(下文中会介绍如何确定最佳的K)个余弦距离对应的邻近词(相对最邻近的)作为新增词的邻近词语集。
例如,在待对齐词向量空间中,新增词“洗碗机”,可以由其对应的5个(K=5)最邻近词语集{“洗”,“碗筷”,“洗衣机”,“洗涤剂”,“洗碗盐”}表示。
步骤S22:获取邻近词语集中的邻近词对新增词的权重系数。
权重系数的大小关系体现了邻近词与新增词之间的远近关系(在待对齐目标空间中),权重系数的数值体现了邻近词与新增词之间的距离比例(与单位距离,可预设)。
在词向量空间中,每个词语都能够由其邻近词语集中的多个(至少两个)邻近词及对应的权重系数组成的局部线性关系表示,该局部线性关系体现该词语的局部线性特征;例如,洗碗机=0.15洗+0.3碗筷+0.1洗衣机+0.2洗涤剂+0.25洗碗盐。权重系数{0.15,0.3,0.1,0.2,0.25}是邻近词{“洗”,“碗筷”,“洗衣机”,“洗涤剂”,“洗碗盐”}对新增词“洗碗机”的权重系数。
本实施例可以采用局部线性嵌入算法(LLE)来计算新增词对应的权重。
基于LLE思想,在新增词vi的原始高维邻域里用K-近邻思想找到和它最接近的K个邻近词(v1、v2…vk),然后假设新增词vi可以由K个邻近词(v1、v2…vk)线性表示为vi=w1i*v1+w2i*v2…wki*vk,其中,(w1i、w2i…wki)为权重系数。通过LLE降维后,在新增词在低维空间对应的投影与其邻近词也近似保持上述线性关系。
对于LLE算法,首先要确定邻域大小的选择,即需要多少个邻近词来线性表示新增词,也即上述K值。K值的确定可以参阅下文。
在寻最优K值的过程中,针对每一个K值都需要寻找最优的权重系数才能确定最优的线性关系,本实施例可以采用均方差作为损失函数来获取最优权重系数(具体可以参阅下文)。
步骤S14:利用局部线性关系及对应的交集词构造新增词在目标词向量空间中的词向量。
可选地,本实施例可以采用如图4所示的方法实现步骤S14。本实施的方法包括步骤S41及步骤S42。
步骤S41:获取局部线性关系对应的邻近词在目标词向量空间中的邻近词向量。
词向量空间中,每个词语对应的词向量由多个分量组成。
由上述分析可知,新增词的邻近词为待对齐词向量空间与目标词向量空间的交集词,因此,可以从目标词向量空间中获取该新增词在该局部线性关系中的所有邻近词及这些邻近词对应的邻近词向量。
步骤S42:利用邻近词向量及权重系数构造新增词在目标词向量空间中的词向量。
在目标词向量空间中,获取邻近词的邻近词向量基于权重系数的加权词向量作为新增词在目标词向量空间中的词向量。具体地,获取每个邻近词向量的每个分量;计算多个邻近词向量中每个分量基于权重系数的加权值,该加权值为新增词在目标词向量中对应的分量。
也就是说,新增词在目标词向量空间中的每个分量都由K个邻近词向量的局部线性关系xi=w1i*x1+w2i*x2…wki*xk计算得到;其中,xi为新增词在目标词向量空间中的分量,x1…xk分别为K个邻近词在目标词向量空间中的分量。
本实施例利用待对齐词向量空间相对于目标词向量空间的新增词在待对齐词向量空间中由交集词构成的局部线性关系构造该新增词在目标词向量空间中的词向量,能够将待对齐词向量空间中的新增词对齐增量至目标词向量空间,实现对目标词向量空间的扩增,且能够将新增词的局部线性特征保持到目标词向量空间中,实现局部线性嵌入,能够改善线性假设的局限性问题,进而能够有效提升不同词向量空间中词向量的对齐及融合质量;且本实施例将新增词的邻近词语集限定在待对齐词向量空间的第一词语集与目标词向量空间的第二词语集之间的交集词语集,能够避免后续在目标词向量空间中利用新增词的邻近词构造新增词时,部分邻近词不存在而导致新增词的局部线性特征表示欠佳的问题,因此能够提高不同词向量空间中词向量对齐及融合效果。
本申请进一步提出另一实施例的词向量对齐方法,如图5所示,图5是本申请词向量增量方法一实施例的流程示意图。本实施例向量增量方法具体包括以下步骤:
步骤S51:获取待对齐词向量空间中第一词语集与目标词向量空间中第二词语集之间的交集词语集。
步骤S51与步骤S11类似,这里不赘述。
步骤S52:获取第一词语集相对于第二词语集的新增词。
步骤S52与步骤S12类似,这里不赘述。
步骤S53:从交集词语集中获取新增词的邻近词语集。
步骤S53与步骤S21类似,这里不赘述。
步骤S54:从邻近词语集中确定与新增词对应的多组邻近词组,每组邻近词组包括不同个数的邻近词。
获取的每个邻近词组中邻近词的数量不同,即上述K值不同。
具体地,可以将新增词的邻近词集中的邻近词按其余弦距离的升序进行排列,得到序列(与新增词之间的余弦距离越小(越邻近)的邻近词对新增词的局部线性特征的贡献越大;本实施例可以先将新增词的邻近词按照余弦距离的升序进行排序,得到序列);接着按从小到大的顺序从序列中获取多组邻近词组(按从小到大(余弦距离)的顺序从序列中获取多组邻近词组,每个邻近词组中邻近词的数量K不同。K可以为5、10等);然后获取每组邻近词组在待对齐词向量空间中对新增词的权重系数。
步骤S55:对于每一组邻近词组,确定邻近词组中的每一个邻近词相对于新增词的权重系数,利用邻近词及权重系数在目标词向量空间中重构词向量,并获取重构词向量后的目标词向量空间对应的测试指标参数。
具体地,本实施例还可以采用如图6所示的方法实现步骤S55,本实施例的方法包括步骤S61至步骤S64。
步骤S61:对每一组邻近词组,为邻近词组中的邻近词配置初始权重系数。
构建新增词的K个邻近词对新增词的局部线性关系,针对待对齐词向量空间中的每个新增词vi,根据上述方法得到邻近词语组(v1,v2…vk)及每个邻近词对应的权重系数wii,将新增词vi表示成为K个邻近词的局部线性关系vi=w1i*v1+w2i*v2…wki*vk。并配置K个邻近词在该局部线性关系中的初始权重系数。
步骤S62:基于损失函数对初始权重系数进行调整,得到邻近词组中的每个邻近词相对于新增词的权重系数。
本实施例可以使用均方误差构建局部线性关系的损失函数,求解损失函数,,以对初始权重系数进行调整,得到邻近词组中的每个邻近词相对于对新增词的权重系数。
还可以采用局部线性嵌入算法及拉格朗日函数构建局部线性关系的损失函数。
本实施例基于损失函数能够获得最优的权重系数。
步骤S63:利用邻近词组及权重系数在目标词向量空间中重构词向量。
具体地,本实施例首先获取新增词的邻近词组中每个邻近词在目标词向量空间中的邻近词向量,其中,每个邻近词向量具有多个分量;然后计算多个邻近词向量中每个分量基于权重系数的加权值,该加权值为新增词在目标词向量中对应的分量。
新增词在目标词向量空间中的每个分量都由其K个邻近词向量的局部线性关系xi=w1i*x1+w2i*x2…wki*xk计算得到;其中,xi为新增词在目标词向量空间中的分量,x1…xk分别为K个邻近词的词向量在目标词向量空间中的分量。
步骤64:获取重构词向量后的目标词向量空间对应的测试指标参数。
利用测试语料集对重构词向量后的目标词向量空间对应的目标词向量模型进行测试训练,获得测试指标参数。该测试指标参数可以是RPD或余弦相似度等评估指标。
步骤S56:基于每一组邻近词组对应的测试指标参数,将最优的测试指标参数对应的邻近词组中的邻近词作为新增词的邻近词,并将邻近词的权重系数作为新增词的权重系数。
每组邻近词组对应一个测试指标参数,从多个测试指标参数中获取最优的测试指标参数,并将最优的测试指标参数对应的邻近词组中的邻近词作为新增词在目标词向量空间中的邻近词,并将邻近词的权重系数作为新增词在目标词向量空间中的权重系数。
本实施例是通过从新增词的邻近词语集中获取多组邻近词组(每组邻近词组中邻近词的数量K不同),及获取每组邻近词组中每个邻近词在待对齐词向量空间中对新增词的权重系数,并基于每组邻近词组中每个邻近词在目标词向量空间中的邻近词向量及对应的权重系数重构新增词在目标词向量空间中的词向量,也即采用不同数量的邻近词组合多次重构新增词在目标词向量空间中的词向量;然后利用数据测试语料集分别对每次重构新增词的词向量后的目标词向量模型进行测试训练,最终获取最优的测试指标参数对应的重构后的词向量(邻近词及权重系数)作为新增词在目标词向量空间中的词向量。
例如,从新增词的邻近词语集中获取5个邻近词(K=5)及这5个邻近词对新增词的权重系数,并通过损失函数不断迭代得到K=5时最优权重系数;然后从新增词的邻近词语集中获取10个邻近词(K=10)及这10个邻近词对新增词的权重系数,然后通过损失函数不断迭代得到K=10时最优权重系数;最后求解K=5、10时,目标词向量模型的测试指标参数,基于最优的测试指标参数得到最优K;最优K对应的新增词在目标词向量空间中词向量为新增词在目标词向量空间中最终的词向量。
通过上述方式,本实施例能够提高目标词向量空间对应的目标词向量模型的精准度,进而能够提高语料处理的精准度。
当然,本实施例的方法还可以用于语义识别等领域,不做具体限定。
通过上述方法实现新增词对齐增量至目标词向量空间;而针对待对齐词向量空间的第一词语集与目标词向量空间的第二词语集的交集词,则可以通过下述方法实现对齐增量。
如图7所示,本实施例的方法包括以下步骤:
步骤S71:获取交集词语集中交集词在待对齐词向量空间中的第一交集词向量及交集词在目标词向量空间中的第二交集词向量。
步骤S71与步骤S11类似,这里不赘述。
步骤S72:计算第一交集词向量与第二交集词向量的加权词向量,得到交集词向量。
加权词向量的获取可以通过计算第一交集词向量与第二交集词向量的平均词向量,平均词向量可以是第一交集词向量与第二交集词向量的平均值;例如,第一交集词向量(1,1,2)+第二交集词向量(2,3,4)=平均词向量(1.5,2,3)。需要说明的是,当第一交集词向量对应的权重是零时,此时加权词向量可以为第二交集词向量,当第二交集词向量对应的权重是零时,此时加权词向量可以为第一交集词向量。
步骤S73:将第二交集词向量更新为交集词向量。
本实施例交集词在目标词向量空间中的第二交集词向量更新为交集词在待对齐词向量空间中的第一交集词向量与第二交集词向量的平均词向量,能够保持部分第一交集词向量的向量信息,能够提高目标词向量模型的精准度,特别是对训练待对齐词向量的语料源。
本申请能够解决不同语料、不同算法甚至是不同参数导致训练出来的词向量模型空间不一致的问题;且解决基于局部线性融合方法中部分词语无法得到效果良好的局部线性嵌入的问题,以提升词向量对齐的整体效果;且将局部线性嵌入思想融合后融入到向量对齐中来,能够解决线性假设的局限性问题,提高词向量对齐以及融合的效果。
在词向量融合过程中,可以有效利用原有词向量信息,减少训练时间以及资源的消耗,达到增量训练的目的。最终形成的词向量可以有效提高各类文本下游任务(如文本分类、文本聚类等)的准确率。
如图8至图12所示,图8是未应用本申请词向量增量方法前的词向量分布示意图;图9是应用本申请词向量增量方法的词向量分布过程及结果示意图;图10是本申请词向量增量前后的平均余弦相似度对比图;图11为本申请词向量增量方法在不同K值下的交集词平均余弦相似度折线图;图12为本本申请词向量增量方法在不同K值下的新增词平均余弦相似度折线图。可知,本申请能有效解决线性映射的局限性问题,能有效提升融合后的效果;可以基于交集词对上与新增词对上的平均余弦相似度选择合适的K值。
其中,从图10的词向量融合前后的平均余弦相似度对比,相似度越大就说明映射后的词向量与对应的原始词向量越接近,就说明映射的效果越好。
从图10-图12中可知,随着K值的增加,余弦相似度呈现先增大后减小的趋势,这是因为K值太小,局部近邻(邻近词)太少,不能保持局部线性结构;K值太大,导致计算样本点的重建权重系数将会十分接近,这就会使得样本点投影到低维空间时会互相重叠起来,丧失了原始数据的信息。
本申请进一步提出一种电子设备,如图13所示,图13是本申请电子设备一实施例的结构示意图。本实施例电子设备本实施例的电子设备80包括处理器81、存储器82、输入输出设备83以及总线84。
该处理器81、存储器82、输入输出设备83分别与总线84相连,该存储器82中存储有程序数据,处理器81用于执行程序数据以实现上述实施例的词向量增量方法。
在本实施例中,处理器81还可以称为CPU(Central Processing Unit,中央处理单元)。处理器81可能是一种集成电路芯片,具有信号的处理能力。处理器81还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器81也可以是任何常规的处理器等。
本申请进一步提出一种计算机可读存储介质,如图14所示,本实施例计算机可读存储介质160用于存储上述实施例的程序数据161,程序数据161能够被执行以实现上述词向量增量方法。程序数据161已在上述方法实施例中进行了详细的叙述,这里不赘述。
本实施例计算机可读存储介质160可以是但不局限于U盘、SD卡、PD光驱、移动硬盘、大容量软驱、闪存、多媒体记忆卡、服务器等。
区别于现有技术,本申请词向量增量方法包括:获取待对齐词向量空间中第一词语集与目标词向量空间中第二词语集之间的交集词语集;获取第一词语集相对于第二词语集的新增词;获取新增词的在待对齐词向量空间中由交集词语集中的交集词构成的局部线性关系;利用局部线性关系构造新增词在目标词向量空间中的词向量。通过这种方式,本申请利用待对齐词向量空间相对于目标词向量空间的新增词在待对齐词向量空间中由交集词构成的局部线性关系构造该新增词在目标词向量空间中的词向量,能够将新增词对齐增量至目标词向量空间,且能够将新增词的局部线性特征保持到目标词向量空间中,实现局部线性嵌入,能够改善线性假设的局限性问题,进而能够有效提升词向量的对齐及融合质量;且本申请将新增词的邻近词语集限定在待对齐词向量空间的第一词语集与目标词向量空间的第二词语集之间的交集词语集,能够避免后续在目标词向量空间中利用新增词的邻近词构造新增词时,部分邻近词不存在而导致新增词的局部线性特征表示欠佳的问题,因此能够提高不同词向量空间中词向量对齐及融合效果。
另外,上述功能如果以软件功能的形式实现并作为独立产品销售或使用时,可存储在一个移动终端可读取存储介质中,即,本申请还提供一种存储有程序数据的存储装置,所述程序数据能够被执行以实现上述实施例的方法,该存储装置可以为如U盘、光盘、服务器等。也就是说,本申请可以以软件产品的形式体现出来,其包括若干指令用以使得一台智能终端执行各个实施例所述方法的全部或部分步骤。
在本申请的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、机构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、机构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的机构、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(可以是个人计算机,服务器,网络设备或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
以上所述仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效机构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种词向量增量方法,其特征在于,包括:
获取待对齐词向量空间中第一词语集与目标词向量空间中第二词语集之间的交集词语集;
获取所述第一词语集相对于所述第二词语集的新增词;
获取所述新增词的在所述待对齐词向量空间中由所述交集词语集中的交集词构成的局部线性关系;
利用所述局部线性关系在目标词向量空间中构造所述新增词的词向量。
2.根据权利要求1所述的词向量增量方法,其特征在于,所述局部线性关系包括所述新增词的邻近词及所述邻近词对所述新增词的权重系数;所述获取所述新增词的在所述待对齐词向量空间中由所述交集词语集中的交集词构成的局部线性关系包括:
从所述交集词语集中获取所述新增词的邻近词语集;
获取所述邻近词语集中的邻近词对所述新增词的权重系数。
3.根据权利要求2所述的词向量增量方法,其特征在于,所述利用所述局部线性关系构造所述新增词在所述目标词向量空间中的词向量包括:
获取所述局部线性关系对应的所述邻近词在所述目标词向量空间中的邻近词向量;
利用所述邻近词向量及所述权重系数在目标词向量空间中构造所述新增词的词向量。
4.根据权利要求2所述的词向量增量方法,其特征在于,所述获取所述邻近词语集中的邻近词对所述新增词的权重系数的步骤包括:
从所述近邻词语集中确定与所述新增词对应的多组邻近词组,每一组所述邻近词组包括不同个数的邻近词;
对于每一组所述邻近词组,确定所述邻近词组中的每一个邻近词相对于所述新增词的权重系数,利用所述邻近词及所述权重系数在目标词向量空间中重构词向量,并获取重构词向量后的目标词向量空间对应的测试指标参数;
基于每一组所述邻近词组对应的所述测试指标参数,将最优的所述测试指标参数对应的所述邻近词组中的邻近词作为所述新增词的邻近词,并将所述邻近词的权重系数作为所述新增词的权重系数。
5.根据权利要求4所述的词向量增量方法,其特征在于,所述对于每一组所述邻近词组,确定所述邻近词组中的每一个邻近词相对于所述新增词的权重系数包括:
对于每一组所述邻近词组,为所述邻近词组中的所述邻近词配置初始权重系数;
基于损失函数对所述初始权重系数进行调整,得到所述邻近词组中的每一个所述邻近词相对于所述新增词的权重系数。
6.根据权利要求3所述的词向量增量方法,其特征在于,所述利用所述邻近词向量及所述权重系数构造所述新增词在所述目标词向量空间中的词向量包括:
在所述目标词向量空间中,获取所述邻近词的邻近词向量基于所述权重系数的加权词向量作为所述新增词在所述目标词向量空间中的词向量。
7.根据权利要求1所述的词向量增量方法,其特征在于,进一步包括:
获取所述交集词语集中交集词在所述待对齐词向量空间中的第一交集词向量及所述交集词在所述目标词向量空间中的第二交集词向量;
计算所述第一交集词向量与所述第二交集词向量的加权词向量,得到交集词向量;
将所述第二交集词向量更新为所述交集词向量。
8.根据权利要求4所述的词向量增量方法,其特征在于,所述测试指标参数包括RPD或者余弦相似度。
9.一种电子设备,其特征在于,包括相互耦接的存储器和处理器,所述处理器用于执行所述存储器中存储的程序数据,以实现权利要求1至8任一项所述的词向量增量方法。
10.一种计算机存储介质,其特征在于,其上存储有程序数据,所述程序数据能够被执行以实现权利要求1至8任一项所述的词向量增量方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111218455.7A CN113887216A (zh) | 2021-10-20 | 2021-10-20 | 词向量增量方法、电子设备及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111218455.7A CN113887216A (zh) | 2021-10-20 | 2021-10-20 | 词向量增量方法、电子设备及计算机存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113887216A true CN113887216A (zh) | 2022-01-04 |
Family
ID=79003689
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111218455.7A Pending CN113887216A (zh) | 2021-10-20 | 2021-10-20 | 词向量增量方法、电子设备及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113887216A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107102981A (zh) * | 2016-02-19 | 2017-08-29 | 腾讯科技(深圳)有限公司 | 词向量生成方法和装置 |
CN108364639A (zh) * | 2013-08-23 | 2018-08-03 | 株式会社东芝 | 语音处理系统和方法 |
CN113204961A (zh) * | 2021-05-31 | 2021-08-03 | 平安科技(深圳)有限公司 | 用于nlp任务的语言模型构建方法、装置、设备及介质 |
CN113887217A (zh) * | 2021-10-20 | 2022-01-04 | 美的集团(上海)有限公司 | 词向量增量方法、电子设备及计算机存储介质 |
-
2021
- 2021-10-20 CN CN202111218455.7A patent/CN113887216A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108364639A (zh) * | 2013-08-23 | 2018-08-03 | 株式会社东芝 | 语音处理系统和方法 |
CN107102981A (zh) * | 2016-02-19 | 2017-08-29 | 腾讯科技(深圳)有限公司 | 词向量生成方法和装置 |
CN113204961A (zh) * | 2021-05-31 | 2021-08-03 | 平安科技(深圳)有限公司 | 用于nlp任务的语言模型构建方法、装置、设备及介质 |
CN113887217A (zh) * | 2021-10-20 | 2022-01-04 | 美的集团(上海)有限公司 | 词向量增量方法、电子设备及计算机存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Fischer et al. | Bagging for path-based clustering | |
Friedman | Recent advances in predictive (machine) learning | |
US20220076150A1 (en) | Method, apparatus and system for estimating causality among observed variables | |
JP2020520516A (ja) | 自然言語クエリのデータベースクエリへのニューラルネットワークに基づく翻訳 | |
US8315960B2 (en) | Experience transfer for the configuration tuning of large scale computing systems | |
EP3707622A1 (en) | Generation of text from structured data | |
KR20180062321A (ko) | 딥러닝-기반 키워드에 연관된 단어를 도출하는 방법과 컴퓨터프로그램 | |
CN111401928B (zh) | 基于图数据确定文本的语义相似度的方法及装置 | |
CN111651573B (zh) | 一种智能客服对话回复生成方法、装置和电子设备 | |
CN114329029B (zh) | 对象检索方法、装置、设备及计算机存储介质 | |
CN113887217A (zh) | 词向量增量方法、电子设备及计算机存储介质 | |
CN112948601B (zh) | 一种基于受控语义嵌入的跨模态哈希检索方法 | |
CN111274822A (zh) | 语义匹配方法、装置、设备及存储介质 | |
EP4000036A1 (en) | Group specific decision tree | |
CN110110070B (zh) | 题目推送方法、装置、服务器以及存储介质 | |
CN113065322B (zh) | 一种代码段注释生成方法、系统及可读存储介质 | |
CN112685452B (zh) | 企业案例检索方法、装置、设备和存储介质 | |
CN114974398A (zh) | 一种信息处理方法、装置及计算机可读存储介质 | |
CN113887216A (zh) | 词向量增量方法、电子设备及计算机存储介质 | |
CN110851600A (zh) | 基于深度学习的文本数据处理方法及装置 | |
US20220156336A1 (en) | Projecting queries into a content item embedding space | |
CN115238696A (zh) | 中文命名实体识别方法、电子设备及存储介质 | |
Eom et al. | Marketable value estimation of patents using ensemble learning methodology: Focusing on US patents for the electricity sector | |
KR20230060320A (ko) | 지식 그래프의 통합 방법 및 이를 이용한 기계 학습 장치 | |
CN113377960A (zh) | 用于平台商品评论的分析方法、处理器及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |