CN111401070B - 词义相似度确定方法及装置、电子设备及存储介质 - Google Patents

词义相似度确定方法及装置、电子设备及存储介质 Download PDF

Info

Publication number
CN111401070B
CN111401070B CN201910000540.2A CN201910000540A CN111401070B CN 111401070 B CN111401070 B CN 111401070B CN 201910000540 A CN201910000540 A CN 201910000540A CN 111401070 B CN111401070 B CN 111401070B
Authority
CN
China
Prior art keywords
word
sense
target
words
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910000540.2A
Other languages
English (en)
Other versions
CN111401070A (zh
Inventor
李小涛
游树娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Communications Ltd Research Institute
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Communications Ltd Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Communications Ltd Research Institute filed Critical China Mobile Communications Group Co Ltd
Priority to CN201910000540.2A priority Critical patent/CN111401070B/zh
Publication of CN111401070A publication Critical patent/CN111401070A/zh
Application granted granted Critical
Publication of CN111401070B publication Critical patent/CN111401070B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明实施例公开了一种词义相似度确定方法及装置、电子设备及存储介质。所述词义相似度确定方法包括:获取目标词所在上下文的上下文语义;根据所述上下文语义,从所述目标词的候选词义中确定出所述目标词的当前词义;根据所述当前词义,确定所述目标词的第一词义向量;根据所述第一词义向量与第二词义向量,确定所述目标词与待匹配词之间的相似度,其中,所述第二词义向量为所述待匹配词的词义向量。

Description

词义相似度确定方法及装置、电子设备及存储介质
技术领域
本发明涉及信息技术领域,尤其涉及一种词义相似度确定方法及装置、电子设备及存储介质。
背景技术
计算机和互联网技术的飞速发展使得网络上的数据资源呈指数级增长,这些信息(例如,用户输入的自然语言)对于计算机来说非常难于理解和应用,人们希望从中迅速有效地获取所需要的信息,所以对信息的智能自动化的处理需求越来越迫切,这些自动处理的核心问题之一是含义相似度计算问题。
相关技术提出了利用词向量表征不同词的词义,但是针对多义词当前表达的词义的识别精确度一直达不到期望的精确度。
发明内容
本发明实施例期望提供一种词义相似度确定方法及装置、电子设备及存储介质。
本发明的技术方案是这样实现的:
一种词义相似度确定方法,其特征在于,包括:
获取目标词所在上下文的上下文语义;
根据所述上下文语义,从所述目标词的候选词义中确定出所述目标词的当前词义;
根据所述当前词义,确定所述目标词的第一词义向量;
根据所述第一词义向量与第二词义向量,确定所述目标词与待匹配词之间的相似度,其中,所述第二词义向量为所述待匹配词的词义向量。
基于上述方案,所述获取目标词所在上下文的上下文语,包括:
获取所述目标词所在上下文的词集合;
确定所述词集合中每个词的权重;
基于所述词集合中所述词的词义和所述权重,确定所述上下文语义。
基于上述方案,所述确定所述词集合中每个词的权重,包括:
确定所述词集合中每个词,与所述目标词相隔的词个数;
确定所述词集合中词的词义数量;
根据所述词个数和/或所述词义数量,确定所述权重。
基于上述方案,所述词个数与所述权重负相关;和/或,所述词义数量与所述权重负相关。
基于上述方案,所述根据所述当前词义,确定所述目标词的第一词义向量,包括:
确定所述当前词义对应的编码标识,其中,同一个词的不同词义对应了不同的编码标识;
由词义向量模型基于所述编码标识及所述目标词输出所述第一词义向量。
基于上述方案,所述确定所述当前词义对应的编码标识,包括:
根据所述当前词义及所述目标词的词性,确定所述编码标识,其中,表示相同词义的不同词性的目标词,对应了不同的编码标识。
基于上述方案,所述由词义向量模型基于所述编码标识及所述目标词输出所述第一词义向量,包括:
获取所述目标词的原形态;
组合所述编码标识和所述目标词的原形态,得到所述词义向量模型的输入;
所述词义向量模型基于所述输入,输出所述第一词义向量。
基于上述方案,所述方法还包括:
根据同一训练词的不同词义生成不同的编码标识;
将不同形态的所述训练词转换为原形态;
以所述编码标识及所述原形态的所述训练词、及所述编码标识及所述原形态的所述训练词共同对应的词义为训练样本,训练所述词义向量模型。
一种词义相似度确定装置,包括:
上下文语义模块,用于获取目标词所在上下文的上下文语义;
当前词义模块,用于根据所述上下文语义,从所述目标词的候选词义中确定出所述目标词的当前词义;
第一词义向量模块,用于根据所述当前词义,确定所述目标词的第一词义向量;
相似度模块,用于根据所述第一词义向量与第二词义向量,确定所述目标词与待匹配词之间的相似度,其中,所述第二词义向量为所述待匹配词的词义向量。
一种电子设备,包括:
存储器,
处理器,与存储器连接,用于通过执行存储在所述存储器上的计算机可执行指令,能够实现前述一个或多个技术方案提供的词义相似度确定方法。
一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令;所述计算机可执行指令,能够实现前述一个或多个技术方案提供的词义相似度确定方法。
本发明实施例提供的技术方案,在确定两个词的相似度时,不再是基于包含该词所有词义的词向量,而是基于上下文语义确定出目标词当前想要表达的当前词义所对应的单一词义的第一词义向量,将第一词义向量与待匹配词的第二词义向量进行相似度的计算,如此,相对于不管当前上下文的多个词向量的相似度计算,大大提升了词之间相似度确定的精确性。
附图说明
图1为本发明实施例提供的第一种词义相似度确定方法的流程示意图;
图2为本发明实施例提供的第二种词义相似度确定方法的流程示意图;
图3为本发明实施例提供的一种词义相似度确定装置的结构示意图;
图4为本发明实施例提供的一种词汇网络的词义表达关系示意图;
图5为本发明实施例提供的词义向量模型的训练流程示意图;
图6为本实施例提供的词义消歧的流程示意图;
图7为本实施例提供的一种基于词义向量确定相似度的流程示意图。
具体实施方式
以下结合说明书附图及具体实施例对本发明的技术方案做进一步的详细阐述。
如图1所示,本实施例提供一种词义相似度确定方法,包括:
步骤S110:获取目标词所在上下文的上下文语义;
步骤S120:根据所述上下文语义,从所述目标词的候选词义中确定出所述目标词的当前词义;
步骤S130:根据所述当前词义,确定所述目标词的第一词义向量;
步骤S140:根据所述第一词义向量与第二词义向量,确定所述目标词与待匹配词之间的相似度,其中,所述第二词义向量为所述待匹配词的词义向量。
本实施例提供的词义相似度确定方法,可以应用于各种电子设备,例如,应用于搜索服务器的搜索服务器中。
在本实施例中,所述目标词可为多词义的词。所述步骤S110可包括:
确定所述目标词所在语句;
收集所述目标所在的语句的其他词;
集合该语句的各个词的词义,得到所述上下文语义。
若上下文语义确定了,则此时就可以从目标词的多个候选词义中选择出目标词当前表达的词义,即所述当前词义。
根据当前词义,确定目标词的第一词义向量,而非词向量;所述第一词义向量为目标词所对应的单个词义的向量。如此,相当于确定了所述目标词当前表达的唯一词义,如此,相当于包含有多个词义的词向量而言,可以与待匹配词所对第二词义向量进行单个词义之间的精确匹配,从而基于两个匹配的词之间的单个词义的相似计算,可以在不脱离上下文的情况下,通过相似度计算,可以得到与所述目标词的当前词义精确匹配的待匹配词,如此,提升了词义相似度计算的精确度。
例如,针对词“Apple”,其词义可能是水果中的“apple”,还可能是电子产品“apple”,还可能是公司或企业法人“apple”。在相关技术中基于词向量进行词义相似度计算,可能就会误认为水果“apple”和电子产品“apple”是相似的。但是在本实施例中,是基于词义向量的匹配,在步骤S110中会结合语句“I want an apple phone”中的词“I”、“want”“an”及“phone”,确定出上下文语义,从而获得该目标词“apple”的当前词义,是电子产品“apple”,而非水果“apple”或公司“apple”。如此,在进行网页搜索的时候,不是向用户返回水果苹果的网页,或者,苹果公司的网页,而是返回有苹果手机的网页,从而实现网页中的“apple”与上述语句中的“apple”精确匹配;从而减少词义相似度计算精确度差导致的误操作,从而提升了用户的使用体验。
在一些实施例中,如图2所示,所述步骤S110可包括:
步骤S111:获取所述目标词所在上下文的词集合;
步骤S112:确定所述词集合中每个词的权重;
步骤S113:基于所述词集合中所述词的词义和所述权重,确定所述上下文语义。
在本实施例中,首先会收集目标词所在上下文的语义集合,例如,从目标词所在语句或者文章中,所述目标词临近的词,构建所述词集合。
在一些实施例中,确定所述目标词所在的语句,收集目标所在语句中的所有词,构建所述词集合。确定目标词所在的语句的方式可包括但不限于:基于标点符号,确定目标词所在的语句。例如,两个相邻表示语句结束的标点符号之间包含所述目标词的句子。表示语句结束的标点符号包括但不限于句号、惊叹号及疑问号等。
在另一些实施例中,根据所述目标词所在的文章,收集目标词所在语句及与目标词所在语句前后相邻的一条或多条语句中的词,构建所述词集合。
在还有一些实施例中,收集与目标词显示在同一页面的与所述目标词相邻的词。在一些场景中,用户可能不是输入整个句子,而是零散的词,则此时可以基于位置上的相邻关系,收集到表征所述目标词所在上下文的词集合。
在获取了所述词集合之后,会确定出词结合之后,会确定词集合中每一个词对目标词的当前词义的影响程度所对应的权重。在本实施例中,若所述权重越大,则表示该词的词义对目标词的当前词义的影响程度越大,若所述权重越小,则表示该词的词语对目标词的影响程度越小。例如,词集合中“I”、“want”“an”及“phone”,对“apple”当前词义影响程度最大显然是“phone”。故在本实施例中,为了体现词集合中不同词对目标词的当前含义的影响程度,引入了权重表示,从而准确获得上下文语义,从而提升当前词义的确定精确度。
以下提供一种函数表达式来表示所述上下文语义:
Figure BDA0001933377450000061
其中,Contextw为目标词w的上下文语义。
Figure BDA0001933377450000062
为所述词集合中的第i个词;vi为/>
Figure BDA0001933377450000063
的权重。k为所述词集合所包含的词个数。
在一些实施例中,所述步骤S112可包括:
确定所述词集合中词距离所述目标词的词个数;
确定所述词集合中词的词义数量;
根据所述词个数和/或所述词义数量,确定所述权重。
例如,在词集合“I”、“want”“an”及“phone”中,与目标词“apple”之间的距离是不同的,在本实施例中以词为单位进行来表示距离,显然“I”比“phone”距离目标词“apple”更远,则此时基于词个数对权重所做的贡献就越小。
在一些实施例中,不仅看词集合中词距离目标词的词个数,同时还关注词集合中词自身是否有多重词义,若一个词的词义越单一,对目标词的当前词义的确定的贡献越大。故在本实施例中,还会引入词集合中词自身的词义个数来确定所述权重,以期望能够精确确定当前词义的权重。
在一些实施例中,所述词个数与所述权重负相关;和/或,所述词义数量与所述权重负相关。
以下结合上述实施例提供一个确定所述权重的函数关系:
Figure BDA0001933377450000071
其中,Li表示
Figure BDA0001933377450000072
距离目标词w的距离,为了权重的计算,在确定所述Li包括/>
Figure BDA0001933377450000073
如此,直接与目标词相邻的词的距离为1,而非为0。/>
Figure BDA0001933377450000074
表示/>
Figure BDA0001933377450000075
自身的词义个数。
在上述函数关系中利用倒数表示负相关,词个数和词义数量以乘积共同表示权重。在一些实施例中,所述负相关还可以用负数表示;词个数和词义数量对权重的共同影像,除了使用乘积表示,还可以用加权求和表示。
总之,基于所述词个数及所述词义数量确定所述权重的方式有多种,不局限于上述任意一种。
基于上述上下文语义及权重的函数关系,本实施例提供一种确定所述当前词义的函数关系:
C={c|c∈findCode(w)}
Figure BDA0001933377450000076
Figure BDA0001933377450000077
其中,mw=|C|表示词w的词义个数,编码cj所对应的编码向量ej
Figure BDA0001933377450000078
nj=|findSyn(w,cj)|表示WordNet编码cj下与w是同义词关系的词个数,/>
Figure BDA0001933377450000079
为的词向量。w的编码向量集合为/>
Figure BDA00019333774500000710
最大相似度对应的编码向量e就是当前w表达的当前词义,通过e进而得到词义编码c。
此处的词义编码c可为词义向量模型输出所述第一词义向量的输入。
在一些实施例中,所述步骤S130可包括:
确定所述当前词义对应的编码标识,其中,同一个词的不同词义对应了不同的编码标识;
由词义向量模型基于所述编码标识及所述目标词输出所述第一词义向量。
在本实施例中为了区分同一个词的不同词义,引入了编码标识,例如,一个词有M个词义,则对这些词义进行从1到M的编号,编号就可以作为所述编码标识的一种。如此,编码标识和目标词组合之后,就代表了唯一词义。例如,以“apple”为例,有3个词义,分别编号“1”、“2”及“3”,则1.“apple”的组合仅能表示3个词义中的一个。如此词义向量模型基于编码标识及目标词的组合,就能够唯一确定出当前词义对应的第一词义向量。
所述编码标识和目标词的组合方式,可以按照预定的数据格式进行组合,例如,通过连接符号连接编码标识和目标词,编码标识和目标词的排列先后关系,也可以按照预定顺序排序。为了更快的获取词义,可以将目标词排在编码标识之前。在一些实施例中,目标词和编码标识之间也可以直接组合,而不引入连接符号。所述连接符号可为预先设定的特定符号,例如“.”、“-”等。
在一些实施例中,所述步骤S130可包括:
根据所述当前词义、所述目标词的词形标识、及所述目标词,输出所述第一词义向量。
一个词有不同的词性,例如,同一个词可能具有多种词性,所述词性包括但不限于:动词、名词、形容词、副词或介词等词性,词语还包括单复数等形态。所述词形标识可包括:指示词性的词性标识,及指示单复数和/或时态等词形态的形态标识。
在本实施例中所述词形标识为指示词性的各种标识信息。在本实施例中,为了精确获得目标词的当前词义的词义向量,不仅会结合编码标识,还会指示目标词当前词性的词形标识,来生成所述第一词义向量。
在一些实施例中,所述步骤S130可包括:
获取所述目标词的原形态;
组合所述编码标识、所述词形标识和所述目标词的原形态,得到所述词义向量模型的输入;
所述词义向量模型基于所述输入,输出所述第一词义向量。
例如,以英文单词为了,单词的派生形态包括:名词的单复数、动词的不同时态等。此处的目标词的原形态可为:目标词的现在时的单数形式。
在本实施例中,会按照编码标识、词形标识及目标词的原形态,得到词义向量模型的输入。
词义向量模型基于该输入,会自动输出所述第一词义向量。
在本实施例中,所述词义向量模型可为各种深度学习模型训练而成的模型,例如,所述深度学习模型包括但不限于神经网络。
在本实施例中,所述编码标识采用词义的编号,在一些实施例中,对于同一个词不同词性的词义可以统一编号,还可以对同一个词的不同词性的词义分别编号。在一些实施例中可以根据需要采用不同的编号方式。
在一些实施例中,所述方法还包括:
根据同一训练词的不同词义生成不同的编码标识;
将不同形态的所述训练词转换为原形态;
以所述编码标识及所述原形态的所述训练词、及所述编码标识及所述原形态的所述训练词共同对应的词义为训练样本,训练所述词义向量模型。
由于单一词义且单一形态的训练词较少,如此,通过不同形态的训练词均转换为原形态,可以减少训练词的种类数,但是会增加单一种类训练词的数量,从而减少单一词义且单一形态的训练词的样本不够,导致的词义向量模型的训练效果不好的特点。
例如,以动词“complete”为例,有过去式或过去分词“completed”、及第三人称单数“completes”,以及现在式“complete”,这些词仅是形态不同,但是表示同一个含义,且是同一个词性,通过将“completed”及“completes”均转换为原形态“complete”,减少训练样本的种类(例如,“completed”及“completes”对应的种类),同时增加了“complete”的数量,从而解决了同时兼顾词义、词性及词形态导致的训练样本的稀疏性问题,进而减少稀疏性问题导致的词义向量模型的训练效果不佳的问题,提升了词义向量模型的训练效果,若词义向量模型的训练效果越好,则后续对目标词的词义向量的生成越精确。且由于单一种类的训练样本增加了,在训练过程中相对于少量样本的多种样本,可以加速模型的收敛,从而加速训练,故提升了训练效率。
如图3所示,本实施例提供一种词义相似度确定装置,包括:
上下文语义模块110,用于获取目标词所在上下文的上下文语义;
当前词义模块120,用于根据所述上下文语义,从所述目标词的候选词义中确定出所述目标词的当前词义;
第一词义向量模块130,用于根据所述当前词义,确定所述目标词的第一词义向量;
相似度模块140,用于根据所述第一词义向量与第二词义向量,确定所述目标词与待匹配词之间的相似度,其中,所述第二词义向量为所述待匹配词的词义向量。
在一些实施例中,所述上下文语义模块110、当前词义模块120、第一词义向量模块130及所述相似度模块140,均可对应于程序模块,所述程序模块被执行后能够实现上述各个操作。
在一些实施例中,所述上下文语义模块110、当前词义模块120、第一词义向量模块130及所述相似度模块140,均可对应于软硬结合模块,所述软硬结合模块可包括各种可编程阵列,例如,现场可编程阵列或复杂可编程阵列。
在还有些实施例中,所述上下文语义模块110、当前词义模块120、第一词义向量模块130及所述相似度模块140,均可对应于纯硬件模块,所述纯硬件模块可包括专用集成电路。
在一些实施例中,所述上下文语义模块110,具体用于获取所述目标词所在上下文的词集合;确定所述词集合中每个词的权重;基于所述词集合中所述词的词义和所述权重,确定所述上下文语义。
在一些实施例中,所述上下文语义模块110,还具体用于确定所述词集合中每个词,与所述目标词相隔的词个数;确定所述词集合中词的词义数量;根据所述词个数和/或所述词义数量,确定所述权重。
在一些实施例中,所述词个数与所述权重负相关;和/或,所述词义数量与所述权重负相关。
在一些实施例中,所述第一词义向量模块130,具体用于确定所述当前词义对应的编码标识,其中,同一个词的不同词义对应了不同的编码标识;由词义向量模型基于所述编码标识及所述目标词输出所述第一词义向量。
在一些实施例中,所述第一词义向量模块130,具体用于根据所述当前词义、所述目标词的词形标识,及所述目标词,输出所述第一词义向量。
在一些实施例中,所述第一词义向量模块130,具体用于获取所述目标词的原形态;组合所述编码标识、所述词形标识和所述目标词的原形态,得到所述词义向量模型的输入;所述词义向量模型基于所述输入,输出所述第一词义向量。
在一些实施例中,所述装置还包括:
生成模块,用于根据同一训练词的不同词义生成不同的编码标识;
转换模块,用于将不同形态的所述训练词转换为原形态;
训练模块,用于以所述编码标识及所述原形态的所述训练词、及所述编码标识及所述原形态的所述训练词共同对应的词义为训练样本,训练所述词义向量模型。
以下结合上述任意实施例提供几个具体示例:
示例1:
本示例提出一种词义相似度确定方法,包括:
生成词义向量模型;
利用词义向量模型,计算词的相似度;
基于相似度的计算,最终确定词当前表达的词义。]
所述生成词义向量模型,可包括:
利用词汇网络(WordNet)先验的词义分类信息对不同上下文的多义词进行词义消歧,并且通过WordNet词义编码进行标识来明确当前多义词的词义;
对于语料库每个标识的多义词进行词形还原处理,解决一个多义词区分为多个表达单一词义的单义词后造成的词稀疏问题;
基于词形还原处理后的语料库利用word2vec算法训练与词词义一一对应的词义向量模型。
所述利用词义向量模型,计算词的相似度,包括:在词义向量模型基础上,利用词义距离加权策略计算词相似度。本示例相对word2vec等词向量方法,能够得到词词义的分布式表达,进而能够更准确的衡量词之间的相似程度。
相对多元词向量方法,拥有更好的词义消歧精度,能够更准确地识别多义词在不同上下文中的词义,而且由于对标识词义的多义词进行了词形还原处理,可以有效地避免现有多元词向量模型中存在的词稀疏问题,防止了一个多义词被拆分几个单义词之后,无法得到训练充分的向量表达。
图4为本示例提供的一种词汇网络的示意图;在图4中虚线箭头表示反义词,实线箭头表示同义词。
WordNet可是一个覆盖范围宽广的词汇语义网。名词,动词,形容词和副词各自被组织成一个同义词的网络,每个同义词集合都代表一个基本的语义概念,并且这些集合之间也由各种关系连接,如同义词、反义词等关系。(一个多义词将出现在它的每个意思的同义词集合中),可以用于自然语言处理及人工智能等应用场景。
示例2:
如图5所示,本示例基于示例提供一种词义相似度确定方法,包括:
第一:构建词义向量模型,本示例提供的词义向量模型中,每个词义向量与词的一个词义相对应。若词有n个词义,则在词义向量模型中则对应n个词义向量,n为词的词义个数。词义模型构建的流程如图6所示,可包括:
基于语料库(如维基百科)训练词向量模型,词向量为当前词(目标词)的上下文和WordNet中的词义提供词向量表示;
对语料库中的原始语料进行词义消歧,并明确标识每一个词语的词义,例如,计算语料库中,每个目标词当前上下文向量和目标词在WordNet中每个词义定义的向量,确定当前目标词的词义,并用WbrdNet词义编码标识;
对消歧后的语料库中的词语进行词形还原处理,例如,重新遍历标识词义的语料库,对每个标识的词根据其词义标识进行词形还原处理;
对词形还原后的语料重新训练词向量,得到词义向量模型,具体如,基于词形还原后的语标识词义的语料库,重新使用词向量算法进行训练得到词义向量。
第二:词义消除,即去除脱离上下文的其他词义。考虑上下文的词距离和同义词词义数量的词义消歧,词义消歧包括:对文本中的每个多义词的词义进行明确,包括确定一个词的词义数量以及识别在不同上下文下表达的当前词义两个步骤。
如图6所示,本方案提出的词义消歧算法的实现步骤如下:
1)获取目标词w的上下文的词集合;
2)计算词集合中每个词的权重;
在本示例中,上下文词对于目标词的影响程度,与该词到目标词的距离以及上下文词的词义数量有关。
上下文词距离目标词越近,影响程度越大;上下文词的词义数量越少,说明该上下文表达词义更明确,影响程度越大。
上下文中的词
Figure BDA0001933377450000137
与目标词w的距离表示为Li,Li为/>
Figure BDA0001933377450000131
与w之间相隔词的个数,在计算相隔词的个数时,包括/>
Figure BDA0001933377450000132
词本身。上下文词集合中每个词/>
Figure BDA0001933377450000133
所对应的权重vi为:/>
Figure BDA0001933377450000134
与w之间距离Li与/>
Figure BDA0001933377450000135
词义数量乘积的倒数。
Figure BDA0001933377450000136
邻域词集合Context(w)所对应的权重集合表示为V={v1,v2,...,vk}。
3)计算上下文的向量表示;此处的上下文的向量对应了前述的上下文语义。
所述计算上下文向量可如下:
目标词w在不同上下文中表达的词义不同,但w的词义与Context(w)整体表达的语义是一致的,因此需要先确定Context(w)表达的语义,才能进一步判断w在出现位置的特定词义。
这里通过将Context(w)中词的词向量加权求和作为上下文的语义表达。以Context(w)表示上下文词集合中词的词向量集合,
Figure BDA0001933377450000141
Figure BDA0001933377450000142
为词/>
Figure BDA0001933377450000143
的词向量。Context(w)与权重集合V进行加权求和得到上下文向量Contextw,计算公式为:
Figure BDA0001933377450000144
4)计算目标词WordNet中所有候选词义的向量表示,此处的向量是目标词的词向量而非词义向量;例如,根据WordNet的词义分类,计算目标词w的编码向量集合E。
通过编码方式,使得每个编码代表一个特定的词义,利用该先验信息,可以确定一个词具有几种词义。
本示例用属于同一编码下的所有词的词向量的加权和来表示该编码所对应的语义,即编码向量。在计算编码向量时,可认为一个词的词义数量越少,表达的词义越纯正,该词对于当前编码词义的贡献越多,权值相应也越大。因此,同一编码下每个词的权值为该词包含的词义数量的倒数。
目标词w在WordNet的编码集合为:
C={c|c∈findCode(w)} 公式(3)
mw=|C|表示词w的词义个数,编码cj所对应的编码向量ej为:
Figure BDA0001933377450000145
其中,
Figure BDA0001933377450000146
nj=|findSyn(w,cj)|表示WordNet编码cj下与w是同义词关系的词的个数,/>
Figure BDA0001933377450000147
为/>
Figure BDA0001933377450000148
对应的词向量。w的编码向量集合为/>
Figure BDA0001933377450000152
5)确定目标词在当前上下文的词义的WordNet编码,具体为确定词w在当前上下文的当前词义的词义编码。
在得到w的上下文向量和所有编码向量集合后,多义词的上下文向量与其真实词义向量相似度更高,通过计算上下文向量Contextw与各编码向量的余弦相似度,最大相似度对应的编码向量e就是当前w表达的词义,通过e进而得到词义编码c。
Figure BDA0001933377450000151
6)用编码作为目标词的前缀进行词义的标识,例如,对目标词w进行词义标识,可包括:
确定w在Context(w)的词义后,将词义编码c与w的组合,记为group(c,w),编码c作为w的前缀,使得w在不同上下文能够表示明确的词义。
示例3:
基于示例1和/或示例2,本方案提出的词义向量模型本质上也是一种多元词向量模型。由于将原词向量模型中的一个多义词分解为多个表达唯一词义的单义词,因此分解后每个单义词的词频相对原始多义词会出现明显的下降。例如“chip”一词,可分解为“bit.n.02.chip”,“chip.n.04.chip”和“chip.n.07.chip”。“bit.n.02.chip”表示“一小块”的词义,“chip.n.04.chip”表示“薯条”的词义,而“chip.n.07.chip”表示“芯片”的含义。但是分解之后,每个词义的单义词的数量只占原多义词的一部分,因此每个词义的训练迭代次数会相应减少,个别词义会出现训练不足情况,甚至某些词义由于数量较少,而变成罕见词,甚至无法得到词义向量表示。对此本方案对于分解后标识词义的单义词进行词形还原处理,使得表达同一词义的不同形式的词转换为统一的形式,从而实现词不同形式的归并,使得词每个词义的向量训练更加充分。
词形还原,即将一个给定的英文单词还原为其原型。如名词复数形式变为原型,动词过去式、现在进行时变为原型,形容词变为其名词或动词本体等。本方案利用自然语言工具包(例如,Natural Language Toolkit,NLTK)对标识词义的单义词进行词形还原处理,综合考虑词的形式以及WordNet词义编码。例如“complete.v.01.completed”经过词形还原后为“complete.v.01.complete”,“completed.s.02.completed”经过词形还原后仍保持为“completed.s.02.completed”。这是因为第一个completed是动词形式,还原为动词的原型;第二个completed为形容词,还原之后仍然为原形态。
在词义模型构建完毕后,可以利用每个多义词的所有词义进行相似度的计算,相似度计算过程如图7所示,可包括:
获取词1和次2在wordNet中所有词义;
用获得词义编码分别对词1和词2进行标识;
对标识后的词1和词2的词义集合进行词形还原;
在词义向量中获取词1和词2每个词义的向量及其词频;
利用词频做权值词1和词2所有词义向量之间的距离加权叠加,作为词1和词2的相似度。
例如,以词1和词2分别对应于wa和词wb,进行进一步说明,可包括:
分别用获取的词义的编码对词wa和词wb进行词义标识得到
Figure BDA0001933377450000161
Figure BDA0001933377450000162
na为wa的词义数量,nb为wb的词义数量;
对词wa和词wb的每个标识词义的词进行词形还原;
在词义向量模型中获取经过词形还原之后词wa和词wb的每个单义词的词频和词义向量;
通过式(6)和(7)计算词wa和词wb的相似度。
Figure BDA0001933377450000163
Figure BDA0001933377450000164
Sim(wa,wb)表示词wa和词wb的相似度;
Figure BDA0001933377450000171
表示词wa和词wb当前词义的相似度;
Figure BDA0001933377450000172
表示词wa的第i个词义的词频;M表示词wa的总词义个数;
Figure BDA0001933377450000173
表示词wa和词wb的词频的相似度。
故综上所述,在计算两个目标词与待匹配词的相似度时,可以综合考虑当前词义的相似度,和词频的相似度。在上述公式中是通过乘积表示当前词义的相对度和词频的相似度得到两个词的整体相似度,在一些场景下还可以基于加权求和的方式,基于当前词义的相对度和词频的相似度得到的两个词的整体相似度。
总之,本示例提出了一种词义向量模型的构建方法,和现有词向量模型相比,能够得到与词的词义一一对应的向量表示;和多词向量模型相比,通过WordNet先验的词义分类信息,得到了多义词更准确的候选词义;通过对上下文词距离和同义词词义数量进行综合考虑得到了更准确的词义消歧结果,从而更好地辨识不同上下文词表达的真实词义,最终得到更准确的词义向量表示;另外本方案还采用了词形还原技术来解决多义词分解出现的词稀疏问题,避免了低频词义由于训练次数过少得不到准确表示的问题。基于词义向量模型,综合词义的词频和向量实现了更准确的相似度计算。
本实施例提供一种电子设备,包括:
存储器,
处理器,与所述存储器连接,用于通过执行位于所述存储器上的计算机可执行指令,能够实现前述一个或多个实施例提供的词义相似度确定方法,例如,可执行如图1、图2、图5至图7所示方法中的一个或多个。
所述存储器可包括存储介质,可以用于信息存储,例如,存储所述计算机可执行指令。
所述处理器可为各种类型的处理器,例如,中央处理器、微处理器、数字信号处理器、可编程阵列或专用集成电路等。
所述处理器可以通过集成电路总线或外设连接总线等,与所述收发器及存储器连接。
本实施例还提供一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令被执行后能够实现前述一个或多个实施例提供的词义相似度确定方法,例如,可执行如图1、图2、图5至图7所示方法中的一个或多个。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理模块中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (11)

1.一种词义相似度确定方法,其特征在于,包括:
获取目标词所在上下文的上下文语义;
根据所述上下文语义,从所述目标词的候选词义中确定出所述目标词的当前词义;
根据所述当前词义,确定所述目标词的第一词义向量;
根据所述第一词义向量与第二词义向量,确定所述目标词与待匹配词之间的相似度,其中,所述第二词义向量为所述待匹配词的词义向量。
2.根据权利要求1所述的方法,其特征在于,所述获取目标词所在上下文的上下文语义,包括:
获取所述目标词所在上下文的词集合;
确定所述词集合中每个词的权重;
基于所述词集合中所述词的词义和所述权重,确定所述上下文语义。
3.根据权利要求2所述的方法,其特征在于,
所述确定所述词集合中每个词的权重,包括:
确定所述词集合中每个词与所述目标词相隔的词个数;
确定所述词集合中词的词义数量;
根据所述词个数和/或所述词义数量,确定所述权重。
4.根据权利要求3所述的方法,其特征在于,
所述词个数与所述权重负相关;和/或,所述词义数量与所述权重负相关。
5.根据权利要求1至4任一项所述的方法,其特征在于,
所述根据所述当前词义,确定所述目标词的第一词义向量,包括:
确定所述当前词义对应的编码标识,其中,同一个词的不同词义对应了不同的编码标识;
由词义向量模型基于所述编码标识及所述目标词输出所述第一词义向量。
6.根据权利要求5所述的方法,其特征在于,其特征在于,
所述由词义向量模型基于所述编码标识及所述目标词输出所述第一词义向量,包括:
根据所述当前词义、所述目标词的词形标识,及所述目标词,输出所述第一词义向量。
7.根据权利要求6所述的方法,其特征在于,
所述根据所述当前词义、所述目标词的词形标识、及所述目标词,输出所述第一词义向量,包括:
获取所述目标词的原形态;
组合所述编码标识、所述词形标识和所述目标词的原形态,得到所述词义向量模型的输入;
所述词义向量模型基于所述输入,输出所述第一词义向量。
8.根据权利要求5所述的方法,其特征在于,所述方法还包括:
根据同一训练词的不同词义生成不同的编码标识;
将不同形态的所述训练词转换为原形态;
以所述编码标识及所述原形态的所述训练词、及所述编码标识及所述原形态的所述训练词共同对应的词义为训练样本,训练所述词义向量模型。
9.一种词义相似度确定装置,其特征在于,包括:
上下文语义模块,用于获取目标词所在上下文的上下文语义;
当前词义模块,用于根据所述上下文语义,从所述目标词的候选词义中确定出所述目标词的当前词义;
第一词义向量模块,用于根据所述当前词义,确定所述目标词的第一词义向量;
相似度模块,用于根据所述第一词义向量与第二词义向量,确定所述目标词与待匹配词之间的相似度,其中,所述第二词义向量为所述待匹配词的词义向量。
10.一种电子设备,其特征在于,包括:
存储器,
处理器,与存储器连接,用于通过执行存储在所述存储器上的计算机可执行指令,能够实现权利要求1至8任一项提供的方法。
11.一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令;所述计算机可执行指令,能够实现权利要求1至8任一项提供的方法。
CN201910000540.2A 2019-01-02 2019-01-02 词义相似度确定方法及装置、电子设备及存储介质 Active CN111401070B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910000540.2A CN111401070B (zh) 2019-01-02 2019-01-02 词义相似度确定方法及装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910000540.2A CN111401070B (zh) 2019-01-02 2019-01-02 词义相似度确定方法及装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN111401070A CN111401070A (zh) 2020-07-10
CN111401070B true CN111401070B (zh) 2023-03-28

Family

ID=71430157

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910000540.2A Active CN111401070B (zh) 2019-01-02 2019-01-02 词义相似度确定方法及装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN111401070B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112528670B (zh) * 2020-12-01 2022-08-30 清华大学 字词词义处理方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018001101A1 (zh) * 2016-06-29 2018-01-04 齐鲁工业大学 一种基于依存约束和知识的形容词词义消歧方法和装置
CN109117471A (zh) * 2017-06-23 2019-01-01 中国移动通信有限公司研究院 一种词语相关度的计算方法及终端

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018001101A1 (zh) * 2016-06-29 2018-01-04 齐鲁工业大学 一种基于依存约束和知识的形容词词义消歧方法和装置
CN109117471A (zh) * 2017-06-23 2019-01-01 中国移动通信有限公司研究院 一种词语相关度的计算方法及终端

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于低维语义向量模型的语义相似度度量;蔡圆媛等;《中国科学技术大学学报》(第09期);全文 *
基于双线性函数注意力Bi-LSTM模型的机器阅读理解;刘飞龙等;《计算机科学》;全文 *

Also Published As

Publication number Publication date
CN111401070A (zh) 2020-07-10

Similar Documents

Publication Publication Date Title
CN107220232B (zh) 基于人工智能的关键词提取方法及装置、设备与可读介质
CN112270196B (zh) 实体关系的识别方法、装置及电子设备
CN111241237B (zh) 一种基于运维业务的智能问答数据处理方法及装置
CN109299280B (zh) 短文本聚类分析方法、装置和终端设备
CN111539197B (zh) 文本匹配方法和装置以及计算机系统和可读存储介质
Mills et al. Graph-based methods for natural language processing and understanding—A survey and analysis
CN114580382A (zh) 文本纠错方法以及装置
CN110347790B (zh) 基于注意力机制的文本查重方法、装置、设备及存储介质
CN111241232B (zh) 业务服务的处理方法、装置、服务平台及存储介质
CN111414763A (zh) 一种针对手语计算的语义消歧方法、装置、设备及存储装置
CN111859940B (zh) 一种关键词提取方法、装置、电子设备及存储介质
CN113282711B (zh) 一种车联网文本匹配方法、装置、电子设备及存储介质
CN113392209A (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN113836938A (zh) 文本相似度的计算方法及装置、存储介质、电子装置
CN113158687B (zh) 语义的消歧方法及装置、存储介质、电子装置
CN113806486B (zh) 长文本相似度的计算方法及装置、存储介质、电子装置
CN112579752A (zh) 实体关系的抽取方法及装置、存储介质、电子设备
CN113761192A (zh) 文本处理方法、文本处理装置及文本处理设备
CN111401070B (zh) 词义相似度确定方法及装置、电子设备及存储介质
CN114491076B (zh) 基于领域知识图谱的数据增强方法、装置、设备及介质
CN113342932B (zh) 目标词向量的确定方法、装置、存储介质和电子装置
CN113177402B (zh) 词语替换方法、装置、电子设备和存储介质
CN115292492A (zh) 意图分类模型的训练方法、装置、设备及存储介质
CN112016281B (zh) 错误医疗文本的生成方法、装置及存储介质
CN111428005A (zh) 标准问答对确定方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant