CN108664464A - 一种语义相关度的确定方法及确定装置 - Google Patents

一种语义相关度的确定方法及确定装置 Download PDF

Info

Publication number
CN108664464A
CN108664464A CN201710188870.XA CN201710188870A CN108664464A CN 108664464 A CN108664464 A CN 108664464A CN 201710188870 A CN201710188870 A CN 201710188870A CN 108664464 A CN108664464 A CN 108664464A
Authority
CN
China
Prior art keywords
word
chinese
vector
semantic relevancy
cosine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710188870.XA
Other languages
English (en)
Other versions
CN108664464B (zh
Inventor
游树娟
李小涛
牛亚文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Communications Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Communications Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Communications Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201710188870.XA priority Critical patent/CN108664464B/zh
Publication of CN108664464A publication Critical patent/CN108664464A/zh
Application granted granted Critical
Publication of CN108664464B publication Critical patent/CN108664464B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种语义相关度的确定方法及确定装置,该确定方法将word2vec训练模型与同义词词林相结合,通过同义词词林获取一个词的单义词,再基于word2vec的余弦语义相关度计算规则确定两个词语之间的语义相关度,而没有利用同义词词林的语义相关度计算规则,所以该确定方法不仅充分考虑了词语在上下文语境中的语义信息,还有效地解决了同义词、多义词、非邻域词之间的语义相关度计算不准确的问题,大大地提高了各词语之间语义相关度的计算准确性。

Description

一种语义相关度的确定方法及确定装置
技术领域
本发明涉及数据业务领域,尤指一种语义相关度的确定方法及确定装置。
背景技术
计算机和互联网技术的飞速发展,使得网络上的数据信息呈指数级增长,而这些数据信息对于计算机来说是非常难于理解和应用的,为了能够从大量数据信息中迅速有效地获取所需要的数据信息,就需要对数据信息进行智能自动化处理,其中,最核心问题就是语义相关度的计算;语义相关度,是从定量的角度对语义信息之间的相关度进行衡量,是自然语言处理领域的重要研究方向。
目前,关于语义相关度的计算方法主要分为三大类:基于词典的方法、基于大规模语料库的方法、以及基于同义词林的方法;其中,基于词典的方法主要是借助于结构化的词典来计算词与词之间的语义相关度,但构建一个结构合理的词典需要丰富的专业知识和大量的标注数据,费时费力,同时,结构化的词典仅描述了词语本身之间的相关性,却忽略了上下文语境的相关信息,使得语义相关度计算结果的准确性较低;基于大规模语料库的方法,虽然考虑了上下文语境的相关信息,但在词向量的训练过程中无法区分同义词和多义词,对于具有同义词、多义词以及对非邻域内的相关词汇的相关度的计算准确率较低;基于同义词林的方法,是以哈工大同义词词林为基础的,虽然该方法对同义词和近义词的语义相似度具有很好的表达,但其忽略了词语的上下文语境的相关信息,使得很多词汇的语义相关度计算结果不符合人们对语义相关的理解和度量。
基于此,如何提高词语之间语义相关度的计算准确率,在既能充分考虑上下文语境的相关信息的同时,又能很好地区分同义词和多义词,是本领域技术人员亟待解决的技术问题。
发明内容
本发明实施例提供了一种语义相关度的确定方法及确定装置,用以解决现有技术中如何提高词语之间语义相关度的计算准确率,在既能充分考虑上下文语境的相关信息的同时,又能很好地区分同义词和多义词的问题。
本发明实施例提供了一种语义相关度的确定方法,包括:
在预先采用词向量word2vec训练模型训练获得的词向量中选取第一词语与第二词语,并分别确定所述第一词语与所述第二词语的向量;
确定所述第一词语的向量与所述第二词语的向量之间的第一余弦语义相关度;
在确定在所述第一词语与所述第二词语中至少有一个属于预设的同义词词林时,确定所述第一词语或所述第二词语属于所述同义词词林且属于所述词向量的单义词的向量与所述第二词语或所述第一词语的向量之间的第二余弦语义相关度;将所述第二余弦语义相关度与所述第一余弦语义相关度中的最大值作为所述第一词语与所述第二词语之间的语义相关度;
在确定所述第一词语与所述第二词语均不属于所述同义词词林时,将确定出的所述第一词语的向量与所述第二词语的向量之间的第一余弦语义相关度作为所述第一词语与所述第二词语之间的语义相关度。
在一种可能的实施方式中,在本发明实施例提供的上述确定方法中,还包括:
获取中文语料库;
对获取到的所述中文语料库进行中文分词处理;
采用所述word2vec训练模型对中文分词处理后的所述中文语料库进行训练,得到与所述中文语料库对应的词向量。
在一种可能的实施方式中,在本发明实施例提供的上述确定方法中,所述中文语料库为维基百科中文语料库,在所述对获取到的所述中文语料库进行中文分词处理之前,还包括:
对获取到的所述维基百科中文语料库进行格式转换;
将格式转换后的所述维基百科中文语料库中的繁体字转换为简体字。
在一种可能的实施方式中,在本发明实施例提供的上述确定方法中,所述确定所述第一词语或所述第二词语属于所述同义词词林且属于所述词向量的单义词的向量与所述第二词语或所述第一词语的向量之间的第二余弦语义相关度,具体包括:
确定所述第一词语或所述第二词语在所述同义词词林中具有特定结尾的编码组成的编码集合;
在所述同义词词林中根据预设的词语与编码的对应关系,确定与所述编码集合对应的词语集合;
按照预设的单义词确定规则,确定所述词语集合对应的单义词集合,并确定属于所述词向量的所述单义词的向量;
确定属于所述词向量的所述单义词的向量与所述第二词语或所述第一词语的向量之间的第二余弦语义相关度。
在一种可能的实施方式中,在本发明实施例提供的上述确定方法中,所述确定所述第一词语或所述第二词语在所述同义词词林中具有特定结尾的编码组成的编码集合,具体包括:
确定所述第一词语或所述第二词语在所述同义词词林中结尾为等号或@的编码组成的编码集合。
在一种可能的实施方式中,在本发明实施例提供的上述确定方法中,所述按照预设的单义词确定规则,确定所述词语集合对应的单义词集合,具体包括:
将所述词语集合中仅与一个编码对应的词语作为单义词,组成所述词语集合对应的单义词集合。
本发明实施例还提供了一种语义相关度的确定装置,包括:
向量确定模块,用于在预先采用词向量word2vec训练模型训练获得的词向量中选取第一词语与第二词语,并分别确定所述第一词语与所述第二词语的向量;
第一确定模块,用于确定所述第一词语的向量与所述第二词语的向量之间的第一余弦语义相关度;
第二确定模块,用于在确定在所述第一词语与所述第二词语中至少有一个属于预设的同义词词林时,确定所述第一词语或所述第二词语属于所述同义词词林且属于所述词向量的单义词的向量与所述第二词语或所述第一词语的向量之间的第二余弦语义相关度;将所述第二余弦语义相关度与所述第一余弦语义相关度中的最大值作为所述第一词语与所述第二词语之间的语义相关度;
第三确定模块,用于在确定所述第一词语与所述第二词语均不属于所述同义词词林时,将确定出的所述第一词语的向量与所述第二词语的向量之间的第一余弦语义相关度作为所述第一词语与所述第二词语之间的语义相关度。
在一种可能的实施方式中,在本发明实施例提供的上述确定装置中,还包括:
获取模块,用于获取中文语料库;
分词处理模块,用于对获取到的所述中文语料库进行中文分词处理;
训练模块,用于采用所述word2vec训练模型对中文分词处理后的所述中文语料库进行训练,得到与所述中文语料库对应的词向量。
在一种可能的实施方式中,在本发明实施例提供的上述确定装置中,所述中文语料库为维基百科中文语料库,还包括:
格式转换模块,用于对获取到的所述维基百科中文语料库进行格式转换;
字体处理模块,用于将格式转换后的所述维基百科中文语料库中的繁体字转换为简体字。
在一种可能的实施方式中,在本发明实施例提供的上述确定装置中,所述第二确定模块具体用于确定所述第一词语或所述第二词语在所述同义词词林中具有特定结尾的编码组成的编码集合;在所述同义词词林中根据预设的词语与编码的对应关系,确定与所述编码集合对应的词语集合;按照预设的单义词确定规则,确定所述词语集合对应的单义词集合,并确定属于所述词向量的所述单义词的向量;确定属于所述词向量的所述单义词的向量与所述第二词语或所述第一词语的向量之间的第二余弦语义相关度。
在一种可能的实施方式中,在本发明实施例提供的上述确定装置中,所述第二确定模块具体用于确定所述第一词语或所述第二词语在所述同义词词林中结尾为等号或@的编码组成的编码集合。
在一种可能的实施方式中,在本发明实施例提供的上述确定装置中,所述第二确定模块具体用于将所述词语集合中仅与一个编码对应的词语作为单义词,组成所述词语集合对应的单义词集合。
本发明有益效果如下:
本发明实施例提供的一种语义相关度的确定方法及确定装置,该确定方法首先采用word2vec训练模型获得词向量,根据词向量中的第一词语和第二词语是否至少有一个存在于预设的同义词词林中时,进行分情况确定第一词语和第二词语之间的语义相关度;当至少有一个词语在同义词词林中时,首先确定第一词语或第二词语属于同义词词林且属于词向量的单义词的向量与第二词语或第一词语的向量之间的第二余弦语义相关度,之后将第二余弦语义相关度与第一余弦语义相关度进行比较,将其中的最大值作为第一词语和第二词语之间的语义相关度;而当第一词语和第二词语均不在同义词词林中时,则直接将确定出的第一余弦语义相关度作为第一词语和第二词语之间的语义相关度。因此,该确定方法将word2vec训练模型与同义词词林相结合,通过同义词词林获取一个词的单义词,再基于word2vec的余弦语义相关度计算规则确定两个词语之间的语义相关度,而没有利用同义词词林的语义相关度计算规则,所以该确定方法不仅充分考虑了词语在上下文语境中的语义信息,还有效地解决了同义词、多义词、非邻域词之间的语义相关度计算不准确的问题,大大地提高了各词语之间语义相关度的计算准确性。
附图说明
图1为本发明实施例中提供的一种语义相关度的确定方法的流程图之一;
图2为本发明实施例中提供的一种语义相关度的确定方法的流程图之二;
图3为本发明实施例中提供的实施例一方法的流程图;
图4为本发明实施例中提供的一种语义相关度的确定装置的结构示意图。
具体实施方式
下面将结合附图,对本发明实施例提供的一种语义相关度的确定方法及确定装置的具体实施方式进行详细地说明。需要说明的是,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种语义相关度的确定方法,如图1所示,可以包括:
S101、在预先采用词向量word2vec训练模型训练获得的词向量中选取第一词语与第二词语,并分别确定第一词语与第二词语的向量;
S102、确定第一词语的向量与第二词语的向量之间的第一余弦语义相关度;
S103、确定在第一词语与第二词语中是否至少有一个属于预设的同义词词林;若是,则执行步骤S104;若否,则执行步骤S106;
S104、确定第一词语或第二词语属于同义词词林且属于词向量的单义词的向量与第二词语或第一词语的向量之间的第二余弦语义相关度;
S105、将第二余弦语义相关度与第一余弦语义相关度中的最大值作为第一词语与第二词语之间的语义相关度;结束流程;
S106、将确定出的第一词语的向量与第二词语的向量之间的第一余弦语义相关度作为第一词语与第二词语之间的语义相关度。
本发明实施例提供的一种语义相关度的确定方法,该确定方法将word2vec训练模型与同义词词林相结合,通过同义词词林获取一个词的单义词,再基于word2vec的余弦语义相关度计算规则确定两个词语之间的语义相关度,而没有利用同义词词林的语义相关度计算规则,所以该确定方法不仅充分考虑了词语在上下文语境中的语义信息,还有效地解决了同义词、多义词、非邻域词之间的语义相关度计算不准确的问题,大大地提高了各词语之间语义相关度的计算准确性。
在具体实施时,为了获取word2vec训练模型训练得到的词向量,在执行本发明实施例提供的上述确定方法中的步骤S101之前,如图2所示,还可以包括:
S201、获取中文语料库;
S202、对获取到的中文语料库进行中文分词处理;
S203、采用word2vec训练模型对中文分词处理后的中文语料库进行训练,得到与中文语料库对应的词向量。
具体地,在获取中文语料库时可以采用下载的方式,还可以是其它便于获取的方式;当然,获取的中文语料库应当是较为权威的中文语料库,包含的词汇信息较丰富,以便于在经过word2vec训练模型训练成词向量后,与同义词词林相结合计算两个词语之间的语义相关度时,使计算结果更加准确。
具体地,对中文语料库的中文分词处理,可以采用多种分词工具,如结巴分词工具;并且在中文分词时,需要结合停用词词库,去除“的”、“是”等停用词,以便于word2vec训练模型对中文语料库进行训练时更加便捷和高效。
具体地,word2vec训练模型一般包括连续词袋(Continuous Bag of Words,CBOW)训练模型和skip-gram训练模型,CBOW训练模型和skip-gram训练模型均属于神经网络模型,包含输入层、投影层和输出层;其中,CBOW训练模型是通过上下文来预测当前词,而skip-gram训练模型则是通过当前词来预测其上下文。在本发明实施例提供的上述确定方法中,以采用CBOW训练模型对获取到的中文语料库进行训练为例,通过逻辑回归迭代的训练词的邻域内上下文相关的n个词进行训练,且n可以为3或5,最后生成的词向量维度可以为400维;一般地,一个词w的词向量的表达式可以为w={a1,a2,……,ai,……,a400},ai为浮点数,代表词语上下文的语义特征;例如:时间的词向量的表达式为时间=(-0.878781,-2.112356,1.204208,1.041078,-1.249182,0.272419,……-1.952982,2.179033,-0.258987,1.129659,0.363634),大学的词向量表达式为大学=(0.033173,-0.252127,-0.794737,-1.141235,0.678041,2.522937,-0.833398,……1.822892,0.152297,-1.032652,-0.725105,0.790077)。
具体地,在中文语料库为维基百科中文语料库时,因获取到的维基百科中文语料库的格式为xml格式,并且存在的繁体字较多,不利于word2vec训练模型的识别和读取;而word2vec训练模型可识别的文件格式为text格式,所以需要将获取到的维基百科中文语料库的格式由xml格式转换为text格式,将所有的繁体字转换为简体字;因此,在本发明实施例提供的上述确定方法中的步骤S202对获取到的中文语料库进行中文分词处理之前,还可以包括:
对获取到的维基百科中文语料库进行格式转换;
将格式转换后的维基百科中文语料库中的繁体字转换为简体字。
当然,并不是所有的中文语料库的格式都为xml格式,所包含的字体中都存在繁体字;例如,搜狗中文语料库就不存在字体的问题,因为搜狗中文语料库中的字体一般为简体字,所以无需进行字体转换;当搜狗中文语料库的文件格式为text格式时,当然也就不存在格式转换问题了,可以将获取到的搜狗中文语料库直接进行中文分词处理,较大地减少了计算量。
在具体实施时,在确定第一词语的向量与第二词语的向量之间的第一余弦语义相关度时,可以采用现有的基于word2vec训练模型训练出的词向量计算两个词语之间的余弦语义相关度,即两个词语之间的余弦语义相关度为两个词语的向量的余弦距离;当然,余弦值越大,余弦语义相关度越大;如此,在计算两个词语之间的余弦语义相关度时,可以充分考虑词语在上下文语境中的相关信息,有利于提高两个词语之间的语义相关度的准确率。
在具体实施时,在确定第一词语或第二词语属于同义词词林且属于词向量的单义词的向量与第二词语或第一词语的向量之间的第二余弦语义相关度时,需要分以下三种情况分析:
第一,在训练后的词向量中随机选取第一词语a和第二词语b,当第一词语a属于同义词词林,第二词语b不属于同义词词林时,首先需要找到与第一词语a有关的属于同义词词林且属于词向量中的单义词c的向量,然后计算单义词c与第二词语b的第二余弦语义相关度。
第二,若第一词语a不属于同义词词林,第二词语b属于同义词词林时,同样需要找到与第二词语b有关的属于同义词词林且属于词向量中的单义词d的向量,然后计算单义词d与第一词语a的第二余弦语义相关度。
当然,也有可能第一词语a和第二词语b均属于同义词词林,那么就需要分别找到与第一词语a有关的属于同义词词林且属于词向量中的单义词c的向量,以及与第二词语b有关的属于同义词词林且属于词向量中的单义词d的向量,然后分别计算单义词c与第二词语b的第二余弦语义相关度,和单义词d与第一词语a的第二余弦语义相关度。
具体地,不管是上述哪种情况,在执行本发明实施例提供的上述确定方法中的步骤S104确定第一词语或第二词语属于同义词词林且属于词向量的单义词的向量与第二词语或第一词语的向量之间的第二余弦语义相关度时,均需要进行以下步骤,可以具体包括:
确定第一词语或第二词语在同义词词林中具有特定结尾的编码组成的编码集合;
在同义词词林中根据预设的词语与编码的对应关系,确定与编码集合对应的词语集合;
按照预设的单义词确定规则,确定词语集合对应的单义词集合,并确定属于词向量的单义词的向量;
确定属于词向量的单义词的向量与第二词语或第一词语的向量之间的第二余弦语义相关度。
具体地,以第一词语a属于同义词词林,第二词语b不属于同义词词林为例,首先需要确定第一词语a在同义词词林中具有特定结尾的编码组成的编码集合S;然后,在同义词词林中根据预设的词语与编码的对应关系,确定与编码集合S对应的词语集合C;接着,按照预设的单义词确定规则,确定词语集合C对应的单义词集合C’,并确定属于词向量的单义词c的向量;最后,确定属于词向量的单义词c的向量与第二词语b的向量之间的第二余弦语义相关度。
当然,若第一词语a不属于同义词词林,第二词语b属于同义词词林时,确定属于词向量的单义词d的向量与第一词语a的向量之间的第二余弦语义相关度的方法原理,与上述第一词语a属于同义词词林,第二词语b不属于同义词词林时采用的方法原理类似,故在此不作赘述。
而当第一词语a和第二词语b均属于同义词词林时,就需要分别确定第一词语a在同义词词林中具有特定结尾的编码组成的编码集合S、以及第二词语b在同义词词林中具有特定结尾的编码组成的编码集合G;然后,分别确定与编码集合S对应的词语集合C、以及与编码集合G对应的词语集合D;接着,按照预设的单义词确定规则,分别确定词语集合C对应的单义词集合C’和词语集合D对应的单义词集合D’,并分别确定属于词向量的单义词c和单义词d的向量;最后,确定属于词向量的单义词c的向量与第二词语b的向量之间的第二余弦语义相关度、以及属于词向量的单义词d的向量与第一词语a的向量之间的第二余弦语义相关度。
具体地,本发明实施例中提供的同义词词林选择的是哈工大版本,并且这个版本的同义词词林收录了近7万条词语,全部按照词语意义进行特定的编码;其中,编码与词语是多对多的对应关系;编码一般设置为八位,第一位一般为大写字母、第二位一般为小写字母、第三位和第四位一般为十进制的整数、第五位同样为大写字母、第六位和第七位同样为十进制的整数、最后一位一般为特殊符号,包括“=”、“@”和“#”;并且,“=”表示相等,为同义词,“#”表示不相等,但属于同类,为相关词,“@”表示“自我封闭”或“独立”,在同义词词林中既没有同义词,也没有相关词;当然,一个词语可能具有多个语义,因此在同义词词林中同一个词语可能对应多个编码;同样,一个编码也可能对应多个词语;例如,编码“Cb02A01=”对应的词语有“东南西北”和“四方”。
具体地,为了提高两个词语之间语义相关度的计算准确率,减少误差的干扰,因此,在本发明实施例提供的上述确定方法中,确定第一词语或第二词语在同义词词林中具有特定结尾的编码组成的编码集合,可以具体包括:确定第一词语或第二词语在同义词词林中结尾为等号或@的编码组成的编码集合;而排除结尾为“#”的编码,即排除相关词,以减少相关词对最后语义相关度计算结果的干扰。
具体地,为了确定词语集合对应的单义词集合,需要满足预设的单义词的确定规则,因此,在本发明实施例提供的上述确定方法中,按照预设的单义词确定规则,确定词语集合对应的单义词集合,可以具体包括:
将词语集合中仅与一个编码对应的词语作为单义词,组成词语集合对应的单义词集合。
下面将结合具体实施例,详细说明本发明实施例提供的上述确定方法。
实施例一:结合如图3所示的流程图,以获取维基百科中文语料库为例。
S301、获取维基百科中文语料库;
S302、对获取到的维基百科中文语料库进行格式转换;
S303、将格式转换后的维基百科中文语料库中的繁体字转换为简体字;
S304、对字体处理后的维基百科中文语料库进行中文分词处理;
S305、采用word2vec训练模型对中文分词处理后的中文语料库进行训练,得到与中文语料库对应的词向量;
S306、在训练获得的词向量中选取第一词语a与第二词语b,并分别确定第一词语a与第二词语b的向量;
S307、确定第一词语a的向量与第二词语b的向量之间的第一余弦语义相关度SimVec1;
S308、确定在第一词语a与第二词语b中是否至少有一个属于预设的同义词词林;若是,则执行步骤S309;若否,则执行步骤S315;
S309、确定第一词语a是否在同义词词林中;若是,则执行步骤S310;若否,则执行步骤S313;
S310、确定第二词语b是否在同义词词林中;若是,则执行步骤S311;若否,则执行步骤S312;
S311、确定第一词语a属于同义词词林且属于词向量的单义词c的向量与第二词语b的向量之间的第二余弦语义相关度SimVec2,以及第二词语b属于同义词词林且属于词向量的单义词d的向量与第一词语a的向量之间的第二余弦语义相关度SimVec2;执行步骤S314;
S312、确定第一词语a属于同义词词林且属于词向量的单义词c的向量与第二词语b的向量之间的第二余弦语义相关度SimVec2;执行步骤S314;
S313、确定第二词语b属于同义词词林且属于词向量的单义词d的向量与第一词语a的向量之间的第二余弦语义相关度SimVec2;执行步骤S314;
S314、将第一余弦语义相关度SimVec1和第二余弦语义相关度SimVec2中的最大值作为第一词语a与第二词语b之间的语义相关度Sim;结束流程;
S315、将第一词语a的向量与第二词语b的向量之间的第一余弦语义相关度SimVec1作为第一词语a与第二词语b之间的语义相关度Sim。
基于同一发明构思,本发明实施例还提供了一种语义相关度的确定装置,因该确定装置的实施原理与前述一种语义相关度的确定方法相似,因此该确定装置的具体实施方式可参见上述确定方法的具体实施方式,故在此不作赘述。
具体地,本发明实施例提供的一种语义相关度的确定装置,如图4所示,可以包括:
向量确定模块401,用于在预先采用词向量word2vec训练模型训练获得的词向量中选取第一词语与第二词语,并分别确定第一词语与第二词语的向量;
第一确定模块402,用于确定第一词语的向量与第二词语的向量之间的第一余弦语义相关度;
第二确定模块403,用于在确定在第一词语与第二词语中至少有一个属于预设的同义词词林时,确定第一词语或第二词语属于同义词词林且属于词向量的单义词的向量与第二词语或第一词语的向量之间的第二余弦语义相关度;将第二余弦语义相关度与第一余弦语义相关度中的最大值作为第一词语与第二词语之间的语义相关度;
第三确定模块404,用于在确定第一词语与第二词语均不属于同义词词林时,将确定出的第一词语的向量与第二词语的向量之间的第一余弦语义相关度作为第一词语与第二词语之间的语义相关度。
在具体实施时,在本发明实施例提供的上述确定装置中,如图4所示,还可以包括:
获取模块405,用于获取中文语料库;
分词处理模块406,用于对获取到的中文语料库进行中文分词处理;
训练模块407,用于采用word2vec训练模型对中文分词处理后的中文语料库进行训练,得到与中文语料库对应的词向量。
在具体实施时,在本发明实施例提供的上述确定装置中,中文语料库为维基百科中文语料库,还可以包括:
格式转换模块,用于对获取到的维基百科中文语料库进行格式转换;
字体处理模块,用于将格式转换后的维基百科中文语料库中的繁体字转换为简体字。
在具体实施时,在本发明实施例提供的上述确定装置中,第二确定模块403具体用于确定第一词语或第二词语在同义词词林中具有特定结尾的编码组成的编码集合;在同义词词林中根据预设的词语与编码的对应关系,确定与编码集合对应的词语集合;按照预设的单义词确定规则,确定词语集合对应的单义词集合,并确定属于词向量的单义词的向量;确定属于词向量的单义词的向量与第二词语或第一词语的向量之间的第二余弦语义相关度。
在具体实施时,在本发明实施例提供的上述确定装置中,第二确定模块403具体用于确定第一词语或第二词语在同义词词林中结尾为等号或@的编码组成的编码集合。
在具体实施时,在本发明实施例提供的上述确定装置中,第二确定模块403具体用于将词语集合中仅与一个编码对应的词语作为单义词,组成词语集合对应的单义词集合。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
本发明实施例提供了一种语义相关度的确定方法及确定装置,该确定方法首先采用word2vec训练模型获得词向量,根据词向量中的第一词语和第二词语是否至少有一个存在于预设的同义词词林中时,进行分情况确定第一词语和第二词语之间的语义相关度;当至少有一个词语在同义词词林中时,首先确定第一词语或第二词语属于同义词词林且属于词向量的单义词的向量与第二词语或第一词语的向量之间的第二余弦语义相关度,之后将第二余弦语义相关度与第一余弦语义相关度进行比较,将其中的最大值作为第一词语和第二词语之间的语义相关度;而当第一词语和第二词语均不在同义词词林中时,则直接将确定出的第一余弦语义相关度作为第一词语和第二词语之间的语义相关度。因此,该确定方法将word2vec训练模型与同义词词林相结合,通过同义词词林获取一个词的单义词,再基于word2vec的余弦语义相关度计算规则确定两个词语之间的语义相关度,而没有利用同义词词林的语义相关度计算规则,所以该确定方法不仅充分考虑了词语在上下文语境中的语义信息,还有效地解决了同义词、多义词、非邻域词之间的语义相关度计算不准确的问题,大大地提高了各词语之间语义相关度的计算准确性。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (12)

1.一种语义相关度的确定方法,其特征在于,包括:
在预先采用词向量word2vec训练模型训练获得的词向量中选取第一词语与第二词语,并分别确定所述第一词语与所述第二词语的向量;
确定所述第一词语的向量与所述第二词语的向量之间的第一余弦语义相关度;
在确定在所述第一词语与所述第二词语中至少有一个属于预设的同义词词林时,确定所述第一词语或所述第二词语属于所述同义词词林且属于所述词向量的单义词的向量与所述第二词语或所述第一词语的向量之间的第二余弦语义相关度;将所述第二余弦语义相关度与所述第一余弦语义相关度中的最大值作为所述第一词语与所述第二词语之间的语义相关度;
在确定所述第一词语与所述第二词语均不属于所述同义词词林时,将确定出的所述第一词语的向量与所述第二词语的向量之间的第一余弦语义相关度作为所述第一词语与所述第二词语之间的语义相关度。
2.如权利要求1所述的确定方法,其特征在于,还包括:
获取中文语料库;
对获取到的所述中文语料库进行中文分词处理;
采用所述word2vec训练模型对中文分词处理后的所述中文语料库进行训练,得到与所述中文语料库对应的词向量。
3.如权利要求2所述的确定方法,其特征在于,所述中文语料库为维基百科中文语料库,在所述对获取到的所述中文语料库进行中文分词处理之前,还包括:
对获取到的所述维基百科中文语料库进行格式转换;
将格式转换后的所述维基百科中文语料库中的繁体字转换为简体字。
4.如权利要求1所述的确定方法,其特征在于,所述确定所述第一词语或所述第二词语属于所述同义词词林且属于所述词向量的单义词的向量与所述第二词语或所述第一词语的向量之间的第二余弦语义相关度,具体包括:
确定所述第一词语或所述第二词语在所述同义词词林中具有特定结尾的编码组成的编码集合;
在所述同义词词林中根据预设的词语与编码的对应关系,确定与所述编码集合对应的词语集合;
按照预设的单义词确定规则,确定所述词语集合对应的单义词集合,并确定属于所述词向量的所述单义词的向量;
确定属于所述词向量的所述单义词的向量与所述第二词语或所述第一词语的向量之间的第二余弦语义相关度。
5.如权利要求4所述的确定方法,其特征在于,所述确定所述第一词语或所述第二词语在所述同义词词林中具有特定结尾的编码组成的编码集合,具体包括:
确定所述第一词语或所述第二词语在所述同义词词林中结尾为等号或@的编码组成的编码集合。
6.如权利要求4所述的确定方法,其特征在于,所述按照预设的单义词确定规则,确定所述词语集合对应的单义词集合,具体包括:
将所述词语集合中仅与一个编码对应的词语作为单义词,组成所述词语集合对应的单义词集合。
7.一种语义相关度的确定装置,其特征在于,包括:
向量确定模块,用于在预先采用词向量word2vec训练模型训练获得的词向量中选取第一词语与第二词语,并分别确定所述第一词语与所述第二词语的向量;
第一确定模块,用于确定所述第一词语的向量与所述第二词语的向量之间的第一余弦语义相关度;
第二确定模块,用于在确定在所述第一词语与所述第二词语中至少有一个属于预设的同义词词林时,确定所述第一词语或所述第二词语属于所述同义词词林且属于所述词向量的单义词的向量与所述第二词语或所述第一词语的向量之间的第二余弦语义相关度;将所述第二余弦语义相关度与所述第一余弦语义相关度中的最大值作为所述第一词语与所述第二词语之间的语义相关度;
第三确定模块,用于在确定所述第一词语与所述第二词语均不属于所述同义词词林时,将确定出的所述第一词语的向量与所述第二词语的向量之间的第一余弦语义相关度作为所述第一词语与所述第二词语之间的语义相关度。
8.如权利要求7所述的确定装置,其特征在于,还包括:
获取模块,用于获取中文语料库;
分词处理模块,用于对获取到的所述中文语料库进行中文分词处理;
训练模块,用于采用所述word2vec训练模型对中文分词处理后的所述中文语料库进行训练,得到与所述中文语料库对应的词向量。
9.如权利要求8所述的确定装置,其特征在于,所述中文语料库为维基百科中文语料库,还包括:
格式转换模块,用于对获取到的所述维基百科中文语料库进行格式转换;
字体处理模块,用于将格式转换后的所述维基百科中文语料库中的繁体字转换为简体字。
10.如权利要求7所述的确定装置,其特征在于,所述第二确定模块具体用于确定所述第一词语或所述第二词语在所述同义词词林中具有特定结尾的编码组成的编码集合;在所述同义词词林中根据预设的词语与编码的对应关系,确定与所述编码集合对应的词语集合;按照预设的单义词确定规则,确定所述词语集合对应的单义词集合,并确定属于所述词向量的所述单义词的向量;确定属于所述词向量的所述单义词的向量与所述第二词语或所述第一词语的向量之间的第二余弦语义相关度。
11.如权利要求10所述的确定装置,其特征在于,所述第二确定模块具体用于确定所述第一词语或所述第二词语在所述同义词词林中结尾为等号或@的编码组成的编码集合。
12.如权利要求10所述的确定装置,其特征在于,所述第二确定模块具体用于将所述词语集合中仅与一个编码对应的词语作为单义词,组成所述词语集合对应的单义词集合。
CN201710188870.XA 2017-03-27 2017-03-27 一种语义相关度的确定方法及确定装置 Active CN108664464B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710188870.XA CN108664464B (zh) 2017-03-27 2017-03-27 一种语义相关度的确定方法及确定装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710188870.XA CN108664464B (zh) 2017-03-27 2017-03-27 一种语义相关度的确定方法及确定装置

Publications (2)

Publication Number Publication Date
CN108664464A true CN108664464A (zh) 2018-10-16
CN108664464B CN108664464B (zh) 2021-07-16

Family

ID=63786301

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710188870.XA Active CN108664464B (zh) 2017-03-27 2017-03-27 一种语义相关度的确定方法及确定装置

Country Status (1)

Country Link
CN (1) CN108664464B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109684640A (zh) * 2018-12-26 2019-04-26 科大讯飞股份有限公司 一种语义提取方法及装置
CN109710921A (zh) * 2018-12-06 2019-05-03 深圳市中农易讯信息技术有限公司 词语相似度的计算方法、装置、计算机设备及存储介质
CN109783490A (zh) * 2018-12-25 2019-05-21 杭州数梦工场科技有限公司 数据融合方法、装置、计算机设备及存储介质
CN111652299A (zh) * 2020-05-26 2020-09-11 泰康保险集团股份有限公司 一种业务数据自动匹配的方法及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102955774A (zh) * 2012-05-30 2013-03-06 华东师范大学 一种计算中文词语语义相似度的控制方法以及装置
CN104239512A (zh) * 2014-09-16 2014-12-24 电子科技大学 一种文本推荐方法
CN104699667A (zh) * 2015-02-15 2015-06-10 深圳市前海安测信息技术有限公司 改进的基于语义词典的词语相似度计算方法和装置
US20160328383A1 (en) * 2015-05-08 2016-11-10 International Business Machines Corporation Generating distributed word embeddings using structured information

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102955774A (zh) * 2012-05-30 2013-03-06 华东师范大学 一种计算中文词语语义相似度的控制方法以及装置
CN104239512A (zh) * 2014-09-16 2014-12-24 电子科技大学 一种文本推荐方法
CN104699667A (zh) * 2015-02-15 2015-06-10 深圳市前海安测信息技术有限公司 改进的基于语义词典的词语相似度计算方法和装置
US20160328383A1 (en) * 2015-05-08 2016-11-10 International Business Machines Corporation Generating distributed word embeddings using structured information

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
EASTMOUNT: "word2vec词向量训练及中文文本相似度计算", 《HTTPS://BLOG.CSDN.NET/EASTMOUNT/ARTICLE/DETAILS/50637476》 *
ERIC H. HUANG ET.AL: "Improving Word Representations via Global Context", 《PROCEEDINGS OF THE 50TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 *
田久乐 等: "基于同义词词林的词语相似度计算方法", 《吉林大学学报》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109710921A (zh) * 2018-12-06 2019-05-03 深圳市中农易讯信息技术有限公司 词语相似度的计算方法、装置、计算机设备及存储介质
CN109783490A (zh) * 2018-12-25 2019-05-21 杭州数梦工场科技有限公司 数据融合方法、装置、计算机设备及存储介质
CN109783490B (zh) * 2018-12-25 2021-09-10 杭州数梦工场科技有限公司 数据融合方法、装置、计算机设备及存储介质
CN109684640A (zh) * 2018-12-26 2019-04-26 科大讯飞股份有限公司 一种语义提取方法及装置
CN109684640B (zh) * 2018-12-26 2023-05-30 科大讯飞股份有限公司 一种语义提取方法及装置
CN111652299A (zh) * 2020-05-26 2020-09-11 泰康保险集团股份有限公司 一种业务数据自动匹配的方法及设备

Also Published As

Publication number Publication date
CN108664464B (zh) 2021-07-16

Similar Documents

Publication Publication Date Title
CN111310438B (zh) 基于多粒度融合模型的中文句子语义智能匹配方法及装置
Teng et al. Context-sensitive lexicon features for neural sentiment analysis
JP6997781B2 (ja) 検索語句の誤り訂正方法および装置
CN108416058B (zh) 一种基于Bi-LSTM输入信息增强的关系抽取方法
CN110134946B (zh) 一种针对复杂数据的机器阅读理解方法
CN107729322B (zh) 分词方法及装置、建立句子向量生成模型方法及装置
CN106547737B (zh) 基于深度学习的自然语言处理中的序列标注方法
CN106855853A (zh) 基于深度神经网络的实体关系抽取系统
CN108664464A (zh) 一种语义相关度的确定方法及确定装置
WO2022020467A1 (en) System and method for training multilingual machine translation evaluation models
CN105677857B (zh) 一种关键词与营销落地页的精准匹配方法和装置
CN105335348A (zh) 基于目标语句的依存句法分析方法、装置及服务器
CN107766337A (zh) 基于深度语义关联的译文预测方法
CN111160041B (zh) 语义理解方法、装置、电子设备和存储介质
CN107346327A (zh) 基于监督转移的零样本哈希图片检索方法
CN116680384A (zh) 知识问答方法、装置、设备及存储介质
CN108776673A (zh) 关系模式的自动转换方法、装置及存储介质
CN111444695B (zh) 基于人工智能的文本生成方法、装置、设备及存储介质
CN106339371A (zh) 一种基于词向量的英汉词义映射方法和装置
Wang Single training dimension selection for word embedding with PCA
CN105373527A (zh) 一种省略恢复方法及问答系统
CN112559691B (zh) 语义相似度的确定方法及确定装置、电子设备
CN104008301A (zh) 一种领域概念层次结构自动构建方法
CN111339258B (zh) 基于知识图谱的大学计算机基础习题推荐方法
CN107633259A (zh) 一种基于稀疏字典表示的跨模态学习方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant