CN110059310A - 上位词网络的扩充方法及装置、电子设备、存储介质 - Google Patents
上位词网络的扩充方法及装置、电子设备、存储介质 Download PDFInfo
- Publication number
- CN110059310A CN110059310A CN201810055175.0A CN201810055175A CN110059310A CN 110059310 A CN110059310 A CN 110059310A CN 201810055175 A CN201810055175 A CN 201810055175A CN 110059310 A CN110059310 A CN 110059310A
- Authority
- CN
- China
- Prior art keywords
- hypernym
- entity
- vector
- term vector
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明揭示了一种上位词网络的扩充方法及装置、电子设备、计算机可读存储介质。该方案包括:根据已有上位词网络中的实体和上位词,将实体和上位词映射到语义空间中,获得实体词向量和上位词向量;将未知上下位关系的实体词向量和上位词向量进行组合,形成组合向量;将组合向量输入已构建的上下位关系判别模型,通过上下位关系判别模型判断组合向量对应的实体与上位词之间是否存在上下位关系;根据实体与上位词之间的上下位关系,在上位词网络建立连接关系。本发明提供的方案,通过将实体和上位词向量化,减少了上下位关系判别的计算量,节省了计算资源,更加完善了已有的上位词网络,提高了上位词网络的完整性。
Description
技术领域
本发明涉及自然语言处理领域,特别涉及一种上位词网络的扩充方法及装置、电子设备、计算机可读存储介质。
背景技术
如果一个实体A和一个词B包含上下位关系,例如:老虎(A)和动物(B)包含上下位关系,那么B就是A的上位词。有A和B构成的数据集合称之为上位词网络。上位词网络是由上位词和实体构成的二部图,上位词和实体之间是一种多对多关系,即一个实体可以属于多个上位词,一个上位词可以包含多个实体。已有上位词网络是从有限的纯文本语料中获取得到,所以难以保证上位词网络的完整性。如纯文本语料中有描述实体ea,eb,ec和B的上下位关系,ed,ef也是上位词B对应的实体,但是在纯文本语料中并没有对此有相关描述,所以难以获取他们的上下位关系。
现有技术为进行上位词网络补全,常见的算法是协同过滤算法,协同过滤算法被广泛应用于推荐系统中。其基本思想是对上位词集合进行预处理,根据已知上下位关系的实体与上位词,来计算上位词间的相似性,再将与实体已有上位词相似的其他上位词推荐给该实体。例如,大多数具有上位词a的实体同时也具有上位词c,则表示上位词a和上位词c十分相似,假设实体A具有上位词a,所以把与上位词a相似的上位词c推荐给实体A。
由于有些上位词的实体可能非常稀少,对于这些上位词可能不存在与其他上位词共同的实体,因此,无法确定这些上位词与其他上位词之间的相似性。由此,对于某些实体,可能难以找到与其上位词相似的其他上位词,从而无法完成上位词网络的补充任务。
发明内容
为了解决相关技术中存在的由于有些上位词的实体可能非常稀少,对于这些上位词可能不存在与其他上位词共同的实体,因此,无法确定这些上位词与其他上位词之间的相似性。由此,对于某些实体,可能难以找到与其上位词相似的其他上位词,从而无法完成上位词网络的补充任务。对此,本发明提供了一种上位词网络的扩充方法。
一方面,本发明提供了一种上位词网络的扩充方法,所述方法包括:
根据已有上位词网络中的实体和上位词,将所述实体和上位词映射到语义空间中,获得实体词向量和上位词向量;
将未知上下位关系的实体词向量和上位词向量进行组合,形成组合向量;
将所述组合向量输入已构建的上下位关系判别模型,通过所述上下位关系判别模型判断所述组合向量对应的实体与上位词之间是否存在上下位关系;
根据所述实体与上位词之间的上下位关系,在所述上位词网络建立连接关系。
另一方面,本发明提供了一种上位词网络的扩充装置,所述装置包括:
词向量化模块,用于根据已有上位词网络中的实体和上位词,将所述实体和上位词映射到语义空间中,获得实体词向量和上位词向量;
向量组合模块,用于将未知上下位关系的实体词向量和上位词向量进行组合,形成组合向量;
上下位判定模块,用于将所述组合向量输入已构建的上下位关系判别模型,通过所述上下位关系判别模型判断所述组合向量对应的实体与上位词之间是否存在上下位关系;
建立连接模块,用于根据所述实体与上位词之间的上下位关系,在所述上位词网络建立连接关系。
此外,本发明还提供了一种电子设备,所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行上述上位词网络的扩充方法。
进一步的,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序可由处理器执行完成上述上位词网络的扩充方法。
本发明的实施例提供的技术方案可以包括以下有益效果:
本发明提供的技术方案,通过将已有上位词网络中的实体和上位词向量化,进而将未知上下位关系的实体词向量和上位词向量进行组合,通过上下位关系判别模型,判断组合对应的实体和上位词之间是否存在上下位关系,由此可以根据上下位关系判别结果对已有的上位词网络进行扩充。本发明提供的方案,由于无需为实体已有的上位词寻找与该上位词相似的其他上位词,因此,不存在无法找到相似上位词的问题,解决了现有技术无法进行上位词网络补充的缺陷;进一步,通过将实体和上位词向量化,减少了上下位关系判别的计算量,节省了计算资源,更加完善了已有的上位词网络,提高了上位词网络的完整性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并于说明书一起用于解释本发明的原理。
图1是根据本发明所涉及的实施环境的示意图;
图2是根据一示例性实施例示出的一种服务器的框图;
图3是根据一示例性实施例示出的一种上位词网络的扩充方法的流程图;
图4为列举的一种上位词网络图谱示意图;
图5是图3对应实施例的步骤310的细节流程图;
图6是在图3对应实施例的基础上另一示例性实施例示出的一种上位词网络的扩充方法的流程图;
图7是一示例性实施例提供的skip-gram模型的结构示意图;
图8是在图3对应实施例的基础上又一示例性实施例示出的一种上位词网络的扩充方法的流程图;
图9为本发明一示例性实施例提供的上位词网络的扩充方法的详细流程示意图;
图10是根据一示例性实施例示出的一种上位词网络的扩充装置的框图;
图11是图10对应实施例中词向量化模块的细节的框图;
图12是根据另一示例性实施例示出的一种上位词网络的扩充装置的框图;
图13是图12对应实施例中的模型构建模块的细节框图。
具体实施方式
这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的本发明所涉及的实施环境示意图。本发明所涉及的实施环境包括服务器110。服务器110的数据库中存储有上位词网络,从而服务器110可以采用本发明提供的上位词网络扩充方法,对该上位词网络进行扩充,提高上位词网络的完整性。
根据需要,该实施环境还将包括提供数据,即上位词网络的数据来源。具体而言,在本实施环境中,数据来源可以为移动终端130。服务器110可以通过现有技术事先对移动终端130上传的文本数据生成上位词网络,或者直接接收移动终端130传送的上位词网络,进而采用本发明提供的上位词网络扩充方法,对已生成的上位词网络进行扩充,提高上位词网络的完整性。
应当说明的是,本发明上位词网络的扩充方法,不限于在服务器110中部署相应的处理逻辑,其也可以是部署于其它机器中的处理逻辑。例如,在具备计算能力的终端设备中部署上位词网络扩充的处理逻辑等。
图2是根据一示例性实施例示出的一种服务器的框图。该服务器200可因配置或性能不同而产生比较大的差异,可以包括至少一个中央处理器(central processing units,CPU)222(例如,至少一个处理器)和存储器232,至少一个存储应用程序242或数据244的存储介质230(例如至少一个海量存储设备)。其中,存储器232和存储介质230可以是短暂存储或持久存储。存储在存储介质230的程序可以包括至少一个模块(图示未示出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器222可以设置为与存储介质230通信,在服务器200上执行存储介质230中的一系列指令操作。服务器200还可以包括至少一个电源226,至少一个有线或无线网络接口250,至少一个输入输出接口258,和/或,至少一个操作系统241,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。下述图3、图5、图6、图8、图9所示实施例中所述的由服务器所执行的步骤可以基于该图2所示的服务器结构。
图3是根据一示例性实施例示出的一种上位词网络的扩充方法的流程图。该上位词网络的扩充方法适用于图1所示实施环境,该实施环境中的服务器110如图2所示,并且执行本发明所示的上位词网络的扩充方法。如图3所示,该上位词网络的扩充方法,可以包括以下步骤。
在步骤310中,根据已有上位词网络中的实体和上位词,将实体和上位词映射到语义空间中,获得实体词向量和上位词向量。
其中,实体是自然语言处理的基本单元,从数据处理的角度看,现实世界中的客观事物称为实体,它是现实世界中任何可区分、可识别的事物。实体可以指人,如教师、学生等,也可以指物,如书、仓库等。它不仅可以指能触及的客观对象,还可以指抽象的事件,如演出、足球赛等。它还可以指事物与事物之间的联系,如学生选课、客户订货等。
上位词是指概念上外延更广的主题词。例如:“动物”是“猫”的上位词,“植物”是“花”的上位词,“猫”、“花”均属于实体,“动物”与“猫”之间存在上下位关系。
上位词网络是指已知上下位关系的实体和上位词构成的关系图谱。该上位词网络是通过已有上位词挖掘算法从纯文本中获取得到,由于纯文本数据量有限,所以通常难以覆盖所有的上下位关系。
需要说明的是,本发明提供的上位词网络的扩充方法是指将原本有关联的但是没有被关联上的上位词和实体进行关联。换句话说,上位词网络的扩充并没有扩充上位词的数量也没有增加实体的数量,只是添加了上位词和实体的连接关系,通过利用上位词和实体已有的连接关系判断是否存在新的连接关系。
语义空间即语言意义的世界,不同的语义在语义空间对应不同位置的点,意思相近的语义,在语义空间中的距离较近;相反的,在语义空间中距离较远的两个点对应的语义,差别较大。因此,不同词语在语义空间中的投影位置,可以用于表征该词语的语义。举例来说,语义空间可以看成是三维空间,“动物”在语义空间中的位置可以是(1,2,3),“小猫”在语义空间中的位置可以是(1,1,3)。
应当理解,根据上位词网络中实体和上位词的语义,在语义空间中可以找到实体和上位词的投影位置,投影位置在语义空间中的坐标就是语义向量。从而,实体在语义空间的语义向量称为实体词向量,上位词在语义空间的语义向量称为上位词向量。词向量是词语的一种分布式表达,其基本思想是指将词语映射为一个固定维度的向量(维度远小于词典大小),这些词语的向量构成了词向量语义空间,语义相似的词语通常在空间中的距离较近。
在步骤330中,将未知上下位关系的实体词向量和上位词向量进行组合,形成组合向量。
由于上位词网络不完整,有些实体和上位词的上下位关系并未在上位词网络中指出。由此,未知上下位关系的实体词向量和上位词向量是指不确定是否存在上下位关系的实体对应的实体词向量以及上位词对应的上位词向量。
组合向量是指由实体词向量和上位词向量拼接而成的向量。例如,实体词向量(a,b,c)与上位词向量(x,y,z)通过拼接形成组合向量(a,b,c,x,y,z)。
图4为列举的一种上位词网络图谱示意图。如图4所示,左侧代表实体,右侧代表上位词,实体与上位词之间连接实线表示上位词网络中已知该实体和上位词之间存在上下位关系。而实体和上位词之间不存在实线连接的,表示未知上下位关系。由此,未知上下位关系的实体词向量和上位词向量进行组合,是指将猫的词向量与爬动动物的词向量进行组合,猫的词向量与卵生动物的词向量进行组合,以此类推,蛇的词向量与哺乳动物的词向量进行组合,蛇的词向量与卵生动物的词向量进行组合。总所周知,蛇属于卵生动物,而上位词网络由于其来源语料中并非存在过蛇与卵生动物之间的上下位关系,所以上位词网络中不存在蛇与卵生动物的连接关系。
在步骤350中,将组合向量输入已构建的上下位关系判别模型,通过上下位关系判别模型判断组合向量对应的实体与上位词之间是否存在上下位关系。
需要说明的是,上下位关系判别模型可以是事先根据上位词网络中已知上下位关系上位词和实体通过模型训练得到。也可以是事先根据与该上位词网络相关的语料构建的,该语料中包含具有上下位关系的实体和上位词。
举例来说,如图4所示,猫的词向量与爬动动物的词向量进行组合,形成组合向量(为进行区分,称为组合向量1);猫的词向量与卵生动物的词向量进行组合(为进行区分,称为组合向量2);……以此类推,蛇的词向量与哺乳动物的词向量进行组合,形成组合向量(为进行区分,称为组合向量5)。蛇的词向量与卵生动物的词向量进行组合,形成组合向量(为进行区分,称为组合向量6)。将组合向量1、组合向量2、……分别输入上下位关系判别模型,输出上下位关系判别结果。据了解,蛇属于卵生动物,因此,组合向量6输入上下关系判别模型时,输出结果是大于阈值的概率值,表示组合向量6对应的实体(蛇)和上位词(卵生动物)之间存在上下位关系。
相反的,其他组合向量输入上下位关系判别模型后,输出结果是小于阈值的概率值,表示该组合向量对应的实体和上位词之间不存在上下位关系。例如,组合向量1对应的实体(猫)和上位词(爬行动物)之间不存在上下位关系。
在步骤370中,根据实体与上位词之间的上下位关系,在上位词网络建立连接关系。
需要解释的是,面向纯文本的上位词挖掘算法,是以纯文本为挖掘对象,获取上位词网络。通过这种方式获取的上位词网络,由于纯文本蕴含的上下位关系并不全面,所以难以保证上位词网络的完整性。本发明提供的上位词网络的扩充方法不同于从纯文本中挖掘上下位关系的上位词挖掘算法,而是在上位词挖掘算法已获取上位词网络的基础上,对该上位词网络做进一步的补充和完善。
具体的,如果组合向量对应的实体与上位词之间存在上下位关系,那么在上位词网络中建立该实体与该上位词之间的连接关系。如果组合向量对应的实体与上位词不存在上下位关系,则不建立该实体和上位词之间的连接关系。由此,可以实现对上位词网络的扩充。
举例来说,如图4所示,判断出组合向量6对应的实体(蛇)和上位词(卵生动物)之间存在上下位关系,则在图4所示的上位词网络中建立实体(蛇)和上位词(卵生动物)之间的连接关系(参见图4中虚线)。而其他组合向量对应的实体和上位词之间不存在上下位关系,则不建立连接关系。
现有技术采用协同过滤算法进行对上位词网络进行补全,协同过滤算法采用矩阵分解思路,矩阵的行列分别表示商品和用户,此处可以表示为上位词和实体。由于上位词网络规模较大,如果采用矩阵的形式表示实体和上位词之间的关系,需要耗费大量存储资源和计算资源。更重要的是,由于有些上位词的实体可能非常稀少,对于这些上位词可能不存在与其他上位词共同的实体,因此,无法确定这些上位词与其他上位词之间的相似性。由此,对于某些实体,可能难以找到与其上位词相似的其他上位词,从而无法完成上位词网络的补充任务。
本发明提供的技术方案,通过将已有上位词网络中的实体和上位词向量化,进而将未知上下位关系的实体词向量和上位词向量进行组合,通过上下位关系判别模型,判断组合对应的实体和上位词之间是否存在上下位关系,由此可以根据上下位关系判别结果对已有的上位词网络进行扩充。本发明提供的方案,由于无需为实体已有的上位词寻找与该上位词相似的其他上位词,因此,不存在无法找到相似上位词的问题,解决了现有技术无法进行上位词网络补充的缺陷;进一步的,通过将实体和上位词向量化,减少了上下位关系判别的计算量,节省了计算资源,更加完善了已有的上位词网络,提高了上位词网络的完整性。
在实际应用中,采用本发明提供的上位词网络的扩充方法,扩充之后的上位词网络可以用于搜索系统,根据用户输入的词汇,从上位词网络中找到该词汇对应的上位词,从而可以基于上位词进行搜索,向用户推荐更多与该词汇相关的信息。
图5为本发明上述示例性实施例所述的步骤310的细节流程图。如图5所示,上述步骤310具体包括以下步骤。
在步骤311中,对上位词网络的来源语料学习单字数值表示,获得单字在语义空间中的字向量。
其中,上位词网络的来源语料是指用于生成上位词网络的文本语料,现有的上位词挖掘算法基于该文本语料构建上位词网络。需要解释的是,学习单字数值表示,是指将单字进行数值表示方式的学习,将字转换为字向量。字向量同词向量的定义类似,它是“字”层面的一种分布式表达,将“字”映射到语义空间中,得到字的一个语义向量,相似语义的字向量通常在语义空间中距离较近。
具体的,上位词网络的来源语料可以是百科语料,通过对百科语料进行分字处理,一个英文单词作为一个字,一个数字作为一个字,一个汉字作为一个字。基于分字处理后的百科语料,可以利用word2evc模型训练该百科语料中的单字用数值表示,获得单字在语义空间中的字向量。Word2vec是一款将词表征为实数值向量的高效工具,其利用深度学习的思想,可以通过训练,把对文本内容的处理简化为K维向量空间中的向量运算,而向量空间上的距离可以用来表示文本语义上的相似度。
在步骤312中,根据实体和上位词中所包含的文字,对单字的字向量进行拼接,生成实体词向量和上位词向量。
其中,对单子的字向量进行拼接是指通过单个字的字向量合成词语的词向量。实体词向量和上位词向量均可以通过单字的字向量合成得到。
为了同时刻画上位词的字符串信息以及上位词的文本语义信息,可以采用DIE(Dense Interpolated Embedding,密度插值向量化方法)算法合成上位词向量,上位词向量根据上位词中每个单字的字向量合成得到。同样的,可以采用DIE算法根据实体中各个单字的字向量,通过对各个单字的字向量进行拼接,合成实体的实体词向量。
DIE算法是一种基于字向量合成词向量的一种方法,字向量的维度一般设置较小,例如维度设置为25维。DIE算法由Fukushima在2015年ICML会议中提出,经验证可以有效地表示语义相似的词语。语义空间中不同位置的字向量组成词向量的不同部分,这样可以保证字符串顺序信息。此外,字向量是基于大量文本语料训练得到,字向量包含了一定的语义相似性,所以基于字向量合成的上位词向量和实体词向量也具有一定的语义特征。
简单来说,假设实体为“狮子”,该实体包含单字“狮”和“子”,由此可以将单字“狮”对应的字向量(例如1,1,1)与单字“子”对应的字向量(3,3,3)进行拼接,得到实体“狮子”的词向量(1,1,1,3,3,3)。通过将
在一种示例性实施例中,上述步骤310还包括:
对实体和上位词在语义空间的映射进行实体词向量和上位词向量的优化。
需要说明的是,实体和上位词在语义空间映射的实体词向量和上位词向量,可以是采用上述步骤311-312形成的实体词向量和上位词向量。也可以是采用其他词向量化方法,将实体和上位词向量化,得到实体词向量和上位词向量,例如通过word2vec模型训练得到实体词向量和上位词向量。
本发明对实体词向量和上位词向量进行优化目的是使实体词向量和上位词向量更加准确,从而在上下位关系判定时,使计算结果更加准确。
在一种示例性实施例中,如图6所示,上述步骤对所述实体和上位词在语义空间的映射进行实体词向量和上位词向量的优化,具体包括以下步骤。
在步骤601中,根据具有同一个上位词的实体词向量相似,优化相似的实体词向量;
由于具有同一个上位词的实体之间具有相似性,因此具有同一个上位词的实体词向量相似,由此,可以对具有同一上位词的实体词向量进行调整,以提高这些实体词向量的相似度,实现优化实体词向量的目的。
举例来说,狮子、老虎、猫属于同一个上位词(哺乳动物),因此狮子、老虎、猫之间具有某种相似性。由此,对狮子对应的词向量、老虎对应的词向量以及猫对应的词向量进行调整,提高彼此之间的相似度,进而提高实体词向量的准确性。
在一种示例性实施例中,上述步骤601具体包括:将属于同一上位词的实体作为一个集合,利用集合中每一实体的实体词向量,通过skip-gram模型优化集合中其他实体的实体词向量。
需要说明的是,因为出现在同一句话中的词语会有某种相似性。skip-gram模型用于根据给定的词语,预测该词语最有可能出现的上下文,其基本结果如图7所示。同理,由于具有同一上位词的实体具有某种相似性,因此可以根据某一实体的实体词向量,通过该skip-gram模型预测与该实体属于同一上位词的其他实体的实体词向量。
具体的,根据已知具有同一上位词的实体词向量训练skip-gram模型。之后通过该skip-gram模型优化实体词向量。可以上位词网络中具有同一上位词的实体看作一个集合,然后将该集合中每一体的实体词向量输入训练好的skip-gram模型,输出该集合中其他实体的实体词向量。
如图7所示,skip-gram模型的输入是当前实体Et(集合中每一实体),映射层可以是通过查表方式得到的该实体对应的实体词向量(优化完成前),然后利用该实体词向量与预测输出层的其他实体Ei,其中i∈[0,n],i≠t。n表示该集合中实体的总个数。
在步骤602中,通过计算同一上位词的实体词向量与上位词的上位词向量之间的相似度,优化上位词向量。
需要说明的是,由于上位词与实体之间的语义接近,因此上位词向量与实体词向量在语义空间中的距离接近。优化上位词向量具体通过计算同一上位词的实体词向量与该上位词的上位词向量之间的相似度,调整该上位词向量,使最终得到的上位词向量与该上位词下的所有实体对应的实体词向量之间的相似度最高。
其中,实体词向量与上位词向量之间的相似度可以通过两个向量之间的欧氏距离、余弦距离、相关系数等表示。
在一种示例性实施例中,上述步骤602具体包括:通过计算同一上位词的实体词向量与上位词的上位词向量之间的距离之和,调整上位词向量,得到使距离之和最小的上位词向量。
具体的,可以采用WMD(Word Mover Distance)算法计算实体词向量与上位词向量之间的相似度。WMD算法主要用于计算文档A和文档B的相似度。通过将两篇文档中的词映射到词向量空间,然后计算文档A中的词移动到文档B中的词的最短距离。最短距离就是文档A和文档B的相似度。基于此,可以假设文档A是上位词向量,文档B是属于该上位词的实体词向量构成的集合。优化目标是调整上位词向量A,使上位词向量A与文档B中的实体词向量之间的距离尽可能小。
具体可以采用以下公式优化上位词向量:
其中,优化目标函数为最小化J,h表示上位词向量,Ei表示同一上位词的第i个实体的实体词向量,||h-Ei||2表示计算上位词向量h与实体词向量Ei之间的距离,表示上位词向量h与所有实体词向量之间的距离之和,用于对上位词向量h与实体词向量Ei之间的距离进行归一化。通过上述公式,输出使J最小时的上位词向量h。
在一种示例性实施例中,在上述步骤350之前,本发明提供的上位词网络的扩充方法还包括以下步骤。
根据上位词网络中已知上下位关系的实体词向量和上位词向量,构建所述上下位关系判别模型。
需要说明的是,该上位词网络就是本发明需要进行扩充的上位词网络。该上位词网络中存在已知上下位关系的实体和上位词,在一种示例性实施例中,上述步骤350所采用的上下位关系判别模型可以是通过学习该上位词网络中已知上下位关系的实体词向量和上位词向量构建的,通过将未知上下位关系的实体词向量和上位词向量拼接后输入该上下位关系判别模型可以输出上下位关系判别结果(是上下位关系或不是上下位关系)。
在一种示例性实施例中,如图8所示,上述步骤“根据所述上位词网络中已知上下位关系的实体词向量和上位词向量,构建所述上下位关系判别模型”具体包括以下步骤。
在步骤341中,获取上位词网络中具有上下位关系的实体词向量和上位词向量作为正样本以及确定不具有连接关系的实体词向量和上位词向量作为负样本。
为建立上下位关系判别模型,首先构建训练样本。训练样本包括正样本和负样本。其中,正样本是指需要进行扩充的上位词网络中已知具有上下位关系的实体词向量和上位词向量。每个上位词向量随机采样具有上下位关系的一到两个实体词向量作为正样本。
负样本是指根据给定的上位词向量,然后选取与该上位词向量不存在一度和二度关系的实体词向量作为负样本。其中,一度关系表示实体和该上位词相连接(即具有上下位关系),二度关系表示属于同一个上位词的实体。因此,负样本是已经确定不具有上下位关系的实体词向量和上位词向量的组合。
在步骤342中,将所述正样本和负样本输入神经网络模型进行训练,构建上下位关系判别模型。
其中,神经网络模型(Nerual Network)是许多逻辑单元(Logistics Unit)按照不同的层级组织起来的网络,每一层的输出变量作为下一层的输入变量。最简单的神经网络模型是一个三层的神经网络,第一层为输入层(Input Layer),最后一层为输出层(OutputLayer),中间的一层为隐藏层(Hidden Layer)。本发明可以采用全连接神经网络模型进行样本训练,全连接神经网络模型是指对n-1层和n层而言,n-1层的任意一个节点,都和第n层所有节点有连接。即第n层的每个节点在进行计算的时候,激活函数的输入是n-1层所有节点的加权。
具体的,通过将正样本以及负样本中的实体词向量和上位词向量进行拼接,得到固定维度的输入向量,然后将该输入向量输入全连接神经网络模型,通过第一层神经网络的非线性组合映射得到表示上位词向量和实体词向量之间关系的隐藏层向量,将该隐藏层向量输入到全连接神经网络模型的softmax层,即建立了上下位关系判别模型。从而可以对未知上下位关系的实体词向量和上位词向量构成的组合向量进行二分类,确定该组合向量对应实体和上位词之间是否存在上下位关系。其中,模型的目标函数是最大似然估计,梯度更新策略可以采用经典的BP(Error Back Propagatio,误差反向传播)算法。
图9为本发明一示例性实施例提供的上位词网络的扩充方法的详细流程示意图。如图9所示,从已有上位词网络(见901)中提取上位词文本(见902)和实体文本(见903),然后对上位词文本进行分子处理(见904)以及对实体文本进行分字处理(见905),其中,上位词网络(见901)的来源预料为百科预料(见906),可以对百科预料(见906)进行分字处理(见907),然后通过word2ecv工具生成百科预料中单字的字向量(见908)。之后,可以利用DIE算法根据单字的字向量合成上位词的上位词向量(见909),利用DIE算法根据单字的字向量合成实体的实体词向量(见910)。
进一步的,可以利用训练好的skip-gram模型优化上述通过字向量合成的属于同一上位词的实体词向量(见911),得到优化后的实体词向量(见912)。根据属于同一上位词的实体词向量以及该上位词的上位词向量,基于WMD算法优化该上位词向量(见913)。之后,根据优化后的实体词向量和优化构建上下位关系判别模型(见914)。对于未知上下位关系的实体词向量和上位词向量构成的组合向量,可以利用该上下位关系判别模型进行实体和上位词的上下位关系的判定,并根据实体和上位词的上下位关系在上位词网络中建立新的连接,扩充上位词网络(见915)。
本发明装置实施例,可以用于执行本发明上述服务器110执行的上位词网络的扩充方法实施例。对于本发明装置实施例中未披露的细节,请参照本发明上位词网络的扩充方法实施例。
图10是根据一示例性实施例示出的一种上位词网络的扩充装置的框图,该上位词网络的扩充装置可以用于图1所示实施环境的服务器110中,执行图3、图5、图6、图8、图9任一所示的上位词网络的扩充方法的全部或者部分步骤。如图10所示,该扩充装置包括但不限于:词向量化模块1010、向量组合模块1030、上下位判定模块1050、建立连接模块1070。
词向量化模块1010,用于根据已有上位词网络中的实体和上位词,将所述实体和上位词映射到语义空间中,获得实体词向量和上位词向量;
向量组合模块1030,用于将未知上下位关系的实体词向量和上位词向量进行组合,形成组合向量;
上下位判定模块1050,用于将所述组合向量输入已构建的上下位关系判别模型,通过所述上下位关系判别模型判断所述组合向量对应的实体与上位词之间是否存在上下位关系;
建立连接模块1070,用于根据所述实体与上位词之间的上下位关系,在所述上位词网络建立连接关系。
上述装置中各个模块的功能和作用的实现过程具体详见上述上位词网络的扩充方法中对应步骤的实现过程,在此不再赘述。
词向量化模块1010比如可以是图2中的某一个物理结构中央处理器222。向量组合模块1030、上下位判定模块1050、建立连接模块1070也可以是功能模块,用于执行上述上位词网络的扩充方法中的对应步骤。可以理解,这些模块可以通过硬件、软件、或二者结合来实现。当以硬件方式实现时,这些模块可以实施为一个或多个硬件模块,例如一个或多个专用集成电路。当以软件方式实现时,这些模块可以实施为在一个或多个处理器上执行的一个或多个计算机程序,例如图2的中央处理器222所执行的存储在存储器232中的程序。
在一种示例性实施例中,如图11所示,上述词向量化模块1010包括但不限于:
字向量训练单元1011,用于对所述上位词网络的来源语料学习单字数值表示,获得单字在语义空间中的字向量;
字向量合成单元1012,用于根据实体和上位词中所包含的文字,对单字的字向量进行拼接,生成所述实体词向量和上位词向量。
在一种示例性实施例中,所述词向量化模块1010包括但不限于:
词向量优化单元,用于对所述实体和上位词在语义空间的映射进行实体词向量和上位词向量的优化。
在一种示例性实施例中,所述词向量优化单元包括但不限于:
实体优化子单元,用于根据具有同一个上位词的实体词向量相似,优化相似的所述实体词向量;
上位词优化子单元,用于通过计算同一上位词的实体词向量与所述上位词的上位词向量之间的相似度,优化所述上位词向量。
在一种示例性实施例中,所述实体优化子单元包括但不限于:
实体优化组件,用于将属于同一上位词的实体作为一个集合,利用所述集合中每一实体的实体词向量,通过skip-gram模型优化所述集合中其他实体的实体词向量。
在一种示例性实施例中,所述上位词优化子单元包括但不限于:
上位词优化组件,用于通过计算同一上位词的实体词向量与所述上位词的上位词向量之间的距离之和,调整所述上位词向量,得到使所述距离之和最小的上位词向量。
在一种示例性实施例中,如图12所示,本发明提供的上位词网络的扩充装置还包括但不限于:
模型构建模块1040,用于根据所述上位词网络中已知上下位关系的实体词向量和上位词向量,构建所述上下位关系判别模型。
在一种示例性实施例中,如图13所示,上述模型构建模块1040包括但不限于:
训练样本构建单元1041,用于获取所述上位词网络中具有上下位关系的实体词向量和上位词向量作为正样本以及确定不具有连接关系的实体词向量和上位词向量作为负样本;
样本训练单元1042,用于将所述正样本和负样本输入神经网络模型进行训练,构建所述上下位关系判别模型。
可选的,本发明还提供一种电子设备,该电子设备可以用于图1所示实施环境的服务器110中,执行图3、图5、图6、图8、图9任一所示的上位词网络的扩充方法的全部或者部分步骤。所述装置包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行上述示例性实施例所述的上位词网络的扩充方法。
该实施例中电子设备的处理器执行操作的具体方式已经在有关该上位词网络的扩充方法的实施例中执行了详细描述,此处将不做详细阐述说明。
在示例性实施例中,还提供了一种存储介质,该存储介质为计算机可读存储介质,例如可以为包括指令的临时性和非临时性计算机可读存储介质。该存储介质存储有计算机程序,该计算机程序可由服务器200的中央处理器222执行以完成上述上位词网络的扩充方法。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
Claims (15)
1.一种上位词网络的扩充方法,其特征在于,包括:
根据已有上位词网络中的实体和上位词,将所述实体和上位词映射到语义空间中,获得实体词向量和上位词向量;
将未知上下位关系的实体词向量和上位词向量进行组合,形成组合向量;
将所述组合向量输入已构建的上下位关系判别模型,通过所述上下位关系判别模型判断所述组合向量对应的实体与上位词之间是否存在上下位关系;
根据所述实体与上位词之间的上下位关系,在所述上位词网络建立连接关系。
2.根据权利要求1所述的方法,其特征在于,所述根据已有上位词网络中的实体和上位词,将所述实体和上位词映射到语义空间中,获得所述实体词向量和上位词向量,包括:
对所述上位词网络的来源语料学习单字数值表示,获得单字在语义空间中的字向量;
根据实体和上位词中所包含的文字,对单字的字向量进行拼接,生成所述实体词向量和上位词向量。
3.根据权利要求1所述的方法,其特征在于,所述根据已有上位词网络中的实体和上位词,将所述实体和上位词映射到语义空间中,获得实体词向量和上位词向量,包括:
对所述实体和上位词在语义空间的映射进行实体词向量和上位词向量的优化。
4.根据权利要求3所述的方法,其特征在于,对所述实体和上位词在语义空间的映射进行实体词向量和上位词向量的优化,包括:
根据具有同一个上位词的实体词向量相似,优化相似的所述实体词向量;
通过计算同一上位词的实体词向量与所述上位词的上位词向量之间的相似度,优化所述上位词向量。
5.根据权利要求4所述的方法,其特征在于,所述根据具有同一个上位词的实体词向量相似,优化相似的所述实体词向量,包括:
将属于同一上位词的实体作为一个集合,利用所述集合中每一实体的实体词向量,通过skip-gram模型优化所述集合中其他实体的实体词向量。
6.根据权利要求4所述的方法,其特征在于,所述通过计算同一上位词的实体词向量与所述上位词的上位词向量之间的相似度,优化所述上位词向量包括:
通过计算同一上位词的实体词向量与所述上位词的上位词向量之间的距离之和,调整所述上位词向量,得到使所述距离之和最小的上位词向量。
7.根据权利要求1所述的方法,其特征在于,将所述组合向量输入已构建的上下位关系判别模型,通过所述上下位关系判别模型判断所述组合向量对应的实体与上位词之间是否存在上下位关系之前,所述方法还包括:
根据所述上位词网络中已知上下位关系的实体词向量和上位词向量,构建所述上下位关系判别模型。
8.根据权利要求7所述的方法,其特征在于,根据所述上位词网络中已知上下位关系的实体词向量和上位词向量,构建所述上下位关系判别模型,包括:
获取所述上位词网络中具有上下位关系的实体词向量和上位词向量作为正样本以及确定不具有连接关系的实体词向量和上位词向量作为负样本;
将所述正样本和负样本输入神经网络模型进行训练,构建所述上下位关系判别模型。
9.一种上位词网络的扩充装置,其特征在于,所述装置包括:
词向量化模块,用于根据已有上位词网络中的实体和上位词,将所述实体和上位词映射到语义空间中,获得实体词向量和上位词向量;
向量组合模块,用于将未知上下位关系的实体词向量和上位词向量进行组合,形成组合向量;
上下位判定模块,用于将所述组合向量输入已构建的上下位关系判别模型,通过所述上下位关系判别模型判断所述组合向量对应的实体与上位词之间是否存在上下位关系;
建立连接模块,用于根据所述实体与上位词之间的上下位关系,在所述上位词网络建立连接关系。
10.根据权利要求9所述的装置,其特征在于,所述词向量化模块包括:
字向量训练单元,用于对所述上位词网络的来源语料学习单字数值表示,获得单字在语义空间中的字向量;
字向量合成单元,用于根据实体和上位词中所包含的文字,对单字的字向量进行拼接,生成所述实体词向量和上位词向量。
11.根据权利要求9所述的装置,其特征在于,所述词向量化模块包括:
词向量优化单元,用于对所述实体和上位词在语义空间的映射进行实体词向量和上位词向量的优化。
12.根据权利要求11所述的装置,其特征在于,所述词向量优化单元包括:
实体优化子单元,用于根据具有同一个上位词的实体词向量相似,优化相似的所述实体词向量;
上位词优化子单元,用于通过计算同一上位词的实体词向量与所述上位词的上位词向量之间的相似度,优化所述上位词向量。
13.根据权利要求12所述的装置,其特征在于,所述实体优化子单元包括:
实体优化组件,用于将属于同一上位词的实体作为一个集合,利用所述集合中每一实体的实体词向量,通过skip-gram模型优化所述集合中其他实体的实体词向量。
14.一种电子设备,其特征在于,所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行权利要求1-8任意一项所述的上位词网络的扩充方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序可由处理器执行完成权利要求1-8任意一项所述的上位词网络的扩充方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810055175.0A CN110059310B (zh) | 2018-01-19 | 2018-01-19 | 上位词网络的扩充方法及装置、电子设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810055175.0A CN110059310B (zh) | 2018-01-19 | 2018-01-19 | 上位词网络的扩充方法及装置、电子设备、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110059310A true CN110059310A (zh) | 2019-07-26 |
CN110059310B CN110059310B (zh) | 2022-10-28 |
Family
ID=67315297
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810055175.0A Active CN110059310B (zh) | 2018-01-19 | 2018-01-19 | 上位词网络的扩充方法及装置、电子设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110059310B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111583072A (zh) * | 2020-04-27 | 2020-08-25 | 北京北大软件工程股份有限公司 | 法条上下位关系判断方法及处理终端 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090024598A1 (en) * | 2006-12-20 | 2009-01-22 | Ying Xie | System, method, and computer program product for information sorting and retrieval using a language-modeling kernel function |
US20150254565A1 (en) * | 2014-03-07 | 2015-09-10 | Educational Testing Service | Systems and Methods for Constructed Response Scoring Using Metaphor Detection |
US20160350283A1 (en) * | 2015-06-01 | 2016-12-01 | Information Extraction Systems, Inc. | Apparatus, system and method for application-specific and customizable semantic similarity measurement |
CN106407211A (zh) * | 2015-07-30 | 2017-02-15 | 富士通株式会社 | 对实体词的语义关系进行分类的方法和装置 |
CN106649819A (zh) * | 2016-12-29 | 2017-05-10 | 北京奇虎科技有限公司 | 一种提取实体词和上位词的方法及装置 |
CN106844658A (zh) * | 2017-01-23 | 2017-06-13 | 中山大学 | 一种中文文本知识图谱自动构建方法及系统 |
CN107180023A (zh) * | 2016-03-11 | 2017-09-19 | 科大讯飞股份有限公司 | 一种文本分类方法及系统 |
CN107291693A (zh) * | 2017-06-15 | 2017-10-24 | 广州赫炎大数据科技有限公司 | 一种改进词向量模型的语义计算方法 |
KR101797365B1 (ko) * | 2016-06-15 | 2017-11-15 | 울산대학교 산학협력단 | 어휘 의미망을 이용한 단어 의미 임베딩 장치 및 방법 |
US20170344534A1 (en) * | 2016-05-31 | 2017-11-30 | Yahoo Holdings, Inc. | Real Time Parsing and Suggestions from Pre-Generated Corpus with Hypernyms |
CN107463607A (zh) * | 2017-06-23 | 2017-12-12 | 昆明理工大学 | 结合词向量和自举学习的领域实体上下位关系获取与组织方法 |
CN107578106A (zh) * | 2017-09-18 | 2018-01-12 | 中国科学技术大学 | 一种融合单词语义知识的神经网络自然语言推理方法 |
-
2018
- 2018-01-19 CN CN201810055175.0A patent/CN110059310B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090024598A1 (en) * | 2006-12-20 | 2009-01-22 | Ying Xie | System, method, and computer program product for information sorting and retrieval using a language-modeling kernel function |
US20150254565A1 (en) * | 2014-03-07 | 2015-09-10 | Educational Testing Service | Systems and Methods for Constructed Response Scoring Using Metaphor Detection |
US20160350283A1 (en) * | 2015-06-01 | 2016-12-01 | Information Extraction Systems, Inc. | Apparatus, system and method for application-specific and customizable semantic similarity measurement |
CN106407211A (zh) * | 2015-07-30 | 2017-02-15 | 富士通株式会社 | 对实体词的语义关系进行分类的方法和装置 |
CN107180023A (zh) * | 2016-03-11 | 2017-09-19 | 科大讯飞股份有限公司 | 一种文本分类方法及系统 |
US20170344534A1 (en) * | 2016-05-31 | 2017-11-30 | Yahoo Holdings, Inc. | Real Time Parsing and Suggestions from Pre-Generated Corpus with Hypernyms |
KR101797365B1 (ko) * | 2016-06-15 | 2017-11-15 | 울산대학교 산학협력단 | 어휘 의미망을 이용한 단어 의미 임베딩 장치 및 방법 |
CN106649819A (zh) * | 2016-12-29 | 2017-05-10 | 北京奇虎科技有限公司 | 一种提取实体词和上位词的方法及装置 |
CN106844658A (zh) * | 2017-01-23 | 2017-06-13 | 中山大学 | 一种中文文本知识图谱自动构建方法及系统 |
CN107291693A (zh) * | 2017-06-15 | 2017-10-24 | 广州赫炎大数据科技有限公司 | 一种改进词向量模型的语义计算方法 |
CN107463607A (zh) * | 2017-06-23 | 2017-12-12 | 昆明理工大学 | 结合词向量和自举学习的领域实体上下位关系获取与组织方法 |
CN107578106A (zh) * | 2017-09-18 | 2018-01-12 | 中国科学技术大学 | 一种融合单词语义知识的神经网络自然语言推理方法 |
Non-Patent Citations (2)
Title |
---|
蔡圆媛等: "基于低维语义向量模型的语义相似度度量", 《中国科学技术大学学报》 * |
马晓军等: "结合词向量和Bootstrapping的领域实体上下位关系获取与组织", 《计算机科学》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111583072A (zh) * | 2020-04-27 | 2020-08-25 | 北京北大软件工程股份有限公司 | 法条上下位关系判断方法及处理终端 |
CN111583072B (zh) * | 2020-04-27 | 2023-11-07 | 北京北大软件工程股份有限公司 | 法条上下位关系判断方法及处理终端 |
Also Published As
Publication number | Publication date |
---|---|
CN110059310B (zh) | 2022-10-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Qi et al. | Finding all you need: web APIs recommendation in web of things through keywords search | |
CN111581510B (zh) | 分享内容处理方法、装置、计算机设备和存储介质 | |
BR112020022270A2 (pt) | sistemas e métodos para unificar modelos estatísticos para diferentes modalidades de dados | |
CN112015868B (zh) | 基于知识图谱补全的问答方法 | |
CN110795527B (zh) | 候选实体排序方法、训练方法及相关装置 | |
El Mohadab et al. | Predicting rank for scientific research papers using supervised learning | |
EP4394781A1 (en) | Reactant molecule prediction method and apparatus, training method and apparatus, and electronic device | |
CN112905801A (zh) | 基于事件图谱的行程预测方法、系统、设备及存储介质 | |
Sun et al. | PGCNet: patch graph convolutional network for point cloud segmentation of indoor scenes | |
CN112131261B (zh) | 基于社区网络的社区查询方法、装置和计算机设备 | |
CN112528136A (zh) | 一种观点标签的生成方法、装置、电子设备和存储介质 | |
CN116703531B (zh) | 物品数据处理方法、装置、计算机设备和存储介质 | |
WO2019237450A1 (zh) | 物体功能性预测方法、计算机设备和存储介质 | |
CN113641797A (zh) | 数据处理方法、装置、设备、存储介质及计算机程序产品 | |
CN117494775A (zh) | 训练神经网络模型的方法、电子设备、云端、集群及介质 | |
CN110502613A (zh) | 一种模型训练方法、智能检索方法、装置和存储介质 | |
KR101273646B1 (ko) | 멀티 모달리티 데이터 색인 및 검색 방법, 그 시스템 | |
CN110059310A (zh) | 上位词网络的扩充方法及装置、电子设备、存储介质 | |
Li et al. | Evaluating BERT on cloud-edge time series forecasting and sentiment analysis via prompt learning | |
CN116975743A (zh) | 行业信息分类方法、装置、计算机设备和存储介质 | |
CN116208399A (zh) | 一种基于元图的网络恶意行为检测方法及设备 | |
CN115204171A (zh) | 基于超图神经网络的文档级事件抽取方法及系统 | |
Eisenstadt et al. | Autocompletion of Floor Plans for the Early Design Phase in Architecture: Foundations, Existing Methods, and Research Outlook | |
Borowik et al. | Computational Intelligence and Efficiency in Engineering Systems | |
CN114202669A (zh) | 一种用于医疗图像分割的神经网络搜索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |