CN109086348B - 超链接的处理方法和装置及存储介质 - Google Patents
超链接的处理方法和装置及存储介质 Download PDFInfo
- Publication number
- CN109086348B CN109086348B CN201810771876.4A CN201810771876A CN109086348B CN 109086348 B CN109086348 B CN 109086348B CN 201810771876 A CN201810771876 A CN 201810771876A CN 109086348 B CN109086348 B CN 109086348B
- Authority
- CN
- China
- Prior art keywords
- vector
- hyperlink
- output
- target
- context
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/134—Hyperlinking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种超链接的处理方法和装置及存储介质。其中,该方法包括:将第一对象中第一超链接的第一上下文信息转换为第一上下文向量;获取所述第一对象作为链接源时的第一输入向量,其中,所述第一对象包含指向第二对象的所述第一超链接的信息;根据所述第一上下文向量和所述第一输入向量获取第一平均向量;调整所述第一输入向量、所述第一上下文向量和对应于所述第二对象的第一输出向量中的至少之一;根据调整结果计算得到所述第一输出向量与所述第一平均向量的相似度,当所述第一输出向量与所述第一平均向量的相似度大于或者等于第一目标阈值时,将所述第一输出向量作为所述第二对象的输出向量并输出。
Description
技术领域
本发明涉及计算机领域,具体而言,涉及一种超链接的处理方法和装置及存储介质。
背景技术
具有超链接结构的文本称为超文本文档或超文本。对于超文本文档,首先需要对超文本文档进行向量化处理,将其表示为一个定长的特征向量的形式。
目前,对超文本文档的向量化处理方式,通常是将超文档转化为普通文档,然后进行向量化处理。然而,上述超文本文档的处理方式,忽略了超文本文档中的超链接内容与源文档及相关上下文之间的关系,造成信息丢失,例如,上下文被视为目标文档的绝对描述,丢失了源文档提供的背景信息,使得源文档引用目标文档的意图无法通过比较两个文档来得到。
发明内容
本发明实施例提供了一种超链接的处理方法和装置及存储介质,以至少解决相关技术中由于将超链接对象转化为普通对象造成的信息丢失的技术问题。
根据本发明实施例的一个方面,提供了一种超链接的处理方法,包括:将第一对象中第一超链接的第一上下文信息转换为第一上下文向量;获取所述第一对象作为链接源时的第一输入向量,其中,所述第一对象包含指向第二对象的所述第一超链接的信息;根据所述第一上下文向量和所述第一输入向量获取第一平均向量;调整所述第一输入向量、所述第一上下文向量和对应于所述第二对象的第一输出向量中的至少之一;根据调整结果计算得到所述第一输出向量与所述第一平均向量的相似度,当所述第一输出向量与所述第一平均向量的相似度大于或者等于第一目标阈值时,将所述第一输出向量作为所述第二对象的输出向量并输出。
根据本发明实施例的另一个方面,提供了一种超链接的处理方法,包括:获取第一对象作为链接源时的第一输入向量,其中,所述第一输入向量至少用于表示所述第一对象以及所述第一对象中描述第二对象的内容,所述第一对象包含指向所述第二对象的第一超链接的信息;获取第二对象作为链接目标时的第一输出向量;以及至少根据所述第一输入向量以及第一输出向量,调整得到所述第二对象的输出向量。
根据本发明实施例的又一方面,还提供了一种超链接的处理装置,包括:转换单元,用于将第一对象中第一超链接的第一上下文信息转换为第一上下文向量;第一获取单元,用于获取所述第一对象作为链接源时的第一输入向量,其中,所述第一对象包含指向第二对象的所述第一超链接的信息;第二获取单元,用于根据所述第一上下文向量和所述第一输入向量获取第一平均向量;调整单元,用于调整所述第一平均向量、所述第一输入向量和对应于所述第二对象的第一输出向量中的至少之一;输出单元,用于根据调整结果计算得到所述第一输出向量与所述第一平均向量的相似度,当所述第一输出向量与所述第一平均向量的相似度大于或者等于第一目标阈值时,将所述第一输出向量作为所述第二对象的输出向量并输出。
根据本发明实施例的又一方面,还提供了一种超链接的处理装置,包括:第一获取单元,用于获取第一对象作为链接源时的第一输入向量,其中,所述第一输入向量至少用于表示所述第一对象以及所述第一对象中描述第二对象的内容,所述第一对象包含指向所述第二对象的第一超链接的信息;第二获取单元,用于获取第二对象作为链接目标时的第一输出向量;调整单元,用于至少根据所述第一输入向量以及第一输出向量,调整得到所述第二对象的输出向量。
根据本发明的实施例的又一方面,还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述方法。
在本发明实施例中,采用输出表示超链接对象的输出向量的方式,通过将第一对象中第一超链接的第一上下文信息转换为第一上下文向量;获取第一对象作为链接源时的第一输入向量,其中,第一对象包含指向第二对象的第一超链接的信息;根据第一上下文向量和第一输入向量获取第一平均向量;调整第一平均向量、第一输入向量和对应于第二对象的第一输出向量中的至少之一;根据调整结果计算得到第一输出向量与第一平均向量的相似度,当第一输出向量与第一平均向量的相似度大于或者等于第一目标阈值时,将第一输出向量作为第二对象的输出向量并输出,由于对于每个超链接,通过调整第一平均向量、第一输入向量和对应于第二对象的第一输出向量中的至少之一,来提高第一输出向量与第一平均向量的相似度,使得第二对象的输出向量至少能够表示引用自己的对象,以及引用自己的对象如何描述自己,达到了避免丢失关键信息的目的,从而实现了提高信息完整性的技术效果,进而解决了相关技术中由于将超链接对象转化为普通对象造成的信息丢失的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种超链接的处理方法的应用环境的示意图;
图2是根据本发明实施例的一种可选的超链接的处理方法的流程示意图;
图3是根据本发明实施例的一种可选的超文本文档及超链接的示意图;
图4是根据本发明实施例的又一种可选的超链接的处理方法的示意图;
图5是根据本发明实施例的又一种可选的超链接的处理方法的示意图;
图6是根据本发明实施例的又一种可选的超链接的处理方法的示意图;
图7是根据本发明实施例的一种可选的h-d2v的网络结构的示意图;
图8是根据本发明实施例的又一种可选的超链接的处理方法的示意图;
图9是根据本发明实施例的又一种可选的超链接的处理方法的示意图;
图10是根据本发明实施例的又一种可选的超链接的处理方法的示意图;
图11是根据本发明实施例的一种可选的超链接的处理装置的结构示意图;
图12是根据本发明实施例的另一种可选的超链接的处理装置的结构示意图;
图13是根据本发明实施例的一种可选的电子装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例的一个方面,提供了一种超链接的处理方法,可选地,上述超链接的处理方法可以但不限于应用于如图1所示的应用环境中。在终端102中,将超链接对象通过网络104发送给服务器106。服务器106在接收到一个或多个终端102发送的超链接对象之后,对于各超链接对象,将第一对象中第一超链接的第一上下文信息转换为第一上下文向量;获取第一对象作为链接源时的第一输入向量,其中,第一对象包含指向第二对象的第一超链接的信息;根据第一上下文向量和第一输入向量获取第一平均向量;调整第一输入向量、第一上下文向量和对应于第二对象的第一输出向量中的至少之一;根据调整结果计算得到第一输出向量与第一平均向量的相似度,当第一输出向量与第一平均向量的相似度大于或者等于第一目标阈值时,将第一输出向量作为第二对象的输出向量并输出。得到的各超链接对象的输出向量,可以供特定应用对超文本文档做分类、推荐、检索时使用。
在本实施例中,超链接是指从一个对象中的某句话中,指向另一个对象的标记,例如网页中的统一资源定位符(Uniform Resource Locator,简称为URL),学术论文中的引用等。超链接对象,是指含有超链接的对象,包括但不限于:超文本文档。超文本文档(简称为超文档)是指含有超链接的文档,包括但不限于普通网页和学术论文。对于一个超链接,包含超链接的对象称为源对象(或称为链接源),超链接所指向的对象称为目标对象(或称为链接目标)。对于一个对象,其可以包含有一个或多个超链接来引用一个或多个对象,也可以被一个或多个其他对象所引用。
在其他实施例中,对超链接对象执行处理操作和对超链接对象做分类、推荐、检索操作的服务器可以是同一服务器,也可以是不同的服务器。本实施例对此不作限定。
在本实施例中,上述终端可以包括但不限于以下至少之一:手机、平板电脑、PC机等。上述网络可以包括但不限于无线网络或有线网络,其中,该无线网络包括:蓝牙、WIFI及其他实现无线通信的网络,该有线网络包括:局域网、城域网及广域网。上述服务器可以包括但不限于以下至少之一:PC机及其他用于提供服务的设备。上述只是一种示例,本实施例对此不做任何限定。
作为一种可选的实施方式,如图2所示,一种超链接的处理方法可以包括:
S202,将第一对象中第一超链接的第一上下文信息转换为第一上下文向量;
S204,获取第一对象作为链接源时的第一输入向量,其中,第一对象包含指向第二对象的第一超链接的信息;
S206,根据第一上下文向量和第一输入向量获取第一平均向量;
S208,调整第一输入向量、第一上下文向量和对应于第二对象的第一输出向量中的至少之一;
S210,根据调整结果计算得到第一输出向量与第一平均向量的相似度,当第一输出向量与第一平均向量的相似度大于或者等于第一目标阈值时,将第一输出向量作为第二对象的输出向量并输出。
可选地,上述超链接的处理方法可以但不限于对于特定物体的分类、推荐、检索等过程中。例如应用于学术论文的引用推荐中,或者相似文档及关键词的检索,或者超文档(即,超文本文档)分类中。
下面以学术论文的引用推荐为例进行说明。首先,服务器获取已有论文的论文集合,对于论文集合中的各超链接,将第一论文(第一对象,超链接的链接源)中某一超链接的上下文信息转换为上下文向量,获取第一论文作为链接源时的输入向量,其中,第一论文包含指向第二论文(第二对象,超链接的链接目标)的超链接的信息;根据上下文向量和输入向量获取第一平均向量;调整第一平均向量、第一输入向量和对应于第二论文的输出向量中的至少之一;根据调整结果计算得到输出向量与平均向量的相似度,当输出向量与平均向量的相似度大于或者等于目标阈值时,将输出向量作为第二论文的输出向量并输出。在获取到各已有论文的输出向量(和输入向量)之后,可以将各已有论文的输出向量(和输入向量)保存在到服务器。
通过上述方案,用户在撰写学术论文时,可以在终端上使用目标APP进行引用推荐,该目标APP与保存了上述输出向量和输入向量的服务器可进行数据交互。例如,在目标APP的指定输入位置输入一段上下文,目标APP将该上下文发送到服务器,服务器根据各已有论文的输出向量,以及该上下文,使用目标公式对各已有论文进行打分(以下将进行详细论述),获取各已有论文的评分值,根据获取的评分值确定一个或多个可以被该上下文引用的已有论文,并将指向确定的一个或多个已有论文的一个或多个超链接发送到该终端,以便用户对已有论文进行引用。可以理解,一个或多个超链接可嵌接在该上下文中进行发送,也可以直接通过与摘要结合显示的方式进行发送,本发明不以此为限。
可选地,对于已有论文进行处理的服务器、保存处理结果的服务器、接收上下文的服务器和对已有论文进行打分的服务器可以相同,也可以不同,本实施例中对此不作限定。
需要说明的是,在本实施例中,通过上述超链接的处理方法,通过结合超链接对象作为链接源时的输入向量,以及对应的上下文向量,来与超链接对象作为目标对象时的输出向量进行相似度对比,从而能够使得输出向量充分包含链接对象的完整信息,达到了避免丢失关键信息的目的,实现了提高信息完整性的技术效果。
下面以超文档为例对超链接及超链接对象进行说明。如图3所示,源文档(Zhaoand Gildea,2010,即,赵和吉尔德,2010,简写为ds)在一句话形成的上下文("We alsoevaluate our model by computing the machine translation BLEU score(Papineniet al.,2002)using the Moses system(Koehn et al.,2007)",即“我们也通过使用摩西系统(科恩等人,2007)计算及其翻译的BLEU评分(Papinenni等人,2002)来评估我们的模型”,简写为C)中,通过一个超链接指向目标文档((Papinenni等人,2002)和(科恩等人,2007),简写为dt),上述超链接可以记为<ds,C,dt>。
在本实施例中,可以对超链接对象进行向量化表示。向量化表示是将一个抽象物体(如,词语、文档、用户等)表达成一个定长的特征向量的方式。向量化表示的物体可以供之后的特定应用对原物体做分类、推荐、检索时使用。不同于传统特征工程中人工提取特征向量每一维的方法,向量化表示方法使用自动的方法得到整个特征向量。
以下以文档为例对向量化表示进行说明。对普通文档(即,不包含超链接的文档)进行向量化处理的方法可以有多种。可以包括但不限于:word2vec和doc2vec。现分别对两种方式进行说明。
word2vec(简称为w2v):对于文档中的每个词,w2v都会学得一个IN向量和一个OUT向量。词向量学习的技术包含cbow和skip-gram这两个变种:cbow方法将上下文词的IN向量作平均,并以此预测当前词的OUT向量。skip-gram方法则是利用当前词的IN向量来预测上下文词的OUT向量。由于普通文档中词的关系是相互的(a词是b词的上下文词,b词也是a词的上下文词),因此,学习得到的某个词的IN向量和OUT向量两者是类似的。
doc2vec(简称为d2v):d2v基于w2v扩展,也包含两个变种:pv-dm和pv-dbow。pv-dm方法类似cbow,区别只是当前文档的IN向量也作为一个特殊的上下文词向量计入平均。类似地,pv-dbow方法利用当前文档的IN向量,以及类似skip-gram的网络结构来预测文档中词的OUT向量。
以下分别对超文档进行向量化处理的两种方式(引用即词语和上下文即内容)进行说明,其中,引用即词语的方式是将超文档转化为普通文档并对应调用w2v得到文档向量,上下文即内容的方式是将超文档转化为普通文档并对应调用d2v得到文档向量。
引用即词语(将源文档中的引用信息作为源文档中的词语进行处理):将在源文档中引用目标文档而产生的文档ID(源文档中的引用信息)视为特殊词语。利用w2v对包含特殊词语的超文档集合(多个超文档的结合)求得所有“词”的向量,将其中特殊词语的“词”向量视为对应超文档的向量。如图4所示。上述源文档ds中的(科恩等人,2007)为引用信息,也就是特殊词语。
上下文即内容(将源文档中的超链接的上下文作为目标文档中的内容进行处理):首先删除源文档中所有超链接;然后将各超链接的上下文C加入目标文档中,作为目标文档的内容;再将转化后的普通文档输入d2v,得到文档向量,如图5所示。这种方法称为d2v-cac。与此对应地,将删除超链接但不在目标文档中补充上下文就输入d2v的方法称为d2v-nc。
需要说明的是,相关技术中超文档向量化的方法可以用于学术论文中做引用推荐,但通常采用的方式本质上属于引用即词语方法,而且只能用于本领域本任务。向量化方法还可以用于求无向图中节点向量,但采用的方式只处理超文档之间的链接结构,而不考虑文本内容信息。
请结合图6,与上述两种方式相比较,对于上述超链接<ds,C,dt>,根据本发明提供的超链接的处理方法,可以获取到:
超链接的上下文C(本示例中的C为包含超链接的语句去除超链接后得到的上下文)中的词所对应的IN向量wI;
超链接所对应的目标文档dt的OUT向量(作用同前述第一输出向量,OUT向量可以是目标文档的初始输出向量,也可以是在训练过程中得到的目标文档的中间输出向量)以及其他超文档的OUT向量。
输出层:所有超文档D的OUT向量dO形成一个softmax分类器,来为x匹配合适超文档,推荐的依据为:
以上输入层结构和pv-dm模型类似,只是输出层由softmax词分类器换成了文档分类器。
对于所有超链接C={<ds,C,dt>},可以通过梯度下降等优化算法优化如下目标函数:其中,DI为超文档集合中各超文档的IN向量组成的矩阵,DO为超文档结合中各超文档的OUT向量组成的矩阵,WI为超文档集合中所有词的IN向量组成的矩阵。
在网络的训练阶段,为了使得学得的超文档向量是内容敏感的,使用文档中的词来预训练文档向量。本示例中使用类似pv-dm的方式来优化上述目标函数,先对图6中所示的网络进行若干轮(例如,5轮)pv-dm迭代,再利用上式目标函数进行若干轮迭代优化。
与w2v/d2v类似地,为了加速训练过程,本示例中使用如下negative sampling的公式(3)来近似logP(dt/ds,C):
其中,n为采样的个数,PN(d)是所有文档集合上的平均分布。用近似后的logP(dt/ds,C)来代替前述目标函数中的logP(dt/ds,C)。
可选地,在图6后的训练步骤中,可以采用retraining/fine-tuning的方法(也称为retro-fitting),还可以将两个目标线性组合,使用联合优化或多目标学习的方法来学习文档和词向量。
可选地,在步骤negative sampling中,还可以使用hierarchical softmax的方法来简化和加速学习过程。
可选地,PN(d)还可以选择让各文档的概率正比于文档被引用的次数(被引用0次的文档使用平滑技术得到非0概率)。可以采用与w2v/d2v的sub-sampling类似的方法来防止高被引文档被取样太多次。可选地,还可以使用hierarchical softmax的方法来简化和加速学习过程。
例如,在一个1000件文献的数据库中,当需要对数据库中的这1000件文献进行超链接处理时,会逐一进行处理。例如,第101号文献引用了第108号文献,其中ds表示的即是101这件文献本身的向量,该向量可预先存储起来。当处理到101号文献时,将会先获取101号文献本身的向量,然后定位到101号文献中包含了超链接的部分,并获取该超链接的上下文信息以及对应的上下文向量(相当于向量C)。同时,还会获取这个超链接指向的目标文献,即,108号文献对应的向量(相当于输出向量dt)。获取这些向量之后,对ds和C的向量进行平均,得到平均化向量(假设是da)。此后,将平均向量da,输出向量dt、以及要优化的目标函数放入梯度下降等优化算法,算法会给出如何调整ds,C,dt才能使目标函数增加的建议。重复以上过程多次,直到目标函数几乎不再增加。当目标函数不再增加时,优化算法会输出所有文档的IN,OUT向量。
在本示例中,可以采用多个标准评价超链接的处理方法,上述标准可以包括但不限于:上下文敏感、内容敏感、新文档友好以及上下文意图敏感。下面对四个标准说明如下:
上下文敏感:超文档的超文档向量必须受到指向其的其他超文档中的超链接上下文(即,在其它指向自己的超文档中,那些超文档用什么样的上下文来描述当前文档)的影响。
内容敏感:超文档向量必须受自身内容影响。
新文档友好:对于新产生的超文档,如新网页、新论文,很可能没有其它文档指向自身。对于这种新文档,超文档向量化方法也应能为新文档产生超文档向量。
上下文意图敏感:不同于以上三条针对超文档向量的标准,本条标准是针对超文档向量化过程中的词向量而言的。一个好的超文档向量化方法应该能将超链接的意图(如,广义的指代目标文档,或赞同/反对目标文档中的观点和方法)表达在上下文词对应的向量中。
前述w2v、d2v-nc和d2v-cac均在上述评价标准的某一个或几个标准上存在缺点,以下逐一进行说明。
首先,w2v方法不是内容敏感的。如图4所示,“…计算机器翻译BLEU评分…”虽然是源文档(赵和吉尔德,2010)中的内容,但在转化后已经和这篇文档没有关系了:词向量中并未体现文档ID(赵和吉尔德,2010)。此外,对于新发表、未被引用的论文,w2v方法不会为其文档ID生成特殊词语,也就不会为其生成“词”向量,因此w2v也不是新文档友好的。
其次,d2v-nc方法不是上下文敏感的,这是因为去掉了超链接却又不将上下文补充到目标文档,使得目标文档与上下文之间的联系被丢失了。
最后,上述三种方法(w2v方法、d2v-cac方法和d2v-nc方法)都不是上下文意图敏感的。在对超链接进行建模的时候,超链接的三要素-源文档、上下文、目标文档被三种方法简化为上下文和目标文档的关系。这使得上下文被视为目标文档的绝对描述,丢失了源文档提供的背景信息,使得源文档引用目标文档的意图无法通过比较两个文档来得到。
本示例中所提供的超链接的处理方法能够符合上述所有四个标准,即,上下文敏感、内容敏感、新文档友好、上下文意图敏感。下面以图7所示的超文档为例进行说明:
上下文敏感:当优化前述目标函数时,(Papineni等人,2002)的OUT向量会受到上下文词(如“BLEU”)的IN向量的影响。
内容敏感:通过pv-dm模型的预训练,每个超文档的IN向量会受到文中词语的影响。
新文档友好:如果一个超文档没有被任何超链接指向,它最坏可以依靠自己的内容来得到IN向量。同时,negative sampling的负例个数n足够大时,也会为当前文档生成OUT向量。
上下文意图敏感:前述目标函数使得源文档/目标文档对和上下文词语各自的向量可以互相改进。在(赵和吉尔德,2010)这篇机器翻译源文档的背景下,上下文词向量把“evaluate by”这两个词隐含的“使用目标文档中的方法/技术”意图捕捉到,可以使得超链接更好的预测(Papineni等人,2002)是关于机器翻译中BLEU评价方法的目标文档。而当图4的网络在多个类似(赵和吉尔德,2010)/(Papineni等人,2002)(源文档/目标文档)的文档对图4中的网络进行训练后,也能更好的捕捉到“使用目标文档中的方法/技术”这种语义。
表1示出了结合上述四个标准对w2v、d2v-nc、d2v-cac和h-d2v进行分析的分析结果。
表1
由表1可知,本示例中所提供的超链接的处理方法(h-d2v)通过对超链接的三要素直接建模,避免了关键信息的丢失。通过这种建模方式,h-d2v能够符合所有四个标准。
需要说明的是,对于每个对象,可以有与之对应的一个输入向量和一个输入向量,其中,输入向量为该对象作为链接源所对应的向量,输入向量中包含的信息可以用于表示该对象,以及该对象所引用的目标对象,输出向量为该对象作为链接目标时所对应的向量,输出向量中包含的信息可以用于表示引用该对象的源对象,以及引用该对象的源对象中用于描述该对象的内容。
在本实施例中,在将第一对象中第一超链接的第一上下文信息转换为第一上下文向量之前,可以首先获取各个对象的初始输入向量和初始输出向量。
在本实施例中,各超链接对象的初始输入向量可以是将超链接对象集合输入到第一目标模型中得到的各超链接对象的文档向量,第一目标模型用于对超链接对象集合中的各超链接对象进行向量化处理,得到各超链对象的文档向量,将得到的各超链接对象的文档向量作为各超链接对象的初始输入向量。通过第一目标模型还可以得到各个词的输入向量。可以理解,超链接对象的初始输出向量可以通过目标算法随机生成。
在本实施例中,在将超链接对象集合输入到第一目标模型中之前,可以对超链接对象集合进行处理,将超链接对象集合中的所有超链接对象转化为普通对象。转化的方式可以包括但不限于:直接删除超链接,删除源对象中的超链接并将超链接的上下文加入到目标对象作为目标对象的内容,以及将超链接对应的引用信息作为特殊词语。
在本实施例中,在将超链接对象集合中的所有超链接对象转化为普通对象之前或者之后,可以对超链接对象进行分词、词性批注等预处理操作。具体的预处理方式可以根据需要执行,本发明对此不作限定。
在本实施例中,在将超链接对象集合输入到第一目标模型中得到的该超链接对象的文档向量的过程中,还可以得到超链接对象集合中各个词所对应的IN向量(或者,各个词所对应的IN向量和OUT向量)。
在本实施例中,包含上述超链接的上下文可以是超链接对象中包含该超链接的指定内容。可以通过多种方式获取包含该超链接的上下文。例如,可以通过设定上下文包含字数的方式获取包含超链接的上下文(例如,包含上述超链接的上下文可以是超链接对象中从超链接之前的50个词至超链接之后的50个词所包含的内容),也可以通过设定上下文包含的语句个数的方式获取包含超链接的上下文(例如,包含上述超链接的上下文为超链接对象中包含超链接的语句,或者为超链接对象中从包含超链接的语句前的一个句子至包含超链接的语句后的一个句子所包含的内容)。第一上下文可以是包含超链接的上下文去除超链接后得到的上下文。
在本实施例中,通过使用第一目标模型,可以获得各超链接对象的文档向量以及各个词的输入向量。
可选地,获取第一输入向量和第一上下文向量的第一平均向量可以包括:对第一输入向量和第一上下文中的各个词所对应的输入向量取平均,其中,第一上下文为第一对象中包含第一超链接的上下文去除第一超链接后得到的上下文。
在本实施例中,可以根据第一输入向量以及第一上下文向量获取第一平均向量。获取第一平均向量的方式可以是:对第一输入向量与第一上下文中的各个词所对应的输入向量取平均,得到第一平均向量。第一输入向量的向量长度与上下文中的词的输入向量的长度相同,可以通过对第一输入向量和第一上下文中的词所对应的输入向量中各个位置上的元素的取值取平均的方式,得到第一平均向量。
例如,第一上下文的词有5个,第一输入向量的向量长度和的各个词的输入向量的长度相同,均包含6个元素,分别将第一输入向量各个位置上元素的取值与5个词的输入向量上对应位置上元素的取值取平均(例如,第一输入向量的第一个元素的取值与5个词中各个词第一个元素的取值取平均,依次类推),得到第一平均向量。
在本实施例中,第一输入向量可以是第一对象的初始输入向量,也可以是在通过迭代的方式获取各超链接对象的输入向量和输出向量的过程中得到的第一对象的中间输入向量。第一输出向量可以是第二对象的初始输出向量,也可以是在通过迭代的方式获取各超链接对象的输入向量和输出向量的过程中得到的第二对象的中间输出向量。
在本实施例中,对于一个超链接,通过调整,使得目标对象的输出向量,与平均向量(源对象的输入向量和源对象中描述目标对象的上下文向量的平均向量)之间的相似度大于或者等于第一目标阈值,可以使目标对象的输出向量能够更准确的表示引用该目标对象的源对象(源对象的输入向量)以及引用该目标对象的源对象中用于描述该目标对象的信息(超链接的上下文向量),使源对象的输入向量能够更准确的表示自身的内容(源对象的输入向量)以及引用的目标对象(目标对象的输出向量)。
在本实施例中,上述调整过程可以是通过将第一输入向量和第一上下文中的各个词所对应的词向量输入到第二目标模型,由第二目标模型获取第一平均向量,将第一平均向量与第二对象的第一输出向量进行比较,通过调整第一输入向量、第一上下文向量和第一输出向量中的至少之一,以增加第一平均向量与第一输出向量的相似性。
在本实施例中,第二目标模型的输入可以包括:各个超链接对象的初始输入向量和初始输出向量,以及超链接对象集合中各个词的初始输入向量。第二目标模型通过调整各个超文档的输入向量和输出向量,以及超链接对象集合中各个词的输入向量,使用优化算法来优化目标函数。目标函数的变量为超链接对象的输入向量和输出向量,以及超链接对象集合中各个词的输入向量,目标函数用于求解满足以下条件的各个超链接对象的输入向量和输出向量,以及超链接对象集合中各个词的输入向量:使得超链接对象集合中包含的所有超链接中,各超链接的源对象的输入向量与包含该超链接的上下文中的词所对应的输入向量的平均向量,与该超链接的目标对象的输出向量的相似度的总和最高。
在将第一输出向量作为第二对象的输出向量并输出之后,可以将第一输入向量和第一输出向量更新为调整后的第一输入向量和第一输出向量。
在本实施例中,在将第一输出向量作为第二对象的输出向量并输出,输出的输出向量可以用来更新上一次存储的输出向量。也可以将第一输入向量作为第一对象的输入向量并输出,该输入向量可以用来更新第一输入向量。还可以将调整后的平均向量中各个词的输入向量作为对应词的输入向量并输入,输出的词的输入向量可以用来更新该词的输入向量。
在将第一输入向量和第一输出向量更新为调整后的第一输入向量和第一输出向量之后,可以定位到所有对象中的其他超链接,将定位到的超链接作为第一超链接,将超链接的源对象作为第一对象,将超链接的目标对象作为第二对象,重复执行前述步骤,直到所有对象中包含的超链接均已被处理。
在本实施例中,在对定位到的所有超链接均进行处理之后,可以重复执行定位所有超链接以及对定位到的超链接进行处理的步骤,以得到超链接对象更为准确的向量化表示。
在本实施例中,上述所有对象可以是超链接对象集合中的所有对象。对于所有对象中的超链接,可以通过依次获取超链接对象集合中各对象所包含的超链接的方式(超链接可以通过<ds,C,dt>的方式表示),获取超链接对象集合中包含的所有超链接。
下面结合具体示例对超链接的处理方法进行说明。在本示例中,超链接对象集合为超文档集合,超链接文档为超文档。如图7所示,超链接的处理方法包括以下步骤:
步骤1,将超文档集合中的各个超文档转化为普通文档;
步骤2,使用第一目标模型(如,pv-dm模型)对超文档集合中各超文档(转化后的普通文档)的初始文档向量和对超文档集合中各个词的初始IN向量和初始OUT向量进行处理,得到超文档集合中各超文档的文档向量和对超文档集合中各个词的IN向量和OUT向量;
步骤3,使用第二目标模型对超文档集合中各超文档的初始IN向量(为使用第一模型得到的各超文档的文档向量)和初始OUT向量,以及超文档集合中各个词的IN向量(使用第一模型得到的超文档集合中各个词的IN向量)进行处理,得到超文档集合中各超文档的IN向量(作用同前述目标输入向量)和OUT向量(作用同前述目标输出向量),以及超文档集合中各个词的IN向量。
下面对本示例中的超链接的处理方法进行具体说明。
对于包含100篇超文档的超文档集合,超链接的处理方法可以包括两个阶段:预训练阶段和训练阶段,其中,在预训练阶段,使用第一目标模型获取超文档集合中各个词的IN向量和OUT向量,以及各超文档的文档向量;在训练阶段,使用第二目标模型获取各超文档的IN向量和OUT向量,以及超文档集合中各个词的IN向量。
在预训练阶段,首先,将超文档集合中的100篇超文档转化为100篇普通文档,转化的方式可以如前述d2v-nc:删除超文档中的超链接但不在目标文档中补充上下文。然后,通过目标算法得到超文档集合中各个词的初始IN向量和初始OUT向量,以及各超文档的初始文档向量,将转化后的100篇普通文档、各个词的初始IN向量和初始OUT向量,以及各超文档的初始文档向量输入到pv-dm模型,得到超文档集合中各个词的IN向量和OUT向量,以及各超文档的文档向量。上述各超文档的文档向量可以作为第二目标模型中超文档的初始IN向量(可以是前述第一输入向量的一种)。
在训练阶段,第二目标模型处理超文档的方法可以称为hyperdoc2vec(简称h-d2v)。该方法通过对超链接的三要素(源文档、上下文、目标文档)直接建模,来避免关键信息的丢失。在h-d2v中,使用两个向量(IN向量和OUT向量)表示每个超文档。超文档d的IN向量dI存储超文档d作为源文档时的信息,例如,d自身的内容、d引用了什么样的文档等。d的OUT向量dO存储d作为目标文档时的信息,例如,d被什么样的文档引用、引用d的文档如何描述d等。利用dI和dO两个向量来表示一个超文档d,使得超文档和超链接能以一种自然直接的方式被向量化建模。
第二目标模型的输入为:超文档集合中各超文档的初始IN向量和初始OUT向量,以及超文档集合中各个词的IN向量。各超文档的初始IN向量可以是使用第一目标模型获得的各超文档的文档向量,各超文档的初始OUT向量可以是使用目标算法随机生成的各超文档的OUT向量,超文档集合中各个词的IN向量可以是使用第一目标模型获得的超文档集合中各个词的IN向量。
初始OUT向量的生成时机可以是在将各超文档的初始IN向量和初始OUT向量以及超文档集合中各个词的IN向量输入到第二目标模型之前的任意时间。例如,在使用第一目标模型之前,与超文档集合中各个词的初始IN向量和初始OUT向量,以及各超文档的初始文档向量一同生成。也可以是使用第一目标模型获取到超文档集合中各个词的IN向量和OUT向量,以及各超文档的文档向量之后。具体的初始OUT向量的获取时机,本示例中不作限定。
在训练阶段,可以获取超文档集合中所有超链接C={<ds,C,dt>},获取超链接的操作可以是在使用第二目标模型之前执行的,也可以是使用第二目标模型之后执行的。例如,可以使用第二目标模型之前,通过扫描超文档集合中的所有超文档,获取到所有超链接,也可以是在使用第二目标模型过程中,通过依次扫描各个超文档,获取到所有超链接。具体的获取方式以及获取时机,本示例中不作限定。
在本示例中,通过前述预训练阶段和训练阶段,可以得到超文档集合中各超文档的IN向量和OUT向量。
在本实施例中,在将第一输出向量作为第二对象的输出向量并输出之后,可以在多个场景中使用得到的输出向量(以及输入向量),上述场景可以包括但不限于:
超文档分类:对于一组标注后的超文档{<d,l>}(即,{<文档,标签>}),使用分类算法(例如,SVM等),使用超文档向量和标注组成的训练数据{<d,l>}来训练分类器,并应用在标注未知的超文档上,以预测超文档的类型。其中,预测过程中使用到的文档向量可以是超文档的IN向量或OUT向量,或者两者的拼接。
相似文档及关键词检索:在得到的超文档向量(输入向量和输出向量),可用于计算文档之间的相似度(通用余弦夹角方法,使用到的是超文档的IN向量或OUT向量,或者两者的拼接)以及文档和关键词之间的相似度(使用到的是超文档的OUT向量以及超文档集合中词的输入向量),这类相似度的计算任务在互联网相关产品中非常普遍,例如,广告的精准投放(广告文档和用户搜索词之间的相似度)、知识图谱的构建(各个实体和说明之间的相似度)等。
引用推荐:在学术论文的撰写中,可以对指定的一段上下文,自动推荐合适的论文作为引用(使用到的是超文档的OUT向量以及超文档集合中词的输入向量)。假设上下文词集合为C,可以通过公式(4)来对已有论文打分:
其中,w为C中的上下文词,wI为词的输入向量,d为待打分的文档,dO为待打分文档的OUT向量。
在本实施例中,在为指定的上下文进行引用推荐时,可以采用多种方式确定推荐的已有论文。例如,对所有的已有论文进行打分,得到已有论文的分值;根据各已有论文的分值选择得分最高的一个或多个已有论文,为该上下文进行引用推荐。又例如,可以设置引用推荐的已有论文分值的目标阈值,或者该目标阈值以及引用推荐的个数,在对一个已有论文进行打分之后,判断该已有论文的分值是否大于(或等于)目标阈值,如果大于目标阈值,确定将该已有论文向上下文进行引用推荐,如果推荐的个数为1,则结束;如果推荐的个数为n(n大于等于2),则再判断已推荐的个数是否等于n,如果等于n,则结束;如果小于n,继续执行打分判断的操作,直到已推荐的已有论文数等于n。
可选地,在将第一输出向量作为第二对象的输出向量并输出将之后,获取第三对象中各个词所对应的输入向量;根据第三对象的各个词的输入向量和第二对象的输出向量,确定第二对象的目标参数;根据目标参数确定是否允许第二对象被第三对象引用。。
可选地,根据目标参数确定是否允许第二对象被第三对象目引用包括:在目标参数的取值高于第二目标阈值的情况下,确定允许第二对象被第三对象引用;或者,在候选对象集合中第二对象的目标参数的取值最大的情况下,确定允许第二对象被第三对象引用,其中,候选对象集合包含第二对象。
可选地,在根据目标参数确定是否允许第二对象被第三对象引用之后,在根据目标参数确定出允许第二对象被第三对象引用的情况下,执行:在第三对象的目标位置上插入用于指向第二对象的第三超链接;在第三对象上显示用于提示第三超链接的提示信息,或,接收用于指示第三超链接在第三对象中的插入位置的指示信息;根据指示信息,在第三对象中的插入位置上插入第三超链接。
可选地,在第三对象中的目标位置上插入用于指向第二对象的第三超链接包括:在第三对象中查找目标词,其中,目标词所对应的输入向量与第二对象的输出向量之间的相似度高于第三目标阈值;在第三对象中的目标词之后的位置上插入第三超链接。
例如,可以在第三对象中的目标位置上自动插入用于指向第二对象的超链接。上述目标位置可以是第三对象的开始位置,结束位置或者是第三对象中间的任意位置,也可以在第三对象中查找目标词,其中,目标词所对应的输入向量与第二对象的输出向量之间的相似度高于设定阈值,或者第三对象包含的所有词中,输入向量与第二对象的输出向量之间的相似度最高的词(即,查找第三对象中与第二对象的输出向量最相似的词向量所对应的词);在第三对象中的目标词之后的位置上插入指向第二对象的超链接。通过这种方式,可以由显示第三对象的终端确定第三超链接的插入位置。
又例如,可以接收用于指示第三超链接在第三对象中插入位置的指示信息;根据该指示信息,在第三对象中的插入位置上插入第三超链接。提示信息的显示位置可以是显示第三对象的终端设备的屏幕。在显示提示信息之后,检测到用于指示第三超链接在第三对象中插入位置的输入信息;根据输入信息,在第三对象中的插入位置上插入第三超链接。通过这种方式,用户可以指定超链接的插入位置。
再例如,可以接收用于指示第三超链接在第三对象中插入位置的指示信息;根据指示信息,在第三对象中的插入位置上插入第三超链接。通过这种方式,可以由远端装置(例如,服务器)确定第三超链接的插入位置,并由显示第三对象的终端根据指示信息在该插入位置上插入第三超链接。
下面举例对在第三对象中插入超链接的方式进行说明。如图8所示,终端设备中打开目标app,在目标app中输入目标文本(第三对象)。终端设备通过目标app获取到输入的目标文本,将目标文本通过网络发送到服务器上。服务器对已有论文进行打分,确定为目标文本推荐的已有论文为评分最高的两篇已有论文((科恩等人,2007)和(Papineni等人,2002))。向终端设备发送两篇已有论文的超链接(还可以向终端设备发送两篇已有论文或已有论文的摘要,以供用户确定是否插入已有论文以及将已有论文插入在目标文本中的什么位置)。在终端设备的目标app上显示提示信息。用户根据提示信息确定已有论文的插入位置:将(科恩等人,2007)插入到“摩西系统”之后,将(Papineni等人,2002)插入到“BLEU评分”之后。接收到目标指令之后,在目标文本中的插入位置上插入两篇已有论文的超链接。超链接的描述可以是已有论文的文档ID。
通过本实施例,将第一对象中第一超链接的第一上下文信息转换为第一上下文向量;获取第一对象作为链接源时的第一输入向量,其中,第一对象包含指向第二对象的第一超链接的信息;根据第一上下文向量和第一输入向量获取第一平均向量;调整第一输入向量、第一上下文向量和对应于第二对象的第一输出向量中的至少之一;根据调整结果计算得到第一输出向量与第一平均向量的相似度,当第一输出向量与第一平均向量的相似度大于或者等于第一目标阈值时,将第一输出向量作为第二对象的输出向量并输出,通过使用输出向量来表示超链接对象,避免了丢失关键信息,提高了信息的完整性。
作为一种可选的实施方案,在将第一输出向量作为第二对象的输出向量并输出之后,上述方法还包括:
S1,将第一输入向量和第一输出向量更新为调整后的第一输入向量和第一输出向量。
可选地,在将第一输入向量和第一输出向量更新为调整后的第一输入向量和第一输出向量之后,上述方法还包括:
S2,重复执行以下步骤:
S21,定位到所有对象中的其他超链接,将定位到的其他超链接作为第二超链接;
S22,将第二超链接的第二上下文信息转换为第二上下文向量;
S23,获取第二超链接的源对象作为链接源时的第二输入向量,其中,源对象包含指向目标对象的第二超链接的信息;
S24,根据第二上下文向量和第二输入向量获取第二平均向量;
S25,调整第二输入向量、第二上下文向量和对应于目标对象的第二输出向量中的至少之一;
S26,根据调整结果计算得到第二输出向量与第二平均向量的相似度,当第二输出向量与第二平均向量的相似度大于或者等于第一目标阈值时,将第二输出向量作为目标对象的输出向量并输出。
通过本实施例,将第一输入向量和第一输出向量更新为调整后的第一输入向量和第一输出向量,可以保证第一输入向量和第二输入向量的有效性。进一步地,通过定位所有对象中的超链接,并对每个超链接执行调整的步骤,可以提高各对象的输入向量和输出向量表征该对象的能力。
作为一种可选的实施方案,在将第一输出向量作为第二对象的输出向量并输出将之后,上述方法还包括:
获取第三对象中各个词所对应的输入向量;
根据第三对象的各个词的输入向量和第二对象的输出向量,确定第二对象的目标参数;根据目标参数确定是否允许第二对象被第三对象引用。
可选地,根据目标参数确定是否允许第二对象被第三对象目引用包括:
在目标参数的取值高于第二目标阈值的情况下,确定允许第二对象被第三对象引用;或者,
在候选对象集合中第二对象的目标参数的取值最大的情况下,确定允许第二对象被第三对象引用,其中,候选对象集合包含第二对象。
可选地,在根据目标参数确定是否允许第二对象被第三对象引用之后,上述方法还包括:
在根据目标参数确定出允许第二对象被第三对象引用的情况下,执行:
在第三对象的目标位置上插入用于指向第二对象的第三超链接;
在第三对象上显示用于提示第三超链接的提示信息,或
接收用于指示第三超链接在第三对象中的插入位置的指示信息;根据指示信息,在第三对象中的插入位置上插入第三超链接。
可选地,在第三对象中的目标位置上插入用于指向第二对象的第三超链接包括:
在第三对象中查找目标词,其中,目标词所对应的输入向量与第二对象的输出向量之间的相似度高于第三目标阈值;在第三对象中的目标词之后的位置上插入第三超链接。
通过本实施例,通过使用超链接转化后的输出向量为第三对象进行引用推荐,并在第三对象中插入指向推荐的超链接对象的超链接,从而在得到输出向量后,为第三对象进行引用推荐,从而提高了超链接的处理方法的应用价值,以及第三对象的使用价值(例如,在论文撰写,网页设计等场景使用)。
以下结合图9,对上述超链接的处理方法进行说明,其中,超链接对象为超文档。如图9所示,服务器通过步骤S902,对超文档集合进行预处理。通过步骤S904,将超文档集合中的超文档转换成目标输入向量和目标输出向量。通过步骤S906,为目标文本进行引用推荐。
根据本发明实施例的另一个方面,还提供了一种超链接的处理方法,如图10所示,该方法包括:
S1002,获取第一对象作为链接源时的第一输入向量,其中,第一输入向量至少用于表示第一对象以及第一对象中描述第二对象的内容,第一对象包含指向第二对象的第一超链接的信息;
S1004,获取第二对象作为链接目标时的第一输出向量;以及
S1006,至少根据第一输入向量以及第一输出向量,调整得到第二对象的输出向量。
可选地,上述超链接的处理方法可以但不限于对于特定物体的分类、推荐、检索等过程中。
需要说明的是,在本实施例中,通过上述超链接的处理方法,获取第一对象作为链接源时的第一输入向量,其中,第一输入向量至少用于表示第一对象以及第一对象中描述第二对象的内容,第一对象包含指向第二对象的第一超链接的信息;获取第二对象作为链接目标时的第一输出向量;以及,至少根据第一输入向量以及第一输出向量,调整得到第二对象的输出向量,通过输出向量来表示超链接对象作为链接目标时的信息,达到了避免丢失关键信息的目的,实现了提高信息完整性的技术效果。
可选地,在获取第一对象作为链接源时的第一输入向量之后,可以获取第一超链接的第一上下文所对应的一个或多个词向量,其中,第一上下文为第一对象中包含第一超链接的上下文去除第一超链接后得到的上下文;根据第一输入向量以及第一上下文所对应的一个或多个词向量,获取第一平均向量;根据第一平均向量和第一输出向量,调整第一输入向量、第一上下文所对应的一个或多个词向量和第一输出向量中的至少之一,以得到第二对象的输出向量。
在本实施例中,可以根据第一输入向量以及第一上下文向量获取第一平均向量。获取第一平均向量的方式可以是:对第一输入向量与第一上下文中的各个词所对应的输入向量取平均,得到第一平均向量。第一输入向量的向量长度与上下文中的词的输入向量的长度相同,可以通过对第一输入向量和第一上下文中的词所对应的输入向量中各个位置上的元素的取值取平均的方式,得到第一平均向量。
在本实施例中,第一输入向量可以是第一对象的初始输入向量,也可以是在通过迭代的方式获取各超链接对象的输入向量和输出向量的过程中得到的第一对象的中间输入向量。第一输出向量可以是第二对象的初始输出向量,也可以是在通过迭代的方式获取各超链接对象的输入向量和输出向量的过程中得到的第二对象的中间输出向量。
可选地,调整第一输入向量、第一上下文所对应的一个或多个词向量和第一输出向量中的至少之一包括:计算第一平均向量以及第一输出向量的相似度;基于相似度优化算法调整第一输入向量、第一上下文所对应的一个或多个词向量和第一输出向量中的至少之一,使得第一输出向量与第一平均向量之间的大于或者等于目标阈值。
在本实施例中,上述调整过程可以是通过将第一输入向量和第一上下文中的各个词所对应的词向量输入到目标模型,由目标模型获取第一平均向量,将第一平均向量与第二对象的第一输出向量进行比较,通过调整第一平均向量、第一输入向量和第一输出向量中的至少之一,以增加第一平均向量与第一输出向量的相似性。
在本实施例中,目标模型的输入可以包括:各个超链接对象的初始输入向量和初始输出向量,以及超链接对象集合中各个词的初始输入向量。目标模型通过调整各个超链接对象的输入向量和输出向量,以及超链接对象集合中各个词的输入向量,使用优化算法来优化目标函数。目标函数的变量为超链接对象的输入向量和输出向量,以及超链接对象集合中各个词的输入向量,目标函数用于求解满足以下条件的各个超链接对象的输入向量和输出向量,以及超链接对象集合中各个词的输入向量:使得超链接对象集合中包含的所有超链接中,各超链接的源对象的输入向量与包含该超链接的上下文中的词所对应的输入向量的平均向量,与该超链接的目标对象的输出向量的相似度的总和最高。
可选地,在调整得到第二对象的输出向量之后,可以定位到所有对象中的其他超链接,将定位到的超链接作为第一超链接,将超链接的源对象作为第一对象,将超链接的目标对象作为第二对象,重复执行前述步骤,直到所有对象中包含的超链接均已被处理。
在本实施例中,在对定位到的所有超链接均进行处理之后,可以重复执行定位所有超链接以及对定位到的超链接进行处理的步骤,以得到超链接对象更为准确的向量化表示。
通过本实施例,获取第一对象作为链接源时的第一输入向量,其中,第一输入向量至少用于表示第一对象以及第一对象中描述第二对象的内容,第一对象包含指向第二对象的第一超链接的信息;获取第二对象作为链接目标时的第一输出向量;以及,至少根据第一输入向量以及第一输出向量,调整得到第二对象的输出向量,通过使用输出向量来表示超链接对象,避免了丢失关键信息,提高了信息的完整性。
作为一种可选的实施方案,在获取第一对象作为链接源时的第一输入向量之后,上述方法还包括:
S3,获取第一超链接的第一上下文所对应的一个或多个词向量,其中,第一上下文为第一对象中包含第一超链接的上下文去除第一超链接后得到的上下文;
S4,根据第一输入向量以及第一上下文所对应的一个或多个词向量,获取第一平均向量;
其中,至少根据第一输入向量以及第一输出向量,调整得到第二对象的输出向量包括:
S5,根据第一平均向量和第一输出向量,调整第一输入向量、第一上下文所对应的一个或多个词向量和第一输出向量中的至少之一,以得到第二对象的输出向量。
可选地,调整第一输入向量、第一上下文所对应的一个或多个词向量和第一输出向量中的至少之一包括:
S51,计算第一平均向量以及第一输出向量的相似度;
S52,基于相似度优化算法调整第一输入向量、第一上下文所对应的一个或多个词向量和第一输出向量中的至少之一,使得第一输出向量与第一平均向量之间的大于或者等于目标阈值。
通过本实施例,根据第一平均向量和第一输出向量,调整第一输入向量、第一上下文所对应的一个或多个词向量和第一输出向量中的至少之一,以得到第二对象的输出向量,可以保证得到的输出向量对第二对象的表示能力。进一步地,根据第一平均向量和第一输出向量的相似度,使用相似度优化算法对第一输入向量、第一上下文所对应的一个或多个词向量和第一输出向量中的至少之一进行调整,可以提高输出向量对第二对象的表达能力。
作为一种可选的实施方案,在调整得到第二对象的输出向量之后,上述方法还包括:
S6,重复执行以下步骤:
S61,按照预定规则,定位所有对象中的其他超链接,将定位到的其他超链接作为第二超链接;
S62,获取第二超链接的源对象作为链接源时的第二输入向量,其中,第二输入向量至少用于表示源对象以及源对象中描述目标对象的内容,源对象包含指向目标对象的第二超链接的信息;
S63,获取目标对象作为链接目标时的第二输出向量;以及
S64,至少根据第二输入向量以及第二输出向量,调整得到目标对象的输出向量。
通过本实施例,通过定位所有对象中的超链接,并对每个超链接执行调整的步骤,可以提高各对象的输入向量和输出向量表征该对象的能力。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例的方法。
根据本发明实施例的又一个方面,还提供了一种用于实施上述超链接的处理方法的超链接的处理装置,如图11所示,该装置包括:
转换单元1102,用于将第一对象中第一超链接的第一上下文信息转换为第一上下文向量;
第一获取单元1104,用于获取第一对象作为链接源时的第一输入向量,其中,第一对象包含指向第二对象的第一超链接的信息;
第二获取单元1106,用于根据第一上下文向量和第一输入向量获取第一平均向量;
调整单元1108,用于调整第一输入向量、第一上下文向量和对应于第二对象的第一输出向量中的至少之一;
输出单元1110,用于根据调整结果计算得到第一输出向量与第一平均向量的相似度,当第一输出向量与第一平均向量的相似度大于或者等于第一目标阈值时,将第一输出向量作为第二对象的输出向量并输出。
可选地,上述超链接的处理装置可以但不限于对于特定物体的分类、推荐、检索等过程中。
需要说明的是,在本实施例中,通过上述超链接的处理装置,将第一对象中第一超链接的第一上下文信息转换为第一上下文向量;获取第一对象作为链接源时的第一输入向量,其中,第一对象包含指向第二对象的第一超链接的信息;根据第一上下文向量和第一输入向量获取第一平均向量;调整第一平均向量、第一输入向量和对应于第二对象的第一输出向量中的至少之一;根据调整结果计算得到第一输出向量与第一平均向量的相似度,当第一输出向量与第一平均向量的相似度大于或者等于第一目标阈值时,将第一输出向量作为第二对象的输出向量并输出,通过输出向量来表示超链接对象作为链接目标时的信息,达到了避免丢失关键信息的目的,实现了提高信息完整性的技术效果。
获取第一输入向量和第一上下文向量的第一平均向量可以包括:对第一输入向量和第一上下文中的各个词所对应的输入向量取平均,其中,第一上下文为第一对象中包含第一超链接的上下文去除第一超链接后得到的上下文。
在本实施例中,可以根据第一输入向量以及第一上下文向量获取第一平均向量。获取第一平均向量的方式可以是:对第一输入向量与第一上下文中的各个词所对应的输入向量取平均,得到第一平均向量。第一输入向量的向量长度与上下文中的词的输入向量的长度相同,可以通过对第一输入向量和第一上下文中的词所对应的输入向量中各个位置上的元素的取值取平均的方式,得到第一平均向量。
在本实施例中,第一输入向量可以是第一对象的初始输入向量,也可以是在通过迭代的方式获取各超链接对象的输入向量和输出向量的过程中得到的第一对象的中间输入向量。第一输出向量可以是第二对象的初始输出向量,也可以是在通过迭代的方式获取各超链接对象的输入向量和输出向量的过程中得到的第二对象的中间输出向量。
在本实施例中,对于一个超链接,通过调整,使得目标对象的输出向量,与平均向量(源对象的输入向量和源对象中描述目标对象的上下文向量的平均向量)之间的相似度大于或者等于第一目标阈值,可以使目标对象的输出向量能够更准确的表示引用该目标对象的源对象(源对象的输入向量)以及引用该目标对象的源对象中用于描述该目标对象的信息(超链接的上下文向量),使源对象的输入向量能够更准确的表示自身的内容(源对象的输入向量)以及引用的目标对象(目标对象的输出向量)。
在本实施例中,上述调整过程可以是通过将第一输入向量和第一上下文中的各个词所对应的词向量输入到第二目标模型,由第二目标模型获取第一平均向量,将第一平均向量与第二对象的第一输出向量进行比较,通过调整第一输入向量、第一上下文向量和第一输出向量中的至少之一,以增加第一平均向量与第一输出向量的相似性。
在本实施例中,第二目标模型的输入可以包括:各个超链接对象的初始输入向量和初始输出向量,以及超链接对象集合中各个词的初始输入向量。第二目标模型通过调整各个超文档的输入向量和输出向量,以及超链接对象集合中各个词的输入向量,使用优化算法来优化目标函数。目标函数的变量为超链接对象的输入向量和输出向量,以及超链接对象集合中各个词的输入向量,目标函数用于求解满足以下条件的各个超链接对象的输入向量和输出向量,以及超链接对象集合中各个词的输入向量:使得超链接对象集合中包含的所有超链接中,各超链接的源对象的输入向量与包含该超链接的上下文中的词所对应的输入向量的平均向量,与该超链接的目标对象的输出向量的相似度的总和最高。
在将第一输出向量作为第二对象的输出向量并输出之后,可以将第一输入向量和第一输出向量更新为调整后的第一输入向量和第一输出向量。
在本实施例中,在将第一输出向量作为第二对象的输出向量并输出,输出的输出向量可以用来更新第一输出向量。也可以将第一输入向量作为第一对象的输入向量并输出,输入的输入向量可以用来更新第一输入向量。还可以将调整后的平均向量中各个词的输入向量作为对应词的输入向量并输入,输出的词的输入向量可以用来更新该词的输入向量。
在将第一输入向量和第一输出向量更新为调整后的第一输入向量和第一输出向量之后,可以定位到所有对象中的其他超链接,将定位到的超链接作为第一超链接,将超链接的源对象作为第一对象,将超链接的目标对象作为第二对象,重复执行前述步骤,直到所有对象中包含的超链接均已被处理。
在本实施例中,在对定位到的所有超链接均进行处理之后,可以重复执行定位所有超链接以及对定位到的超链接进行处理的步骤,以得到超链接对象更为准确的向量化表示。
在本实施例中,上述所有对象可以是超链接对象集合中的所有对象。对于所有对象中的超链接,可以通过依次获取超链接对象集合中各对象所包含的超链接的方式(超链接可以通过<ds,C,dt>的方式表示),获取超链接对象集合中包含的所有超链接。
在本实施例中,在将第一输出向量作为第二对象的输出向量并输出之后,可以在多个场景中使用得到的输出向量(以及输入向量),上述场景可以包括但不限于:超文档分类、相似文档及关键词检索、引用推荐。
在将第一输出向量作为第二对象的输出向量并输出将之后,获取第三对象中各个词所对应的输入向量;根据第三对象的各个词的输入向量和第二对象的输出向量,确定第二对象的目标参数;根据目标参数确定是否允许第二对象被第三对象引用。
根据目标参数确定是否允许第二对象被第三对象目引用包括:在目标参数的取值高于第二目标阈值的情况下,确定允许第二对象被第三对象引用;或者,在候选对象集合中第二对象的目标参数的取值最大的情况下,确定允许第二对象被第三对象引用,其中,候选对象集合包含第二对象。
在根据目标参数确定是否允许第二对象被第三对象引用之后,在根据目标参数确定出允许第二对象被第三对象引用的情况下,执行:在第三对象的目标位置上插入用于指向第二对象的第三超链接;在第三对象上显示用于提示第三超链接的提示信息,或,接收用于指示第三超链接在第三对象中的插入位置的指示信息;根据指示信息,在第三对象中的插入位置上插入第三超链接。
在第三对象中的目标位置上插入用于指向第二对象的第三超链接包括:在第三对象中查找目标词,其中,目标词所对应的输入向量与第二对象的输出向量之间的相似度高于第三目标阈值;在第三对象中的目标词之后的位置上插入第三超链接。
通过本实施例,将第一对象中第一超链接的第一上下文信息转换为第一上下文向量;获取第一对象作为链接源时的第一输入向量,其中,第一对象包含指向第二对象的第一超链接的信息;根据第一上下文向量和第一输入向量获取第一平均向量;调整第一输入向量、第一上下文向量和对应于第二对象的第一输出向量中的至少之一;根据调整结果计算得到第一输出向量与第一平均向量的相似度,当第一输出向量与第一平均向量的相似度大于或者等于第一目标阈值时,将第一输出向量作为第二对象的输出向量并输出,通过使用输出向量来表示超链接对象,避免了丢失关键信息,提高了信息的完整性。
作为一种可选的实施方案,上述装置还包括:
更新单元,用于在将第一输出向量作为第二对象的输出向量并输出之后,将第一输入向量和第一输出向量更新为调整后的第一输入向量和第一输出向量。
在一些实施例中,上述装置还包括:
第一执行单元,用于在将第一输入向量和第一输出向量更新为调整后的第一输入向量和第一输出向量之后,重复执行以下步骤:
定位到所有对象中的其他超链接,将定位到的其他超链接作为第二超链接;将第二超链接的第二上下文信息转换为第二上下文向量;获取第二超链接的源对象作为链接源时的第二输入向量,其中,源对象包含指向目标对象的第二超链接的信息;根据第二上下文向量和第二输入向量获取第二平均向量;调整第二输入向量和、第二上下文向量对应于目标对象的第二输出向量中的至少之一;根据调整结果计算得到第二输出向量与第二平均向量的相似度,当第二输出向量与第二平均向量的相似度大于或者等于第一目标阈值时,将第二输出向量作为目标对象的输出向量并输出。
通过本实施例,将第一输入向量和第一输出向量更新为调整后的第一输入向量和第一输出向量,可以保证第一输入向量和第二输入向量的有效性。进一步地,通过定位所有对象中的超链接,并对每个超链接执行调整的步骤,可以提高各对象的输入向量和输出向量表征该对象的能力。
作为一种可选的实施方案,上述装置还包括:
第三获取单元,用于在将第一输出向量作为第二对象的输出向量并输出将之后,获取第三对象中各个词所对应的输入向量;
确定单元,用于根据第三对象的各个词的输入向量和第二对象的输出向量,确定第二对象的目标参数;根据目标参数确定是否允许第二对象被第三对象引用。
在其他实施例中,所述确定单元包括:
第一确定模块,用于在目标参数的取值高于第二目标阈值的情况下,确定允许第二对象被第三对象引用;或者,
用于在候选对象集合中第二对象的目标参数的取值最大的情况下,确定允许第二对象被第三对象引用,其中,候选对象集合包含第二对象。
在其他实施例中,上述装置还包括:
第二执行单元,用于在根据目标参数确定是否允许第二对象被第三对象引用之后,在根据目标参数确定出允许第二对象被第三对象引用的情况下,执行:
在第三对象的目标位置上插入用于指向第二对象的第三超链接;
在第三对象上显示用于提示第三超链接的提示信息,或
接收用于指示第三超链接在第三对象中的插入位置的指示信息;根据指示信息,在第三对象中的插入位置上插入第三超链接。
在其他实施例中,在第三对象中的目标位置上插入用于指向第二对象的第三超链接包括:
在第三对象中查找目标词,其中,目标词所对应的输入向量与第二对象的输出向量之间的相似度高于第三目标阈值;在第三对象中的目标词之后的位置上插入第三超链接。
通过本实施例,通过使用超链接转化后的输出向量为第三对象进行引用推荐,并在第三对象中插入指向推荐的超链接对象的超链接,从而在得到输出向量后,为第三对象进行引用推荐,从而提高了超链接的处理方法的应用价值,以及第三对象的使用价值(例如,在论文撰写,网页设计等场景使用)。
根据本发明实施例的又一个方面,还提供了一种超链接的处理装置,如图12所示,该装置包括:
第一获取单元1202,用于获取第一对象作为链接源时的第一输入向量,其中,第一输入向量至少用于表示第一对象以及第一对象中描述第二对象的内容,第一对象包含指向第二对象的第一超链接的信息;
第二获取单元1204,用于获取第二对象作为链接目标时的第一输出向量;
调整单元1206,用于至少根据第一输入向量以及第一输出向量,调整得到第二对象的输出向量。
可选地,上述超链接的处理装置可以但不限于对于特定物体的分类、推荐、检索等过程中。
需要说明的是,在本实施例中,通过上述超链接的处理装置,获取第一对象作为链接源时的第一输入向量,其中,第一输入向量至少用于表示第一对象以及第一对象中描述第二对象的内容,第一对象包含指向第二对象的第一超链接的信息;获取第二对象作为链接目标时的第一输出向量;以及,至少根据第一输入向量以及第一输出向量,调整得到第二对象的输出向量,通过输出向量来表示超链接对象作为链接目标时的信息,达到了避免丢失关键信息的目的,实现了提高信息完整性的技术效果。
在其他实施例中,在获取第一对象作为链接源时的第一输入向量之后,可以获取第一超链接的第一上下文所对应的一个或多个词向量,其中,第一上下文为第一对象中包含第一超链接的上下文去除第一超链接后得到的上下文;根据第一输入向量以及第一上下文所对应的一个或多个词向量,获取第一平均向量;根据第一平均向量和第一输出向量,调整第一输入向量、第一上下文所对应的一个或多个词向量和第一输出向量中的至少之一,以得到第二对象的输出向量。
在本实施例中,可以根据第一输入向量以及第一上下文向量获取第一平均向量。获取第一平均向量的方式可以是:对第一输入向量与第一上下文中的各个词所对应的输入向量取平均,得到第一平均向量。第一输入向量的向量长度与超链接中的词的输入向量的长度相同,可以通过对第一输入向量和第一上下文中的词所对应的输入向量中各个位置上的元素的取值取平均的方式,得到第一平均向量。
在本实施例中,第一输入向量可以是第一对象的初始输入向量,也可以是在通过迭代的方式获取各超链接对象的输入向量和输出向量的过程中得到的第一对象的中间输入向量。第一输出向量可以是第二对象的初始输出向量,也可以是在通过迭代的方式获取各超链接对象的输入向量和输出向量的过程中得到的第二对象的中间输出向量。
在其他实施例中,调整第一输入向量、第一上下文所对应的一个或多个词向量和第一输出向量中的至少之一包括:计算第一平均向量以及第一输出向量的相似度;基于相似度优化算法调整第一输入向量、第一上下文所对应的一个或多个词向量和第一输出向量中的至少之一,使得第一输出向量与第一平均向量之间的大于或者等于目标阈值。
在本实施例中,上述调整过程可以是通过将第一输入向量和第一上下文中的各个词所对应的词向量输入到目标模型,由目标模型获取第一平均向量,将第一平均向量与第二对象的第一输出向量进行比较,通过调整第一平均向量、第一输入向量和第一输出向量中的至少之一,以增加第一平均向量与第一输出向量的相似性。
在本实施例中,目标模型的输入可以包括:各个超链接对象的初始输入向量和初始输出向量,以及超链接对象集合中各个词的初始输入向量。目标模型通过调整各个超链接对象的输入向量和输出向量,以及超链接对象集合中各个词的输入向量,使用优化算法来优化目标函数。目标函数的变量为超链接对象的输入向量和输出向量,以及超链接对象集合中各个词的输入向量,目标函数用于求解满足以下条件的各个超链接对象的输入向量和输出向量,以及超链接对象集合中各个词的输入向量:使得超链接对象集合中包含的所有超链接中,各超链接的源对象的输入向量与包含该超链接的上下文中的词所对应的输入向量的平均向量,与该超链接的目标对象的输出向量的相似度的总和最高。
在其他实施例中,在调整得到第二对象的输出向量之后,可以定位到所有对象中的其他超链接,将定位到的超链接作为第一超链接,将超链接的源对象作为第一对象,将超链接的目标对象作为第二对象,重复执行前述步骤,直到所有对象中包含的超链接均已被处理。
在本实施例中,在对定位到的所有超链接均进行处理之后,可以重复执行定位所有超链接以及对定位到的超链接进行处理的步骤,以得到超链接对象更为准确的向量化表示。
通过本实施例,获取第一对象作为链接源时的第一输入向量,其中,第一输入向量至少用于表示第一对象以及第一对象中描述第二对象的内容,第一对象包含指向第二对象的第一超链接的信息;获取第二对象作为链接目标时的第一输出向量;以及,至少根据第一输入向量以及第一输出向量,调整得到第二对象的输出向量,通过使用输出向量来表示超链接对象,避免了丢失关键信息,提高了信息的完整性。
作为一种可选的实施方案,上述装置还包括:
第三获取单元,用于在获取第一对象作为链接源时的第一输入向量之后,获取第一超链接的第一上下文所对应的一个或多个词向量,其中,第一上下文为第一对象中包含第一超链接的上下文去除第一超链接后得到的上下文;
第四获取单元,用于根据第一输入向量以及第一上下文所对应的一个或多个词向量,获取第一平均向量;
其中,调整单元1206包括:调整模块,用于根据第一平均向量和第一输出向量,调整第一输入向量、第一上下文所对应的一个或多个词向量和第一输出向量中的至少之一,以得到第二对象的输出向量。
可选地,调整模块包括:
计算子模块,用于计算第一平均向量以及第一输出向量的相似度;
调整子模块,用于基于相似度优化算法调整第一输入向量、第一上下文所对应的一个或多个词向量和第一输出向量中的至少之一,使得第一输出向量与第一平均向量之间的大于或者等于目标阈值。
通过本实施例,根据第一平均向量和第一输出向量,调整第一输入向量、第一上下文所对应的一个或多个词向量和第一输出向量中的至少之一,以得到第二对象的输出向量,可以保证得到的输出向量对第二对象的表示能力。进一步地,根据第一平均向量和第一输出向量的相似度,使用相似度优化算法对第一输入向量、第一上下文所对应的一个或多个词向量和第一输出向量中的至少之一进行调整,可以提高输出向量对第二对象的表达能力。
作为一种可选的实施方案,上述装置还包括:
执行单元,用于在调整得到第二对象的输出向量之后,重复执行以下步骤,并输出所有对象的输出向量:
按照预定规则,定位所有对象中的其他超链接,将定位到的其他超链接作为第二超链接;
获取第二超链接的源对象作为链接源时的第二输入向量,其中,第二输入向量至少用于表示源对象以及源对象中描述目标对象的内容,源对象包含指向目标对象的第二超链接的信息;
获取目标对象作为链接目标时的第二输出向量;以及
至少根据第二输入向量以及第二输出向量,调整得到目标对象的输出向量。
通过本实施例,通过定位所有对象的超链接,并对每个超链接执行调整的步骤,提高了各对象的输入向量和输出向量表征该对象的能力。
根据本发明的实施例的又一方面,还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
根据本发明实施例的又一个方面,还提供了一种用于实施上述超链接的处理方法的电子装置,如图13所示,该电子装置包括:处理器1302、存储器1304、传输装置1306等。该存储器中存储有计算机程序,该处理器被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。
本领域普通技术人员可以理解,图13所示的结构仅为示意,电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(MobileInternet Devices,简称为MID)、PAD等终端设备。图13其并不对上述电子装置的结构造成限定。例如,电子装置还可包括比图13中所示更多或者更少的组件(如网络接口等),或者具有与图13所示不同的配置。
其中,存储器1304可用于存储软件程序以及模块,如本发明实施例中的超链接的处理方法和装置对应的程序指令/模块,处理器1302通过运行存储在存储器1304内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述超链接的处理方法。存储器1304可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器1304可进一步包括相对于处理器1302远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
上述的传输装置1306用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置1306包括一个网络适配器(NetworkInterface Controller,简称为NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置1306为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (13)
1.一种超链接的处理方法,其特征在于,包括:
将第一对象中第一超链接的第一上下文信息转换为第一上下文向量;
获取所述第一对象作为链接源时的第一输入向量,其中,所述第一对象包含指向第二对象的所述第一超链接的信息;
根据所述第一上下文向量和所述第一输入向量获取第一平均向量;
将所述第一输入向量、所述第一上下文向量中的各个词对应的词向量、以及所述第二对象作为链接目标时的第一输出向量,输入到第二目标模型得到调整后的所述第一输出向量,其中,所述第二目标模型用于调整所述第一输入向量、所述第一上下文向量、所述第一输出对象中的至少之一,以增加所述第一平均向量与所述第一输出向量的相似度;
根据调整结果计算得到所述第一输出向量与所述第一平均向量的相似度,当所述第一输出向量与所述第一平均向量的相似度大于或者等于第一目标阈值时,将所述第一输出向量作为所述第二对象的输出向量并输出。
2.根据权利要求1所述的方法,其特征在于,在将所述第一输出向量作为所述第二对象的输出向量并输出之后,所述方法还包括:
将所述第一输入向量和第一输出向量更新为调整后的第一输入向量和第一输出向量。
3.根据权利要求2所述的方法,其特征在于,在将所述第一输入向量和第一输出向量更新为调整后的第一输入向量和第一输出向量之后,所述方法还包括:
重复执行以下步骤,并输出所有对象的输出向量:
定位到所有对象中的其他超链接,将定位到的其他超链接分别作为第二超链接;
将所述第二超链接的第二上下文信息转换为第二上下文向量;
获取所述第二超链接的源对象作为链接源时的第二输入向量,其中,所述源对象包含指向目标对象的所述第二超链接的信息;
根据所述第二上下文向量和所述第二输入向量获取第二平均向量;
将所述第二输入向量、所述第二上下文向量中的各个词对应的词向量、以及所述第二对象作为链接目标时的第二输出向量,输入到第二目标模型得到调整后的所述第二输出向量,其中,所述第二目标模型用于调整所述第二输入向量、所述第二上下文向量、所述第二输出对象中的至少之二,以增加所述第二平均向量与所述第二输出向量的相似度;
根据调整结果计算得到所述第二输出向量与所述第二平均向量的相似度,当所述第二输出向量与所述第二平均向量的相似度大于或者等于所述第一目标阈值时,将所述第二输出向量作为所述目标对象的输出向量并输出。
4.根据权利要求1所述的方法,其特征在于,获取所述第一输入向量和所述第一上下文向量的第一平均向量包括:
对所述第一输入向量和第一上下文中的各个词所对应的输入向量取平均,其中,所述第一上下文为所述第一对象中包含所述第一超链接的上下文去除所述第一超链接后得到的上下文。
5.根据权利要求1至4中任一项所述的方法,其特征在于,在将所述第一输出向量作为所述第二对象的输出向量并输出之后,所述方法还包括:
获取第三对象中的各个词所对应的输入向量;
根据所述第三对象的各个词的所述输入向量和所述第二对象的输出向量,确定所述第二对象的目标参数;根据所述目标参数确定是否允许所述第二对象被所述第三对象引用。
6.根据权利要求5所述的方法,其特征在于,根据所述目标参数确定是否允许所述第二对象被所述第三对象目引用包括:
在所述目标参数的取值高于第二目标阈值的情况下,确定允许所述第二对象被所述第三对象引用;或者,
在候选对象集合中所述第二对象的目标参数的取值最大的情况下,确定允许所述第二对象被所述第三对象引用,其中,所述候选对象集合包含所述第二对象。
7.根据权利要求6所述的方法,其特征在于,在根据所述目标参数确定是否允许所述第二对象被所述第三对象引用之后,所述方法还包括:
在根据所述目标参数确定出允许所述第二对象被所述第三对象引用的情况下,执行:
在所述第三对象的目标位置上插入用于指向所述第二对象的第三超链接;
在所述第三对象上显示用于提示所述第三超链接的提示信息,或接收用于指示所述第三超链接在所述第三对象中的插入位置的指示信息;根据所述指示信息,在所述第三对象中的所述插入位置上插入所述第三超链接。
8.根据权利要求7所述的方法,其特征在于,在所述第三对象中的目标位置上插入用于指向所述第二对象的第三超链接包括:
在所述第三对象中查找目标词,其中,所述目标词所对应的输入向量与所述第二对象的输出向量之间的相似度高于第三目标阈值;在所述第三对象中的所述目标词之后的位置上插入所述第三超链接。
9.一种超链接的处理方法,其特征在于,包括:
获取第一对象作为链接源时的第一输入向量,其中,所述第一输入向量至少用于表示所述第一对象以及所述第一对象中描述第二对象的内容,所述第一对象包含指向所述第二对象的第一超链接的信息;
获取所述第一超链接的第一上下文所对应的一个或多个词向量,其中,所述第一上下文为所述第一对象中包含所述第一超链接的上下文去除所述第一超链接后得到的上下文;
根据所述第一输入向量以及所述第一上下文所对应的一个或多个词向量,获取第一平均向量;
获取第二对象作为链接目标时的第一输出向量;以及
计算所述第一平均向量以及所述第一输出向量的相似度;
基于相似度优化算法调整所述第一输入向量、所述第一上下文所对应的一个或多个词向量和第一输出向量中的至少之一,使得所述第一输出向量与所述第一平均向量之间的大于或者等于目标阈值。
10.根据权利要求9所述的方法,其特征在于,在基于相似度优化算法调整所述第一输入向量、所述第一上下文所对应的一个或多个词向量和第一输出向量中的至少之一,使得所述第一输出向量与所述第一平均向量之间的大于或者等于目标阈值之后,所述方法还包括:
重复执行以下步骤,并输出所有对象的输出向量:
按照预定规则,定位所有对象中的其他超链接,将定位到的其他超链接作为第二超链接;
获取所述第二超链接的源对象作为链接源时的第二输入向量,其中,所述第二输入向量至少用于表示所述源对象以及所述源对象中描述目标对象的内容,所述源对象包含指向所述目标对象的第二超链接的信息;
获取所述目标对象作为链接目标时的第二输出向量;以及
至少根据所述第二输入向量以及第二输出向量,调整得到所述目标对象的输出向量。
11.一种超链接的处理装置,其特征在于,包括:
转换单元,用于将第一对象中第一超链接的第一上下文信息转换为第一上下文向量;
第一获取单元,用于获取所述第一对象作为链接源时的第一输入向量,其中,所述第一对象包含指向第二对象的所述第一超链接的信息;
第二获取单元,用于根据所述第一上下文向量和所述第一输入向量获取第一平均向量;
所述装置,还用于将所述第一输入向量、所述第一上下文向量中的各个词对应的词向量、以及所述第二对象作为链接目标时的第一输出向量,输入到第二目标模型得到调整后的所述第一输出向量,其中,所述第二目标模型用于调整所述第一输入向量、所述第一上下文向量、所述第一输出对象中的至少之一,以增加所述第一平均向量与所述第一输出向量的相似度;
输出单元,用于根据调整结果计算得到所述第一输出向量与所述第一平均向量的相似度,当所述第一输出向量与所述第一平均向量的相似度大于或者等于第一目标阈值时,将所述第一输出向量作为所述第二对象的输出向量并输出。
12.一种超链接的处理装置,其特征在于,包括:
第一获取单元,用于获取第一对象作为链接源时的第一输入向量,其中,所述第一输入向量至少用于表示所述第一对象以及所述第一对象中描述第二对象的内容,所述第一对象包含指向所述第二对象的第一超链接的信息;
第二获取单元,用于获取所述第二对象作为链接目标时的第一输出向量;
第三获取单元,用于在获取所述第一对象作为链接源时的所述第一输入向量之后,获取所述第一超链接的第一上下文所对应的一个或多个词向量,其中,所述第一上下文为所述第一对象中包含所述第一超链接的上下文去除所述第一超链接后得到的上下文;
第四获取单元,用于根据所述第一输入向量以及所述第一上下文所对应的一个或多个词向量,获取第一平均向量;
调整单元,其中,所述调整单元包括调整模块,所述调整模块包括:计算子模块,用于计算第一平均向量以及第一输出向量的相似度;调整子模块,用于基于相似度优化算法调整第一输入向量、第一上下文所对应的一个或多个词向量和第一输出向量中的至少之一,使得第一输出向量与第一平均向量之间的大于或者等于目标阈值。
13.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至10中任一项中所述的方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810771876.4A CN109086348B (zh) | 2018-07-13 | 2018-07-13 | 超链接的处理方法和装置及存储介质 |
PCT/CN2019/092279 WO2020010996A1 (zh) | 2018-07-13 | 2019-06-21 | 超链接的处理方法和装置及存储介质 |
US17/012,380 US11275888B2 (en) | 2018-07-13 | 2020-09-04 | Hyperlink processing method and apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810771876.4A CN109086348B (zh) | 2018-07-13 | 2018-07-13 | 超链接的处理方法和装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109086348A CN109086348A (zh) | 2018-12-25 |
CN109086348B true CN109086348B (zh) | 2023-04-18 |
Family
ID=64837886
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810771876.4A Active CN109086348B (zh) | 2018-07-13 | 2018-07-13 | 超链接的处理方法和装置及存储介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11275888B2 (zh) |
CN (1) | CN109086348B (zh) |
WO (1) | WO2020010996A1 (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109086348B (zh) | 2018-07-13 | 2023-04-18 | 腾讯科技(深圳)有限公司 | 超链接的处理方法和装置及存储介质 |
US11875131B2 (en) * | 2020-09-16 | 2024-01-16 | International Business Machines Corporation | Zero-shot cross-lingual transfer learning |
US11443114B1 (en) * | 2021-06-21 | 2022-09-13 | Microsoft Technology Licensing, Llc | Computing system for entity disambiguation and not-in-list entity detection in a knowledge graph |
CN115544257B (zh) * | 2022-11-25 | 2023-04-11 | 天津联想协同科技有限公司 | 网盘文档快速分类方法、装置、网盘及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1869978A (zh) * | 2005-05-24 | 2006-11-29 | 国际商业机器公司 | 用于链接文档的方法、设备和系统 |
CN102541946A (zh) * | 2010-12-31 | 2012-07-04 | 百度在线网络技术(北京)有限公司 | 基于超链接的推荐属性确定超链推荐度的方法与设备 |
US9305099B1 (en) * | 2004-06-17 | 2016-04-05 | Google Inc. | Ranking documents based on user behavior and/or feature data |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6256631B1 (en) * | 1997-09-30 | 2001-07-03 | International Business Machines Corporation | Automatic creation of hyperlinks |
GB2411014A (en) * | 2004-02-11 | 2005-08-17 | Autonomy Corp Ltd | Automatic searching for relevant information |
US9690786B2 (en) * | 2008-03-17 | 2017-06-27 | Tivo Solutions Inc. | Systems and methods for dynamically creating hyperlinks associated with relevant multimedia content |
CN105243091B (zh) * | 2015-09-11 | 2018-11-13 | 晶赞广告(上海)有限公司 | 基于超链分析的页面语义信息提取方法及系统 |
CN105930546B (zh) * | 2016-07-08 | 2020-04-03 | 北京北大英华科技有限公司 | 文件关联显示方法 |
US9715495B1 (en) * | 2016-12-15 | 2017-07-25 | Quid, Inc. | Topic-influenced document relationship graphs |
US10817650B2 (en) * | 2017-05-19 | 2020-10-27 | Salesforce.Com, Inc. | Natural language processing using context specific word vectors |
CN109086348B (zh) * | 2018-07-13 | 2023-04-18 | 腾讯科技(深圳)有限公司 | 超链接的处理方法和装置及存储介质 |
-
2018
- 2018-07-13 CN CN201810771876.4A patent/CN109086348B/zh active Active
-
2019
- 2019-06-21 WO PCT/CN2019/092279 patent/WO2020010996A1/zh active Application Filing
-
2020
- 2020-09-04 US US17/012,380 patent/US11275888B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9305099B1 (en) * | 2004-06-17 | 2016-04-05 | Google Inc. | Ranking documents based on user behavior and/or feature data |
CN1869978A (zh) * | 2005-05-24 | 2006-11-29 | 国际商业机器公司 | 用于链接文档的方法、设备和系统 |
CN102541946A (zh) * | 2010-12-31 | 2012-07-04 | 百度在线网络技术(北京)有限公司 | 基于超链接的推荐属性确定超链推荐度的方法与设备 |
Also Published As
Publication number | Publication date |
---|---|
US20210141993A1 (en) | 2021-05-13 |
US11275888B2 (en) | 2022-03-15 |
WO2020010996A1 (zh) | 2020-01-16 |
CN109086348A (zh) | 2018-12-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109086348B (zh) | 超链接的处理方法和装置及存储介质 | |
US20190371299A1 (en) | Question Answering Method and Apparatus | |
CN108121700B (zh) | 一种关键词提取方法、装置及电子设备 | |
CN108628830B (zh) | 一种语义识别的方法和装置 | |
CN111767796B (zh) | 一种视频关联方法、装置、服务器和可读存储介质 | |
CN109992978B (zh) | 信息的传输方法、装置及存储介质 | |
CN112434533B (zh) | 实体消歧方法、装置、电子设备及计算机可读存储介质 | |
CN111125491A (zh) | 商品信息的搜索方法和装置、存储介质及电子装置 | |
CN108536680B (zh) | 一种房产信息的获取方法和装置 | |
US20180285742A1 (en) | Learning method, learning apparatus, and storage medium | |
CN112084301A (zh) | 文本修正模型的训练方法及装置、文本修正方法及装置 | |
CN109858031B (zh) | 神经网络模型训练、上下文预测方法及装置 | |
CN113590811A (zh) | 文本摘要生成方法、装置、电子设备及存储介质 | |
CN113343692A (zh) | 搜索意图的识别方法、模型训练方法、装置、介质及设备 | |
CN112417874A (zh) | 命名实体的识别方法和装置、存储介质、电子装置 | |
CN116881462A (zh) | 文本数据处理、文本表示、文本聚类的方法及设备 | |
CN114647739B (zh) | 实体链指方法、装置、电子设备及存储介质 | |
JP7121819B2 (ja) | 画像処理方法及び装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラム | |
JP6495206B2 (ja) | 文書概念ベース生成装置、文書概念検索装置、方法、及びプログラム | |
CN114741489A (zh) | 文档检索方法、装置、存储介质以及电子设备 | |
CN113780827A (zh) | 一种物品筛选方法、装置、电子设备及计算机可读介质 | |
CN110765271B (zh) | 一种实体发现与实体链接的联合处理方法及装置 | |
CN113704466A (zh) | 基于迭代网络的文本多标签分类方法、装置及电子设备 | |
CN112989187B (zh) | 创作素材的推荐方法、装置、计算机设备及存储介质 | |
CN112580087A (zh) | 加密数据搜索方法及装置、存储介质、电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |