CN112182511B - 复杂语义增强异构信息网络表示学习方法和装置 - Google Patents
复杂语义增强异构信息网络表示学习方法和装置 Download PDFInfo
- Publication number
- CN112182511B CN112182511B CN202011351571.1A CN202011351571A CN112182511B CN 112182511 B CN112182511 B CN 112182511B CN 202011351571 A CN202011351571 A CN 202011351571A CN 112182511 B CN112182511 B CN 112182511B
- Authority
- CN
- China
- Prior art keywords
- node
- heterogeneous information
- nodes
- information network
- type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Computational Mathematics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Analysis (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及一种复杂语义增强异构信息网络表示学习方法和装置。所述方法包括:抽取异构信息网络蕴含的元图;根据元图引导在异构信息网络中进行随机游走,以得到异构信息网络中节点转移至其邻居节点的转移概率,进而得到语义路径集合;查询语义路径集合中包含共享节点的两条路径,当共享节点对应的节点类型满足预设条件,则将两条路径在所述共享节点处进行级联;当级联后的路径达到预设长度或者任意两条路径没有共享节点时,长程语义路径挖掘终止,导出长程语义路径集合;根据长程语义路径集合,进行异构信息网络的表示学习。采用本方法能够利用到更加丰富的语义信息,提升异构信息网络表示学习的性能和效率。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种复杂语义增强异构信息网络表示学习方法和装置。
背景技术
现实世界中系统往往由大量类型多样、相互联系的部分构成。近年来,采用网络视角对系统进行建模,为了便于处理,通常只抽取类型相同的节点和联系、采用同质信息网络对系统进行建模,如作者合作网络、论文引用网络等,往往难以同时描述不同类型的节点及其连接,造成信息损失。而事实上,作者通过论文建立合作关系,论文之间具有引用关系,不同类型的节点和联系可以共同构成更丰富的异构信息网络。
为了充分利用网络中丰富的节点类型及其关系,由不同类型节点及其联系构成的异构信息网络逐渐成为研究的热点。例如由论文及其所含术语、撰写作者、发表地,由演员、电影、导演等不同类型节点及联系构成的异构信息网络。
最近,在处理网络表示学习方面有一些成果。DeepWalk首先生成随机游走,然后在该游走上应用Skip-gram来生成嵌入。Node2vec提出了一种偏向随机游走生成方法,以使用Skip-gram模型更好地探索网络的结构信息。但是,这两种方法随机生成序列,而忽略了丰富的语义信息。
发明内容
基于此,有必要针对上述技术问题,提供一种能够解决表达学习时忽略丰富语义信息的复杂语义增强异构信息网络表示学习方法、装置、计算机设备和存储介质。
一种复杂语义增强异构信息网络表示学习方法,所述方法包括:
从文本数据中提取异构信息网络,抽取所述异构信息网络蕴含的元图;所述异构信息网络包括:节点、节点类型、节点间关系以及关系的类型;
根据所述元图引导在所述异构信息网络中进行随机游走,以得到所述异构信息网络中节点转移至其邻居节点的转移概率;
根据所述转移概率,得到语义路径集合;所述语义路径集合中包括:多条由不同类型节点和关系组成的语义路径;
查询所述语义路径集合中包含共享节点的两条路径,如果所述共享节点对应的节点类型属于给定节点类型,则将两条路径在所述共享节点处进行级联;如果所述共享节点对应的节点类型不属于给定节点类型,并且根据给定节点类型压缩得到的路径相似度超过阈值,则将两条路径在所述共享节点处进行级联;
其中,表示类型为t的节点,表示类型为的节点;表示根据元图,节点类型t基于语义可达节点类型的关系类型数量;表示根据所述异构信息网络,节点与邻居节点类型之间的关系数量,E表示所述异构信息网络的边集合;表示元图,表示异构信息网络。
最大化上下文窗口中邻居节点出现概率为:
当达到预设的迭代条件时,得到训练好的神经网络模型,将待表示节点及其上下文邻居节点集输入训练好的神经网络模型,输出待表示节点的分布式向量表示结果。
在其中一个实施例中,还包括:将所述目标函数采用负样本进行优化,得到近似目标函数为:
在其中一个实施例中,确定参数更新函数为:
在其中一个实施例中,通过生成器和判别器的对抗学习对神经网络模型的参数进行调整。
一种复杂语义增强异构信息网络表示学习装置,所述装置包括:
元图生成模型,用于从文本数据中提取异构信息网络,以及抽取所述异构信息网络对应的元图;所述异构信息网络包括:节点、节点类型、节点间关系以及关系的类型;
长程语义路径生成模块,用于根据所述元图引导在所述异构信息网络中进行随机游走,以得到所述异构信息网络中节点转移至其邻居节点的转移概率;根据所述转移概率,得到语义路径集合;所述路径集合中包括:多条由不同类型节点和关系组成的语义路径;查询所述语义路径集合中包含共享节点的两条路径,如果所述共享节点对应的节点类型属于给定节点类型,则将两条语义路径在所述共享节点处进行级联;如果所述共享节点对应的节点类型不属于给定节点类型,并且根据给定节点类型压缩得到的路径相似度超过阈值,则将两条路径在所述共享节点处进行级联;当级联后的路径达到预设长度或者任意两条路径没有共享节点时,长程语义路径挖掘终止;所述长程语义路径集合中包括:随机游走生成的语义路径和挖掘得到的长程语义路径;
表示学习模块,用于根据所述长程语义路径集合,进行异构信息网络的表示学习。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
从文本数据中提取异构信息网络,抽取所述异构信息网络蕴含的元图;所述异构信息网络包括:节点、节点类型、节点间关系以及关系的类型;
根据所述元图引导在所述异构信息网络中进行随机游走,以得到所述异构信息网络中节点转移至其邻居节点的转移概率;
根据所述转移概率,得到语义路径集合;所述语义路径集合中包括:多条由不同类型节点和关系组成的语义路径;
查询所述路径集合中包含共享节点的两条路径,如果所述共享节点对应的节点类型属于给定节点类型,则将两条路径在所述共享节点处进行级联;如果所述共享节点对应的节点类型不属于给定节点类型,并且根据给定节点类型压缩得到的路径相似度超过阈值,则将两条路径在所述共享节点处进行级联;
当级联后的路径达到预设长度或者任意两条路径没有共享节点时,长程语义路径挖掘终止;所述长程语义路径集合中包括:随机游走生成的语义路径和挖掘得到的长程语义路径;
根据所述长程语义路径集合,进行异构信息网络的表示学习。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
从文本数据中提取异构信息网络,抽取所述异构信息网络蕴含的元图;所述异构信息网络包括:节点、节点类型、节点间关系以及关系的类型;
根据所述元图引导在所述异构信息网络中进行随机游走,以得到所述异构信息网络中节点转移至其邻居节点的转移概率;
根据所述转移概率,得到语义路径集合;所述语义路径集合中包括:多条由不同类型节点和关系组成的语义路径;
查询所述路径集合中包含共享节点的两条路径,如果所述共享节点对应的节点类型属于给定节点类型,则将两条路径在所述共享节点处进行级联;如果所述共享节点对应的节点类型不属于给定节点类型,并且根据给定节点类型压缩得到的路径相似度超过阈值,则将两条路径在所述共享节点处进行级联;
当级联后的路径达到预设长度或者任意两条路径没有共享节点时,长程语义路径挖掘终止;所述长程语义路径集合中包括:随机游走生成的语义路径和挖掘得到的长程语义路径;
根据所述长程语义路径集合,进行异构信息网络的表示学习。
上述复杂语义增强异构信息网络表示学习方法、装置、计算机设备和存储介质,通过元图引导,提取“长程”的隐含语义关系,应用于分类、聚类和推荐任务,较现有方法的性能更高,特别是针对大规模异构信息网络,极大提升了表示学习的性能和效率。
附图说明
图1为一个实施例中复杂语义增强异构信息网络表示学习方法的流程图;
图7为一个实施例中表示学习的流程图;
图8为一个实施例中复杂语义增强异构信息网络表示学习装置的结构示意图;
图9为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种复杂语义增强异构信息网络表示学习方法,包括以下步骤:
步骤102,从文本数据中提取异构信息网络,抽取异构信息网络蕴含的元图。
文本可以是从网页中提取的文本,也可以是本地导入的Word、TXT等文本。异构信息网络指的是多个节点类型或者多个连边类型构成的网络。异构信息网络中的节点类型和连边类型构成了网络模式,元图是在网络模式上定义的有向无环图。
具体的,异构信息网络、网络模式、元图以及表示学习的定义如下:
异构信息网络具有多种节点和关系类型,其中,V是节点集合,E是关系集合。定义节点类型映射函数和关系类型映射函数。每个节点对应节点类型,属于节点类型集合中的一个特定节点类型;每条关系对应关系类型,属于关系类型集合中的一个特定关系类型。
步骤104,根据元图引导在异构信息网络中进行随机游走,以得到异构信息网络中节点转移至其邻居节点的转移概率,根据转移概率,得到语义路径集合。
语义路径集合中包括:多条由不同类型节点和关系组成的语义路径。
步骤106,查询路径集合中包含共享节点的两条路径,如果共享节点对应的节点类型属于给定节点类型,则将两条路径在所述共享节点处进行级联;如共享节点对应的节点类型不属于给定节点类型,并且两条路径中共享节点对应的相似度超过阈值,则将两条路径在所述共享节点处进行级联。
步骤108,当级联后的路径达到预设长度或者任意两条路径没有共享节点时,长程语义路径挖掘终止,得到长程语义路径集合。
长程语义路径集合中包括:随机游走生成的语义路径和挖掘得到的长程语义路径。
步骤110,根据长程语义路径集合,进行异构信息网络的表示学习。
上述复杂语义增强异构信息网络表示学习方法中,通过元图引导,提取”长程”的隐含语义关系,应用于分类、聚类和推荐任务,较现有方法的性能更高,特别是针对大规模异构信息网络,极大提升了表示学习的性能和效率。
在其中一个实施例中,根据元图,计算节点类型t基于语义可达节点类型的关系类型数量,随机选择一种语义关系游走到邻居节点类型,以及根据异构信息网络,计算节点与邻居节点类型之间的关系数量,得到根据所述异构信息网络在第i步从节点转移至邻居节点的转移概率为:
其中,表示类型为t的节点,表示类型为的节点;表示根据元图,节点类型t基于语义可达节点类型的关系类型数量;表示根据所述异构信息网络,节点与邻居节点类型之间的关系数量,E表示所述异构信息网络的边集合;表示元图,表示异构信息网络。
具体的,如果没有符合条件的类型或语义路径达到设置的长度,则随机游走将终止。
实际上,采用随机游走采样面临的问题包括元图抽取为指数级规模,计算成本高,以及随机游走得到的路径可能缺少现实意义。鉴于这些问题,设计了语义增强策略,基于随机游走进一步生成语义明确的长程路径,有助于捕获远距离节点之间的语义和结构相关性。
根据规则1,在给定节点类型为“论文”的情况下,图2中的路径和共享“论文”类型节点,因此它们在节点处串联,形成了如图3所示的新路径,非“论文”类型共享节点“作者”孟伟在连接后仅出现一次。同样,路径和在共享的“论文”类型节点处串联,形成新路径,如图4所示,而非“论文”类型共享节点“作者”I. 穆斯利在新路径中仅出现一次。
根据规则2,路径和共享“作者”节点,而不是给定的“论文”类型。因此,如图5所示,它们首先收缩为仅由“论文”类型的节点组成的路径和,然后定义函数F来计算路径的相似性。对于“论文”类型,函数F是从“论文”节点中提取文本。即,路径和分别映射为论文标题组成的文本x和y,并且基于BERT计算x和y之间的相似度。在阈值τ= 0.9的情况下,文本x和y之间的相似度高于阈值,因此,路径和根据规则2在节点处级联,形成新路径,如图6所示。
如果没有共享节点或长度满足要求,则长程语义路径的挖掘将终止。如果派生给定数量的长程路径,或者无法派生其他长程路径,则过程终止。
在其中一个实施例中,根据长程语义路径集合,设置需要考虑的邻居节点上下文窗口大小,最大化窗口内上下文节点的出现概率,学习所述当前节点的分布式向量表示结果;
最大化上下文窗口中邻居节点出现概率为:
当达到预设的迭代条件时,得到训练好的神经网络模型,将待表示节点及其上下文邻居节点集输入训练好的神经网络模型,输出待表示节点的分布式向量表示结果。
在其中一个实施例中,还包括:将目标函数采用负样本进行优化,得到近似目标函数为:
传统的负采样用于通过随机替换路径中每个采样的正节点的值来生成负数据以供学习。对于每个采样的路径P,可以通过用随机选择的节点随机替换一个或多个节点来生成对应路径的负样本P'。
但是,上述负采样受到限制,例如从原始异构信息网络的现有节点中选择负采样,而无法学习底层分布以获得更强大的嵌入。
具体的,为了解决这些问题,进一步利用生成对抗网络(GAN)进行对抗学习的微调。
如图7所示,生成器G输入从分布生成的d维噪声向量,并在输出中生成向量。判别器D学会从真实分布中检测出生成器产生的向量。判别器和生成器相互迭代竞争以训练更好的模型,该模型不仅对稀疏或嘈杂的数据更鲁棒,而且还提供更好的样本。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在其中一个实施例中,提供一种复杂语义增强异构信息网络表示学习装置,如图8所示,包括:
元图生成模型802,用于从文本数据中提取异构信息网络,抽取所述异构信息网络蕴含的元图;所述异构信息网络包括:节点、节点类型、节点间关系以及关系的类型;
长程语义路径生成模块804,用于根据所述元图引导在所述异构信息网络中进行随机游走,以得到所述异构信息网络中节点转移至其邻居节点的转移概率;根据所述转移概率,得到语义路径集合;所述语义路径集合中包括:多条由不同类型节点和关系组成的语义路径;查询所述语义路径集合中包含共享节点的两条路径,如果所述共享节点对应的节点类型属于给定节点类型,则将两条路径在所述共享节点处进行级联;如果所述共享节点对应的节点类型不属于给定节点类型,并且根据给定节点类型压缩得到的路径相似度超过阈值,则将两条路径在所述共享节点处进行级联;当级联后的路径达到预设长度或者任意两条路径没有共享节点时,长程语义路径挖掘终止;长程语义路径集合中包括:随机游走生成的语义路径和挖掘得到的长程语义路径;
表示学习模块806,用于根据所述长程语义路径集合,进行异构信息网络的表示学习。
在其中一个实施例中,长程语义路径生成模块804还用于根据所述元图,计算当前节点类型基于语义可达特定类型邻居节点的关系类型数量,随机选择一种语义关系游走到特定类型的邻居节点;根据所述特定类型邻居节点数量、所述语义可达特定类型邻居节点的关系类型数量,得到根据所述异构信息网络从当前节点转移至邻居节点的转移概率为:
其中,表示类型为t的节点,表示类型为 的节点;表示根据元图,节点类型t基于语义可达节点类型t'的关系类型数量;表示根据所述异构信息网络,节点与邻居节点类型之间的关系数量,E表示所述异构信息网络的边集合;表示元图,表示异构信息网络。
在其中一个实施例中,表示学习模块806还用于根据长程语义路径集合,设置需要考虑的邻居节点上下文窗口大小,通过使当前节点的上下文邻居节点出现概率最大化学习节点的分布式向量表示结果;
最大化上下文窗口中邻居节点出现概率为:
当达到预设的迭代条件时,得到训练好的神经网络模型,将待表示节点及其上下文邻居节点集输入训练好的神经网络模型,输出待表示节点的分布式向量表示结果。
在其中一个实施例中,表示学习模块806还用于将所述目标函数采用负样本进行优化,得到近似目标函数为:
在其中一个实施例中,表示学习模块806还用于确定参数更新函数为:
在其中一个实施例中,表示学习模块806还用于通过生成器和判别器的对抗学习对神经网络模型的参数进行调整。
关于复杂语义增强异构信息网络表示学习装置的具体限定可以参见上文中对于一种复杂语义增强异构信息网络表示学习方法的限定,在此不再赘述。上述复杂语义增强异构信息网络表示学习装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种复杂语义增强异构信息网络表示学习方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种复杂语义增强异构信息网络表示学习方法,其特征在于,所述方法包括:
从文本数据中提取异构信息网络,抽取所述异构信息网络蕴含的元图;所述异构信息网络包括:节点、节点类型、节点间关系以及关系的类型;所述文本数据为Word文本和TXT文本;
根据所述元图引导在所述异构信息网络中进行随机游走,以得到所述异构信息网络中节点转移至其邻居节点的转移概率;
根据所述转移概率,得到语义路径集合;所述语义路径集合中包括:多条由不同类型节点和关系组成的语义路径;
查询所述语义路径集合中包含共享节点的两条路径,如果所述共享节点对应的节点类型属于给定节点类型,则将两条路径在所述共享节点处进行级联;如果所述共享节点对应的节点类型不属于给定节点类型,并且根据给定节点类型压缩得到的路径相似度超过阈值,则将两条路径在所述共享节点处进行级联;
当级联后的路径达到预设长度或者任意两条路径没有共享节点时,长程语义路径挖掘终止,得到长程语义路径集合;长程语义路径集合中包括:随机游走生成的语义路径和挖掘得到的长程语义路径;
根据所述长程语义路径集合,进行异构信息网络的表示学习。
2.根据权利要求1所述的方法,其特征在于,根据所述元图引导在所述异构信息网络中进行随机游走,以得到所述异构信息网络中节点转移至其邻居节点的转移概率,包括:
3.根据权利要求1所述的方法,其特征在于,根据所述长程语义路径集合,进行异构信息网络的表示学习,包括:
当达到预设的迭代条件时,得到训练好的神经网络模型,将待表示节点及其上下文邻居节点集输入训练好的神经网络模型,输出待表示节点的分布式向量表示结果。
6.根据权利要求3至5任一项所述的方法,其特征在于,所述方法还包括:
通过生成器和判别器的对抗学习对神经网络模型的参数进行调整。
7.一种复杂语义增强异构信息网络表示学习装置,其特征在于,所述装置包括:
元图生成模型,用于从文本数据中提取异构信息网络,以及抽取所述异构信息网络对应的元图;所述异构信息网络包括:节点、节点类型、节点间关系以及关系的类型;所述文本数据为Word文本和TXT文本;
长程语义路径生成模块,用于根据所述元图引导在所述异构信息网络中进行随机游走,以得到所述异构信息网络中节点转移至其邻居节点的转移概率;根据所述转移概率,得到语义路径集合;所述路径集合中包括:多条由不同类型节点和关系组成的语义路径;查询所述语义路径集合中包含共享节点的两条路径,如果所述共享节点对应的节点类型属于给定节点类型,则将两条语义路径在所述共享节点处进行级联;如果所述共享节点对应的节点类型不属于给定节点类型,并且根据给定节点类型压缩得到的路径相似度超过阈值,则将两条路径在所述共享节点处进行级联;当级联后的路径达到预设长度或者任意两条路径没有共享节点时,长程语义路径挖掘终止,得到长程语义路径集合;长程语义路径集合中包括:随机游走生成的语义路径和挖掘得到的长程语义路径;
表示学习模块,用于根据所述长程语义路径集合,进行异构信息网络的表示学习。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011351571.1A CN112182511B (zh) | 2020-11-27 | 2020-11-27 | 复杂语义增强异构信息网络表示学习方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011351571.1A CN112182511B (zh) | 2020-11-27 | 2020-11-27 | 复杂语义增强异构信息网络表示学习方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112182511A CN112182511A (zh) | 2021-01-05 |
CN112182511B true CN112182511B (zh) | 2021-02-19 |
Family
ID=73918125
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011351571.1A Active CN112182511B (zh) | 2020-11-27 | 2020-11-27 | 复杂语义增强异构信息网络表示学习方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112182511B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113539372A (zh) * | 2021-06-27 | 2021-10-22 | 中南林业科技大学 | 一种LncRNA和疾病关联关系的高效预测方法 |
CN113553396A (zh) * | 2021-07-05 | 2021-10-26 | 国网湖南省电力有限公司 | 图向量化方法、装置及电力网图向量化方法 |
CN113806488B (zh) * | 2021-09-24 | 2024-02-02 | 石家庄铁道大学 | 一种基于元结构学习的异构图转换的文本挖掘方法 |
CN113626556B (zh) * | 2021-10-12 | 2022-03-01 | 杭州电子科技大学 | 一种学术异构网络嵌入的模型训练方法及文本表示方法 |
CN116304066B (zh) * | 2023-05-23 | 2023-08-22 | 中国人民解放军国防科技大学 | 一种基于提示学习的异质信息网络节点分类方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109189936A (zh) * | 2018-08-13 | 2019-01-11 | 天津科技大学 | 一种基于网络结构和语义相关性度量的标签语义学习方法 |
CN110020023A (zh) * | 2018-12-19 | 2019-07-16 | 大连理工大学 | 基于融合结构特征的属性网络表示学习方法 |
CN110414665A (zh) * | 2019-05-21 | 2019-11-05 | 浙江工业大学 | 一种基于深度神经网络的网络表示学习方法 |
CN110555050A (zh) * | 2018-03-30 | 2019-12-10 | 华东师范大学 | 一种基于元路径的异构网络节点表示学习方法 |
CN110866838A (zh) * | 2019-11-06 | 2020-03-06 | 西安邮电大学 | 基于转移概率预处理的网络表示学习算法 |
CN111325326A (zh) * | 2020-02-21 | 2020-06-23 | 北京工业大学 | 一种基于异质网络表示学习的链路预测方法 |
CN111428744A (zh) * | 2019-01-10 | 2020-07-17 | 北京大学 | 一种保留类型序列信息的异构信息网络表示学习方法和系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11468262B2 (en) * | 2017-10-30 | 2022-10-11 | Nec Corporation | Deep network embedding with adversarial regularization |
US11334612B2 (en) * | 2018-02-06 | 2022-05-17 | Microsoft Technology Licensing, Llc | Multilevel representation learning for computer content quality |
-
2020
- 2020-11-27 CN CN202011351571.1A patent/CN112182511B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110555050A (zh) * | 2018-03-30 | 2019-12-10 | 华东师范大学 | 一种基于元路径的异构网络节点表示学习方法 |
CN109189936A (zh) * | 2018-08-13 | 2019-01-11 | 天津科技大学 | 一种基于网络结构和语义相关性度量的标签语义学习方法 |
CN110020023A (zh) * | 2018-12-19 | 2019-07-16 | 大连理工大学 | 基于融合结构特征的属性网络表示学习方法 |
CN111428744A (zh) * | 2019-01-10 | 2020-07-17 | 北京大学 | 一种保留类型序列信息的异构信息网络表示学习方法和系统 |
CN110414665A (zh) * | 2019-05-21 | 2019-11-05 | 浙江工业大学 | 一种基于深度神经网络的网络表示学习方法 |
CN110866838A (zh) * | 2019-11-06 | 2020-03-06 | 西安邮电大学 | 基于转移概率预处理的网络表示学习算法 |
CN111325326A (zh) * | 2020-02-21 | 2020-06-23 | 北京工业大学 | 一种基于异质网络表示学习的链路预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112182511A (zh) | 2021-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112182511B (zh) | 复杂语义增强异构信息网络表示学习方法和装置 | |
Lin et al. | A deep structured model with radius–margin bound for 3D human activity recognition | |
US7996762B2 (en) | Correlative multi-label image annotation | |
Liu et al. | Learning instance correlation functions for multilabel classification | |
CN110166522B (zh) | 服务器识别方法、装置、可读存储介质和计算机设备 | |
CN113486190A (zh) | 一种融合实体图像信息和实体类别信息的多模态知识表示方法 | |
CN112559764A (zh) | 一种基于领域知识图谱的内容推荐方法 | |
WO2021169453A1 (zh) | 用于文本处理的方法和装置 | |
Amara et al. | Cross-network representation learning for anchor users on multiplex heterogeneous social network | |
Wang et al. | Accelerated manifold embedding for multi-view semi-supervised classification | |
CN117033992A (zh) | 一种分类模型的训练方法及装置 | |
Khan et al. | Unsupervised domain adaptation using fuzzy rules and stochastic hierarchical convolutional neural networks | |
Qiao et al. | Mp-fedcl: Multi-prototype federated contrastive learning for edge intelligence | |
Jin et al. | Deepwalk-aware graph convolutional networks | |
Li et al. | Anchor-based knowledge embedding for image aesthetics assessment | |
Shi et al. | Gigamae: Generalizable graph masked autoencoder via collaborative latent space reconstruction | |
Ding et al. | User identification across multiple social networks based on naive Bayes model | |
Lv et al. | Intelligent model update strategy for sequential recommendation | |
Cai et al. | Adaptive anti-bottleneck multi-modal graph learning network for personalized micro-video recommendation | |
CN112487110A (zh) | 基于网络结构和节点内容的重叠社区演化分析方法及系统 | |
CN113515519A (zh) | 图结构估计模型的训练方法、装置、设备及存储介质 | |
CN116027874A (zh) | 笔记本电脑功耗控制方法及其系统 | |
Zhang et al. | Trigraph regularized collective matrix tri-factorization framework on multiview features for multilabel image annotation | |
CN115982570A (zh) | 联邦学习建模的多环节自定义优化方法、装置、设备和存储介质 | |
Fang et al. | Gaugllm: Improving graph contrastive learning for text-attributed graphs with large language models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |