CN112182511B - 复杂语义增强异构信息网络表示学习方法和装置 - Google Patents

复杂语义增强异构信息网络表示学习方法和装置 Download PDF

Info

Publication number
CN112182511B
CN112182511B CN202011351571.1A CN202011351571A CN112182511B CN 112182511 B CN112182511 B CN 112182511B CN 202011351571 A CN202011351571 A CN 202011351571A CN 112182511 B CN112182511 B CN 112182511B
Authority
CN
China
Prior art keywords
node
heterogeneous information
nodes
information network
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011351571.1A
Other languages
English (en)
Other versions
CN112182511A (zh
Inventor
胡艳丽
何春辉
方阳
彭娟
张鹏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202011351571.1A priority Critical patent/CN112182511B/zh
Publication of CN112182511A publication Critical patent/CN112182511A/zh
Application granted granted Critical
Publication of CN112182511B publication Critical patent/CN112182511B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computational Mathematics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Analysis (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及一种复杂语义增强异构信息网络表示学习方法和装置。所述方法包括:抽取异构信息网络蕴含的元图;根据元图引导在异构信息网络中进行随机游走,以得到异构信息网络中节点转移至其邻居节点的转移概率,进而得到语义路径集合;查询语义路径集合中包含共享节点的两条路径,当共享节点对应的节点类型满足预设条件,则将两条路径在所述共享节点处进行级联;当级联后的路径达到预设长度或者任意两条路径没有共享节点时,长程语义路径挖掘终止,导出长程语义路径集合;根据长程语义路径集合,进行异构信息网络的表示学习。采用本方法能够利用到更加丰富的语义信息,提升异构信息网络表示学习的性能和效率。

Description

复杂语义增强异构信息网络表示学习方法和装置
技术领域
本申请涉及计算机技术领域,特别是涉及一种复杂语义增强异构信息网络表示学习方法和装置。
背景技术
现实世界中系统往往由大量类型多样、相互联系的部分构成。近年来,采用网络视角对系统进行建模,为了便于处理,通常只抽取类型相同的节点和联系、采用同质信息网络对系统进行建模,如作者合作网络、论文引用网络等,往往难以同时描述不同类型的节点及其连接,造成信息损失。而事实上,作者通过论文建立合作关系,论文之间具有引用关系,不同类型的节点和联系可以共同构成更丰富的异构信息网络。
为了充分利用网络中丰富的节点类型及其关系,由不同类型节点及其联系构成的异构信息网络逐渐成为研究的热点。例如由论文及其所含术语、撰写作者、发表地,由演员、电影、导演等不同类型节点及联系构成的异构信息网络。
最近,在处理网络表示学习方面有一些成果。DeepWalk首先生成随机游走,然后在该游走上应用Skip-gram来生成嵌入。Node2vec提出了一种偏向随机游走生成方法,以使用Skip-gram模型更好地探索网络的结构信息。但是,这两种方法随机生成序列,而忽略了丰富的语义信息。
发明内容
基于此,有必要针对上述技术问题,提供一种能够解决表达学习时忽略丰富语义信息的复杂语义增强异构信息网络表示学习方法、装置、计算机设备和存储介质。
一种复杂语义增强异构信息网络表示学习方法,所述方法包括:
从文本数据中提取异构信息网络,抽取所述异构信息网络蕴含的元图;所述异构信息网络包括:节点、节点类型、节点间关系以及关系的类型;
根据所述元图引导在所述异构信息网络中进行随机游走,以得到所述异构信息网络中节点转移至其邻居节点的转移概率;
根据所述转移概率,得到语义路径集合;所述语义路径集合中包括:多条由不同类型节点和关系组成的语义路径;
查询所述语义路径集合中包含共享节点的两条路径,如果所述共享节点对应的节点类型属于给定节点类型,则将两条路径在所述共享节点处进行级联;如果所述共享节点对应的节点类型不属于给定节点类型,并且根据给定节点类型压缩得到的路径相似度超过阈值,则将两条路径在所述共享节点处进行级联;
当级联后的路径达到预设长度或者任意两条路径没有共享节点时,长程语义路径挖掘终止;长程语义路径集合
Figure 155411DEST_PATH_IMAGE001
中包括:随机游走生成的语义路径和挖掘得到的长程语义路径;
根据所述长程语义路径集合
Figure 586392DEST_PATH_IMAGE002
,进行异构信息网络的表示学习。
在其中一个实施例中,还包括:根据所述元图
Figure 323142DEST_PATH_IMAGE003
,计算节点类型t基于语义可达的关系类型数量
Figure 890389DEST_PATH_IMAGE004
,随机选择一种语义关系游走到邻居节点类型
Figure 250963DEST_PATH_IMAGE005
根据所述异构信息网络
Figure 44607DEST_PATH_IMAGE006
,计算节点
Figure 148829DEST_PATH_IMAGE007
与邻居节点类型
Figure 101742DEST_PATH_IMAGE008
之间的关系数量
Figure 305321DEST_PATH_IMAGE009
,得到根据所述异构信息网络在第i步从节点
Figure 648578DEST_PATH_IMAGE010
转移至邻居节点
Figure 353229DEST_PATH_IMAGE011
的转移概率为:
Figure 770435DEST_PATH_IMAGE012
其中,
Figure 472811DEST_PATH_IMAGE013
表示类型为t的节点,
Figure 100102DEST_PATH_IMAGE014
表示类型为
Figure 982345DEST_PATH_IMAGE015
的节点;
Figure 644270DEST_PATH_IMAGE016
表示根据元图
Figure 189652DEST_PATH_IMAGE017
,节点类型t基于语义可达节点类型
Figure 38660DEST_PATH_IMAGE018
的关系类型数量;
Figure 288375DEST_PATH_IMAGE019
表示根据所述异构信息网络
Figure 945753DEST_PATH_IMAGE020
,节点
Figure 989932DEST_PATH_IMAGE021
与邻居节点类型
Figure 326236DEST_PATH_IMAGE022
之间的关系数量,E表示所述异构信息网络的边集合;
Figure 51746DEST_PATH_IMAGE023
表示元图,
Figure 422685DEST_PATH_IMAGE024
表示异构信息网络。
在其中一个实施例中,还包括:设置需要考虑的邻居节点上下文窗口大小w,根据长程语义路径集合,通过使当前节点
Figure 637765DEST_PATH_IMAGE025
的上下文邻居节点出现概率最大化学习节点的分布式向量表示结果;
最大化上下文窗口中邻居节点出现概率为:
Figure 100845DEST_PATH_IMAGE026
其中,w表示最大化窗口,
Figure 223522DEST_PATH_IMAGE027
表示当前节点;
假设窗口中邻居节点
Figure 855492DEST_PATH_IMAGE028
出现的概率
Figure 241474DEST_PATH_IMAGE029
只与节点
Figure 552369DEST_PATH_IMAGE030
相关,因此可以得到
Figure 619683DEST_PATH_IMAGE031
对于异构信息网络,窗口中邻居节点
Figure 168476DEST_PATH_IMAGE032
出现的概率
Figure 522097DEST_PATH_IMAGE033
与节点
Figure 461234DEST_PATH_IMAGE034
的类型相关,即
Figure 191292DEST_PATH_IMAGE035
其中,
Figure 594592DEST_PATH_IMAGE036
表示节点
Figure 758595DEST_PATH_IMAGE037
的类型;
对概率函数
Figure 44082DEST_PATH_IMAGE038
采用softmax建模,得到:
Figure 781094DEST_PATH_IMAGE039
利用语义路径集合
Figure 976583DEST_PATH_IMAGE040
,计算窗口大小内每个上下文节点对
Figure 672007DEST_PATH_IMAGE041
的出现频率
Figure 648053DEST_PATH_IMAGE042
。进而采用梯度下降方式学习参数,迭代并优化如下目标函数:
Figure 860860DEST_PATH_IMAGE043
其中,
Figure 769910DEST_PATH_IMAGE044
表示优化目标;
当达到预设的迭代条件时,得到训练好的神经网络模型,将待表示节点及其上下文邻居节点集输入训练好的神经网络模型,输出待表示节点的分布式向量表示结果。
在其中一个实施例中,还包括:将所述目标函数采用负样本进行优化,得到近似目标函数为:
Figure 105076DEST_PATH_IMAGE045
其中,
Figure 240523DEST_PATH_IMAGE046
表示节点
Figure 116075DEST_PATH_IMAGE047
的分布式向量表示结果,
Figure 82894DEST_PATH_IMAGE048
表示当前节点
Figure 759601DEST_PATH_IMAGE049
的分布式向量表示结果,
Figure 241397DEST_PATH_IMAGE050
是sigmoid函数,
Figure 796007DEST_PATH_IMAGE051
是为当前节点
Figure 882911DEST_PATH_IMAGE052
采样的第k个负节点,K表示负采样数。
在其中一个实施例中,确定参数更新函数为:
Figure 356618DEST_PATH_IMAGE053
其中,
Figure 466657DEST_PATH_IMAGE054
表示神经网络模型的参数,
Figure 887274DEST_PATH_IMAGE055
表示学习率。
在其中一个实施例中,通过生成器和判别器的对抗学习对神经网络模型的参数进行调整。
一种复杂语义增强异构信息网络表示学习装置,所述装置包括:
元图生成模型,用于从文本数据中提取异构信息网络,以及抽取所述异构信息网络对应的元图;所述异构信息网络包括:节点、节点类型、节点间关系以及关系的类型;
长程语义路径生成模块,用于根据所述元图引导在所述异构信息网络中进行随机游走,以得到所述异构信息网络中节点转移至其邻居节点的转移概率;根据所述转移概率,得到语义路径集合;所述路径集合中包括:多条由不同类型节点和关系组成的语义路径;查询所述语义路径集合中包含共享节点的两条路径,如果所述共享节点对应的节点类型属于给定节点类型,则将两条语义路径在所述共享节点处进行级联;如果所述共享节点对应的节点类型不属于给定节点类型,并且根据给定节点类型压缩得到的路径相似度超过阈值,则将两条路径在所述共享节点处进行级联;当级联后的路径达到预设长度或者任意两条路径没有共享节点时,长程语义路径挖掘终止;所述长程语义路径集合中包括:随机游走生成的语义路径和挖掘得到的长程语义路径;
表示学习模块,用于根据所述长程语义路径集合,进行异构信息网络的表示学习。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
从文本数据中提取异构信息网络,抽取所述异构信息网络蕴含的元图;所述异构信息网络包括:节点、节点类型、节点间关系以及关系的类型;
根据所述元图引导在所述异构信息网络中进行随机游走,以得到所述异构信息网络中节点转移至其邻居节点的转移概率;
根据所述转移概率,得到语义路径集合;所述语义路径集合中包括:多条由不同类型节点和关系组成的语义路径;
查询所述路径集合中包含共享节点的两条路径,如果所述共享节点对应的节点类型属于给定节点类型,则将两条路径在所述共享节点处进行级联;如果所述共享节点对应的节点类型不属于给定节点类型,并且根据给定节点类型压缩得到的路径相似度超过阈值,则将两条路径在所述共享节点处进行级联;
当级联后的路径达到预设长度或者任意两条路径没有共享节点时,长程语义路径挖掘终止;所述长程语义路径集合中包括:随机游走生成的语义路径和挖掘得到的长程语义路径;
根据所述长程语义路径集合,进行异构信息网络的表示学习。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
从文本数据中提取异构信息网络,抽取所述异构信息网络蕴含的元图;所述异构信息网络包括:节点、节点类型、节点间关系以及关系的类型;
根据所述元图引导在所述异构信息网络中进行随机游走,以得到所述异构信息网络中节点转移至其邻居节点的转移概率;
根据所述转移概率,得到语义路径集合;所述语义路径集合中包括:多条由不同类型节点和关系组成的语义路径;
查询所述路径集合中包含共享节点的两条路径,如果所述共享节点对应的节点类型属于给定节点类型,则将两条路径在所述共享节点处进行级联;如果所述共享节点对应的节点类型不属于给定节点类型,并且根据给定节点类型压缩得到的路径相似度超过阈值,则将两条路径在所述共享节点处进行级联;
当级联后的路径达到预设长度或者任意两条路径没有共享节点时,长程语义路径挖掘终止;所述长程语义路径集合中包括:随机游走生成的语义路径和挖掘得到的长程语义路径;
根据所述长程语义路径集合,进行异构信息网络的表示学习。
上述复杂语义增强异构信息网络表示学习方法、装置、计算机设备和存储介质,通过元图引导,提取“长程”的隐含语义关系,应用于分类、聚类和推荐任务,较现有方法的性能更高,特别是针对大规模异构信息网络,极大提升了表示学习的性能和效率。
附图说明
图1为一个实施例中复杂语义增强异构信息网络表示学习方法的流程图;
图2为实施例中路径
Figure 625422DEST_PATH_IMAGE056
Figure 410976DEST_PATH_IMAGE057
Figure 70627DEST_PATH_IMAGE058
Figure 826094DEST_PATH_IMAGE059
的示意图;
图3为一个实施例中路径
Figure 323809DEST_PATH_IMAGE060
的示意图;
图4为一个实施例中路径
Figure 77001DEST_PATH_IMAGE061
的示意图;
图5为一个实施例中路径
Figure 20686DEST_PATH_IMAGE062
Figure 720789DEST_PATH_IMAGE063
收缩为仅包含给定节点类型“论文”的压缩路径
Figure 167951DEST_PATH_IMAGE064
Figure 295307DEST_PATH_IMAGE065
示意图;
图6为一个实施例中路径
Figure 663971DEST_PATH_IMAGE066
Figure 761240DEST_PATH_IMAGE067
级联的示意图;
图7为一个实施例中表示学习的流程图;
图8为一个实施例中复杂语义增强异构信息网络表示学习装置的结构示意图;
图9为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种复杂语义增强异构信息网络表示学习方法,包括以下步骤:
步骤102,从文本数据中提取异构信息网络,抽取异构信息网络蕴含的元图。
文本可以是从网页中提取的文本,也可以是本地导入的Word、TXT等文本。异构信息网络指的是多个节点类型或者多个连边类型构成的网络。异构信息网络中的节点类型和连边类型构成了网络模式,元图是在网络模式上定义的有向无环图。
具体的,异构信息网络、网络模式、元图以及表示学习的定义如下:
异构信息网络
Figure 735013DEST_PATH_IMAGE068
具有多种节点和关系类型,其中,V是节点集合,E是关系集合。定义节点类型映射函数
Figure 892325DEST_PATH_IMAGE069
和关系类型映射函数
Figure 748285DEST_PATH_IMAGE070
。每个节点
Figure 23146DEST_PATH_IMAGE071
对应节点类型
Figure 976059DEST_PATH_IMAGE072
,属于节点类型集合
Figure 179638DEST_PATH_IMAGE073
中的一个特定节点类型;每条关系
Figure 522895DEST_PATH_IMAGE074
对应关系类型
Figure 227546DEST_PATH_IMAGE075
,属于关系类型集合
Figure 644752DEST_PATH_IMAGE076
中的一个特定关系类型。
对于异构信息网络
Figure 347129DEST_PATH_IMAGE077
,网络模式记为
Figure 239998DEST_PATH_IMAGE078
是定义在节点类型集合
Figure 358127DEST_PATH_IMAGE079
和关系类型集合R上的有向图,以A中的类型为节点,
Figure 957735DEST_PATH_IMAGE080
上的关系为边。
对于网络模式
Figure 893330DEST_PATH_IMAGE081
,元图
Figure 211179DEST_PATH_IMAGE082
是由网络模式上的序列组合得到的有向无环图,其中
Figure 631534DEST_PATH_IMAGE083
中的节点属于节点类型集合A
Figure 147966DEST_PATH_IMAGE084
中的关系属于关系类型集合R
对于异构信息网络
Figure 864249DEST_PATH_IMAGE085
,表示学习的目标是将节点映射为低维空间中的d维向量,从而便于抽取有用信息,其中
Figure 669394DEST_PATH_IMAGE086
步骤104,根据元图引导在异构信息网络中进行随机游走,以得到异构信息网络中节点转移至其邻居节点的转移概率,根据转移概率,得到语义路径集合。
语义路径集合中包括:多条由不同类型节点和关系组成的语义路径。
具体的,类型为tA的节点
Figure 519539DEST_PATH_IMAGE087
将如何随机游走到类型为t'A的下一个节点
Figure 765843DEST_PATH_IMAGE088
取决于以下信息:
根据所述元图
Figure 980924DEST_PATH_IMAGE089
,计算节点类型t基于语义可达节点类型
Figure 335682DEST_PATH_IMAGE090
的关系类型数量
Figure 333725DEST_PATH_IMAGE091
,随机选择一种语义关系游走到邻居节点类型
Figure 762432DEST_PATH_IMAGE092
然后在从其开始的关系中,节点
Figure 476310DEST_PATH_IMAGE093
随机从类型为
Figure 990468DEST_PATH_IMAGE094
的邻居的数目
Figure 290737DEST_PATH_IMAGE095
中选择一个关系,游走到下一个节点
Figure 901847DEST_PATH_IMAGE096
步骤106,查询路径集合中包含共享节点的两条路径,如果共享节点对应的节点类型属于给定节点类型,则将两条路径在所述共享节点处进行级联;如共享节点对应的节点类型不属于给定节点类型,并且两条路径中共享节点对应的相似度超过阈值,则将两条路径在所述共享节点处进行级联。
步骤108,当级联后的路径达到预设长度或者任意两条路径没有共享节点时,长程语义路径挖掘终止,得到长程语义路径集合。
长程语义路径集合中包括:随机游走生成的语义路径和挖掘得到的长程语义路径。
步骤110,根据长程语义路径集合,进行异构信息网络的表示学习。
上述复杂语义增强异构信息网络表示学习方法中,通过元图引导,提取”长程”的隐含语义关系,应用于分类、聚类和推荐任务,较现有方法的性能更高,特别是针对大规模异构信息网络,极大提升了表示学习的性能和效率。
在其中一个实施例中,根据元图
Figure 458731DEST_PATH_IMAGE097
,计算节点类型t基于语义可达节点类型
Figure 397868DEST_PATH_IMAGE098
的关系类型数量
Figure 127926DEST_PATH_IMAGE099
,随机选择一种语义关系游走到邻居节点类型
Figure 531226DEST_PATH_IMAGE100
,以及根据异构信息网络
Figure 931114DEST_PATH_IMAGE101
,计算节点
Figure 482181DEST_PATH_IMAGE102
与邻居节点类型
Figure 625718DEST_PATH_IMAGE103
之间的关系数量
Figure 883524DEST_PATH_IMAGE104
,得到根据所述异构信息网络在第i步从节点
Figure 110106DEST_PATH_IMAGE105
转移至邻居节点
Figure 256791DEST_PATH_IMAGE106
的转移概率为:
Figure 266335DEST_PATH_IMAGE107
其中,
Figure 440965DEST_PATH_IMAGE108
表示类型为t的节点,
Figure 448235DEST_PATH_IMAGE109
表示类型为
Figure 708315DEST_PATH_IMAGE110
的节点;
Figure 521550DEST_PATH_IMAGE111
表示根据元图
Figure 691632DEST_PATH_IMAGE112
,节点类型t基于语义可达节点类型
Figure 994437DEST_PATH_IMAGE113
的关系类型数量;
Figure 679496DEST_PATH_IMAGE114
表示根据所述异构信息网络
Figure 234106DEST_PATH_IMAGE115
,节点
Figure 117748DEST_PATH_IMAGE116
与邻居节点类型
Figure 988793DEST_PATH_IMAGE117
之间的关系数量,E表示所述异构信息网络的边集合;
Figure 161149DEST_PATH_IMAGE118
表示元图,
Figure 112924DEST_PATH_IMAGE119
表示异构信息网络。
具体的,如果没有符合条件的类型或语义路径达到设置的长度,则随机游走将终止。
实际上,采用随机游走采样面临的问题包括元图抽取为指数级规模,计算成本高,以及随机游走得到的路径可能缺少现实意义。鉴于这些问题,设计了语义增强策略,基于随机游走进一步生成语义明确的长程路径,有助于捕获远距离节点之间的语义和结构相关性。
在其中一个实施例中,给定一个节点类型tA,扫描从随机游走导出的路径集,对于两个具有共享节点ν的路径
Figure 257598DEST_PATH_IMAGE120
Figure 105468DEST_PATH_IMAGE121
,通过在共享节点进行有条件的级联来生成长程语义路径。具体的生成规则如下:
1、如果共享节点
Figure 561857DEST_PATH_IMAGE122
Figure 458269DEST_PATH_IMAGE123
是类型t,即
Figure 254187DEST_PATH_IMAGE124
,则将路径
Figure 69696DEST_PATH_IMAGE125
Figure 154327DEST_PATH_IMAGE126
在节点v处连接。在节点ν的邻居中,连接后其他非t型共享节点(如果存在)仅出现一次。
2、如果共享节点
Figure 916746DEST_PATH_IMAGE122
Figure 629487DEST_PATH_IMAGE127
不是类型t,即
Figure 989799DEST_PATH_IMAGE128
,则将路径
Figure 624043DEST_PATH_IMAGE129
Figure 721312DEST_PATH_IMAGE130
收缩为仅包含类型t节点的压缩路径
Figure 695084DEST_PATH_IMAGE131
,并计算相似度
Figure 790079DEST_PATH_IMAGE132
。如果
Figure 708357DEST_PATH_IMAGE133
大于阈值τ,则将路径
Figure 750262DEST_PATH_IMAGE134
Figure 375278DEST_PATH_IMAGE135
在节点v处串联。
根据规则1,在给定节点类型为“论文”的情况下,图2中的路径
Figure 969071DEST_PATH_IMAGE136
Figure 984431DEST_PATH_IMAGE137
共享“论文”类型节点
Figure 892344DEST_PATH_IMAGE138
,因此它们在节点
Figure 699763DEST_PATH_IMAGE138
处串联,形成了如图3所示的新路径
Figure 572779DEST_PATH_IMAGE139
,非“论文”类型共享节点“作者”孟伟在连接后仅出现一次。同样,路径
Figure 403332DEST_PATH_IMAGE140
Figure 646095DEST_PATH_IMAGE141
在共享的“论文”类型节点
Figure 183386DEST_PATH_IMAGE142
处串联,形成新路径
Figure 56664DEST_PATH_IMAGE143
,如图4所示,而非“论文”类型共享节点“作者”I. 穆斯利在新路径中仅出现一次。
根据规则2,路径
Figure 171251DEST_PATH_IMAGE144
Figure 93071DEST_PATH_IMAGE145
共享“作者”节点
Figure 812765DEST_PATH_IMAGE146
,而不是给定的“论文”类型。因此,如图5所示,它们首先收缩为仅由“论文”类型的节点组成的路径
Figure 653682DEST_PATH_IMAGE147
Figure 396510DEST_PATH_IMAGE148
,然后定义函数F来计算路径的相似性。对于“论文”类型,函数F是从“论文”节点中提取文本。即,路径
Figure 981075DEST_PATH_IMAGE149
Figure 555276DEST_PATH_IMAGE148
分别映射为论文标题组成的文本xy,并且基于BERT计算xy之间的相似度。在阈值τ= 0.9的情况下,文本xy之间的相似度高于阈值,因此,路径
Figure 206575DEST_PATH_IMAGE149
Figure 233437DEST_PATH_IMAGE150
根据规则2在节点
Figure 621693DEST_PATH_IMAGE151
处级联,形成新路径
Figure 988083DEST_PATH_IMAGE152
,如图6所示。
如果没有共享节点或长度满足要求,则长程语义路径的挖掘将终止。如果派生给定数量的长程路径,或者无法派生其他长程路径,则过程终止。
在其中一个实施例中,根据长程语义路径集合,设置需要考虑的邻居节点上下文窗口大小,最大化窗口内上下文节点的出现概率,学习所述当前节点的分布式向量表示结果;
最大化上下文窗口中邻居节点出现概率为:
Figure 374065DEST_PATH_IMAGE153
其中,w表示最大化窗口,
Figure 950540DEST_PATH_IMAGE154
表示当前节点;
假设窗口中邻居节点
Figure 17853DEST_PATH_IMAGE155
出现的概率
Figure 301067DEST_PATH_IMAGE156
只与节点
Figure 920267DEST_PATH_IMAGE157
相关,因此可以得到
Figure 859404DEST_PATH_IMAGE158
对于异构信息网络,窗口中邻居节点
Figure 792725DEST_PATH_IMAGE159
出现的概率
Figure 992762DEST_PATH_IMAGE160
与节点
Figure 156765DEST_PATH_IMAGE161
的类型相关,即
Figure 176674DEST_PATH_IMAGE162
其中,
Figure 585789DEST_PATH_IMAGE163
表示节点
Figure 640333DEST_PATH_IMAGE164
的类型;
对概率函数
Figure 804598DEST_PATH_IMAGE165
采用softmax建模,得到:
Figure 452748DEST_PATH_IMAGE166
利用语义路径集合
Figure 524610DEST_PATH_IMAGE167
,计算窗口大小内每个上下文节点对
Figure 902501DEST_PATH_IMAGE168
的出现频率
Figure 644192DEST_PATH_IMAGE169
。进而采用梯度下降方式学习参数,迭代并优化如下目标函数:
Figure 169852DEST_PATH_IMAGE170
其中,
Figure 983087DEST_PATH_IMAGE171
表示优化目标;
当达到预设的迭代条件时,得到训练好的神经网络模型,将待表示节点及其上下文邻居节点集输入训练好的神经网络模型,输出待表示节点的分布式向量表示结果。
在其中一个实施例中,还包括:将目标函数采用负样本进行优化,得到近似目标函数为:
Figure 651703DEST_PATH_IMAGE172
其中,
Figure 688929DEST_PATH_IMAGE173
表示节点
Figure 639568DEST_PATH_IMAGE161
的分布式向量表示结果,
Figure 194177DEST_PATH_IMAGE174
表示当前节点
Figure 77820DEST_PATH_IMAGE175
的分布式向量表示结果,
Figure 754789DEST_PATH_IMAGE176
是sigmoid函数,
Figure 599248DEST_PATH_IMAGE177
是当前节点
Figure 816602DEST_PATH_IMAGE161
采样的第k个负节点,K表示负采样数。
传统的负采样用于通过随机替换路径中每个采样的正节点的值来生成负数据以供学习。对于每个采样的路径P,可以通过用随机选择的节点随机替换一个或多个节点来生成对应路径的负样本P'。
但是,上述负采样受到限制,例如从原始异构信息网络的现有节点中选择负采样,而无法学习底层分布以获得更强大的嵌入。
具体的,为了解决这些问题,进一步利用生成对抗网络(GAN)进行对抗学习的微调。
Figure 23593DEST_PATH_IMAGE178
如图7所示,生成器G输入从分布
Figure 277988DEST_PATH_IMAGE179
生成的d维噪声向量,并在输出中生成向量。判别器D学会从真实分布中检测出生成器产生的向量。判别器和生成器相互迭代竞争以训练更好的模型,该模型不仅对稀疏或嘈杂的数据更鲁棒,而且还提供更好的样本。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在其中一个实施例中,提供一种复杂语义增强异构信息网络表示学习装置,如图8所示,包括:
元图生成模型802,用于从文本数据中提取异构信息网络,抽取所述异构信息网络蕴含的元图;所述异构信息网络包括:节点、节点类型、节点间关系以及关系的类型;
长程语义路径生成模块804,用于根据所述元图引导在所述异构信息网络中进行随机游走,以得到所述异构信息网络中节点转移至其邻居节点的转移概率;根据所述转移概率,得到语义路径集合;所述语义路径集合中包括:多条由不同类型节点和关系组成的语义路径;查询所述语义路径集合中包含共享节点的两条路径,如果所述共享节点对应的节点类型属于给定节点类型,则将两条路径在所述共享节点处进行级联;如果所述共享节点对应的节点类型不属于给定节点类型,并且根据给定节点类型压缩得到的路径相似度超过阈值,则将两条路径在所述共享节点处进行级联;当级联后的路径达到预设长度或者任意两条路径没有共享节点时,长程语义路径挖掘终止;长程语义路径集合中包括:随机游走生成的语义路径和挖掘得到的长程语义路径;
表示学习模块806,用于根据所述长程语义路径集合,进行异构信息网络的表示学习。
在其中一个实施例中,长程语义路径生成模块804还用于根据所述元图,计算当前节点类型基于语义可达特定类型邻居节点的关系类型数量,随机选择一种语义关系游走到特定类型的邻居节点;根据所述特定类型邻居节点数量、所述语义可达特定类型邻居节点的关系类型数量,得到根据所述异构信息网络从当前节点转移至邻居节点的转移概率为:
Figure 999956DEST_PATH_IMAGE180
其中,
Figure 129324DEST_PATH_IMAGE181
表示类型为t的节点,
Figure 987559DEST_PATH_IMAGE182
表示类型为
Figure 6330DEST_PATH_IMAGE183
的节点;
Figure 90961DEST_PATH_IMAGE184
表示根据元图
Figure 384539DEST_PATH_IMAGE185
,节点类型t基于语义可达节点类型t'的关系类型数量;
Figure 300542DEST_PATH_IMAGE186
表示根据所述异构信息网络
Figure 427898DEST_PATH_IMAGE187
,节点
Figure 858880DEST_PATH_IMAGE188
与邻居节点类型
Figure 159411DEST_PATH_IMAGE189
之间的关系数量,E表示所述异构信息网络的边集合;
Figure 867604DEST_PATH_IMAGE190
表示元图,
Figure 24916DEST_PATH_IMAGE191
表示异构信息网络。
在其中一个实施例中,表示学习模块806还用于根据长程语义路径集合,设置需要考虑的邻居节点上下文窗口大小,通过使当前节点的上下文邻居节点出现概率最大化学习节点的分布式向量表示结果;
最大化上下文窗口中邻居节点出现概率为:
Figure 146456DEST_PATH_IMAGE192
其中,w表示最大化窗口,
Figure 155738DEST_PATH_IMAGE193
表示当前节点;
假设窗口中邻居节点
Figure 108650DEST_PATH_IMAGE194
出现的概率
Figure 640126DEST_PATH_IMAGE195
只与节点
Figure 655486DEST_PATH_IMAGE196
相关,因此可以得到
Figure 625716DEST_PATH_IMAGE197
对于异构信息网络,窗口中邻居节点
Figure 42922DEST_PATH_IMAGE198
出现的概率
Figure 745299DEST_PATH_IMAGE199
与节点
Figure 638169DEST_PATH_IMAGE200
的类型相关,即:
Figure 818614DEST_PATH_IMAGE201
其中,
Figure 355906DEST_PATH_IMAGE202
表示节点
Figure 291501DEST_PATH_IMAGE203
的类型;
对概率函数
Figure 609350DEST_PATH_IMAGE204
采用softmax建模,得到:
Figure 764125DEST_PATH_IMAGE205
利用语义路径集合
Figure 546137DEST_PATH_IMAGE206
,计算窗口大小内每个上下文节点对
Figure 590316DEST_PATH_IMAGE207
的出现频率
Figure 333144DEST_PATH_IMAGE208
进而采用梯度下降方式学习参数,迭代并优化如下目标函数:
Figure 917709DEST_PATH_IMAGE209
其中,
Figure 491910DEST_PATH_IMAGE210
表示优化目标;
当达到预设的迭代条件时,得到训练好的神经网络模型,将待表示节点及其上下文邻居节点集输入训练好的神经网络模型,输出待表示节点的分布式向量表示结果。
在其中一个实施例中,表示学习模块806还用于将所述目标函数采用负样本进行优化,得到近似目标函数为:
Figure 644674DEST_PATH_IMAGE211
其中,
Figure 468273DEST_PATH_IMAGE212
表示节点
Figure 59792DEST_PATH_IMAGE213
的分布式向量表示结果,
Figure 160603DEST_PATH_IMAGE214
表示当前节点
Figure 451645DEST_PATH_IMAGE215
的分布式向量表示结果,
Figure 231382DEST_PATH_IMAGE216
是sigmoid函数,
Figure 157749DEST_PATH_IMAGE217
是当前节点
Figure 378646DEST_PATH_IMAGE218
采样的第k个负节点,K表示负采样数。
在其中一个实施例中,表示学习模块806还用于确定参数更新函数为:
Figure 997846DEST_PATH_IMAGE219
其中,
Figure 999301DEST_PATH_IMAGE220
表示神经网络模型的参数,
Figure 604725DEST_PATH_IMAGE221
表示学习率。
在其中一个实施例中,表示学习模块806还用于通过生成器和判别器的对抗学习对神经网络模型的参数进行调整。
关于复杂语义增强异构信息网络表示学习装置的具体限定可以参见上文中对于一种复杂语义增强异构信息网络表示学习方法的限定,在此不再赘述。上述复杂语义增强异构信息网络表示学习装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种复杂语义增强异构信息网络表示学习方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种复杂语义增强异构信息网络表示学习方法,其特征在于,所述方法包括:
从文本数据中提取异构信息网络,抽取所述异构信息网络蕴含的元图;所述异构信息网络包括:节点、节点类型、节点间关系以及关系的类型;所述文本数据为Word文本和TXT文本;
根据所述元图引导在所述异构信息网络中进行随机游走,以得到所述异构信息网络中节点转移至其邻居节点的转移概率;
根据所述转移概率,得到语义路径集合;所述语义路径集合中包括:多条由不同类型节点和关系组成的语义路径;
查询所述语义路径集合中包含共享节点的两条路径,如果所述共享节点对应的节点类型属于给定节点类型,则将两条路径在所述共享节点处进行级联;如果所述共享节点对应的节点类型不属于给定节点类型,并且根据给定节点类型压缩得到的路径相似度超过阈值,则将两条路径在所述共享节点处进行级联;
当级联后的路径达到预设长度或者任意两条路径没有共享节点时,长程语义路径挖掘终止,得到长程语义路径集合;长程语义路径集合中包括:随机游走生成的语义路径和挖掘得到的长程语义路径;
根据所述长程语义路径集合,进行异构信息网络的表示学习。
2.根据权利要求1所述的方法,其特征在于,根据所述元图引导在所述异构信息网络中进行随机游走,以得到所述异构信息网络中节点转移至其邻居节点的转移概率,包括:
根据所述元图
Figure 68441DEST_PATH_IMAGE001
,计算节点类型t基于语义可达节点类型
Figure 341290DEST_PATH_IMAGE002
的关系类型数量
Figure 70212DEST_PATH_IMAGE003
,随机选择一种语义关系游走到邻居节点类型
Figure 86709DEST_PATH_IMAGE004
根据所述异构信息网络
Figure 584687DEST_PATH_IMAGE005
,计算节点
Figure 90754DEST_PATH_IMAGE006
与邻居节点类型
Figure 244655DEST_PATH_IMAGE007
之间的关系数量
Figure 127161DEST_PATH_IMAGE008
,得到根据所述异构信息网络在第i步从节点
Figure 479644DEST_PATH_IMAGE009
转移至邻居节点
Figure 359876DEST_PATH_IMAGE010
的转移概率为:
Figure 797810DEST_PATH_IMAGE011
其中,
Figure 218427DEST_PATH_IMAGE012
表示类型为t的节点,
Figure 628680DEST_PATH_IMAGE013
表示类型为
Figure 476550DEST_PATH_IMAGE014
的节点;
Figure 401781DEST_PATH_IMAGE015
表示根据元图
Figure 563772DEST_PATH_IMAGE016
,节点类型t基于语义可达节点类型
Figure 890848DEST_PATH_IMAGE014
的关系类型数量;
Figure 175199DEST_PATH_IMAGE017
表示根据所述异构信息网络
Figure 525409DEST_PATH_IMAGE018
,节点
Figure 287829DEST_PATH_IMAGE019
与邻居节点类型
Figure 469411DEST_PATH_IMAGE020
之间的关系数量,E表示所述异构信息网络的边集合;
Figure 850628DEST_PATH_IMAGE021
表示元图,
Figure 750451DEST_PATH_IMAGE022
表示异构信息网络。
3.根据权利要求1所述的方法,其特征在于,根据所述长程语义路径集合,进行异构信息网络的表示学习,包括:
设置需要考虑的邻居节点上下文窗口大小w,通过使当前节点
Figure 316561DEST_PATH_IMAGE023
的上下文邻居节点出现概率最大化学习节点的分布式向量表示结果;
其中,节点
Figure 290333DEST_PATH_IMAGE024
的邻居节点
Figure 916487DEST_PATH_IMAGE025
出现概率最大化的优化目标函数为:
Figure 303606DEST_PATH_IMAGE026
其中,w表示最大化窗口,
Figure 345511DEST_PATH_IMAGE027
表示当前节点;
假设窗口中邻居节点
Figure 501686DEST_PATH_IMAGE028
出现的概率
Figure 298741DEST_PATH_IMAGE029
只与节点
Figure 845260DEST_PATH_IMAGE030
相关,因此可以得到
Figure 18752DEST_PATH_IMAGE031
对于异构信息网络,窗口中邻居节点
Figure 29433DEST_PATH_IMAGE032
出现的概率
Figure 997389DEST_PATH_IMAGE033
与节点
Figure 31205DEST_PATH_IMAGE034
的类型相关,即:
Figure 477229DEST_PATH_IMAGE035
其中,
Figure 607996DEST_PATH_IMAGE036
表示节点
Figure 684537DEST_PATH_IMAGE037
的类型;
对概率函数
Figure 267965DEST_PATH_IMAGE038
采用softmax建模,得到:
Figure 517681DEST_PATH_IMAGE039
利用语义路径集合
Figure 440637DEST_PATH_IMAGE040
,计算窗口大小内每个上下文节点对
Figure 750396DEST_PATH_IMAGE041
的出现频率
Figure 821120DEST_PATH_IMAGE042
进而采用梯度下降方式学习参数,迭代并优化如下目标函数:
Figure 812210DEST_PATH_IMAGE043
其中,
Figure 651990DEST_PATH_IMAGE044
表示优化目标;
当达到预设的迭代条件时,得到训练好的神经网络模型,将待表示节点及其上下文邻居节点集输入训练好的神经网络模型,输出待表示节点的分布式向量表示结果。
4.根据权利要求3所述的方法,其特征在于,还包括:
将所述目标函数采用负样本进行优化,得到近似目标函数为:
Figure 132650DEST_PATH_IMAGE045
其中,
Figure 362774DEST_PATH_IMAGE046
表示节点
Figure 219872DEST_PATH_IMAGE047
的分布式向量表示结果,
Figure 914158DEST_PATH_IMAGE048
表示当前节点
Figure 503402DEST_PATH_IMAGE049
的分布式向量表示结果,σ(⋅)是sigmoid函数,
Figure 548719DEST_PATH_IMAGE050
是当前节点
Figure 943928DEST_PATH_IMAGE051
采样的第k个负节点,K表示负采样数。
5.根据权利要求3所述的方法,其特征在于,所述方法还包括:
确定参数更新函数为:
Figure 430404DEST_PATH_IMAGE052
其中,
Figure 518446DEST_PATH_IMAGE053
表示神经网络模型的参数,
Figure 785479DEST_PATH_IMAGE054
表示学习率。
6.根据权利要求3至5任一项所述的方法,其特征在于,所述方法还包括:
通过生成器和判别器的对抗学习对神经网络模型的参数进行调整。
7.一种复杂语义增强异构信息网络表示学习装置,其特征在于,所述装置包括:
元图生成模型,用于从文本数据中提取异构信息网络,以及抽取所述异构信息网络对应的元图;所述异构信息网络包括:节点、节点类型、节点间关系以及关系的类型;所述文本数据为Word文本和TXT文本;
长程语义路径生成模块,用于根据所述元图引导在所述异构信息网络中进行随机游走,以得到所述异构信息网络中节点转移至其邻居节点的转移概率;根据所述转移概率,得到语义路径集合;所述路径集合中包括:多条由不同类型节点和关系组成的语义路径;查询所述语义路径集合中包含共享节点的两条路径,如果所述共享节点对应的节点类型属于给定节点类型,则将两条语义路径在所述共享节点处进行级联;如果所述共享节点对应的节点类型不属于给定节点类型,并且根据给定节点类型压缩得到的路径相似度超过阈值,则将两条路径在所述共享节点处进行级联;当级联后的路径达到预设长度或者任意两条路径没有共享节点时,长程语义路径挖掘终止,得到长程语义路径集合;长程语义路径集合中包括:随机游走生成的语义路径和挖掘得到的长程语义路径;
表示学习模块,用于根据所述长程语义路径集合,进行异构信息网络的表示学习。
8.根据权利要求7所述的装置,其特征在于,长程语义路径生成模块还用于根据所述元图,计算节点类型t基于语义可达节点类型
Figure 656483DEST_PATH_IMAGE055
的关系类型数量
Figure 325362DEST_PATH_IMAGE056
,随机选择一种语义关系游走到邻居节点类型
Figure 584305DEST_PATH_IMAGE055
;根据所述异构信息网络
Figure 10738DEST_PATH_IMAGE057
,计算节点
Figure 13329DEST_PATH_IMAGE058
与邻居节点类型
Figure 536714DEST_PATH_IMAGE059
之间的关系数量
Figure 638663DEST_PATH_IMAGE060
,得到根据所述异构信息网络在第i步从节点
Figure 880288DEST_PATH_IMAGE061
转移至邻居节点
Figure 420991DEST_PATH_IMAGE062
的转移概率为:
Figure 736566DEST_PATH_IMAGE063
其中,
Figure 337311DEST_PATH_IMAGE064
表示类型为t的节点,
Figure 800654DEST_PATH_IMAGE065
表示类型为
Figure 82731DEST_PATH_IMAGE066
的节点;
Figure 580708DEST_PATH_IMAGE067
表示根据元图
Figure 86776DEST_PATH_IMAGE068
,节点类型t基于语义可达节点类型
Figure 240676DEST_PATH_IMAGE066
的关系类型数量;
Figure 123182DEST_PATH_IMAGE069
表示根据所述异构信息网络
Figure 475666DEST_PATH_IMAGE070
,节点
Figure 90318DEST_PATH_IMAGE071
与邻居节点类型
Figure 528252DEST_PATH_IMAGE072
之间的关系数量,E表示所述异构信息网络的边集合;
Figure 214449DEST_PATH_IMAGE073
表示元图,
Figure 359122DEST_PATH_IMAGE074
表示异构信息网络。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN202011351571.1A 2020-11-27 2020-11-27 复杂语义增强异构信息网络表示学习方法和装置 Active CN112182511B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011351571.1A CN112182511B (zh) 2020-11-27 2020-11-27 复杂语义增强异构信息网络表示学习方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011351571.1A CN112182511B (zh) 2020-11-27 2020-11-27 复杂语义增强异构信息网络表示学习方法和装置

Publications (2)

Publication Number Publication Date
CN112182511A CN112182511A (zh) 2021-01-05
CN112182511B true CN112182511B (zh) 2021-02-19

Family

ID=73918125

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011351571.1A Active CN112182511B (zh) 2020-11-27 2020-11-27 复杂语义增强异构信息网络表示学习方法和装置

Country Status (1)

Country Link
CN (1) CN112182511B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113539372A (zh) * 2021-06-27 2021-10-22 中南林业科技大学 一种LncRNA和疾病关联关系的高效预测方法
CN113553396A (zh) * 2021-07-05 2021-10-26 国网湖南省电力有限公司 图向量化方法、装置及电力网图向量化方法
CN113806488B (zh) * 2021-09-24 2024-02-02 石家庄铁道大学 一种基于元结构学习的异构图转换的文本挖掘方法
CN113626556B (zh) * 2021-10-12 2022-03-01 杭州电子科技大学 一种学术异构网络嵌入的模型训练方法及文本表示方法
CN116304066B (zh) * 2023-05-23 2023-08-22 中国人民解放军国防科技大学 一种基于提示学习的异质信息网络节点分类方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109189936A (zh) * 2018-08-13 2019-01-11 天津科技大学 一种基于网络结构和语义相关性度量的标签语义学习方法
CN110020023A (zh) * 2018-12-19 2019-07-16 大连理工大学 基于融合结构特征的属性网络表示学习方法
CN110414665A (zh) * 2019-05-21 2019-11-05 浙江工业大学 一种基于深度神经网络的网络表示学习方法
CN110555050A (zh) * 2018-03-30 2019-12-10 华东师范大学 一种基于元路径的异构网络节点表示学习方法
CN110866838A (zh) * 2019-11-06 2020-03-06 西安邮电大学 基于转移概率预处理的网络表示学习算法
CN111325326A (zh) * 2020-02-21 2020-06-23 北京工业大学 一种基于异质网络表示学习的链路预测方法
CN111428744A (zh) * 2019-01-10 2020-07-17 北京大学 一种保留类型序列信息的异构信息网络表示学习方法和系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11468262B2 (en) * 2017-10-30 2022-10-11 Nec Corporation Deep network embedding with adversarial regularization
US11334612B2 (en) * 2018-02-06 2022-05-17 Microsoft Technology Licensing, Llc Multilevel representation learning for computer content quality

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110555050A (zh) * 2018-03-30 2019-12-10 华东师范大学 一种基于元路径的异构网络节点表示学习方法
CN109189936A (zh) * 2018-08-13 2019-01-11 天津科技大学 一种基于网络结构和语义相关性度量的标签语义学习方法
CN110020023A (zh) * 2018-12-19 2019-07-16 大连理工大学 基于融合结构特征的属性网络表示学习方法
CN111428744A (zh) * 2019-01-10 2020-07-17 北京大学 一种保留类型序列信息的异构信息网络表示学习方法和系统
CN110414665A (zh) * 2019-05-21 2019-11-05 浙江工业大学 一种基于深度神经网络的网络表示学习方法
CN110866838A (zh) * 2019-11-06 2020-03-06 西安邮电大学 基于转移概率预处理的网络表示学习算法
CN111325326A (zh) * 2020-02-21 2020-06-23 北京工业大学 一种基于异质网络表示学习的链路预测方法

Also Published As

Publication number Publication date
CN112182511A (zh) 2021-01-05

Similar Documents

Publication Publication Date Title
CN112182511B (zh) 复杂语义增强异构信息网络表示学习方法和装置
Lin et al. A deep structured model with radius–margin bound for 3D human activity recognition
US7996762B2 (en) Correlative multi-label image annotation
Liu et al. Learning instance correlation functions for multilabel classification
CN110166522B (zh) 服务器识别方法、装置、可读存储介质和计算机设备
CN113486190A (zh) 一种融合实体图像信息和实体类别信息的多模态知识表示方法
CN112559764A (zh) 一种基于领域知识图谱的内容推荐方法
WO2021169453A1 (zh) 用于文本处理的方法和装置
Amara et al. Cross-network representation learning for anchor users on multiplex heterogeneous social network
Wang et al. Accelerated manifold embedding for multi-view semi-supervised classification
CN117033992A (zh) 一种分类模型的训练方法及装置
Khan et al. Unsupervised domain adaptation using fuzzy rules and stochastic hierarchical convolutional neural networks
Qiao et al. Mp-fedcl: Multi-prototype federated contrastive learning for edge intelligence
Jin et al. Deepwalk-aware graph convolutional networks
Li et al. Anchor-based knowledge embedding for image aesthetics assessment
Shi et al. Gigamae: Generalizable graph masked autoencoder via collaborative latent space reconstruction
Ding et al. User identification across multiple social networks based on naive Bayes model
Lv et al. Intelligent model update strategy for sequential recommendation
Cai et al. Adaptive anti-bottleneck multi-modal graph learning network for personalized micro-video recommendation
CN112487110A (zh) 基于网络结构和节点内容的重叠社区演化分析方法及系统
CN113515519A (zh) 图结构估计模型的训练方法、装置、设备及存储介质
CN116027874A (zh) 笔记本电脑功耗控制方法及其系统
Zhang et al. Trigraph regularized collective matrix tri-factorization framework on multiview features for multilabel image annotation
CN115982570A (zh) 联邦学习建模的多环节自定义优化方法、装置、设备和存储介质
Fang et al. Gaugllm: Improving graph contrastive learning for text-attributed graphs with large language models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant