CN113806488B - 一种基于元结构学习的异构图转换的文本挖掘方法 - Google Patents
一种基于元结构学习的异构图转换的文本挖掘方法 Download PDFInfo
- Publication number
- CN113806488B CN113806488B CN202111121124.1A CN202111121124A CN113806488B CN 113806488 B CN113806488 B CN 113806488B CN 202111121124 A CN202111121124 A CN 202111121124A CN 113806488 B CN113806488 B CN 113806488B
- Authority
- CN
- China
- Prior art keywords
- text
- meta
- graph
- path
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 60
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000005065 mining Methods 0.000 title claims abstract description 26
- 230000003993 interaction Effects 0.000 claims abstract description 6
- 239000011159 matrix material Substances 0.000 claims description 53
- 238000010586 diagram Methods 0.000 claims description 32
- 238000003058 natural language processing Methods 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 4
- 230000008451 emotion Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 238000009826 distribution Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 238000005096 rolling process Methods 0.000 abstract description 2
- 241000282414 Homo sapiens Species 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Algebra (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于元结构学习的异构图转换的文本挖掘方法,包括针对文本数据,提取文本中的信息构造异构信息网络图;通过图转换层,以获取元路径来捕捉节点间的关系;通过建立通道型哈达玛积模块提取出元图结构,从而捕捉节点之间同时存在的多种交互情况;对提取出的包含元路径和元图的元结构使用图卷积网络,生成节点嵌入;利用获得的节点嵌入挖掘下游文本。本发明能够适用于复杂的文本识别环境,有效避免语义信息的丢失,能够获得丰富完整的语义信息。
Description
技术领域
本发明属于文本挖掘技术领域,特别是涉及一种基于元结构学习的异构图转换的文本挖掘方法。
背景技术
随着互联网技术的发展,全球信息化数据呈现出爆发增长、海量集聚、传播迅速等特点,我们已经进入了一个“大数据时代”,这对文化传播、信息管理等产生了重大影响,自然语言处理技术受到越来越多的关注,并成为当下的热点。自然语言处理是指让计算机接受用户自然语言形式的输入,并在内部通过人类所定义的算法进行加工、计算等系列操作,以模拟人类对自然语言的理解,并返回用户所期望的结果。自然语言处理的目的在于用计算机代替人工来处理大规模的自然语言信息,实现人与计算机之间用自然语言进行有效通信的各种理论和方法。让计算机能够确切理解人类的语言,并自然地与人进行交互。
预定义的元路径意味着这些方法依赖于启发式学习,并且是特定于任务的。由于人工经验的局限性,手工构建的特征工程只能捕获部分信息。且元路径分别考虑节点之间的每种类型的关系,然而,异构环境中的真实关系往往相当复杂,同时节点之间可能存在不同类型的关系,元路径无法表示两个同时工作的语义关系,这进一步导致语义信息的丢失。在传统的文本分类方法中,受到词序和缺乏文本信息类型的限制,难以进行信息丰富的语义模式的挖掘。
发明内容
为了解决上述问题,本发明提出了一种基于元结构学习的异构图转换的文本挖掘方法,能够适用于复杂的文本识别环境,有效避免语义信息的丢失,能够获得丰富完整的语义信息。
为达到上述目的,本发明采用的技术方案是:一种基于元结构学习的异构图转换的文本挖掘方法,包括步骤:
S10,针对文本数据,提取文本中的信息构造异构信息网络图;
S20,通过图转换层,以获取元路径来捕捉节点间的关系;
S30,通过建立通道型哈达玛积模块提取出元图结构,从而捕捉节点之间同时存在的多种交互情况;
S40,对提取出的包含元路径和元图的元结构使用图卷积网络,生成节点嵌入;
S50,利用获得的节点嵌入挖掘下游文本。
进一步的是,在所述步骤S10中,针对文本数据,提取文本中的信息构造异构信息网络图,包括步骤:
S11,收集大量文本数据,使用N×D的原始特征矩阵U来存储文本的原始特征,其中N和D分别为文本的数量和文本特征的维度;并利用自然语言处理工具从文本数据中提取单词类型、文本类型、主题类型和实体类型;
S12,将文本中的单词提取为单词类型节点,学习单词向量,结果用于文本表示;如果文本中存在单词,则在文本节点和单词节点之间建立边;通过计算单词向量的相似度确定单词之间的联系;
S13,探索文本中潜在的主题,作为主题类型节点;主题分布通过计算语料库内单词的条件概率确定;为每个文本筛选出概率值最高的前K个主题;如果一个主题被文本所包含,就在这两个节点之间建立一条边;
S14,对于实体类型,建立文本和实体之间的联系以及实体之间的联系;
S15,将文本类型、单词类型、主题类型、实体类型信息作为异构信息网络图的节点,进而根据各个节点的关系建立异构信息网络图。
进一步的是,在所述步骤S20中,通过图转换层,以获取元路径来捕捉节点间的关系,包括步骤:
S21,通过图转换网络提取异构信息网络图中的元路径,在第一图转换层中对异构信息网络图中不同边类型的邻接矩阵和权重矩阵进行卷积;
S22,使用第一图转换层的输出通过矩阵乘法生成基于元路径的邻接矩阵;
S23,堆叠多个图转换层,第二层及后面的图转换层的输入为上一层的输出和原始边类型邻接矩阵,第二层及后面的图转换层中卷积层的工作方式与第一图转换层相同,将对于每个通道中的所有边类型计算一个新的权重矩阵,并对每层生成基于邻接矩阵的元路径;
S24,元路径是与不同类型的边连接的路径,邻接矩阵通过沿路径的每种边类型的邻接矩阵经过卷积后相乘产生;
S25,根据沿该路径的所有边类型的权重的累积乘积,获得每个元路径的重要性得分。
进一步的是,在所述步骤S20中,通过图转换层,以获取元路径来捕捉节点间的关系,包括步骤:
S21,通过图转换网络提取异构信息网络图中的元路径,在第一图转换层中,通过两个卷积对异构信息网络图中不同边类型的邻接矩阵和权重矩阵进行卷积;
S22,使用两个卷积的输出通过矩阵乘法生成基于元路径的邻接矩阵P1,即P1=O1O2,其中,O1和O2分别为卷积层的两个输出;
S23,堆叠多个图转换层,第二层及后面的图转换层的输入为上一层的输出和原始边类型邻接矩阵,第二层及后面的图转换层中卷积层的工作方式与第一图转换层相同,将对于每个通道中的所有边类型计算一个新的权重矩阵Wα(i+1),第i层生成的基于邻接矩阵的元路径Pi=Pi-1Oi+1;
S24,元路径p是与不同类型的边连接的路径,长度为k的元路径p的邻接矩阵Mp通过沿路径p的每种边类型的邻接矩阵经过卷积后相乘产生,即Mp=Me1Me2...Mek;
S25,根据沿该路径的所有边类型的权重的累积乘积,获得每个元路径的重要性得分,包括步骤:
元路径pe3e2由边类型e3和e2组成,其重要性得分由边类型e3和e2的权重矩阵和计算得出。
进一步的是,在步骤S21中,通过图转换网络提取异构信息网络图中的元路径,在第一图转换层中,通过两个卷积对异构信息网络图中不同边类型的邻接矩阵和权重矩阵进行卷积,获得卷积的输出:
其中,conv表示卷积操作,e表示一种边类型,Me是基于边类型的邻接矩阵,Wα=softmax(W);softmax是一种激活函数。
进一步的是,在所述步骤S30中,通过建立通道型哈达玛积模块提取出元图结构,从而捕捉节点之间同时存在的多种交互情况,包括步骤:
S31,建立通道式哈达玛积来提取元图,利用哈达玛积以元图的形式融合不同元路径;通过在多条元路径上通过哈达玛积,得到由多条元路径组成的元图的一个新的邻接矩阵;
S32,对第k个图转换层中生成长度为k+1的多条元路径,通过通道型哈达玛积模块,获得每条元路径的重要性得分,从而利用条元路径的重要性得分得分获取元图的重要性得分;
S33,枚举所有通道对,并在各自的两个矩阵上应用哈达玛乘积来过得的元图;最后,该模块的输出包含从不同通道对生成的所有基于元图的邻接矩阵;
S34,使用均值池化来消除弱关系的元结构。
进一步的是,在步骤S31中,建立通道式哈达玛积来提取元图,利用哈达玛积以元图的形式融合两个存在同时工作机会的元路径pa和pb;通过在多条元路径上通过哈达玛积,得到由这两条元路径组成的元图g的一个新的邻接矩阵Mg。
进一步的是,在步骤S32中,对第k个图转换层中生成的两条长度为k+1的元路径pa和pb,获得两者的重要性得分;
利用两条元路径的重要性得分得分获取元图的重要性得分元图g的重要性得分。
进一步的是,在步骤S34中,使用均值池化来消除弱关系的元结构,公式为:
其中,表示第i层时的所有元结构,包括元路径和元图。
进一步的是,在所述步骤S50中,利用获得的节点嵌入挖掘下游文本,完成包括新闻文本分类、情感分析和自然语言推理任务。
采用本技术方案的有益效果:
本发明针对大量文本数据,提取文本中的信息构建异构信息网络图,通过异构图转换器提取异构信息网络图中丰富的语义和结构信息,能够自动生成包含元路径和元图的元结构,采用图卷积网络对元结构进行节点嵌入后应用于文本挖掘任务。本发明通过提取文本数据中的信息构造异构信息网络图,它集成了四种文本信息并捕获它们之间的关系。异构信息网络图为复杂图形结构的计算提供了新的解决方法。通过异构信息网络图中的元路径,我们提取异构图中丰富的语义信息,然而传统的预定义的元路径依赖于启发式学习,并且是特定于任务的,只能捕获部分信息。而且,传统方法中元路径只考虑了节点之间的每种类型的关系,没有考虑节点间不同类型之间的关系,这将进一步导致语义信息的丢失。本发明采用元结构学习的异构图转换器在不依赖启发式学习的情况下自动提取信息丰富的语义结构,可以自动生成解释性元结构,包括元路径和元图。之后通过图卷积网络进行节点嵌入,应用于下游任务。
本发明的方法可以作为一个强大的元结构提取器,用于其他图神经网络模型。特别地,我们将其应用于文本挖掘任务,包括新闻分类,情感分析和自然语言推理等任务。实验结果也证明了元结构学习的异构图转换器应用于其他图神经网络模型的有效性。
附图说明
图1为本发明的一种基于元结构学习的异构图转换的文本挖掘方法的流程示意图;
图2为本发明实施例中一种基于元结构学习的异构图转换的文本挖掘方法的原理框架示意图;
图3为本发明实施例中一层图转换网络示意图;
图4为本发明实施例中通道型哈达玛积模块示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步阐述。
在本实施例中,参见图1和2所示,本发明提出了一种基于元结构学习的异构图转换的文本挖掘方法,包括步骤:
S10,针对文本数据,提取文本中的信息构造异构信息网络图;
S20,通过图转换层,以获取元路径来捕捉节点间的关系;
S30,通过建立通道型哈达玛积模块提取出元图结构,从而捕捉节点之间同时存在的多种交互情况;
S40,对提取出的包含元路径和元图的元结构使用图卷积网络,生成节点嵌入;
S50,利用获得的节点嵌入挖掘下游文本。
作为上述实施例的优化方案1,一种基于元结构学习的异构图转换的文本挖掘方法,包括步骤:
在所述步骤S10中,包括步骤:
S11,面对大量文本数据,使用N×D的原始特征矩阵U来存储文本的原始特征,其中N和D分别为文本的数量和文本特征的维度。利用自然语言处理工具从文本数据中提取单词类型、文本类型、主题类型和实体类型;
S12,将文本T中的单词提取为单词类型节点,学习单词向量,结果用于文本表示;如果文本中存在一个单词,则在文本节点和单词节点之间建立边;通过计算单词向量的相似度确定单词之间的联系;
S13,探索文本中潜在的主题,作为主题类型节点。主题分布通过计算语料库内单词的条件概率确定;为每个文本T筛选出概率值最高的前K个主题。如果一个主题被文本所包含,就在这两个节点之间建立一条边;
S14,对于实体类型,建立文本和实体之间的联系以及实体之间的联系;
S15,将文本类型、单词类型、主题类型、实体类型信息作为异构信息网络图的节点,进而根据各个节点的关系建立异构信息网络图。
在所述步骤S20中,包括步骤:
S21,如图3所示,通过图转换网络提取异构信息网络图中的元路径,在第一层图转换器中,通过两个1*1卷积对异构信息网络图中不同边类型的邻接矩阵和权重矩阵进行卷积,公式如下:
其中,conv表示卷积操作,e表示一种边类型,Me是基于边类型的邻接矩阵,W∈R1 ×1×E是卷积层的参数,Wα=softmax(W);softmax是一种激活函数;
S22,然后使用两个卷积层的输出通过矩阵乘法生成基于元路径的邻接矩阵P1,即P1=O1O2,其中,O1和O2分别为卷积层的两个输出;
S23,堆叠多个图转换层,以提取长度越来越长的元路径,其长度可达k+1。第二层及后面的图转换层的输入为上一层的输出和原始边类型邻接矩阵卷积层的工作方式与第一层相同,它将对于每个通道中的所有边类型计算一个新的权重矩阵Wα(i+1)。第i层生成的基于邻接矩阵的元路径Pi=Pi-1Oi+1;
S24,元路径p是与不同类型的边连接的路径,长度为k的元路径p的邻接矩阵Mp通过沿路径p的每种边类型的邻接矩阵经过卷积后相乘产生,即Mp=Me1Me2...Mek;
S25,每个元路径的重要性得分是沿该路径的所有边类型的权重的累积乘积,例如,元路径pe3e2由边类型e3和e2组成,其重要性得分由以下公式计算得出:
其中,和/>分别为边类型e3和e2的权重矩阵。
在所述步骤S30中,如图4所示,包括步骤:
S31,建立一个新的模块称为通道式哈达玛积来提取元图;哈达玛积是该模块的关键,它以元图的形式融合了不同元路径的效果;
例如,两个存在同时工作机会的元路径pa和pb,通过在两条元路径上应用哈达玛积,得到由这两条元路径组成的元图g的一个新的邻接矩阵Mg,公式如下:
其中,和/>分别为元路径pa和pb的邻接矩阵;
S32,对第k个图转换层中生成的两条长度为k+1的元路径pa和pb应用哈达玛积;两者的重要性得分可以分别记为和/>
其中,ta和tb是其所对应的元路径中的边类型序列;
元图g的重要性得分计算公式为:
由于小于1的权重多次相乘,计算出的元图的重要性分数将非常小,为了数值有效性,将每层中的权重矩阵放大十倍;
S33,枚举所有通道对,并在各自的两个矩阵上应用哈达玛乘积来发现更多的元图;最后,该模块的输出包含从不同通道对生成的所有基于元图的邻接矩阵;
S34,使用均值池化来消除弱关系的元结构,公式为:
其中,表示第i层时的所有元结构,包括元路径和元图。
在所述步骤S40中,对提取出的包含元路径和元图的元结构,使用图卷积网络来产生信息丰富的节点嵌入,用于下游文本挖掘任务;
在所述步骤S50中,将模型分别用于新闻文本分类、情感分析和自然语言推理任务。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (8)
1.一种基于元结构学习的异构图转换的文本挖掘方法,其特征在于,包括步骤:
S10,针对文本数据,提取文本中的信息构造异构信息网络图;包括步骤:
S11,收集大量文本数据,使用N×D的原始特征矩阵U来存储文本的原始特征,其中N和D分别为文本的数量和文本特征的维度;并利用自然语言处理工具从文本数据中提取单词类型、文本类型、主题类型和实体类型;
S12,将文本中的单词提取为单词类型节点,学习单词向量,结果用于文本表示;如果文本中存在单词,则在文本节点和单词节点之间建立边;通过计算单词向量的相似度确定单词之间的联系;
S13,探索文本中潜在的主题,作为主题类型节点;主题分布通过计算语料库内单词的条件概率确定;为每个文本筛选出概率值最高的前K个主题;如果一个主题被文本所包含,就在这两个节点之间建立一条边;
S14,对于实体类型,建立文本和实体之间的联系以及实体之间的联系;
S15,将文本类型、单词类型、主题类型、实体类型信息作为异构信息网络图的节点,进而根据各个节点的关系建立异构信息网络图;
S20,通过图转换层,以获取元路径来捕捉节点间的关系,包括步骤:
S21,通过图转换网络提取异构信息网络图中的元路径,在第一图转换层中对异构信息网络图中不同边类型的邻接矩阵和权重矩阵进行卷积;
S22,使用第一图转换层的输出通过矩阵乘法生成基于元路径的邻接矩阵;
S23,堆叠多个图转换层,第二层及后面的图转换层的输入为上一层的输出和原始边类型邻接矩阵,第二层及后面的图转换层中卷积层的工作方式与第一图转换层相同,将对于每个通道中的所有边类型计算一个新的权重矩阵,并对每层生成基于邻接矩阵的元路径;
S24,元路径是与不同类型的边连接的路径,邻接矩阵通过沿路径的每种边类型的邻接矩阵经过卷积后相乘产生;
S25,根据沿该路径的所有边类型的权重的累积乘积,获得每个元路径的重要性得分;
S30,通过建立通道型哈达玛积模块提取出元图结构,从而捕捉节点之间同时存在的多种交互情况;
S40,对提取出的包含元路径和元图的元结构使用图卷积网络,生成节点嵌入;
S50,利用获得的节点嵌入挖掘下游文本。
2.根据权利要求1所述的一种基于元结构学习的异构图转换的文本挖掘方法,其特征在于,在所述步骤S20中,通过图转换层,以获取元路径来捕捉节点间的关系,包括步骤:
S21,通过图转换网络提取异构信息网络图中的元路径,在第一图转换层中,通过两个卷积对异构信息网络图中不同边类型的邻接矩阵和权重矩阵进行卷积;
S22,使用两个卷积的输出通过矩阵乘法生成基于元路径的邻接矩阵P1,即P1=O1O2,其中,O1和O2分别为卷积层的两个输出;
S23,堆叠多个图转换层,第二层及后面的图转换层的输入为上一层的输出和原始边类型邻接矩阵,第二层及后面的图转换层中卷积层的工作方式与第一图转换层相同,将对于每个通道中的所有边类型计算一个新的权重矩阵Wa(i+1),第i层生成的基于邻接矩阵的元路径Pi=Pi-1Oi+1;
S24,元路径p是与不同类型的边连接的路径,长度为k的元路径p的邻接矩阵Mp通过沿路径p的每种边类型的邻接矩阵经过卷积后相乘产生,即Mp=Me1Me2...Mek;
S25,根据沿该路径的所有边类型的权重的累积乘积,获得每个元路径的重要性得分,包括步骤:
元路径pe3e2由边类型e3和e2组成,其重要性得分由边类型e3和e2的权重矩阵和/>计算得出。
3.根据权利要求2所述的一种基于元结构学习的异构图转换的文本挖掘方法,其特征在于,在步骤S21中,通过图转换网络提取异构信息网络图中的元路径,在第一图转换层中,通过两个卷积对异构信息网络图中不同边类型的邻接矩阵和权重矩阵进行卷积,获得卷积的输出:
其中,conv表示卷积操作,e表示一种边类型,Me是基于边类型的邻接矩阵,Wα=softmax(W);softmax是一种激活函数。
4.根据权利要求1所述的一种基于元结构学习的异构图转换的文本挖掘方法,其特征在于,在所述步骤S30中,通过建立通道型哈达玛积模块提取出元图结构,从而捕捉节点之间同时存在的多种交互情况,包括步骤:
S31,建立通道式哈达玛积来提取元图,利用哈达玛积以元图的形式融合不同元路径;通过在多条元路径上通过哈达玛积,得到由多条元路径组成的元图的一个新的邻接矩阵;
S32,对第k个图转换层中生成长度为k+1的多条元路径,通过通道型哈达玛积模块,获得每条元路径的重要性得分,从而利用条元路径的重要性得分得分获取元图的重要性得分;
S33,枚举所有通道对,并在各自的两个矩阵上应用哈达玛乘积来过得的元图;最后,该模块的输出包含从不同通道对生成的所有基于元图的邻接矩阵;
S34,使用均值池化来消除弱关系的元结构。
5.根据权利要求4所述的一种基于元结构学习的异构图转换的文本挖掘方法,其特征在于,在步骤S31中,建立通道式哈达玛积来提取元图,利用哈达玛积以元图的形式融合两个存在同时工作机会的元路径pa和pb;通过在多条元路径上通过哈达玛积,得到由这两条元路径组成的元图g的一个新的邻接矩阵Mg。
6.根据权利要求5所述的一种基于元结构学习的异构图转换的文本挖掘方法,其特征在于,在步骤S32中,对第k个图转换层中生成的两条长度为k+1的元路径pa和pb,获得两者的重要性得分;
利用两条元路径的重要性得分得分获取元图的重要性得分元图g的重要性得分。
7.根据权利要求4所述的一种基于元结构学习的异构图转换的文本挖掘方法,其特征在于,在步骤S34中,使用均值池化来消除弱关系的元结构,公式为:
其中,表示第i层时的所有元结构,包括元路径和元图。
8.根据权利要求1所述的一种基于元结构学习的异构图转换的文本挖掘方法,其特征在于,在所述步骤S50中,利用获得的节点嵌入挖掘下游文本,完成包括新闻文本分类、情感分析和自然语言推理任务。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111121124.1A CN113806488B (zh) | 2021-09-24 | 2021-09-24 | 一种基于元结构学习的异构图转换的文本挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111121124.1A CN113806488B (zh) | 2021-09-24 | 2021-09-24 | 一种基于元结构学习的异构图转换的文本挖掘方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113806488A CN113806488A (zh) | 2021-12-17 |
CN113806488B true CN113806488B (zh) | 2024-02-02 |
Family
ID=78940226
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111121124.1A Active CN113806488B (zh) | 2021-09-24 | 2021-09-24 | 一种基于元结构学习的异构图转换的文本挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113806488B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116383446A (zh) * | 2023-04-06 | 2023-07-04 | 哈尔滨工程大学 | 一种基于异构引文网络的作者分类方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110555050A (zh) * | 2018-03-30 | 2019-12-10 | 华东师范大学 | 一种基于元路径的异构网络节点表示学习方法 |
WO2020140386A1 (zh) * | 2019-01-02 | 2020-07-09 | 平安科技(深圳)有限公司 | 基于TextCNN知识抽取方法、装置、计算机设备及存储介质 |
CN112182511A (zh) * | 2020-11-27 | 2021-01-05 | 中国人民解放军国防科技大学 | 复杂语义增强异构信息网络表示学习方法和装置 |
-
2021
- 2021-09-24 CN CN202111121124.1A patent/CN113806488B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110555050A (zh) * | 2018-03-30 | 2019-12-10 | 华东师范大学 | 一种基于元路径的异构网络节点表示学习方法 |
WO2020140386A1 (zh) * | 2019-01-02 | 2020-07-09 | 平安科技(深圳)有限公司 | 基于TextCNN知识抽取方法、装置、计算机设备及存储介质 |
CN112182511A (zh) * | 2020-11-27 | 2021-01-05 | 中国人民解放军国防科技大学 | 复杂语义增强异构信息网络表示学习方法和装置 |
Non-Patent Citations (1)
Title |
---|
多元图融合的异构信息网嵌入;吴瑶;申德荣;寇月;聂铁铮;于戈;;计算机研究与发展(第09期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113806488A (zh) | 2021-12-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108829677B (zh) | 一种基于多模态注意力的图像标题自动生成方法 | |
CN111538819B (zh) | 一种基于文档集多跳推理的问答系统的构建方法 | |
CN111914185B (zh) | 一种基于图注意力网络的社交网络中文本情感分析方法 | |
Li et al. | Improving convolutional neural network for text classification by recursive data pruning | |
CN110032630A (zh) | 话术推荐设备、方法及模型训练设备 | |
CN110765269A (zh) | 基于动态词向量和层级神经网络的文档级情感分类方法 | |
Liu et al. | Novel motion patterns matter for practical skeleton-based action recognition | |
CN113486190A (zh) | 一种融合实体图像信息和实体类别信息的多模态知识表示方法 | |
CN112329444B (zh) | 融合文本和传播结构的早期谣言检测方法 | |
Wang et al. | Multiscale deep alternative neural network for large-scale video classification | |
Wang et al. | Atpfl: Automatic trajectory prediction model design under federated learning framework | |
CN113536144A (zh) | 一种社交网络信息的传播规模预测方法、装置 | |
CN113806488B (zh) | 一种基于元结构学习的异构图转换的文本挖掘方法 | |
Divya et al. | Text summarization using deep learning | |
CN111353583A (zh) | 基于群卷积特征拓扑空间的深度学习网络及其训练方法 | |
Zhang et al. | Autoshrink: A topology-aware nas for discovering efficient neural architecture | |
CN111832303A (zh) | 一种命名实体识别方法和装置 | |
Zhao et al. | Human action recognition based on improved fusion attention CNN and RNN | |
Singh et al. | Iml-gcn: Improved multi-label graph convolutional network for efficient yet precise image classification | |
CN117235216A (zh) | 一种基于异构知识融合的知识推理方法 | |
CN112015890A (zh) | 电影剧本摘要的生成方法和装置 | |
CN113836903B (zh) | 一种基于情境嵌入和知识蒸馏的企业画像标签抽取方法及装置 | |
Li et al. | Guided graph attention learning for video-text matching | |
Luo et al. | Temporal-aware mechanism with bidirectional complementarity for video q&a | |
CN115168678A (zh) | 一种时序感知的异质图神经谣言检测模型 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |