CN116187419A - 一种基于文本组块的层级体系自动构建方法 - Google Patents

一种基于文本组块的层级体系自动构建方法 Download PDF

Info

Publication number
CN116187419A
CN116187419A CN202310455626.0A CN202310455626A CN116187419A CN 116187419 A CN116187419 A CN 116187419A CN 202310455626 A CN202310455626 A CN 202310455626A CN 116187419 A CN116187419 A CN 116187419A
Authority
CN
China
Prior art keywords
text
chunk
chunks
word
importance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310455626.0A
Other languages
English (en)
Other versions
CN116187419B (zh
Inventor
张勇东
宋彦
毛震东
陈伟东
田元贺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202310455626.0A priority Critical patent/CN116187419B/zh
Publication of CN116187419A publication Critical patent/CN116187419A/zh
Application granted granted Critical
Publication of CN116187419B publication Critical patent/CN116187419B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及层级体系构建技术领域,公开了一种基于文本组块的层级体系自动构建方法,包括:将文本切分为单词;文本组块抽取;编码;文本组块表征;计算权重;计算文本组块重要性;构建单词表;构建层级体系;本发明基于神经网络模型,使用完全自动的方法从数据中抽取文本组块信息,构建体系节点及其连接;此外,本发明采用基于注意力图卷积神经网络的方法计算不同文本组块的重要性,实现基于重要性的体系节点分层。

Description

一种基于文本组块的层级体系自动构建方法
技术领域
本发明涉及层级体系构建技术领域,具体涉及一种基于文本组块的层级体系自动构建方法。
背景技术
层级体系旨在构建具有层级的图结构系统,该图结构系统包括属于不同层级的节点以及节点之间的连接,节点之间的连接也称为边。
现有的层级体系构建方法往往采用自顶向下的方法,即先设计体系,然后用数据填充体系内容。这种方法需要大量的人工设计和构建工作,维护成本高,难以及时对新数据更新。
发明内容
为解决上述技术问题,本发明提供一种基于文本组块的层级体系自动构建方法。本发明从数据出发,采用自底向上的方法构建层级体系。
为解决上述技术问题,本发明采用如下技术方案:
一种基于文本组块的层级体系自动构建方法,为给定语料库构建层级体系,包括以下步骤:
步骤一:从语料库中取出若干段文本,并将每段文本切分为单词;其中,第i段文本
Figure SMS_1
切分后的单词序列记为/>
Figure SMS_2
,/>
Figure SMS_3
表示文本/>
Figure SMS_4
中的第j个单词,/>
Figure SMS_5
表示文本
Figure SMS_6
中单词的总数;
步骤二、文本组块抽取:对于各段文本
Figure SMS_7
,从文本/>
Figure SMS_11
中抽取/>
Figure SMS_14
个文本组块,组成文本组块集合/>
Figure SMS_9
,其中/>
Figure SMS_10
为文本/>
Figure SMS_12
的第k个文本组块,文本组块为文本中一个或多个连续单词组成的序列;在文本组块之间建立连接,得到/>
Figure SMS_13
维度的邻接矩阵/>
Figure SMS_8
步骤三、编码:将文本
Figure SMS_15
各单词/>
Figure SMS_16
的单词向量/>
Figure SMS_17
输入编码器中,得到单词/>
Figure SMS_18
的隐向量/>
Figure SMS_19
步骤四、文本组块表征:通过最大池化方法由单词的隐向量计算文本
Figure SMS_20
各文本组块/>
Figure SMS_21
的隐向量/>
Figure SMS_22
步骤五:通过L层的注意力图卷积神经网络,对文本
Figure SMS_23
中文本组块的隐向量以及邻接矩阵A进行建模;在注意力图卷积神经网络第/>
Figure SMS_24
层中,计算得到文本/>
Figure SMS_25
中第v个文本组块/>
Figure SMS_26
对第k个文本组块/>
Figure SMS_27
的权重/>
Figure SMS_28
,/>
Figure SMS_29
步骤六、文本组块重要性计算:计算文本
Figure SMS_31
中第v个文本组块/>
Figure SMS_33
的重要性/>
Figure SMS_35
:/>
Figure SMS_32
;计算文本/>
Figure SMS_38
中第v个文本组块/>
Figure SMS_39
和第k个文本组块/>
Figure SMS_40
构成的文本组块对(/>
Figure SMS_30
,/>
Figure SMS_34
)的重要性/>
Figure SMS_36
:/>
Figure SMS_37
步骤七:将文本
Figure SMS_41
各文本组块及文本组块的重要性、各文本组块对及文本组块对的重要性记录到单词表V中;
步骤八、层级体系构建:将单词表
Figure SMS_44
中所有相同文本组块的重要性相加并计算平均,得到第/>
Figure SMS_45
个文本组块的重要性/>
Figure SMS_47
;将单词表/>
Figure SMS_43
中所有相同文本组块对的重要性相加并计算平均,得到第/>
Figure SMS_46
个文本组块和第/>
Figure SMS_48
个文本组块组成的文本组块对的重要性/>
Figure SMS_49
;/>
Figure SMS_42
为单词表V中所有不相同的文本组块的总数;
使用预先定义的阈值
Figure SMS_53
,其中/>
Figure SMS_55
,把所有文本组块分为/>
Figure SMS_59
层;如果/>
Figure SMS_51
满足/>
Figure SMS_56
,则第/>
Figure SMS_60
个文本组块属于层级体系的第/>
Figure SMS_63
层;如果/>
Figure SMS_52
满足/>
Figure SMS_54
,则第/>
Figure SMS_58
个文本组块属于层级体系的第一层;如果/>
Figure SMS_62
满足/>
Figure SMS_50
,则第/>
Figure SMS_57
个文本组块属于层级体系的第/>
Figure SMS_61
层;层级体系中节点为分层级的文本组块,节点之间的边由文本组块对表示,边上的权重由文本组块对的重要性/>
Figure SMS_64
表示。
具体地,步骤二中,文本
Figure SMS_66
的第k个文本组块/>
Figure SMS_68
表示为/>
Figure SMS_70
,其中/>
Figure SMS_67
表示文本组块/>
Figure SMS_69
中的第/>
Figure SMS_71
个单词,/>
Figure SMS_72
表示文本组块/>
Figure SMS_65
中单词的个数。
进一步地,步骤二具体包括以下步骤:
S21:计算单词
Figure SMS_73
与单词/>
Figure SMS_74
的逐点互信息/>
Figure SMS_75
Figure SMS_76
其中,
Figure SMS_77
表示单词/>
Figure SMS_81
与单词/>
Figure SMS_83
在语料库中连续出现的概率,即单词对/>
Figure SMS_79
出现的概率;/>
Figure SMS_80
表示单词/>
Figure SMS_82
出现在语料库中的概率;/>
Figure SMS_84
表示单词/>
Figure SMS_78
出现在语料库中的概率;
S22:将
Figure SMS_85
与一个预先定义的阈值/>
Figure SMS_86
比较,如果/>
Figure SMS_87
,则在单词/>
Figure SMS_88
与单词/>
Figure SMS_89
之间插入一个分隔符,如果/>
Figure SMS_90
,则不插入分隔符;
S23:使用分隔符将文本
Figure SMS_91
切分,得到文本组块集合/>
Figure SMS_92
S24:在第k个文本组块
Figure SMS_93
与第k-2个文本组块/>
Figure SMS_100
、第k-1个文本组块/>
Figure SMS_103
、第k+1个文本组块/>
Figure SMS_94
、第k+2个文本组块/>
Figure SMS_97
之间建立连接;使用/>
Figure SMS_101
维度的邻接矩阵/>
Figure SMS_104
记录连接,/>
Figure SMS_96
第k行第v列位置的值记为/>
Figure SMS_98
;如果第k个文本组块/>
Figure SMS_102
与第v个文本组块/>
Figure SMS_105
之间有连接,则/>
Figure SMS_95
,否则/>
Figure SMS_99
进一步地,步骤四中,计算文本组块
Figure SMS_106
的隐向量/>
Figure SMS_107
时:/>
Figure SMS_108
其中,
Figure SMS_109
表示最大池化方法,/>
Figure SMS_110
是文本组块/>
Figure SMS_111
的第/>
Figure SMS_112
个单词/>
Figure SMS_113
的隐向量。
进一步地,步骤五中,在注意力图卷积神经网络第
Figure SMS_114
层中计算文本组块/>
Figure SMS_115
对文本组块/>
Figure SMS_116
的权重/>
Figure SMS_117
时:
Figure SMS_118
注意力图卷积神经网络第
Figure SMS_119
层的输出隐向量即为第/>
Figure SMS_120
层的输入隐向量/>
Figure SMS_121
,在第/>
Figure SMS_122
层中计算第/>
Figure SMS_123
层的第k个输入隐向量/>
Figure SMS_124
Figure SMS_125
其中
Figure SMS_126
是激活函数,/>
Figure SMS_127
和/>
Figure SMS_128
是第/>
Figure SMS_129
层的参数。
与现有技术相比,本发明的有益技术效果是:
1.本发明从数据出发,采用自底向上的方法构建层级体系。本发明基于神经网络模型,使用完全自动的方法从数据中抽取文本组块信息构建体系节点及其连接。完全从数据出发,不依赖人工设计,易于更新,具有更好的对新数据的适应性。
2.本发明采用基于注意力图卷积神经网络的方法计算不同文本组块的重要性,实现基于重要性的体系节点分层。
附图说明
图1为本发明的模型结构示意图。
具体实施方式
下面结合附图对本发明的一种优选实施方式作详细的说明。
如图1所示,本发明的模型结构包括文本组块抽取模块、编码器、组块表征计算模块、L层的注意力图卷积神经网络、组块重要性计算模块以及层级体系构建模块六部分。
本发明的层级体系自动构建方法包括以下步骤:
S1:从语料库中抽取一段文本,并将这段文本切分为单词。其中,第i段文本
Figure SMS_130
拆分后的单词序列记为/>
Figure SMS_131
,/>
Figure SMS_132
表示第i段文本/>
Figure SMS_133
中的第j个单词,/>
Figure SMS_134
表示第i段文本/>
Figure SMS_135
中单词的总数;
S2:在文本组块抽取模块中,从第i段文本
Figure SMS_149
中抽取文本组块集合/>
Figure SMS_136
,其中,/>
Figure SMS_144
为第k个文本组块,/>
Figure SMS_138
为第i段文本/>
Figure SMS_142
中文本组块的总数。每一个文本组块/>
Figure SMS_146
是第i段文本/>
Figure SMS_150
中一个或多个连续单词组成的序列,即/>
Figure SMS_143
可以表示为/>
Figure SMS_147
,其中/>
Figure SMS_137
表示第k个文本组块/>
Figure SMS_140
中的第/>
Figure SMS_151
个单词,/>
Figure SMS_153
表示第k个文本组块/>
Figure SMS_152
中单词的个数。同时,在文本组块之间建立连接,记为邻接矩阵/>
Figure SMS_154
。其中,邻接矩阵/>
Figure SMS_139
为一个/>
Figure SMS_141
维度的矩阵,邻接矩阵/>
Figure SMS_145
第k行第v列位置的值记为/>
Figure SMS_148
步骤S2具体包括:
S21:使用下面的公式计算单词
Figure SMS_155
与单词/>
Figure SMS_156
的逐点互信息/>
Figure SMS_157
Figure SMS_158
其中,
Figure SMS_161
表示单词/>
Figure SMS_163
与单词/>
Figure SMS_164
在语料库中连续出现的概率,即单词对/>
Figure SMS_160
出现的概率;/>
Figure SMS_162
表示单词/>
Figure SMS_165
出现在语料库中的概率;/>
Figure SMS_166
表示单词/>
Figure SMS_159
出现在语料库中的概率。
S22:将
Figure SMS_167
与一个预先定义的阈值/>
Figure SMS_168
比较,如果/>
Figure SMS_169
,则在单词/>
Figure SMS_170
与单词/>
Figure SMS_171
之间插入一个分隔符,否则不插入分隔符。通过对所有单词对的逐点互信息/>
Figure SMS_172
的计算和比较,在第i段文本/>
Figure SMS_173
中插入了多个分隔符。
S23:使用分隔符将第i段文本
Figure SMS_174
切分,得到文本组块集合/>
Figure SMS_175
S24:在第k个文本组块
Figure SMS_176
与第k-2个文本组块/>
Figure SMS_182
、第k-1个文本组块/>
Figure SMS_184
、第k+1个文本组块/>
Figure SMS_177
、第k+2个文本组块/>
Figure SMS_180
之间建立连接。使用/>
Figure SMS_185
维度的邻接矩阵/>
Figure SMS_187
记录连接,邻接矩阵/>
Figure SMS_178
第k行第v列位置的值记为/>
Figure SMS_183
。如果第k个文本组块/>
Figure SMS_186
与第v个文本组块/>
Figure SMS_188
之间有连接,则/>
Figure SMS_179
,否则/>
Figure SMS_181
S3:在编码器中,把第j个单词
Figure SMS_189
转换为单词向量/>
Figure SMS_190
后,输入编码器中,经过编码处理后,得到隐向量/>
Figure SMS_191
。类似地,得到所有单词的隐向量{/>
Figure SMS_192
}。
S4:在组块表征计算模块,通过下面的公式计算第k个文本组块
Figure SMS_193
的隐向量/>
Figure SMS_194
Figure SMS_195
其中,
Figure SMS_196
表示最大池化方法,/>
Figure SMS_197
是经过编码器处理后的文本组块
Figure SMS_198
的第/>
Figure SMS_199
个单词/>
Figure SMS_200
的隐向量。类似地,得到所有文本组块的隐向量/>
Figure SMS_201
S5:在L层的注意力图卷积神经网络中,对文本组块隐向量
Figure SMS_202
和邻接矩阵A建模。其中,注意力图卷积神经网络第/>
Figure SMS_207
层的输出隐向量是第/>
Figure SMS_210
层的输入隐向量/>
Figure SMS_203
,在注意力图卷积神经网络的第l层中计算权重集合/>
Figure SMS_205
{
Figure SMS_208
},其中/>
Figure SMS_212
表示第l层中,第i段文本/>
Figure SMS_204
中第v个文本组块/>
Figure SMS_206
对第k个文本组块/>
Figure SMS_209
的权重。类似地,可以得到所有L层的权重集合/>
Figure SMS_211
步骤S5具体包括如下步骤:
S51:在第
Figure SMS_213
层中,使用下面的公式,计算第/>
Figure SMS_214
个文本组块/>
Figure SMS_215
对第/>
Figure SMS_216
个文本组块/>
Figure SMS_217
的权重/>
Figure SMS_218
Figure SMS_219
S52:在第
Figure SMS_220
层中,使用下面的公式,计算第/>
Figure SMS_221
层的第k个输入隐向量/>
Figure SMS_222
Figure SMS_223
其中
Figure SMS_224
是激活函数,/>
Figure SMS_225
和/>
Figure SMS_226
是第/>
Figure SMS_227
层的参数。
S6:在组块重要性计算模块,使用下面的公式计算第v个文本组块
Figure SMS_228
的重要性
Figure SMS_229
Figure SMS_230
同时,使用下面的公式计算第v个文本组块
Figure SMS_231
和第k个文本组块/>
Figure SMS_232
构成的文本组块对(/>
Figure SMS_233
,/>
Figure SMS_234
)的重要性/>
Figure SMS_235
Figure SMS_236
类似地,计算所有文本组块
Figure SMS_237
的重要性/>
Figure SMS_238
,以及所有文本组块对/>
Figure SMS_239
的重要性{/>
Figure SMS_240
S7:把文本组块
Figure SMS_241
以及他们的重要性/>
Figure SMS_242
记录到一个单词表/>
Figure SMS_243
中,同时,也把所有文本组块对/>
Figure SMS_244
以及他们的重要性{
Figure SMS_245
记录到单词表/>
Figure SMS_246
中。通过遍历语料库中所有的文本,单词表/>
Figure SMS_247
中记录了所有的文本组块、文本组块对以及它们的重要性。
S8:在层级体系构建模块,将单词表
Figure SMS_254
中所有同样的文本组块的重要性相加并计算平均,得到第/>
Figure SMS_250
个文本组块的重要性/>
Figure SMS_252
;将单词表/>
Figure SMS_258
中所有同样的文本组块对的重要性相加并计算平均,得到第/>
Figure SMS_262
个文本组块和第/>
Figure SMS_265
个文本组块组成的文本组块对的重要性/>
Figure SMS_268
。使用预先定义的阈值/>
Figure SMS_260
,其中/>
Figure SMS_264
把所有文本组块分为/>
Figure SMS_248
层,如果/>
Figure SMS_256
满足
Figure SMS_263
,则第/>
Figure SMS_267
个文本组块属于层级体系的第/>
Figure SMS_266
层。特别地,如果/>
Figure SMS_269
满足/>
Figure SMS_251
,则第/>
Figure SMS_253
个文本组块属于层级体系的第一层;如果/>
Figure SMS_257
满足/>
Figure SMS_261
,则第/>
Figure SMS_249
个文本组块属于层级体系的第/>
Figure SMS_255
层。至此,完成了基于文本组块的层级体系构建。层级体系中节点为分层级的文本组块,节点之间的边由文本组块对表示,边上的权重由文本组块对的重要性/>
Figure SMS_259
表示。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内,不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立技术方案,说明书的这种叙述方式仅仅是为了清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (5)

1.一种基于文本组块的层级体系自动构建方法,为给定语料库构建层级体系,包括以下步骤:
步骤一:从语料库中取出若干段文本,并将每段文本切分为单词;其中,第i段文本
Figure QLYQS_1
切分后的单词序列记为/>
Figure QLYQS_2
,/>
Figure QLYQS_3
表示文本/>
Figure QLYQS_4
中的第j个单词,/>
Figure QLYQS_5
表示文本/>
Figure QLYQS_6
中单词的总数;
步骤二、文本组块抽取:对于各段文本
Figure QLYQS_8
,从文本/>
Figure QLYQS_10
中抽取/>
Figure QLYQS_12
个文本组块,组成文本组块集合/>
Figure QLYQS_9
,其中/>
Figure QLYQS_11
为文本/>
Figure QLYQS_13
的第k个文本组块,文本组块为文本中一个或多个连续单词组成的序列;在文本组块之间建立连接,得到/>
Figure QLYQS_14
维度的邻接矩阵/>
Figure QLYQS_7
步骤三、编码:将文本
Figure QLYQS_15
各单词/>
Figure QLYQS_16
的单词向量/>
Figure QLYQS_17
输入编码器中,得到单词
Figure QLYQS_18
的隐向量/>
Figure QLYQS_19
步骤四、文本组块表征:通过最大池化方法由单词的隐向量计算文本
Figure QLYQS_20
各文本组块
Figure QLYQS_21
的隐向量/>
Figure QLYQS_22
步骤五:通过L层的注意力图卷积神经网络,对文本
Figure QLYQS_23
中文本组块的隐向量以及邻接矩阵A进行建模;在注意力图卷积神经网络第/>
Figure QLYQS_24
层中,计算得到文本/>
Figure QLYQS_25
中第v个文本组块/>
Figure QLYQS_26
对第k个文本组块/>
Figure QLYQS_27
的权重/>
Figure QLYQS_28
,/>
Figure QLYQS_29
步骤六、文本组块重要性计算:计算文本
Figure QLYQS_31
中第v个文本组块/>
Figure QLYQS_34
的重要性/>
Figure QLYQS_38
Figure QLYQS_32
;计算文本/>
Figure QLYQS_35
中第v个文本组块/>
Figure QLYQS_37
和第k个文本组块/>
Figure QLYQS_39
构成的文本组块对(/>
Figure QLYQS_30
,/>
Figure QLYQS_33
)的重要性/>
Figure QLYQS_36
:/>
Figure QLYQS_40
步骤七:将文本
Figure QLYQS_41
各文本组块及文本组块的重要性、各文本组块对及文本组块对的重要性记录到单词表V中;
步骤八、层级体系构建:将单词表
Figure QLYQS_42
中所有相同文本组块的重要性相加并计算平均,得到第/>
Figure QLYQS_45
个文本组块的重要性/>
Figure QLYQS_47
;将单词表/>
Figure QLYQS_43
中所有相同文本组块对的重要性相加并计算平均,得到第/>
Figure QLYQS_46
个文本组块和第/>
Figure QLYQS_48
个文本组块组成的文本组块对的重要性/>
Figure QLYQS_49
;/>
Figure QLYQS_44
为单词表V中所有不相同的文本组块的总数;
使用预先定义的阈值
Figure QLYQS_51
,其中/>
Figure QLYQS_54
,把所有文本组块分为/>
Figure QLYQS_57
层;如果/>
Figure QLYQS_52
满足/>
Figure QLYQS_58
,则第/>
Figure QLYQS_61
个文本组块属于层级体系的第/>
Figure QLYQS_64
层;如果/>
Figure QLYQS_50
满足
Figure QLYQS_55
,则第/>
Figure QLYQS_59
个文本组块属于层级体系的第一层;如果/>
Figure QLYQS_62
满足/>
Figure QLYQS_53
,则第/>
Figure QLYQS_56
个文本组块属于层级体系的第/>
Figure QLYQS_60
层;层级体系中节点为分层级的文本组块,节点之间的边由文本组块对表示,边上的权重由文本组块对的重要性/>
Figure QLYQS_63
表示。/>
2.根据权利要求1所述的基于文本组块的层级体系自动构建方法,其特征在于,步骤二中,文本
Figure QLYQS_66
的第k个文本组块/>
Figure QLYQS_68
表示为/>
Figure QLYQS_71
,其中/>
Figure QLYQS_67
表示文本组块/>
Figure QLYQS_69
中的第/>
Figure QLYQS_70
个单词,/>
Figure QLYQS_72
表示文本组块/>
Figure QLYQS_65
中单词的个数。
3.根据权利要求1所述的基于文本组块的层级体系自动构建方法,其特征在于:步骤二具体包括以下步骤:
S21:计算单词
Figure QLYQS_73
与单词/>
Figure QLYQS_74
的逐点互信息/>
Figure QLYQS_75
Figure QLYQS_76
其中,
Figure QLYQS_77
表示单词/>
Figure QLYQS_80
与单词/>
Figure QLYQS_82
在语料库中连续出现的概率,即单词对
Figure QLYQS_79
出现的概率;/>
Figure QLYQS_81
表示单词/>
Figure QLYQS_83
出现在语料库中的概率;/>
Figure QLYQS_84
表示单词
Figure QLYQS_78
出现在语料库中的概率;
S22:将
Figure QLYQS_85
与一个预先定义的阈值/>
Figure QLYQS_86
比较,如果/>
Figure QLYQS_87
,则在单词/>
Figure QLYQS_88
与单词/>
Figure QLYQS_89
之间插入一个分隔符,如果/>
Figure QLYQS_90
,则不插入分隔符;
S23:使用分隔符将文本
Figure QLYQS_91
切分,得到文本组块集合/>
Figure QLYQS_92
S24:在第k个文本组块
Figure QLYQS_93
与第k-2个文本组块/>
Figure QLYQS_96
、第k-1个文本组块/>
Figure QLYQS_97
、第k+1个文本组块/>
Figure QLYQS_94
、第k+2个文本组块/>
Figure QLYQS_98
之间建立连接;使用/>
Figure QLYQS_101
维度的邻接矩阵
Figure QLYQS_102
记录连接,/>
Figure QLYQS_99
第k行第v列位置的值记为/>
Figure QLYQS_103
;如果第k个文本组块/>
Figure QLYQS_104
与第v个文本组块
Figure QLYQS_105
之间有连接,则/>
Figure QLYQS_95
,否则/>
Figure QLYQS_100
4.根据权利要求1所述的基于文本组块的层级体系自动构建方法,其特征在于:步骤四中,计算文本组块
Figure QLYQS_106
的隐向量/>
Figure QLYQS_107
时:
Figure QLYQS_108
其中,
Figure QLYQS_109
表示最大池化方法,/>
Figure QLYQS_110
是文本组块/>
Figure QLYQS_111
的第/>
Figure QLYQS_112
个单词/>
Figure QLYQS_113
的隐向量。
5.根据权利要求1所述的基于文本组块的层级体系自动构建方法,其特征在于:步骤五中,在注意力图卷积神经网络第
Figure QLYQS_114
层中计算文本组块/>
Figure QLYQS_115
对文本组块/>
Figure QLYQS_116
的权重/>
Figure QLYQS_117
时:
Figure QLYQS_118
注意力图卷积神经网络第
Figure QLYQS_119
层的输出隐向量即为第/>
Figure QLYQS_120
层的输入隐向量/>
Figure QLYQS_121
,在第/>
Figure QLYQS_122
层中计算第/>
Figure QLYQS_123
层的第k个输入隐向量/>
Figure QLYQS_124
Figure QLYQS_125
;/>
其中
Figure QLYQS_126
是激活函数,/>
Figure QLYQS_127
和/>
Figure QLYQS_128
是第/>
Figure QLYQS_129
层的参数。/>
CN202310455626.0A 2023-04-25 2023-04-25 一种基于文本组块的层级体系自动构建方法 Active CN116187419B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310455626.0A CN116187419B (zh) 2023-04-25 2023-04-25 一种基于文本组块的层级体系自动构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310455626.0A CN116187419B (zh) 2023-04-25 2023-04-25 一种基于文本组块的层级体系自动构建方法

Publications (2)

Publication Number Publication Date
CN116187419A true CN116187419A (zh) 2023-05-30
CN116187419B CN116187419B (zh) 2023-08-29

Family

ID=86434815

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310455626.0A Active CN116187419B (zh) 2023-04-25 2023-04-25 一种基于文本组块的层级体系自动构建方法

Country Status (1)

Country Link
CN (1) CN116187419B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111259672A (zh) * 2020-02-12 2020-06-09 新疆大学 基于图卷积神经网络的中文旅游领域命名实体识别方法
CN113420154A (zh) * 2021-08-25 2021-09-21 成都索贝数码科技股份有限公司 基于层次注意的分层多标签文本分类模型的构建方法
CN113988083A (zh) * 2021-11-17 2022-01-28 上海海事大学 一种用于航运新闻摘要生成的事实性信息编码与评估方法
CN114254110A (zh) * 2021-12-16 2022-03-29 胜斗士(上海)科技技术发展有限公司 用于确定文本数据的标签的方法和设备
EP4009221A1 (en) * 2020-12-04 2022-06-08 Airesearch S.r.l. Method for automatic processing of natural language by means of artificial intelligence
CN114896388A (zh) * 2022-03-07 2022-08-12 武汉理工大学 一种基于混合注意力的层级多标签文本分类方法
CN115048510A (zh) * 2022-02-17 2022-09-13 东南大学 基于层级式法律知识与双图联合表示学习的罪名预测方法
US20220405480A1 (en) * 2021-06-22 2022-12-22 Jinan University Text sentiment analysis method based on multi-level graph pooling
US20230092274A1 (en) * 2021-09-21 2023-03-23 International Business Machines Corporation Training example generation to create new intents for chatbots
CN115841119A (zh) * 2023-02-21 2023-03-24 中国科学技术大学 一种基于图结构的情绪原因提取方法
CN115858788A (zh) * 2022-12-19 2023-03-28 福州大学 基于双重图卷积神经网络的视角级文本情感分类系统
CN115858793A (zh) * 2023-02-20 2023-03-28 知呱呱(天津)大数据技术有限公司 基于图注意力机制的专利多层级分类方法及计算机设备

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111259672A (zh) * 2020-02-12 2020-06-09 新疆大学 基于图卷积神经网络的中文旅游领域命名实体识别方法
EP4009221A1 (en) * 2020-12-04 2022-06-08 Airesearch S.r.l. Method for automatic processing of natural language by means of artificial intelligence
US20220405480A1 (en) * 2021-06-22 2022-12-22 Jinan University Text sentiment analysis method based on multi-level graph pooling
CN113420154A (zh) * 2021-08-25 2021-09-21 成都索贝数码科技股份有限公司 基于层次注意的分层多标签文本分类模型的构建方法
US20230092274A1 (en) * 2021-09-21 2023-03-23 International Business Machines Corporation Training example generation to create new intents for chatbots
CN113988083A (zh) * 2021-11-17 2022-01-28 上海海事大学 一种用于航运新闻摘要生成的事实性信息编码与评估方法
CN114254110A (zh) * 2021-12-16 2022-03-29 胜斗士(上海)科技技术发展有限公司 用于确定文本数据的标签的方法和设备
CN115048510A (zh) * 2022-02-17 2022-09-13 东南大学 基于层级式法律知识与双图联合表示学习的罪名预测方法
CN114896388A (zh) * 2022-03-07 2022-08-12 武汉理工大学 一种基于混合注意力的层级多标签文本分类方法
CN115858788A (zh) * 2022-12-19 2023-03-28 福州大学 基于双重图卷积神经网络的视角级文本情感分类系统
CN115858793A (zh) * 2023-02-20 2023-03-28 知呱呱(天津)大数据技术有限公司 基于图注意力机制的专利多层级分类方法及计算机设备
CN115841119A (zh) * 2023-02-21 2023-03-24 中国科学技术大学 一种基于图结构的情绪原因提取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BINGLIANG CHEN 等: "A Novel Bi-Branch Graph Convolutional Neural Network for Aspect Level Sentiment Classification", 《2021 INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS (IJCNN)》 *
陆晓蕾 等: "基于预训练语言模型的BERT-CNN多层级专利分类研究", 《中文信息学报》, vol. 35, no. 11 *

Also Published As

Publication number Publication date
CN116187419B (zh) 2023-08-29

Similar Documents

Publication Publication Date Title
US11748628B2 (en) Method for optimizing reservoir operation for multiple objectives based on graph convolutional neural network and NSGA-II algorithm
CN108985515B (zh) 一种基于独立循环神经网络的新能源出力预测方法及系统
CN112508192B (zh) 一种具有深度结构的增量堆叠式宽度学习系统
CN105303450A (zh) 基于谱聚类改进交叉的复杂网络社区发现方法
CN107832753B (zh) 一种基于四值权重与多重分类的人脸特征提取方法
CN111753207A (zh) 一种基于评论的神经图协同过滤模型
Hacker k-simplex2vec: a simplicial extension of node2vec
CN109740039A (zh) 基于栈式自编码器的动态网络社团结构识别方法
CN112860904A (zh) 一种融入外部知识的生物医疗关系抽取方法
CN113641854B (zh) 一种将文字转化为视频的方法及系统
CN114880538A (zh) 基于自监督的属性图社团检测方法
CN116187419B (zh) 一种基于文本组块的层级体系自动构建方法
CN105373846A (zh) 基于分级策略的油气集输管网拓扑结构智能优化方法
CN117273409A (zh) 一种园区智慧化环保系统智能运维方法、系统及存储介质
CN113051408A (zh) 一种基于信息增强的稀疏知识图谱推理方法
CN116883746A (zh) 一种基于分区池化超图神经网络的图节点分类方法
CN114168782B (zh) 一种基于三元组网络的深度哈希图像检索方法
CN111160077A (zh) 一种大规模人脸动态聚类方法
Ngoc Phien et al. A comparison between deep belief network and LSTM in chaotic time series forecasting
CN113792919A (zh) 一种基于迁移学习深度学习相结合的风电功率预测方法
CN113094945A (zh) 一种sa-beso联合拓扑优化方法
CN113283043A (zh) 一种适用于高维大规模场景的场景约简求解方法
CN113190662A (zh) 基于篇章结构图网络的话题分割方法
CN110737777A (zh) 一种基于ghsom算法的知识地图构建方法
CN109993304A (zh) 一种基于语义分割的检测模型压缩方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant