CN113836308A - 网络大数据长文本多标签分类方法、系统、设备及介质 - Google Patents

网络大数据长文本多标签分类方法、系统、设备及介质 Download PDF

Info

Publication number
CN113836308A
CN113836308A CN202111417986.9A CN202111417986A CN113836308A CN 113836308 A CN113836308 A CN 113836308A CN 202111417986 A CN202111417986 A CN 202111417986A CN 113836308 A CN113836308 A CN 113836308A
Authority
CN
China
Prior art keywords
word
vector
data
text
text data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111417986.9A
Other languages
English (en)
Other versions
CN113836308B (zh
Inventor
李芳芳
苏朴真
龙军
陈先来
徐雪松
毛星亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Dademaning Information Technology Co ltd
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202111417986.9A priority Critical patent/CN113836308B/zh
Publication of CN113836308A publication Critical patent/CN113836308A/zh
Application granted granted Critical
Publication of CN113836308B publication Critical patent/CN113836308B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开实施例中提供了一种网络大数据长文本多标签分类方法、系统、设备及介质,属于数据处理技术领域,具体包括:获取原始数据集;对原始数据集进行分析构建每个标签对应的关键词表后进行预处理,得到文本数据;将文本数据转换为字向量和词向量,并计算文本数据内不同词对应的位置向量;得到嵌入向量;将嵌入向量输入空洞门卷积层进行编码,得到编码向量;根据自注意力机制模型提取编码向量的特征,得到文本数据中每个词的关联性,并形成分类结果。通过本公开的方案,通过构建关键词表将多标签长文本分割,并将文本数据转换为不同向量后进行编码,再利用自注意力机制提取特征得到每个词的关联性,形成分类结果,提高了分类效率和精准度。

Description

网络大数据长文本多标签分类方法、系统、设备及介质
技术领域
本公开实施例涉及数据处理技术领域,尤其涉及一种网络大数据长文本多标签分类方法、系统、设备及介质。
背景技术
目前,互联网时代的到来给大数据治理带来了一系列新的挑战,但由于网络大数据中的数据范围过于宽泛,对于不同类别的网络大数据的处理方式不尽相同,所以网络大数据的快速分流、分类处理,对于下一步的大数据分析和进一步处理来说至关重要,目前基于传统神经网络的方法在常见的网络大数据多标签分类中有着不错的效果。其中LSTM适用于短文本网络大数据,TextCNN则是适用于较长文本的网络大数据,但是当面临着文档级的网络大数据,常见的基于传统神经网络的方法的效果就明显下降,主要体现在以下三个方面:
基于传统神经网络模型的方法,通常来说处理过长文本时采取的方法为首部截断、尾部截断、首尾截断,但是网络大数据普遍长度较长,同时关键信息分布不均匀,如果进行传统方式的截断将会导致部分数据丢失关键信息,从而使得模型无法进行有效分类。
传统的神经网络模型在面对超长文本时,LSTM对于很遥远以前的“记忆”变得无足轻重了,导致位于序列前部的关键信息无法进行长距离的传递,所以导致LSTM失去其在短文本任务中的效果。而普通的TextCnn又受感受野的限制,无法将获得分散的关键信息,从而导致整体的模型效果表现不佳。
在传统的多标签文本分类任务中,通常会采用全连接层或者卷积层以及池化层来对于编码层输出的特征向量进行特征的提取,但是采用这样单一的结构来对特征进行提取时并没有考虑特征向量中词语词之间的语义关系、重要程度等因素,而是“无注意力”的对输出的特征向量进行提取,这样的结构往往会导致特征提取的效果并不理想,没有充分利用文本中的关键信息,从而对模型的精度和性能带来了一定的影响。
可见,亟需一种精准高效的网络大数据长文本多标签分类方法。
发明内容
有鉴于此,本公开实施例提供一种网络大数据长文本多标签分类方法、系统、设备及介质,至少部分解决现有技术中存在分类效率和分类精准度较差的问题。
第一方面,本公开实施例提供了一种网络大数据长文本多标签分类方法,包括:
获取网络大数据中对应的包含多标签长文本的原始数据集;
对所述原始数据集进行分析构建每个所述标签对应的关键词表后进行预处理,得到文本数据;
将所述文本数据转换为字向量和词向量,并计算所述文本数据内不同词对应的位置向量;
将所述字向量、所述词向量和所述位置向量融合,得到嵌入向量;
将所述嵌入向量输入空洞门卷积层进行编码,得到编码向量;
根据自注意力机制模型提取所述编码向量的特征,得到所述文本数据中每个词的关联性,并输入卷积神经网络和全连接层形成分类结果。
根据本公开实施例的一种具体实现方式,所述对所述原始数据集进行分析构建每个所述标签对应的关键词表后进行预处理,得到文本数据的步骤,包括:
根据预设的分句函数对每个所述标签内的长文本进行分句操作,得到分句数据;
将所述分句数据进行jieba分词操作,得到分词数据;
根据所述分词数据生成所述关键词表;
根据所述关键词表,将所述分词数据与阈值进行比对,并选取对应的操作类型,得到所述文本数据,其中,所述操作类型包括关键词提取拼接操作和关键词填充操作的任一种。
根据本公开实施例的一种具体实现方式,所述根据所述分词数据生成所述关键词表的步骤,包括:
根据所述分词数据进行词频-逆向文件频率统计,生成初始词表;
根据预设条件对所述初始词表中的全部词汇进行筛选和添加,得到所述关键词表。
根据本公开实施例的一种具体实现方式,所述将所述文本数据转换为字向量和词向量,并计算所述文本数据内不同词对应的位置向量的步骤,包括:
根据预设模型和所述关键词表训练所述文本数据,得到所述词向量;
将所述词向量对应的文本按字分割并得到所述字向量;
将所述词向量和所述字向量融合后,根据词语在句子中的位置计算所述位置向量。
根据本公开实施例的一种具体实现方式,所述空洞门卷积层包括多层堆叠的空洞卷积结构,每层所述空洞卷积结构的膨胀率依次为1,2,4,8,且最后一层所述空洞卷积结构的膨胀率为1。
根据本公开实施例的一种具体实现方式,所述将所述嵌入向量输入空洞门卷积层进行编码,得到编码向量的步骤,包括:
将所述嵌入向量输入多层所述空洞卷积结构,学习所述文本数据中的信息,形成所述编码向量。
第二方面,本公开实施例提供了一种网络大数据长文本多标签分类系统,包括:
获取模块,用于获取网络大数据中对应的包含多标签长文本的原始数据集;
预处理模块,用于对所述原始数据集进行分析构建每个所述标签对应的关键词表后进行预处理,得到文本数据;
转换模块,用于将所述文本数据转换为字向量和词向量,并计算所述文本数据内不同词对应的位置向量;
融合模块,用于将所述字向量、所述词向量和所述位置向量融合,得到嵌入向量;
编码模块,用于将所述嵌入向量输入空洞门卷积层进行编码,得到编码向量;
分类模块,用于根据自注意力机制模型提取所述编码向量的特征,得到所述文本数据中每个词的关联性,并输入卷积神经网络和全连接层形成分类结果。
第三方面,本公开实施例还提供了一种电子设备,该电子设备包括:
至少一个处理器;以及,
与该至少一个处理器通信连接的存储器;其中,
该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行前述第一方面或第一方面的任一实现方式中的网络大数据长文本多标签分类方法。
第四方面,本公开实施例还提供了一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质存储计算机指令,该计算机指令用于使该计算机执行前述第一方面或第一方面的任一实现方式中的网络大数据长文本多标签分类方法。
第五方面,本公开实施例还提供了一种计算机程序产品,该计算机程序产品包括存储在非暂态计算机可读存储介质上的计算程序,该计算机程序包括程序指令,当该程序指令被计算机执行时,使该计算机执行前述第一方面或第一方面的任一实现方式中的网络大数据长文本多标签分类方法。
本公开实施例中的网络大数据长文本多标签分类方案,包括:获取网络大数据中对应的包含多标签长文本的原始数据集;对所述原始数据集进行分析构建每个所述标签对应的关键词表后进行预处理,得到文本数据;将所述文本数据转换为字向量和词向量,并计算所述文本数据内不同词对应的位置向量;将所述字向量、所述词向量和所述位置向量融合,得到嵌入向量;将所述嵌入向量输入空洞门卷积层进行编码,得到编码向量;根据自注意力机制模型提取所述编码向量的特征,得到所述文本数据中每个词的关联性,并输入卷积神经网络和全连接层形成分类结果。
本公开实施例的有益效果为:通过本公开的方案,通过构建关键词表对多标签长文本进行分割,得到文本数据,并将文本数据转换为不同向量后进行编码,然后利用自注意力机制提取特征,得到每个词的关联性,并输入卷积神经网络和全连接层形成分类结果,提高了分类的效率和精准度。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本公开实施例提供的一种网络大数据长文本多标签分类方法的流程示意图;
图2为本公开实施例提供的一种自注意力机制结构示意图;
图3为本公开实施例提供的一种关键词对应自注意力机制计算过程示意图;
图4为本公开实施例提供的一种完整自注意力机制计算过程示意图;
图5为本公开实施例提供的一种普通卷积和空洞卷积的对比图;
图6为本公开实施例提供的一种空洞门卷积结构示意图;
图7为本公开实施例提供的一种网络大数据长文本多标签分类系统的结构示意图;
图8为本公开实施例提供的电子设备示意图。
具体实施方式
下面结合附图对本公开实施例进行详细描述。
以下通过特定的具体实例说明本公开的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本公开的其他优点与功效。显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。本公开还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本公开的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
需要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
还需要说明的是,以下实施例中所提供的图示仅以示意方式说明本公开的基本构想,图式中仅显示与本公开中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
另外,在以下描述中,提供具体细节是为了便于透彻理解实例。然而,所属领域的技术人员将理解,可在没有这些特定细节的情况下实践所述方面。
本公开实施例提供一种网络大数据长文本多标签分类方法,所述方法可以应用于网络大数据处理场景的长文本标签分类过程。
参见图1,为本公开实施例提供的一种网络大数据长文本多标签分类方法的流程示意图。如图1所示,所述方法主要包括以下步骤:
S101,获取网络大数据中对应的包含多标签长文本的原始数据集;
例如,当本公开的应用场景为教育行业时,则可以在需要对大数据进行分类时,收集对应的新闻信息,并将获取到的教育大数据中对应的包含多标签长文本的原始数据集。当然,本公开实施例提供的网络大数据长文本多标签分类方法可以还可以应用于其他领域内的网络大数据处理过程,例如可以对环保大数据、工业大数据或者医学大数据进行处理,在此不再进行赘述。
S102,对所述原始数据集进行分析构建每个所述标签对应的关键词表后进行预处理,得到文本数据;
具体实施时,考虑到所述原始数据集中可能包含了无效数据和干扰数据,以及,现有的对长文本的分割方法为首部截断、尾部截断或者首尾截断,但仍然会丢失一些句子中的文本特征,模型也会缺失对最终分类的起到帮助的特征信息,则可以先对所述原始数据集进行分析构建每个所述标签对应的关键词表,然后根据所述关键词表对每个所述标签对应的长文本进行预处理,将长文本分割后得到所述文本数据。
S103,将所述文本数据转换为字向量和词向量,并计算所述文本数据内不同词对应的位置向量;
考虑到所述文本数据中的不同数据会携带不同的信息特征,则可以将所述文本数据转换为字向量和词向量,并计算所述文本数据内不同词对应的位置向量,从而得到更全面的特征信息。
S104,将所述字向量、所述词向量和所述位置向量融合,得到嵌入向量;
具体实施时,考虑到单单是字向量所能携带的文本特征过于贫瘠,以及采用不同的分词工具对文本进行切割分词生成的词不完全一致,同时文本中的位置信息对于关系推理也有着不可忽视的作用,在得到所述字向量、所述词向量和所述位置向量后,可以将所述字向量、所述词向量和所述位置向量融合,得到所述嵌入向量,以使得生成的嵌入向量同时具有字向量灵活、简单的优势又能携带更为充足的语义、位置特征。
S105,将所述嵌入向量输入空洞门卷积层进行编码,得到编码向量;
具体实施时,在得到所述嵌入向量后,可以将所述嵌入向量输入空洞门卷积层进行编码,得到所述编码向量,以使得整个编码向量能够囊括更多文本中的有用信息、使得特征向量的信息更为丰富。
S106,根据自注意力机制模型提取所述编码向量的特征,得到所述文本数据中每个词的关联性,并输入卷积神经网络和全连接层形成分类结果。
具体实施时,所述自注意力机制的结构如图2所示,考虑到在得到所述编码向量后,就需要对所述编码向量中的特征进行提取然后进行下一步任务,而相比于其它深度学习网络结构,自注意力机制则可以一步到位的获得到全局特征信息,可以根据自注意力机制模型提取所述编码向量的特征,得到所述文本数据中每个词的关联性,并输入卷积神经网络和全连接层,形成所述分类结果。
例如,首先针对(query、key、value)三个矩阵的值进行求值,
Figure 427456DEST_PATH_IMAGE001
Figure 79017DEST_PATH_IMAGE002
Figure 265279DEST_PATH_IMAGE003
分别由Query、Key、Value这三个来自同一输入的序列与其相对应的
Figure 457226DEST_PATH_IMAGE004
Figure 678123DEST_PATH_IMAGE005
Figure 31744DEST_PATH_IMAGE006
矩阵相乘得到,然后计算
Figure 705302DEST_PATH_IMAGE001
Figure 576306DEST_PATH_IMAGE002
之间的点乘,同时引入一个尺度指标
Figure 182868DEST_PATH_IMAGE007
Figure 972969DEST_PATH_IMAGE008
为一个query和key向量的维度)以防止点乘结果过大。然后再输入到激活函数Softmax中并与矩阵
Figure 133823DEST_PATH_IMAGE009
相乘得到权重求和的表示。具体公式如下所示:
Figure 401994DEST_PATH_IMAGE010
可以看出,抛开激活函数Softmax不看,事实上self-attention本质上就是
Figure 659800DEST_PATH_IMAGE001
Figure 493239DEST_PATH_IMAGE002
Figure 266023DEST_PATH_IMAGE003
的乘积,最后得到了一个维度为
Figure 213250DEST_PATH_IMAGE011
的矩阵。也就是说Self-Attention机制将一个维度为
Figure 387880DEST_PATH_IMAGE011
的序列Q编码成了一个全新的维度为
Figure 129571DEST_PATH_IMAGE011
的序列。简单来说自注意力机制中
Figure 592913DEST_PATH_IMAGE002
Figure 202886DEST_PATH_IMAGE003
是一一对应的,就如同键值对key-value之间的关系,而自注意力机制则是通过
Figure 107388DEST_PATH_IMAGE001
来与每个
Figure 410193DEST_PATH_IMAGE002
来做内积或点积并且通过Softmax激活函数的方式来得到
Figure 767356DEST_PATH_IMAGE001
Figure 446599DEST_PATH_IMAGE003
的相似度,然后加权求和,得到一个
Figure 205608DEST_PATH_IMAGE012
维的向量。这一过程从本质上说就是计算
Figure 679315DEST_PATH_IMAGE001
对应的词和
Figure 523774DEST_PATH_IMAGE003
对应的词之间的相关性。举例来说,对于“校园”一词所对应的Self-Attention机制计算过程如图3所示。根据图4可以很清晰明了的看出对于词“校园”所对应的输出序列编码已经充分的计算了“校园”这个词与输入句子中每个词之间的相关性,融入了整体的特征,那么以点概面到每一个词就可以得到完整的自注意力机制的计算过程,具体过程如图4所示。当然,若是对环保大数据进行处理,则可以计算“污水”一词所应的Self-Attention机制,然后根据“污水”一词所对应的输出序列编码计算了“污水”这个词与输入句子中每个词之间的相关性,融入整体的特征,那么以点概面到每一个词就可以得到完整的自注意力机制的算过程得到精准的分类结果。
本实施例提供的网络大数据长文本多标签分类方法,通过构建关键词表对多标签长文本进行分割,得到文本数据,并将文本数据转换为不同向量后进行编码,然后利用自注意力机制提取特征,得到每个词的关联性,并输入卷积神经网络和全连接层形成分类结果,提高了分类的效率和精准度。
在上述实施例的基础上,步骤S102所述的,对所述原始数据集进行分析构建每个所述标签对应的关键词表后进行预处理,得到文本数据,包括:
根据预设的分句函数对每个所述标签内的长文本进行分句操作,得到分句数据;
将所述分句数据进行jieba分词操作,得到分词数据;
根据所述分词数据生成所述关键词表;
根据所述关键词表,将所述分词数据与阈值进行比对,并选取对应的操作类型,得到所述文本数据,其中,所述操作类型包括关键词提取拼接操作和关键词填充操作的任一种。
例如,考虑到大部分数据的长度均超过了常规文本分类 任务所涉及的文本长度,同时在大数据中又含有较多无关、噪声数据,如果不加以处理直接进行字嵌入、词嵌入等操作会导致整个编码向量冗长且信息熵较低,由此需要对原始数据进行一系列预处理。可以采用根据特殊标点符号
Figure 475549DEST_PATH_IMAGE013
作为分句函数进行对长文本的初步切分,得到所述分句数据。然后可以采用jieba分词对经过分句之后的句子再进行进一步的分词,并且筛选出属于停用词表中的停用词、标点符号等噪声词,得到初步精简后的文本形成所述分词数据。
同时,可以根据所述分词数据自动生成所述关键词表,便于进行关键词提取,考虑到超长文本通常长度都大于512,故经过分句、分词等操作之后,文本长度仍然很常,同时也可能出现将短文本过度剪枝的情况,则可以根据所述关键词表,将所述分词数据与阈值进行比对,并选取对应的操作类型,得到所述文本数据,例如对于文本长度超过设定阈值的文本,进行关键词筛选,即根据关键词定位函数,确定当前标签对应关键词表中的关键词在文本中的位置,再根据抽取函数将关键词周围长度为X的2*X+1个词从文本中抽出并将当前文本抽取出的文本进行拼接。对于文本长度低于设定阈值的文本,进行关键词填充,关键词定位方式与之前相同,但不进行关键词抽取,而是将关键词周围长度为X的2*X+1个词直接填充到当前文本的尾部,从而生成所述文本数据。
进一步的,所述根据所述分词数据生成所述关键词表的步骤,包括:
根据所述分词数据进行词频-逆向文件频率统计,生成初始词表;
根据预设条件对所述初始词表中的全部词汇进行筛选和添加,得到所述关键词表。
例如,可以对每一个所述标签所对应的数据进行整合,并对每一个所述标签所整合后的数据进行jieba分词,通过TF-IDF进行词频、逆向文件频率统计,得到高权重的TF-IDF从而生成初步的关键词表。其中词频、逆向文件频率计算过程如下所示:
Figure 682540DEST_PATH_IMAGE014
Figure 202514DEST_PATH_IMAGE015
TF词频(Term frequency)表示的是关键词在某一文本中出现的频率。
Figure 658903DEST_PATH_IMAGE016
可以视为某一词在某一文本中出现的次数与该文本中所有词出现的总数之比,
Figure 286806DEST_PATH_IMAGE017
表示关键词在文件
Figure 145041DEST_PATH_IMAGE018
中的出现次数,分母表示在文件
Figure 835916DEST_PATH_IMAGE018
中所有词出现的总数。IDF逆向文件频率(InverseDocument Frequency)表示的是关键词所具备的类别区分能力。
Figure 779601DEST_PATH_IMAGE019
可以视为总文件数目与包含当前关键词的文件的数目之比取对数,
Figure 214125DEST_PATH_IMAGE020
表示数据中文件总数,
Figure 926866DEST_PATH_IMAGE021
表示包含关键词
Figure 523064DEST_PATH_IMAGE022
的文件总数。
然后根据生成的初始词表,可以根据预设的标准进行进一步的判断和筛选,并根据经验适当添加符合标签的、人为构造的关键词到关键词表中,至此每一个标签所对应的关键词表就构建完成。
在上述实施例的基础上,步骤S103所述的,将所述文本数据转换为字向量和词向量,并计算所述文本数据内不同词对应的位置向量,包括:
根据预设模型和所述关键词表训练所述文本数据,得到所述词向量;
将所述词向量对应的文本按字分割并得到所述字向量;
将所述词向量和所述字向量融合后,根据词语在句子中的位置计算所述位置向量。
例如,可以采用预设的模型例如采用ngram2vec和所述关键词表训练所述文本数据进行分词,然后将分词后的文本转化为对应的词向量、将以字为单位的文本按字分割并转化为对应字向量,在分别得到所述字向量和所述词向量的表示之后,可以直接将两者相加得到字词融合Embedding。然后进行对位置向量的计算。对于所述位置向量,可以采用
Figure 688466DEST_PATH_IMAGE023
Figure 926680DEST_PATH_IMAGE024
函数进行计算,计算过程如下所示:
Figure 759507DEST_PATH_IMAGE025
Figure 854502DEST_PATH_IMAGE026
其中,
Figure 648145DEST_PATH_IMAGE027
为位置向量的长度,
Figure 549105DEST_PATH_IMAGE028
为词语的位置,
Figure 846226DEST_PATH_IMAGE029
则代表词语的维度。其本质是将一个句子中位置为pos的词语转换成一个
Figure 174439DEST_PATH_IMAGE027
维的位置向量,这个向量中第i个值为PE。
考虑到Embedding其实是以one hot向量作为输入的一层全连接。则将上述步骤的结果进行相加则可以视为是其one hot特征的Concatenate,则在得到所述字向量、所述词向量和所述位置向量后,可以将其直接进行ADD相加的操作,得到所述嵌入向量。
可选的,所述空洞门卷积层包括多层堆叠的空洞卷积结构,其中,每层所述空洞卷积结构的膨胀率依次为1,2,4,8,且最后一层所述空洞卷积结构的膨胀率为1。
进一步的,步骤S105所述的,将所述嵌入向量输入空洞门卷积层进行编码,得到编码向量,包括:
将所述嵌入向量输入多层所述空洞卷积结构,学习所述文本数据中的信息,形成所述编码向量。
具体实施时,考虑到在教育大数据中的多标签文本分类乃至自然语言处理中的诸多任务重,大部分的流程是将自然语言文本进行分词处理,之后再把每个词通过Embedding生成一一对应的词向量序列。所以对于每一个自然语言文本都有一个与之对应的矩阵
Figure 986537DEST_PATH_IMAGE030
,其中
Figure 894450DEST_PATH_IMAGE031
。这样一来,所面临的问题就是如何对词向量序列进行编码了,采用空洞门卷积结构,教育大数据中的多标签文本分类多以TextCnn为主体思路进行模型的设计,但对于长文本来说,普通的TextCnn往往受到感受野的限制,对于特征的提取能力有限。则可以采用空洞门卷积结构来对TextCnn进行改进,空洞门卷积包括空洞卷积以及门机制,与常见的卷积进行对比可以明确的发现,空洞卷积在膨胀率(dilationrate)上有着不同,如图5所示,其中(a)为常见的卷积图,(b)为空洞卷积图。
根据图5可以看出常见卷积在各个层级上的各个神经元只能获取到上层前后距离为3的神经元信息,而与其他距离的信息失之交臂。但空洞卷积的,每一层节点可以根据dilation rate进行放大,在第三层上的神经元能够获取到上一层前后距离为5的神经元信息。在此基础上,可以采用门机制,原始的门机制采用的是简单Embedding与GLU、CNN以及Attention相结合的结构。在沿用这一结构的基础上,将普通的CNN替换成空洞卷积,在原有的门机制:
Figure 144664DEST_PATH_IMAGE032
上增加了CNN:
Figure 643778DEST_PATH_IMAGE033
其中:
Figure 772534DEST_PATH_IMAGE034
考虑到
Figure 418891DEST_PATH_IMAGE035
没有加
Figure 487341DEST_PATH_IMAGE036
(Sigmoid)作为激活函数,所以可以将其视为一个线性变换的过程,则可以将
Figure 157357DEST_PATH_IMAGE037
变换为
Figure 147310DEST_PATH_IMAGE038
以构成残差结构:
Figure 928184DEST_PATH_IMAGE039
其中:
Figure 647878DEST_PATH_IMAGE040
进而:
Figure 364162DEST_PATH_IMAGE041
其中:
Figure 966044DEST_PATH_IMAGE042
Figure 691555DEST_PATH_IMAGE043
最终形式为:
Figure 62493DEST_PATH_IMAGE044
其中:
Figure 949678DEST_PATH_IMAGE045
通过最终形式,可以明显直接的感受到数据的流向,即数据可以有
Figure 976540DEST_PATH_IMAGE046
的概率直接流出,有
Figure 364796DEST_PATH_IMAGE047
的概率经变换流出,这样使得数据能在两个通口中进行流动。具体的空洞门卷积结构如图6所示。
与上面的方法实施例相对应,参见图7,本公开实施例还提供了一种网络大数据长文本多标签分类系统70,包括:
获取模块701,用于获取网络大数据中对应的包含多标签长文本的原始数据集;
预处理模块702,用于对所述原始数据集进行分析构建每个所述标签对应的关键词表后进行预处理,得到文本数据;
转换模块703,用于将所述文本数据转换为字向量和词向量,并计算所述文本数据内不同词对应的位置向量;
融合模块704,用于将所述字向量、所述词向量和所述位置向量融合,得到嵌入向量;
编码模块705,用于将所述嵌入向量输入空洞门卷积层进行编码,得到编码向量;
分类模块706,用于根据自注意力机制模型提取所述编码向量的特征,得到所述文本数据中每个词的关联性,并输入卷积神经网络和全连接层形成分类结果。
图7所示系统可以对应的执行上述方法实施例中的内容,本实施例未详细描述的部分,参照上述方法实施例中记载的内容,在此不再赘述。
参见图8,本公开实施例还提供了一种电子设备80,该电子设备包括:至少一个处理器以及与该至少一个处理器通信连接的存储器。其中,该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行前述方法实施例中的网络大数据长文本多标签分类方法。
本公开实施例还提供了一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质存储计算机指令,该计算机指令用于使该计算机执行前述方法实施例中的网络大数据长文本多标签分类方法。
本公开实施例还提供了一种计算机程序产品,该计算机程序产品包括存储在非暂态计算机可读存储介质上的计算程序,该计算机程序包括程序指令,当该程序指令被计算机执行时,使该计算机执行前述方法实施例中的网络大数据长文本多标签分类方法。
下面参考图8,其示出了适于用来实现本公开实施例的电子设备80的结构示意图。本公开实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图8示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图8所示,电子设备80可以包括处理装置(例如中央处理器、图形处理器等)801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储装置808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中,还存储有电子设备80操作所需的各种程序和数据。处理装置801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
通常,以下装置可以连接至I/O接口805:包括例如触摸屏、触摸板、键盘、鼠标、图像传感器、麦克风、加速度计、陀螺仪等的输入装置806;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置807;包括例如磁带、硬盘等的存储装置808;以及通信装置809。通信装置809可以允许电子设备80与其他设备进行无线或有线通信以交换数据。虽然图中示出了具有各种装置的电子设备80,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置809从网络上被下载和安装,或者从存储装置808被安装,或者从ROM 802被安装。在该计算机程序被处理装置801执行时,执行本公开实施例的方法中限定的上述功能。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备可以执行上述方法实施例的相关步骤。
或者,上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备可以执行上述方法实施例的相关步骤。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。
应当理解,本公开的各部分可以用硬件、软件、固件或它们的组合来实现。
以上所述,仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应以权利要求的保护范围为准。

Claims (9)

1.一种网络大数据长文本多标签分类方法,其特征在于,包括:
获取网络大数据中对应的包含多标签长文本的原始数据集;
对所述原始数据集进行分析构建每个所述标签对应的关键词表后进行预处理,得到文本数据;
将所述文本数据转换为字向量和词向量,并计算所述文本数据内不同词对应的位置向量;
将所述字向量、所述词向量和所述位置向量融合,得到嵌入向量;
将所述嵌入向量输入空洞门卷积层进行编码,得到编码向量;
根据自注意力机制模型提取所述编码向量的特征,得到所述文本数据中每个词的关联性,并输入卷积神经网络和全连接层形成分类结果。
2.根据权利要求1所述的方法,其特征在于,所述对所述原始数据集进行分析构建每个所述标签对应的关键词表后进行预处理,得到文本数据的步骤,包括:
根据预设的分句函数对每个所述标签内的长文本进行分句操作,得到分句数据;
将所述分句数据进行jieba分词操作,得到分词数据;
根据所述分词数据生成所述关键词表;
根据所述关键词表,将所述分词数据与阈值进行比对,并选取对应的操作类型,得到所述文本数据,其中,所述操作类型包括关键词提取拼接操作和关键词填充操作的任一种。
3.根据权利要求2所述的方法,其特征在于,所述根据所述分词数据生成所述关键词表的步骤,包括:
根据所述分词数据进行词频-逆向文件频率统计,生成初始词表;
根据预设条件对所述初始词表中的全部词汇进行筛选和添加,得到所述关键词表。
4.根据权利要求3所述的方法,其特征在于,所述将所述文本数据转换为字向量和词向量,并计算所述文本数据内不同词对应的位置向量的步骤,包括:
根据预设模型和所述关键词表训练所述文本数据,得到所述词向量;
将所述词向量对应的文本按字分割并得到所述字向量;
将所述词向量和所述字向量融合后,根据词语在句子中的位置计算所述位置向量。
5.根据权利要求1所述的方法,其特征在于,所述空洞门卷积层包括多层堆叠的空洞卷积结构,其中,每层所述空洞卷积结构的膨胀率依次为1,2,4,8,且最后一层所述空洞卷积结构的膨胀率为1。
6.根据权利要求5所述的方法,其特征在于,所述将所述嵌入向量输入空洞门卷积层进行编码,得到编码向量的步骤,包括:
将所述嵌入向量输入多层所述空洞卷积结构,学习所述文本数据中的信息,形成所述编码向量。
7.一种网络大数据长文本多标签分类系统,其特征在于,包括:
获取模块,用于获取网络大数据中对应的包含多标签长文本的原始数据集;
预处理模块,用于对所述原始数据集进行分析构建每个所述标签对应的关键词表后进行预处理,得到文本数据;
转换模块,用于将所述文本数据转换为字向量和词向量,并计算所述文本数据内不同词对应的位置向量;
融合模块,用于将所述字向量、所述词向量和所述位置向量融合,得到嵌入向量;
编码模块,用于将所述嵌入向量输入空洞门卷积层进行编码,得到编码向量;
分类模块,用于根据自注意力机制模型提取所述编码向量的特征,得到所述文本数据中每个词的关联性,并输入卷积神经网络和全连接层形成分类结果。
8.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述权利要求1-6中任一项所述的网络大数据长文本多标签分类方法。
9.一种非暂态计算机可读存储介质,其特征在于,该非暂态计算机可读存储介质存储计算机指令,该计算机指令用于使该计算机执行前述权利要求1-6中任一项所述的网络大数据长文本多标签分类方法。
CN202111417986.9A 2021-11-26 2021-11-26 网络大数据长文本多标签分类方法、系统、设备及介质 Active CN113836308B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111417986.9A CN113836308B (zh) 2021-11-26 2021-11-26 网络大数据长文本多标签分类方法、系统、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111417986.9A CN113836308B (zh) 2021-11-26 2021-11-26 网络大数据长文本多标签分类方法、系统、设备及介质

Publications (2)

Publication Number Publication Date
CN113836308A true CN113836308A (zh) 2021-12-24
CN113836308B CN113836308B (zh) 2022-02-18

Family

ID=78971610

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111417986.9A Active CN113836308B (zh) 2021-11-26 2021-11-26 网络大数据长文本多标签分类方法、系统、设备及介质

Country Status (1)

Country Link
CN (1) CN113836308B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117011435A (zh) * 2023-09-28 2023-11-07 世优(北京)科技有限公司 数字人形象ai生成方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112052668A (zh) * 2020-08-13 2020-12-08 丰图科技(深圳)有限公司 地址文本识别模型的训练方法、地址的预测方法及装置
US20210073267A1 (en) * 2019-09-09 2021-03-11 Adobe, Inc. Identifying digital attributes from multiple attribute groups within target digital images utilizing a deep cognitive attribution neural network
CN112487807A (zh) * 2020-12-09 2021-03-12 重庆邮电大学 一种基于膨胀门卷积神经网络的文本关系抽取方法
CN112949637A (zh) * 2021-05-14 2021-06-11 中南大学 基于idcnn和注意力机制的招投标文本实体识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210073267A1 (en) * 2019-09-09 2021-03-11 Adobe, Inc. Identifying digital attributes from multiple attribute groups within target digital images utilizing a deep cognitive attribution neural network
CN112052668A (zh) * 2020-08-13 2020-12-08 丰图科技(深圳)有限公司 地址文本识别模型的训练方法、地址的预测方法及装置
CN112487807A (zh) * 2020-12-09 2021-03-12 重庆邮电大学 一种基于膨胀门卷积神经网络的文本关系抽取方法
CN112949637A (zh) * 2021-05-14 2021-06-11 中南大学 基于idcnn和注意力机制的招投标文本实体识别方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117011435A (zh) * 2023-09-28 2023-11-07 世优(北京)科技有限公司 数字人形象ai生成方法及装置
CN117011435B (zh) * 2023-09-28 2024-01-09 世优(北京)科技有限公司 数字人形象ai生成方法及装置

Also Published As

Publication number Publication date
CN113836308B (zh) 2022-02-18

Similar Documents

Publication Publication Date Title
CN111444340B (zh) 文本分类方法、装置、设备及存储介质
CN110119765B (zh) 一种基于Seq2seq框架的关键词提取方法
CN111274815B (zh) 用于挖掘文本中的实体关注点的方法和装置
CN113064964A (zh) 文本分类方法、模型训练方法、装置、设备以及存储介质
CN112188312B (zh) 用于确定新闻的视频素材的方法和装置
CN112084752B (zh) 基于自然语言的语句标注方法、装置、设备及存储介质
WO2023159767A1 (zh) 目标词语的检测方法、装置、电子设备及存储介质
CN112446211A (zh) 文本处理装置、方法、设备和计算机可读存储介质
JP2023550211A (ja) テキストを生成するための方法および装置
CN114637847A (zh) 模型的训练方法、文本分类方法和装置、设备、介质
CN110852066A (zh) 一种基于对抗训练机制的多语言实体关系抽取方法及系统
CN115510232A (zh) 文本语句分类方法和分类装置、电子设备及存储介质
CN115186085A (zh) 回复内容处理方法以及媒体内容互动内容的交互方法
CN113836308B (zh) 网络大数据长文本多标签分类方法、系统、设备及介质
CN118170795A (zh) 数据查询方法、装置、存储介质及电子设备
CN113111167B (zh) 基于深度学习模型的接处警文本车辆型号提取方法和装置
CN115952854B (zh) 文本脱敏模型的训练方法、文本脱敏方法及应用
CN113761895A (zh) 文本摘要的生成方法、装置、电子设备及存储介质
CN112599211A (zh) 一种医疗实体关系抽取方法及装置
CN113704466B (zh) 基于迭代网络的文本多标签分类方法、装置及电子设备
CN114490946A (zh) 基于Xlnet模型的类案检索方法、系统及设备
CN114925175A (zh) 基于人工智能的摘要生成方法、装置、计算机设备及介质
CN114328910A (zh) 文本聚类方法以及相关装置
CN113128225B (zh) 命名实体的识别方法、装置、电子设备及计算机存储介质
CN114330296A (zh) 新词发现方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240113

Address after: 410116 No. 502, building A2, lingzhi Industrial Park, 128 Jinhai Road, Yuhua District, Changsha City, Hunan Province

Patentee after: Hunan dademaning Information Technology Co.,Ltd.

Address before: Yuelu District City, Hunan province 410000 Changsha Lushan Road No. 932

Patentee before: CENTRAL SOUTH University

TR01 Transfer of patent right