CN113239190B - 文档分类方法、装置、存储介质及电子设备 - Google Patents

文档分类方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN113239190B
CN113239190B CN202110462274.2A CN202110462274A CN113239190B CN 113239190 B CN113239190 B CN 113239190B CN 202110462274 A CN202110462274 A CN 202110462274A CN 113239190 B CN113239190 B CN 113239190B
Authority
CN
China
Prior art keywords
document
keywords
word
text
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110462274.2A
Other languages
English (en)
Other versions
CN113239190A (zh
Inventor
喻银根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjiu Sharing Network Technology Group Co ltd
Original Assignee
Tianjiu Sharing Network Technology Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjiu Sharing Network Technology Group Co ltd filed Critical Tianjiu Sharing Network Technology Group Co ltd
Priority to CN202110462274.2A priority Critical patent/CN113239190B/zh
Publication of CN113239190A publication Critical patent/CN113239190A/zh
Application granted granted Critical
Publication of CN113239190B publication Critical patent/CN113239190B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及一种文档分类方法、装置、存储介质及电子设备。该方法包括:获取带目录的文本文档;提取文本文档中的关键词,并将关键词与所述目录进行结合,得到文本文档的压缩文档;对压缩文档进行字词混合编码,得到目标向量;将目标向量输入预先训练完成的深度学习模型,得到深度学习模型输出的文档分类结果。本公开实施例通过提取关键词,并将关键词与目录进行结合的方式,实现了在保留文本核心内容的基础上,对文本进行了压缩,降低了深度学习模型因文本过长而对文本进行截断,导致大部分文本核心信息丢失的概率。

Description

文档分类方法、装置、存储介质及电子设备
技术领域
本公开涉及自然语言处理技术领域,具体地,涉及一种文档分类方法、装置、存储介质及电子设备。
背景技术
深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。深度学习使机器模仿视听和思考等人类的活动,解决了很多复杂的模式识别难题,使得人工智能相关技术取得了很大进步。如今的深度学习技术还有一个问题,它需要提取大量的数据作为训练基础,而训练所得的结果却难以应用到其他问题上。
现阶段的文本分类是通过利用文本字词词频等特征输入模型中,利用机器学习方法进行分类,但是会存在着提取的文本特征较浅的问题,而且很难学习到文本的语义信息;还有一种方法是对文本的字词向量化后作为输入,利用深度神经网络的方法进行分类,但是这种方法也存在着训练的硬件成本和时间成本较高的问题,当文档内容过长时,其输入存在对文本的截断,会丢失掉部分信息。
发明内容
本公开的目的是提供一种文档分类方法、装置、存储介质及电子设备,以解决上述问题。
为了实现上述目的,第一方面,本公开实施例提供一种文档分类方法,包括:
获取带目录的文本文档;
提取所述文本文档中的关键词,并将所述关键词与所述目录进行结合,得到所述文本文档的压缩文档;
对所述压缩文档进行字词混合编码,得到目标向量;
将所述目标向量输入预先训练完成的深度学习模型,得到所述深度学习模型输出的文档分类结果。
可选地,所述对所述压缩文档进行字词混合编码,得到目标向量,包括:
根据词向量映射模型,将所述压缩文档中的每一词映射为词向量,以及将所述压缩文档中的每一字随机初始化为字向量,其中,所述词向量与所述字向量的维度相同,所述词向量映射模型是预先基于无监督方法训练形成的word2vec的词向量映射模型;
通过冗余方式将所述词向量和所述字向量进行混合,得到所述目标向量。
可选地,所述深度学习模型包括bert模型层、双向LSTM模型层、卷积层以及softmax模型层;
其中,所述bert模型层与所述双向LSTM模型层相结合能够提取所述压缩文档的语义特征;
所述bert模型层与所述卷积层相结合能够提取所述压缩文档的深度特征,并结合最大池化方式和平均池化方式对提取到的所述深度特征进行池化;
所述softmax模型层用于输出所述文档分类结果。
可选地,所述bert模型层的参数在所述深度学习模型的训练过程中保持冻结,和/或,所述卷积层包括多层,且每一层具有不同的卷积核。
可选地,所述将所述关键词与所述目录进行结合,包括:
在结合所述关键词与所述目录时,将所述关键词放在所述目录之前,使得所述关键词能够优先于所述目录进行编码。
第二方面,本公开实施例提供一种文档分类装置,所述装置包括:
获取模块,用于获取带目录的文本文档;
结合模块,用于提取所述文本文档中的关键词,并将所述关键词与所述目录进行结合,得到所述文本文档的压缩文档;
编码模块,用于对所述压缩文档进行字词混合编码,得到目标向量;
生成模块,用于将所述目标向量输入预先训练完成的深度学习模型,得到所述深度学习模型输出的文档分类结果。
可选地,所述编码模块包括:
映射子模块,用于根据词向量映射模型,将所述压缩文档中的每一词映射为词向量,以及将所述压缩文档中的每一字随机初始化为字向量;
混合子模块,用于通过冗余方式将所述词向量和所述字向量进行混合,得到所述目标向量。
可选地,所述深度学习模型包括bert模型层、双向LSTM模型层、卷积层以及softmax模型层;
其中,所述bert模型层与所述双向LSTM模型层相结合能够提取所述压缩文档的语义特征;
所述bert模型层与所述卷积层相结合能够提取所述压缩文档的深度特征,并结合最大池化方式和平均池化方式对提取到的所述深度特征进行池化;
所述softmax模型层用于输出所述文档分类结果。
第三方面,本公开实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本公开第一方面所述方法的步骤。
第四方面,本公开实施例提供一种电子设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现本公开第一方面所述方法的步骤。
本公开的实施例提供的技术方案可以包括以下有益效果:
采用上述技术方案,在获取带目录的文本文档后,首先提取所述文本文档中的关键词并将所述关键词与所述目录进行结合得到所述文本文档的压缩文档,之后对所述压缩文档进行字词混合编码,将所述目标向量输入预先训练完成的深度学习模型,最后得到所述深度学习模型输出的文档分类结果。本公开实施例通过提取关键词,并将关键词与目录进行结合的方式,实现了在保留文本核心内容的基础上,对文本进行了压缩,降低了深度学习模型因文本过长而对文本进行截断,导致大部分文本核心信息丢失的概率。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是根据一示例性实施例示出的一种文档分类方法的流程图。
图2是根据一示例性实施例示出的一种文档分类装置的框图。
图3是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
本公开实施例提供一种文档分类的方法,如图1所示,该方法包括:
在步骤S101中,获取带目录的文本文档。
在本公开实施例中,带目录的文本文档为从原始文档中提取出的带有相关目录和正文的文本文档,其中,对原始文档提取的格式例如可以是word格式或PDF格式,本公开实施对此不做限定。进一步地,可以将word格式或PDF格式的原始文档转为文本文档,并且还可以将文本文档的目录与正文进行分离,以便后续步骤能够直接对目录进行使用。
在步骤S102中,提取文本文档中的关键词,并将关键词与目录进行结合,得到所述文本文档的压缩文档。
其中,关键词例如可以包括正文中的关键词,还可以包括正文中的关键词以及目录中的关键词。
由于,目录中也会包含着文本的关键信息和一定的语义信息,因此,将提取到的关键词以及目录进行结合,可以在不损失文本的核心内容的情况下,实现对文本的压缩。
在本公开实施例中,可以通过tf-idf方法但不限于通过此方法来提取文本文档中的关键词,例如还可以通过改进方法tf-iwf,或者潜在语义分析等方法来实现关键词提取,本公开实施例并不限制提取关键词的方法。此外,在具体实施时,为了保证压缩文档的长度可控,可以设定关键词数量阈值,这样,在提取关键词时,可以只提取满足关键词数量阈值要求的关键词,例如,提取文本文档中top30的关键词。
在步骤S103中,对压缩文档进行字词混合编码,得到目标向量。
示例地,字词混合编码作为得到目标向量的方式是根据训练好的词向量模型将每个词映射768维的词向量,将每个字随机初始化为768维的字向量,再通过将词向量和字向量进行混合得到上述目标向量。
在步骤S104中,将目标向量输入预先训练完成的深度学习模型,得到深度学习模型输出的文档分类结果。
采用上述方法,在获取带目录的文本文档后,首先提取所述文本文档中的关键词并将所述关键词与所述目录进行结合得到所述文本文档的压缩文档,之后对所述压缩文档进行字词混合编码,将所述目标向量输入预先训练完成的深度学习模型,最后得到所述深度学习模型输出的文档分类结果。本公开实施例通过提取关键词,并将关键词与目录进行结合的方式,实现了在保留文本核心内容的基础上,对文本进行了压缩,降低了深度学习模型因文本过长而对文本进行截断,导致大部分文本核心信息丢失的概率。
在一种可能的实施方式中,所述将所述关键词与所述目录进行结合,包括:
在结合所述关键词与所述目录时,将所述关键词放在所述目录之前,使得所述关键词能够优先于所述目录进行编码。这样,即便在压缩文档的长度依然过长的情况下,也能够减少压缩文档对关键词的截断,从而实现最大程度上的保留文本的核心内容。
在一种可能的实施方式中,所述对所述压缩文档进行字词混合编码,得到目标向量,包括:
根据词向量映射模型,将所述压缩文档中的每一词映射为词向量,以及将所述压缩文档中的每一字随机初始化为字向量,其中,所述词向量与所述字向量的维度相同,所述词向量映射模型是预先基于无监督方法训练形成的word2vec的词向量映射模型;
通过冗余方式将所述词向量和所述字向量进行混合,得到所述目标向量。
示例地,词向量映射模型可以将输入的压缩文档中的每一词映射为768维的词向量,并将压缩文档中的每个字随机初始化为768维的字向量,再通过将词向量和字向量通过冗余方式进行混合得到上述目标向量。从而能够最大程度的保留文档中的语义信息。
在一种可能的实现方式中,所述深度学习模型包括bert模型层、双向LSTM模型层、卷积层以及softmax模型层;其中,所述bert模型层与所述双向LSTM模型层相结合能够提取所述压缩文档的语义特征;所述bert模型层与所述卷积层相结合能够提取所述压缩文档的深度特征,并结合最大池化方式和平均池化方式对提取到的所述深度特征进行池化;所述softmax模型层用于输出所述文档分类结果。
在该种实现方式中,所述bert模型层的参数在所述深度学习模型的训练过程中保持冻结,也即在对深度学习模型的训练过程中,无需对bert模型层的参数进行更新,从而能够提升模型的训练效率。和/或,所述卷积层包括多层,且每一层具有不同的卷积核。例如,三层卷积层,每一层的卷积核的尺寸分别可以为3×3,4×4,5×5。
下面对深度学习模型的训练过程进行说明深度学习模型的损失函数可以为交叉熵损失函数,并通过adam优化器对所述深度学习模型进行参数优化,直到得到满足模型精度要求的深度学习模型。此外,由于深度学习模型在训练过程中采用字向量和词向量混合编码得到的向量作为输入,而字向量是词向量映射模型通过随机化方式生成的,因此,为了尽可能的提取到压缩文档的深度特征,可以在深度学习模型在训练过程中,词向量映射模型可以在保持词向量不变的情况下,对字向量不断进行更新,并将更新后的字向量重新与词向量进行混合编码,以得到更多的混合编码的向量对深度学习模型进行训练,提高了深度学习模型的准确率。
图2是根据本公开一示例性实施例示出一种文档分类装置的框图,所述装置200包括:
获取模块201,用于获取带目录的文本文档;
结合模块202,用于提取所述文本文档中的关键词,并将所述关键词与所述目录进行结合,得到所述文本文档的压缩文档;
编码模块203,用于对所述压缩文档进行字词混合编码,得到目标向量;
生成模块204,用于将所述目标向量输入预先训练完成的深度学习模型,得到所述深度学习模型输出的文档分类结果。
采用上述装置,该装置在获取带目录的文本文档后,首先提取所述文本文档中的关键词并将所述关键词与所述目录进行结合得到所述文本文档的压缩文档,之后对所述压缩文档进行字词混合编码,将所述目标向量输入预先训练完成的深度学习模型,最后得到所述深度学习模型输出的文档分类结果。本公开实施例通过提取关键词,并将关键词与目录进行结合的方式,实现了在保留文本核心内容的基础上,对文本进行了压缩,降低了深度学习模型因文本过长而对文本进行截断,导致大部分文本核心信息丢失的概率。
可选地,所述编码模块包括:
映射子模块,用于根据词向量映射模型,将所述压缩文档中的每一词映射为词向量,以及将所述压缩文档中的每一字随机初始化为字向量;
混合子模块,用于通过冗余方式将所述词向量和所述字向量进行混合,得到所述目标向量。
可选地,所述深度学习模型包括bert模型层、双向LSTM模型层、卷积层以及softmax模型层;
其中,所述bert模型层与所述双向LSTM模型层相结合能够提取所述压缩文档的语义特征;
所述bert模型层与所述卷积层相结合能够提取所述压缩文档的深度特征,并结合最大池化方式和平均池化方式对提取到的所述深度特征进行池化;
所述softmax模型层用于输出所述文档分类结果。
可选地,所述bert模型层的参数在所述深度学习模型的训练过程中保持冻结,和/或,所述卷积层包括多层,且每一层具有不同的卷积核。
可选地,所述结合模块具体用于:在结合所述关键词与所述目录时,将所述关键词放在所述目录之前,使得所述关键词能够优先于所述目录进行编码。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本公开实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法实施例提供的方法的步骤。
本公开实施例还提供一种电子设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现上述方法实施例提供的方法的步骤。
图3是根据一示例性实施例示出的一种电子设备1900的框图。例如,电子设备1900可以被提供为一服务器。参照图3,电子设备1900包括处理器1922,其数量可以为一个或多个,以及存储器1932,用于存储可由处理器1922执行的计算机程序。存储器1932中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理器1922可以被配置为执行该计算机程序,以执行上述的文档分类方法。
另外,电子设备1900还可以包括电源组件1926和通信组件1950,该电源组件1926可以被配置为执行电子设备1900的电源管理,该通信组件1950可以被配置为实现电子设备1900的通信,例如,有线或无线通信。此外,该电子设备1900还可以包括输入/输出(I/O)接口1958。电子设备1900可以操作基于存储在存储器1932的操作系统,例如WindowsServerTM,Mac OS XTM,UnixTM,LinuxTM等等。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的文档分类方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器1932,上述程序指令可由电子设备1900的处理器1922执行以完成上述的文档分类方法。
在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的文档分类方法的代码部分。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。

Claims (7)

1.一种文档分类方法,其特征在于,所述方法包括:
获取带目录的文本文档;
提取所述文本文档中的关键词,并将所述关键词与所述目录进行结合,得到所述文本文档的压缩文档;
对所述压缩文档进行字词混合编码,得到目标向量;
将所述目标向量输入预先训练完成的深度学习模型,得到所述深度学习模型输出的文档分类结果;
其中,所述将所述关键词与所述目录进行结合,包括:
在结合所述关键词与所述目录时,将所述关键词放在所述目录之前,使得所述关键词能够优先于所述目录进行编码;
所述对所述压缩文档进行字词混合编码,得到目标向量,包括:
根据词向量映射模型,将所述压缩文档中的每一词映射为词向量,以及将所述压缩文档中的每一字随机初始化为字向量,其中,所述词向量与所述字向量的维度相同,所述词向量映射模型是预先基于无监督方法训练形成的word2vec的词向量映射模型;
通过冗余方式将所述词向量和所述字向量进行混合,得到所述目标向量。
2.根据权利要求1所述的方法,其特征在于,所述深度学习模型包括bert模型层、双向LSTM模型层、卷积层以及softmax模型层;
其中,所述bert模型层与所述双向LSTM模型层相结合能够提取所述压缩文档的语义特征;
所述bert模型层与所述卷积层相结合能够提取所述压缩文档的深度特征,并结合最大池化方式和平均池化方式对提取到的所述深度特征进行池化;
所述softmax模型层用于输出所述文档分类结果。
3.根据权利要求2所述的方法,其特征在于,所述bert模型层的参数在所述深度学习模型的训练过程中保持冻结,和/或,所述卷积层包括多层,且每一层具有不同的卷积核。
4.一种文档分类装置,其特征在于,所述装置包括:
获取模块,用于获取带目录的文本文档;
结合模块,用于提取所述文本文档中的关键词,并将所述关键词与所述目录进行结合,得到所述文本文档的压缩文档;
编码模块,用于对所述压缩文档进行字词混合编码,得到目标向量;
生成模块,用于将所述目标向量输入预先训练完成的深度学习模型,得到所述深度学习模型输出的文档分类结果;
其中,所述将所述关键词与所述目录进行结合,包括:
在结合所述关键词与所述目录时,将所述关键词放在所述目录之前,使得所述关键词能够优先于所述目录进行编码;
所述编码模块包括:
映射子模块,用于根据词向量映射模型,将所述压缩文档中的每一词映射为词向量,以及将所述压缩文档中的每一字随机初始化为字向量;
混合子模块,用于通过冗余方式将所述词向量和所述字向量进行混合,得到所述目标向量。
5.根据权利要求4所述的装置,其特征在于,所述深度学习模型包括bert模型层、双向LSTM模型层、卷积层以及softmax模型层;
其中,所述bert模型层与所述双向LSTM模型层相结合能够提取所述压缩文档的语义特征;
所述bert模型层与所述卷积层相结合能够提取所述压缩文档的深度特征,并结合最大池化方式和平均池化方式对提取到的所述深度特征进行池化;
所述softmax模型层用于输出所述文档分类结果。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-3中任一项所述方法的步骤。
7.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-3中任一项所述方法的步骤。
CN202110462274.2A 2021-04-27 2021-04-27 文档分类方法、装置、存储介质及电子设备 Active CN113239190B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110462274.2A CN113239190B (zh) 2021-04-27 2021-04-27 文档分类方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110462274.2A CN113239190B (zh) 2021-04-27 2021-04-27 文档分类方法、装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN113239190A CN113239190A (zh) 2021-08-10
CN113239190B true CN113239190B (zh) 2024-02-20

Family

ID=77129561

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110462274.2A Active CN113239190B (zh) 2021-04-27 2021-04-27 文档分类方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN113239190B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115563311B (zh) * 2022-10-21 2023-09-15 中国能源建设集团广东省电力设计研究院有限公司 一种文档标注和知识库管理方法及知识库管理系统

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107665248A (zh) * 2017-09-22 2018-02-06 齐鲁工业大学 基于深度学习混合模型的文本分类方法和装置
CN109582794A (zh) * 2018-11-29 2019-04-05 南京信息工程大学 基于深度学习的长文分类方法
CN109791594A (zh) * 2016-08-12 2019-05-21 Altr解决方案公司 为了在多个不可变数据结构上持续存储而对数据进行分段
CN110134786A (zh) * 2019-05-14 2019-08-16 南京大学 一种基于主题词向量与卷积神经网络的短文本分类方法
CN110263323A (zh) * 2019-05-08 2019-09-20 清华大学 基于栅栏式长短时记忆神经网络的关键词抽取方法及系统
CN110413783A (zh) * 2019-07-23 2019-11-05 银江股份有限公司 一种基于注意力机制的司法文本分类方法及系统
CN110427609A (zh) * 2019-06-25 2019-11-08 首都师范大学 一种写人作文篇章结构合理性自动评测方法
CN110598191A (zh) * 2019-11-18 2019-12-20 江苏联著实业股份有限公司 一种基于神经网络的复杂pdf结构解析方法及装置
CN110717042A (zh) * 2019-09-24 2020-01-21 北京工商大学 一种构建文档-关键词异构网络模型方法
CN110825848A (zh) * 2019-06-10 2020-02-21 北京理工大学 一种基于短语向量的文本分类方法
CN111414336A (zh) * 2020-03-20 2020-07-14 北京师范大学 一种知识点导向的教育资源采集与分类的方法和系统
CN111488556A (zh) * 2020-04-09 2020-08-04 深信服科技股份有限公司 一种嵌套文档提取方法、装置及电子设备和存储介质
CN111507099A (zh) * 2020-06-19 2020-08-07 平安科技(深圳)有限公司 文本分类方法、装置、计算机设备及存储介质
CN111753060A (zh) * 2020-07-29 2020-10-09 腾讯科技(深圳)有限公司 信息检索方法、装置、设备及计算机可读存储介质
CN112231645A (zh) * 2020-11-09 2021-01-15 北京理工大学 一种基于主动学习的恶意pdf文档检测方法
CN112463933A (zh) * 2020-12-14 2021-03-09 清华大学 系统日志模板的在线提取方法和装置
CN112597312A (zh) * 2020-12-28 2021-04-02 深圳壹账通智能科技有限公司 文本分类方法、装置、电子设备及可读存储介质

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109791594A (zh) * 2016-08-12 2019-05-21 Altr解决方案公司 为了在多个不可变数据结构上持续存储而对数据进行分段
CN107665248A (zh) * 2017-09-22 2018-02-06 齐鲁工业大学 基于深度学习混合模型的文本分类方法和装置
CN109582794A (zh) * 2018-11-29 2019-04-05 南京信息工程大学 基于深度学习的长文分类方法
CN110263323A (zh) * 2019-05-08 2019-09-20 清华大学 基于栅栏式长短时记忆神经网络的关键词抽取方法及系统
CN110134786A (zh) * 2019-05-14 2019-08-16 南京大学 一种基于主题词向量与卷积神经网络的短文本分类方法
CN110825848A (zh) * 2019-06-10 2020-02-21 北京理工大学 一种基于短语向量的文本分类方法
CN110427609A (zh) * 2019-06-25 2019-11-08 首都师范大学 一种写人作文篇章结构合理性自动评测方法
CN110413783A (zh) * 2019-07-23 2019-11-05 银江股份有限公司 一种基于注意力机制的司法文本分类方法及系统
CN110717042A (zh) * 2019-09-24 2020-01-21 北京工商大学 一种构建文档-关键词异构网络模型方法
CN110598191A (zh) * 2019-11-18 2019-12-20 江苏联著实业股份有限公司 一种基于神经网络的复杂pdf结构解析方法及装置
CN111414336A (zh) * 2020-03-20 2020-07-14 北京师范大学 一种知识点导向的教育资源采集与分类的方法和系统
CN111488556A (zh) * 2020-04-09 2020-08-04 深信服科技股份有限公司 一种嵌套文档提取方法、装置及电子设备和存储介质
CN111507099A (zh) * 2020-06-19 2020-08-07 平安科技(深圳)有限公司 文本分类方法、装置、计算机设备及存储介质
CN111753060A (zh) * 2020-07-29 2020-10-09 腾讯科技(深圳)有限公司 信息检索方法、装置、设备及计算机可读存储介质
CN112231645A (zh) * 2020-11-09 2021-01-15 北京理工大学 一种基于主动学习的恶意pdf文档检测方法
CN112463933A (zh) * 2020-12-14 2021-03-09 清华大学 系统日志模板的在线提取方法和装置
CN112597312A (zh) * 2020-12-28 2021-04-02 深圳壹账通智能科技有限公司 文本分类方法、装置、电子设备及可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于颜色聚类的计算机桌面图像压缩算法;卢毓海等;《 计算机工程》;第221-225页,第236页 *

Also Published As

Publication number Publication date
CN113239190A (zh) 2021-08-10

Similar Documents

Publication Publication Date Title
WO2019155064A1 (en) Data compression using jointly trained encoder, decoder, and prior neural networks
CN110446063B (zh) 视频封面的生成方法、装置及电子设备
CN111414946B (zh) 基于人工智能的医疗影像的噪声数据识别方法和相关装置
CN112418292B (zh) 一种图像质量评价的方法、装置、计算机设备及存储介质
CN111597779B (zh) 文本生成方法、装置、设备以及存储介质
CN110472002B (zh) 一种文本相似度获取方法和装置
CN113761153B (zh) 基于图片的问答处理方法、装置、可读介质及电子设备
CN108304376B (zh) 文本向量的确定方法、装置、存储介质及电子装置
CN113392270A (zh) 视频处理方法、装置、计算机设备以及存储介质
CN115293348A (zh) 一种多模态特征提取网络的预训练方法及装置
CN113487024A (zh) 交替序列生成模型训练方法、从文本中抽取图的方法
CN115239675A (zh) 分类模型的训练方法、图像分类方法和装置、设备及介质
CN113239190B (zh) 文档分类方法、装置、存储介质及电子设备
CN111915542A (zh) 一种基于深度学习的图像内容描述方法及系统
CN114282059A (zh) 视频检索的方法、装置、设备及存储介质
CN112668608A (zh) 一种图像识别方法、装置、电子设备及存储介质
CN114529785A (zh) 模型的训练方法、视频生成方法和装置、设备、介质
CN111898363B (zh) 文本长难句的压缩方法、装置、计算机设备及存储介质
CN111445545B (zh) 一种文本转贴图方法、装置、存储介质及电子设备
CN111368531B (zh) 翻译文本处理方法、装置、计算机设备和存储介质
CN113391992A (zh) 测试数据的生成方法和装置、存储介质及电子设备
CN115617974B (zh) 一种对话处理方法、装置、设备及存储介质
Desai et al. Adversarial Network for Photographic Image Synthesis from Fine-grained Captions
CN110674342B (zh) 查询目标图像的方法和装置
CN110163222B (zh) 一种图像识别的方法、模型训练的方法以及服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant