CN111507099A - 文本分类方法、装置、计算机设备及存储介质 - Google Patents
文本分类方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN111507099A CN111507099A CN202010567353.5A CN202010567353A CN111507099A CN 111507099 A CN111507099 A CN 111507099A CN 202010567353 A CN202010567353 A CN 202010567353A CN 111507099 A CN111507099 A CN 111507099A
- Authority
- CN
- China
- Prior art keywords
- word vector
- text
- model
- word
- deep learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 75
- 238000003860 storage Methods 0.000 title claims abstract description 17
- 239000013598 vector Substances 0.000 claims abstract description 160
- 238000012549 training Methods 0.000 claims abstract description 58
- 238000013145 classification model Methods 0.000 claims abstract description 55
- 238000013135 deep learning Methods 0.000 claims abstract description 53
- 238000002372 labelling Methods 0.000 claims abstract description 34
- 230000011218 segmentation Effects 0.000 claims abstract description 23
- 238000012545 processing Methods 0.000 claims abstract description 21
- 238000004590 computer program Methods 0.000 claims description 18
- 230000015654 memory Effects 0.000 claims description 18
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 6
- 238000003058 natural language processing Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000008451 emotion Effects 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000004513 sizing Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及人工智能技术,公开了一种文本分类方法、装置、计算机设备及存储介质,用于解决文本自动分类方法存在分类不准确的技术问题。该方法包括:获取携带有标注信息的各个主题下不同类型的文本样本语料;对包含有该标注信息的该文本样本语料进行词向量训练,得到第一字向量;对包含有该标注信息的该文本样本语料进行分字处理,得到第二字向量;对该第一字向量和该第二字向量进行拼接,得到拼接后的字向量;通过该拼接后的字向量对预先搭建的深度学习分类模型进行训练,得到训练好的深度学习分类模型;通过训练好的该深度学习分类模型对各主题下的待分类文本进行分类处理。本方案还涉及区块链技术,该深度学习分类模型可存储于区块链节点中。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及文本分类方法、装置、计算机设备及存储介质。
背景技术
目前对文本实现自动分类大多是基于模型来实现,通过模型对文本进行分类是自然语言处理中很普遍的一个应用,例如:文章主题分类、微博情感分类、垃圾邮件识别等等。传统的文本分类方法主要是需要人工从原始文档中提取一些特征,再通过传统分类器如SVM(Support Vector Machine,支持向量机)、LR(Logistic Regression Classifier,逻辑回归分类器)去训练分类模型,最终得到可以直接使用的文本分类模型。
以上基于人工提取特征的传统分类器,虽然简单易实现,但是由于其考虑的特征比较有局限性,无法有效提取文本中词与词之间的依赖关系形成整体判断,在准确率上通常表现一般,而基于深度学习的方法,由于网络参数量大,通常也需要更多的标注样本作为训练数据,否则很容易造成过拟合,在训练集上准确率高但是在测试机上分类的准确率大打折扣。
发明内容
本发明实施例提供一种文本分类方法、装置、计算机设备及存储介质,以解决现有技术中文本自动分类方法存在分类不准确的技术问题。
一种文本分类方法,该方法包括:
获取携带有标注信息的各个主题下不同类型的文本样本语料;
通过词向量模型对包含有该标注信息的该文本样本语料进行词向量训练,得到第一字向量;
通过语言表示模型对包含有该标注信息的该文本样本语料进行分字处理,得到第二字向量;
对该第一字向量和该第二字向量进行拼接,得到拼接后的字向量,该拼接后的字向量的维度为该第一字向量的维度与该第二字向量的维度之和;
通过该拼接后的字向量对预先搭建的深度学习分类模型进行训练,得到训练好的深度学习分类模型;
通过训练好的该深度学习分类模型对各主题下的待分类文本进行分类处理。
一种文本分类装置,该装置包括:
样本获取模块,用于获取携带有标注信息的各个主题下不同类型的文本样本语料;
样本训练模块,用于通过词向量模型对包含有该标注信息的该文本样本语料进行词向量训练,得到第一字向量;
样本分字模块,用于通过语言表示模型对包含有该标注信息的该文本样本语料进行分字处理,得到第二字向量;
拼接模块,用于对该第一字向量和该第二字向量进行拼接,得到拼接后的字向量,该拼接后的字向量的维度为该第一字向量的维度与该第二字向量的维度之和;
训练模块,用于通过该拼接后的字向量对预先搭建的深度学习分类模型进行训练,得到训练好的深度学习分类模型;
分类处理模块,用于通过训练好的该深度学习分类模型对各主题下的待分类文本进行分类处理。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述文本分类方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述文本分类方法的步骤。
本发明提供一种文本分类方法方法、装置、计算机设备及存储介质,首先获取携带有标注信息的各个主题下不同类型的文本样本语料,对该文本样本语料通过词向量模型进行训练,得到第一字向量,再对该文本样本语料通过语言表示模型进行训练,得到第二字向量,然后对该第一字向量和该第二字向量进行拼接,得到拼接后的字向量,通过拼接后的字向量对预先搭建的深度学习分类模型进行训练,得到训练好的深度学习分类模型,由于本申请中训练模型的向量具有更多的表示维度,使得依据本发明训练好的深度学习分类模型相比现有模型,具有更高的分类精度,通过本申请训练好的深度学习分类模型对各主题下的待分类文本进行分类处理,使得对文本进行分类的分类结果更加准确。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中文本分类方法的一应用环境示意图;
图2是本发明一实施例中文本分类方法的一流程图;
图3是本发明另一实施例中文本分类方法的一流程图;
图4是本发明一实施例中向量拼接的示例图;
图5是本发明一实施例中文本分类装置的结构示意图;
图6是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请提供的文本分类方法,可应用在如图1的应用环境中,其中,计算机设备可以通过网络与外部设备进行通信。其中,该计算机设备包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。
在一实施例中,如图2所示,提供一种文本分类方法,由其涉及一种基于人工智能的文本分类方法,以该方法应用在图1中的计算机设备中为例进行说明,包括如下步骤S101至S106。
S101、获取携带有标注信息的各个主题下不同类型的文本样本语料。
在其中一个实施例中,所述主题包括但不限于新闻、微博情感、论文期刊等等。
进一步地,该新闻主题下包括的类型可以是军事类、娱乐类、科技类等;该微博情感主题下包括的类型可以是积极、中立、消极等;该论文期刊主题下包括的类型可以是物理学术、化学学术、计算机学术等等。
其中,该文本样本语料的标注信息可以通过用户输入得到,也可以从存储的数据中直接获取得到。
S102、通过词向量模型对包含有该标注信息的该文本样本语料进行词向量训练,得到第一字向量。
其中,该词向量模型即词向量模型Word2vec,词向量模型Word2vec是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在Word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,Word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系。
S103、通过语言表示模型对包含有该标注信息的该文本样本语料进行分字处理,得到第二字向量。
其中,语言表示模型即语言表示模型BERT(BidirectionalEncoderRepresentations from Transformers),语言表示模型BERT是一种预训练模型,可以理解为这是一个通用的NLU(Natural Language Understanding)模型,为不同的NLP(Natural Language Processing,自然语言处理)任务提供支持。在实际使用时,只需要根据具体任务额外加入一个输出层进行微调即可,而不用为特定任务来修改模型结构。
预训练即提前已经给了一些初始化的参数,这个参数不是随机的,而是通过其他类似数据集上面学得的,然后再用具体的数据集进行学习,得到适合该数据集的参数,随机初始化不容易得到参数结果,但是不容易得到的这个参数结果是因为随机初始化的速度太慢,而不是最终的参数结果不一样。简单地说,预训练模型就是用某个较大的数据集训练好的模型,可以用这些预训练模型用到类似的数据集上进行模型微调,就比如本实施例中的语言表示模型BERT。
其中,该词向量模型配置的分词器与该语言表示模型配置的分词器相同。词向量模型配置的分词器与该语言表示模型配置的分词器相同使得后续步骤中第一字向量和第二字向量进行拼接时,能够对应的上,图4是本发明一实施例中向量拼接的示例图,拼接后的向量如图4所示。
S104、对该第一字向量和该第二字向量进行拼接,得到拼接后的字向量,该拼接后的字向量的维度为该第一字向量的维度与该第二字向量的维度之和。
为使得所述第一字向量和所述第二字向量在拼接的时候能够对应的上,所述文本分类方法进一步包括:
将所述语言表示模型BERT中的分词器tokenizer配置为所述词向量模型Word2vec中的分词器,所述词向量模型Word2vec与所述语言表示模型BERT使用相同的分词器tokenizer对所述文本语料进行处理。
tokenization的主要思路就是相当于分词,把一个输入的文本依次按照以下步骤进行处理:
清洗:用于对文本进行第一步处理的类,里面基本上都是预处理文本的方法,其中tokenize方法,返回的结果是经过处理的单词列表;
分词:对单词进行切分。例如如果单词长度超过200,就标记为unk,对单词切分时可以采用贪心算法进行。切分顺序是从后往前每次切1位,比如会把tokenization经过切分,变为[token,##ization],bert字典中也许并没有tokenization这个词),将text转换成了一个被分词后用于后续步骤。
在其中的一个实施例中,词向量模型Word2vec对文章进行分字处理部分使用语言表示模型BERT中的tokenizer,词向量模型Word2vec训练部分可以直接调用gensim库中的词(字)向量训练函数,训练维度可设置为100-300之间,如bert中的字向量维度为768,词向量模型Word2vec自训练的字向量维度为300,则拼接后的字向量维度为1068。
S105、通过该拼接后的字向量对预先搭建的深度学习分类模型进行训练,得到训练好的深度学习分类模型。
其中,该深度学习分类模型包括但不限于textCNN文本分类模型、LSTM(LongShort-Term Memory,长短期记忆网络)。
其中,对深度学习分类模型进行训练的基本步骤包括:
定义算法公式,也就是神经网络的前向算法。一般使用现成的网络,如inceptionV4,mobilenet等;
定义损失函数loss,选择优化器,来让损失函数loss最小;
通过拼接后的字向量对数据进行迭代训练,使损失函数loss到达最小;
在测试集或者验证集上对准确率进行评估。
S106、通过训练好的该深度学习分类模型对各主题下的待分类文本进行分类处理。
将待分类文本输入至该深度学习分类模型,即可得到该待分类文本所属的主题及该主题下所属的类型。
在实施例提出的文本分类方法方法,首先获取携带有标注信息的各个主题下不同类型的文本样本语料,对该文本样本语料通过词向量模型进行训练,得到第一字向量,再对该文本样本语料通过语言表示模型进行训练,得到第二字向量,然后对该第一字向量和该第二字向量进行拼接,得到拼接后的字向量,通过拼接后的字向量对预先搭建的深度学习分类模型进行训练,得到训练好的深度学习分类模型,由于本申请中训练模型的向量具有更多的表示维度,使得依据本发明训练好的深度学习分类模型相比现有模型,具有更高的分类精度,通过本申请训练好的深度学习分类模型对各主题下的待分类文本进行分类处理,使得对文本进行分类的分类结果更加准确。
一个实施例中,该步骤中获取携带有标注信息的各个主题下不同类型的文本样本语料的步骤包括:
接收用户输入的对各个主题下不同类型的文本样本语料的标注信息;
根据该文本样本语料所属的主题,获取各主题下不同类型的文本样本语料。
其中,可以根据文本分类所属的主题,对该主题下的文本样本语料进行收集,例如:如果是微博情感分类,则先收集大量微博文本语料;如果是政府公文主题分类,则先爬取大量公开政府公文。
在其中的一个实施例中,该接收用户输入的对各个主题下不同类型的文本样本语料的标注信息的步骤包括:
接收用户输入的对该文本样本语料的主题标注信息;
接收用户输入的对该文本样本语料的类型标注信息;
保存该文本样本语料的主题标注信息和该类型标注信息。
图3是本发明另一实施例中文本分类方法的一流程图,下面结合图3详细描述根据本发明另一实施例中文本分类方法,如图3所示,该文本分类方法在包括上述步骤S101至S106的基础上,还包括以下步骤S301和S302。
S301、获取该词向量模型的嵌入层。
其中,该词向量模型的嵌入层即embedding层。
S302、通过深度学习分类模型框架在该词向量模型的嵌入层之上构建分类模型层,得到该深度学习分类模型。
其中,Word2vec中的embedding就是要从数据中自动学习到输入节点之间的相互关系,例如girl与woman之间的关系,并用向量表示。该深度学习分类模型包括嵌入层、平坦层、隐藏层和输出层,本实施例中该深度学习分类模型的嵌入层选用词向量模型的嵌入层。
在其中一个实施例中,该文本分类方法还包括:
将所述深度学习分类模型存储于区块链节点中。
本实施例提出的文本分类方法针对少量标注样本的文本分类方法,在少量样本的情况下,利用BERT预训练模型,获取丰富的预训练字向量信息,同时结合该领域下特有的文本训练而成的字向量信息,更加全面的对文本中的字进行向量表征,从而达到在少量样本情况下尽可能获取外部知识获得较高的文本分类精度的效果。相比传统分类方法能够更好的捕捉文本的语义信息,相比于经典深度学习方法可以减少网络参数,降低过拟合影响分类精度。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种文本分类装置,该文本分类装置与上述实施例中文本分类方法一一对应。如图5所示,该文本分类装置100包括样本获取模块11、样本训练模块12、样本分字模块13、拼接模块14、训练模块15和分类处理模块16。各功能模块详细说明如下:
样本获取模块11,用于获取携带有标注信息的各个主题下不同类型的文本样本语料。
其中,所述主题包括但不限于新闻、微博情感、论文期刊等等。
进一步地,该新闻主题下包括的类型可以是军事类、娱乐类、科技类等;该微博情感主题下包括的类型可以是积极、中立、消极等;该论文期刊主题下包括的类型可以是物理学术、化学学术、计算机学术等等。
其中,该文本样本语料的标注信息可以通过用户输入得到,也可以从存储的数据中直接获取得到。
样本训练模块12,用于通过词向量模型对包含有该标注信息的该文本样本语料进行词向量训练,得到第一字向量。
其中,该词向量模型即词向量模型Word2vec,词向量模型Word2vec是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在Word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,Word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系。
样本分字模块13,用于通过语言表示模型对包含有该标注信息的该文本样本语料进行分字处理,得到第二字向量。
其中,语言表示模型即语言表示模型BERT(Bidirectional EncoderRepresentations from Transformers),语言表示模型BERT是一种预训练模型,可以理解为这是一个通用的NLU(Natural Language Understanding)模型,为不同的NLP(NaturalLanguage Processing,自然语言处理)任务提供支持。在实际使用时,只需要根据具体任务额外加入一个输出层进行微调即可,而不用为特定任务来修改模型结构。
预训练即提前已经给了一些初始化的参数,这个参数不是随机的,而是通过其他类似数据集上面学得的,然后再用具体的数据集进行学习,得到适合该数据集的参数,随机初始化不容易得到参数结果,但是不容易得到的这个参数结果是因为随机初始化的速度太慢,而不是最终的参数结果不一样。简单地说,预训练模型就是用某个较大的数据集训练好的模型,可以用这些预训练模型用到类似的数据集上进行模型微调,就比如本实施例中的语言表示模型BERT。
其中,该词向量模型配置的分词器与该语言表示模型配置的分词器相同。词向量模型配置的分词器与该语言表示模型配置的分词器相同使得后续步骤中第一字向量和第二字向量进行拼接时,能够对应的上。
拼接模块14,用于对该第一字向量和该第二字向量进行拼接,得到拼接后的字向量,该拼接后的字向量的维度为该第一字向量的维度与该第二字向量的维度之和。
为使得所述第一字向量和所述第二字向量在拼接的时候能够对应的上,所述文本分类装置100进一步包括:
配置模块,用于将所述语言表示模型BERT中的分词器tokenizer配置为所述词向量模型Word2vec中的分词器,所述词向量模型Word2vec与所述语言表示模型BERT使用相同的分词器tokenizer对所述文本语料进行处理。
tokenization的主要思路就是相当于分词,把一个输入的文本依次按照以下步骤进行处理:
清洗:用于对文本进行第一步处理的类,里面基本上都是预处理文本的方法,其中tokenize方法,返回的结果是经过处理的单词列表;
分词:对单词进行切分。例如如果单词长度超过200,就标记为unk,对单词切分时可以采用贪心算法进行。切分顺序是从后往前每次切1位,比如会把tokenization经过切分,变为[token,##ization],bert字典中也许并没有tokenization这个词),将text转换成了一个被分词后用于后续步骤。
在其中的一个实施例中,词向量模型Word2vec对文章进行分字处理部分使用语言表示模型BERT中的tokenizer,词向量模型Word2vec训练部分可以直接调用gensim库中的词(字)向量训练函数,训练维度可设置为100-300之间,如bert中的字向量维度为768,词向量模型Word2vec自训练的字向量维度为300,则拼接后的字向量维度为1068。
训练模块15,用于通过该拼接后的字向量对预先搭建的深度学习分类模型进行训练,得到训练好的深度学习分类模型。
其中,该深度学习分类模型包括但不限于textCNN文本分类模型、LSTM(LongShort-Term Memory,长短期记忆网络)。
分类处理模块16,用于通过训练好的该深度学习分类模型对各主题下的待分类文本进行分类处理。
用于将待分类文本输入至该深度学习分类模型,即可得到该待分类文本所属的主题及该主题下所属的类型。
在其中的一个实施例中,该词向量模型配置的分词器与该语言表示模型配置的分词器相同。
在其中的一个实施例中,该样本获取模块11具体包括:
标注接收单元,用于接收用户输入的对各个主题下不同类型的文本样本语料的标注信息;
样本获取单元,用于根据该文本样本语料所属的主题,获取各主题下不同类型的文本样本语料。
其中,可以根据文本分类所属的主题,对该主题下的文本样本语料进行收集,例如:如果是微博情感分类,则先收集大量微博文本语料;如果是政府公文主题分类,则先爬取大量公开政府公文。
在其中的一个实施例中,该标注接收单元具体用于:
接收用户输入的对该文本样本语料的主题标注信息;
接收用户输入的对该文本样本语料的类型标注信息;
保存该文本样本语料的主题标注信息和该类型标注信息。
在其中一个实施例中,该文本分类装置100还包括:
嵌入层获取模块,用于获取该词向量模型的嵌入层。其中该词向量模型的嵌入层即embedding层;
模型搭建模块,用于通过深度学习分类模型框架在该词向量模型的嵌入层之上构建分类模型层,得到该深度学习分类模型。
其中,Word2vec中的embedding就是要从数据中自动学习到输入节点之间的相互关系,例如girl与woman之间的关系,并用向量表示。
本实施例提出的文本分类装置针对少量标注样本的文本分类方法,在少量样本的情况下,利用BERT预训练模型,获取丰富的预训练字向量信息,同时结合该领域下特有的文本训练而成的字向量信息,更加全面的对文本中的字进行向量表征,从而达到在少量样本情况下尽可能获取外部知识获得较高的文本分类精度的效果。相比传统分类方法能够更好的捕捉文本的语义信息,相比于经典深度学习方法可以减少网络参数,降低过拟合影响分类精度。
其中,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块,本申请中所出现的模块的划分,仅仅是一种逻辑上的划分,实际应用中实现时可以有另外的划分方式。
关于文本分类装置的具体限定可以参见上文中对于文本分类方法的限定,在此不再赘述。上述文本分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部设备通过网络连接通信。该计算机程序被处理器执行时以实现一种文本分类方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中文本分类方法的步骤,例如图2所示的步骤101至步骤106及该方法的其它扩展和相关步骤的延伸。或者,处理器执行计算机程序时实现上述实施例中文本分类装置的各模块/单元的功能,例如图6所示模块11至模块16的功能。为避免重复,这里不再赘述。
所述处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、视频数据等)等。
所述存储器可以集成在所述处理器中,也可以与所述处理器分开设置。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中文本分类方法的步骤,例如图2所示的步骤101至步骤106及该方法的其它扩展和相关步骤的延伸。或者,计算机程序被处理器执行时实现上述实施例中文本分类装置的各模块/单元的功能,例如图5所示模块11至模块16的功能。为避免重复,这里不再赘述。
本实施例提供一种文本分类方法方法、装置、计算机设备及存储介质,首先获取携带有标注信息的各个主题下不同类型的文本样本语料,对该文本样本语料通过词向量模型进行训练,得到第一字向量,再对该文本样本语料通过语言表示模型进行训练,得到第二字向量,然后对该第一字向量和该第二字向量进行拼接,得到拼接后的字向量,通过拼接后的字向量对预先搭建的深度学习分类模型进行训练,得到训练好的深度学习分类模型,由于本申请中训练模型的向量具有更多的表示维度,使得依据本发明训练好的深度学习分类模型相比现有模型,具有更高的分类精度,通过本申请训练好的深度学习分类模型对各主题下的待分类文本进行分类处理,使得对文本进行分类的分类结果更加准确。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种文本分类方法,其特征在于,所述方法包括:
获取携带有标注信息的各个主题下不同类型的文本样本语料;
通过词向量模型对包含有所述标注信息的所述文本样本语料进行词向量训练,得到第一字向量;
通过语言表示模型对包含有所述标注信息的所述文本样本语料进行分字处理,得到第二字向量;
对所述第一字向量和所述第二字向量进行拼接,得到拼接后的字向量,所述拼接后的字向量的维度为所述第一字向量的维度与所述第二字向量的维度之和;
通过所述拼接后的字向量对预先搭建的深度学习分类模型进行训练,得到训练好的深度学习分类模型;
通过训练好的所述深度学习分类模型对各主题下的待分类文本进行分类处理。
2.根据权利要求1所述的文本分类方法,其特征在于,所述获取携带有标注信息的各个主题下不同类型的文本样本语料的步骤包括:
接收用户输入的对各个主题下不同类型的文本样本语料的标注信息;
根据所述文本样本语料所属的主题,获取各主题下不同类型的文本样本语料。
3.根据权利要求2所述的文本分类方法,其特征在于,所述接收用户输入的对各个主题下不同类型的文本样本语料的标注信息的步骤包括:
接收用户输入的对所述文本样本语料的主题标注信息;
接收用户输入的对所述文本样本语料的类型标注信息;
保存所述文本样本语料的主题标注信息和所述类型标注信息。
4.根据权利要求1所述的文本分类方法,其特征在于,搭建所述深度学习分类模型的步骤包括:
获取所述词向量模型的嵌入层;
通过深度学习分类模型框架在所述词向量模型的嵌入层之上构建分类模型层,得到所述深度学习分类模型。
5.根据权利要求4所述的文本分类方法,其特征在于,所述方法还包括:
将所述深度学习分类模型存储于区块链节点中。
6.根据权利要求1至5任一项所述的文本分类方法,其特征在于,所述词向量模型配置的分词器与所述语言表示模型配置的分词器相同。
7.一种文本分类装置,其特征在于,所述装置包括:
样本获取模块,用于获取携带有标注信息的各个主题下不同类型的文本样本语料;
样本训练模块,用于通过词向量模型对包含有所述标注信息的所述文本样本语料进行词向量训练,得到第一字向量;
样本分字模块,用于通过语言表示模型对包含有所述标注信息的所述文本样本语料进行分字处理,得到第二字向量;
拼接模块,用于对所述第一字向量和所述第二字向量进行拼接,得到拼接后的字向量,所述拼接后的字向量的维度为所述第一字向量的维度与所述第二字向量的维度之和;
训练模块,用于通过所述拼接后的字向量对预先搭建的深度学习分类模型进行训练,得到训练好的深度学习分类模型;
分类处理模块,用于通过训练好的所述深度学习分类模型对各主题下的待分类文本进行分类处理。
8.根据权利要求7所述的文本分类装置,其特征在于,所述样本获取模块具体包括:
标注接收单元,用于接收用户输入的对各个主题下不同类型的文本样本语料的标注信息;
样本获取单元,用于根据所述文本样本语料所属的主题,获取各主题下不同类型的文本样本语料。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述文本分类方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述文本分类方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010567353.5A CN111507099A (zh) | 2020-06-19 | 2020-06-19 | 文本分类方法、装置、计算机设备及存储介质 |
PCT/CN2020/117597 WO2021135446A1 (zh) | 2020-06-19 | 2020-09-25 | 文本分类方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010567353.5A CN111507099A (zh) | 2020-06-19 | 2020-06-19 | 文本分类方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111507099A true CN111507099A (zh) | 2020-08-07 |
Family
ID=71865085
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010567353.5A Pending CN111507099A (zh) | 2020-06-19 | 2020-06-19 | 文本分类方法、装置、计算机设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111507099A (zh) |
WO (1) | WO2021135446A1 (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112084337A (zh) * | 2020-09-17 | 2020-12-15 | 腾讯科技(深圳)有限公司 | 文本分类模型的训练方法、文本分类方法及设备 |
CN112528658A (zh) * | 2020-12-24 | 2021-03-19 | 北京百度网讯科技有限公司 | 层次化分类方法、装置、电子设备和存储介质 |
CN112820412A (zh) * | 2021-02-03 | 2021-05-18 | 东软集团股份有限公司 | 用户信息的处理方法、装置、存储介质和电子设备 |
CN112905794A (zh) * | 2021-02-24 | 2021-06-04 | 珠海高凌信息科技股份有限公司 | 基于迁移学习的互联网垃圾信息检测方法及系统 |
WO2021135446A1 (zh) * | 2020-06-19 | 2021-07-08 | 平安科技(深圳)有限公司 | 文本分类方法、装置、计算机设备及存储介质 |
CN113204698A (zh) * | 2021-05-31 | 2021-08-03 | 平安科技(深圳)有限公司 | 新闻主题词生成方法、装置、设备及介质 |
CN113239190A (zh) * | 2021-04-27 | 2021-08-10 | 天九共享网络科技集团有限公司 | 文档分类方法、装置、存储介质及电子设备 |
CN113282749A (zh) * | 2021-05-20 | 2021-08-20 | 北京明略软件系统有限公司 | 一种会话情感分类方法、系统、电子设备及存储介质 |
CN115687577A (zh) * | 2023-01-04 | 2023-02-03 | 交通运输部公路科学研究所 | 一种道路运输常态化问题诉求发现方法及系统 |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113516196B (zh) * | 2021-07-20 | 2024-04-12 | 云知声智能科技股份有限公司 | 命名实体识别数据增强的方法、装置、电子设备和介质 |
CN113590822B (zh) * | 2021-07-28 | 2023-08-08 | 北京百度网讯科技有限公司 | 文档标题的处理方法、装置、设备、存储介质及程序产品 |
CN113591471A (zh) * | 2021-08-20 | 2021-11-02 | 上海大参林医疗健康科技有限公司 | 一种基于字和词的语言特征提取装置及方法 |
CN113656587B (zh) * | 2021-08-25 | 2023-08-04 | 北京百度网讯科技有限公司 | 文本分类方法、装置、电子设备及存储介质 |
CN113868419B (zh) * | 2021-09-29 | 2024-05-31 | 中国平安财产保险股份有限公司 | 基于人工智能的文本分类方法、装置、设备及介质 |
CN114048288A (zh) * | 2021-11-10 | 2022-02-15 | 北京明略软件系统有限公司 | 细粒度情感分析方法、系统、计算机设备和存储介质 |
CN114780719A (zh) * | 2022-03-28 | 2022-07-22 | 京东城市(北京)数字科技有限公司 | 文本分类模型的训练方法、文本分类方法及装置 |
WO2024060066A1 (zh) * | 2022-09-21 | 2024-03-28 | 京东方科技集团股份有限公司 | 一种文本识别方法、模型及电子设备 |
CN115730237B (zh) * | 2022-11-28 | 2024-04-23 | 智慧眼科技股份有限公司 | 垃圾邮件检测方法、装置、计算机设备及存储介质 |
CN115934937B (zh) * | 2022-11-29 | 2024-01-23 | 北京百度网讯科技有限公司 | 文本分类模型的训练方法、文本分类方法及装置 |
CN116564538B (zh) * | 2023-07-05 | 2023-12-19 | 肇庆市高要区人民医院 | 一种基于大数据的医院就医信息实时查询方法及系统 |
CN116955628B (zh) * | 2023-08-08 | 2024-05-03 | 武汉市万睿数字运营有限公司 | 一种投诉事件分类方法、装置、计算机设备及存储介质 |
CN117391076B (zh) * | 2023-12-11 | 2024-02-27 | 东亚银行(中国)有限公司 | 敏感数据的识别模型的获取方法、装置、电子设备及介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017090051A1 (en) * | 2015-11-27 | 2017-06-01 | Giridhari Devanathan | A method for text classification and feature selection using class vectors and the system thereof |
CN108829818A (zh) * | 2018-06-12 | 2018-11-16 | 中国科学院计算技术研究所 | 一种文本分类方法 |
CN109697232A (zh) * | 2018-12-28 | 2019-04-30 | 四川新网银行股份有限公司 | 一种基于深度学习的中文文本情感分析方法 |
CN110069632A (zh) * | 2019-04-10 | 2019-07-30 | 华侨大学 | 一种集成浅层语义表示向量的深度学习文本分类方法 |
CN110334209A (zh) * | 2019-05-23 | 2019-10-15 | 平安科技(深圳)有限公司 | 文本分类方法、装置、介质及电子设备 |
CN110580288A (zh) * | 2019-08-23 | 2019-12-17 | 腾讯科技(深圳)有限公司 | 基于人工智能的文本分类方法和装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107423284B (zh) * | 2017-06-14 | 2020-03-06 | 中国科学院自动化研究所 | 融合中文单词内部结构信息的句子表示的构建方法及系统 |
CN107908635B (zh) * | 2017-09-26 | 2021-04-16 | 百度在线网络技术(北京)有限公司 | 建立文本分类模型以及文本分类的方法、装置 |
CN108595416A (zh) * | 2018-03-27 | 2018-09-28 | 义语智能科技(上海)有限公司 | 字符序列处理方法及设备 |
CN111222327B (zh) * | 2019-12-23 | 2023-04-28 | 东软集团股份有限公司 | 一种词嵌入表示方法、装置及设备 |
CN111507099A (zh) * | 2020-06-19 | 2020-08-07 | 平安科技(深圳)有限公司 | 文本分类方法、装置、计算机设备及存储介质 |
-
2020
- 2020-06-19 CN CN202010567353.5A patent/CN111507099A/zh active Pending
- 2020-09-25 WO PCT/CN2020/117597 patent/WO2021135446A1/zh active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017090051A1 (en) * | 2015-11-27 | 2017-06-01 | Giridhari Devanathan | A method for text classification and feature selection using class vectors and the system thereof |
CN108829818A (zh) * | 2018-06-12 | 2018-11-16 | 中国科学院计算技术研究所 | 一种文本分类方法 |
CN109697232A (zh) * | 2018-12-28 | 2019-04-30 | 四川新网银行股份有限公司 | 一种基于深度学习的中文文本情感分析方法 |
CN110069632A (zh) * | 2019-04-10 | 2019-07-30 | 华侨大学 | 一种集成浅层语义表示向量的深度学习文本分类方法 |
CN110334209A (zh) * | 2019-05-23 | 2019-10-15 | 平安科技(深圳)有限公司 | 文本分类方法、装置、介质及电子设备 |
CN110580288A (zh) * | 2019-08-23 | 2019-12-17 | 腾讯科技(深圳)有限公司 | 基于人工智能的文本分类方法和装置 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021135446A1 (zh) * | 2020-06-19 | 2021-07-08 | 平安科技(深圳)有限公司 | 文本分类方法、装置、计算机设备及存储介质 |
CN112084337A (zh) * | 2020-09-17 | 2020-12-15 | 腾讯科技(深圳)有限公司 | 文本分类模型的训练方法、文本分类方法及设备 |
CN112084337B (zh) * | 2020-09-17 | 2024-02-09 | 腾讯科技(深圳)有限公司 | 文本分类模型的训练方法、文本分类方法及设备 |
CN112528658B (zh) * | 2020-12-24 | 2023-07-25 | 北京百度网讯科技有限公司 | 层次化分类方法、装置、电子设备和存储介质 |
CN112528658A (zh) * | 2020-12-24 | 2021-03-19 | 北京百度网讯科技有限公司 | 层次化分类方法、装置、电子设备和存储介质 |
CN112820412A (zh) * | 2021-02-03 | 2021-05-18 | 东软集团股份有限公司 | 用户信息的处理方法、装置、存储介质和电子设备 |
CN112820412B (zh) * | 2021-02-03 | 2024-03-08 | 东软集团股份有限公司 | 用户信息的处理方法、装置、存储介质和电子设备 |
CN112905794A (zh) * | 2021-02-24 | 2021-06-04 | 珠海高凌信息科技股份有限公司 | 基于迁移学习的互联网垃圾信息检测方法及系统 |
CN112905794B (zh) * | 2021-02-24 | 2023-01-06 | 珠海高凌信息科技股份有限公司 | 基于迁移学习的互联网垃圾信息检测方法及系统 |
CN113239190A (zh) * | 2021-04-27 | 2021-08-10 | 天九共享网络科技集团有限公司 | 文档分类方法、装置、存储介质及电子设备 |
CN113239190B (zh) * | 2021-04-27 | 2024-02-20 | 天九共享网络科技集团有限公司 | 文档分类方法、装置、存储介质及电子设备 |
CN113282749A (zh) * | 2021-05-20 | 2021-08-20 | 北京明略软件系统有限公司 | 一种会话情感分类方法、系统、电子设备及存储介质 |
CN113204698B (zh) * | 2021-05-31 | 2023-12-26 | 平安科技(深圳)有限公司 | 新闻主题词生成方法、装置、设备及介质 |
CN113204698A (zh) * | 2021-05-31 | 2021-08-03 | 平安科技(深圳)有限公司 | 新闻主题词生成方法、装置、设备及介质 |
CN115687577A (zh) * | 2023-01-04 | 2023-02-03 | 交通运输部公路科学研究所 | 一种道路运输常态化问题诉求发现方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
WO2021135446A1 (zh) | 2021-07-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111507099A (zh) | 文本分类方法、装置、计算机设备及存储介质 | |
CN110717017B (zh) | 一种处理语料的方法 | |
CN111191078B (zh) | 基于视频信息处理模型的视频信息处理方法及装置 | |
CN108287858B (zh) | 自然语言的语义提取方法及装置 | |
CN104735468B (zh) | 一种基于语义分析将图像合成新视频的方法及系统 | |
CN110427614B (zh) | 段落层级的构建方法、装置、电子设备及存储介质 | |
CN114556328A (zh) | 数据处理方法、装置、电子设备和存储介质 | |
CN108304376B (zh) | 文本向量的确定方法、装置、存储介质及电子装置 | |
CN111739520A (zh) | 一种语音识别模型训练方法、语音识别方法、装置 | |
CN110334334A (zh) | 一种摘要生成方法、装置及计算机设备 | |
CN113836303A (zh) | 一种文本类别识别方法、装置、计算机设备及介质 | |
CN112560510A (zh) | 翻译模型训练方法、装置、设备及存储介质 | |
US10558760B2 (en) | Unsupervised template extraction | |
CN111985243A (zh) | 情感模型的训练方法、情感分析方法、装置及存储介质 | |
CN109922131A (zh) | 基于区块链的数据存储方法、装置、设备及存储介质 | |
CN113704508A (zh) | 多媒体信息识别方法、装置、电子设备及存储介质 | |
CN111401069A (zh) | 会话文本的意图识别方法、意图识别装置及终端 | |
CN112632962B (zh) | 人机交互系统中实现自然语言理解方法和装置 | |
CN116029303A (zh) | 语言表达方式识别方法、装置、电子设备和存储介质 | |
US20190243925A1 (en) | Quantum Superposition and Entanglement of Social Sentiment and Natural Language Generation | |
CN112364131B (zh) | 一种语料处理方法及其相关装置 | |
CN114925206A (zh) | 人工智能体、语音信息识别方法、存储介质和程序产品 | |
CN114722821A (zh) | 一种文本匹配方法、装置、存储介质及电子设备 | |
CN111222011B (zh) | 一种视频向量确定方法和装置 | |
CN113609287A (zh) | 一种文本摘要的生成方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |