CN110489559A - 一种文本分类方法、装置及存储介质 - Google Patents

一种文本分类方法、装置及存储介质 Download PDF

Info

Publication number
CN110489559A
CN110489559A CN201910804657.6A CN201910804657A CN110489559A CN 110489559 A CN110489559 A CN 110489559A CN 201910804657 A CN201910804657 A CN 201910804657A CN 110489559 A CN110489559 A CN 110489559A
Authority
CN
China
Prior art keywords
matrix
participle
text
reference information
sorted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910804657.6A
Other languages
English (en)
Inventor
李涛
李岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN201910804657.6A priority Critical patent/CN110489559A/zh
Publication of CN110489559A publication Critical patent/CN110489559A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本公开关于一种文本分类方法、装置及存储介质,涉及分类技术领域,以至少解决相关技术中对文本分类的准确度不高的问题。该方法中,基于文本中的分词、分词的词性以及文本中的标点符号对文本进行分类,将分词映射的词向量、分词词性映射的词性向量以及标点符号映射的标点向量作为文本的特征向量,并根据该特征向量对文本进行分类。这样,由于文本中的标点符号以及分词的词性对于理解文本提供了非常多的先验信息,使得到的特征向量可以更加准确的表达文本所表达的情感,从而提高了文本分类的准确度。

Description

一种文本分类方法、装置及存储介质
技术领域
本公开涉及分类技术领域,尤其涉及一种文本分类方法、装置及存储介质。
背景技术
文本分类是自然语言处理中一个非常重要的问题。文本分类的应用领域非常广,对于分析句子的感情色彩、过滤垃圾信息、理解文本的内在意图等有非常重要的作用。相关技术中,主要根据文本中的分词映射成的词向量作为文本的特征向量对文本进行分类,然而这种方法对文本分类的准确度并不高。
发明内容
本公开实施例提供一种文本分类方法、装置及存储介质,以至少解决相关技术中对文本分类的准确度不高的问题。
根据本公开实施例的第一方面,提供一种文本分类方法,包括:
获取待分类文本中的各分词以及至少一种参考信息,所述参考信息包括所述待分类文本中的标点符号和/或所述各分词的词性;
分别对所述各分词和各参考信息进行特征映射,得到分词的矩阵以及参考信息的矩阵;
对所述分词的矩阵以及所述参考信息的矩阵进行特征提取,得到所述待分类文本的特征向量;
根据所述待分类文本的特征向量,对所述待分类文本进行分类处理。
根据本公开实施例的第二方面,提供一种文本分类装置,包括:
获取单元,被配置为执行获取待分类文本中的各分词以及至少一种参考信息,所述参考信息包括所述待分类文本中的标点符号和/或所述各分词的词性;
特征映射单元,被配置为执行分别对所述各分词和各参考信息进行特征映射,得到分词的矩阵以及参考信息的矩阵;
特征提取单元,被配置为执行对所述分词的矩阵以及所述参考信息的矩阵进行特征提取,得到所述待分类文本的特征向量;
分类单元,被配置为执行根据所述待分类文本的特征向量,对所述待分类文本进行分类处理。
根据本公开实施例的第三方面,提供一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现一种文本分类方法;
根据本公开实施例的第四方面,提供一种存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行一种文本分类方法;
根据本公开实施例的第五方面,提供一种计算机程序产品,包括至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开实施例提供的文本分类方法。
本公开的实施例提供的技术方案至少带来以下有益效果:基于文本中的分词、分词的词性以及文本中的标点符号对文本进行分类,将分词映射的词向量、分词词性映射的词性向量以及标点符号映射的标点向量作为文本的特征向量,并根据该特征向量对文本进行分类。这样,由于文本中的标点符号以及分词的词性对于理解文本提供了非常多的先验信息,使得到的特征向量可以更加准确的表达文本所表达的情感,从而提高了文本分类的准确度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处所说明的附图用来提供对本公开的进一步理解,构成本公开的一部分,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。在附图中:
图1是根据一示例性实施例示出的一种文本分类方法的流程示意图。
图2是根据一示例性实施例示出的一种根据待分类文本中的各分词以及各标点符号确定待分类文本的特征向量的流程示意图。
图3是根据一示例性实施例示出的一种根据待分类文本中的各分词以及各分词词性确定待分类文本的特征向量的流程示意图。
图4是根据一示例性实施例示出的一种根据待分类文本中的各分词、各分词词性以及各标点符号确定待分类文本的特征向量的流程示意图。
图5是根据一示例性实施例示出的一种文本分类装置的框图。
图6是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
下面结合附图介绍本公开实施例提供的技术方案。
目前,在媒体信息共享平台上存在着非常多的文本信息,例如:媒体信息的标题有关媒体信息的评论以及媒体信息的语音文本等信息。通过对这些文本进行文本分类,可以便于感知媒体信息的感情色彩,对理解媒体信息有非常重要的作用。然而在相关技术中,对文本进行分类主要是基于文本中的分词,将分词映射的词向量作为文本的特征向量,并根据该特征向量对文本进行分类。但是目前这种方法对文本的分类准确度并不高。
有鉴于此,本公开为了提高文本分类的准确度,提供了一种文本分类方法。因文本中的标点符号以及分词的词性对于理解文本提供了非常多的先验信息,可以更好的理解该文本,因此,在该方法中,基于文本中的分词、分词的词性以及文本中的标点符号对文本进行分类,将分词映射的词向量、分词词性映射的词性向量以及标点符号映射的标点向量作为文本的特征向量,并根据该特征向量对文本进行分类。这样,通过获取文本中的分词、分词词性以及标点符号对文本进行分类,可以提高文本分类的准确度。
为便于理解,下面结合附图对本公开提供的技术方案做进一步说明。
图1是根据一示例性实施例示出的一种文本分类方法的流程图,包括以下步骤。
在步骤S11中,获取待分类文本中的各分词以及至少一种参考信息,所述参考信息包括所述待分类文本中的标点符号和/或所述各分词的词性。
在本公开实施例中,在获取了待分类文本后,对待分类文本进行分词处理以及去停用词处理,得到待分类文本的各分词。例如:若文本为“我想成为一个伟大的人”,进行分词处理后,得到的结果为“我/想/成为/一个/伟大的/人”;其中,“一个”为停用词,则对分词处理结果再进行去停用词处理,得到的各分词为“我/想/成为/伟大的/人”。
在本公开实施例中,可通过词性标注工具对分词进行标注词性。如上所述,“我/想/成为/伟大的/人”中,进行词性标注后,会得到各分词的词性。如:“我(名词)/想(动词)/成为(动词)/伟大的(形容词)/人(名词)”。
在本公开实施例中,通过对文本进行分句处理,得到该文本中的标点符号。例如:文本为“今天去公园玩了,好开心!”,进行处理后,得到的标点符号为:“,”和“!”。
在步骤S12中,分别对所述各分词和各参考信息进行特征映射,得到分词的矩阵以及参考信息的矩阵。
在本公开实施例中,将分词转化为矩阵,首先需要对各分词进行标记索引,用以确定各分词的词向量。其中,各分词的标记索引为预先设置好的。
例如,若确定的各分词为“我/想/成为/伟大的/人”,其中,查找到“我”的标记索引为1,则“我”的词向量为:
[1,0,0,0,0,0,0,0,0,0,0,0];
查找到“想”的标记索引为6,则“想”的词向量为:
[0,0,0,0,0,1,0,0,0,0,0,0];
查找到“成为”的标记索引为8,则“成为”的词向量为:
[0,0,0,0,0,0,0,1,0,0,0,0];
查找到“伟大的”的标记索引为12,则“伟大的”的词向量为:
[0,0,0,0,0,0,0,0,0,0,0,1];
查找到“人”的标记索引为2,则“人”的词向量为:
[0,1,0,0,0,0,0,0,0,0,0,0];
其中,该文本的词向量的维数均为12维,各词向量的维数相同;需要说明的是,词向量的维数可根据实际情况进行确定,本公开对此不作限定。
在得到了各分词的词向量后,确定分词的矩阵,即:
[1,0,0,0,0,0,0,0,0,0,0,0;
0,0,0,0,0,1,0,0,0,0,0,0;
0,0,0,0,0,0,0,1,0,0,0,0;
0,0,0,0,0,0,0,0,0,0,0,1;
0,1,0,0,0,0,0,0,0,0,0,0];
而如何获取参考信息的矩阵,在后文进行详细说明,在此不进行赘述。
在步骤S13中,对所述分词的矩阵以及所述参考信息的矩阵进行特征提取,得到所述待分类文本的特征向量。
在步骤S14中,根据所述待分类文本的特征向量,对所述待分类文本进行分类处理。
其中,可将待分类文本的特征向量通过分类器进行分类,得到分类结果。
这样,由于文本中的标点符号以及分词的词性对于理解文本提供了非常多的先验信息,因此,在对文本进行分类时,基于文本的分词、分词词性以及标点符号对文本进行特征提取,使得到的特征向量可以更加准确的表达文本所表达的情感,从而提高了文本分类的准确度。
在本公开实施例中,对步骤S12中对各参考信息进行特征映射,得到参考信息的矩阵进行具体解释说明,具体可实施为步骤A1-A3:
步骤A1:针对各参考信息,查找该参考信息的标记索引。
其中,各参考信息的标记索引为预先设置好的。例如:若参考信息为标点符号,有“,/。/?/!”四种标点符号,则可以将“,”的标记索引设置为1,“。”的标记索引设置为2,“?”的标记索引设置为5,“!”的标记索引设置为7。若参考信息为分词词性,有“名词/动词//形容词”三种分词词性,则可以将“名词”的标记索引设置为1,“动词”的标记索引设置为2,“形容词”的标记索引设置为3。当然,可根据实际情况对参考信息的标记索引进行设置,本公开对此不作限定。
步骤A2:根据所述参考信息的标记索引,确定该参考信息的指定维数的参考信息向量。
步骤A3:根据各参考信息的参考信息向量,确定参考信息的矩阵;其中,参考信息的数量作为所述参考信息的矩阵的行数;参考信息向量的维数作为所述分词参考信息的矩阵的列数。
这样,通过对参考信息设置标记索引,并能根据设置的标记索引确定参考信息的矩阵,使得参考信息也能作为文本分类的影响因素,从而提高了文本分类的准确性。
下面通过具体实施例对本公开的方法进行具体说明。本公开可分为以下三种方法:
一、参考信息为标点符号:
在本公开实施例中,若获取了待分类文本中的各分词以及各标点符号,则分别对分词和标点符号进行特征映射。其中,通过查找各标点符号的标记索引,确定标点符号的矩阵,具体可实施为步骤B1-B3:
步骤B1:针对各标点符号,查找该标点符号的标记索引。
其中,各标点符号的标记索引为预先设置好的。
步骤B2:根据所述标记索引,确定该标点符号的第一指定维数的标点向量。
步骤B3:根据各标点符号的标点向量,确定标点符号的矩阵;其中,标点符号的数量作为所述标点符号的矩阵的行数;标点向量的维数作为所述标点符号的矩阵的列数。
在一个实施例中,若确定的各标点符号为“,/,/。/?/!”,其中,查找到“,”的标记索引为1,则“,”的标点向量为:
[1,0,0,0,0,0,0,0,0,0];
查找到“。”的标记索引为2,则“。”的标点向量为:
[0,1,0,0,0,0,0,0,0,0];
查找到“?”的标记索引为5,则“?”的标点向量为:
[0,0,0,0,1,0,0,0,0,0];
查找到“!”的标记索引为7,则“!”的标点向量为:
[0,0,0,0,0,0,1,0,0,0];
其中,该实施例中的标点向量的维数均为10维,各标点向量的维数相同;需要说明的是,标点向量的维数可根据实际情况进行确定,本公开对此不作限定。
在得到了各标点符号的标点向量后,确定标点符号的矩阵,即:
[1,0,0,0,0,0,0,0,0,0;
1,0,0,0,0,0,0,0,0,0;
0,1,0,0,0,0,0,0,0,0;
0,0,0,0,1,0,0,0,0,0;
0,0,0,0,0,0,1,0,0,0];
在得到了标点符号的矩阵后,确定待分类文本的特征向量,具体可实施为步骤C1-C3:
步骤C1:将所述分词的矩阵通过神经网络模型进行特征提取,得到所述分词的特征向量。
步骤C2:将所述标点符号的矩阵通过神经网络模型进行特征提取,得到所述标点符号的特征向量。
在本公开实施例中,可通过CNN(Convolutional Neural Network,卷积神经网络)、RNN(Recurrent Neural Network,循环神经网络)或者其它神经网络模型对分词矩阵以及标点符号的矩阵进行特征提取,本公开对此不做限定。
需要说明的是,步骤C1、步骤C2执行顺序不受限。
步骤C3:将所述分词的特征向量与所述标点符号的特征向量进行拼接,得到所述待分类文本的特征向量。
在本公开实施例中,拼接方法具体可实施为:将所述分词的特征向量的维数与所述标点符号的特征向量的维数的和作为所述待分类文本的特征向量的维数;将所述分词的特征向量中的元素与所述标点符号的特征向量中的元素作为所述待分类文本的特征向量的元素。
例如,若经过特征提取得到的分词的特征向量为:[2,1,4,0,3];经过特征提取得到的标点符号的特征向量为:[1,2,1];经过拼接后,得到的待分类文本的特征向量为:[2,1,4,0,3,1,2,1]。这样,通过拼接操作,可以将两个特征向量融合在一起,且保证了两个特征向量的特征不发生改变。
这样,基于标点符号和分词来确定文本的特征向量,可以使得到的特征向量可以更加准确的表达文本所表达的情感,从而提高了文本分类的准确度。
如图2所示,其为根据待分类文本中的各分词以及各标点符号确定待分类文本的特征向量的流程示意图。其中,对待分类文本进行分词处理、分句处理后,得到该待分类文本的各分词以及各标点符号;对各分词进行特征映射得到分词的矩阵,对分词的矩阵进行特征提取,得到词向量;对各标点符号进行特征映射得到标点符号的矩阵,对标点符号的矩阵进行特征提取,得到标点向量;对词向量和标点向量进行拼接,得到待分类文本的特征向量,通过得到的特征向量进行文本分类处理。
二、参考信息为分词词性:
在本公开实施例中,若获取了待分类文本中的各分词以及各分词的词性,则分别对分词和分词词性进行特征映射。其中,通过查找各分词词性的标记索引,确定分词词性的矩阵,具体可实施为步骤D1-D3:
步骤D1:针对各分词词性,查找该分词词性的标记索引。
其中,各分词词性的标记索引为预先设置好的。
步骤D2:根据所述标记索引,确定该分词词性的第二指定维数的词性向量。
需要说明的是,第一指定维数与第二指定维数可以相同,也可以不同,本公开对此不做限定。
步骤D3:根据各分词词性的词性向量,确定分词词性的矩阵;其中,分词的数量作为所述分词词性的矩阵的行数;词性向量的维数作为所述分词词性的矩阵的列数。
在一个实施例中,若确定的各分词的词性为“名词/动词/动词/形容词/名词”,其中,若查找到“名词”的标记索引为1,则“名词”的词性向量为:
[1,0,0,0,0,0,0,0,0,0];
查找到“动词”的标记索引为2,则“动词”的词性向量为:
[0,1,0,0,0,0,0,0,0,0];
查找到“形容词”的标记索引为3,则“形容词”的词性向量为:
[0,0,3,0,0,0,0,0,0,0];
其中,该实施例中的词性向量的维数均为10维,各词性向量的维数相同;需要说明的是,词性向量的维数可根据实际情况进行确定,本公开对此不作限定。
在得到了各分词词性的词性向量后,确定分词词性的矩阵,即:
[1,0,0,0,0,0,0,0,0,0;
0,1,0,0,0,0,0,0,0,0;
0,1,0,0,0,0,0,0,0,0;
0,0,1,0,0,0,0,0,0,0;
1,0,0,0,0,0,0,0,0,0];
在得到了分词词性的矩阵后,确定待分类文本的特征向量,具体可实施为步骤E1-E3:
步骤E1:将所述分词的矩阵与所述分词词性的矩阵进行拼接,得到拼接矩阵。
步骤E2:将所述拼接矩阵通过神经网络模型进行特征提取,得到所述待分类文本的特征向量。
在本公开实施例中,可通过CNN、RNN或者其它神经网络模型对拼接矩阵以及标点符号的矩阵进行特征提取,本公开对此不做限定。
在本公开实施例中,拼接方法具体可实施为:将所述分词的矩阵的列数与所述分词词性的矩阵的列数的和作为所述拼接矩阵的列数;将所述分词的矩阵中的元素与所述分词词性的矩阵中的元素作为所述拼接矩阵的元素。
例如,若分词的矩阵为:
[1,0,0,0,0,0,0;
0,0,0,0,0,1,0;
0,0,0,1,0,0,0;
0,0,1,0,0,0,0];
分词词性的矩阵为:
[1,0,0,0;
0,1,0,0;
0,1,0,0;
0,0,1,0];
经过拼接后,得到的拼接矩阵为:
[1,0,0,0,0,0,0,1,0,0,0;
0,0,0,0,0,1,0,0,1,0,0;
0,0,0,1,0,0,0,0,1,0,0;
0,0,1,0,0,0,0,0,0,1,0];
其中,每个分词与该分词的词性组成一个词向量。这样,通过拼接操作,可以将两个矩阵融合在一起,且保证了两个矩阵的特征不发生改变。这样,基于分词和分词词性来确定文本的特征向量,可以使得到的特征向量可以更加准确的表达文本所表达的情感,从而提高了文本分类的准确度。
如图3所示,对待分类文本进行分词处理、词性标注后,得到该待分类文本的各分词以及各分词的词性;对各分词进行特征映射得到分词的矩阵;对各分词词性进行特征映射得到分词词性的矩阵;对分词的矩阵和分词词性的矩阵进行拼接,得到拼接矩阵;对拼接矩阵进行特征提取,得到待分类文本的特征向量,通过得到的特征向量进行文本分类处理。
三、参考信息为标点符号和分词词性:
在本公开实施例中,若获取了待分类文本中的各分词、各分词的词性以及各标点符号,则分别对分词和标点符号进行特征映射。
其中,可通过步骤B1-B3来确定标点符号的矩阵;以及通过步骤D1-D3来确定分词词性的矩阵。
在得到了分词词性的矩阵以及标点符号的矩阵后,确定待分类文本的特征向量,具体可实施为步骤F1-F4:
步骤F1:将所述分词的矩阵与所述分词词性的矩阵进行拼接,得到拼接矩阵。
步骤F2:将所述拼接矩阵通过神经网络模型进行特征提取,得到所述分词的特征向量。
步骤F3:将所述标点符号的矩阵通过神经网络模型进行特征提取,得到所述标点符号的特征向量。
步骤F4:将所述分词的特征向量与所述标点符号的特征向量进行拼接,得到所述待分类文本的特征向量。
在本公开实施例中,若得到的分词的矩阵为:
[1,0,0,0,0,0,0;
0,0,0,0,0,1,0;
0,0,0,1,0,0,0;
0,0,1,0,0,0,0];
分词词性的矩阵为:
[1,0,0,0;
0,1,0,0;
0,1,0,0;
0,0,1,0];
经过拼接后,得到的拼接矩阵为:
[1,0,0,0,0,0,0,1,0,0,0;
0,0,0,0,0,1,0,0,1,0,0;
0,0,0,1,0,0,0,0,1,0,0;
0,0,1,0,0,0,0,0,0,1,0];
对该拼接矩阵进行特征提取,若得到的分词的特征向量为:[2,1,3,4,3,2,1];若经过特征提取得到的标点符号的特征向量为:[1,2,1];经过拼接后,得到的待分类文本的特征向量为:[2,1,4,0,3,2,1,1,2,1]。
这样,基于分词、分词词性和标点符号来确定文本的特征向量,可以使得到的特征向量可以更加准确的表达文本所表达的情感,从而提高了文本分类的准确度。
如图4所示,对待分类文本进行分词处理、分句处理以及词性标注处理后,得到该待分类文本的各分词、各分词词性以及各标点符号;对各分词进行特征映射得到分词的矩阵;对各分词词性进行特征映射得到分词词性的矩阵;对分词的矩阵和分词词性的矩阵进行拼接,得到拼接矩阵;对拼接矩阵进行特征提取,得到词向量;对各标点符号进行特征映射得到标点符号的矩阵,对标点符号的矩阵进行特征提取,得到标点向量;对词向量和标点向量进行拼接,得到待分类文本的特征向量,通过得到的特征向量进行文本分类处理。
基于相同的发明构思,本公开还提供一种文本分类装置。如图5所示,为本公开提供的一种文本分类装置示意图。该装置包括:
获取单元501,被配置为执行获取待分类文本中的各分词以及至少一种参考信息,所述参考信息包括所述待分类文本中的标点符号和/或所述各分词的词性;
特征映射单元502,被配置为执行分别对所述各分词和各参考信息进行特征映射,得到分词的矩阵以及参考信息的矩阵;
特征提取单元503,被配置为执行对所述分词的矩阵以及所述参考信息的矩阵进行特征提取,得到所述待分类文本的特征向量;
分类单元504,被配置为执行根据所述待分类文本的特征向量,对所述待分类文本进行分类处理。
进一步的,特征映射单元502包括:
查找子单元,被配置为执行针对各参考信息,查找该参考信息的标记索引;
确定向量子单元,被配置为执行根据所述参考信息的标记索引,确定该参考信息的指定维数的参考信息向量;
确定矩阵子单元,被配置为执行根据各参考信息的参考信息向量,确定参考信息的矩阵;其中,参考信息的数量作为所述参考信息的矩阵的行数;参考信息向量的维数作为所述分词参考信息的矩阵的列数。
进一步的,若参考信息为所述待分类文本中的标点符号,则特征提取单元503包括:
第一提取子单元,被配置为执行将所述分词的矩阵通过神经网络模型进行特征提取,得到所述分词的特征向量;以及;
第二提取子单元,被配置为执行将所述标点符号的矩阵通过神经网络模型进行特征提取,得到所述标点符号的特征向量;
第一拼接子单元,被配置为执行将所述分词的特征向量与所述标点符号的特征向量进行拼接,得到所述待分类文本的特征向量。
进一步的,若参考信息为所述各分词词性,则特征提取单元503包括:
第二拼接子单元,被配置为执行将所述分词的矩阵与所述分词词性的矩阵进行拼接,得到拼接矩阵;
第三提取子单元,被配置为执行将所述拼接矩阵通过神经网络模型进行特征提取,得到所述待分类文本的特征向量。
进一步的,若参考信息为所述待分类文本中的标点符号和所述各分词的词性,则特征提取单元503包括:
第三拼接子单元,被配置为执行将所述分词的矩阵与所述分词词性的矩阵进行拼接,得到拼接矩阵;
第四提取子单元,被配置为执行将所述拼接矩阵通过神经网络模型进行特征提取,得到所述分词的特征向量;
第五提取子单元,被配置为执行将所述标点符号的矩阵通过神经网络模型进行特征提取,得到所述标点符号的特征向量;
第四拼接子单元,被配置为执行将所述分词的特征向量与所述标点符号的特征向量进行拼接,得到所述待分类文本的特征向量。
进一步的,通过以下装置进行拼接,包括:
第一确定和单元,被配置为执行将所述分词的特征向量的维数与所述标点符号的特征向量的维数的和作为所述待分类文本的特征向量的维数;
第一确定元素单元,被配置为执行将所述分词的特征向量中的元素与所述标点符号的特征向量中的元素作为所述待分类文本的特征向量的元素。
进一步的,通过以下装置进行拼接,包括:
第二确定和单元,被配置为执行将所述分词的矩阵的列数与所述分词词性的矩阵的列数的和作为所述拼接矩阵的列数;
第二确定元素单元,被配置为执行将所述分词的矩阵中的元素与所述分词词性的矩阵中的元素作为所述拼接矩阵的元素。
如图6所示,基于同一技术构思,本公开实施例还提供了一种电子设备60,可以包括存储器601和处理器602。
所述存储器601,用于存储处理器602执行的计算机程序。存储器601可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据显示信息处理装置的使用所创建的数据等。处理器602,可以是一个中央处理单元(central processing unit,CPU),或者为数字处理单元等。本公开实施例中不限定上述存储器601和处理器602之间的具体连接介质。本公开实施例在图6中以存储器601和处理器602之间通过总线603连接,总线603在图6中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。所述总线603可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器601可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器601也可以是非易失性存储器(non-volatilememory),例如只读存储器,快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD)、或者存储器601是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器601可以是上述存储器的组合。
处理器602,用于调用所述存储器601中存储的计算机程序时执行如图6中所示的实施例中设备所执行的方法。
在一些可能的实施方式中,本公开提供的方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在计算机设备上运行时,所述程序代码用于使所述计算机设备执行本说明书上述描述的根据本公开各种示例性实施方式的方法中的步骤,例如,所述计算机设备可以执行如图1~图4中所示的实施例中设备所执行的方法。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
尽管已描述了本公开的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本公开范围的所有变更和修改。本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (10)

1.一种文本分类方法,其特征在于,所述方法包括:
获取待分类文本中的各分词以及至少一种参考信息,所述参考信息包括所述待分类文本中的标点符号和/或所述各分词的词性;
分别对所述各分词和各参考信息进行特征映射,得到分词的矩阵以及参考信息的矩阵;
对所述分词的矩阵以及所述参考信息的矩阵进行特征提取,得到所述待分类文本的特征向量;
根据所述待分类文本的特征向量,对所述待分类文本进行分类处理。
2.根据权利要求1所述的方法,其特征在于,对各参考信息进行特征映射,得到参考信息的矩阵,包括:
针对各参考信息,查找该参考信息的标记索引;
根据所述参考信息的标记索引,确定该参考信息的指定维数的参考信息向量;
根据各参考信息的参考信息向量,确定参考信息的矩阵;其中,参考信息的数量作为所述参考信息的矩阵的行数;参考信息向量的维数作为所述分词参考信息的矩阵的列数。
3.根据权利要求2所述的方法,其特征在于,若参考信息为所述待分类文本中的标点符号,则所述对所述分词的矩阵以及所述参考信息的矩阵进行特征提取,得到所述待分类文本的特征向量,包括:
将所述分词的矩阵通过神经网络模型进行特征提取,得到所述分词的特征向量;以及,
将所述标点符号的矩阵通过神经网络模型进行特征提取,得到所述标点符号的特征向量;
将所述分词的特征向量与所述标点符号的特征向量进行拼接,得到所述待分类文本的特征向量。
4.根据权利要求2所述的方法,其特征在于,若参考信息为所述各分词词性,则所述对所述分词的矩阵以及所述参考信息的矩阵进行特征提取,得到所述待分类文本的特征向量,包括:
将所述分词的矩阵与所述分词词性的矩阵进行拼接,得到拼接矩阵;
将所述拼接矩阵通过神经网络模型进行特征提取,得到所述待分类文本的特征向量。
5.根据权利要求2所述的方法,其特征在于,若参考信息为所述待分类文本中的标点符号和所述各分词的词性,则所述对所述分词的矩阵以及所述参考信息的矩阵进行特征提取,得到所述待分类文本的特征向量,包括:
将所述分词的矩阵与所述分词词性的矩阵进行拼接,得到拼接矩阵;
将所述拼接矩阵通过神经网络模型进行特征提取,得到所述分词的特征向量;
将所述标点符号的矩阵通过神经网络模型进行特征提取,得到所述标点符号的特征向量;
将所述分词的特征向量与所述标点符号的特征向量进行拼接,得到所述待分类文本的特征向量。
6.根据权利要求3或5所述的方法,其特征在于,通过以下方法进行拼接,包括:
将所述分词的特征向量的维数与所述标点符号的特征向量的维数的和作为所述待分类文本的特征向量的维数;
将所述分词的特征向量中的元素与所述标点符号的特征向量中的元素作为所述待分类文本的特征向量的元素。
7.根据权利要求4或5所述的方法,其特征在于,通过以下方法进行拼接,包括:
将所述分词的矩阵的列数与所述分词词性的矩阵的列数的和作为所述拼接矩阵的列数;
将所述分词的矩阵中的元素与所述分词词性的矩阵中的元素作为所述拼接矩阵的元素。
8.一种文本分类装置,其特征在于,所述装置包括:
获取单元,被配置为执行获取待分类文本中的各分词以及至少一种参考信息,所述参考信息包括所述待分类文本中的标点符号和/或所述各分词的词性;
特征映射单元,被配置为执行分别对所述各分词和各参考信息进行特征映射,得到分词的矩阵以及参考信息的矩阵;
特征提取单元,被配置为执行对所述分词的矩阵以及所述参考信息的矩阵进行特征提取,得到所述待分类文本的特征向量;
分类单元,被配置为执行根据所述待分类文本的特征向量,对所述待分类文本进行分类处理。
9.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至7中任一项所述的文本分类方法。
10.一种存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1至7中任一项所述的文本分类方法。
CN201910804657.6A 2019-08-28 2019-08-28 一种文本分类方法、装置及存储介质 Pending CN110489559A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910804657.6A CN110489559A (zh) 2019-08-28 2019-08-28 一种文本分类方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910804657.6A CN110489559A (zh) 2019-08-28 2019-08-28 一种文本分类方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN110489559A true CN110489559A (zh) 2019-11-22

Family

ID=68555248

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910804657.6A Pending CN110489559A (zh) 2019-08-28 2019-08-28 一种文本分类方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN110489559A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111159409A (zh) * 2019-12-31 2020-05-15 腾讯科技(深圳)有限公司 基于人工智能的文本分类方法、装置、设备、介质
CN112241558A (zh) * 2020-09-03 2021-01-19 深圳市华阳国际工程设计股份有限公司 元素类型名的统一方法、装置以及计算机存储介质
CN113656587A (zh) * 2021-08-25 2021-11-16 北京百度网讯科技有限公司 文本分类方法、装置、电子设备及存储介质
CN115858772A (zh) * 2022-01-13 2023-03-28 北京中关村科金技术有限公司 对文本进行分类的方法、装置以及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108255805A (zh) * 2017-12-13 2018-07-06 讯飞智元信息科技有限公司 舆情分析方法及装置、存储介质、电子设备
CN109299264A (zh) * 2018-10-12 2019-02-01 深圳市牛鼎丰科技有限公司 文本分类方法、装置、计算机设备及存储介质
CN109726285A (zh) * 2018-12-18 2019-05-07 广州多益网络股份有限公司 一种文本分类方法、装置、存储介质及终端设备
CN110046250A (zh) * 2019-03-17 2019-07-23 华南师范大学 三嵌入卷积神经网络模型及其文本多分类方法
US10380260B2 (en) * 2017-12-14 2019-08-13 Qualtrics, Llc Capturing rich response relationships with small-data neural networks

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108255805A (zh) * 2017-12-13 2018-07-06 讯飞智元信息科技有限公司 舆情分析方法及装置、存储介质、电子设备
US10380260B2 (en) * 2017-12-14 2019-08-13 Qualtrics, Llc Capturing rich response relationships with small-data neural networks
CN109299264A (zh) * 2018-10-12 2019-02-01 深圳市牛鼎丰科技有限公司 文本分类方法、装置、计算机设备及存储介质
CN109726285A (zh) * 2018-12-18 2019-05-07 广州多益网络股份有限公司 一种文本分类方法、装置、存储介质及终端设备
CN110046250A (zh) * 2019-03-17 2019-07-23 华南师范大学 三嵌入卷积神经网络模型及其文本多分类方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111159409A (zh) * 2019-12-31 2020-05-15 腾讯科技(深圳)有限公司 基于人工智能的文本分类方法、装置、设备、介质
CN111159409B (zh) * 2019-12-31 2023-06-02 腾讯科技(深圳)有限公司 基于人工智能的文本分类方法、装置、设备、介质
CN112241558A (zh) * 2020-09-03 2021-01-19 深圳市华阳国际工程设计股份有限公司 元素类型名的统一方法、装置以及计算机存储介质
CN113656587A (zh) * 2021-08-25 2021-11-16 北京百度网讯科技有限公司 文本分类方法、装置、电子设备及存储介质
CN113656587B (zh) * 2021-08-25 2023-08-04 北京百度网讯科技有限公司 文本分类方法、装置、电子设备及存储介质
CN115858772A (zh) * 2022-01-13 2023-03-28 北京中关村科金技术有限公司 对文本进行分类的方法、装置以及存储介质

Similar Documents

Publication Publication Date Title
US11106714B2 (en) Summary generating apparatus, summary generating method and computer program
CN109726293B (zh) 一种因果事件图谱构建方法、系统、装置及存储介质
CN110489559A (zh) 一种文本分类方法、装置及存储介质
CN111222305B (zh) 一种信息结构化方法和装置
RU2571373C2 (ru) Метод анализа тональности текстовых данных
CN108595708A (zh) 一种基于知识图谱的异常信息文本分类方法
CN111159412B (zh) 分类方法、装置、电子设备及可读存储介质
CN108846138A (zh) 一种融合答案信息的问题分类模型构建方法、装置和介质
CN111143551A (zh) 文本预处理方法、分类方法、装置及设备
CN109800292A (zh) 问答匹配度的确定方法、装置及设备
CN106610990A (zh) 情感倾向性分析的方法及装置
CN111611393A (zh) 一种文本分类方法、装置及设备
CN115600605A (zh) 一种中文实体关系联合抽取方法、系统、设备及存储介质
CN110633456B (zh) 语种识别方法、装置、服务器及存储介质
CN111178080A (zh) 一种基于结构化信息的命名实体识别方法及系统
CN111563381A (zh) 文本处理方法和装置
Baniata et al. Sentence representation network for Arabic sentiment analysis
CN113051869B (zh) 一种结合语义识别实现标识文本差异内容的方法及系统
CN115796177A (zh) 用于实现中文分词与词性标注的方法、介质及电子设备
CN116263784A (zh) 面向图片文本的粗粒度情感分析方法及装置
CN112818687B (zh) 一种用于构建标题识别模型的方法、装置、电子设备以及存储介质
CN115130437A (zh) 一种文档智能填写方法、装置及存储介质
CN111126066B (zh) 基于神经网络的中文修辞手法的确定方法和装置
CN117501283A (zh) 文本到问答模型系统
CN114398489A (zh) 一种基于Transformer的实体关系联合抽取方法、介质及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191122