CN110399487A - 一种文本分类方法、装置、电子设备及存储介质 - Google Patents
一种文本分类方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN110399487A CN110399487A CN201910593186.9A CN201910593186A CN110399487A CN 110399487 A CN110399487 A CN 110399487A CN 201910593186 A CN201910593186 A CN 201910593186A CN 110399487 A CN110399487 A CN 110399487A
- Authority
- CN
- China
- Prior art keywords
- attribute
- vector
- sorted
- unstructured
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种文本分类方法、装置、电子设备及存储介质,其中方法包括:获取待分类文本中的结构化数据和非结构化数据;对于非结构化数据,根据LSTM神经网络模型,计算获得非结构化数据的非结构化特征向量;对于结构化数据,读取结构化数据中所有的属性值,并根据属性表,确定每一属性值对应的属性标识;对于结构化数据中的每一个属性值,根据属性向量矩阵,查找获得与属性标识对应的属性向量;并,根据每一属性向量获得结构化特征向量;根据非结构化特征向量和结构化特征向量,生成待分类特征向量;将所述待分类特征向量输入预先建立的逻辑回归分类器,计算获得所述待分类文本的分类结果。本发明能够对文本进行分类,提高编码效率,且节省内存。
Description
技术领域
本发明涉及文本分类技术领域,尤其涉及一种文本分类方法、装置、电子设备及存储介质。
背景技术
随着科学技术的不断发展,人类已经走进人工智能时代,常常需要智能产品具有文本分类功能。目前,智能产品的文本分类功能不仅只是对用户手动输入的文本进行识别、分类,在某些场景下,还需要对系统生成的某些文本、报单等文件的信息进行识别、分类,以决定下一步的执行动作。
为了便于数据的查找或存储,在系统中的某些数据一般以结构化数据进行存储,尤其是一些数据值比较规律的数据。现有技术中,对于带有结构化数据的文本,通常采用one-hot编码的方式来表示结构化数据,编码获得的向量特定位置上的元素为1,其他位置的元素均0,例如对于日期的星期,星期一表示为[1,0,0,0,0,0,0],星期二表示为[0,1,0,0,0,0,0],以此类推,星期天表示为[0,0,0,0,0,0,1]。
然而,采用one-hot编码的方式表示结构化数据,向量的长度就是词汇数量的长度,例如星期有7个数值,则每一个向量就包括有7个元素。中文词汇数可达百万级别,在文本分类时,采用现有技术的方案表示结构化数据的向量,编码速度慢,且需要消耗巨大的内存。
发明内容
本发明实施例所要解决的技术问题在于,提供一种文本分类方法、装置、电子设备及存储介质,能够对文本进行分类,提高编码效率,且节省内存。
第一方面,本发明实施例提供了一种文本分类方法,所述方法包括:
获取待分类文本中的结构化数据和非结构化数据;
对于所述非结构化数据,根据预设的LSTM神经网络模型,计算获得所述非结构化数据的非结构化特征向量;
对于所述结构化数据,读取所述结构化数据中所有的属性值,并根据预先建立的属性表,确定每一所述属性值对应的属性标识;对于所述结构化数据中的每一个属性值,根据预先生成的属性向量矩阵,查找获得与所述属性标识对应的属性向量;并,根据每一所述属性向量获得结构化特征向量;其中,所述属性表包括每一预设的元数据对应的所有属性值以及每一所述属性值唯一对应的属性标识,所述属性向量矩阵包括所有预设的属性值对应的所述属性标识以及与各个所述属性标识对应的属性向量;
根据所述非结构化特征向量和所述结构化特征向量,生成待分类特征向量;
将所述待分类特征向量输入预先建立的逻辑回归分类器,计算获得所述待分类文本的分类结果。
进一步的,所述将所述待分类特征向量输入预先建立的逻辑回归分类器,计算获得所述待分类文本的分类结果具体包括:
对所述待分类向量进行加权处理;
根据加权处理后的待分类向量,通过以下函数计算所述待分类文本的分类结果:
其中,x为所述待分类特征向量,θT为权重向量,hθ(x)为根据加权处理后的待分类向量获得的所述分类结果。
进一步的,所述逻辑回归分类器根据预设的训练样本进行训练;其中,每一条所述训练样本包括若干条待分类特征向量样本,每一所述待分类特征向量样本根据对应的非结构化特征向量样本和结构化特征向量样本构建,并预先标注有正确分类结果;
当训练所述逻辑回归分类器时,所述方法还包括:
将所述待分类特征向量样本输入所述逻辑回归分类器,计算获得所述待分类特征向量样本的模型分类结果;
根据所述正确分类结果,计算所述模型分类结果的损失误差;
根据所述损失误差,采用链式求导法则对所述训练样本进行更新,并根据更新后的训练样本对所述逻辑回归分类器进行优化训练。
进一步的,在所述根据预设的LSTM神经网络模型,计算获得所述非结构化数据的非结构化特征向量之前,还包括:
对所述非结构化数据进行预处理,并对预处理后的非结构化数据进行字符划分;
根据预设的标识映射表,确定划分出的每一字符对应的字符标识,并根据每一所述字符标识,在预设建立的字符向量矩阵中查询所述非结构化数据中的每一所述字符所对应的字符向量;其中,所述字符向量矩阵包括存储在预设的字符库中的每一个字符对应的字符向量;
则,所述根据预设的LSTM神经网络模型,计算获得所述非结构化数据的非结构化特征向量具体包括:
将所述非结构化数据中的每一所述字符对应的字符向量按照预设顺序依次输入所述LSTM神经网络模型,计算获得所述非结构化特征向量。
进一步的,所述属性表通过以下步骤建立:
确定在预先设置的所有元数据中的每一所述元数据所对应的所有属性值;
为每一个所述属性值分配唯一的属性标识;
根据每一所述属性值以及对应的所述属性标识,构建所述属性表。
进一步的,所述属性向量矩阵通过以下步骤建立:
获取所述属性表中的所有的所述属性标识;
按照预设的向量维度,为每一个所述属性标识生成唯一对应的属性向量;
根据每一所述属性标识以及对应的属性向量,构建所述属性向量矩阵。
进一步的,所述根据所述非结构化特征向量和所述结构化特征向量,生成待分类特征向量具体包括:
将所述非结构化特征向量中的元素和所述结构化特征向量中的元素横向合并,生成所述待分类特征向量。
第二方面,本发明实施例还提供了一种文本分类装置,所述装置包括:
获取模块,用于获取待分类文本中的结构化数据和非结构化数据;
非结构化特征向量计算模块,对于所述非结构化数据,根据预设的LSTM神经网络模型,计算获得所述非结构化数据的非结构化特征向量;
结构化特征向量计算模块,用于对于所述结构化数据,读取所述结构化数据中所有的属性值,并根据预先建立的属性表,确定每一所述属性值对应的属性标识;对于所述结构化数据中的每一个属性值,根据预先生成的属性向量矩阵,查找获得与所述属性标识对应的属性向量;并,根据每一所述属性向量获得结构化特征向量;其中,所述属性表包括每一预设的元数据对应的所有属性值以及每一所述属性值唯一对应的属性标识,所述属性向量矩阵包括所有预设的属性值对应的所述属性标识以及与各个所述属性标识对应的属性向量;
生成模块,用于根据所述非结构化特征向量和所述结构化特征向量,生成待分类特征向量;
分类结果计算模块,用于将所述待分类特征向量输入预先建立的逻辑回归分类器,计算获得所述待分类文本的分类结果。
第三方面,本发明实施例还提供了一种电子设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面任意一项所述的文本分类方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如第一方面任意一项所述的文本分类方法。
上述提供的一种文本分类方法、装置、电子设备及存储介质,能够通过LSTM神经网络模型获得非结构化特征向量,通过元数据嵌入的方式获得结构化特征向量,进而构成待分类特征向量;通过逻辑回归分类器对待分类特征向量进行处理得到文本的分类结果,能实现对文本进行分类。同时,由于本申请中的结构化数据的结构化特征向量是根据预设的属性表和属性向量矩阵获得且与属性值唯一对应,属性向量的长度无需与取值个数相同,直接利用计算机按照预定向量长度、预定的向量个数随机初始化出能够区分不同的属性值矩阵即可,相比于现有技术几百万级的向量长度、且需对向量的元素进行设置,本申请的属性向量只需几百的向量长度、且随机生成即可,提高了编码效率,且节省内存。
附图说明
图1是本发明实施一提供的一种文本分类方法的流程示意图;
图2是本发明实施例二提供的一种文本分类装置的结构示意图;
图3是本发明实施例三提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本实施例提供的文本分类方法可以由具有文本分类功能的文本分类设备执行,该文本分类设备可以通过软件和/或硬件的方式实现,该文本分类设备可以由一个或两个或多个物理实体构成。该文本分类设备可以是电脑、平板、服务器等。在实施例中,以待分类文本是游戏中的举报单为例进行描述,以举报单是举报对象需被处罚的举报单、举报单是举报对象不需被处罚的举报单这2种分类结果进行描述。
进一步的,该文本分类设备可以是与至少一个外部装置建立数据连接的设备。例如,与生成举报单(待分类文本)的设备是分离的设备,与生成待分类文本的设备建立数据连接。其中,生成待分类文本的设备包括但不限于:手机、笔记本电脑、USB闪存盘、平板电脑及台式电脑等。生成待分类文本的设备与文本分类设备的数据连接的通信方式实施例中不作限定,可以通过USB连接、互联网、局域网、蓝牙、Wi-Fi或紫峰协议(ZigBee)等通信方式。
进一步的,该文本分类设备可以是集成一体化的设备,例如集成有显示器、生成待分类文本的装置、文本分类装置。
具体的,本发明实施例提供了一种文本分类方法,请参阅图1,图1是本发明实施例一提供的一种文本分类方法的流程示意图;其中,所述方法包括:
S1、获取待分类文本中的结构化数据和非结构化数据;
S2、对于所述非结构化数据,根据预设的LSTM神经网络模型,计算获得所述非结构化数据的非结构化特征向量;
S3、对于所述结构化数据,读取所述结构化数据中所有的属性值,并根据预先建立的属性表,确定每一所述属性值对应的属性标识;对于所述结构化数据中的每一个属性值,根据预先生成的属性向量矩阵,查找获得与所述属性标识对应的属性向量;并,根据每一所述属性向量获得结构化特征向量;其中,所述属性表包括所有预设的属性值以及每一属性值唯一对应的属性标识,所述属性向量矩阵包括所有预设的属性值对应的所述属性标识以及与各个所述属性标识对应的属性向量;
S4、根据所述非结构化特征向量和所述结构化特征向量,生成待分类特征向量;
S5、将所述待分类特征向量输入预先建立的逻辑回归分类器,计算获得所述待分类文本的分类结果。
具体的,若待分类文本为游戏中的举报单,举报单中的非结构化数据为具体举报文本数据,举报单中的结构化数据的其中2个元数据以“聊天频道”、“角色”为例,以预设元数据“聊天频道”中取值对应有4个属性值:“队伍频道”、“世界频道”、“当前频道”、“帮派频道”,预设元数据“角色”中取值对应有3个属性值:“庄周”、“亚瑟”、“梦奇”为例;在待分类的举报单中“聊天频道”取值为“队伍频道”,“角色”取值为“亚瑟”,示例说明实施过程:
实施时,获取举报单中的举报文本数据、“聊天频道”的“队伍频道”、“角色”的“亚瑟”等字符数据。对于非结构化数据——举报文本数据,根据预设的LSTM神经网络模型,计算获得举报文本的非结构化特征向量,例如非结构特征向量为A=[a1,a2,a3,……,an],n≥1。对于结构化数据——元数据“聊天频道”中的“队伍频道”、元数据“角色”中的“亚瑟”,读取结构化数据中的所有属性值,获得属性值“队伍频道”、“亚瑟”;根据属性表,查询确定属性表中与“队伍频道”属性值对应的属性标识g、与“亚瑟”属性值对应的属性标识k;根据预设的属性向量矩阵,查找获得与属性标识g对应的属性向量B1=[B11,B12,B13,……,B1n]、与属性标识k对应的属性向量B2=[B21,B22,B23,……,B2n]。举报单中的每一属性值均查找获得相应的属性向量,构成结构化特征向量B。根据非结构化特征向量A和结构化特征向量B,生成待分类特征向量x。将待分类特征向量x输入预先建立的逻辑回归分类器,计算获得举报单的分类结果。
可选的,结构化特征向量可由每一属性向量横向合并生成,例如B=[B1,B2]=[B11,B12,B13,……,B1n,B21,B22,B23,……,B2n]。同样的,待分类特征向量也可由非结构化特征向量和结构化特征向量横向合并生成,例如:x=[A,B]=[a1,a2,a3,……,an,B11,B12,B13,……,B1n,B21,B22,B23,……,B2n]。
需要说明的是,结构化数据是指适于用二维表结构来逻辑表达和实现的数据,其可满足高速存储、数据备份和数据共享等需求。非结构化数据是指数据结构不规则或不完整,没有预定义的数据,例如图像、视频、音频、不确定内容的文本等。元数据是指描述其他数据的数据,是用于提供某些资源的有关信息的结构数据;其可预定义取值,即属性值。
需要说明的是,属性表与属性向量矩阵均是预先建立的,所有元数据下的所有属性值的属性标识、属性向量均可通过查询属性表、属性向量矩阵获得,属性表和属性向量矩阵均包括有各个属性值对应的属性标识,用于查找索引、确定与属性值的关系。
需要说明的是,结构化数据的每一个属性值均对应唯一的属性向量,属性向量的长度无需与取值个数相同,直接利用计算机按照预定向量长度、预定的向量个数随机初始化出能够区分不同的属性值矩阵即可。优选地,每一元数据分别对应一个属性向量矩阵,对应同一个元数据的所有属性值的属性向量的向量长度相同,便于神经网络或模型的前向和后向传播的计算。
本发明提供的一种文本分类方法,通过LSTM神经网络模型获得非结构化特征向量,通过元数据嵌入的方式,为元数据包含的所有属性值均预先对应的唯一的属性向量,以获得结构化特征向量,进而构成待分类特征向量;通过逻辑回归分类器对待分类特征向量进行处理得到文本的分类结果,本申请能实现对文本进行分类。由于本申请中的结构化数据的结构化特征向量是根据预设的属性表和属性向量矩阵获得且与属性值唯一对应,属性向量的长度无需与取值个数相同,直接利用计算机按照预定向量长度、预定的向量个数随机初始化出能够区分不同的属性值矩阵即可,相比于现有技术几百万级的向量长度、且需对向量的元素进行设置,本申请的属性向量只需几百的向量长度、且随机生成即可,提高了编码效率,且节省内存。
优选地,所述将所述待分类特征向量输入预先建立的逻辑回归分类器,计算获得所述待分类文本的分类结果具体包括:
对所述待分类向量进行加权处理;
根据加权处理后的待分类向量,通过以下函数计算所述待分类文本的分类结果:
其中,x为所述待分类特征向量,θT为权重向量,hθ(x)为根据加权处理后的待分类向量获得的所述分类结果。
具体实施时,假设引入权重向量θ=[θ1,θ2,θ3,……,θm],待分类特征向量为x=[c1,c2,c3,……,cm]。对向量x进行加权处理,通过公式计算,最终输出获得分类结果。
需要说明的是,对待分类特征向量进行加权处理,待分类特征向量中的每一个特征元素的加权值可以根据实际情况对不同属性值进行不同数值的加权处理,通过不同的权重将不同属性值的差别区分开,能够使获得的分类结果更为真实、准确。公式是逻辑回归函数(sigmoid函数)。
优选地,所述逻辑回归分类器根据预设的训练样本进行训练;其中,每一条所述训练样本包括若干条待分类特征向量样本,每一所述待分类特征向量样本根据对应的非结构化特征向量样本和结构化特征向量样本构建,并预先标注有正确分类结果;
当训练所述逻辑回归分类器时,所述方法还包括:
将所述待分类特征向量样本输入所述逻辑回归分类器,计算获得所述待分类特征向量样本的模型分类结果;
根据所述正确分类结果,计算所述模型分类结果的损失误差;
根据所述损失误差,采用链式求导法则对所述训练样本进行更新,并根据更新后的训练样本对所述逻辑回归分类器进行优化训练。
具体的,刚建立的逻辑回归分类器,还不具有准确计算输出分类结果的功能,需要通过训练样本集合X=[x1,x2,x3,……,xi]大量的训练样本xi=[ci1,ci2,ci3,……,cim]进行训练,从训练样本中学习各个特征与分类结果之间的联系,从而获得能准确输出分类结果的能力。训练样本已经预先标注好正确分类结果,供逻辑回归分类器学习和优化。当训练逻辑回归分类器时,将待分类特征向量样本输入逻辑回归分类器,计算获得待分类特征向量样本的模型分类结果;根据正确分类结果,计算模型分类结果的损失误差,通常采用均方差公式计算损失误差;根据损失误差,采用链式求导法则对训练样本进行更新,并根据更新后的训练样本对逻辑回归分类器进行优化训练。
需要说明的是,正确分类结果是指预先标注的真实、准确的分类结果,通常人为设定样本的正确分类结果;模型分类结果是指通过逻辑回归分类器输出的分类结果。采用采用链式求导法对训练样本进行更新时,也可以同时采用链式求导法对属性向量矩阵、LSTM神经网络模型的相关参数进行更新。
本发明提供的一种文本分类方法,能够不断地对逻辑回归分类器进行优化训练,使逻辑回归分类器的输出的分类结果能更好地逼近真实的分类结果,提高逻辑回归分类器的计算结果的准确性,进而使获得的分类结果更准确。
优选地,在所述根据预设的LSTM神经网络模型,计算获得所述非结构化数据的非结构化特征向量之前,还包括:
对所述非结构化数据进行预处理,并对预处理后的非结构化数据进行字符划分;
根据预设的标识映射表,确定划分出的每一字符对应的字符标识,并根据每一所述字符标识,在预设建立的字符向量矩阵中查询所述非结构化数据中的每一所述字符所对应的字符向量;其中,所述字符向量矩阵包括存储在预设的字符库中的每一个字符对应的字符向量;
则,所述根据预设的LSTM神经网络模型,计算获得所述非结构化数据的非结构化特征向量具体包括:
将所述非结构化数据中的每一所述字符对应的字符向量按照预设顺序依次输入所述LSTM神经网络模型,计算获得所述非结构化特征向量。
具体的,对非结构化数据进行预处理,例如将繁体字转化为简体字,并对预处理后的非结构化数据进行字符划分;根据预设的标识映射表,确定划分出的每一字符对应的字符标识,并根据每一字符标识,在字符向量矩阵中查询非结构化数据中的每一个字符所对应的字符向量,以此获得每一个字符的字符向量;计算非结构化特征向量时,将字符向量按照预定顺序依次输入LSTM神经网络模型,通常需要按照各个字符在非结构化数据中原本的排列顺序依次输入LSTM神经网络模型,计算获得非结构化特征向量。
优选地,所述属性表通过以下步骤建立:
确定在预先设置的所有元数据中的每一所述元数据所对应的所有属性值;
为每一个所述属性值分配唯一的属性标识;
根据每一所述属性值以及对应的所述属性标识,构建所述属性表。
具体实施时,元数据是预先设置的,每个元数据对应的所有属性值也是预先设置的,当建立属性表时,确定在预先设置的所有元数据中的每一所述元数据所对应的所有属性值,为每一个属性值分配唯一的属性标识;根据每一属性值以及对应的属性标识,构建属性表,如此便可根据属性值在属性表中查询到属性标识。
优选地,所述属性向量矩阵通过以下步骤建立:
获取所述属性表中的所有的所述属性标识;
按照预设的向量维度,为每一个所述属性标识生成唯一对应的属性向量;
根据每一所述属性标识以及对应的属性向量,构建所述属性向量矩阵。
具体实施时,当建立属性向量矩阵时,获取属性表中的所有的所述属性标识,按照预设的向量维度,为每一个属性标识生成唯一对应的属性向量,以此构建属性向量矩阵,便可通过属性标识查找获得每一属性值的属性向量。可选的,属性向量矩阵中所有属性向量的向量维度相同,即向量长度相同,便于后续LSTM神经网络模型的前向和后向传播计算。
优选地,所述根据所述非结构化特征向量和所述结构化特征向量,生成待分类特征向量具体包括:
将所述非结构化特征向量中的元素和所述结构化特征向量中的元素横向合并,生成所述待分类特征向量。
实施例二
本发明实施例还提供了一种文本分类装置,请参阅图2,图2是本发明实施例二提供的一种文本分类装置的结构示意图;具体的,所述装置包括:
获取模块11,用于获取待分类文本中的结构化数据和非结构化数据;
非结构化特征向量计算模块12,对于所述非结构化数据,根据预设的LSTM神经网络模型,计算获得所述非结构化数据的非结构化特征向量;
结构化特征向量计算模块13,用于对于所述结构化数据,读取所述结构化数据中所有的属性值,并根据预先建立的属性表,确定每一所述属性值对应的属性标识;对于所述结构化数据中的每一个属性值,根据预先生成的属性向量矩阵,查找获得与所述属性标识对应的属性向量;并,根据每一所述属性向量获得结构化特征向量;其中,所述属性表包括所有预设的属性值以及每一属性值唯一对应的属性标识,所述属性向量矩阵包括所有预设的属性值对应的所述属性标识以及与各个所述属性标识对应的属性向量;
生成模块14,用于根据所述非结构化特征向量和所述结构化特征向量,生成待分类特征向量;
分类结果计算模块15,用于将所述待分类特征向量输入预先建立的逻辑回归分类器,计算获得所述待分类文本的分类结果。
优选地,所述分类结果计算模块15具体用于:
对所述待分类向量进行加权处理;
根据加权处理后的待分类向量,通过以下函数计算所述待分类文本的分类结果:
其中,x为所述待分类特征向量,θT为权重向量,hθ(x)为根据加权处理后的待分类向量获得的所述分类结果。
优选地,所述逻辑回归分类器根据预设的训练样本进行训练;其中,每一条所述训练样本包括若干条待分类特征向量样本,每一所述待分类特征向量样本根据对应的非结构化特征向量样本和结构化特征向量样本构建,并预先标注有正确分类结果;
当训练所述逻辑回归分类器时,所述装置还包括优化训练模块,所述优化训练模块具体用于:
将所述待分类特征向量样本输入所述逻辑回归分类器,计算获得所述待分类特征向量样本的模型分类结果;
根据所述正确分类结果,计算所述模型分类结果的损失误差;
根据所述损失误差,采用链式求导法则对所述训练样本进行更新,并根据更新后的训练样本对所述逻辑回归分类器进行优化训练。
优选地,所述装置还包括字符向量查询模块,所述字符向量查询模块具体用于:
对所述非结构化数据进行预处理,并对预处理后的非结构化数据进行字符划分;
根据预设的标识映射表,确定划分出的每一字符对应的字符标识,并根据每一所述字符标识,在预设建立的字符向量矩阵中查询所述非结构化数据中的每一所述字符所对应的字符向量;其中,所述字符向量矩阵包括存储在预设的字符库中的每一个字符对应的字符向量;
则,所述非结构化特征向量计算模块12具体用于:
将所述非结构化数据中的每一所述字符对应的字符向量按照预设顺序依次输入所述LSTM神经网络模型,计算获得所述非结构化特征向量。
优选地,所述装置还包括属性表建立模块,所述属性表建立模块具体用于:
确定在预先设置的所有元数据中的每一所述元数据所对应的所有属性值;
为每一个所述属性值分配唯一的属性标识;
根据每一所述属性值以及对应的所述属性标识,构建所述属性表。
优选地,所述装置还包括属性向量矩阵建立模块,所述属性向量矩阵建立模块具体用于:
获取所述属性表中的所有的所述属性标识;
按照预设的向量维度,为每一个所述属性标识生成唯一对应的属性向量;
根据每一所述属性标识以及对应的属性向量,构建所述属性向量矩阵。
优选地,所述生成模块14具体用于:
将所述非结构化特征向量中的元素和所述结构化特征向量中的元素横向合并,生成所述待分类特征向量。
需要说明的是,本发明实施例二提供的所述文本分类装置用于执行上述实施一任一项所述的文本分类方法的步骤,两者的工作原理和有益效果一一对应,因而不再赘述。
本领域技术人员可以理解,所述文本分类装置的示意图仅仅是文本分类装置的示例,并不构成对文本分类装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述文本分类装置还可以包括输入输出设备、网络接入设备、总线等。
实施例三
本发明实施例还提供了一种电子设备,请参阅图3,图3是本发明实施例三提供的一种电子设备的结构示意图;具体的,所述电子设备包括处理器10、存储器20以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如实施例一提供的任意一项所述的文本分类方法。
具体的,该电子设备中的处理器、存储器均可以是一个或者多个,电子设备可以是电脑、手机、平板、服务器等。
本实施例的电子设备包括:处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序。所述处理器执行所述计算机程序时实现上述任一实施例提供的文本分类方法中的步骤,例如图1所示的步骤S1、获取待分类文本中的结构化数据和非结构化数据。或者,所述处理器执行所述计算机程序时实现上述各装置实施例中各模块的功能,例如实现获取模块11,用于获取待分类文本中的结构化数据和非结构化数据。
示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器中(如图3所示的计算机程序1、计算机程序2......),并由所述处理器执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述电子设备中的执行过程。例如,所述计算机程序可以被分割成获取模块11、非结构化特征向量计算模块12、结构化特征向量计算模块13、生成模块14和分类结果计算模块15,各模块具体功能如下:
获取模块11,用于获取待分类文本中的结构化数据和非结构化数据;
非结构化特征向量计算模块12,对于所述非结构化数据,根据预设的LSTM神经网络模型,计算获得所述非结构化数据的非结构化特征向量;
结构化特征向量计算模块13,用于对于所述结构化数据,读取所述结构化数据中所有的属性值,并根据预先建立的属性表,确定每一所述属性值对应的属性标识;对于所述结构化数据中的每一个属性值,根据预先生成的属性向量矩阵,查找获得与所述属性标识对应的属性向量;并,根据每一所述属性向量获得结构化特征向量;其中,所述属性表包括所有预设的属性值以及每一属性值唯一对应的属性标识,所述属性向量矩阵包括所有预设的属性值对应的所述属性标识以及与各个所述属性标识对应的属性向量;
生成模块14,用于根据所述非结构化特征向量和所述结构化特征向量,生成待分类特征向量;
分类结果计算模块15,用于将所述待分类特征向量输入预先建立的逻辑回归分类器,计算获得所述待分类文本的分类结果。。
所述电子设备可包括,但不仅限于,处理器、存储器。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述电子设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其中,所述电子设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述任一实施例提供的文本分类方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述任一实施例提供的文本分类方法的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
实施例四
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如实施例一提供的任意一项所述的文本分类方法。
综上所述,本发明提供的一种文本分类方法、一种文本分类装置、一种电子设备和一种计算机可读存储介质,具有以下有益效果:
(1)通过LSTM神经网络模型获得非结构化特征向量,通过元数据嵌入的方式,获得结构化特征向量,进而构成待分类特征向量;通过逻辑回归分类器对待分类特征向量进行处理得到文本的分类结果,能实现对文本进行分类。
(2)本申请中的结构化数据的结构化特征向量是根据预设的属性表和属性向量矩阵获得且与属性值唯一对应,属性向量的长度无需与取值个数相同,直接利用计算机按照预定向量长度、预定的向量个数随机初始化出能够区分不同的属性值矩阵即可,相比于现有技术几百万级的向量长度、且需对向量的元素进行设置,本申请的属性向量只需几百、且随机生成即可,提高了编码效率,且节省内存。
(3)进行文本分类时,对属性值进行加权处理,将不同的属性值的特征之间的差别区别开,能够使获得的分类结果更为真实、准确。
需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (10)
1.一种文本分类方法,其特征在于,所述方法包括:
获取待分类文本中的结构化数据和非结构化数据;
对于所述非结构化数据,根据预设的LSTM神经网络模型,计算获得所述非结构化数据的非结构化特征向量;
对于所述结构化数据,读取所述结构化数据中所有的属性值,并根据预先建立的属性表,确定每一所述属性值对应的属性标识;对于所述结构化数据中的每一个属性值,根据预先生成的属性向量矩阵,查找获得与所述属性标识对应的属性向量;并,根据每一所述属性向量获得结构化特征向量;其中,所述属性表包括每一预设的元数据对应的所有属性值以及每一所述属性值唯一对应的属性标识,所述属性向量矩阵包括所有预设的属性值对应的所述属性标识以及与各个所述属性标识对应的属性向量;
根据所述非结构化特征向量和所述结构化特征向量,生成待分类特征向量;
将所述待分类特征向量输入预先建立的逻辑回归分类器,计算获得所述待分类文本的分类结果。
2.如权利要求1所述的文本分类方法,其特征在于,所述将所述待分类特征向量输入预先建立的逻辑回归分类器,计算获得所述待分类文本的分类结果具体包括:
对所述待分类向量进行加权处理;
根据加权处理后的待分类向量,通过以下函数计算所述待分类文本的分类结果:
其中,x为所述待分类特征向量,θT为权重向量,hθ(x)为根据加权处理后的待分类向量获得的所述分类结果。
3.如权利要求1所述的文本分类方法,其特征在于,所述逻辑回归分类器根据预设的训练样本进行训练;其中,每一条所述训练样本包括若干条待分类特征向量样本,每一所述待分类特征向量样本根据对应的非结构化特征向量样本和结构化特征向量样本构建,并预先标注有正确分类结果;
当训练所述逻辑回归分类器时,所述方法还包括:
将所述待分类特征向量样本输入所述逻辑回归分类器,计算获得所述待分类特征向量样本的模型分类结果;
根据所述正确分类结果,计算所述模型分类结果的损失误差;
根据所述损失误差,采用链式求导法则对所述训练样本进行更新,并根据更新后的训练样本对所述逻辑回归分类器进行优化训练。
4.如权利要求1所述的文本分类方法,其特征在于,在所述根据预设的LSTM神经网络模型,计算获得所述非结构化数据的非结构化特征向量之前,还包括:
对所述非结构化数据进行预处理,并对预处理后的非结构化数据进行字符划分;
根据预设的标识映射表,确定划分出的每一字符对应的字符标识,并根据每一所述字符标识,在预设建立的字符向量矩阵中查询所述非结构化数据中的每一所述字符所对应的字符向量;其中,所述字符向量矩阵包括存储在预设的字符库中的每一个字符对应的字符向量;
则,所述根据预设的LSTM神经网络模型,计算获得所述非结构化数据的非结构化特征向量具体包括:
将所述非结构化数据中的每一所述字符对应的字符向量按照预设顺序依次输入所述LSTM神经网络模型,计算获得所述非结构化特征向量。
5.如权利要求1所述的文本分类方法,其特征在于,所述属性表通过以下步骤建立:
确定在预先设置的所有元数据中的每一所述元数据所对应的所有属性值;
为每一个所述属性值分配唯一的属性标识;
根据每一所述属性值以及对应的所述属性标识,构建所述属性表。
6.如权利要求5所述的文本分类方法,其特征在于,所述属性向量矩阵通过以下步骤建立:
获取所述属性表中的所有的所述属性标识;
按照预设的向量维度,为每一个所述属性标识生成唯一对应的属性向量;
根据每一所述属性标识以及对应的属性向量,构建所述属性向量矩阵。
7.如权利要求1所述的文本分类方法,其特征在于,所述根据所述非结构化特征向量和所述结构化特征向量,生成待分类特征向量具体包括:
将所述非结构化特征向量中的元素和所述结构化特征向量中的元素横向合并,生成所述待分类特征向量。
8.一种文本分类装置,其特征在于,所述装置包括:
获取模块,用于获取待分类文本中的结构化数据和非结构化数据;
非结构化特征向量计算模块,对于所述非结构化数据,根据预设的LSTM神经网络模型,计算获得所述非结构化数据的非结构化特征向量;
结构化特征向量计算模块,用于对于所述结构化数据,读取所述结构化数据中所有的属性值,并根据预先建立的属性表,确定每一所述属性值对应的属性标识;对于所述结构化数据中的每一个属性值,根据预先生成的属性向量矩阵,查找获得与所述属性标识对应的属性向量;并,根据每一所述属性向量获得结构化特征向量;其中,所述属性表包括每一预设的元数据对应的所有属性值以及每一所述属性值唯一对应的属性标识,所述属性向量矩阵包括所有预设的属性值对应的所述属性标识以及与各个所述属性标识对应的属性向量;
生成模块,用于根据所述非结构化特征向量和所述结构化特征向量,生成待分类特征向量;
分类结果计算模块,用于将所述待分类特征向量输入预先建立的逻辑回归分类器,计算获得所述待分类文本的分类结果。
9.一种电子设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的文本分类方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至7中任意一项所述的文本分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910593186.9A CN110399487B (zh) | 2019-07-01 | 2019-07-01 | 一种文本分类方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910593186.9A CN110399487B (zh) | 2019-07-01 | 2019-07-01 | 一种文本分类方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110399487A true CN110399487A (zh) | 2019-11-01 |
CN110399487B CN110399487B (zh) | 2021-09-28 |
Family
ID=68322662
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910593186.9A Active CN110399487B (zh) | 2019-07-01 | 2019-07-01 | 一种文本分类方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110399487B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111177392A (zh) * | 2019-12-31 | 2020-05-19 | 腾讯云计算(北京)有限责任公司 | 一种数据处理方法及装置 |
CN111444344A (zh) * | 2020-03-27 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 实体分类方法、装置、计算机设备和存储介质 |
CN112132073A (zh) * | 2020-09-28 | 2020-12-25 | 中国银行股份有限公司 | 垃圾分类方法及装置、存储介质及电子设备 |
CN112487787A (zh) * | 2020-08-21 | 2021-03-12 | 中国银联股份有限公司 | 一种基于知识图谱确定目标信息的方法和装置 |
CN113434672A (zh) * | 2021-06-24 | 2021-09-24 | 未鲲(上海)科技服务有限公司 | 文本类型智能识别方法、装置、设备及介质 |
CN113505228A (zh) * | 2021-07-22 | 2021-10-15 | 上海弘玑信息技术有限公司 | 一种多维文本数据分类方法、训练方法和装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101499075A (zh) * | 2008-01-28 | 2009-08-05 | 万德洪 | 一种数据挖掘系统以及实现方法和应用 |
CN102194013A (zh) * | 2011-06-23 | 2011-09-21 | 上海毕佳数据有限公司 | 一种基于领域知识的短文本分类方法及文本分类系统 |
CN107451433A (zh) * | 2017-06-27 | 2017-12-08 | 中国科学院信息工程研究所 | 一种基于文本内容的信息源识别方法与装置 |
CN108182295A (zh) * | 2018-02-09 | 2018-06-19 | 重庆誉存大数据科技有限公司 | 一种企业知识图谱属性抽取方法及系统 |
JP2018207270A (ja) * | 2017-06-02 | 2018-12-27 | 株式会社 ハンモック | 非構造化fax書面分類システム |
CN109684394A (zh) * | 2018-12-13 | 2019-04-26 | 北京百度网讯科技有限公司 | 文本生成方法、装置、设备和存储介质 |
-
2019
- 2019-07-01 CN CN201910593186.9A patent/CN110399487B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101499075A (zh) * | 2008-01-28 | 2009-08-05 | 万德洪 | 一种数据挖掘系统以及实现方法和应用 |
CN102194013A (zh) * | 2011-06-23 | 2011-09-21 | 上海毕佳数据有限公司 | 一种基于领域知识的短文本分类方法及文本分类系统 |
JP2018207270A (ja) * | 2017-06-02 | 2018-12-27 | 株式会社 ハンモック | 非構造化fax書面分類システム |
CN107451433A (zh) * | 2017-06-27 | 2017-12-08 | 中国科学院信息工程研究所 | 一种基于文本内容的信息源识别方法与装置 |
CN108182295A (zh) * | 2018-02-09 | 2018-06-19 | 重庆誉存大数据科技有限公司 | 一种企业知识图谱属性抽取方法及系统 |
CN109684394A (zh) * | 2018-12-13 | 2019-04-26 | 北京百度网讯科技有限公司 | 文本生成方法、装置、设备和存储介质 |
Non-Patent Citations (2)
Title |
---|
SUJITH RAVI等: "Using structured text for large-scale attribute extraction", 《PROCEEDINGS OF THE 17TH ACM CONFERENCE ON INFORMATION AND KNOWLEDGE MANAGEMENT》 * |
赵志滨等: "含有丰富结构化数据的Web页面分类技术的研究", 《计算机研究与发展》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111177392A (zh) * | 2019-12-31 | 2020-05-19 | 腾讯云计算(北京)有限责任公司 | 一种数据处理方法及装置 |
CN111444344A (zh) * | 2020-03-27 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 实体分类方法、装置、计算机设备和存储介质 |
CN111444344B (zh) * | 2020-03-27 | 2022-10-25 | 腾讯科技(深圳)有限公司 | 实体分类方法、装置、计算机设备和存储介质 |
CN112487787A (zh) * | 2020-08-21 | 2021-03-12 | 中国银联股份有限公司 | 一种基于知识图谱确定目标信息的方法和装置 |
CN112132073A (zh) * | 2020-09-28 | 2020-12-25 | 中国银行股份有限公司 | 垃圾分类方法及装置、存储介质及电子设备 |
CN112132073B (zh) * | 2020-09-28 | 2024-03-29 | 中国银行股份有限公司 | 垃圾分类方法及装置、存储介质及电子设备 |
CN113434672A (zh) * | 2021-06-24 | 2021-09-24 | 未鲲(上海)科技服务有限公司 | 文本类型智能识别方法、装置、设备及介质 |
WO2022267167A1 (zh) * | 2021-06-24 | 2022-12-29 | 未鲲(上海)科技服务有限公司 | 文本类型智能识别方法、装置、设备及介质 |
CN113434672B (zh) * | 2021-06-24 | 2023-12-19 | 中核深圳凯利集团有限公司 | 文本类型智能识别方法、装置、设备及介质 |
CN113505228A (zh) * | 2021-07-22 | 2021-10-15 | 上海弘玑信息技术有限公司 | 一种多维文本数据分类方法、训练方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110399487B (zh) | 2021-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110399487A (zh) | 一种文本分类方法、装置、电子设备及存储介质 | |
CN107766929B (zh) | 模型分析方法及装置 | |
CN109582793A (zh) | 模型训练方法、客服系统及数据标注系统、可读存储介质 | |
Zhang et al. | MLRNN: Taxi demand prediction based on multi-level deep learning and regional heterogeneity analysis | |
CN109446430A (zh) | 产品推荐的方法、装置、计算机设备及可读存储介质 | |
CN111815432B (zh) | 金融服务风险预测方法及装置 | |
CN110852881B (zh) | 风险账户识别方法、装置、电子设备及介质 | |
CN109033277A (zh) | 基于机器学习的类脑系统、方法、设备及存储介质 | |
US10592777B2 (en) | Systems and methods for slate optimization with recurrent neural networks | |
CN109690581B (zh) | 用户指导系统及方法 | |
CN105975457A (zh) | 基于全自动学习的信息分类预测系统 | |
CN109214410A (zh) | 一种提升多标签分类正确率的方法及系统 | |
CN110427484A (zh) | 一种基于深度学习的中文自然语言处理方法 | |
Petersen et al. | Differentiable sorting networks for scalable sorting and ranking supervision | |
CN109544196A (zh) | 预约订单的价格倍数确定方法和装置 | |
CN109145342A (zh) | 自动布线系统及方法 | |
CN114996464B (zh) | 一种利用有序信息的文本分级方法及装置 | |
CN109214407A (zh) | 事件检测模型、方法、装置、计算设备及存储介质 | |
CN105574213A (zh) | 一种基于数据挖掘技术的微博推荐方法及装置 | |
Shiue et al. | Development of machine learning‐based real time scheduling systems: using ensemble based on wrapper feature selection approach | |
CN111814056A (zh) | 基于信息处理的供应商推荐方法及相关设备 | |
CN115392237B (zh) | 情感分析模型训练方法、装置、设备及存储介质 | |
Pawar et al. | Optimized ensembled machine learning model for IRIS plant classification | |
CN112785005A (zh) | 多目标任务的辅助决策方法、装置、计算机设备及介质 | |
CN114912030A (zh) | 权益模型训练方法、推荐方法及电子终端和计算机介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |