CN109918506A - 一种文本分类方法及装置 - Google Patents
一种文本分类方法及装置 Download PDFInfo
- Publication number
- CN109918506A CN109918506A CN201910173508.4A CN201910173508A CN109918506A CN 109918506 A CN109918506 A CN 109918506A CN 201910173508 A CN201910173508 A CN 201910173508A CN 109918506 A CN109918506 A CN 109918506A
- Authority
- CN
- China
- Prior art keywords
- vector
- text
- word
- feature vector
- word feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请公开一种文本分类方法及装置,首先获取文本的字特征向量,并根据字特征向量生成文本的局部语义向量,以在提取到的分类特征中融入字特征,使文本的语义表示更加丰富,提高分类方法的准确性和泛化性;然后抽取文本的结构化信息和所述结构化信息对应的上下文信息,并根据结构化信息和上下文信息生成文本的结构语义向量,由于结构化信息及其上下文信息尽可能多的保留了文本的结构信息,因此可以提高方法对于敏感词汇过滤任务的准确性;最后根据局部语义向量和结构语义向量,输出文本的类别结果,以通过丰富语义表示和保留结构信息两个方面,综合提升分类方法的准确率和泛化性。
Description
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种文本分类方法及装置。
背景技术
随着互联网行业的高速发展,网络上的信息得到了极大的丰富。对网络上海量的文本数据进行分类或过滤,对文本数据的分享、传播以及挖掘利用,以及保障网络环境的健康具有重要意义。例如,对政治敏感、色情词汇等不符合互联网使用环境甚至违反国家法律法规的内容,采用敏感内容检测技术识别其中存在的敏感信息,以阻止此类信息的传播。其中,敏感内容检测的常用技术是包括敏感词过滤和文本分类。
文本分类是自然语言处理的一个基本任务,试图推断出给定的文本(句子、文档等)的标签或标签集合,也是许多自然语言处理应用的基础任务。传统的文本分类工作主要集中在三个主题,即特征工程、特征选择和各类机器学习算法。然而,传统的特征表示方法往往忽略文本中的上下文信息或词序,对于捕捉词的语义仍然不满意,分类的准确性较低。
此外,传统的机器学习方法主要利用自然语言处理中的N-Gram模型的思想对文本进行特征提取,并且使用TF-IDF(term frequency–inverse document frequency)对N-Gram特征权重进行调整,然后将提取到的文本特征输入到Logistics回归、SVM等分类器中进行训练。但是,上述特征提取方法存在数据稀疏和维度爆炸等问题,这对分类器来说是灾难性的,并且使得训练的模型泛化能力有限。
发明内容
本申请提供一种文本分类方法及装置,以解决现有的文本分类方法准确率低、泛化能力差的问题。
第一方面,本申请提供了一种文本分类方法,该方法包括:
获取文本的字特征向量,根据所述字特征向量生成所述文本的局部语义向量;
抽取所述文本的结构化信息和所述结构化信息对应的上下文信息,并根据所述结构化信息和所述上下文信息生成所述文本的结构语义向量;
根据所述局部语义向量和所述结构语义向量,输出所述文本的类别结果。
第二方面,本申请提供了一种文本分类装置,该装置包括:
局部语义获取模块,用于获取文本的字特征向量,根据所述字特征向量生成所述文本的局部语义向量;
结构语义获取模块,用于抽取所述文本的结构化信息和所述结构化信息对应的上下文信息,并根据所述结构化信息和所述上下文信息生成所述文本的结构语义向量;
输出模块,用于根据所述局部语义向量和所述结构语义向量,输出所述文本的类别结果。
由以上技术方案可知,本申请提供的文本分类方法及装置,首先获取文本的字特征向量,并根据字特征向量生成文本的局部语义向量,以在提取到的分类特征中融入字特征,使文本的语义表示更加丰富,提高分类方法的准确性和泛化性;然后抽取文本的结构化信息和所述结构化信息对应的上下文信息,并根据结构化信息和上下文信息生成文本的结构语义向量,由于结构化信息及其上下文信息尽可能多的保留了文本的结构信息,因此可以提高方法对于敏感词汇过滤任务的准确性;最后根据局部语义向量和结构语义向量,输出文本的类别结果,以通过丰富语义表示和保留结构信息两个方面,综合提升分类方法的准确率和泛化性。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请文本分类方法的一个实施例流程图;
图2为图1所示实施例中步骤110的一种实现方法流程图;
图3为本申请实施例的一个应用场景示意图;
图4为本申请实施例的另一个应用场景示意图;
图5为图1所示实施例中步骤120的一种实现方法流程图;
图6为本申请文本分类装置的一个实施例示意图;
图7为本申请文本分类装置的一种细化框图;
图8为本申请文本分类装置的另一种细化框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
为了解决现有的文本分类方法准确率低及分类模型泛化能力差的问题,本申请实施例提供一种文本分类方法及装置,其基本思路是,首先利用卷积神经网络从文本中提取包括有字特征的局部语义向量;再基于知识图谱及其向量表示方法从文本中提取结构化信息并将其表示为结构语义向量;最后将前述局部语义向量和结构语义向量连接,并作为分类器输出层的输入,输出分类结果。
需要说明的是,本申请上述方法实施例涉及的全部步骤均可以通过构建一个文本分类解析模型来实现。
图1为本申请文本分类方法的一个实施例流程图。如图1所示,该方法可以包括以下步骤:
步骤110,获取文本的字特征向量,根据字特征向量生成文本的局部语义向量。
自然语言处理任务的输入即为一个文本片段,它可以是由若干字、词和符号组成的一个或多个句子,也可以是一个或多个段落。每一个文本中,字、词、符号的含义及位置信息共同决定了文本的语义。
CNN(Convolutional Neural Networks,卷积神经网络)是一种可以用于提取文本特征以实现文本分类的神经网络模型。利用CNN提取文本特征的过程,首先是将文本的每个分词的向量表示拼接成一个表达前述文本的词向量序列;然后,利用CNN网络预设的卷积核对前述词向量序列进行卷积计算,以获取文本的局部语义信息,该局部语义信息仍然通过向量来表达。步骤110中涉及的局部语义向量即是指包括文本的局部语义信息的向量。
在自然语言处理任务中,文本需经过表示生成向量,才能作为计算机可以理解并处理的对象,同时,文本的向量表示,也是影响分类结果的关键。然而,现有技术通常仅考虑“词汇”所携带的语义信息,对文本进行切词,而后基于每个词汇进行向量表示,往往忽略“字”的重要性,因而提取到的语义信息不够丰富,进而使分类器具有较低的准确率。此外,由于文本的随意性和非规范化,基于词汇的向量表示,也使分类器具有较低的泛化能力。例如:
示例1:“这是一部港台风的电影。”
对示例1进行分词将得到:这/是/一部/港/台风/的/电影/。
对示例1进行分字将得到:这/是/一/部/港/台/风/的/电/影/。
可见,由于/台风/和港/台/风具有完全不同的语义,因此针对此类文本,基于词汇的向量表示,将难以提取到准确的语义信息,并会降低分类器的泛化能力。
因此,为了获得更加丰富的语义信息,在步骤110中获取文本的字特征向量,并根据该字特征向量生成文本的局部语义向量,以使提取到的文本特征包括字特征,进而提高文本分类的准确性。
本申请实施例主要提供两种在文本的分类特征中融入字特征的方式。根据获取文本字特征的方式的不同,最后生成文本的局部语义向量的过程也有所不同。为了便于区分和说明,在下述实施例中,将第一种实现方式中,Bi-LSTM模型的输出成为第二词特征向量,将第二种实现方式中,Bi-LSTM模型的输出称为第二词特征向量。
下面将分别对该两种实现方式作具体说明。
在第一种可能的实现方式中,可以通过步骤111至步骤114,来获取文本的字向量特征。如图2所示:
在步骤111中,对文本进行切字,得到字序列。
在步骤112中,根据字序列生成字向量矩阵。在本实现方式中,该字向量矩阵由文本中所有字对应的向量连接而成,因此,该字向量矩阵代表完整的文本。其中,每个字对应的字向量可以随机初始化或者预训练得到。
例如,待处理文本是一个包含n个字的句子,切字后得到一个n维的字序列{c1,c2,…,cn},如{这/是/一/部/港/台/风/的/电/影/。},其中ci代表一个字。然后,将该n维字序列转换成n×d1大小的字向量矩阵,其中d1代表字向量的维度。
在步骤113中,分别采用不同大小的卷积核对字向量矩阵进行卷积处理,得到各个卷积核对应的卷积处理结果,以及在步骤114中,拼接卷积处理结果以得到字特征向量。
具体的,可以将该字向量矩阵作为一预设CNN网络的输入,以利用CNN从字向量矩阵中提取字特征。该预设CNN网络需要包括多个具有不同大小的卷积核,进而可以分别采用不同大小的卷积核对字向量矩阵进行卷积处理,并输出相应的卷积处理结果;将每个卷积核对应的卷积处理结果拼接,得到字特征向量。
需要说明的是,通过多个具有不同大小的卷积核,可以得到字向量矩阵在不同视角下的特征表示,最后将全部的处理结果拼接在一起,得到的字特征向量将包含更丰富、全面的语义表示。
例如,预设CNN网络可以包括8个具有不同窗口的卷积核,使用每一个卷积核对字向量矩阵进行卷积,可以得到8个相应的卷积处理结果,再将其拼接,即得到文本的字特征向量。
对于通过上述方法获取的字特征向量,相应地,生成文本的局部语义向量的基本思路是,首先利用Bi-LSTM模型获取文本的第一词特征向量,然后根据前述字特征向量和第一词特征向量生成文本的局部语义向量,其中,Bi-LSTM即双向长短记忆网络,较单向的LSTM,Bi-LSTM能更好地捕获句子中上下文的信息。
继续参阅图2,具体可以包括下述步骤:
在步骤115中,将文本切割成词表示,得到包含全部词汇的切词结果。当然,可以去除停用词和一些低频词。
在步骤116中,根据预先构建的词汇-索引映射表,从预训练的词向量模型中读取出每个词汇对应的词嵌入向量。
在步骤117中,将全部的词嵌入向量作为初始值输入到Bi-LSTM模型中,以利用Bi-LSTM模型实现对文本的处理,其输出为文本的第一词特征向量。
本申请实施例结合一个词和它的上下文来呈现一个词,上下文有利于获得到更准确的词义。Bi-LSTM模型是一个双向的循环神经网络模型,可以用来捕获上下文。
具体的,我们将cl(wi)定义为词wi左边的文本,将cr(wi)定义为词wi右边的文本。cl(wi)和cr(wi)都是具有|c|个实值元素的稠密向量。然后,分别通过下式来计算cl(wi)和cr(wi)。
cl(wi)=f(W(l)cl(wi-1)+W(sl)e(wi-1))
cr(wi)=f(W(r)cr(wi+1)+W(sr)e(wi+1))
在cl(wi)的计算公式中,e(wi-1)是词wi-1的词嵌入,它是一个长度为|e|的实值向量;cl(wi-1)是上一个词wi-1的左半部分文本;矩阵W(l)用于将隐藏层转换为下一个隐藏层;矩阵W(sl)用于将当前词的语义与下一个词的上下文结合起来;f是非线性激活函数;当i=1时,w1的左半边文本共享参数cl(w1);同理,在cr(wi)的计算公式中,当i=n时,wn的右半边文本共享参数cr(wn)。
在上述定义的基础上,我们可以定义单词wi的表示形式如下:
xi=[cl(wi);e(wi);cr(wi)]
即左侧上下文向量cl(wi),词嵌入表示e(wi)和右侧上下文向量cr(wi)的连接。
结合一个词和它的上下文来呈现一个词,可以更好地消除“wi”的含糊含义,从而提高文本语义表示的准确性。
在步骤118中,利用一卷积层对第一词词特征向量进行卷积处理,再对卷积处理结果进行池化处理。
卷积神经网络(CNN)一般由输入层、卷积层、激活函数、池化层和全连接层组成。其中,卷积层用于提取输入文本的特征,根据预设的卷积核、窗口、以及步长的不同,卷积层的输出为一个特定维度的特征向量。
池化层用于对卷积层输出的特正向量进行压缩,一方面降低向量维度,简化网络计算复杂度,另一方面通过压缩来进一步提取主要特征。池化处理一般分为两种,一种是最大池化处理,另一种是平均池化处理。其中,最大池化处理是在输入向量的每一个区域中查找最大值来构成输出向量,而平均池化处理是求取每个区域内元素的平均数来构成输出向量。
由于池化处理对于特征提取的误差主要来自两个方面,其一是邻域大小受限造成的估计值方差增大,其二是卷积层参数误差造成估计均值的偏移。因此,为了综合消除以上两方面误差,本实施例将两种池化操作相结合,以使提取到的主要特征更为准确。
具体的,在步骤118中,将卷积处理结果分别输入至一最大池化层和一平均池化层,则将输出两个池化处理结果,并在步骤119中,将这两个池化处理结果与前述字特征向量拼接,得到局部语义向量。
需要说明的是,本申请方法实施例中涉及的全部池化处理步骤,均可以通过如步骤118所述的方式实现,以下将不再赘述。
在步骤110的以上实现方式中,一方面,基于文本本身或者说基于文本包含的句子,来获取文本的字向量矩阵,并通过卷积处理提取出字特征向量,另一方面使用Bi-LSTM模型对基于词汇的词嵌入向量进行处理,来获取文本的第一词特征向量,并通过卷积和池化操作进一步提取分类特征;最后将两方面的结果拼接,得到融有字特征的局部语义向量。
与前述第一种实现方式有所区别,在第二种可能的实现方式,获取文本的字特征向量可以包括:首先对文本进行切词,得到全部分词;然后对每个词汇进行切字,再将每个词汇对应的切字结果转换成字向量矩阵。例如,待处理文本是一个包含m个词汇的句子,切词后得到m个词汇{w1,w2,…,wm},其中wi代表一个词汇;假设每个词汇wi至多包含k个字,则每个词汇对应的字向量矩阵大小为k×d1。最后对每个词汇对应的字向量矩阵进行卷积处理,并对卷积处理结果进行池化处理,得到对应于文本中每个词汇的字特征向量。
可见,在本实现方式中,基于每个词汇的字进行卷积操作,以使字特征向量的作用是表征文本中的每个词汇。
相应地,根据字特征向量生成局部语义向量的思路是:根据文本的前述切词结果和预先构建的词汇-索引映射表,从预训练的词向量模型中读取出每个词汇的词嵌入向量;再将每个词汇对应的词嵌入向量及字特征向量共同作为初始值输入到Bi-LSTM模型中,以利用Bi-LSTM模型实现对文本的处理,此时,Bi-LSTM模型的处理对象包括文本的基于词的向量表示和基于字的向量表示。Bi-LSTM模型的输出为文本的第二词特征向量。然后,再利用一卷积层对第二词特征向量进行卷积处理,再对卷积处理结果进行池化处理,得到文本的局部语义向量。
本实施例步骤110记载了如何获得文本的字特征向量及如何生成文本的局部语义向量,并具体提供了两种可能的实现方式,在实际应用中,本领域技术人员可以依据标注语料的质量、文本长度、领域以及具体的分类任务,来选择适合的实现方式。需要说明的是,基于本申请方法思路,即融入字特征以丰富文本语义表示,通过替换某些步骤,或调换步骤执行顺序而得到的其他实现方式,均属于本申请的公开范围。
步骤120,抽取文本的结构化信息和所述结构化信息对应的上下文信息,并根据结构化信息和上下文信息生成文本的结构语义向量。其中,结构化信息具体指用于描述知识图谱的三元组信息。
知识图谱是旨在描述真实世界中存在的各种实体或概念及其关系的一张巨大的语义网络图。图中的节点表示实体或概念,边则表示实体或概念之间的关系,又称实体关系。
具体而言,实体指的是具有可区别性且独立存在的某种事物,如某一个人、某一个城市、某一种植物等、某一种商品等命名实体;概念是指具有同种特性的实体构成的集合、类别、类型等,如国家、民族、人物、地理等。实体关系一般包括两种,其一是实体之间的关系,其二是实体在指定属性下的值。
为了方便计算机的处理和理解,一般采用三元组来表示知识。典型的三元组样例如或者(实体-属性-属性值)。可见,关系和属性的区别在于,关系所在的三元组包括两个实体,属性所在的三元组包括一个实体。
本实施例中,结构化信息是从非结构化的文本中提取出的、结构化的实体关系三元组信息,包括至少一个实体词和用于描述所述实体词的关系词。
例如,对于如下知识:
示例2:我家乡的特产是板栗;
示例3:我的家乡有30万人口
在示例2-示例3中,可以分别抽取出(家乡-特产-板栗)和(家乡-人口-30万)。其中,家乡、板栗为实体词,特产、人口则为关系词,30万为与属性“人口”对应的值对。
结构化信息的抽取,不同于切词、切字等文本处理,原因是:从上述示例中可以看出,结构化信息仅包括句子中含有的实体词及关系词,去除了其他噪声或干扰词汇,与此同时能够保留文本的结构信息;除此之外,结构化信息是对文本进行知识层面的相似度量,抽取结构化信息相当于挖掘出文本中潜在的知识层面上的联系,因此在一些敏感词汇的过滤任务中,基于本申请方法的分类器具有更高的准确性和泛化性。
在具体实现中,可以首先将文本中的句子或段落与知识图谱中的实体对应,并进行消歧;然后利用识别出来的识别出来的实体词和关系词,在原本的知识图谱中剥离出一个知识子图,该子图即包含了文本的结构化信息。
另外,还可以对文本进行分词、词性标注以及依存句法分析处理,然后根据指定的范式从前述处理结果中抽取实体关系三元组。例如:
示例4:林老师刚去上海参加了学术研讨会,并在同济大学发表演讲
对示例4进行分词、词性标注以及依存句法分析,处理结果如图3所示。然后采用图4所示的范式,从图3示出的结果中抽取实体关系三元组,抽取结果如下:
(林老师,去,上海),其满足图4所示范式二(图4中DSNF2);
(林老师,发表演讲,同济大学),其满足图4所示范式二(图4中DSNF3)。
此外,为了更好地利用一个实体在知识图谱的位置信息,以保证提取到更为全面的结构信息,避免信息损失,本实施例通过抽取结构化信息对应的上下文信息来进一步刻画每个实体,并将上下文信息加入到构建的知识子图上。其中,上下文信息包括与结构化信息中的实体词相连的上下实体词,在知识图谱上,上下实体词是指与实体词具有one-hop连接的实体和对应的关系。抽取文本的结构化信息和上下文信息,即是使用实体关系三元组来描述文本,由于三元组包含实体及其关系,因此可以更加全面地保留文本的结构信息。
图5为生成文本的结构语义向量的方法流程图。如图5所示,在这种可能的实现方式中,根据结构化信息和上下文信息生成文本的结构语义向量的步骤,可以包括:
步骤121,根据结构化信息生成文本的多重特征向量。其中,结构化信息包括至少一个实体词和用于描述所述至少一个实体词的关系词。
多重特征向量是结构化信息的向量化表示,即使用诸如Trans-E、Trans-H、Trans-R模型,将实体与关系嵌入到低维向量空间中。对于实体关系三元组(h,r,t),Trans-E、Trans-H、Trans-R都认为每种关系只对应一种语义表示,而在实际情况中,关系r可能代表不同的含义。例如,在(山脉-位置-地区)和(地区-位置-国家)中,关系“位置”即代表山脉-国家的关系,也代表地区-国家的关系。
为了解决关系的多种语义表示,本实施例使用基于动态矩阵的Trans-D模型将文本的结构化信息表示成多重特征向量。对于两个实体和一种关系来讲,可以有两种表示,其一是其自身的语义表示(h,r,t),另一是构建映射矩阵Mrh和Mrt的表示(hp,rp,tp)。而h和t的动态转移矩阵分别由其自身的映射矩阵和关系r的映射矩阵所决定。具体公式如下:
h⊥=Mrhh,t⊥=Mrtt
其中,Mrh表示h和映射矩阵,Mrt表示t的和映射矩阵;h⊥和t⊥表示实体的投影向量。
步骤122,根据上下文信息生成多重特征向量对应的上下文特征向量。其中,上下文信息可以包括与结构化信息中实体词相连的上下实体词。
具体的,可以使用下式,生成所述多重特征向量对应的上下文特征向量;
context(e)={ei|(e,r,ei)∈Gor(ei,r,e)∈G}
其中,ei表示上下实体词的词嵌入向量;表示根据上下实体词得到的上下文特征向量。可见,上下文特征向量即为相应的上下实体词的词嵌入向量的平均。
步骤123,将多重特征向量和上下文特征向量分别输入至全连接层,对全连接层输出的相应结果进行拼接,并对拼接得到向量进行池化,得到所述结构语义向量。
本实施例步骤120记载了如何抽取文本的结构化信息及其对应的上下文信息,并生成文本的结构语义向量,以挖掘出文本中潜在的知识层面上的联系,同时能够保留语义信息和结构信息,使文本的语义表示更为丰富,进而提高文本分类的准确性和泛化性。
步骤130,根据局部语义向量和结构语义向量,输出所述文本的类别结果。
具体的,将局部语义向量和结构语义向量拼接后,输入到一预先训练好的、基于softmax函数的分类器输出层,其输出即为文本的类别结果。
在步骤130中,通过将局部语义向量和结构语义向量相结合,在丰富语义表示和保留结构信息两个方面,综合提升分类方法的准确率和泛化性。
由以上技术方案可知,本申请提供的文本分类方法,首先获取文本的字特征向量,并根据字特征向量生成文本的局部语义向量,以在提取到的分类特征中融入字特征,使文本的语义表示更加丰富,提高分类方法的准确性和泛化性;然后抽取文本的结构化信息和所述结构化信息对应的上下文信息,并根据结构化信息和上下文信息生成文本的结构语义向量,由于结构化信息及其上下文信息尽可能多的保留了文本的结构信息,因此可以提高方法对于敏感词汇过滤任务的准确性;最后根据局部语义向量和结构语义向量,输出文本的类别结果,以通过丰富语义表示和保留结构信息两个方面,综合提升分类方法的准确率和泛化性。
需说明的是,根据本申请文本分类方法的不同的实施例,可以构建不同的层次结构的文本分类模型,上述示例并不构成对本申请保护范围及实现方式的限定。
根据上述实施例提供的文本分类方法,本实施例提供一种文本分类装置。该装置可以应用于服务器、PC(个人电脑)、平板电脑、手机、虚拟现实设备和智能穿戴设备等多种设备中。
图6为该文本分类装置的一个实施例示意图。如图6所示,该装置可以包括:局部语义获取模块410,用于获取文本的字特征向量,根据所述字特征向量生成所述文本的局部语义向量;
结构语义获取模块420,用于抽取所述文本的结构化信息和所述结构化信息对应的上下文信息,并根据所述结构化信息和所述上下文信息生成所述文本的结构语义向量;
输出模块430,用于根据所述局部语义向量和所述结构语义向量,输出所述文本的类别结果。
图7为本申请文本分类装置的一种细化框图。如图7所示,局部语义获取模块410可以包括词特征获取子模块411和字特征获取子模块412。
其中,字特征获取子模块412自下至上包括:字嵌入层、卷积层和拼接层;字嵌入层用于对所述文本进行切字,得到字序列,以及根据所述字序列生成字向量矩阵;卷积层用于分别采用不同大小的卷积核对所述字向量矩阵进行卷积处理,得到各个卷积核对应的卷积处理结果;拼接层用于拼接所述卷积处理结果以得到所述字特征向量。
词特征获取模块411自下至上包括词嵌入层、基于Bi-LSTM模型的表示层、卷积层、最大池化层以及平均池化层;其中,词嵌入层用于将文本切割成词表示,得到包含全部词汇的切词结果,根据预先构建的词汇-索引映射表,从预训练的词向量模型中读取出每个词汇对应的词嵌入向量;表示层用于将全部的词嵌入向量作为初始值输入到Bi-LSTM模型中,以利用Bi-LSTM模型实现对文本的处理,其输出为文本的第一词特征向量;卷积层用于对第一词词特征向量进行卷积处理;最大池化层以及平均池化层分别用于对卷积处理结果进行池化处理。
继续参阅图7,本实施例中,结构语义获取模块420包括:结构化信息表示层、上下文信息表示层、全连接层、拼接层、最大池化层、平均池化层。
其中,结构化信息表示层用于根据所述结构化信息生成所述文本的多重特征向量;上下文信息表示层用于根据所述上下文信息生成所述多重特征向量对应的上下文特征向量;全连接层用于对输入的多重特征向量和上下文特征向量进行全连接地线性变换处理;拼接层用于对所述全连接层输出的相应结果进行拼接;最大池化层以及平均池化层分别用于对拼接得到向量进行池化。
输出模块430包括拼接子模块431和输出子模块432。其中,拼接子模块431用于将字特征获取子模块412输出的字特征向量、词特征获取子模块411输出的第一词特征向量以及结构语义获取模块420输出的池化处理结果,拼接在一起,并输入至输出子模块;输出子模块432用于根据输入向量,输出文本的类别结果。
图8为本申请文本分类装置的一种细化框图。与图5所示实施例不同的是,本实施例中,字特征获取子模块412包括字嵌入层、卷积层以及池化层,且该池化层与词特征获取子模块411的表示层相连接。
其中,本实施例中的字嵌入层用于对所述文本进行切词,得到包含全部词汇的切词结果,分别对每个词汇进行切字,根据切字结果生成与每个词汇对应的字向量矩阵;卷积层用于对每个词汇对应的字向量矩阵进行卷积处理;池化层用于对卷积处理后的结果进行池化得到文本中每个词汇的字特征向量。
由以上技术方案可知,本申请提供的文本分类装置,首先,局部语义获取模块获取文本的字特征向量,根据所述字特征向量生成所述文本的局部语义向量,以在提取到的分类特征中融入字特征,使文本的语义表示更加丰富,提高分类装置的准确性和泛化性;然后结构语义获取模块抽取所述文本的结构化信息和所述结构化信息对应的上下文信息,并根据所述结构化信息和所述上下文信息生成所述文本的结构语义向量,由于结构化信息及其上下文信息尽可能多的保留了文本的结构信息,因此可以提高方法对于敏感词汇过滤任务的准确性;最后,输出模块根据所述局部语义向量和所述结构语义向量,输出所述文本的类别结果,以通过丰富语义表示和保留结构信息两个方面,综合提升分类装置的准确率和泛化性。
本申请可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
本领域技术人员在考虑说明书及实践这里公开的申请后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
Claims (10)
1.一种文本分类方法,其特征在于,所述方法包括:
获取文本的字特征向量,根据所述字特征向量生成所述文本的局部语义向量;
抽取所述文本的结构化信息和所述结构化信息对应的上下文信息,并根据所述结构化信息和所述上下文信息生成所述文本的结构语义向量;
根据所述局部语义向量和所述结构语义向量,输出所述文本的类别结果。
2.根据权利要求1所述的方法,其特征在于,所述根据字特征向量生成所述文本的局部语义向量,包括:
采用Bi-LSTM模型获取所述文本的第一词特征向量;
根据所述字特征向量和所述第一词特征向量生成所述文本的局部语义向量。
3.根据权利要求2所述的方法,所述根据字特征向量和所述第一词特征向量生成所述文本的局部语义向量,包括:
对所述第一词特征向量进行卷积处理,并对卷积处理后的结果进行池化处理;
将池化处理结果和所述字特征向量连接,得到所述文本的局部语义向量。
4.根据权利要求1所述的方法,其特征在于,所述根据结构化信息和所述上下文信息生成所述文本的结构语义向量,包括:
根据所述结构化信息生成所述文本的多重特征向量;
根据所述上下文信息生成所述多重特征向量对应的上下文特征向量;
将所述多重特征向量和所述上下文特征向量分别输入至全连接层,对所述全连接层输出的相应结果进行拼接,并对拼接得到向量进行池化,得到所述结构语义向量。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述结构化信息包括至少一个实体词和用于描述所述至少一个实体词的关系词;
根据所述至少一个实体词和所述关系词利用Trans-D模型生成所述文本的多重特征向量。
6.根据权利要求5所述的方法,其特征在于,所述结构化信息对应的上下文信息包括与所述至少一个实体词相连的至少一个上下实体词;
以及,使用下式,生成所述多重特征向量对应的上下文特征向量;
context(e)={ei|(e,r,ei)∈Gor(ei,r,e)∈G}
其中,ei表示上下实体词;表示根据上下实体词生成的上下文特征向量。
7.根据权利要求1-3任一项所述的方法,其特征在于,所述获取文本的字特征向量,包括:
对所述文本进行切字,得到字序列;
根据所述字序列生成字向量矩阵;
分别采用不同大小的卷积核对所述字向量矩阵进行卷积处理,得到各个卷积核对应的卷积处理结果;
拼接所述卷积处理结果以得到所述字特征向量。
8.根据权利要求1所述的方法,其特征在于,所述获取文本的字特征向量,包括:
对所述文本进行切词,得到包含全部词汇的切词结果;
分别对每个词汇进行切字,根据切字结果生成与每个词汇对应的字向量矩阵;
对每个词汇对应的字向量矩阵进行卷积处理,并对卷积处理后的结果进行池化,得到所述文本中每个词汇的字特征向量。
9.根据权利要求8所述的方法,其特征在于,所述根据字特征向量生成所述文本的局部语义向量,包括:
获取所述每个词汇的词嵌入向量;
将所述每个词汇的词嵌入向量及每个词汇对应的字特征向量输入Bi-LSTM模型,以利用Bi-LSTM模型对所述文本进行处理,得到所述文本的第二词特征向量;
对所述第二词特征向量进行卷积处理,并对所述卷积处理后的结果进行池化处理,得到所述文本的局部语义向量。
10.一种文本分类装置,其特征在于,所述装置包括:
局部语义获取模块,用于获取文本的字特征向量,根据所述字特征向量生成所述文本的局部语义向量;
结构语义获取模块,用于抽取所述文本的结构化信息和所述结构化信息对应的上下文信息,并根据所述结构化信息和所述上下文信息生成所述文本的结构语义向量;
输出模块,用于根据所述局部语义向量和所述结构语义向量,输出所述文本的类别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910173508.4A CN109918506B (zh) | 2019-03-07 | 2019-03-07 | 一种文本分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910173508.4A CN109918506B (zh) | 2019-03-07 | 2019-03-07 | 一种文本分类方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109918506A true CN109918506A (zh) | 2019-06-21 |
CN109918506B CN109918506B (zh) | 2022-12-16 |
Family
ID=66963811
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910173508.4A Active CN109918506B (zh) | 2019-03-07 | 2019-03-07 | 一种文本分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109918506B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110298043A (zh) * | 2019-07-03 | 2019-10-01 | 吉林大学 | 一种车辆命名实体识别方法及系统 |
CN111274399A (zh) * | 2020-01-20 | 2020-06-12 | 上海市大数据中心 | 一种基于自然语言预处理的公共数据分级方法 |
CN111460791A (zh) * | 2020-03-30 | 2020-07-28 | 北京百度网讯科技有限公司 | 文本分类方法、装置、设备以及存储介质 |
CN111475658A (zh) * | 2020-06-12 | 2020-07-31 | 北京百度网讯科技有限公司 | 知识表示学习方法、装置、设备以及存储介质 |
CN112183513A (zh) * | 2019-07-03 | 2021-01-05 | 杭州海康威视数字技术股份有限公司 | 一种图像中文字的识别方法、装置、电子设备及存储介质 |
WO2021051586A1 (zh) * | 2019-09-18 | 2021-03-25 | 平安科技(深圳)有限公司 | 面试回答文本的分类方法及装置、电子设备、存储介质 |
CN112560472A (zh) * | 2019-09-26 | 2021-03-26 | 腾讯科技(深圳)有限公司 | 一种识别敏感信息的方法及装置 |
CN112818661A (zh) * | 2021-01-28 | 2021-05-18 | 中国科学院科技战略咨询研究院 | 一种专利技术关键词非监督提取方法 |
CN113434186A (zh) * | 2021-07-13 | 2021-09-24 | 支付宝(杭州)信息技术有限公司 | 用于推荐应用程序的方法和装置 |
CN113779202A (zh) * | 2021-11-15 | 2021-12-10 | 腾讯科技(深圳)有限公司 | 命名实体识别方法、装置、计算机设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110270604A1 (en) * | 2010-04-28 | 2011-11-03 | Nec Laboratories America, Inc. | Systems and methods for semi-supervised relationship extraction |
CN107291795A (zh) * | 2017-05-03 | 2017-10-24 | 华南理工大学 | 一种结合动态词嵌入和词性标注的文本分类方法 |
CN107656990A (zh) * | 2017-09-14 | 2018-02-02 | 中山大学 | 一种基于字和词两个层面特征信息的文本分类方法 |
WO2018028077A1 (zh) * | 2016-08-11 | 2018-02-15 | 中兴通讯股份有限公司 | 一种基于深度学习的中文语义分析的方法及装置 |
CN107977361A (zh) * | 2017-12-06 | 2018-05-01 | 哈尔滨工业大学深圳研究生院 | 基于深度语义信息表示的中文临床医疗实体识别方法 |
-
2019
- 2019-03-07 CN CN201910173508.4A patent/CN109918506B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110270604A1 (en) * | 2010-04-28 | 2011-11-03 | Nec Laboratories America, Inc. | Systems and methods for semi-supervised relationship extraction |
WO2018028077A1 (zh) * | 2016-08-11 | 2018-02-15 | 中兴通讯股份有限公司 | 一种基于深度学习的中文语义分析的方法及装置 |
CN107291795A (zh) * | 2017-05-03 | 2017-10-24 | 华南理工大学 | 一种结合动态词嵌入和词性标注的文本分类方法 |
CN107656990A (zh) * | 2017-09-14 | 2018-02-02 | 中山大学 | 一种基于字和词两个层面特征信息的文本分类方法 |
CN107977361A (zh) * | 2017-12-06 | 2018-05-01 | 哈尔滨工业大学深圳研究生院 | 基于深度语义信息表示的中文临床医疗实体识别方法 |
Non-Patent Citations (2)
Title |
---|
周锦峰等: "卷积神经网络在短文本情感多分类标注应用", 《计算机工程与应用》 * |
魏勇: "关联语义结合卷积神经网络的文本分类方法", 《控制工程》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110298043A (zh) * | 2019-07-03 | 2019-10-01 | 吉林大学 | 一种车辆命名实体识别方法及系统 |
CN112183513A (zh) * | 2019-07-03 | 2021-01-05 | 杭州海康威视数字技术股份有限公司 | 一种图像中文字的识别方法、装置、电子设备及存储介质 |
CN112183513B (zh) * | 2019-07-03 | 2023-09-05 | 杭州海康威视数字技术股份有限公司 | 一种图像中文字的识别方法、装置、电子设备及存储介质 |
WO2021051586A1 (zh) * | 2019-09-18 | 2021-03-25 | 平安科技(深圳)有限公司 | 面试回答文本的分类方法及装置、电子设备、存储介质 |
CN112560472B (zh) * | 2019-09-26 | 2023-07-11 | 腾讯科技(深圳)有限公司 | 一种识别敏感信息的方法及装置 |
CN112560472A (zh) * | 2019-09-26 | 2021-03-26 | 腾讯科技(深圳)有限公司 | 一种识别敏感信息的方法及装置 |
CN111274399A (zh) * | 2020-01-20 | 2020-06-12 | 上海市大数据中心 | 一种基于自然语言预处理的公共数据分级方法 |
CN111460791A (zh) * | 2020-03-30 | 2020-07-28 | 北京百度网讯科技有限公司 | 文本分类方法、装置、设备以及存储介质 |
CN111460791B (zh) * | 2020-03-30 | 2023-12-01 | 北京百度网讯科技有限公司 | 文本分类方法、装置、设备以及存储介质 |
CN111475658A (zh) * | 2020-06-12 | 2020-07-31 | 北京百度网讯科技有限公司 | 知识表示学习方法、装置、设备以及存储介质 |
US11687718B2 (en) | 2020-06-12 | 2023-06-27 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method, apparatus, device, and storage medium for learning knowledge representation |
CN112818661A (zh) * | 2021-01-28 | 2021-05-18 | 中国科学院科技战略咨询研究院 | 一种专利技术关键词非监督提取方法 |
CN113434186A (zh) * | 2021-07-13 | 2021-09-24 | 支付宝(杭州)信息技术有限公司 | 用于推荐应用程序的方法和装置 |
CN113779202B (zh) * | 2021-11-15 | 2022-02-08 | 腾讯科技(深圳)有限公司 | 命名实体识别方法、装置、计算机设备和存储介质 |
CN113779202A (zh) * | 2021-11-15 | 2021-12-10 | 腾讯科技(深圳)有限公司 | 命名实体识别方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109918506B (zh) | 2022-12-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109918506A (zh) | 一种文本分类方法及装置 | |
CN111753060B (zh) | 信息检索方法、装置、设备及计算机可读存储介质 | |
CN111858954B (zh) | 面向任务的文本生成图像网络模型 | |
US20230016365A1 (en) | Method and apparatus for training text classification model | |
CN107153641B (zh) | 评论信息确定方法、装置、服务器及存储介质 | |
US10963504B2 (en) | Zero-shot event detection using semantic embedding | |
WO2021121198A1 (zh) | 基于语义相似度的实体关系抽取方法、装置、设备及介质 | |
US20140250120A1 (en) | Interactive Multi-Modal Image Search | |
US20060218192A1 (en) | Method and System for Providing Information Services Related to Multimodal Inputs | |
CN110619051B (zh) | 问题语句分类方法、装置、电子设备及存储介质 | |
WO2014179634A2 (en) | Hand-drawn sketch recognition | |
US11238631B2 (en) | Align-to-ground, weakly supervised phrase grounding guided by image-caption alignment | |
CN113051914A (zh) | 一种基于多特征动态画像的企业隐藏标签抽取方法及装置 | |
CN108154156B (zh) | 基于神经主题模型的图像集成分类方法及装置 | |
US20130057583A1 (en) | Providing information services related to multimodal inputs | |
CN106227836B (zh) | 基于图像与文字的无监督联合视觉概念学习系统及方法 | |
CN110245349A (zh) | 一种句法依存分析方法、装置及一种电子设备 | |
CN112417868A (zh) | 一种基于情绪分数和主题模型的区块链新闻可视化方法 | |
CN112347761A (zh) | 基于bert的药物关系抽取方法 | |
CN117556067B (zh) | 数据检索方法、装置、计算机设备和存储介质 | |
CN115730597A (zh) | 多级语义意图识别方法及其相关设备 | |
CN116611496A (zh) | 文本到图像的生成模型优化方法、装置、设备及存储介质 | |
WO2022073341A1 (zh) | 基于语音语义的疾病实体匹配方法、装置及计算机设备 | |
Lu et al. | Web multimedia object classification using cross-domain correlation knowledge | |
CN110309355A (zh) | 内容标签的生成方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |