CN109471946A - 一种中文文本的分类方法及系统 - Google Patents
一种中文文本的分类方法及系统 Download PDFInfo
- Publication number
- CN109471946A CN109471946A CN201811371967.5A CN201811371967A CN109471946A CN 109471946 A CN109471946 A CN 109471946A CN 201811371967 A CN201811371967 A CN 201811371967A CN 109471946 A CN109471946 A CN 109471946A
- Authority
- CN
- China
- Prior art keywords
- target word
- target
- vector matrix
- vector
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种中文文本的分类方法,包括:获取目标文本中包含的目标字向量矩阵、目标字级部首向量矩阵,目标词向量矩阵和目标词级部首向量矩阵;将所述目标字向量矩阵、所述目标字级部首向量矩阵,所述目标词向量矩阵和所述目标词级部首向量矩阵传递到采用预设的训练方法训练得到的预设的目标文本分类模型中,得到所述目标文本的类别标签。上述的分类方法,在对所述目标文本进行分类过程中,不但考虑了所述目标文本中的目标字向量矩阵和目标词向量矩阵,而且还将与所述目标字向量矩阵和所述目标词向量矩阵对应的目标字集部首向量矩阵和目标词级部首向量矩阵也加入到了分类过程中。
Description
技术领域
本发明涉及机器学习技术领域,尤其涉及一种中文文本的分类方法及系统。
背景技术
近年来,信息全球化使得互联网上的文本信息呈现爆炸式的增长,其中中文文本的比例和影响力与日俱增,针对中文文本的分类方法越来越受到人们的关注。现有技术中,主要通过对中文文本中包含的字和词进行识别,实现中文文本的分类。
中文作为一种由象形文字衍生而来的语言,不仅词和字可以表达特定的意义,而且部首(radical)的象形和表意特性使其也成为重要的语义载体。部首本身固有的语义信息在一定程度上可以帮助我们进行概念理解和分类,针对部首的研究和技术方法都十分局限。
发明内容
有鉴于此,本发明提供了一种中文文本的分类方法及系统,用以解决现有技术中在中文文本进行分类过程中只针对字和词进行识别,而忽略部首对分类影响的问题。具体方案如下:
一种中文文本的分类方法,包括:
获取目标文本中包含的目标字向量矩阵、目标字级部首向量矩阵,目标词向量矩阵和目标词级部首向量矩阵;
将所述目标字向量矩阵、所述目标字级部首向量矩阵,所述目标词向量矩阵和所述目标词级部首向量矩阵传递到采用预设的训练方法训练得到的预设的目标文本分类模型中,得到所述目标文本的类别标签。
上述的方法,可选的,还包括:
除去所述目标文本中词数小于预设的阈值的文本数据和所述目标文本中中文内容小于预设的比例的文本数据。
上述的方法,可选的,获取目标中文文本中包含的目标字向量矩阵、目标字级部首向量矩阵,目标词向量矩阵和目标词级部首向量矩阵,包括:
确定所述目标文本中包含的目标字序列和目标词序列;
依据所述目标字序列和所述目标词序列,分别确定与所述目标字序列对应的目标字级部首序列和与所述目标词序列对应的目标词级部首序列;
将所述目标字序列、所述目标字级部首序列、所述目标词序列和所述目标词级部首序列转化为预设维度的所述目标字向量矩阵、所述目标字级部首向量矩阵,所述目标词向量矩阵和所述目标词级部首向量矩阵。
上述的方法,可选的,采用预设的训练方法训练得到的预设的目标文本分类模型,包括:
获取各个目标待训练文本;
将每一个目标待训练文本转化为目标待训练字向量矩阵、目标待训练字级部首向量矩阵,目标待训练词向量矩阵和目标待训练词级部首向量矩阵;
构建预设的文本分类模型,其中,所述预设的文本分类模型为四粒度模型;
将每一个目标待训练字向量矩阵、目标待训练字级部首向量矩阵,目标待训练词向量矩阵和目标待训练词级部首向量矩阵传递给所述预设的文本分类模型中,调整所述预设的文本分类模型中的各个权重矩阵和偏置向量,令预设的损失函数取值最小,得到预设的目标文本分类模型。
上述的方法,可选的,将所述目标字向量矩阵、所述目标字级部首向量矩阵,所述目标词向量矩阵和所述目标词级部首向量矩阵传递到采用预设的训练方法训练得到的预设的目标文本分类模型中,得到所述目标文本的类别标签,包括:
确定与所述目标字向量矩阵和所述目标词向量矩阵对应的各个第一隐向量序列;
依据所述各个第一隐向量序列和对应的目标字级部首向量和目标词级部首向量,确定与所述目标字级部首向量矩阵和所述目标词级部首向量矩阵的对应的各个权重;
依据所述各个权重和所述各个第一隐向量序列,确定与所述目标字级部首向量矩阵和所述目标词级部首向量矩阵对应的各个第二隐向量序列;
依据所述各个第二隐向量序列确定目标向量,将所述目标向量中条件概率的最大值对应的文本类别标签作为所述目标文本类别标签。
一种中文文本的分类系统,包括:
获取模块,用于获取目标文本中包含的目标字向量矩阵、目标字级部首向量矩阵,目标词向量矩阵和目标词级部首向量矩阵;
分类模块,用于将所述目标字向量矩阵、所述目标字级部首向量矩阵,所述目标词向量矩阵和所述目标词级部首向量矩阵传递到采用预设的训练方法训练得到的预设的目标文本分类模型中,得到所述目标文本的类别标签。
上述的系统,可选的,还包括:
预处理模块,用于除去所述目标文本中词数小于预设的阈值的文本数据和所述目标文本中中文内容小于预设的比例的文本数据。
上述的系统,可选的,所述获取模块包括:
第一确定单元,用于确定所述目标文本中包含的目标字序列和目标词序列;
第二确定单元,用于依据所述目标字序列和所述目标词序列,分别确定与所述目标字序列对应的目标字级部首序列和与所述目标词序列对应的目标词级部首序列;
第一转化单元,用于将所述目标字序列、所述目标字级部首序列、所述目标词序列和所述目标词级部首序列转化为预设维度的所述目标字向量矩阵、所述目标字级部首向量矩阵,所述目标词向量矩阵和所述目标词级部首向量矩阵。
上述的系统,可选的,所述分类模块包括:
获取单元,用于获取各个目标待训练文本;
第二转化单元,用于将每一个目标待训练文本转化为目标待训练字向量矩阵、目标待训练字级部首向量矩阵,目标待训练词向量矩阵和目标待训练词级部首向量矩阵;
构建单元,用于构建预设的文本分类模型,其中,所述预设的文本分类模型为四粒度模型;
训练单元,用于将每一个目标待训练字向量矩阵、目标待训练字级部首向量矩阵,目标待训练词向量矩阵和目标待训练词级部首向量矩阵传递给所述预设的文本分类模型中,调整所述预设的文本分类模型中的各个权重矩阵和偏置向量,令预设的损失函数取值最小,得到预设的目标文本分类模型。
上述的系统,可选的,所述分类模块包括:
第三确定单元,用于确定与所述目标字向量矩阵和所述目标词向量矩阵对应的各个第一隐向量序列;
第四确定单元,用于依据所述各个第一隐向量序列和对应的目标字级部首向量和目标词级部首向量,确定与所述目标字级部首向量矩阵和所述目标词级部首向量矩阵的对应的各个权重;
第五确定单元,用于依据所述各个权重和所述各个第一隐向量序列,确定与所述目标字级部首向量矩阵和所述目标词级部首向量矩阵对应的各个第二隐向量序列;
分类单元,用于依据所述各个第二隐向量序列确定目标向量,将所述目标向量中条件概率的最大值对应的文本类别标签作为所述目标文本类别标签。
与现有技术相比,本发明包括以下优点:
本发明公开了一种中文文本的分类方法,包括:获取目标文本中包含的目标字向量矩阵、目标字级部首向量矩阵,目标词向量矩阵和目标词级部首向量矩阵;将所述目标字向量矩阵、所述目标字级部首向量矩阵,所述目标词向量矩阵和所述目标词级部首向量矩阵传递到预设的目标文本分类模型中,得到所述目标文本的类别标签。上述的分类方法,在对所述目标文本进行分类过程中,不但考虑了所述目标文本中的目标字向量矩阵和目标词向量矩阵,而且还将与所述目标字向量矩阵和所述目标词向量矩阵对应的目标字集部首向量矩阵和目标词级部首向量矩阵也加入到了分类过程中。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例公开的一种中文文本的分类方法流程图;
图2为本申请实施例公开的一种映射关系示意图;
图3为本申请实施例公开的一种中文文本的分类方法又一流程图;
图4为本申请实施例公开的一种中文文本分类框架示意图;
图5为本申请实施例公开的一种中文文本的分类系统结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
本发明公开了一种中文文本的分类方法,所述方法可以应用在中文文本的分分类过程中,本发明实施例中以所述中文文本为新闻为例进行说明。所述分类方法的执行流程如图1所示,包括步骤:
S101、获取目标文本中包含的目标字向量矩阵、目标字级部首向量矩阵,目标词向量矩阵和目标词级部首向量矩阵;
本发明实施例中,所述目标中文文本为需要进行分类的中文文本,所述目标中文文本可以为多行文字也可以为单行文字,其中,所述目标中文文本中可以包含数字和/或英文单词和/或字母,获取所述目标文本中包含的目标字向量矩阵、目标字级部首向量矩阵,目标词向量矩阵和目标词级部首向量矩阵,其中字、词、字级部首和词级部首的映射关系如图2所示。
S102、将所述目标字向量矩阵、所述目标字级部首向量矩阵,所述目标词向量矩阵和所述目标词级部首向量矩阵传递到采用预设的训练方法训练得到的预设的目标文本分类模型中,得到所述目标文本的类别标签。
本发明实施例中,所述预设的目标文本分类模型为四粒度模型,将所述目标字向量矩阵、所述目标字级部首向量矩阵,所述目标词向量矩阵和所述目标词级部首向量矩阵传递到采用预设的训练方法训练得到的预设的目标文本分类模型中,得到所述目标文本的类别标签,其中,若所述目标中文所述类别标签可以为体育新闻、娱乐新闻、军事新闻、社会新闻或者其它新闻等等。
本发明实施例中,优选的,优选的,对所述目标待训练文本进行预处理,预处理主要包括以下内容:
1)去除所述目标待训练文本内容中词数小于设定值的新闻数据。
本发明实例中,需要去除质量较低的数据。通常认为文本内容中的词数小于所述预设的阈值的新闻是质量较低的。其中,所述预设的阈值的选取可以依据经验值或者实际情况进行设定。优选的,所述预设的阈值5。
2)去除文本内容中汉语字符比例小于预设的比例的新闻数据。
本发明实施例中,主要面向中文文本分类,由于非中文字符没有部首,过高比例的非中文字符会偏离所述预设的目标文本分类模型的设计初衷,因此我们认为所述目标待训练文本内容中汉语字符比例小于所述预设的比例的新闻数据是质量较低的。其中,所述预设的比例的选取可以依据经验值或者实际情况进行设定。优选的,所述预设的比例可以为80%。
本发明公开了一种中文文本的分类方法,包括:获取目标文本中包含的目标字向量矩阵、目标字级部首向量矩阵,目标词向量矩阵和目标词级部首向量矩阵;将所述目标字向量矩阵、所述目标字级部首向量矩阵,所述目标词向量矩阵和所述目标词级部首向量矩阵传递到预设的目标文本分类模型中,得到所述目标文本的类别标签。上述的分类方法,在对所述目标文本进行分类过程中,不但考虑了所述目标文本中的目标字向量矩阵和目标词向量矩阵,而且还将与所述目标字向量矩阵和所述目标词向量矩阵对应的目标字集部首向量矩阵和目标词级部首向量矩阵也加入到了分类过程中。
本发明实施例中,对于文本分类任务来说,其目的是从一个预定义的类别标签集合U中选择一个最合适的赋值P给一个无标签的文本T。更为形式化地来说,我们的任务是给定一个特定任务下(如:新闻的分类)的中文文本数据集合Corpus和一个相对应的标签集合U,通过应用文本表示和分类算法对Corpus和U之间存在的参数关系进行学习,以得到一个经过训练优化的分类函数F,使得其输入为T时,相对应的输出是一个条件概率最大的标签P(P∈U)。
汉语中有一些值得探讨的特殊性质。为了便于后续说明,具体来说,这里给出以下两种性质的定义:
性质1:部首共享。一个汉字的意思可以部分地通过其部首来表达。如果几个不同的汉字有一个共同的部首,那么这个部首通常是它们之间的核心语义关联。如表1所示,这五个汉字有着一个共同的部首“虫”(昆虫),而事实上它们的确对应于五种不同的昆虫,这反映了部首在汉字语义上的重要作用。我们将此性质定义为部首共享。
表1拥有相同部首“虫”(insect)的汉字示例
汉字 | 部首 | 英语词 |
蝇 | 虫 | fly |
蚊 | 虫 | mosquito |
蜂 | 虫 | bee |
虱 | 虫 | louse |
蚁 | 虫 | ant |
性质2:汉字共享。一个汉语词的语义可以通过其含有的每个汉字的语义来综合表达。如果几个汉语词有一个共同的汉字,那么这个汉字通常是这些词之间的核心语义关联。如表2所示,这五个词均含有“牛”这个字,而事实上这些词的词义的确是由它们含有的字义组合而成。我们将此性质定义为汉字共享。
表2拥有相同汉字“牛”(cattle)的汉语词示例
汉语词 | 汉字 | 英语词 |
公牛 | 公(male)+牛(cattle) | bull |
母牛 | 母(female)+牛(cattle) | cow |
牛奶 | 牛(cattle)+奶(milk) | milk |
牛肉 | 牛(cattle)+肉(meat) | beef |
牛角 | 牛(cattle)+角(horn) | horn |
本发明实施例中,所述预设的目标文本分类模型的训练过程如图3所示,包括步骤:
S201、获取各个目标待训练文本;
本发明实施例中,可以采用数据爬取的方式从新闻网站上爬取一定量的新闻数据作为所述目标待训练文本,所述目标待训练文本包括:新闻的文本内容以及新闻所属的类别标签。优选的,将预处理后的目标待训练文本数据进行打乱,将其中75%的数据作为训练数据,25%的数据作为测试数据。
S202、将每一个目标待训练文本转化为目标待训练字向量矩阵、目标待训练字级部首向量矩阵,目标待训练词向量矩阵和目标待训练词级部首向量矩阵;
本发明实施例中,利用中文分析工具对所述目标文本进行划分,划分为目标待训练字序列和目标待训练词序列,其中,优选的,所述中文分析工具可以为结巴分词工具。借助于新华字典数据,分别确定与所述目标待训练字序列对应的目标待训练字级部首序列和与所述目标待训练词序列对应的目标待训练词级部首序列,需要注意的是,需要对所述目标待训练字序列和所述目标待训练词序列中的非中文字符进行处理。依据的word2vec工具将所述目标待训练字序列、所述目标待训练词序列、所述目标待训练字级部首序列和所述目标待训练词级部首序列转化为目标待训练字向量矩阵、目标待训练字级部首向量矩阵,目标待训练词向量矩阵和目标待训练词级部首向量矩阵。
S203、构建预设的文本分类模型,其中,所述预设的文本分类模型为四粒度模型;
本发明实施例中,构建基于部首感知和注意力机制的四粒度模型作为预设的文本分类模型。
S204、将每一个目标待训练字向量矩阵、目标待训练字级部首向量矩阵,目标待训练词向量矩阵和目标待训练词级部首向量矩阵传递给所述预设的文本分类模型中,调整所述预设的文本分类模型中的各个权重矩阵和偏置向量,令预设的损失函数取值最小,得到预设的目标文本分类模型。
本发明实施例中,基于上述的文本分类方法,本发明是基于图4所示的文本分类框架实现的,所述文本分类框架包括:输入层、嵌入层、表示层和预测层。对于这四层的具体介绍如下:
输入层:输入层是基础组成部分,负责对输入给所述预设的目标文本分类模型的中文文本进行特征获取。具体来说,首先对于一个中文文本T,其对应了一个含有m个汉字或字符的序列,即C={c1,c2,…,cm},其中每个字符ci(1≤i≤m)都是一个独立的个体。同时,利用中文分词工具(如:结巴分词)对T进行切割可以得到一个长为n的词序列W={w1,w2,…,wn}。因为一个汉语词可以由一个或多个汉字组成,所以显然有n≤m。然后,借助于新华字典数据,可以将C和W映射为两种部首序列,即字级部首序列Rc=和词级部首序列至此我们就得到了T的四种粒度的特征序列:字序列(表示为C={c1,c2,…,cm}),词序列(表示为W={w1,w2,…,wn}),字级部首序列(表示为)和词级部首序列(表示为)。需要注意的是,中文文本T可能含有各种非中文字符(如:数字、标点符号和英文字符),而它们是不具有部首的。因此,在字级部首的映射过程中,我们规定将每个数字、标点、一个词中的每个字母都映射为一个连字符“-”(如:单词“sun”由三个字母“s”,“u”,“n”组成,所以其对应了三个“-”);在词级部首的映射过程中,将由分词工具切分得到的每个非中文个体映射为一个连字符“-”(如:“2019”,“!”,“sun”将分别对应一个“-”)。这样,经过以上的处理,T的四种特征序列的长度满足:|C|=|Rc|,|W|=|Rw|。
嵌入层:嵌入层旨在连续的空间中对来自输入层的特征加以表示。它接收四个粒度的特征序列(C,W,Rc,Rw),通过词向量字典查询获得并输出相应的四个嵌入向量矩阵。而词向量字典则是借助当下的word2vec工具获得。如前所述,|C|=|Rc|,|W|=|Rw|,为了简化问题,设置每个字c∈C、词w∈W、字级部首rc∈Rc、词级部首rw∈Rw的向量维度为相同的值D,从而一个中文文本可以由四个向量序列来表示,即 更为确切地说,这四个向量序列也是四个嵌入向量矩阵,即EC∈Rm×D,EW∈Rn×D,
表示层:表示层的目的是将上下文和部首的信息结合起来,生成输入文本T的综合表示。对应于汉语中汉字共享的性质,我们的模型基于长短期记忆网络(LSTM)的递归结构进行设计,它的优势在于能够逐个处理单词和字符,这不仅捕捉了上下文,而且还在一定程度上解决了汉语分词中“词”粒度的模糊定义问题。进一步地,我们对LSTM采用双向设置(即BLSTM)来捕获文本的前向和后向上下文信息。为了说明四种特征序列的具体计算过程,我们用s={x1,x2,…,xN}泛指四种特征向量序列的任一种。则长短期记忆网络随时间t=1,2,…,N更新细胞向量序列并得到隐向量序列h={h1,h2,…,hN},计算方式如下:
it=sigmoid(Wxixt+Whiht-1+bi)
ft=sigmoid(Wxfxt+Whfht-1+bf)
ot=sigmoid(Wxoxt+Whoht-1+bo)
其中,it、ft、ot分别是输入门、遗忘门和输出门,sigmoid(·)和tanh(·)都是非线性激活函数:点积运算.表示向量之间对应元素的乘积。其中的与是网络训练过程中待优化的权重矩阵和偏置向量。
表示层中有两个级联形式的BLSTM结构(即BLSTMc+BLSTMrc和BLSTMw+BLSTMrw),总共有四个BLSTM,其中每一个都有两个独立的隐层分别表示前向和后向信息。在BLSTMc和BLSTMw中,它们的初始隐层状态的值被设置为零。同时,BLSTMrc和BLSTMrw则分别接收BLSTMc和BLSTMw最后一个的隐层状态作为输入,这使得字粒度和词粒度的上下文信息可以进一步与字级部首粒度和词级部首粒度的上下文信息相结合。每个BLSTM的最终隐层输出是前向LSTM隐层(即)和后向LSTM隐层(即)的组合:
此外,为了对汉语的部首共享性质建模,且为了在整合多粒度特征的过程中进一步增强部首的作用,我们设计了一种能够捕捉部首与其对应的字或之间相互关系的注意力机制。每当BLSTMrc或BLSTMrw接收到部首的向量嵌入(即或)时,每个和 将分别对和进行点积运算。因此,的注意向量α′、的注意向量β′计算如下:
其中α′∈和β′θ分别表示一个字级部首第∈维的权重以及一个词级部首的第θ维的权重,而f(a,b)则表示点积函数。但是在加权和运算之前,我们需要利用softmax(·)函数对这些权值进行标准化,即αi和βj计算如下:
然后和的嵌入向量将按如下方式进行注意力机制修正:
其中表示Yc第∈维的值,表示Yw第θ维的值。经过注意力机制运算后(对应图4中的atti),和分别融合了字级上下文和词级上下文的权重信息。之后,BLSTMrc和BLSTMrw将通过式(1)和式(2)的计算进一步学习和的上下文信息。
预测层:预测层的目的是对表示层输出的隐层向量进一步处理,以得到最终的文本分类结果。我们将BLSTMrc和BLSTMrw最后的隐层状态值(即和)视为两个级联BLSTM最终的输出,然后将和在维度上拼接起来得到一个综合表示目标向量Con∈R2D,即:
这里的Con实际就是输入文本T的目标向量表示。之后Con会输入给一个全连接神经网络层,进而输出得到一个K维的向量O(K是文本分类任务中类别的数量,即K=|U|):
O=sigmoid(W×Con) (7)
其中,sigmoid(·)是非线性激活函数:运算×表示矩阵乘法,W为网络训练过程中待优化的转换矩阵。
最终,我们使用一个softmax层将向量O中每一维的值转化为条件概率:
进而按照以下方式得到文本T的分类标签P:
P=argmax(softmax(O)) (9)
例如:O=[2,3,-1,0.5],则softmax(O)=[0.25055127,0.68106897,0.01247421,0.05590555]](相加等于1),进而argmax(softmax(O))得到的是3或0.681对应维度表示的类别标签。相应维度概率越大,表示模型将一个文本分类为该维度对应标签的置信度越高。
本发明实施例中,基于上述中文文本分类方法,本发明实施例中还提供了一种中文文本分类系统,所述分类系统的结构框图如图5所示,包括:
获取模块301和分类模块302。
其中,
所述获取模块301,用于获取目标文本中包含的目标字向量矩阵、目标字级部首向量矩阵,目标词向量矩阵和目标词级部首向量矩阵;
所述分类模块302,用于将所述目标字向量矩阵、所述目标字级部首向量矩阵,所述目标词向量矩阵和所述目标词级部首向量矩阵传递到采用预设的训练方法训练得到的预设的目标文本分类模型中,得到所述目标文本的类别标签。
本发明公开了一种中文文本的分类系统,包括:获取目标文本中包含的目标字向量矩阵、目标字级部首向量矩阵,目标词向量矩阵和目标词级部首向量矩阵;将所述目标字向量矩阵、所述目标字级部首向量矩阵,所述目标词向量矩阵和所述目标词级部首向量矩阵传递到预设的目标文本分类模型中,得到所述目标文本的类别标签。上述的分类系统,在对所述目标文本进行分类过程中,不但考虑了所述目标文本中的目标字向量矩阵和目标词向量矩阵,而且还将与所述目标字向量矩阵和所述目标词向量矩阵对应的目标字集部首向量矩阵和目标词级部首向量矩阵也加入到了分类过程中。
本发明实施例中,所述分类系统还包括:预处理模块303。
其中,
所述预处理模块303,用于除去所述目标文本中词数小于预设的阈值的文本数据和所述目标文本中中文内容小于预设的比例的文本数据。
本发明实施例中,所述获取模块301包括:
第一确定单元304,第二确定单元305和第一转化单元306。
其中,
所述第一确定单元304,用于确定所述目标文本中包含的目标字序列和目标词序列;
所述第二确定单元305,用于依据所述目标字序列和所述目标词序列,分别确定与所述目标字序列对应的目标字级部首序列和与所述目标词序列对应的目标词级部首序列;
所述第一转化单元306,用于将所述目标字序列、所述目标字级部首序列、所述目标词序列和所述目标词级部首序列转化为预设维度的所述目标字向量矩阵、所述目标字级部首向量矩阵,所述目标词向量矩阵和所述目标词级部首向量矩阵。
本发明实施例中,所述分类模块302包括:
获取单元307,第二转化单元308,构建单元309和训练单元310。
其中,
所述获取单元307,用于获取各个目标待训练文本;
所述第二转化单元308,用于将每一个目标待训练文本转化为目标待训练字向量矩阵、目标待训练字级部首向量矩阵,目标待训练词向量矩阵和目标待训练词级部首向量矩阵;
所述构建单元309,用于构建预设的文本分类模型,其中,所述预设的文本分类模型为四粒度模型;
所述训练单元310,用于将每一个目标待训练字向量矩阵、目标待训练字级部首向量矩阵,目标待训练词向量矩阵和目标待训练词级部首向量矩阵传递给所述预设的文本分类模型中,调整所述预设的文本分类模型中的各个权重矩阵和偏置向量,令预设的损失函数取值最小,得到预设的目标文本分类模型。
本发明实施例中,所述分类模块302包括:
第三确定单元311,第四确定单元312,第五确定单元313和分类单元314。
其中,
所述第三确定单元311,用于确定与所述目标字向量矩阵和所述目标词向量矩阵对应的各个第一隐向量序列;
所述第四确定单元312,用于依据所述各个第一隐向量序列和对应的目标字级部首向量和目标词级部首向量,确定与所述目标字级部首向量矩阵和所述目标词级部首向量矩阵的对应的各个权重;
所述第五确定单元313,用于依据所述各个权重和所述各个第一隐向量序列,确定与所述目标字级部首向量矩阵和所述目标词级部首向量矩阵对应的各个第二隐向量序列;
所述分类单元314,用于依据所述各个第二隐向量序列确定目标向量,将所述目标向量中条件概率的最大值对应的文本类别标签作为所述目标文本类别标签。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
以上对本发明所提供的一种中文文本的分类方法及系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种中文文本的分类方法,其特征在于,包括:
获取目标文本中包含的目标字向量矩阵、目标字级部首向量矩阵,目标词向量矩阵和目标词级部首向量矩阵;
将所述目标字向量矩阵、所述目标字级部首向量矩阵,所述目标词向量矩阵和所述目标词级部首向量矩阵传递到采用预设的训练方法训练得到的预设的目标文本分类模型中,得到所述目标文本的类别标签。
2.根据权利要求1所述的方法,其特征在于,还包括:
除去所述目标文本中词数小于预设的阈值的文本数据和所述目标文本中中文内容小于预设的比例的文本数据。
3.根据权利要求1所述的方法,其特征在于,获取目标中文文本中包含的目标字向量矩阵、目标字级部首向量矩阵,目标词向量矩阵和目标词级部首向量矩阵,包括:
确定所述目标文本中包含的目标字序列和目标词序列;
依据所述目标字序列和所述目标词序列,分别确定与所述目标字序列对应的目标字级部首序列和与所述目标词序列对应的目标词级部首序列;
将所述目标字序列、所述目标字级部首序列、所述目标词序列和所述目标词级部首序列转化为预设维度的所述目标字向量矩阵、所述目标字级部首向量矩阵,所述目标词向量矩阵和所述目标词级部首向量矩阵。
4.根据权利要求1所述的方法,其特征在于,采用预设的训练方法训练得到的预设的目标文本分类模型,包括:
获取各个目标待训练文本;
将每一个目标待训练文本转化为目标待训练字向量矩阵、目标待训练字级部首向量矩阵,目标待训练词向量矩阵和目标待训练词级部首向量矩阵;
构建预设的文本分类模型,其中,所述预设的文本分类模型为四粒度模型;
将每一个目标待训练字向量矩阵、目标待训练字级部首向量矩阵,目标待训练词向量矩阵和目标待训练词级部首向量矩阵传递给所述预设的文本分类模型中,调整所述预设的文本分类模型中的各个权重矩阵和偏置向量,令预设的损失函数取值最小,得到预设的目标文本分类模型。
5.根据权利要求1所述的方法,其特征在于,将所述目标字向量矩阵、所述目标字级部首向量矩阵,所述目标词向量矩阵和所述目标词级部首向量矩阵传递到采用预设的训练方法训练得到的预设的目标文本分类模型中,得到所述目标文本的类别标签,包括:
确定与所述目标字向量矩阵和所述目标词向量矩阵对应的各个第一隐向量序列;
依据所述各个第一隐向量序列和对应的目标字级部首向量和目标词级部首向量,确定与所述目标字级部首向量矩阵和所述目标词级部首向量矩阵的对应的各个权重;
依据所述各个权重和所述各个第一隐向量序列,确定与所述目标字级部首向量矩阵和所述目标词级部首向量矩阵对应的各个第二隐向量序列;
依据所述各个第二隐向量序列确定目标向量,将所述目标向量中条件概率的最大值对应的文本类别标签作为所述目标文本类别标签。
6.一种中文文本的分类系统,其特征在于,包括:
获取模块,用于获取目标文本中包含的目标字向量矩阵、目标字级部首向量矩阵,目标词向量矩阵和目标词级部首向量矩阵;
分类模块,用于将所述目标字向量矩阵、所述目标字级部首向量矩阵,所述目标词向量矩阵和所述目标词级部首向量矩阵传递到采用预设的训练方法训练得到的预设的目标文本分类模型中,得到所述目标文本的类别标签。
7.根据权利要求6所述的系统,其特征在于,还包括:
预处理模块,用于除去所述目标文本中词数小于预设的阈值的文本数据和所述目标文本中中文内容小于预设的比例的文本数据。
8.根据权利要求6所述的系统,其特征在于,所述获取模块包括:
第一确定单元,用于确定所述目标文本中包含的目标字序列和目标词序列;
第二确定单元,用于依据所述目标字序列和所述目标词序列,分别确定与所述目标字序列对应的目标字级部首序列和与所述目标词序列对应的目标词级部首序列;
第一转化单元,用于将所述目标字序列、所述目标字级部首序列、所述目标词序列和所述目标词级部首序列转化为预设维度的所述目标字向量矩阵、所述目标字级部首向量矩阵,所述目标词向量矩阵和所述目标词级部首向量矩阵。
9.根据权利要求6所述的系统,其特征在于,所述分类模块包括:
获取单元,用于获取各个目标待训练文本;
第二转化单元,用于将每一个目标待训练文本转化为目标待训练字向量矩阵、目标待训练字级部首向量矩阵,目标待训练词向量矩阵和目标待训练词级部首向量矩阵;
构建单元,用于构建预设的文本分类模型,其中,所述预设的文本分类模型为四粒度模型;
训练单元,用于将每一个目标待训练字向量矩阵、目标待训练字级部首向量矩阵,目标待训练词向量矩阵和目标待训练词级部首向量矩阵传递给所述预设的文本分类模型中,调整所述预设的文本分类模型中的各个权重矩阵和偏置向量,令预设的损失函数取值最小,得到预设的目标文本分类模型。
10.根据权利要求6所述的系统,其特征在于,所述分类模块包括:
第三确定单元,用于确定与所述目标字向量矩阵和所述目标词向量矩阵对应的各个第一隐向量序列;
第四确定单元,用于依据所述各个第一隐向量序列和对应的目标字级部首向量和目标词级部首向量,确定与所述目标字级部首向量矩阵和所述目标词级部首向量矩阵的对应的各个权重;
第五确定单元,用于依据所述各个权重和所述各个第一隐向量序列,确定与所述目标字级部首向量矩阵和所述目标词级部首向量矩阵对应的各个第二隐向量序列;
分类单元,用于依据所述各个第二隐向量序列确定目标向量,将所述目标向量中条件概率的最大值对应的文本类别标签作为所述目标文本类别标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811371967.5A CN109471946B (zh) | 2018-11-16 | 2018-11-16 | 一种中文文本的分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811371967.5A CN109471946B (zh) | 2018-11-16 | 2018-11-16 | 一种中文文本的分类方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109471946A true CN109471946A (zh) | 2019-03-15 |
CN109471946B CN109471946B (zh) | 2021-10-01 |
Family
ID=65673764
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811371967.5A Active CN109471946B (zh) | 2018-11-16 | 2018-11-16 | 一种中文文本的分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109471946B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110502755A (zh) * | 2019-08-27 | 2019-11-26 | 湖北亿咖通科技有限公司 | 基于融合模型的字符串识别方法及计算机存储介质 |
CN110851596A (zh) * | 2019-10-11 | 2020-02-28 | 平安科技(深圳)有限公司 | 文本分类方法、装置及计算机可读存储介质 |
CN110852102A (zh) * | 2019-11-14 | 2020-02-28 | 北京香侬慧语科技有限责任公司 | 一种中文的词性标注方法、装置、存储介质及电子设备 |
CN111079377A (zh) * | 2019-12-03 | 2020-04-28 | 哈尔滨工程大学 | 一种面向中文医疗文本命名实体识别的方法 |
CN111770357A (zh) * | 2020-07-27 | 2020-10-13 | 深圳大学 | 一种基于弹幕的视频高光片段识别方法、终端及存储介质 |
CN112000800A (zh) * | 2020-07-02 | 2020-11-27 | 广东华兴银行股份有限公司 | 基于汉字构词法的中文舆情监测方法 |
CN112115717A (zh) * | 2020-09-28 | 2020-12-22 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、设备及可读存储介质 |
CN113157921A (zh) * | 2021-04-12 | 2021-07-23 | 北京语言大学 | 一种融入偏旁语义的中文文本分类方法 |
CN117591674A (zh) * | 2024-01-18 | 2024-02-23 | 交通运输部公路科学研究所 | 基于文本分类模型对桥梁检评文本的自动分类方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6922811B1 (en) * | 1999-07-28 | 2005-07-26 | Qcode Information Technology Limited | Chinese character encoding input method and its input apparatus |
CN107168952A (zh) * | 2017-05-15 | 2017-09-15 | 北京百度网讯科技有限公司 | 基于人工智能的信息生成方法和装置 |
CN108108351A (zh) * | 2017-12-05 | 2018-06-01 | 华南理工大学 | 一种基于深度学习组合模型的文本情感分类方法 |
CN108304376A (zh) * | 2017-12-15 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 文本向量的确定方法、装置、存储介质及电子装置 |
CN108446271A (zh) * | 2018-03-07 | 2018-08-24 | 中山大学 | 基于汉字部件特征的卷积神经网络的文本情感分析方法 |
-
2018
- 2018-11-16 CN CN201811371967.5A patent/CN109471946B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6922811B1 (en) * | 1999-07-28 | 2005-07-26 | Qcode Information Technology Limited | Chinese character encoding input method and its input apparatus |
CN107168952A (zh) * | 2017-05-15 | 2017-09-15 | 北京百度网讯科技有限公司 | 基于人工智能的信息生成方法和装置 |
CN108108351A (zh) * | 2017-12-05 | 2018-06-01 | 华南理工大学 | 一种基于深度学习组合模型的文本情感分类方法 |
CN108304376A (zh) * | 2017-12-15 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 文本向量的确定方法、装置、存储介质及电子装置 |
CN108446271A (zh) * | 2018-03-07 | 2018-08-24 | 中山大学 | 基于汉字部件特征的卷积神经网络的文本情感分析方法 |
Non-Patent Citations (1)
Title |
---|
BAOSHENG YIN: "A Multi-Label Classification Method on Chinese Temporal Expressions based on Character Embedding", 《INTERNATIONAL CONFERENCE ON INFORMATION SCIENCE AND CONTROL ENGINEERING》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110502755A (zh) * | 2019-08-27 | 2019-11-26 | 湖北亿咖通科技有限公司 | 基于融合模型的字符串识别方法及计算机存储介质 |
CN110851596B (zh) * | 2019-10-11 | 2023-06-27 | 平安科技(深圳)有限公司 | 文本分类方法、装置及计算机可读存储介质 |
CN110851596A (zh) * | 2019-10-11 | 2020-02-28 | 平安科技(深圳)有限公司 | 文本分类方法、装置及计算机可读存储介质 |
CN110852102A (zh) * | 2019-11-14 | 2020-02-28 | 北京香侬慧语科技有限责任公司 | 一种中文的词性标注方法、装置、存储介质及电子设备 |
CN110852102B (zh) * | 2019-11-14 | 2023-09-05 | 北京香侬慧语科技有限责任公司 | 一种中文的词性标注方法、装置、存储介质及电子设备 |
CN111079377A (zh) * | 2019-12-03 | 2020-04-28 | 哈尔滨工程大学 | 一种面向中文医疗文本命名实体识别的方法 |
CN112000800A (zh) * | 2020-07-02 | 2020-11-27 | 广东华兴银行股份有限公司 | 基于汉字构词法的中文舆情监测方法 |
CN111770357A (zh) * | 2020-07-27 | 2020-10-13 | 深圳大学 | 一种基于弹幕的视频高光片段识别方法、终端及存储介质 |
CN111770357B (zh) * | 2020-07-27 | 2021-06-01 | 深圳大学 | 一种基于弹幕的视频高光片段识别方法、终端及存储介质 |
CN112115717A (zh) * | 2020-09-28 | 2020-12-22 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、设备及可读存储介质 |
CN112115717B (zh) * | 2020-09-28 | 2022-03-15 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、设备及可读存储介质 |
CN113157921B (zh) * | 2021-04-12 | 2021-11-23 | 北京语言大学 | 一种融入偏旁语义的中文文本分类方法 |
CN113157921A (zh) * | 2021-04-12 | 2021-07-23 | 北京语言大学 | 一种融入偏旁语义的中文文本分类方法 |
CN117591674A (zh) * | 2024-01-18 | 2024-02-23 | 交通运输部公路科学研究所 | 基于文本分类模型对桥梁检评文本的自动分类方法 |
CN117591674B (zh) * | 2024-01-18 | 2024-04-26 | 交通运输部公路科学研究所 | 基于文本分类模型对桥梁检评文本的自动分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109471946B (zh) | 2021-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109471946A (zh) | 一种中文文本的分类方法及系统 | |
CN109543084B (zh) | 一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法 | |
US10430689B2 (en) | Training a classifier algorithm used for automatically generating tags to be applied to images | |
CN108334605B (zh) | 文本分类方法、装置、计算机设备及存储介质 | |
CN107291795B (zh) | 一种结合动态词嵌入和词性标注的文本分类方法 | |
CN106156365B (zh) | 一种知识图谱的生成方法及装置 | |
CN105608477B (zh) | 一种人物画像与职位匹配的方法及系统 | |
CN112131350B (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
CN104199833B (zh) | 一种网络搜索词的聚类方法和聚类装置 | |
CN110909164A (zh) | 一种基于卷积神经网络的文本增强语义分类方法及系统 | |
CN107025284A (zh) | 网络评论文本情感倾向的识别方法及卷积神经网络模型 | |
CN104102721A (zh) | 信息推荐方法和装置 | |
CN110222163A (zh) | 一种融合cnn与双向lstm的智能问答方法及系统 | |
CN105139237A (zh) | 信息推送的方法和装置 | |
CN110516074B (zh) | 一种基于深度学习的网站主题分类方法及装置 | |
CN106874292A (zh) | 话题处理方法及装置 | |
CN112307351A (zh) | 用户行为的模型训练、推荐方法、装置和设备 | |
CN106033462A (zh) | 一种新词发现方法及系统 | |
CN111078833A (zh) | 一种基于神经网络的文本分类方法 | |
CN106776808A (zh) | 基于人工智能的资讯数据提供方法及装置 | |
CN104899241A (zh) | 关联数据生成装置和关联数据生成方法 | |
CN113343690A (zh) | 一种文本可读性自动评估方法及装置 | |
CN112732872A (zh) | 面向生物医学文本的基于主题注意机制的多标签分类方法 | |
CN108596205B (zh) | 基于地域相关因子与稀疏表示的微博转发行为预测方法 | |
CN113011126A (zh) | 文本处理方法、装置、电子设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |