CN108875024A - 文本分类方法、系统、可读存储介质及电子设备 - Google Patents

文本分类方法、系统、可读存储介质及电子设备 Download PDF

Info

Publication number
CN108875024A
CN108875024A CN201810640617.8A CN201810640617A CN108875024A CN 108875024 A CN108875024 A CN 108875024A CN 201810640617 A CN201810640617 A CN 201810640617A CN 108875024 A CN108875024 A CN 108875024A
Authority
CN
China
Prior art keywords
node
structure tree
phrase structure
sentence
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810640617.8A
Other languages
English (en)
Other versions
CN108875024B (zh
Inventor
袁春
程洲
马志明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Tsinghua University
Original Assignee
Shenzhen Graduate School Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Tsinghua University filed Critical Shenzhen Graduate School Tsinghua University
Priority to CN201810640617.8A priority Critical patent/CN108875024B/zh
Publication of CN108875024A publication Critical patent/CN108875024A/zh
Application granted granted Critical
Publication of CN108875024B publication Critical patent/CN108875024B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

一种文本分类方法、系统、可读存储介质及电子设备包括:取对应句子文本的短语结构树,其中所述句子文本包括一个或多个标记,每一标记对应一词向量,每一词向量用于作为所述短语结构树中叶节点的输入;通过标记编码器对所述短语结构树中叶节点执行第一操作处理,以将句子文本的词向量转换为对应的句向量;通过语义合成器对所述短语结构树中内部节点执行第二操作处理,以根据句向量得到所述短语结构树中根节点的输出;根据所述根节点的输出对分类器进行训练。本发明可提高文本分类的准确率。

Description

文本分类方法、系统、可读存储介质及电子设备
技术领域
本发明涉及数据处理领域,尤其是涉及一种基于神经网络的文本分类方法、系统、可读存储介质及电子设备。
背景技术
大多数用于句子表达的神经网络通常属于以下类别之一:序列模型、卷积模型和递归模型。最近,序列模型已经见证了自然语言处理(NLP)的广泛应用,例如文本分类(textclassification)、机器翻译(machine translation)、问题回答(question answering)等。在这些方法中,循环神经网络(Recurrent Neural Network,RNN)将每个单词作为输入,将单词与其先前的状态聚合,并最终输出其整个句子的结果。作为固定长度矢量的合成结果包含丰富的语义信息,并用于后续的NLP任务。
然而,在自然语言理解中,包括LSTM在内的循环神经网络均以单一顺序或双向顺序处理单词序列,这意味着它们直接忽略了句子中固有的结构信息。卷积模型结合了多个滤波器和汇集操作,也忽略了语言结构,并使用大量参数来提高其性能。
相反,作为对应的递归模型明确地显现了自然语言中固有的递归结构。RvNN(Recursive Neural Network,循环递归神经网络)模型会被来理解句子和场景。此外,如斯坦福情感数据集(Stanford sentiment dataset,,SST)等专门的数据集中每个句子都以二叉树形式表示。除了句级标签之外,SST中的每个内部节点都会得到一个指示节点情绪的额外监督信号。在训练递归模型时,额外的信息已被证明是有帮助的,并有显示递归模型在SST数据集上的性能优于LSTM,因而,吸引更多的研究人员关注设计更复杂的递归组合函数。
尽管现有模型的性能有所提高,但在SST上运行的递归网络高度依赖于二叉树或二元化短语结构树,而无法较好的应用到对应源语句的短语结构树(非限制性短语结构树)。尽管Child-Sum TreeLSTM支持处理任意树,但它只是将短语结构树中子节点简单地归结动作。显然,现有的模型中并没有较好地充分利用句子结构,或是无法较好地适用于非限制性短语结构树。
以上背景技术内容的公开仅用于辅助理解本发明的发明构思及技术方案,其并不必然属于本专利申请的现有技术,在没有明确的证据表明上述内容在本专利申请的申请日前已经公开的情况下,上述背景技术不应当用于评价本申请的新颖性和创造性。
发明内容
鉴于以上内容,有必要提供一种可文本分类准确率的文本分类方法、系统、可读存储介质及电子设备。
一种文本分类方法,包括:
获取对应句子文本的短语结构树,其中所述句子文本包括一个或多个标记,每一标记对应一词向量,每一词向量用于作为所述短语结构树中叶节点的输入;
通过标记编码器对所述短语结构树中叶节点执行第一操作处理,以将句子文本的词向量转换为对应的句向量;
通过语义合成器对所述短语结构树中内部节点执行第二操作处理,以根据句向量得到所述短语结构树中根节点的输出;
根据所述根节点的输出对分类器进行训练。
进一步地,在所述文本分类方法中,所述通过语义合成器对所述短语结构树中内部节点执行第二操作处理包括:
根据内部节点的左侧兄弟节点和右侧的子节点以自下而上、从左到右的顺序进行学习。
进一步地,在所述文本分类方法中,所述通过标记编码器对所述短语结构树中叶节点执行第一操作处理包括:
根据转换函数将分布向量转换为句子表达,表示为:
sw=Encoder(wemb) 公式(1),
其中,wemb表示第w个单词的词向量;sw表示为句子表达所对应的分布式的句向量;Encoder可表示任何可以学习如何合并这些表达的函数。
进一步地,在所述文本分类方法中,所述转换函数的公式表示:
iw=σ(Wwiwemb+bwi) 公式(2),
ow=σ(Wwowemb+bwo) 公式(3),
uw=σ(Wwuwemb+bwu) 公式(4),
cw=iw⊙uw 公式(5),
hw=ow⊙tanh(cw) 公式(6),
其中,Wwi、Wwo、Wwu表示用于计算输入门iw,输出门ow和候选语的句向量uw的权重参数;wemb表示当前标记的词嵌入(或词向量),σ表示sigmoid函数,其用于矩阵运算的结果约束在[0,1]的范围内;bwi、bwo、bwu用于表示偏移参数;⊙表示向量元素的乘积;tanh表示激活函数;
对于内部节点t左侧兄弟节点(hs,cs)可以定义如下:
内部节点t的子节点(hc,cc)可表示为:
其中,(hrc,crc)表示内部节点t的左侧子节点的记忆单元和输出。
进一步地,在所述文本分类方法中,所述语义合成器表示:
对于语义合成器而言,其语义合成器可定义如下:
is=σ(Wsshs+Wschc+bs) 公式(9),
ic=σ(Wcshs+Wcchc+bc) 公式(10),
it=σ(Wsohs+Wcohc+bo) 公式(11),
ct=is⊙cs+ic⊙cc 公式(12),
ht=ot⊙tanh(ct) 公式(13),
其中,hs表示内部节点t的左侧兄弟结点的输出;hc表示内部节点t的右侧兄弟结点或其子节点的输出;cs及cc表示记忆单元;⊙表示向量元素的乘积。门控制is、ic用于决定了对当前记忆单元ct的影响;bs、bc、bo用于表示偏移参数;Wss、Wsc、Wcs、Wcc、Wso、Wco表示权重参数;输出ht是表示输出门ot和非线性的记单元的双曲正切函数(tanh激活函数)之间计算后的输出结果。
进一步地,在所述文本分类方法中,所述获取对应句子文本的短语结构树之后还包括:
对所述短语结构树进行预处理操作,以优化所述短语结构树的层级关系。
进一步地,在所述文本分类方法中,所述对所述短语结构树进行预处理操作包括:
判断短语结构树中是否存在一个或多个只包含一个子节点的内部节点;
如果是,将该内部节点删除,并将连接该内部节点的子节点连接于该内部节点的父节点。
一种文本分类系统,包括:
获取单元,用于获取对应句子文本的短语结构树,其中所述句子文本包括一个或多个标记,每一标记对应一词向量,每一词向量用于作为所述短语结构树中叶节点的输入;
第一操作单元,用于通过标记编码器对所述短语结构树中叶节点执行第一操作处理,以将句子文本的词向量转换为对应的句向量;
第二操作单元,用于通过语义合成器对所述短语结构树中内部节点执行第二操作处理,以根据句向量得到所述短语结构树中根节点的输出;
分类器单元,用于根据所述根节点的输出对分类器进行训练。
一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理执行时实现如上述文本分类方法的步骤。
一种电子设备,包括存储器及处理器,所述存储器存储若干被所述处理器执行的程序,其特征在于,所述处理器执行所述程序时实现上述文本分类方法的步骤。
本发明文本分类方法、系统、可读存储介质及电子设备通过对短语结构树进行预处理后,可压缩了短语结构树的层级,达到优化短语结构树层级关系的目的;另外,通过对短语结构树的叶节点执行第一操作处理及对内部进行执行第二操作处理,使得该模型可应用于原始无约束短语结构树结构上捕获句子,其中无约束短语结构树上的子节点的数目可以是任意的;另外,实现了以比现有方法参数更少、效果更好的树网络进行建模,从而完成句子的表达。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供文本分类方法的较佳实施方式的流程图。
图2是本发明提供的一种示例性的短语结构树的示意图。
图3是执行预操作后的短语结构树的示意图。
图4是不同模型在不同数据集下训练的分类结果示意图。
图5是三个模型在MR数据集上训练的参数示意图
图6是两个模型在MR数据集上训练的训练损失和测试精度的对比图。
图7是本发明应用文本分类方法的电子设备的较佳实施方式的方框图。
主要元件符号说明
电子设备 40
处理器 401
显示屏 403
存储器 405
输入输出接口 407
总线 411
网络接口 409
文本分类系统 417
如下具体实施例将结合上述附图进一步说明本发明。
具体实施例
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
下面结合附图和具体的实施方式对本发明作进一步说明。
本发明旨在提供一种文本分类方法、系统、可读存储介质及电子设备,包括TreeNet模型,所述TreeNet模型可用于在原始无约束短语结构树结构上捕获句子,其中无约束短语结构树上的子节点的数目可以是任意的。在TreeNet模型中,每个内部节点都以自下而上、从左到右的顺序从左侧的兄弟节点和右侧的子节点进行学习,从而使TreeNet模型能够在任何树上进行学习。此外,在TreeNet模型中,采用了多个门控制和一个记忆单元以确定学习、记忆和输出的操作,从而提供简单而有效的语义合成方法。
请参考图1,本发明文本分类方法的较佳实施方式包括如下步骤:
步骤S100,获取对应的句子文本的短语结构树。
本实施方式中,可先获取句子文本,并可通过现有的算法(如Stanford Parser提供的算法)来生成对应的短语结构树。可以理解中,获取得到的所述句子文本可通过第三方平台获取,如可将对应的句子文本输入至第三方平台上即可生成对应的短语结构树。
可以理解地,用户也可直接从第三方数据集(如SST数据集)中获取对应句子文本的短语结构树。例如,请参阅图2,可在第三方数据集中获取句子文本“You won’t likeRogers,but you will quickly recognize him”的短语结构树,第三方数据集中的短语结构树一般为二叉树类型。
本实施方式中,所述短语结构树可包括一根节点Root、一个或多个叶节点及一个或多个内部节点。本实施方式中,所述短语结构树的叶节点可对应为神经网络的输入层,根节点Root可对应为神经网络的输出层,内部节点可对应为神经网络的隐藏层。
可以理解地,所述句子文本可包括若干标记元素,所述标记元素可包括单词及标点符号等。每一标记元素可对应一词向量,每一标记元素可作为所述短语结构树中叶节点的输入。例如,所述句子文本“You won’t like Rogers,but you will quickly recognizehim”中表示为单词的标记元素包括“You”、“wo”、“n’t”、“like”、“Rogers”、“but”、“you”、“will”、“quickly”、“recognize”及“him”等11个,表示为标点符号的标记元素包括“,”、“.”等2个。
步骤S102,对所述短语结构树进行预处理操作,以优化所述短语结构树的层级关系。
本实施方式中,如图2所示的短语结构树中,根据其层级关系可知,其树的深度为8。由于短语结构树中存在一个或多个内部节点可包含一个子节点,从而导致短语结构树的层级较深。因此,可判断短语结构树中是否存在一个或多个只包含一个子节点的内部节点,如果是,则可将该内部节点删除,并将连接该内部节点的子节点连接于该内部节点的父节点,如此达到优化短语结构树层级关系的目的,也有利于提高模型训练的性能。
请一并参阅图3,其为预操作后的短语结构树。与图2中数据集原始的短语结构树对比可知,由于短语结构树中存在具有一个子节点的内部节点,如连接标点符号“,”子节点的内部节点具有唯一的子节点,连接标点符号“.”子节点的内部节点具有唯一的子节点,因此,在进行预处理时,删除这两个内部节点,并将对应标点符号“.”及“,”的子节点直接连接到该内部节点的父节点,即对应标点符号“.”及“,”的子节点直接连接至根节点,如此,压缩了短语结构树的层级,亦达到优化短语结构树层级关系的目的。
当短语结构树中所有的内部节点均拥有至少两个子节点时,可不执行预处理操作,即步骤S102亦可省略。
步骤S104,通过标记编码器对所述短语结构树中叶节点执行第一操作处理。
本实施方式中,所述句子文本包含的标记可表示为对应的词向量,通过对标记所对应的词向量执行第一操作处理,以将词向量转换为句向量。
可以理解地,对于每个句子文本的语义表达可使用d维分布式的句向量来进行表示,其中分布向量中的字符可表示为one-hot向量(独热式向量)、任意维度的随机分布式向量或其他预训练向量。因此,标记编码器可通过转换函数将分布向量转换为句子表达。
sw=Encoder(wemb) 公式(1),
其中,wemb表示第w个单词的词向量;sw表示为句子表达所对应的分布式的句向量;Encoder可表示任何的神经网络。
虽然存在大量神经网络(例如各种多层感知器)来实现标记编码器。本实施方式中,通过简单的基于门控制和记忆单元来实现标记编码器,以利用记忆单元存储来保存每个节点的所有观察值,还可通过门控制来控制输入和输出,其他实施方式亦不限于上述实现的方法。
可以理解地,对于标记编码器而言,可通过两个控制门(输入门与输出门)来确定应该将什么集成到记忆单元、该输出什么作为其句子表达。基本上,基于词向量到句向量的映射的标记编码器定义如下:
iw=σ(Wwiwemb+bwi) 公式(2),
ow=σ(Wwowemb+bwo) 公式(3),
uw=σ(Wwuwemb+bwu) 公式(4),
cw=iw⊙uw 公式(5),
hw=ow⊙tanh(cw) 公式(6),
其中,Wwi、Wwo、Wwu表示用于计算输入门iw,输出门ow和候选语的句向量uw的权重参数;wemb表示当前标记的词嵌入(或词向量),σ表示sigmoid函数,其用于矩阵运算的结果约束在[0,1]的范围内;bwi、bwo、bwu用于表示偏移参数;⊙表示向量元素的乘积;tanh表示激活函数。因此,本实施方式中,记忆单元cw和输出hw可通过学习2个控制门得到。另外,iw、ow、uw、hw保持了与句子表达相同的维度,wemb的维度可能由预训练的词向量或任意随机向量来定义。
记忆单元cw和输出hw在普通的内部节点的存储单元及输出,并可在以下计算中使用。
对于内部节点t,其左侧兄弟节点(hs,cs)可以定义如下:
内部节点t的子节点(hc,cc)可表示为:
其中,(hrc,crc)表示内部节点t的左侧子节点的记忆单元和输出。
步骤S106,通过语义合成器对所述短语结构树中内部节点执行第二操作处理。
与叶节点不同的是,每一内部节点可表示为拥有一个或多个兄弟节点及/或一个或多个子节点。左内部节点可表示为其左侧没有兄弟节点的节点。因而,在计算期间,可使用零初始化的向量来表示左内部节点。对于拥有多个子节点的内部节点,其右侧子节点可表示为该右侧子节点所有后代的输出。同一父节点的所有子节点可按从左到右顺序进行处理。
st=Compositor(st-1,sc) 公式(12),
其中,sc表示当前节点t的唯一子节点(其中对于一标记的可表示为sw)或者表示对应于右侧子节点的所有后代的输出,st-1表示当前节点t左侧兄弟节点的输出,Compositor激活函数可以表示通过神经网络对sc及st-1学习的激活操作,可表示任何可以学习如何合并这些表达的函数。
在计算过程,语义合成器在理解句子或部分句子中起着重要作用。从兄弟节点的角度来看,语义合成器可由循环神经网络方式执行的处理操作,其将子节点为输入,左侧兄弟节点表示其前一状态。从父节点和子节点之间的关系方面来说,父节点的状态更新可由递归神经网络方式对左侧兄弟节点及右侧子节点进行的操作。
可以理解地,虽然存在大量神经网络(例如各种多层感知器)来实现语义合成器。本实施方式中,通过简单的基于门控制和记忆单元来实现语义合成器,以利用记忆单元存储来保存每个节点的所有观察值,还可通过门控制来控制输入和输出,其他实施方式亦不限于上述实现的方法。
较佳地,对于语义合成器而言,其语义合成器可定义如下:
is=σ(Wsshs+Wschc+bs) 公式(9),
ic=σ(Wcshs+Wcchc+bc) 公式(10),
it=σ(Wsohs+Wcohc+bo) 公式(11),
ct=is⊙cs+ic⊙cc 公式(12),
ht=ot⊙tanh(ct) 公式(13),
其中,hs表示内部节点t的左侧兄弟结点的输出;hc表示内部节点t的右侧兄弟结点或其子节点的输出;cs及cc表示记忆单元;⊙表示向量元素的乘积。门控制is、ic用于决定了对当前记忆单元ct的影响;bs、bc、bo用于表示偏移参数;Wss、Wsc、Wcs、Wcc、Wso、Wco表示权重参数;输出ht是表示输出门ot和非线性的记单元的双曲正切函数(tanh激活函数)乘积之间计算后的输出结果。
步骤S108,根据根节点的输出对Softmax分类器进行训练,并对模型进行验证。
对于文本分类而言,根节点的输出hroot对应于输入文本的句子表达,可通过softmax分类器的归一化处理对输出hroot进行预测分析以得到对应的类别,其可表示为:
其中,损失函数J(θ)可表示为:
其中,表示one-hot向量,表示每一类别的概率,n表示目标类别的数量,λ是一个L2的正则化超参数。在其他实施方式中,所述分类器并不限于Softmax分类器。
本实施方式中,本实施方式的模型TreeNet可在4个数据集(MR、Subj、TREC、CR)上的训练。
在实验中,输入句子可由Stanford Parser进行标记与解析,以生成短语结构树。在实验TreeNet-glove中,词嵌入建立在GloVe中预训练的词嵌入,GloVe中不存在的标记会从均匀分布在[-0.05,0.05]中进行取样。预先训练的词嵌入并没有微调。TreeNet模型(没有应用GloVe)可通过初始化所有的标记,以使得标记均匀分布在[-0.05,0.05]。对于短语结构树,当内部节点只包含一个子节点时,可对短语结构树进行预处理,如将该子节点连接至其父节点,如此,预处理后的短语结构树可进行压缩,在不减少有用的信息的前提下,可以使得预处理后的短语结构树可被压缩为具有合适深度的树,从而,短语结构树中的所有内部节点至少有两个子节点(或子树)或一个标记为唯一的子节点。
在没有应用GloVe的实验中,即TreeNet,词嵌入的维度为100,句子表达的维度是50。在应用GloVe的实验中,即TreeNet-glove,一个词嵌入的维度可以是300-维度的向量,句子表达可以是一个100维度的向量。在所有这些实验中,可通过随机梯度下降来优化模型参数。为了获得最佳性能实验中,可对学习率进行了网格搜索,使得学习率在[1e-2,1e-5]的范围内,L2正则化超参数位于(1e-3,1e-4,1e-5,0)的集合内
请参阅图4,其为不同模型在不同数据集下训练的分类结果示意图。比较模型可以分为四类:递归模型、CNN、LSTM和其他类似n-gram的模型。图4显示了与比较模型比较后的分类结果。从比较中可以看到,TreeNet模型的分类结果明显优于LSTM,RvNNs(DC-TreeLSTM,TLSTM和AdaHT-LSTM)和CNNs。
请参阅图5,其为三个模型在MR数据集上训练的参数示意图。为了将TreeNet模型作为一个通用神经网络,在具有相同超参数的前提下,可将其与CNN和LSTM在MR数据集上进行训练实验。在这个实验中,CNN、LSTM及TreeNet模型均使用预先训练的词嵌入。在CNN模型中,通过会使用word2vec(word2vec比GloVe具有更好的性能)进行配合,以发挥其最大的性能。对于LSTM和TreeNet模型而言,可使用GloVe来初始化嵌入字。在LSTM模型的训练测试中,设定MR数据集的隐藏大小为100,学习率0.001和L2正则化超参数为0。TreeNet模型也设置与LSTM相同的实验条件。在训练过程中,一个句子同时输入LSTM和TreeNet模型中。
请参阅图6,其为两个模型在MR数据集上训练的训练损失和测试精度的示意图。在图6中,LSTM和TreeNet模型在第七个时代(133*500)实现最佳测试性能迭代,而LSTM的训练损失较小且较弱性能。换句话说,TreeNet模型可通过更少的参数实现更好的性能。
请参阅图7,本发明文本分类系统417应用于电子设备40的较佳实施方式的方框图。所述电子设备40可包括计算处理装置417,如手机、平板电脑、计算机等具有数据处理功能的电子设备。
上述文本分类方法通过对短语结构树进行预处理后,可压缩了短语结构树的层级,达到优化短语结构树层级关系的目的;另外,通过对短语结构树的叶节点执行第一操作处理及对内部进行执行第二操作处理,使得该模型可应用于原始无约束短语结构树结构上捕获句子,其中无约束短语结构树上的子节点的数目可以是任意的;另外,实现了以比现有方法(LSTM、RvNN)参数更少、效果更好的树网络进行建模,从而完成句子的表达。
所述电子设备40是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述电子设备40可以是,但不限于任何一种可与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,平板电脑、智能手机、个人数字助理(Personal Digital Assistant,PDA)、游戏机、智能式穿戴式设备等。
所述电子设备40所处的网络包括,但不限于互联网、广域网、城域网、局域网、虚拟专用网络(Virtual Private Network,VPN)等,如所述电子设备40可网络接口409接入互联网、广域网、城域网、局域网、虚拟专用网络。
所述存储器405可以是不同类型存储设备或计算机可读存储介质,用于存储各类数据。例如,可以是电子设备40的内存,还可以是可外接于该电子设备40的存储卡,如闪存、SM卡(Smart Media Card,智能媒体卡)、SD卡(Secure Digital Card,安全数字卡)等。存储器405用于存储各类数据,例如,所述电子设备40中安装的包括信息处理的应用(Applications)、应用上述信息处理方法而设置、获取的数据等信息。
所述处理器401用于执行所述计算处理方法以及所述电子设备40内安装的各类软件,例如操作系统、信息处理软件等。所述处理器401包含但不限于处理器(CentralProcessing Unit,CPU)、微控制单元(Micro Controller Unit,MCU)等用于解释计算机指令以及处理计算机软件中的数据的装置,可以包括一个或者多个微处理器、数字处理器。所述显示屏403可以是触摸屏等其他用于显示画面的设备。
所述电子设备40包括的文本分类系统417可以包括一个或多个的模块,所述一个或多个模块可以被存储在电子设备40的存储器405中并可以被配置成由一个或多个处理器(本实施例为一个处理器401)执行,以完成本发明。例如,参阅图4所示,所述文本分类系统417包括存储器405、输入输出接口407、显示屏403及通过总线411与所述存储器405、输入输出接口407与显示屏403进行数据交换的处理器401。其中,所述输入输出接口407可连接于鼠标及/或键盘(图未示)。本发明所称的模块是完成一特定功能的程序段,比程序更适合于描述软件在处理器中的执行过程。
本实施例中,所述显示屏403可为具有触摸功能的显示屏,进而为用户的操作提供便利。所述存储器405可存储有若干程序代码,以被所述处理器401执行,进而实现所述文本分类系统417的功能。
本实施方式中,所述文本分类系统417可包括获取单元、预处理单元、第一操作单元、第二操作单元及分类器单元。
所述获取单元用于获取对应的句子文本的短语结构树。
本实施方式中,所述获取单元可先获取句子文本,并可通过现有的算法(如Stanford Parser提供的算法)来生成对应的短语结构树。可以理解中,获取得到的所述句子文本可通过第三方平台获取,如可将对应的句子文本输入至第三方平台上即可生成对应的短语结构树。
可以理解地,用户也可直接从第三方数据集(如SST数据集)中获取对应句子文本的短语结构树。例如,可在第三方数据集中获取句子文本“You won’t like Rogers,butyou will quickly recognize him”的短语结构树,第三方数据集中的短语结构树一般为二叉树类型。
本实施方式中,所述短语结构树可包括一根节点Root、一个或多个叶节点及一个或多个内部节点。本实施方式中,所述短语结构树的叶节点可对应为神经网络的输入层,根节点Root可对应为神经网络的输出层,内部节点可对应为神经网络的隐藏层。
可以理解地,所述句子文本可包括若干标记元素,所述标记元素可包括单词及标点符号等。每一标记元素可对应一词向量,每一标记元素可作为所述短语结构树中叶节点的输入。例如,所述句子文本“You won’t like Rogers,but you will quickly recognizehim”中表示为单词的标记元素包括“You”、“wo”、“n’t”、“like”、“Rogers”、“but”、“you”、“will”、“quickly”、“recognize”及“him”等11个,表示为标点符号的标记元素包括“,”、“.”等2个。
所述预处理单元用于对所述短语结构树进行预处理操作,以优化所述短语结构树的层级关系。
本实施方式中,如图2所示的短语结构树中,根据其层级关系可知,其树的深度为8。由于短语结构树中存在一个或多个内部节点可包含一个子节点,从而导致短语结构树的层级较深。因此,所述预处理单元可判断短语结构树中是否存在一个或多个只包含一个子节点的内部节点,如果是,则可将该内部节点删除,并将连接该内部节点的子节点连接于该内部节点的父节点,如此达到优化短语结构树层级关系的目的,也有利于提高模型训练的性能。
请一并参阅图3,其为预操作后的短语结构树。与图2中数据集原始的短语结构树对比可知,由于短语结构树中存在具有一个子节点的内部节点,如连接标点符号“,”子节点的内部节点具有唯一的子节点,连接标点符号“.”子节点的内部节点具有唯一的子节点,因此,在进行预处理时,删除这两个内部节点,并将对应标点符号“.”及“,”的子节点直接连接到该内部节点的父节点,即对应标点符号“.”及“,”的子节点直接连接至根节点,如此,压缩了短语结构树的层级,亦达到优化短语结构树层级关系的目的。
当短语结构树中所有的内部节点均拥有至少两个子节点时,所述预处理单元可不执行预处理。
所述第一操作单元用于通过标记编码器对所述短语结构树中叶节点执行第一操作处理。
本实施方式中,所述句子文本包含的标记可表示为对应的词向量,通过对标记所对应的词向量执行第一操作处理,以将词向量转换为句向量。
可以理解地,对于每个句子文本的语义表达可使用d维分布式的句向量来进行表示,其中分布向量中的字符可表示为one-hot向量(独热式向量)、任意维度的随机分布式向量或其他已经学习好的词向量(如GloVe)。因此,所述第一操作单元可通过转换函数将分布向量转换为句子表达。
sw=Encoder(wemb) 公式(1),
其中,wemb表示第w个单词的词向量;sw表示为句子表达所对应的分布式的句向量;Encoder可表示任何的神经网络。
虽然存在大量神经网络(例如各种多层感知器)来实现所述第一操作单元的功能。本实施方式中,通过简单的基于门控制和记忆单元来实现所述第一操作单元的标记编码器的功能,以利用记忆单元存储来保存每个节点的所有观察值,还可通过门控制来控制输入和输出,其他实施方式亦不限于上述实现的方法。
可以理解地,对于所述第一操作单元而言,可通过两个控制门(输入门与输出门)来确定应该将什么集成到记忆单元、该输出什么作为其句子表达。基本上,基于词向量到句向量的映射的标记编码器定义如下:
iw=σ(Wwiwemb+bwi) 公式(2),
ow=σ(Wwowemb+bwo) 公式(3),
uw=σ(Wwuwemb+bwu) 公式(4),
cw=iw⊙uw 公式(5),
hw=ow⊙tanh(cw) 公式(6),
其中,Wwi、Wwo、Wwu表示用于计算输入门iw,输出门ow和候选语的句向量uw的权重参数;wemb表示当前标记的词嵌入(或词向量),σ表示sigmoid函数,其用于矩阵运算的结果约束在[0,1]的范围内;bwi、bwo、bwu用于表示偏移参数;⊙表示向量元素的乘积;tanh表示激活函数。因此,本实施方式中,记忆单元cw和输出hw可通过学习2个控制门得到。另外,iw、ow、uw、hw保持了与句子表达相同的维度,wemb的维度可能由预训练的词向量或任意随机向量来定义。
记忆单元cw和输出hw在普通的内部节点的存储单元及输出,并可在以下计算中使用。
对于内部节点t,其左侧兄弟节点(hs,cs)可以定义如下:
内部节点t的子节点(hc,cc)可表示为:
其中,(hrc,crc)表示内部节点t的左侧子节点的记忆单元和输出。
所述第二操作单元用于通过语义合成器对所述短语结构树中内部节点执行第二操作处理。
与叶节点不同的是,每一内部节点可表示为拥有一个或多个兄弟节点及/或一个或多个子节点。左内部节点可表示为其左侧没有兄弟节点的节点。因而,在计算期间,可使用零初始化的向量来表示左内部节点。对于拥有多个子节点的内部节点,其右侧子节点可表示为该右侧子节点所有后代的输出。同一父节点的所有子节点可按从左到右顺序依次传递进行处理。
st=Compositor(st-1,sc) 公式(12),
其中,sc表示当前节点t的唯一子节点(其中,如果子节点唯一,即叶节点可表示为sw)或者表示对应于右侧子节点的所有后代的输出,st-1表示当前节点t左侧兄弟节点的输出,Compositor激活函数可以表示通过神经网络对sc及st-1学习的激活操作,可表示任何可以学习如何合并这些表达的函数。
在计算过程,所述第二操作单元实现的语义合成器在理解句子或部分句子中起着重要作用。从兄弟节点的角度来看,语义合成器可由循环神经网络方式执行的处理操作,其将子节点为输入,左侧兄弟节点表示其前一状态。从父节点和子节点之间的关系方面来说,父节点的状态更新可由递归神经网络方式对左侧兄弟节点及右侧子节点进行的操作。
可以理解地,虽然存在大量神经网络(例如各种多层感知器)来实现语义合成器。本实施方式中,通过简单的基于门控制和记忆单元来实现语义合成器,以利用记忆单元存储来保存每个节点的所有观察值,还可通过门控制来控制输入和输出,其他实施方式亦不限于上述实现的方法。
较佳地,对于语义合成器而言,其语义合成器可定义如下:
is=σ(Wsshs+Wschc+bs) 公式(9),
ic=σ(Wcshs+Wcchc+bc) 公式(10),
it=σ(Wsohs+Wcohc+bo) 公式(11),
ct=is⊙cs+ic⊙cc 公式(12),
ht=ot⊙tanh(ct) 公式(13),
其中,hs表示内部节点t的左侧兄弟结点的输出;hc表示内部节点t的右侧兄弟结点或其子节点的输出;cs及cc表示记忆单元;⊙表示向量元素的乘积。门控制is、ic用于决定了对当前记忆单元ct的影响;bs、bc、bo用于表示偏移参数;Wss、Wsc、Wcs、Wcc、Wso、Wco表示权重参数;输出ht是表示输出门ot和非线性的记单元的双曲正切函数(tanh激活函数)之间计算后的输出结果。
所述分类器单元用于根据根节点的输出对Softmax分类器进行训练,并对模型进行验证。
对于文本分类而言,根节点的输出hroot对应于输入文本的句子表达,可通过softmax分类器的归一化处理对输出hroot进行预测分析以得到对应的类别,其可表示为:
其中,损失函数J(θ)可表示为:
其中,表示one-hot向量,表示每一类别的概率,n表示目标类别的数量,λ是一个L2的正则化超参数。在其他实施方式中,所述分类器并不限于Softmax分类器。
上述文本分类方法、系统、可读存储介质及电子设备通过对短语结构树进行预处理后,可压缩了短语结构树的层级,达到优化短语结构树层级关系的目的;另外,通过对短语结构树的叶节点执行第一操作处理及对内部进行执行第二操作处理,使得该模型可应用于原始无约束短语结构树结构上捕获句子,其中无约束短语结构树上的子节点的数目可以是任意的;另外,实现了以比现有方法(LSTM、RvNN)参数更少、效果更好的树网络进行建模,从而完成句子的表达。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说,在不脱离本发明构思的前提下,还可以做出若干等同替代或明显变型,而且性能或用途相同,都应当视为属于本发明的保护范围。

Claims (10)

1.一种文本分类方法,其特征在于,所述方法包括:
获取对应句子文本的短语结构树,其中所述句子文本包括一个或多个标记,每一标记对应一词向量,每一词向量用于作为所述短语结构树中叶节点的输入;
通过标记编码器对所述短语结构树中叶节点执行第一操作处理,以将句子文本的词向量转换为对应的句向量;
通过语义合成器对所述短语结构树中内部节点执行第二操作处理,以根据句向量得到所述短语结构树中根节点的输出;
根据所述根节点的输出对分类器进行训练。
2.如权利要求1所述的文本分类方法,其特征在于,所述通过语义合成器对所述短语结构树中内部节点执行第二操作处理包括:
根据内部节点的左侧兄弟节点和右侧的子节点以自下而上、从左到右的顺序进行学习。
3.如权利要求1所述的文本分类方法,其特征在于,所述通过标记编码器对所述短语结构树中叶节点执行第一操作处理包括:
根据转换函数将分布向量转换为句子表达,表示为:
sw=Encoder(wemb) 公式(1),
其中,wemb表示第w个单词的词向量;sw表示为句子表达所对应的分布式的句向量;Encoder表示神经网络。
4.如权利要求3所述的文本分类方法,其特征在于,所述转换函数的公式表示:
iw=σ(Wwiwemb+bwi) 公式(2),
ow=σ(Wwowemb+bwo) 公式(3),
uw=σ(Wwuwemb+bwu) 公式(4),
cw=iw⊙uw 公式(5),
hw=ow⊙tanh(cw) 公式(6),
其中,Wwi、Wwo、Wwu表示用于计算输入门iw,输出门ow和候选语的句向量uw的权重参数;wemb表示当前标记的词嵌入(或词向量),σ表示sigmoid函数,其用于矩阵运算的结果约束在[0,1]的范围内;bwi、bwo、bwu用于表示偏移参数;⊙表示向量元素的乘积;tanh表示激活函数;
对于内部节点t左侧兄弟节点(hs,cs)可以定义如下:
内部节点t的子节点(hc,cc)可表示为:
其中,(hrc,crc)表示内部节点t的左侧子节点的记忆单元和输出。
5.如权利要求4所述的文本分类方法,其特征在于,所述语义合成器表示:
对于语义合成器而言,其语义合成器可定义如下:
is=σ(Wsshs+Wschc+bs) 公式(9),
ic=σ(Wcshs+Wcchc+bc) 公式(10),
it=σ(Wsohs+Wcohc+bo) 公式(11),
ct=is⊙cs+ic⊙cc 公式(12),
ht=ot⊙tanh(ct) 公式(13),
其中,hs表示内部节点t的左侧兄弟结点的输出;hc表示内部节点t的右侧兄弟结点或其子节点的输出;cs及cc表示记忆单元;⊙表示向量元素的乘积。门控制is、ic用于决定了对当前记忆单元ct的影响;bs、bc、bo用于表示偏移参数;Wss、Wsc、Wcs、Wcc、Wso、Wco表示权重参数;输出ht是表示输出门ot和非线性的记单元的双曲正切函数之间计算后的输出结果。
6.如权利要求1-5中任意一项所述的文本分类方法,其特征在于,所述获取对应句子文本的短语结构树之后还包括:
对所述短语结构树进行预处理操作,以优化所述短语结构树的层级关系。
7.如权利要求6所述的文本分类方法,其特征在于:所述对所述短语结构树进行预处理操作包括:
判断短语结构树中是否存在一个或多个只包含一个子节点的内部节点;
如果是,将该内部节点删除,并将连接该内部节点的子节点连接于该内部节点的父节点。
8.一种文本分类系统,其特征在于,所述系统包括:
获取单元,用于获取对应句子文本的短语结构树,其中所述句子文本包括一个或多个标记,每一标记对应一词向量,每一词向量用于作为所述短语结构树中叶节点的输入;
第一操作单元,用于通过标记编码器对所述短语结构树中叶节点执行第一操作处理,以将句子文本的词向量转换为对应的句向量;
第二操作单元,用于通过语义合成器对所述短语结构树中内部节点执行第二操作处理,以根据句向量得到所述短语结构树中根节点的输出;
分类器单元,用于根据所述根节点的输出对分类器进行训练。
9.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理执行时实现如权利要求1-7中任意一项所述的文本分类方法的步骤。
10.一种电子设备,包括存储器及处理器,所述存储器存储若干被所述处理器执行的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任意一项所述的文本分类方法的步骤。
CN201810640617.8A 2018-06-20 2018-06-20 文本分类方法、系统、可读存储介质及电子设备 Active CN108875024B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810640617.8A CN108875024B (zh) 2018-06-20 2018-06-20 文本分类方法、系统、可读存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810640617.8A CN108875024B (zh) 2018-06-20 2018-06-20 文本分类方法、系统、可读存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN108875024A true CN108875024A (zh) 2018-11-23
CN108875024B CN108875024B (zh) 2020-10-20

Family

ID=64340708

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810640617.8A Active CN108875024B (zh) 2018-06-20 2018-06-20 文本分类方法、系统、可读存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN108875024B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110378486A (zh) * 2019-07-15 2019-10-25 出门问问信息科技有限公司 网络嵌入方法、装置、电子设备和存储介质
CN111737466A (zh) * 2020-06-18 2020-10-02 中国科学院计算技术研究所 一种用于深度神经网络交互信息量化的方法
CN111814469A (zh) * 2020-07-13 2020-10-23 北京邮电大学 一种基于树型胶囊网络的关系抽取方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104794212A (zh) * 2015-04-27 2015-07-22 清华大学 基于用户评论文本的上下文情感分类方法及分类系统
CN105512687A (zh) * 2015-12-15 2016-04-20 北京锐安科技有限公司 训练情感分类模型和文本情感极性分析的方法及系统
CN106528776A (zh) * 2016-11-07 2017-03-22 上海智臻智能网络科技股份有限公司 一种文本分类的方法和装置
US20170132676A1 (en) * 2015-11-09 2017-05-11 Anupam Madiratta System and method for hotel discovery and generating generalized reviews
CN107229610A (zh) * 2017-03-17 2017-10-03 咪咕数字传媒有限公司 一种情感数据的分析方法及装置
CN107944014A (zh) * 2017-12-11 2018-04-20 河海大学 一种基于深度学习的中文文本情感分析方法
CN108052625A (zh) * 2017-12-18 2018-05-18 清华大学 一种实体精细分类方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104794212A (zh) * 2015-04-27 2015-07-22 清华大学 基于用户评论文本的上下文情感分类方法及分类系统
US20170132676A1 (en) * 2015-11-09 2017-05-11 Anupam Madiratta System and method for hotel discovery and generating generalized reviews
CN105512687A (zh) * 2015-12-15 2016-04-20 北京锐安科技有限公司 训练情感分类模型和文本情感极性分析的方法及系统
CN106528776A (zh) * 2016-11-07 2017-03-22 上海智臻智能网络科技股份有限公司 一种文本分类的方法和装置
CN107229610A (zh) * 2017-03-17 2017-10-03 咪咕数字传媒有限公司 一种情感数据的分析方法及装置
CN107944014A (zh) * 2017-12-11 2018-04-20 河海大学 一种基于深度学习的中文文本情感分析方法
CN108052625A (zh) * 2017-12-18 2018-05-18 清华大学 一种实体精细分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘玉婷等: "网页排序中的随机模型及算法", 《中国科学:数学》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110378486A (zh) * 2019-07-15 2019-10-25 出门问问信息科技有限公司 网络嵌入方法、装置、电子设备和存储介质
CN111737466A (zh) * 2020-06-18 2020-10-02 中国科学院计算技术研究所 一种用于深度神经网络交互信息量化的方法
CN111737466B (zh) * 2020-06-18 2022-11-29 中国科学院计算技术研究所 一种用于深度神经网络交互信息量化的方法
CN111814469A (zh) * 2020-07-13 2020-10-23 北京邮电大学 一种基于树型胶囊网络的关系抽取方法及装置
CN111814469B (zh) * 2020-07-13 2023-07-18 北京邮电大学 一种基于树型胶囊网络的关系抽取方法及装置

Also Published As

Publication number Publication date
CN108875024B (zh) 2020-10-20

Similar Documents

Publication Publication Date Title
CN109902293B (zh) 一种基于局部与全局互注意力机制的文本分类方法
CN111368996B (zh) 可传递自然语言表示的重新训练投影网络
WO2022007823A1 (zh) 一种文本数据处理方法及装置
CN107273355B (zh) 一种基于字词联合训练的中文词向量生成方法
CN111368993B (zh) 一种数据处理方法及相关设备
WO2022057776A1 (zh) 一种模型压缩方法及装置
CN110032632A (zh) 基于文本相似度的智能客服问答方法、装置及存储介质
CN111143576A (zh) 一种面向事件的动态知识图谱构建方法和装置
WO2022068627A1 (zh) 一种数据处理方法及相关设备
CN110321563B (zh) 基于混合监督模型的文本情感分析方法
CN109992773B (zh) 基于多任务学习的词向量训练方法、系统、设备及介质
CN109657226B (zh) 多联结注意力的阅读理解模型、系统及方法
CN109214006B (zh) 图像增强的层次化语义表示的自然语言推理方法
CN110232122A (zh) 一种基于文本纠错与神经网络的中文问句分类方法
CN112183747A (zh) 神经网络训练的方法、神经网络的压缩方法以及相关设备
CN110096711A (zh) 序列全局关注和局部动态关注的自然语言语义匹配方法
CN111898636B (zh) 一种数据处理方法及装置
WO2023236977A1 (zh) 一种数据处理方法及相关设备
CN109739960A (zh) 文本的情感分析方法、情感分析装置及终端
CN111274790A (zh) 基于句法依存图的篇章级事件嵌入方法及装置
CN108875024A (zh) 文本分类方法、系统、可读存储介质及电子设备
CN107679225A (zh) 一种基于关键词的回复生成方法
CN115238076A (zh) 提高多层级专利文本分类效果的方法、设备及存储介质
CN112000778A (zh) 一种基于语义识别的自然语言处理方法、装置和系统
CN110489765A (zh) 机器翻译方法、装置及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant