CN107832458B - 一种字符级的基于嵌套深度网络的文本分类方法 - Google Patents

一种字符级的基于嵌套深度网络的文本分类方法 Download PDF

Info

Publication number
CN107832458B
CN107832458B CN201711205146.XA CN201711205146A CN107832458B CN 107832458 B CN107832458 B CN 107832458B CN 201711205146 A CN201711205146 A CN 201711205146A CN 107832458 B CN107832458 B CN 107832458B
Authority
CN
China
Prior art keywords
character
text
network
cell
gate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711205146.XA
Other languages
English (en)
Other versions
CN107832458A (zh
Inventor
郑子彬
李晓杰
吴向军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201711205146.XA priority Critical patent/CN107832458B/zh
Publication of CN107832458A publication Critical patent/CN107832458A/zh
Application granted granted Critical
Publication of CN107832458B publication Critical patent/CN107832458B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种字符级的基于嵌套深度网络的文本分类方法,包括以下步骤:S1、构造字符向量矩阵表;S2、短文本预处理;S3、改进Resnet提取高维序列特征;S4、LSTM网络分类。本发明基于字符级的文本转换能有效的对所有的文本进行转换,相对于传统的向量空间模型,维度下降明显,而且对于所有的文本都能有效的转换,不会忽略低频词;另外,改进Resnet能够自学习特征提取方法,相对于传统的TF‑IDF公式,互信息量,信息增益,χ2统计量等方法,其提取的特征更加有效,更加抽象;最后,LSTM网络分类能够考虑词与词之间的顺序关系,从而能够更加准确地进行文本分类。

Description

一种字符级的基于嵌套深度网络的文本分类方法
技术领域
本发明涉及文本分类的技术领域,尤其涉及到一种字符级的基于嵌套深度网络的文本分类方法。
背景技术
随着网络技术的不断发展,互联网每天都会产生海量的非结构化的文本数据,为了获取这些海量数据中有用的价值,我们需要对这些文本进行分门别类。
早期的文本分类主要通过手工定义一些规则来对文本进行分类,这种方法费时费力,且必须对某一领域有足够的了解,才能写出合适的规则。随着网上在线文本的大量涌现和机器学习的兴起,大规模的文本(包括网页)分类和检索重新引起研究者的兴趣。文本分类系统首先通过在预先分类好的文本集上训练,建立一个判别规则或分类器,从而对未知类别的新样本进行自动归类。大量的结果表明它的分类精度比得上专家手工分类的结果,并且它的学习不需要专家干预,能适用于任何领域的学习,使得它成为目前文本分类的主流方法。
计算机并不具有人类的智慧,不能读懂文字,所以必须把文本转化成计算机能够理解的形式,即进行文本表示,所以传统的文本分类方法首先对文本进行预处理,获得一些用于训练的特征。目前文本表示模型主要是向量空间模型(VSM)。向量空间模型的基本思想是把文档简化为特征项的权重为分量的向量表示:(w1,w2,…,wn),其中wi为第i个特征项的权重,一般选取词作为特征项,权重用词频表示.词频分为绝对词频和相对词频.绝对词频,即用词在文本中出现的频率表示文本;相对词频,即为归一化的词频,其计算方法主要运用TF-IDF公式,互信息量,信息增益,χ2统计量等。由于文本数据的半结构化甚至于无结构化的特点,当用特征向量对文档进行表示的时候,特征向量通常会达到几万维甚至于几十万维.寻求一种有效的特征降维方法,降低特征空间的维数,提高分类的效率和精度,成为文本自动分类中至关重要的问题.降维技术总的可以分为两类:特征选择和特征抽取。在抽取完特征后,一般来说文本的特征都是很多的,这就需要对特征进行选择,选取最有用的特征,去除无用的特征。在获得最后的特征后,就可以使用分类器对特征进行训练,常用的分类算法有Rocchio算法、朴素贝叶斯分类算法、K-近邻算法、决策树算法、神经网络算法和支持向量机算法。
从上面可以看到,文本特征的选择在文本分类中占据着很重要的一部分,而传统做法主要问题的文本表示是高维度高稀疏的,特征表达能力很弱,而且传统的文本分类方法没有考虑到词与词之间的关系以及对低频词不友好。
因此,如何大大降低特征空间的的维度,准确提取出有效特征,能考虑词与词之间的顺序关系,提高文本分类的准确性成为相关领域人员亟待解决的问题。
发明内容
本发明的目的在于克服现有技术的不足,提供一种大大降低特征空间的的维度、准确提取出有效特征、能考虑词与词之间的顺序关系、提高文本分类的准确性的字符级的基于嵌套深度网络的文本分类方法。
为实现上述目的,本发明所提供的技术方案为:包括以下步骤:
S1、构造字符向量矩阵表:
假设C为文本中所用的字符集,构造一个字符向量矩阵Q∈R|C|×|C|,记录下每一个字符对应的行编号;
S2、短文本预处理:将短文本转化成一个字符向量矩阵表Q,分为两步:
S21、矩阵转换:
根据短文本T中的字符以及字符向量矩阵表Q,输出文本向量空间I∈Rl×|C|,l为文本T的总字符数;
S22、矩阵裁剪填充:
对文本向量空间I进行裁剪填充,以适应嵌套深度网络的输入;
S3、改进Re snet提取高维序列特征,具体步骤为:
S31、Re snet特征提取:
残差网络Re snet采用50层的版本,去除其上层的全链接层和分类层,最后输出Resnet网络的中间特征;
S32、最大值池化:
在得到N个特征图后,对每个特征图的行向量进行最大值池化,只保留响应最大的特征值;
S33、特征重序列化:
对特征图进行重新序列化,以保持其时序性,适应LSTM的运算,最终输出多个序列化的特征图;
S4、LSTM网络分类:
LSTM(Long Short-Term Memory)长短期记忆网络是一种循环神经网路,即一个序列当前的输出与前面的输出也有关;在改进Resnet中得到高维序列特征后,通过LSTM网络获得最后的输出,最终将输出输入到Softmax中进行分类。
与现有技术相比,本方案原理和优点如下:
1.基于字符级的文本转换能有效的对所有的文本进行转换,相对于传统的向量空间模型,维度下降明显,而且对于所有的文本都能有效的转换,不会忽略低频词。
2.改进Re snet能够自学习特征提取方法,相对于传统的TF-IDF公式,互信息量,信息增益,χ2统计量等方法,其提取的特征更加有效,更加抽象。
3.LSTM网络分类能够考虑词与词之间的顺序关系,从而能够更加准确地进行文本分类。
附图说明
图1为本发明一种字符级的基于嵌套深度网络的文本分类方法的流程图。
具体实施方式
下面结合具体实施例对本发明作进一步说明:
参见附图1所示,本实施例所述的一种字符级的基于嵌套深度网络的文本分类方法,包括以下步骤:
S1、构造字符向量矩阵表:
假设C为文本中所用的字符集(以英文为例则为英文字母以及各种特殊符号,以中文为例则为笔画以及各种特殊符号),构造一个字符向量矩阵Q∈R|C|×|C|,记录下每一个字符对应的行编号;矩阵Q采用one-hot编码,对角线元素均设为1,其余为0。矩阵Q的每一个行向量代表一个字符,记录下每一个字符对应的行编号。
S2、短文本预处理,将短文本转化成一个字符向量矩阵,分为两步:
S21、矩阵转换;
以中文为例,假设字k的笔画序列为
Figure BDA0001483504580000041
lk为字k的总笔画数,则根据笔画序列和字符向量矩阵表构造字符向量
Figure BDA0001483504580000042
以此类推,对于短文本T,短文本预处理最终输出文本向量空间I∈Rl×|C|,l为文本T的总笔画数。
S22、矩阵裁剪填充;
文本向量空间I用于后续的嵌套深度网络处理,深度网络的输入为定长的R×|C|的矩阵,当文本向量空间I的行数小于R时,则对矩阵I缺失的部分进行补零,当文本向量空间I的行数大于R时,则对矩阵I多余的部分进行裁剪。
S3、改进Re snet提取高维序列特征;
改进Re snet提取的高维序列特征用于LSTM网络中进行分类,具体步骤如下:
S31、Re snet特征提取;
Re snet采用50层的版本,但是去除其上层的全链接层和分类层,最后输出Resnet网络的中间特征。通过Re snet,文本向量空间I转化成N个特征图Mn∈RH×G
S32、最大值池化(Max pooling);
在得到N个特征图M后,对每个特征图的行向量进行最大值池化,只保留响应最大的特征值;通过最大值池化Max pooling后,特征图Mn转换为Mn'∈RH×1
S33、特征重序列化;
在获得N个特征图M'后,对特征图M'进行重新序列化,以保持其时序性,适应LSTM的运算;设最大值池化Max pooling输出3个特征图M1'(m11,m12,m13)T,M2'(m21,m22,m23)T,M3'(m31,m32,m33)T,对3个特征图的行向量进行重新组合,输出3个重新序列化的特征图M_S1'(m11,m21,m31)T,M_S2'(m12,m22,m32)T,M_S3'(m13,m23,m33)T
S4、LSTM网络分类;
LSTM网络由多个单元Cell组成,单元Cellt负责t时刻的序列数据,这里即为特征图M_St;每个单元Cell的输入为上一个单元的输出以及当前单元的序列数据,具体计算步骤如下:
S41、门gate计算;
每个Cell有三个门gate(输入门input gate、遗忘门forget gate、输出门outputgate),计算如下:
it=g(W×iM_St+Whiht-1+bi);
ft=g(W×fM_St+Whfht-1+bf);
ot=g(W×oM_St+Whoht-1+bo);
其中,ht-1为上一个单元的输出,当t-1不存在时,ht-1初始化0,W为各个门gate的权重向量,b为各个gate的偏移量,g为元素级的sigmoid函数;
S42、输入变换;
除了三个门gate之外,每个Cell均拥有一个状态c,需要通过计算将输入转换成对应Cell的状态量,具体计算如下:
c_int=tanh(W×cM_St+Whcht-1+bo_in)
其中,W为当前Cell的状态计算的权重向量,b为当前Cell的状态计算的偏移量,tanh为元素级的tanh函数;
S43、状态更新;
在计算完所有的gate变量和当前输入的状态量后,对当前Cell状态进行更新以及计算当前Cell的输出,具体计算如下:
ct=ft*ct-1+it*c_int
ht=ot*tanh(ct);
其中,ct为当前Cell的状态量,ht为当前Cell的输出;
S44、分类。在经过了所有Cell单元的计算之后,将最后的Cell的输出ht输入到Soft max函数中,得到最后的分类结果。
上述LSTM网络的训练以Soft max函数为指导,通过采用最小化交叉熵代价函数获取当前网络相对于训练集的误差,对于训练样本T(i),其标签y(i)∈{1,2,…,k},k为所有的标签的数量以及其估计概率为
Figure BDA0001483504580000071
其代价函数为:
Figure BDA0001483504580000072
其中,1{condition}为二类函数,当condition为真时,其为1,否则为0;
取得误差后,采用随机梯度下降SDG将误差反向传播以更新网络中的参数,最终得到最优化的网络。
本实施例基于字符级的文本转换能有效的对所有的文本进行转换,相对于传统的向量空间模型,维度下降明显,而且对于所有的文本都能有效的转换,不会忽略低频词。另外,改进Resnet能够自学习特征提取方法,相对于传统的TF-IDF公式,互信息量,信息增益,χ2统计量等方法,其提取的特征更加有效,更加抽象。最后,LSTM网络分类能够考虑词与词之间的顺序关系,从而能够更加准确地进行文本分类。
以上所述之实施例子只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。

Claims (3)

1.一种字符级的基于嵌套深度网络的文本分类方法,其特征在于:包括以下步骤:
S1、构造字符向量矩阵表:
假设C为文本中所用的字符集,构造一个字符向量矩阵Q∈R|C|×|C|,记录下每一个字符对应的行编号;
S2、短文本预处理;
S3、改进Resnet提取高维序列特征;
S4、LSTM网络分类;
所述步骤S2短文本预处理分为两步,具体步骤如下:
S21、矩阵转换:
根据短文本T中的字符以及字符向量矩阵表Q,输出文本向量空间I∈Rl×|C|,l为文本T的总字符数;
S22、矩阵裁剪填充:
对文本向量空间I进行裁剪填充,以适应嵌套深度网络的输入;
所述步骤S3改进Resnet提取高维序列特征的具体步骤如下:
S31、Resnet特征提取:
Resnet采用50层的版本,去除其上层的全链接层和分类层,最后输出Resnet网络的中间特征;
S32、最大值池化:
在得到N个特征图后,对每个特征图的行向量进行最大值池化,只保留响应最大的特征值;
S33、特征重序列化:
对特征图进行重新序列化,以保持其时序性,适应LSTM的运算,最终输出多个序列化的特征图。
2.根据权利要求1所述的一种字符级的基于嵌套深度网络的文本分类方法,其特征在于:所述步骤S4LSTM网络分类的具体计算步骤如下:
S41、门gate计算;
每个Cell有三个门gate:输入门inputgate、遗忘门forgetgate、输出门outputgate,计算如下:
it=g(W×iM_St+Whiht-1+bi);
ft=g(W×fM_St+Whfht-1+bf);
ot=g(W×oM_St+Whoht-1+bo);
其中,ht-1为上一个单元的输出,当t-1不存在时,ht-1初始化0,W为各个门gate的权重向量,b为各个gate的偏移量,g为元素级的sigmoid函数;
S42、输入变换;
除了三个门gate之外,每个Cell均拥有一个状态c,需要通过计算将输入转换成对应Cell的状态量,具体计算如下:
c_int=tanh(W×cM_St+Whcht-1+bo_in)
其中,W为当前Cell的状态计算的权重向量,b为当前Cell的状态计算的偏移量,tanh为元素级的tanh函数;
S43、状态更新;
在计算完所有的gate变量和当前输入的状态量后,对当前Cell状态进行更新以及计算当前Cell的输出,具体计算如下:
ct=ft*ct-1+it*c_int
ht=ot*tanh(ct);
其中,ct为当前Cell的状态量,ht为当前Cell的输出;
S44、分类;在经过了所有Cell单元的计算之后,将最后的Cell的输出ht输入到Softmax函数中,得到最后的分类结果。
3.根据权利要求2所述的一种字符级的基于嵌套深度网络的文本分类方法,其特征在于:步骤S4所述LSTM网络的训练以Softmax函数为指导,通过采用最小化交叉熵代价函数获取当前网络相对于训练集的误差,对于训练样本T(i),其标签y(i)∈{1,2,…,k},k为所有的标签的数量以及其估计概率为
Figure FDA0003077811500000031
其代价函数为:
Figure FDA0003077811500000032
其中,1{condition}为二类函数,当condition为真时,其为1,否则为0;
取得误差后,采用随机梯度下降SDG将误差反向传播以更新网络中的参数,最终得到最优化的网络。
CN201711205146.XA 2017-11-27 2017-11-27 一种字符级的基于嵌套深度网络的文本分类方法 Active CN107832458B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711205146.XA CN107832458B (zh) 2017-11-27 2017-11-27 一种字符级的基于嵌套深度网络的文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711205146.XA CN107832458B (zh) 2017-11-27 2017-11-27 一种字符级的基于嵌套深度网络的文本分类方法

Publications (2)

Publication Number Publication Date
CN107832458A CN107832458A (zh) 2018-03-23
CN107832458B true CN107832458B (zh) 2021-08-10

Family

ID=61645839

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711205146.XA Active CN107832458B (zh) 2017-11-27 2017-11-27 一种字符级的基于嵌套深度网络的文本分类方法

Country Status (1)

Country Link
CN (1) CN107832458B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110321755A (zh) * 2018-03-28 2019-10-11 中移(苏州)软件技术有限公司 一种识别方法及装置
CN108829441B (zh) * 2018-05-14 2022-10-18 中山大学 一种分布式深度学习的参数更新优化系统
CN110580308B (zh) * 2018-05-22 2022-06-07 北京京东振世信息技术有限公司 信息审核方法及装置、电子设备、存储介质
CN109299401B (zh) * 2018-07-12 2022-02-08 中国海洋大学 基于混合深度学习模型LSTM-ResNet的城域时空流预测方法
CN109446519B (zh) * 2018-10-10 2020-05-22 西安交通大学 一种融合数据类别信息的文本特征提取方法
CN109992783B (zh) * 2019-04-03 2020-10-30 同济大学 中文词向量建模方法
CN110060749B (zh) * 2019-04-10 2022-07-01 华侨大学 基于sev-sdg-cnn的电子病历智能诊断方法
CN111144105B (zh) * 2019-12-17 2023-03-14 浙江大华技术股份有限公司 词句的处理方法、装置及计算机存储介质
CN112506423B (zh) * 2020-11-02 2021-07-20 北京迅达云成科技有限公司 一种云储存系统中动态接入存储设备的方法及装置
CN112307209B (zh) * 2020-11-05 2024-04-26 江西高创保安服务技术有限公司 一种基于字符向量的短文本分类方法及系统
CN113221870B (zh) * 2021-05-28 2024-05-24 北京有竹居网络技术有限公司 一种用于移动终端的ocr识别方法、装置、存储介质及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106384166A (zh) * 2016-09-12 2017-02-08 中山大学 一种结合财经新闻的深度学习股市预测方法
CN106897268A (zh) * 2017-02-28 2017-06-27 科大讯飞股份有限公司 文本语义理解方法、装置和系统
CN107168952A (zh) * 2017-05-15 2017-09-15 北京百度网讯科技有限公司 基于人工智能的信息生成方法和装置
CN107301246A (zh) * 2017-07-14 2017-10-27 河北工业大学 基于超深卷积神经网络结构模型的中文文本分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8326809B2 (en) * 2008-10-27 2012-12-04 Sas Institute Inc. Systems and methods for defining and processing text segmentation rules

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106384166A (zh) * 2016-09-12 2017-02-08 中山大学 一种结合财经新闻的深度学习股市预测方法
CN106897268A (zh) * 2017-02-28 2017-06-27 科大讯飞股份有限公司 文本语义理解方法、装置和系统
CN107168952A (zh) * 2017-05-15 2017-09-15 北京百度网讯科技有限公司 基于人工智能的信息生成方法和装置
CN107301246A (zh) * 2017-07-14 2017-10-27 河北工业大学 基于超深卷积神经网络结构模型的中文文本分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Character-Level neural networks for short text classification;Jingxue Liu,等;《2017 International Smart Cities Conference (ISC2)》;20171102;第1-7页 *

Also Published As

Publication number Publication date
CN107832458A (zh) 2018-03-23

Similar Documents

Publication Publication Date Title
CN107832458B (zh) 一种字符级的基于嵌套深度网络的文本分类方法
US11631007B2 (en) Method and device for text-enhanced knowledge graph joint representation learning
CN110309331B (zh) 一种基于自监督的跨模态深度哈希检索方法
CN111291181B (zh) 经由主题稀疏自编码器和实体嵌入的用于输入分类的表示学习
US11062179B2 (en) Method and device for generative adversarial network training
CN108595632B (zh) 一种融合摘要与主体特征的混合神经网络文本分类方法
CN110969020B (zh) 基于cnn和注意力机制的中文命名实体识别方法、系统及介质
CN109034264B (zh) 交通事故严重性预测csp-cnn模型及其建模方法
Sohn et al. Improved multimodal deep learning with variation of information
CN104915386B (zh) 一种基于深度语义特征学习的短文本聚类方法
CN110263325B (zh) 中文分词系统
CN109063719B (zh) 一种联合结构相似性和类信息的图像分类方法
Sundara Sobitha Raj et al. DDLA: dual deep learning architecture for classification of plant species
CN109902714B (zh) 一种基于多图正则化深度哈希的多模态医学图像检索方法
CN112884551B (zh) 一种基于近邻用户和评论信息的商品推荐方法
CN110751038A (zh) 一种基于图注意力机制的pdf表格结构识别方法
CN112231477A (zh) 一种基于改进胶囊网络的文本分类方法
CN115661550B (zh) 基于生成对抗网络的图数据类别不平衡分类方法及装置
Kongsorot et al. Multi-label classification with extreme learning machine
Tavoli et al. A method for handwritten word spotting based on particle swarm optimisation and multi‐layer perceptron
Sokkhey et al. Development and optimization of deep belief networks applied for academic performance prediction with larger datasets
CN116883723A (zh) 一种基于并联语义嵌入的组成式零样本图像分类方法
CN115329120A (zh) 一种知识图谱嵌入注意力机制的弱标注哈希图像检索架构
Artemov et al. Informational neurobayesian approach to neural networks training. Opportunities and prospects
Al-Hmouz et al. Enhanced numeral recognition for handwritten multi-language numerals using fuzzy set-based decision mechanism

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant