CN110069632A - 一种集成浅层语义表示向量的深度学习文本分类方法 - Google Patents

一种集成浅层语义表示向量的深度学习文本分类方法 Download PDF

Info

Publication number
CN110069632A
CN110069632A CN201910284980.5A CN201910284980A CN110069632A CN 110069632 A CN110069632 A CN 110069632A CN 201910284980 A CN201910284980 A CN 201910284980A CN 110069632 A CN110069632 A CN 110069632A
Authority
CN
China
Prior art keywords
vector
dictionary
shallow semantic
word
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910284980.5A
Other languages
English (en)
Other versions
CN110069632B (zh
Inventor
王华珍
李小整
何霆
贺惠新
李弼程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaqiao University
Original Assignee
Huaqiao University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaqiao University filed Critical Huaqiao University
Priority to CN201910284980.5A priority Critical patent/CN110069632B/zh
Publication of CN110069632A publication Critical patent/CN110069632A/zh
Application granted granted Critical
Publication of CN110069632B publication Critical patent/CN110069632B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种集成浅层语义表示向量的深度学习文本分类方法,方法包括:首先对文本语料训练词嵌入向量,其次利用领域词汇字典作为浅层语义词汇,基于浅层语义词汇,生成文本语料中每一个词的浅层语义向量表达。接下来将两个词向量进行加权拼接作为新的词向量输入到CNN模型中,进行特征提取和模型训练,构建文本分类器。本发明解决基于大数据驱动的词向量表达缺少词法特征和知识表示,难以真正理解词汇语义信息的缺陷,使得模型具有更加丰富的特征表达和更高的分类性能。

Description

一种集成浅层语义表示向量的深度学习文本分类方法
技术领域
本发明涉及深度学习与文本分类领域,特别是涉及一种集成浅层语义表示向量的深度学习文本分类方法。
背景技术
文本分类指对大量的非结构化文本语料按照给定的分类体系进行类别归属预测的过程。随着深度学习技术的突破,以word2vec为代表的词嵌入技术和以卷积神经网络为代表的深度学习模型在文本分类上取得不错的效果。但总体而言,在准确性和可靠性上还远未能达到实用水平,这是由深度学习的先验知识缺失所造成的。因为大数据驱动的深度学习模型只会发现数据集中统计意义上的结论,难以有效利用先验知识。将先验知识融入到深度学习模型是一种解决深度学习瓶颈的思路。浅层语义是一种有效的常识知识提取和表达方式,因此研究集成浅层语义的深度学习具有重要的理论价值和研究意义。
发明内容
本发明提供了一种集成浅层语义表示向量的深度学习文本分类方法SEV-CNN(Semantic Embedding Vector Convolutional Neural Network),其克服了基于大数据驱动的词向量表达缺少词法特征和知识表示,难以真正理解词汇语义信息的缺陷。
本发明解决其技术问题所采用的技术方案是:
一种集成浅层语义表示向量的深度学习文本分类方法,包括以下步骤:
S1:输入文本语料,采用结巴分词工具对语料进行分词;
S2:基于步骤S1中得到的词语,利用word2vec工具生成每一个词qi的词向量表达Lw
S3:基于浅层语义词汇Dict,生成每一个词qi的浅层语义向量表达Sc
S31:从以下八个方面来挖掘行业词汇从而构建浅层语义词典:(1)开源词典Dopen;(2)否定副词词典Dnot;(3)程度副词词典Dadv;(4)网络词典Dnet;(5)符号词典Demoticon;(6)语气词词典Dmood;(7)领域词典Dprofession;(8)其他包括手工构建的词典Dother
S32:构建浅层语义向量Sc=(xopen,xnot,xadv,xnet,xemoticon,xmood,xprofession,xother),区别于Lw中每个xi表示一个单独的元素,Sc中每个xi并不表示单个元素而是可能包含多个元素,其元素个数由对应词典规模大小决定。以xopen为例,其对应开源词典Dopen,若词典Dopen的规模为3,则xopen是一个3维的one-hot向量。
S4:将word2vec词向量表达Lw和浅层语义向量表达Sc进行加权拼接,生成深度学习输入向量[Lw:Sc];
S5:基于步骤S4中得到的合成向量[Lw:Sc]构建CNN分类模型。
S51:准备有监督文本学习样本集D=[文本语料X、文本类别Y],其中每一个样本由一条文本语料及其对应的标签所形成。
S52:初始化CNN网络;
S53:基于样本集D训练CNN网络;
S54:基于步骤S53中得到CNN网络,将一条被测语料x送入CNN进行前向传播计算,得到其预测类别y′。
由上述对本发明的描述可知,与现有技术相比,本发明具有如下有益效果:
本发明在构建词向量表达时分两部分,一部分是利用已有的文本语料通过神经网络模型训练词嵌入向量,这时的词向量是大数据驱动的,具有统计学意义。另一部分是利用领域词汇资源作为浅层语义词汇来构建浅层语义向量,这时的词向量是先验知识驱动的,具有语义特征。对两个词向量进行拼接作为新的词向量输入到CNN模型中,进行特征提取和模型训练,达到有效利用先验知识的目的。
附图说明
图1为本发明的集成浅层语义表示向量的深度学习文本分类方法的示意图;
图2为本发明的集成浅层语义表示向量的深度学习文本分类方法示意图;
图3为MR数据集6种词向量维度precision指标对比效果图;
图4为MR数据集6种词向量维度accuracy指标对比效果图;
图5为MR数据集6种词向量维度F1-score指标对比效果图;
图6为SST-1数据集6种词向量维度accuracy指标对比效果图;
图7为SST-2数据集6种词向量维度precision指标对比效果图;
图8为SST-2数据集6种词向量维度accuracy指标对比效果图;
图9为SST-2数据集6种词向量维度F1-score指标对比效果图。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
参见图1和图2所示,本发明的一种集成浅层语义表示向量的深度学习文本分类方法,包括以下步骤:(1)构建词嵌入向量;(2)构建浅层语义向量;(3)构建CNN文本分类器。
以情感分类为例,选择3个情感数据集进行实验,以期用语料的多样性验证本发明SEV-CNN的有效性。数据集的相关统计信息如表1所示。
表1三个数据集相关统计信息
其中,MR:电影评论数据,每一句代表一个电影评论,包括“积极”和“消极”2个类别;SST-1:斯坦福情绪树库,提供划分好的train/dev/test,包含very positive,positive,neutral,negative,very negative共5个类别;SST-2:与SST-1相同,但去掉了“neural”类别,并归并为二分类数据集,即包含positive和negative共2个类别。
本发明具体步骤如下:
步骤一:词向量表示
在词嵌入向量生成阶段,本发明采用包含互联网50000条“积极”和“消极”二分类的IMDB影评数据集和本文实验的3个情感数据集共82,130条语料作为词向量预训练语料库,分别训练50维和300维的词向量。词嵌入向量的生成方法是Google开源的词向量训练工具,同时也采用Google用十多亿个新闻单词用word2vec预训练的300维新闻语料词向量googlenews-vecctors-negative300.bin进行对比实验。这意味着词嵌入向量有50维和300维两种情况。其中,50维是本文自己训练的,而300维大部分采用Google预训练的300维词向量,对于语料中出现过而google预训练300维新闻词向量中没有出现的词或短语,则采用自建语料库预训练的300维词向量代替。因word2vec模型参数对词向量表示效果和分类模型性能起着决定性作用,故需合理设置word2vec每个参数值表2所示。
表2 word2vec模型参数
步骤二:浅层语义向量表示
在浅层语义向量生成阶段,经调研发现可以从8个不同的方面构建情感分析领域的词汇资源,即意味着情感分类的浅层语义词汇可以来源于8个不同的方面:
1)开源词典:国外的有SentiWordNet和Inquirei,国内有知网HowNet词典和同义词词林、大连理工大学和台湾大学等高校提供的情感词汇库;
2)否定副词词典:否定副词是用于否定后面词语的副词,常见否定词如“不”、“没有”、“没”、“无”、“非”等;
3)程度副词词典:如知网提供的程度副词分为6个等级,分别为极其、很、较、稍、欠、超;
4)网络词典:网络新词即多在网络上流行的非正式语言,多由谐音、错别字改成,也有象形字词,在情感分析领域应用越来越广泛。如“新手”不叫新手叫“菜鸟”,“这样子”不叫这样子叫“酱紫”。百度引擎和搜狐引擎集合了现在广为流行的网络用语,有较好的网络新词覆盖率;
5)符号词典:随着表情符号的流行,人们越来越趋向于用表情符号表达自己的观点,加入符号表情分析可大大提高情感分析效率;
6)语气词词典:语气词在中文表达中经常流露出情感倾向,如“哎呀”,“啊”,“哇塞”等。百度百科提供了76个语气词的词典,还可继续进行扩展;
7)领域词典:情感分类相关的词典,主要指的是情感类别体系,如知网的HowNet情感词典分为正面情感词,正面评价词,负面情感词,负面评价词;
8)其他:对于前面七个方面未涉及的词典,可以通过自己构建的方式获得适合某个特定任务的词汇资源。
根据以上领域词汇的获取方法,本发明收集了二分类情感词典Dopen(15907个单词或短语)和1-6个等级的程度副词词典Dadv(共170个单词或短语)。以这2种来源方式的词典为基础,构建大小为3803条短语的浅层语义词典,具体如表3所示。
表3情感领域浅层语义词典
根据上表的开源词典Dopen和否定副词词典Dnot可以对文本语料的每个词构建浅层语义向量Sc=(xopen,xnot)。当把词嵌入向量和浅层语义向量进行拼接成向量[Lw:Sc]时,可以获得(x1,x2,...,x50,xopen,xadv)或(x1,x2,...,x300,xopen,xadv)这两种拼接向量,以作为深度学习输入。
步骤三:CNN文本分类模型构建
本发明采用卷积神经网络CNN为基础模型来构建情感分类研究模型,模型参数和架构如表4所示。在将文本语料输入CNN模型时,需要将其转化成一个矩阵样本,比如转化为一个90*50的矩阵数据,其表示该文本语料包含90个词语,每个词语的向量维度是50维。而由于原始数据中不同文本语料长度不同,如果选择最短的文本作为统一长度可能会将重要信息截取掉,选择最长的文本长度会使得其它短的文本添加过多无用消息(填充0)并且增加模型训练难度。其中关于文本长度的选择,本发明取每个数据集的平均长度,分别是20、18和19。并进一步对文本的填充方式和截取方式进行深入研究,以填充方式和截取方式的组合来展示算法有效性的验证。其中,pre指对文本进行头部截取或头部填充,post指对文本进行尾部截取或尾部填充;pre_post指对长文本进行头部截取,对短文本进行尾部填充。
表4 CNN模型参数
对于拼接合成向量[Lw:Sc]各个元素的值,本发明采用了固定权重和动态权重的两种方式,前者标记为static,指在训练过程中词向量的值不进行更新变化,即无权重方式,后者标记为dynamic,指词向量权重参与优化过程,在模型训练时会进行动态更新。同时我们采用Precision,Accuracy,F1-score作为评价指标。
下面针对仅word2vec的词嵌入向量Lw(50维或300维)、词嵌入向量Lw+浅层语义向量xopen(50维+xopen或300维+xopen)、词嵌入向量Lw+浅层语义向量xopen+xadv(50维+xopen+xadv或300维+xopen+xadv)共3种词向量进行对比实验,实验结果如图3至图9所示。
上述仅为本发明的具体实施方式,但本发明的设计构思并不局限于此,凡利用此构思对本发明进行非实质性的改动,均应属于侵犯本发明保护范围的行为。

Claims (1)

1.一种集成浅层语义表示向量的深度学习文本分类方法,其特征在于,包括以下步骤:
S1:输入文本语料,采用结巴分词工具对语料进行分词;
S2:基于步骤S1中得到的词语,利用word2vec工具生成每一个词qi的词向量表达Lw
S3:基于浅层语义词汇Dict,生成每一个词qi的浅层语义向量表达Sc,如下:
S31:从以下八个方面来挖掘行业词汇从而构建浅层语义词典:(1)开源词典Dopen;(2)否定副词词典Dnot;(3)程度副词词典Dadv;(4)网络词典Dnet;(5)符号词典Demoticon;(6)语气词词典Dmood;(7)领域词典Dprofession;(8)其他包括手工构建的词典Dother
S32:构建浅层语义向量Sc=(xopen,xnot,xadv,xnet,xemoticon,xmood,xprofession,xother),区别于Lw中每个xi表示一个单独的元素,Sc中每个xi并不表示单个元素而是可能包含多个元素,其元素个数由对应词典规模大小决定;
S4:将word2vec词向量表达Lw和浅层语义向量表达Sc进行拼接,生成深度学习输入向量[Lw:Sc];
S5:基于步骤S4中得到的合成向量[Lw:Sc]构建CNN分类模型,如下:
S51:准备有监督文本学习样本集D=[文本语料X、文本类别Y],其中每一个样本由一条文本语料及其对应的标签所形成。
S52:初始化CNN网络;
S53:基于样本集D训练CNN网络;
S54:基于步骤S53中得到CNN网络,将一条被测语料x送入CNN进行前向传播计算,得到其预测类别y′。
CN201910284980.5A 2019-04-10 2019-04-10 一种集成浅层语义表示向量的深度学习文本分类方法 Active CN110069632B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910284980.5A CN110069632B (zh) 2019-04-10 2019-04-10 一种集成浅层语义表示向量的深度学习文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910284980.5A CN110069632B (zh) 2019-04-10 2019-04-10 一种集成浅层语义表示向量的深度学习文本分类方法

Publications (2)

Publication Number Publication Date
CN110069632A true CN110069632A (zh) 2019-07-30
CN110069632B CN110069632B (zh) 2022-06-07

Family

ID=67367389

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910284980.5A Active CN110069632B (zh) 2019-04-10 2019-04-10 一种集成浅层语义表示向量的深度学习文本分类方法

Country Status (1)

Country Link
CN (1) CN110069632B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111507099A (zh) * 2020-06-19 2020-08-07 平安科技(深圳)有限公司 文本分类方法、装置、计算机设备及存储介质
CN112015891A (zh) * 2020-07-17 2020-12-01 山东师范大学 基于深度神经网络的网络问政平台留言分类的方法及系统
CN113761942A (zh) * 2021-09-14 2021-12-07 合众新能源汽车有限公司 基于深度学习模型的语义分析方法、装置及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102662931A (zh) * 2012-04-13 2012-09-12 厦门大学 一种基于协同神经网络的语义角色标注方法
CN105824922A (zh) * 2016-03-16 2016-08-03 重庆邮电大学 一种融合深层特征和浅层特征的情感分类方法
KR101799681B1 (ko) * 2016-06-15 2017-11-20 울산대학교 산학협력단 어휘 의미망 및 단어 임베딩을 이용한 동형이의어 분별 장치 및 방법
CN108009285A (zh) * 2017-12-22 2018-05-08 重庆邮电大学 基于自然语言处理的林业生态环境人机交互方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102662931A (zh) * 2012-04-13 2012-09-12 厦门大学 一种基于协同神经网络的语义角色标注方法
CN105824922A (zh) * 2016-03-16 2016-08-03 重庆邮电大学 一种融合深层特征和浅层特征的情感分类方法
KR101799681B1 (ko) * 2016-06-15 2017-11-20 울산대학교 산학협력단 어휘 의미망 및 단어 임베딩을 이용한 동형이의어 분별 장치 및 방법
CN108009285A (zh) * 2017-12-22 2018-05-08 重庆邮电大学 基于自然语言处理的林业生态环境人机交互方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MEHEDI HASAN等: "A study of the effectiveness of machine learning methods for classification of clinical interview fragments into a large number of categories", 《JOURNAL OF BIOMEDICAL INFORMATICS》 *
李雪蕾等: "一种基于向量空间模型的文本分类方法", 《计算机工程》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111507099A (zh) * 2020-06-19 2020-08-07 平安科技(深圳)有限公司 文本分类方法、装置、计算机设备及存储介质
CN112015891A (zh) * 2020-07-17 2020-12-01 山东师范大学 基于深度神经网络的网络问政平台留言分类的方法及系统
CN113761942A (zh) * 2021-09-14 2021-12-07 合众新能源汽车有限公司 基于深度学习模型的语义分析方法、装置及存储介质
CN113761942B (zh) * 2021-09-14 2023-12-05 合众新能源汽车股份有限公司 基于深度学习模型的语义分析方法、装置及存储介质

Also Published As

Publication number Publication date
CN110069632B (zh) 2022-06-07

Similar Documents

Publication Publication Date Title
CN111767741B (zh) 一种基于深度学习和tfidf算法的文本情感分析方法
CN107609132B (zh) 一种基于语义本体库中文文本情感分析方法
Chinsha et al. A syntactic approach for aspect based opinion mining
CN110532554A (zh) 一种中文摘要生成方法、系统及存储介质
CN109885670A (zh) 一种面向话题文本的交互注意力编码情感分析方法
El-Halees Mining opinions in user-generated contents to improve course evaluation
CN107092596A (zh) 基于attention CNNs和CCR的文本情感分析方法
CN111310474A (zh) 基于激活-池化增强bert模型的在线课程评论情感分析方法
CN112989802B (zh) 一种弹幕关键词提取方法、装置、设备及介质
CN110069632A (zh) 一种集成浅层语义表示向量的深度学习文本分类方法
Li et al. On the (in) effectiveness of large language models for chinese text correction
CN108108468A (zh) 一种基于概念和文本情感的短文本情感分析方法和装置
TW201403354A (zh) 以資料降維法及非線性算則建構中文文本可讀性數學模型之系統及其方法
Jiang et al. Enriching word embeddings with domain knowledge for readability assessment
CN104346326A (zh) 一种情绪文本的情绪特征确定方法及装置
CN110502747A (zh) 一种主题分类方法和装置
CN113297842A (zh) 文本数据增强方法
CN110287405A (zh) 情感分析的方法、装置和存储介质
Wings et al. A context-aware approach for extracting hard and soft skills
Tratz et al. Tweet conversation annotation tool with a focus on an arabic dialect, moroccan darija
Okinina et al. Ctap for italian: Integrating components for the analysis of italian into a multilingual linguistic complexity analysis tool
Cavalli-Sforza et al. Arabic readability research: current state and future directions
Li et al. Enhanced hybrid neural network for automated essay scoring
Zhu et al. YUN111@ Dravidian-CodeMix-FIRE2020: Sentiment Analysis of Dravidian Code Mixed Text.
CN116720509A (zh) 一种学生教学评价领域情感词典的构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant