CN110069632B - 一种集成浅层语义表示向量的深度学习文本分类方法 - Google Patents

一种集成浅层语义表示向量的深度学习文本分类方法 Download PDF

Info

Publication number
CN110069632B
CN110069632B CN201910284980.5A CN201910284980A CN110069632B CN 110069632 B CN110069632 B CN 110069632B CN 201910284980 A CN201910284980 A CN 201910284980A CN 110069632 B CN110069632 B CN 110069632B
Authority
CN
China
Prior art keywords
dictionary
word
vector
text
shallow semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910284980.5A
Other languages
English (en)
Other versions
CN110069632A (zh
Inventor
王华珍
李小整
何霆
贺惠新
李弼程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaqiao University
Original Assignee
Huaqiao University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaqiao University filed Critical Huaqiao University
Priority to CN201910284980.5A priority Critical patent/CN110069632B/zh
Publication of CN110069632A publication Critical patent/CN110069632A/zh
Application granted granted Critical
Publication of CN110069632B publication Critical patent/CN110069632B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种集成浅层语义表示向量的深度学习文本分类方法,方法包括:首先对文本语料训练词嵌入向量,其次利用领域词汇字典作为浅层语义词汇,基于浅层语义词汇,生成文本语料中每一个词的浅层语义向量表达。接下来将两个词向量进行加权拼接作为新的词向量输入到CNN模型中,进行特征提取和模型训练,构建文本分类器。本发明解决基于大数据驱动的词向量表达缺少词法特征和知识表示,难以真正理解词汇语义信息的缺陷,使得模型具有更加丰富的特征表达和更高的分类性能。

Description

一种集成浅层语义表示向量的深度学习文本分类方法
技术领域
本发明涉及深度学习与文本分类领域,特别是涉及一种集成浅层语义表示向量的深度学习文本分类方法。
背景技术
文本分类指对大量的非结构化文本语料按照给定的分类体系进行类别归属预测的过程。随着深度学习技术的突破,以word2vec为代表的词嵌入技术和以卷积神经网络为代表的深度学习模型在文本分类上取得不错的效果。但总体而言,在准确性和可靠性上还远未能达到实用水平,这是由深度学习的先验知识缺失所造成的。因为大数据驱动的深度学习模型只会发现数据集中统计意义上的结论,难以有效利用先验知识。将先验知识融入到深度学习模型是一种解决深度学习瓶颈的思路。浅层语义是一种有效的常识知识提取和表达方式,因此研究集成浅层语义的深度学习具有重要的理论价值和研究意义。
发明内容
本发明提供了一种集成浅层语义表示向量的深度学习文本分类方法SEV-CNN(Semantic Embedding Vector Convolutional Neural Network),其克服了基于大数据驱动的词向量表达缺少词法特征和知识表示,难以真正理解词汇语义信息的缺陷。
本发明解决其技术问题所采用的技术方案是:
一种集成浅层语义表示向量的深度学习文本分类方法,包括以下步骤:
S1:输入文本语料,采用结巴分词工具对语料进行分词;
S2:基于步骤S1中得到的词语,利用word2vec工具生成每一个词qi的词向量表达Lw
S3:基于浅层语义词汇Dict,生成每一个词qi的浅层语义向量表达Sc
S31:从以下八个方面来挖掘行业词汇从而构建浅层语义词典:(1)开源词典Dopen;(2)否定副词词典Dnot;(3)程度副词词典Dadv;(4)网络词典Dnet;(5)符号词典Demoticon;(6)语气词词典Dmood;(7)领域词典Dprofession;(8)其他包括手工构建的词典Dother
S32:构建浅层语义向量Sc=(xopen,xnot,xadv,xnet,xemoticon,xmood,xprofession,xother),区别于Lw中每个xi表示一个单独的元素,Sc中每个xi并不表示单个元素而是可能包含多个元素,其元素个数由对应词典规模大小决定。以xopen为例,其对应开源词典Dopen,若词典Dopen的规模为3,则xopen是一个3维的one-hot向量。
S4:将word2vec词向量表达Lw和浅层语义向量表达Sc进行加权拼接,生成深度学习输入向量[Lw:Sc];
S5:基于步骤S4中得到的合成向量[Lw:Sc]构建CNN分类模型。
S51:准备有监督文本学习样本集D=[文本语料X、文本类别Y],其中每一个样本由一条文本语料及其对应的标签所形成。
S52:初始化CNN网络;
S53:基于样本集D训练CNN网络;
S54:基于步骤S53中得到CNN网络,将一条被测语料x送入CNN进行前向传播计算,得到其预测类别y′。
由上述对本发明的描述可知,与现有技术相比,本发明具有如下有益效果:
本发明在构建词向量表达时分两部分,一部分是利用已有的文本语料通过神经网络模型训练词嵌入向量,这时的词向量是大数据驱动的,具有统计学意义。另一部分是利用领域词汇资源作为浅层语义词汇来构建浅层语义向量,这时的词向量是先验知识驱动的,具有语义特征。对两个词向量进行拼接作为新的词向量输入到CNN模型中,进行特征提取和模型训练,达到有效利用先验知识的目的。
附图说明
图1为本发明的集成浅层语义表示向量的深度学习文本分类方法的示意图;
图2为本发明的集成浅层语义表示向量的深度学习文本分类方法示意图;
图3为MR数据集6种词向量维度precision指标对比效果图;
图4为MR数据集6种词向量维度accuracy指标对比效果图;
图5为MR数据集6种词向量维度F1-score指标对比效果图;
图6为SST-1数据集6种词向量维度accuracy指标对比效果图;
图7为SST-2数据集6种词向量维度precision指标对比效果图;
图8为SST-2数据集6种词向量维度accuracy指标对比效果图;
图9为SST-2数据集6种词向量维度F1-score指标对比效果图。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
参见图1和图2所示,本发明的一种集成浅层语义表示向量的深度学习文本分类方法,包括以下步骤:(1)构建词嵌入向量;(2)构建浅层语义向量;(3)构建CNN文本分类器。
以情感分类为例,选择3个情感数据集进行实验,以期用语料的多样性验证本发明SEV-CNN的有效性。数据集的相关统计信息如表1所示。
表1三个数据集相关统计信息
Figure BDA0002022967060000031
其中,MR:电影评论数据,每一句代表一个电影评论,包括“积极”和“消极”2个类别;SST-1:斯坦福情绪树库,提供划分好的train/dev/test,包含very positive,positive,neutral,negative,very negative共5个类别;SST-2:与SST-1相同,但去掉了“neural”类别,并归并为二分类数据集,即包含positive和negative共2个类别。
本发明具体步骤如下:
步骤一:词向量表示
在词嵌入向量生成阶段,本发明采用包含互联网50000条“积极”和“消极”二分类的IMDB影评数据集和本文实验的3个情感数据集共82,130条语料作为词向量预训练语料库,分别训练50维和300维的词向量。词嵌入向量的生成方法是Google开源的词向量训练工具,同时也采用Google用十多亿个新闻单词用word2vec预训练的300维新闻语料词向量googlenews-vecctors-negative300.bin进行对比实验。这意味着词嵌入向量有50维和300维两种情况。其中,50维是本文自己训练的,而300维大部分采用Google预训练的300维词向量,对于语料中出现过而google预训练300维新闻词向量中没有出现的词或短语,则采用自建语料库预训练的300维词向量代替。因word2vec模型参数对词向量表示效果和分类模型性能起着决定性作用,故需合理设置word2vec每个参数值表2所示。
表2 word2vec模型参数
Figure BDA0002022967060000041
步骤二:浅层语义向量表示
在浅层语义向量生成阶段,经调研发现可以从8个不同的方面构建情感分析领域的词汇资源,即意味着情感分类的浅层语义词汇可以来源于8个不同的方面:
1)开源词典:国外的有SentiWordNet和Inquirei,国内有知网HowNet词典和同义词词林、大连理工大学和台湾大学等高校提供的情感词汇库;
2)否定副词词典:否定副词是用于否定后面词语的副词,常见否定词如“不”、“没有”、“没”、“无”、“非”等;
3)程度副词词典:如知网提供的程度副词分为6个等级,分别为极其、很、较、稍、欠、超;
4)网络词典:网络新词即多在网络上流行的非正式语言,多由谐音、错别字改成,也有象形字词,在情感分析领域应用越来越广泛。如“新手”不叫新手叫“菜鸟”,“这样子”不叫这样子叫“酱紫”。百度引擎和搜狐引擎集合了现在广为流行的网络用语,有较好的网络新词覆盖率;
5)符号词典:随着表情符号的流行,人们越来越趋向于用表情符号表达自己的观点,加入符号表情分析可大大提高情感分析效率;
6)语气词词典:语气词在中文表达中经常流露出情感倾向,如“哎呀”,“啊”,“哇塞”等。百度百科提供了76个语气词的词典,还可继续进行扩展;
7)领域词典:情感分类相关的词典,主要指的是情感类别体系,如知网的HowNet情感词典分为正面情感词,正面评价词,负面情感词,负面评价词;
8)其他:对于前面七个方面未涉及的词典,可以通过自己构建的方式获得适合某个特定任务的词汇资源。
根据以上领域词汇的获取方法,本发明收集了二分类情感词典Dopen(15907个单词或短语)和1-6个等级的程度副词词典Dadv(共170个单词或短语)。以这2种来源方式的词典为基础,构建大小为3803条短语的浅层语义词典,具体如表3所示。
表3情感领域浅层语义词典
Figure BDA0002022967060000051
根据上表的开源词典Dopen和否定副词词典Dnot可以对文本语料的每个词构建浅层语义向量Sc=(xopen,xnot)。当把词嵌入向量和浅层语义向量进行拼接成向量[Lw:Sc]时,可以获得(x1,x2,...,x50,xopen,xadv)或(x1,x2,...,x300,xopen,xadv)这两种拼接向量,以作为深度学习输入。
步骤三:CNN文本分类模型构建
本发明采用卷积神经网络CNN为基础模型来构建情感分类研究模型,模型参数和架构如表4所示。在将文本语料输入CNN模型时,需要将其转化成一个矩阵样本,比如转化为一个90*50的矩阵数据,其表示该文本语料包含90个词语,每个词语的向量维度是50维。而由于原始数据中不同文本语料长度不同,如果选择最短的文本作为统一长度可能会将重要信息截取掉,选择最长的文本长度会使得其它短的文本添加过多无用消息(填充0)并且增加模型训练难度。其中关于文本长度的选择,本发明取每个数据集的平均长度,分别是20、18和19。并进一步对文本的填充方式和截取方式进行深入研究,以填充方式和截取方式的组合来展示算法有效性的验证。其中,pre指对文本进行头部截取或头部填充,post指对文本进行尾部截取或尾部填充;pre_post指对长文本进行头部截取,对短文本进行尾部填充。
表4 CNN模型参数
Figure BDA0002022967060000061
对于拼接合成向量[Lw:Sc]各个元素的值,本发明采用了固定权重和动态权重的两种方式,前者标记为static,指在训练过程中词向量的值不进行更新变化,即无权重方式,后者标记为dynamic,指词向量权重参与优化过程,在模型训练时会进行动态更新。同时我们采用Precision,Accuracy,F1-score作为评价指标。
下面针对仅word2vec的词嵌入向量Lw(50维或300维)、词嵌入向量Lw+浅层语义向量xopen(50维+xopen或300维+xopen)、词嵌入向量Lw+浅层语义向量xopen+xadv(50维+xopen+xadv或300维+xopen+xadv)共3种词向量进行对比实验,实验结果如图3至图9所示。
上述仅为本发明的具体实施方式,但本发明的设计构思并不局限于此,凡利用此构思对本发明进行非实质性的改动,均应属于侵犯本发明保护范围的行为。

Claims (1)

1.一种集成浅层语义表示向量的深度学习文本分类方法,其特征在于,包括以下步骤:
S1:输入文本语料,采用结巴分词工具对语料进行分词;
S2:基于步骤S1中得到的词语,利用word2vec工具生成每一个词qi的词向量表达Lw
S3:基于浅层语义词汇Dict,生成每一个词qi的浅层语义向量表达Sc,如下:
S31:从以下八个方面来挖掘行业词汇从而构建浅层语义词典:(1)开源词典Dopen;(2)否定副词词典Dnot;(3)程度副词词典Dadv;(4)网络词典Dnet;(5)符号词典Demoticon;(6)语气词词典Dmood;(7)领域词典Dprofession;(8)其他包括手工构建的词典Dother
S32:构建浅层语义向量Sc=(xopen,xnot,xadv,xnet,xemoticon,xmood,xprofession,xother),区别于Lw中每个xi表示一个单独的元素,Sc中每个xi并不表示单个元素而是可能包含多个元素,其元素个数由对应词典规模大小决定;
S4:将word2vec词向量表达Lw和浅层语义向量表达Sc进行拼接,生成深度学习输入向量[Lw:Sc];
S5:基于步骤S4中得到的合成向量[Lw:Sc]构建CNN分类模型,如下:
S51:准备有监督文本学习样本集D=[文本语料X、文本类别Y],其中每一个样本由一条文本语料及其对应的标签所形成;
S52:初始化CNN网络;
S53:基于样本集D训练CNN网络;
S54:基于步骤S53中得到CNN网络,将一条被测文本语料x送入CNN进行前向传播计算,得到其预测类别y′。
CN201910284980.5A 2019-04-10 2019-04-10 一种集成浅层语义表示向量的深度学习文本分类方法 Active CN110069632B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910284980.5A CN110069632B (zh) 2019-04-10 2019-04-10 一种集成浅层语义表示向量的深度学习文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910284980.5A CN110069632B (zh) 2019-04-10 2019-04-10 一种集成浅层语义表示向量的深度学习文本分类方法

Publications (2)

Publication Number Publication Date
CN110069632A CN110069632A (zh) 2019-07-30
CN110069632B true CN110069632B (zh) 2022-06-07

Family

ID=67367389

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910284980.5A Active CN110069632B (zh) 2019-04-10 2019-04-10 一种集成浅层语义表示向量的深度学习文本分类方法

Country Status (1)

Country Link
CN (1) CN110069632B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111507099A (zh) * 2020-06-19 2020-08-07 平安科技(深圳)有限公司 文本分类方法、装置、计算机设备及存储介质
CN113761942B (zh) * 2021-09-14 2023-12-05 合众新能源汽车股份有限公司 基于深度学习模型的语义分析方法、装置及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102662931A (zh) * 2012-04-13 2012-09-12 厦门大学 一种基于协同神经网络的语义角色标注方法
CN105824922A (zh) * 2016-03-16 2016-08-03 重庆邮电大学 一种融合深层特征和浅层特征的情感分类方法
KR101799681B1 (ko) * 2016-06-15 2017-11-20 울산대학교 산학협력단 어휘 의미망 및 단어 임베딩을 이용한 동형이의어 분별 장치 및 방법
CN108009285A (zh) * 2017-12-22 2018-05-08 重庆邮电大学 基于自然语言处理的林业生态环境人机交互方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102662931A (zh) * 2012-04-13 2012-09-12 厦门大学 一种基于协同神经网络的语义角色标注方法
CN105824922A (zh) * 2016-03-16 2016-08-03 重庆邮电大学 一种融合深层特征和浅层特征的情感分类方法
KR101799681B1 (ko) * 2016-06-15 2017-11-20 울산대학교 산학협력단 어휘 의미망 및 단어 임베딩을 이용한 동형이의어 분별 장치 및 방법
CN108009285A (zh) * 2017-12-22 2018-05-08 重庆邮电大学 基于自然语言处理的林业生态环境人机交互方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A study of the effectiveness of machine learning methods for classification of clinical interview fragments into a large number of categories;Mehedi Hasan等;《Journal of Biomedical Informatics》;20160831;第62卷;全文 *
一种基于向量空间模型的文本分类方法;李雪蕾等;《计算机工程》;20031031;第29卷(第17期);全文 *

Also Published As

Publication number Publication date
CN110069632A (zh) 2019-07-30

Similar Documents

Publication Publication Date Title
CN108108351B (zh) 一种基于深度学习组合模型的文本情感分类方法
TWI732271B (zh) 人機對話方法、裝置、電子設備及電腦可讀媒體
CN108874896B (zh) 一种基于神经网络和幽默特征的幽默识别方法
CN109101490B (zh) 一种基于融合特征表示的事实型隐式情感识别方法和系统
CN109299272B (zh) 一种用于神经网络输入的大信息量文本表示方法
CN110069632B (zh) 一种集成浅层语义表示向量的深度学习文本分类方法
CN111339772B (zh) 俄语文本情感分析方法、电子设备和存储介质
이동준 Morpheme-based efficient Korean word embedding
CN114757184B (zh) 实现航空领域知识问答的方法和系统
Tapsai et al. Thai Natural Language Processing: Word Segmentation, Semantic Analysis, and Application
CN111353040A (zh) 基于gru的属性级别情感分析方法
CN112632272B (zh) 基于句法分析的微博情感分类方法和系统
CN111078874B (zh) 基于随机子空间的决策树分类的对外汉语难度评估方法
CN110059187B (zh) 一种集成浅层语义预判模态的深度学习文本分类方法
Keh et al. Pancetta: Phoneme aware neural completion to elicit tongue twisters automatically
Lee Natural Language Processing: A Textbook with Python Implementation
CN113569560A (zh) 一种汉语二语作文自动评分方法
CN112668304A (zh) 基于两个层次Bi-LSTM的汉语句子排序方法
JP5506482B2 (ja) 固有表現抽出装置、文字列−固有表現クラス対データベース作成装置、固有表現抽出方法、文字列−固有表現クラス対データベース作成方法、プログラム
Ledeneva et al. Recent advances in computational linguistics
CN111898343B (zh) 一种基于短语结构树的相似题目识别方法和系统
Batarfi et al. Building an Arabic semantic lexicon for Hajj
CN116842168B (zh) 跨领域问题处理方法、装置、电子设备及存储介质
Aparna et al. A REVIEW ON DIFFERENT APPROACHES OF POS TAGGING IN NLP
CN113486155B (zh) 一种融合固定短语信息的中文命名方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant