CN107729311B - 一种融合文本语气的中文文本特征提取方法 - Google Patents
一种融合文本语气的中文文本特征提取方法 Download PDFInfo
- Publication number
- CN107729311B CN107729311B CN201710752000.0A CN201710752000A CN107729311B CN 107729311 B CN107729311 B CN 107729311B CN 201710752000 A CN201710752000 A CN 201710752000A CN 107729311 B CN107729311 B CN 107729311B
- Authority
- CN
- China
- Prior art keywords
- text
- word
- vector
- representation
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Abstract
本发明公开了一种融合文本语气的中文文本特征提取方法,实现从变长文本中获取融合语气特征、句法特征和语义特征的文本特征表示。首先构建文本词集和语气词集,将文本词集和语气词集转换成词嵌入形式,得到对应的向量模型;其次,依据文本词嵌入表示的时间步长维度和特征维度筛选文本特征,并将语气特征融入到选取的文本特征的时间步长维度上,获得准确表示语义的文本特征表示。本发明充分利用语气词对文本语义的贡献,将语气特征、句法特征和语义特征融合到文本特征表示之中,且该文本特征表示具有低维和连续的特点,不仅可以更好地表示文本语义,也能更有效地支持文本分析、语言翻译、关系抽取等自然语言处理任务。
Description
技术领域
本发明属于自然语言处理领域,涉及一种融合文本语气的中文文本特征提取方法;基于海量的中文文本,把中文语气特征融入文本特征,更好地表示中文文本语义。
背景技术
每天来自互联网、电子商务等领域的文本数量急剧增加,单靠人工处理和理解这些海量的文本数据,将会耗费大量的成本而得不偿失。为快速并高效地挖掘出海量文本中有用的知识模式,基于人工智能相关技术处理和理解文本成为一个更好的选择;智能分析海量文本的关键是对文本语义特征进行有效地表示,最常用的文本表示方法是词袋模型(Bag of Words,BOW),词袋模型虽然简单实用但是文本表示往往纬度高并且稀疏。TF-IDF(词频-逆文档频率)、概率主题模型(Latent Dirichlet Allocation,LDA)等方法被提出改进文本特征表示方法;然而,这些方法往往假设词对文本的语义贡献和词出现的频率有关。但事实上,在中文文本中,有些词虽然出现的频率不是高,但对文本的语义贡献却是不能忽略的,语气词就是其中之一。词嵌入技术Skip-gram、CBOW(Continuous Bag Of WordsModel)等分布式词表示成为文本分析的一种重要手段,并取得一些很好的成果。随着深度学习研究的开展,卷积神经神经网络(Convolutional Neural Network,CNN)和长短期记忆(Long Short Term Memory,LSTM)神经网络凭借可以智能识别文本中重要信息和获取文本的广泛的语义信息等优势被应用到自然语言处理领域中,并取得了很好的效果。本发明基于中文文本的语气词,首先利用神经网络提取文本中的语义特征;其次智能判别最重要的句法知识和语义特征,提出一种充分利用语气词对语义的贡献的中文文本特征提取方法。
发明内容
本发明的目的在于在现有技术的基础上,公开了一种融合文本语气的中文文本特征提取方法,进一步提高文本分析、语言翻译、关系抽取等自然语言处理任务的准确性。
为实现上述目的,本发明提出一种融合文本语气的中文文本特征提取方法,其特征在于,包括以下步骤:
(1)、海量文本词集和语气词集生成
1.1)、文本词集生成
1.2)、文本语气词集生成
提取每条文本含有的语气词,将语气词添加到集合中,最后得到文本数据中的语气词集,q表示文本集合语气词的数目;其中是可能的语气词集E的子集,E={唉,了,哪,呢,呐,否,呵,哈,不,呸,吧,罢,呗,啦,唻,嘞,哩,咧,咯,啰,喽,吗,嘛,么,阿,啊,呃,哇,呀,也,耶,哟,欤,呕,噢,呦,一定,必定,难道,何尝,大概,也许,果然,果真,难怪,原来,不中,罢了,不成,得了,而已,了得,也罢,已而,也好,就是,一般,再说,不过,怪不得,就是了,不得了};
(2)、词嵌入模型构建
2.1)、文本词向量模型构建
2.2)、文本语气向量模型构建
(3)、文本词表示模型构建
3.1)、文本初始向量生成
3.2)、文本词的上下文语义向量生成
3.3)、文本词模型构建
Bi-LSTM局部语义合成运算为:
(4)、文本表示模型构建
4.1)、2维卷积1维池化模块
4.1.1)、文本特征的2维卷积
文本词嵌入表示有时间步长维度和特征向量维度,将文本向量H传入2维卷积层;即在文本特征的时间步长维度和特征向量维度进行卷积运算;2维卷积器为,表示卷积器m在时间步长维度上对a个词,特征向量维度上对b个特征进行卷积运算,卷积运算在两个维度方向移动的步长都为1;得到第j条文本的中间表示,那么L条文本表示为;
4.1.2)、文本特征向量维度1维池化
4.1.3)、文本特征的2维卷积
4.1.4)、文本语气特征生成
4.2)、文本表示生成
4.2.1)、文本语气特征融合
4.2.2)、文本表示强化
将文本特征再次进行1维最大池化运算,即在文本表示的时间步长维度(词维度)上进行最大池化运算,得到定长维度的文本特征表示;即选取第j条文本的词的维度上的最大特征值;最终得到第j条文本的融合文本语气的文本特征表示;
附图说明
图1:一种融合文本语气的中文文本特征提取方法过程图;
图2:文本词表示模型;
图3:文本表示模型;
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。
图1:一种融合文本语气的中文文本特征提取方法包括:步骤(1)、海量文本词集和语气词集生成,通过文本集、文本语气词集生成每条文本的词、语气词集;(2)、词嵌入模型构建,通过训练Skip-gram、CBOW模型获得文本特征向量、语气词特征向量;(3)、文本词表示模型构建,通过Bi-LSTM层生成每条文本的词的上下文语义特征,然后结合初始化的词向量生成文本局部特征向量,再经过2维卷积1维池化得到文本中间全局特征;(4)、文本表示模型构建
下面对四个步骤进行详细说明。
(1)、海量文本词集和语气词集生成
1.1)、文本词集生成
1.2)、文本语气词集生成
提取每条文本含有的语气词,将语气词添加到集合中,最后得到文本数据中语气词集,q表示文本集合语气词的数目;其中是可能的语气词集E的子集,E={唉,了,哪,呢,呐,否,呵,哈,不,呸,吧,罢,呗,啦,唻,嘞,哩,咧,咯,啰,喽,吗,嘛,么,阿,啊,呃,哇,呀,也,耶,哟,欤,呕,噢,呦,一定,必定,难道,何尝,大概,也许,果然,果真,难怪,原来,不中,罢了,不成,得了,而已,了得,也罢,已而,也好,就是,一般,再说,不过,怪不得,就是了,不得了};
(2)、词嵌入模型构建
2.1)、文本词向量模型构建
2.2)、文本语气向量模型构建
在图2:文本词表示模型;图3:文本表示模型,具体过程具体如下:
(3)、文本词表示模型构建
3.1)、文本初始向量生成
3.2)、文本词的上下文语义向量生成
3.3)、文本词模型构建
(4)、文本表示模型构建
4.1)、2维卷积1维池化模块
4.1.1)、文本特征的2维卷积
文本词嵌入表示有时间步长维度和特征向量维度,将文本向量H传入2维卷积层;即在文本特征的时间步长维度和特征向量维度进行卷积运算;2维卷积器为,表示卷积器m在时间步长维度上对a个词,特征向量维度上对b个特征进行卷积运算,卷积运算在两个维度方向移动的步长都为1;得到第j条文本的中间表示,那么L条文本表示为;
2维卷积运算为:
4.1.2)、文本特征向量维度1维池化
4.1.3)、文本特征的2维卷积
4.1.4)、文本语气特征生成
4.2)、文本表示生成
4.2.1)、文本语气特征融合
4.2.2)、文本表示强化
Claims (2)
1.一种融合文本语气的中文文本特征提取方法,其特征在于,包括以下步骤:
(1)、海量文本词集和语气词集生成
1.1)、文本词集生成
1.2)、文本语气词集生成
提取每条文本中的语气词,将语气词添加到集合中,最后得到文本数据中的语气词集,q表示文本集合语气词的数目;其中是语气词集E的子集,E={唉,了,哪,呢,呐,否,呵,哈,不,呸,吧,罢,呗,啦,唻,嘞,哩,咧,咯,啰,喽,吗,嘛,么,阿,啊,呃,哇,呀,也,耶,哟,欤,呕,噢,呦,一定,必定,难道,何尝,大概,也许,果然,果真,难怪,原来,不中,罢了,不成,得了,而已,了得,也罢,而已,也好,就是,一般,再说,不过,怪不得,就是了,不得了};
(2)、词嵌入模型构建
2.1)、文本词向量模型构建
2.2)、文本语气向量模型构建
(3)、文本词表示模型构建
3.1)、文本初始向量生成
3.2)、文本词的上下文语义向量生成
3.3)、文本词模型构建
(4)、文本表示模型构建
4.1)、2维卷积1维池化模块
4.1.1)、文本特征的2维卷积
文本词嵌入表示有时间步长维度和特征向量维度,将文本表示H传入2维卷积层,也就是在文本表示的时间步长维度和特征向量维度进行卷积运算;2维卷积器为,表示卷积器m在时间步长维度上对a个词,特征向量维度上对b个特征进行卷积运算,卷积操作在两个维度方向移动的步长都为1;得到第j条文本的中间表示,那么L条文本特征表示为;
4.1.2)、文本特征向量维度1维池化
4.1.3)、文本特征的2维卷积
4.1.4)、文本语气特征生成
4.2)、文本表示生成
4.2.1)、文本语气特征融合
4.2.2)、文本表示强化
2.根据权利要求1中的特征提取方法,其特征在于;
(1)、神经网络权重、偏差的初始化采用小随机数权重初始化;
(2)、在2维卷积、1维池化操作后都采用dropout策略,即使神经元的激活值以一定的概率值停止工作,以达到避免过拟合的效果;模型训练过程中以交叉熵损失最小化为目标,反向传播更新每层的权重与偏差。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710752000.0A CN107729311B (zh) | 2017-08-28 | 2017-08-28 | 一种融合文本语气的中文文本特征提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710752000.0A CN107729311B (zh) | 2017-08-28 | 2017-08-28 | 一种融合文本语气的中文文本特征提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107729311A CN107729311A (zh) | 2018-02-23 |
CN107729311B true CN107729311B (zh) | 2020-10-16 |
Family
ID=61205496
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710752000.0A Expired - Fee Related CN107729311B (zh) | 2017-08-28 | 2017-08-28 | 一种融合文本语气的中文文本特征提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107729311B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108416058B (zh) * | 2018-03-22 | 2020-10-09 | 北京理工大学 | 一种基于Bi-LSTM输入信息增强的关系抽取方法 |
CN108614678A (zh) * | 2018-04-20 | 2018-10-02 | 郑州科技学院 | 一种基于人工智能的多功能智能人机交互方法 |
CN108682418B (zh) * | 2018-06-26 | 2022-03-04 | 北京理工大学 | 一种基于预训练和双向lstm的语音识别方法 |
CN109271637B (zh) * | 2018-09-30 | 2023-12-01 | 科大讯飞股份有限公司 | 一种语义理解方法及装置 |
CN111435597B (zh) * | 2019-01-15 | 2023-01-10 | 珠海格力电器股份有限公司 | 语音信息的处理方法和装置 |
CN110263152B (zh) * | 2019-05-07 | 2024-04-09 | 平安科技(深圳)有限公司 | 基于神经网络的文本分类方法、系统及计算机设备 |
WO2021000362A1 (zh) * | 2019-07-04 | 2021-01-07 | 浙江大学 | 一种基于深度神经网络模型的地址信息特征抽取方法 |
CN110674129A (zh) * | 2019-08-14 | 2020-01-10 | 平安科技(深圳)有限公司 | 异常事件处理方法、系统、计算机设备及存储介质 |
CN111026845B (zh) * | 2019-12-06 | 2021-09-21 | 北京理工大学 | 一种获取多层次上下文语义的文本分类方法 |
CN112364167A (zh) * | 2020-11-20 | 2021-02-12 | 携程计算机技术(上海)有限公司 | 基于深度学习的意图识别方法、系统、设备及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106502994A (zh) * | 2016-11-29 | 2017-03-15 | 上海智臻智能网络科技股份有限公司 | 一种文本的关键词提取的方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105893410A (zh) * | 2015-11-18 | 2016-08-24 | 乐视网信息技术(北京)股份有限公司 | 一种关键词提取方法和装置 |
-
2017
- 2017-08-28 CN CN201710752000.0A patent/CN107729311B/zh not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106502994A (zh) * | 2016-11-29 | 2017-03-15 | 上海智臻智能网络科技股份有限公司 | 一种文本的关键词提取的方法和装置 |
Non-Patent Citations (2)
Title |
---|
A Cross-Modal Approach for Extracting Semantic Relationships Between Concepts Using Tagged Images;Marie Katsurai et al.;《IEEE Transactions on Multimedia》;20140630;第16卷(第4期);第1059-1074页 * |
基于词嵌入扩充的口语对话文本领域分类;杨萌萌 等;《新疆大学学报(自然科学版)》;20160531;第33卷(第2期);第209-214页,第220页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107729311A (zh) | 2018-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107729311B (zh) | 一种融合文本语气的中文文本特征提取方法 | |
CN106650813B (zh) | 一种基于深度残差网络和lstm的图像理解方法 | |
Huang et al. | Facial expression recognition with grid-wise attention and visual transformer | |
CN109902293B (zh) | 一种基于局部与全局互注意力机制的文本分类方法 | |
CN108319686B (zh) | 基于受限文本空间的对抗性跨媒体检索方法 | |
CN106202010B (zh) | 基于深度神经网络构建法律文本语法树的方法和装置 | |
CN113254599B (zh) | 一种基于半监督学习的多标签微博文本分类方法 | |
CN106547735B (zh) | 基于深度学习的上下文感知的动态词或字向量的构建及使用方法 | |
Donahue et al. | Long-term recurrent convolutional networks for visual recognition and description | |
CN110765775B (zh) | 一种融合语义和标签差异的命名实体识别领域自适应的方法 | |
CN110738026B (zh) | 用于生成描述文本的方法和设备 | |
CN108733837B (zh) | 一种病历文本的自然语言结构化方法及装置 | |
CN109740148A (zh) | 一种BiLSTM结合Attention机制的文本情感分析方法 | |
CN112487182A (zh) | 文本处理模型的训练方法、文本处理方法及装置 | |
Grcić et al. | Densely connected normalizing flows | |
CN110110323B (zh) | 一种文本情感分类方法和装置、计算机可读存储介质 | |
CN106569998A (zh) | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 | |
CN108830287A (zh) | 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法 | |
CN107273913B (zh) | 一种基于多特征融合的短文本相似度计算方法 | |
CN107608956A (zh) | 一种基于cnn‑grnn的读者情绪分布预测算法 | |
CN110826338B (zh) | 一种单选择门与类间度量的细粒度语义相似识别的方法 | |
Peng et al. | Research on image feature extraction and retrieval algorithms based on convolutional neural network | |
CN107480132A (zh) | 一种基于图像内容的古诗词生成方法 | |
CN110083710A (zh) | 一种基于循环神经网络与潜变量结构的词语定义生成方法 | |
CN110162789A (zh) | 一种基于汉语拼音的词表征方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20201016 Termination date: 20210828 |