CN112765989A - 基于表示分类网络的变长文本语义识别方法 - Google Patents
基于表示分类网络的变长文本语义识别方法 Download PDFInfo
- Publication number
- CN112765989A CN112765989A CN202011288770.2A CN202011288770A CN112765989A CN 112765989 A CN112765989 A CN 112765989A CN 202011288770 A CN202011288770 A CN 202011288770A CN 112765989 A CN112765989 A CN 112765989A
- Authority
- CN
- China
- Prior art keywords
- text
- semantic
- classification network
- representation
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Character Discrimination (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于表示分类网络的变长文本语义识别方法,该方法包括:数据采集,将语料库中的文本进行分词处理,并标定语义类别;建立表示分类网络;训练表示分类网络;输入新文本数据;输入表示网络;输出文本语义分类。通过该方法,达到了:对于一段新文本,算法无需人工进行特征工程训练,只需文本向量就可以得到其文本语义标签,节约了人力;算法可以学到语义表达空间的模式,对文本预处理如分词、标定工作要求低;新增语义类别无需重新训练。
Description
技术领域
本发明涉及自然语言处理技术领域,具体来说,涉及一种基于表示分类网络的变长文本语义识别方法。
背景技术
1.词的量化表示
Word2Vec模型
受Bengio提出的NNLM(Neural Netowrk Language Model)启发,Mikolov等提出了Word2Vec模型。它与NNLM的区别在于NNLM是一个语言模型,词向量只是“副产品”,而Word2Vec模型就是用于获取词向量的词嵌入模型。
Word2Vec主要有CBOW和Skip-gram两种模型,其中CBOW模型利用词Wt的前后各C个词来预测当前词,如图2(a)所示;Skip-gram模型是利用Wt预测其前后各C个词,如图2(b)所示。
在CBOW模型中,输入层是词Wt的前后2C个one-hot词向量,投影层将这2C个词向量累加求和,输出层是一颗以训练数据中所有的词作为叶子节点,以各词在数据中出现的次数作为权重的Huffman树。最后应用随机梯度上升法预测投影层的结果作为输出。Skip-gram模型类似。当获得所有词的词向量后,可发现类似这样的规律;“king”-“man”+“woman”=“queen”,可见词向量有效表达了词语的语义信息。
2.神经网络
神经网络是一种基于人类思维模式的真实神经元系统建模,在解决不同科学学科和图像处理、主题识别、控制系统、机器人等领域的问题中有很多应用。这些网络的应用范围很广,包括分类、插值近似、检测等,具有易于应用的能力优势。神经网络计算的基础是人类大脑特征在某种意义上的建模,其灵感将导致尝试根据可观察数据制定输入和输出变量之间的关系。神经网络的一般模式包括:1)确定神经元的元素中的过程;2)通过它们的互连进行数据交互;3)这些连接中的一个具有加权到从神经元传递到另一个的数据中的权重,权重是解决问题的必要数据;4)每个神经元对其输入强加一个激活函数来计算输出。神经网络的分类如图3所示。
现有方法主要通过词向量转换的方法将文本分词转化成词向量,再通过加权平均法计算文本向量,最后通过训练神经网络对文本向量进行分类。因此存在以下缺点:
(1)方法需要人工对每段文字进行大量特征提取,分时费力;
(2)特征提取只能得到离散结果,可以无限接近文本语义,但无法得到明确表达或连续表达形式,当需要分析离散点以外的信息时只能插值替代,存在较大误差;
(3)采用特征提取的方法无法解决本质问题,即新文本的语义识别问题。
发明内容
针对相关技术中的上述技术问题,本发明提出一种基于表示分类网络的变长文本语义识别方法,能够克服现有技术的上述不足。
为实现上述技术目的,本发明的技术方案是这样实现的:
一种基于表示分类网络的变长文本语义识别方法,该方法包括:
S1:数据采集,将语料库中的文本进行分词处理,并标定语义类别;
S2:建立表示分类网络,其中,分类网络输入的为文本向量,输出的为语义标签;
S3:训练表示分类网络;
所述步骤S3包括:
S31:每轮训练随机从一类文本中抽取5组文本向量及对应分类输入表示分类网络;
S32:利用语料库数据训练表示分类网络,其中,每有一个语义类别必须重复2000轮;
S4:输入新文本数据,其中,利用新类别文本预料的分词向量和语义类别输入给表示分类网络,每次随机抽取5组,重复2000次;
S5:输入表示网络,其中,输入前,必须将一段文字分词并转换成词向量;
S6:输出文本语义分类。
2. 根据权利要求1所述的基于表示分类网络的变长文本语义识别方法,其特征在于,所述步骤S1中,训练模型的语料库为相同语义类别的2000段文字。
3. 根据权利要求1所述的基于表示分类网络的变长文本语义识别方法,其特征在于,所述步骤S2中,所述分类网络利用隐变量,输入一组新的文本向量用于测试,用生成的标签概率与真实值对比。
4. 根据权利要求1所述的基于表示分类网络的变长文本语义识别方法,其特征在于,所述步骤S2中,通过拉近两者的ELBO散度来优化目标函数。
5. 根据权利要求3所述的基于表示分类网络的变长文本语义识别方法,其特征在于,所述隐变量通过卷积和反卷积运算得到。
6. 根据权利要求1或3或所述的基于表示分类网络的变长文本语义识别方法,其特征在于,所述分类网络中参与循环的是表示网络输出的所述隐变量。
进一步的,所述网络输出预测语义类别。
本发明的有益效果:通过该方法,达到了:
1)对于一段新文本,算法无需人工进行特征工程训练,只需文本向量就可以得到其文本语义标签,节约了人力;
2)算法可以学到语义表达空间的模式,对文本预处理如分词、标定工作要求低;
3)新增语义类别无需重新训练。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例所述的基于表示分类网络的变长文本语义识别方法的流程框图;
图2是Word2Vec模型图;
图3是神经网络分类图;
图4是表示分类网络的整体架构图;
图5是表示网络结构图;
图6是分类网络结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
如图1、4、5、6所示,根据本发明实施例所述的基于表示分类网络的变长文本语义识别方法,包括:
S1:数据采集,将语料库中的文本进行分词处理,并标定语义类别;
S2:建立表示分类网络,其中,分类网络输入的为文本向量,输出的为语义标签;
S3:训练表示分类网络;
所述步骤S3包括:
S31:每轮训练随机从一类文本中抽取5组文本向量及对应分类输入表示分类网络;
S32:利用语料库数据训练表示分类网络,其中,每有一个语义类别必须重复2000轮;
S4:输入新文本数据,其中,利用新类别文本预料的分词向量和语义类别输入给表示分类网络,每次随机抽取5组,重复2000次;
S5:输入表示网络,其中,输入前,必须将一段文字分词并转换成词向量;
S6:输出文本语义分类。
在本发明的一个具体实施例中,所述步骤S1中,训练模型的语料库为相同语义类别的2000段文字。
在本发明的一个具体实施例中,所述步骤S2中,所述分类网络利用隐变量,输入一组新的文本向量用于测试,用生成的标签概率与真实值对比。
在本发明的一个具体实施例中,所述步骤S2中,通过拉近两者的ELBO散度来优化目标函数。
在本发明的一个具体实施例中,所述隐变量通过卷积和反卷积运算得到。
在本发明的一个具体实施例中,所述分类网络中参与循环的是表示网络输出的所述隐变量。
在本发明的一个具体实施例中,所述网络输出预测语义类别。
为了方便理解本发明的上述技术方案,以下对本发明的上述技术方案进行详细说明。
1.数据采集
训练模型的语料库为相同语义类别的2000段文字,将语料库中的文本进行分词处理,并标定语义类别。
2.建立表示分类网络
表示分类网络的整体架构图,如图4所示。
模型包括表示网络和分类网络,左边的表示网络的目的在于利用数据集学习同类文本语义表达的模式,每次输入的是文本向量及对应的语义标签,输出是一个隐变量,也就是文本语义表达的模式。右边的分类网络则利用这一表达模式,输入新的文本向量,输出语义标签。
对于网络的训练过程需要的数据集是2000个文本的标定数据,每轮训练随机抽取同类文本的五组标定数据作为输入,表示网络由此生成一个隐变量,也就是文本的表达方式,分类网络利用这一隐变量,输入一组新的文本向量用于测试,用生成的标签概率与真实值对比。算法假设预测值与真实值都服从一定的分布,通过拉近两者的ELBO散度来优化目标函数。经过多轮训练后,网络学到了同类文本的转化模式,也就是共通性。对于一类新文本,只需2000组标定数据进行增量训练,就可以得到表示它转化方式的隐变量,也就是该标签的特殊性,进而可以利用分类网络生成文本标签。
表示网络结构及参数,如图5所示。
表示网络的输入为文本向量和对应的语义标签。通过一系列的卷积和反卷积运算得到一个隐变量r,也就是一类文本表达方式的表示。
分类网络的结构和参数,如图6所示。
分类网络利用一个LSTM,输入的是一个文本向量,网络中参与循环的是表示网络输出的隐变量,网络输出预测到的语义类别。
3.训练表示分类网络——确定共通性
每轮训练随机从一类文本中抽取5组文本向量及对应分类输入表示分类网络,利用语料库数据训练表示分类网络,每有一个语义类别需要重复2000轮。
4.输入新文本数据——确定特殊性
利用新类别文本预料的分词向量和语义类别输入给表示分类网络,每次随机抽取5组,重复2000次。
应用过程:
1.输入
调用算法时,将一段文字分词并转换成词向量,输入表示网络。
2.输出
最终输出文本语义分类。
综上所述,借助于本发明的上述技术方案,通过该方法,达到了:对于一段新文本,算法无需人工进行特征工程训练,只需文本向量就可以得到其文本语义标签,节约了人力;算法可以学到语义表达空间的模式,对文本预处理如分词、标定工作要求低;新增语义类别无需重新训练。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.基于表示分类网络的变长文本语义识别方法,其特征在于,包括:
S1:数据采集,将语料库中的文本进行分词处理,并标定语义类别;
S2:建立表示分类网络,其中,分类网络输入的为文本向量,输出的为语义标签;
S3:训练表示分类网络;
所述步骤S3包括:
S31:每轮训练随机从一类文本中抽取5组文本向量及对应分类输入表示分类网络;
S32:利用语料库数据训练表示分类网络,其中,每有一个语义类别必须重复2000轮;
S4:输入新文本数据,其中,利用新类别文本预料的分词向量和语义类别输入给表示分类网络,每次随机抽取5组,重复2000次;
S5:输入表示网络,其中,输入前,必须将一段文字分词并转换成词向量;
S6:输出文本语义分类。
2.根据权利要求1所述的基于表示分类网络的变长文本语义识别方法,其特征在于,所述步骤S1中,训练模型的语料库为相同语义类别的2000段文字。
3.根据权利要求1所述的基于表示分类网络的变长文本语义识别方法,其特征在于,所述步骤S2中,所述分类网络利用隐变量,输入一组新的文本向量用于测试,用生成的标签概率与真实值对比。
4.根据权利要求1所述的基于表示分类网络的变长文本语义识别方法,其特征在于,所述步骤S2中,通过拉近两者的ELBO散度来优化目标函数。
5.根据权利要求3所述的基于表示分类网络的变长文本语义识别方法,其特征在于,所述隐变量通过卷积和反卷积运算得到。
6.根据权利要求1或3或所述的基于表示分类网络的变长文本语义识别方法,其特征在于,所述分类网络中参与循环的是表示网络输出的所述隐变量。
7.根据权利要求6所述的基于表示分类网络的变长文本语义识别方法,其特征在于,所述网络输出预测语义类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011288770.2A CN112765989B (zh) | 2020-11-17 | 2020-11-17 | 基于表示分类网络的变长文本语义识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011288770.2A CN112765989B (zh) | 2020-11-17 | 2020-11-17 | 基于表示分类网络的变长文本语义识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112765989A true CN112765989A (zh) | 2021-05-07 |
CN112765989B CN112765989B (zh) | 2023-05-12 |
Family
ID=75693182
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011288770.2A Active CN112765989B (zh) | 2020-11-17 | 2020-11-17 | 基于表示分类网络的变长文本语义识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112765989B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113268991A (zh) * | 2021-05-19 | 2021-08-17 | 北京邮电大学 | 一种基于cgan模型的用户人格隐私保护方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180357531A1 (en) * | 2015-11-27 | 2018-12-13 | Devanathan GIRIDHARI | Method for Text Classification and Feature Selection Using Class Vectors and the System Thereof |
CN110119786A (zh) * | 2019-05-20 | 2019-08-13 | 北京奇艺世纪科技有限公司 | 文本话题分类方法及装置 |
CN110134786A (zh) * | 2019-05-14 | 2019-08-16 | 南京大学 | 一种基于主题词向量与卷积神经网络的短文本分类方法 |
CN110609897A (zh) * | 2019-08-12 | 2019-12-24 | 北京化工大学 | 一种融合全局和局部特征的多类别中文文本分类方法 |
CN110909164A (zh) * | 2019-11-22 | 2020-03-24 | 科大国创软件股份有限公司 | 一种基于卷积神经网络的文本增强语义分类方法及系统 |
CN111581970A (zh) * | 2020-05-12 | 2020-08-25 | 厦门市美亚柏科信息股份有限公司 | 一种网络语境的文本识别方法、装置及存储介质 |
-
2020
- 2020-11-17 CN CN202011288770.2A patent/CN112765989B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180357531A1 (en) * | 2015-11-27 | 2018-12-13 | Devanathan GIRIDHARI | Method for Text Classification and Feature Selection Using Class Vectors and the System Thereof |
CN110134786A (zh) * | 2019-05-14 | 2019-08-16 | 南京大学 | 一种基于主题词向量与卷积神经网络的短文本分类方法 |
CN110119786A (zh) * | 2019-05-20 | 2019-08-13 | 北京奇艺世纪科技有限公司 | 文本话题分类方法及装置 |
CN110609897A (zh) * | 2019-08-12 | 2019-12-24 | 北京化工大学 | 一种融合全局和局部特征的多类别中文文本分类方法 |
CN110909164A (zh) * | 2019-11-22 | 2020-03-24 | 科大国创软件股份有限公司 | 一种基于卷积神经网络的文本增强语义分类方法及系统 |
CN111581970A (zh) * | 2020-05-12 | 2020-08-25 | 厦门市美亚柏科信息股份有限公司 | 一种网络语境的文本识别方法、装置及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113268991A (zh) * | 2021-05-19 | 2021-08-17 | 北京邮电大学 | 一种基于cgan模型的用户人格隐私保护方法 |
CN113268991B (zh) * | 2021-05-19 | 2022-09-23 | 北京邮电大学 | 一种基于cgan模型的用户人格隐私保护方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112765989B (zh) | 2023-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Nwankpa et al. | Activation functions: Comparison of trends in practice and research for deep learning | |
CN109947912B (zh) | 一种基于段落内部推理和联合问题答案匹配的模型方法 | |
CN110413785B (zh) | 一种基于bert和特征融合的文本自动分类方法 | |
CN112100369B (zh) | 结合语义的网络故障关联规则生成方法和网络故障检测方法 | |
CN112115687B (zh) | 一种结合知识库中的三元组和实体类型的生成问题方法 | |
Chen et al. | Delving deeper into the decoder for video captioning | |
CN112527966B (zh) | 基于Bi-GRU神经网络和自注意力机制的网络文本情感分析方法 | |
CN112784532B (zh) | 用于短文本情感分类的多头注意力记忆系统 | |
CN111831783B (zh) | 一种篇章级关系抽取方法 | |
CN113919319B (zh) | 基于动作场景强化的脚本事件预测方法 | |
CN111104513A (zh) | 一种游戏平台用户问答业务的短文本分类方法 | |
CN115951883B (zh) | 分布式微服务架构的服务组件管理系统及其方法 | |
CN108363685B (zh) | 基于递归变分自编码模型的自媒体数据文本表示方法 | |
CN115687609A (zh) | 一种基于Prompt多模板融合的零样本关系抽取方法 | |
CN116579347A (zh) | 一种基于动态语义特征融合的评论文本情感分析方法、系统、设备及介质 | |
CN111597816A (zh) | 一种自注意力命名实体识别方法、装置、设备及存储介质 | |
CN110991515A (zh) | 一种融合视觉上下文的图像描述方法 | |
CN112765989A (zh) | 基于表示分类网络的变长文本语义识别方法 | |
CN114332565A (zh) | 一种基于分布估计的条件生成对抗网络文本生成图像方法 | |
CN112579794A (zh) | 一种为中英文单词对预测义原树的方法及系统 | |
CN116757218A (zh) | 一种基于上下句关系预测的短文本事件共指消解方法 | |
KR102177728B1 (ko) | 합성곱 신경망을 활용한 데이터 확장방법 및 장치 | |
CN116227603A (zh) | 一种事件推理任务的处理方法、设备及介质 | |
CN112131879A (zh) | 一种关系抽取系统、方法和装置 | |
CN115599392A (zh) | 一种代码处理的方法、装置、介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |