CN112464674A - 一种字级别的文本意图识别方法 - Google Patents
一种字级别的文本意图识别方法 Download PDFInfo
- Publication number
- CN112464674A CN112464674A CN202011489791.0A CN202011489791A CN112464674A CN 112464674 A CN112464674 A CN 112464674A CN 202011489791 A CN202011489791 A CN 202011489791A CN 112464674 A CN112464674 A CN 112464674A
- Authority
- CN
- China
- Prior art keywords
- word
- sentence
- words
- cnn network
- intention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种字级别的文本意图识别方法,包括创建字向量语义字典并获取字向量组成句子矩阵,搭建CNN网络结构进行模型训练,利用训练的意图识别模型进行意图预测,本发明的字级别的意图识别方法,通过向量库和语料库构建字向量语义字典获取语料字级别的句子矩阵,并使用三个独立且不同的卷积神经网络相结合模拟词向量信息得到文本的语义特征来训练意图识别模型,从而实现缩小资源占用但不降低识别率的目的,减小意图识别模型占用的内存,保证识别的准确率,提高用户语音使用的智能交互体验。
Description
技术领域
本发明涉及文本意图识别技术领域,特别是一种字级别的文本意图识别方法。
背景技术
传统的文本分类方法,大多以词为单位,利用多样化的向量库构造向量空间。分词后读取向量空间得到句子矩阵,随后经过多种网络融合结构的计算得到识别率较高的模型。而汉语中词语数量大,对应的向量空间也大,因此占用的资源空间也就多。而以字为单位进行文本分类的模型通常用one-hot编码进行字向量获取,虽然占用的资源空间更小,但丧失了语义信息,得到的分类结果比以词为单位的文本分类方法更差。且在一些对于意图识别模型的大小和识别准确率都有一定的需求的场景中,因此,现有技术存在文本分类中算法识别率和资源占用之间不平衡的问题。
发明内容
为解决现有技术中存在的问题,本发明的目的是提供一种字级别的文本意图识别方法,通过构建字向量语义字典以缩小空间资源占用率,并搭建CNN网络结构弥补字向量丧失部分语言信息的缺陷,以达到文本识别率和资源占用之间的平衡。
为实现上述目的,本发明采用的技术方案为:一种字级别的文本意图识别方法,包括:步骤S101,创建字向量语义字典,根据模型使用领域进行语料收集、去重、并以单字为单位查询mitie向量库构造字向量语义字典;步骤S102,获取字向量组成句子矩阵,将句子切分为若干个单字,将所获得的单字分别输入字向量语义字典中获得相应的字向量,并按顺序组成对应的句子矩阵;步骤S103,搭建CNN网络结构,CNN网络结构包括若干个CNN网络,将句子矩阵分别输入若干个CNN网络进行池化处理得到句子的语义特征,将所获得的语义特征进行水平拼接、意图分类和softmax处理,得到各个意图的概率并输出;步骤S104,模型训练,通过CNN网络结构和标记好意图的语料进行模型训练,得到意图识别模型;步骤S105,意图预测,根据步骤S102的方法获取文本的字向量组成句子矩阵,并将句子矩阵输入意图识别模型进行意图预测,以完成文本的意图识别。
作为优选,所述方法还包括:设置字向量的维度和句子最大字数。
作为优选,所述mitie向量库查出的字向量只截取所设置维度的字向量作为该字的字向量来构建字向量语义字典。
作为优选,若句子中单字的数量少于所设置的句子最大字数,则补充相同维数的零向量;若句子中单字的数量大于所设置的句子最大字数,则去除多余的字。
作为优选,所述CNN网络结构包括第一CNN网络、第二CNN网络和第三CNN网络,对应的卷积窗口分别为1、2和4,且分别对输出的特征矩阵做前四大值均值池化处理、最大值和次大值均值池化处理和最大池化处理,得到句子信息中的4个单字、两组相邻的两个单字和一组相邻的四个单字的特征作为该句子的语义特征。
本发明的有益效果是:
本发明通过向量库和语料库构建字向量语义字典获取语料字级别的句子矩阵,并使用三个独立且不同的卷积神经网络相结合模拟词向量信息得到文本的语义特征来训练意图识别模型,从而实现缩小资源占用但不降低识别率的目的,减小意图识别模型占用的内存,保证识别的准确率,提高用户语音使用的智能交互体验。
附图说明
图1为本发明实施例一种字级别的文本意图识别方法的流程图;
图2为本发明实施例一种字级别的文本意图识别方法的框架图;
图3为本发明实施例CNN网络的卷积过程示意图。
具体实施方式
下面结合附图对本发明的实施例进行详细说明。
实施例,
参照附图1,本发明实施例的一种字级别的文本意图识别方法,包括以下步骤:
步骤S101,创建字向量语义字典,
根据模型使用领域进行语料收集,并对语料中的字去重,以单个字为单位查询mitie向量库,得到每个字的字向量,截取固定维度的向量作为该字的字向量,固定维度取值为不影响算法识别率的最小维度,以构造字向量语义字典,例如,
思[1.335914134979248,......,-0.5145779252052307]
权[1.2839683294296265,......,0.8642581105232239]
......
在一定的领域内,语料涉及的字,对比词的数量来说,是十分有限的,可以极大地减少内存的占用,并且相比字one-hot向量又保留了字本身的语义信息,对提高算法识别率有益。在不影响算法识别率的前提下,压缩字向量的维度,有助于进一步减少内存占用。
步骤S102,获取字向量组成句子矩阵,
将句子的每个字一一提取获得若干个单字,将所获得的单字分别输入字向量语义字典中获得相应的字向量,并按顺序组成对应的句子矩阵;
例如,将句子“打开电视”切分为“打”、“开”、“电”、“视”并加到list。假设字向量的维度为90维,每句话最大字数为10,最终意图分类数为120。通过特征提取组件将所述list中的各个字一一通过字向量语义字典查询获得相应的字向量,作为优选,若句子中单字的数量少于设置的句子最大字数,则补充相同维数的零向量;若句子中单字的数量大于设置的句子最大字数,则去除多余的字,使句子矩阵具有相同的维度,得到最终的句子矩阵。例如:
打[1.2711501121520996,......,-0.6230699419975281]
开[1.326598882675171,......,-0.3172447383403778]
电[1.2370820045471191,......,-0.14718323945999146]
视[1.2136116027832031,......,0.6326875686645508]
[0,......,0]
[0,......,0]
[0,......,0]
[0,......,0]
[0,......,0]
[0,......,0]
步骤S103,搭建CNN网络结构,
CNN网络包括输入层、网络层、池化层、特征连接层、全连接层和输出层;其中网络层包括CNN网络层1、CNN网络层2和CNN网络层3,且分别与池化层的池化层1、池化层2和池化层3相对应;
CNN网络1、2、3的卷积窗口大小分别为1、2、4,将句子矩阵通过CNN网络的输入层传输至各网络层。再分别通过池化层1将CNN网络层1输出的特征矩阵前四大值做均值池化处理,池化层2将CNN网络层2输出的特征矩阵最大值和次大值做均值池化处理,通过池化层3将CNN网络层3输出的特征矩阵做最大池化处理,得到句子信息中的4个单字、两组相邻的两个单字、一组相邻的四个单字的特征作为该句子的语义特征,从而通过字向量来模拟词向量,来提高意图识别的识别率,同时也可以消除未登录字对结果的影响。将三个池化层的输出通过特征连接层进行水平拼接。然后,将特征连接层的输出通过全连接层进行意图分类。将全连接层输出结果经过softmax处理得到各个意图的概率,并通过输出层进行输出。例如,
输入层:输入句子矩阵(10×90)
网络层:
CNN网络层1→池化层1:对句子矩阵用卷积窗口为1的256个卷积核(1×90)进行卷积,得到维度为(10×256)的特征矩阵,然后进行前4大值均值池化,得到维度为(1×256)的特征矩阵,包含256种句子中最重要的4个字的特征;
CNN网络层2→池化层2:对句子矩阵用卷积窗口为2的256个卷积核(2×90)进行卷积,得到维度为(9×256)的特征矩阵,然后进行最大值和次大值均值池化,得到维度为(1×256)的特征矩阵,包含256种最重要的两组相邻两个字的特征;
CNN网络层3→池化层3:对句子矩阵用卷积窗口为4的256个卷积核(4×90)进行卷积,得到维度为(7×256)的特征矩阵,然后进行最大池化,得到维度为(1×256)的特征矩阵,包含256种最重要的相邻4个字的特征;
卷积过程,以卷积窗口为2为例,具体的过程如附图3所示。
特征连接层:将三个池化层的输出水平连接,得到维度为(1×768)的特征向量。
全连接层:全连接层包括了三个部分,输入层、隐藏层和输出层,输入层即网络层的输出,结点数为768,隐藏层为两层,结点分别设置为256和128,而输出层结点数与意图数量保持一致,即120。
输出层:全连接层的输出经过softmax函数处理得到每个意图的概率。
步骤S104,模型训练,
通过上述字级别的CNN网络和标记好意图的语料进行模型训练,得到意图识别模型。
步骤S105,意图预测,
将文本经过步骤S102获取字向量组成句子矩阵、并将句子矩阵通过经过CNN网络训练后的意图识别模型进行意图预测得到各个意图的概率,并选取概率最大的意图作为最终的意图进行输出,完成文本的意图识别。
通过本发明的一种字级别的文本意图识别方法,通过向量库和语料库构建字向量语义字典获取语料字级别的句子矩阵,并构建CNN网络结构,且CNN网络结构包括三个并行CNN网络,使用三个独立的不同的卷积神经网络相结合模拟词向量信息得到文本的语义特征来训练意图识别模型,以对文本分类算法的识别率和资源的占用进行平衡,减小意图识别模型占用的内存,保证识别的准确率,提高用户语音使用的智能交互体验。
以上所述实施例仅表达了本发明的具体实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
Claims (5)
1.一种字级别的文本意图识别方法,其特征在于,包括:
步骤S101,创建字向量语义字典,根据模型使用领域进行语料收集、去重、并以单字为单位查询mitie向量库构造字向量语义字典;
步骤S102,获取字向量组成句子矩阵,将句子切分为若干个单字,将所获得的单字分别输入字向量语义字典中获得相应的字向量,并按顺序组成对应的句子矩阵;
步骤S103,搭建CNN网络结构,CNN网络结构包括若干个CNN网络,将句子矩阵分别输入若干个CNN网络进行池化处理得到句子的语义特征,将所获得的语义特征进行水平拼接、意图分类和softmax处理,得到各个意图的概率并输出;
步骤S104,模型训练,通过CNN网络结构和标记好意图的语料进行模型训练,得到意图识别模型;
步骤S105,意图预测,根据步骤S102的方法获取文本的字向量组成句子矩阵,并将句子矩阵输入意图识别模型进行意图预测,以完成文本的意图识别。
2.根据权利要求1所述字级别的文本意图识别方法,其特征在于,所述方法还包括:设置字向量的维度和句子最大字数。
3.根据权利要求2所述字级别的文本意图识别方法,其特征在于,所述mitie向量库查出的字向量只截取所设置维度的字向量作为该字的字向量来构建字向量语义字典。
4.根据权利要求2所述字级别的文本意图识别方法,其特征在于,若句子中单字的数量少于所设置的句子最大字数,则补充相同维数的零向量;若句子中单字的数量大于所设置的句子最大字数,则去除多余的字。
5.根据权利要求1所述字级别的文本意图识别方法,其特征在于,所述CNN网络结构包括第一CNN网络、第二CNN网络和第三CNN网络,对应的卷积窗口分别为1、2和4,且分别对输出的特征矩阵做前四大值均值池化处理、最大值和次大值均值池化处理和最大池化处理,得到句子信息中的4个单字、两组相邻的两个单字和一组相邻的四个单字的特征作为该句子的语义特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011489791.0A CN112464674A (zh) | 2020-12-16 | 2020-12-16 | 一种字级别的文本意图识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011489791.0A CN112464674A (zh) | 2020-12-16 | 2020-12-16 | 一种字级别的文本意图识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112464674A true CN112464674A (zh) | 2021-03-09 |
Family
ID=74803469
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011489791.0A Pending CN112464674A (zh) | 2020-12-16 | 2020-12-16 | 一种字级别的文本意图识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112464674A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113326354A (zh) * | 2021-06-29 | 2021-08-31 | 招商局金融科技有限公司 | 文本语义识别方法、装置、设备及存储介质 |
CN116070638A (zh) * | 2023-01-03 | 2023-05-05 | 广东工业大学 | 一种中文语句特征构造的训练更新方法及系统 |
WO2023173593A1 (zh) * | 2022-03-16 | 2023-09-21 | 青岛海尔科技有限公司 | 文本分类方法、文本分类装置、存储介质及电子装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107346340A (zh) * | 2017-07-04 | 2017-11-14 | 北京奇艺世纪科技有限公司 | 一种用户意图识别方法及系统 |
CN108427722A (zh) * | 2018-02-09 | 2018-08-21 | 卫盈联信息技术(深圳)有限公司 | 智能交互方法、电子装置及存储介质 |
CN108446271A (zh) * | 2018-03-07 | 2018-08-24 | 中山大学 | 基于汉字部件特征的卷积神经网络的文本情感分析方法 |
CN109388705A (zh) * | 2017-08-07 | 2019-02-26 | 芋头科技(杭州)有限公司 | 一种文本意图分类方法 |
CN109684626A (zh) * | 2018-11-16 | 2019-04-26 | 深思考人工智能机器人科技(北京)有限公司 | 语义识别方法、模型、存储介质和装置 |
CN111159375A (zh) * | 2019-12-27 | 2020-05-15 | 深圳前海微众银行股份有限公司 | 一种文本处理方法及装置 |
-
2020
- 2020-12-16 CN CN202011489791.0A patent/CN112464674A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107346340A (zh) * | 2017-07-04 | 2017-11-14 | 北京奇艺世纪科技有限公司 | 一种用户意图识别方法及系统 |
CN109388705A (zh) * | 2017-08-07 | 2019-02-26 | 芋头科技(杭州)有限公司 | 一种文本意图分类方法 |
CN108427722A (zh) * | 2018-02-09 | 2018-08-21 | 卫盈联信息技术(深圳)有限公司 | 智能交互方法、电子装置及存储介质 |
CN108446271A (zh) * | 2018-03-07 | 2018-08-24 | 中山大学 | 基于汉字部件特征的卷积神经网络的文本情感分析方法 |
CN109684626A (zh) * | 2018-11-16 | 2019-04-26 | 深思考人工智能机器人科技(北京)有限公司 | 语义识别方法、模型、存储介质和装置 |
CN111159375A (zh) * | 2019-12-27 | 2020-05-15 | 深圳前海微众银行股份有限公司 | 一种文本处理方法及装置 |
Non-Patent Citations (1)
Title |
---|
王雅君: "基于RASA的智能语音对话系统", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113326354A (zh) * | 2021-06-29 | 2021-08-31 | 招商局金融科技有限公司 | 文本语义识别方法、装置、设备及存储介质 |
WO2023173593A1 (zh) * | 2022-03-16 | 2023-09-21 | 青岛海尔科技有限公司 | 文本分类方法、文本分类装置、存储介质及电子装置 |
CN116070638A (zh) * | 2023-01-03 | 2023-05-05 | 广东工业大学 | 一种中文语句特征构造的训练更新方法及系统 |
CN116070638B (zh) * | 2023-01-03 | 2023-09-08 | 广东工业大学 | 一种中文语句特征构造的训练更新方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107291693B (zh) | 一种改进词向量模型的语义计算方法 | |
CN108875807B (zh) | 一种基于多注意力多尺度的图像描述方法 | |
CN106847288B (zh) | 语音识别文本的纠错方法与装置 | |
CN112464674A (zh) | 一种字级别的文本意图识别方法 | |
CN108549658B (zh) | 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统 | |
CN112818861B (zh) | 一种基于多模态上下文语义特征的情感分类方法及系统 | |
CN110222163A (zh) | 一种融合cnn与双向lstm的智能问答方法及系统 | |
CN111858932A (zh) | 基于Transformer的多重特征中英文情感分类方法及系统 | |
CN112269868B (zh) | 一种基于多任务联合训练的机器阅读理解模型的使用方法 | |
CN108197294A (zh) | 一种基于深度学习的文本自动生成方法 | |
CN110134968A (zh) | 基于深度学习的诗歌生成方法、装置、设备及存储介质 | |
CN111753207B (zh) | 一种基于评论的神经图协同过滤方法 | |
CN113657115B (zh) | 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法 | |
CN113255366B (zh) | 一种基于异构图神经网络的方面级文本情感分析方法 | |
CN109614611B (zh) | 一种融合生成非对抗网络与卷积神经网络的情感分析方法 | |
CN115422939B (zh) | 一种基于大数据的细粒度商品命名实体识别方法 | |
CN115017299A (zh) | 一种基于去噪图自编码器的无监督社交媒体摘要方法 | |
CN111274412A (zh) | 信息提取方法、信息提取模型训练方法、装置及存储介质 | |
CN112860896A (zh) | 语料泛化方法及用于工业领域的人机对话情感分析方法 | |
CN110705298A (zh) | 一种改进的前缀树与循环神经网络结合的领域分类方法 | |
CN114708474A (zh) | 一种融合局部和全局特征的图像语义理解算法 | |
CN114265937A (zh) | 科技情报的智能分类分析方法、系统、存储介质及服务器 | |
CN111858933A (zh) | 基于字符的层次化文本情感分析方法及系统 | |
CN113076744A (zh) | 一种基于卷积神经网络的文物知识关系抽取方法 | |
CN116705073A (zh) | 一种基于双模态与注意力机制的语音情感识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210309 |
|
RJ01 | Rejection of invention patent application after publication |