CN107291822B - 基于深度学习的问题分类模型训练方法、分类方法及装置 - Google Patents

基于深度学习的问题分类模型训练方法、分类方法及装置 Download PDF

Info

Publication number
CN107291822B
CN107291822B CN201710375175.4A CN201710375175A CN107291822B CN 107291822 B CN107291822 B CN 107291822B CN 201710375175 A CN201710375175 A CN 201710375175A CN 107291822 B CN107291822 B CN 107291822B
Authority
CN
China
Prior art keywords
feature vector
sample
vector sample
classification model
fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710375175.4A
Other languages
English (en)
Other versions
CN107291822A (zh
Inventor
鄂海红
宋美娜
王昕睿
胡莺夕
赵鑫禄
白杨
王宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201710375175.4A priority Critical patent/CN107291822B/zh
Publication of CN107291822A publication Critical patent/CN107291822A/zh
Application granted granted Critical
Publication of CN107291822B publication Critical patent/CN107291822B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于深度学习的问题分类模型训练方法、问题分类方法以及装置。其中问题分类模型训练方法包括:提取问题文本样本中的特征信息样本,并生成对应的第一特征向量样本;对第一特征向量样本进行空间变换,得到第二特征向量样本;将第二特征向量样本输入至多层卷积神经网络中的多个卷积层和多个池化层,以通过叠加卷积操作和池化操作,得到第一融合特征向量样本;将第一融合特征向量样本输入至多层卷积神经网络中的全连接层,得到全局特征向量样本;根据全局特征向量样本对Softmax分类器进行训练,得到问题分类模型。该方法可免去大量人工设计特征的开销,通过该问题分类模型可以得到更加准确的分类结果,提高了标准问题与答案的定位。

Description

基于深度学习的问题分类模型训练方法、分类方法及装置
技术领域
本发明涉及计算机与互联网技术领域,尤其涉及一种基于深度学习的问题分类模型训练方法、问题分类方法以及装置。
背景技术
目前的问答系统面临人力资源消耗大、响应不及时等缺陷。自动问答系统的目标是在给定问题情况下,给出简短、精确的答案,无论是业界应用还是学术研究,问句的真实意图分析、问句与答案之间的匹配关系判别仍然是制约自动问答系统性能的两个关键难题。众所周知,问题分类根据预期答案对问题进行分类,可快速定位标准问题与答案的大概位置。所以,问题分类是自动问答系统中分析问句真实意图、判别问句与答案匹配关系的重要模块,问题分类的效率和精度显著地影响着问答系统的性能。
相关技术中,目前的问题分类研究大多基于机器学习的方法,致力于从问题中提取词法、句法、语义特征,研究在人工定义特征之上的关系学习,模型的效果很依赖特征的设计,然后应用例如朴素贝叶斯、决策树、支持向量机、最大熵等各种监督学习的方法来构建分类器,进而进行预测。
但是,目前存在的问题是,机器学习需要人工提取特征,模型的精度很依赖特征的设计,并且,问答系统中用户的输入问题通常属于短文本且用词多样、随意、不规范,人工提取特征很难提取到丰富的语义特征,而且设计的特征不具备通用性,从而导致问题的分类结果不准确,进而影响标准问题与答案的定位,导致用户体验变差。
发明内容
本发明的目的旨在至少在一定程度上解决上述的技术问题之一。
为此,本发明的第一个目的在于提出一种基于深度学习的问题分类模型训练方法。该方法利用深度学习方法,可以自动从原始数据中抽取特征,免去了大量人工设计特征的开销,并且通过该问题分类模型对用户的输入问题进行预测,可以得到更加准确的分类结果,提高了标准问题与答案的定位,提升了用户体验。
本发明的第二个目的在于提出一种问题分类方法。
本发明的第三个目的在于提出一种基于深度学习的问题分类模型训练装置。
本发明的第四个目的在于提出一种问题分类装置。
为达到上述目的,本发明第一方面实施例提出的基于深度学习的问题分类模型训练方法,包括:获取问题文本样本;提取所述问题文本样本中的特征信息样本,并根据所述特征信息样本生成对应的第一特征向量样本;对所述第一特征向量样本进行空间变换,得到第二特征向量样本;将所述第二特征向量样本输入至多层卷积神经网络中的多个卷积层和多个池化层,以通过叠加卷积操作和池化操作,得到第一融合特征向量样本;将所述第一融合特征向量样本输入至所述多层卷积神经网络中的全连接层,得到全局特征向量样本;根据所述全局特征向量样本对Softmax分类器进行训练,得到所述问题分类模型。
根据本发明实施例的基于深度学习的问题分类模型训练方法,可获取问题文本样本,之后,提取问题文本样本中的特征信息样本,并根据特征信息样本生成对应的第一特征向量样本,然后,对第一特征向量样本进行空间变换,得到第二特征向量样本,之后,将第二特征向量样本输入至多层卷积神经网络中的多个卷积层和多个池化层,以通过叠加卷积操作和池化操作,得到第一融合特征向量样本,然后,将第一融合特征向量样本输入至多层卷积神经网络中的全连接层,得到全局特征向量样本,最后,根据全局特征向量样本对Softmax分类器进行训练,得到问题分类模型。即利用深度学习方法,可以自动从原始数据中抽取特征,免去了大量人工设计特征的开销,而且特征的抽取过程是模型的一部分,根据训练数据的不同,可以方便适配,使得训练出的问题分类模型更加符合实际需求,进而通过本发明实施例的问题分类模型对用户的输入问题进行预测,可以得到更加准确的分类结果,提高了标准问题与答案的定位,提升了用户体验。
为达到上述目的,本发明第二方面实施例提出的通过使用本发明第一方面实施例所述的问题分类模型进行问题分类的方法,包括:获取用户的输入问题;
对所述输入问题进行分词处理,并将分词处理后的输入问题输入至所述问题分类模型进行预测,确定所述输入问题所属的分类类别。
根据本发明实施例的问题分类方法,通过本发明实施例的问题分类模型对用户的输入问题进行预测,可以得到更加准确的分类结果,提高了标准问题与答案的定位,提升了用户体验。
为达到上述目的,本发明第三方面实施例提出的基于深度学习的问题分类模型训练装置,包括:获取模块,用于获取问题文本样本;特性向量生成模块,用于提取所述问题文本样本中的特征信息样本,并根据所述特征信息样本生成对应的第一特征向量样本;空间变换模块,用于对所述第一特征向量样本进行空间变换,得到第二特征向量样本;第一特征融合模块,用于将所述第二特征向量样本输入至多层卷积神经网络中的多个卷积层和多个池化层,以通过叠加卷积操作和池化操作,得到第一融合特征向量样本;全连接网络模块,用于将所述第一融合特征向量样本输入至所述多层卷积神经网络中的全连接层,得到全局特征向量样本;训练模块,用于根据所述全局特征向量样本对Softmax分类器进行训练,得到所述问题分类模型。
根据本发明实施例的基于深度学习的问题分类模型训练装置,可通过获取模块获取问题文本样本,特性向量生成模块提取问题文本样本中的特征信息样本,并根据特征信息样本生成对应的第一特征向量样本,空间变换模块对第一特征向量样本进行空间变换,得到第二特征向量样本,第一特征融合模块将第二特征向量样本输入至多层卷积神经网络中的多个卷积层和多个池化层,以通过叠加卷积操作和池化操作,得到第一融合特征向量样本,全连接网络模块将第一融合特征向量样本输入至多层卷积神经网络中的全连接层,得到全局特征向量样本,训练模块根据全局特征向量样本对Softmax分类器进行训练,得到问题分类模型。即利用深度学习方法,可以自动从原始数据中抽取特征,免去了大量人工设计特征的开销,而且特征的抽取过程是模型的一部分,根据训练数据的不同,可以方便适配,使得训练出的问题分类模型更加符合实际需求,进而通过本发明实施例的问题分类模型对用户的输入问题进行预测,可以得到更加准确的分类结果,提高了标准问题与答案的定位,提升了用户体验。
为达到上述目的,本发明第四方面实施例提出的通过使用本发明第三方面实施例所述的问题分类模型进行问题分类的装置,包括:获取模块,用于获取用户的输入问题;分词模块,用于对所述输入问题进行分词处理;分类预测模块,用于将分词处理后的输入问题输入至所述问题分类模型进行预测,确定所述输入问题所属的分类类别。
根据本发明实施例的问题分类装置,通过本发明实施例的问题分类模型对用户的输入问题进行预测,可以得到更加准确的分类结果,提高了标准问题与答案的定位,提升了用户体验。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本发明一个实施例的基于深度学习的问题分类模型训练方法的流程图;
图2是根据本发明实施例的多粒度卷积核的卷积操作的示例图;
图3是根据本发明一个具体实施例的基于深度学习的问题分类模型训练方法的流程图;
图4是根据本发明实施例的多层融合卷积神经网络模型的示例图;
图5是根据本发明一个实施例的基于深度学习的问题分类模型训练装置的结构示意图;
图6是根据本发明一个具体实施例的基于深度学习的问题分类模型训练装置的结构示意图;
图7是根据本发明一个实施例的问题分类方法的流程图;
图8是根据本发明一个实施例的问题分类装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述根据本发明实施例的基于深度学习的问题分类模型训练方法、问题分类方法、以及装置。
图1是根据本发明一个实施例的基于深度学习的问题分类模型训练方法的流程图。需要说明的是,本发明实施例的基于深度学习的问题分类模型训练方法可应用于本发明实施例的基于深度学习的问题分类模型训练装置,其中,该问题分类模型训练装置可被配置于问答系统中。
如图1所示,该基于深度学习的问题分类模型训练方法可以包括:
S110,获取问题文本样本。
例如,假设本发明实施例的基于深度学习的问题分类模型训练方法可应用于问答系统,该问答系统的应用场景可为网站售后服务中心,这样,可根据实际应用场景,从互联网或者其他途径中获取针对与该应用场景相关的问题文本样本,比如,可获取与售后服务相关的问题文本样本,如关于如何退换货、退款等问题。
S120,提取问题文本样本中的特征信息样本,并根据特征信息样本生成对应的第一特征向量样本。
具体地,可先对问题文本样本进行预处理,例如,可对该问题文本样本进行非法字符过滤,并通过语言模型进行错误自动纠正,之后,可对进行预处理后的问题文本样本进行分词处理,然后,从分词处理后的问题文本样本中提取特征信息样本,并根据特征信息样本生成对应的第一特征向量样本。其中,将特征信息样本生成对应的第一特征向量样本的方式有很多种,作为一种示例,可通过词向量Word2Vec生成工具,将该特征信息样本生成对应的第一特征向量样本。
S130,对第一特征向量样本进行空间变换,得到第二特征向量样本。
可以理解,问答系统中用户的输入问题大多是短文本,具有字长有限性、字符随机出现的不规范性及时间独立性、快速响应等特点。因此,为了能够提取更丰富的信息,在本步骤中,可提出空间变换卷积神经网络,在得到第一特征向量样本之后,可通过空间变换卷积神经网络,对该第一特征向量样本进行空间变换,得到第二特征向量样本。由此,通过对特征向量进行空间变换,突破了卷积神经网络空间不变性的限制,实现了卷积神经网络的大范围空间变化,实现对非顺序信息的抽取,使得在短文本中提取更充分的信息。
S140,将第二特征向量样本输入至多层卷积神经网络中的多个卷积层和多个池化层,以通过叠加卷积操作和池化操作,得到第一融合特征向量样本。
具体地,在对第一特征向量样本进行空间变换以得到第二特征向量样本之后,可将该第二特征向量样本输入到多层卷积神经网络中的多个卷积层和多个池化层,使得通过多个卷积层和多个池化层分别进行卷积操作和池化操作以实现特征融合,即得到第一融合特征向量样本。
需要说明的是,由于考虑到用户的输入问题文本大多较短、自言语言描述不规范等特点,若采用传统卷积神经网络线性方式提取到的特征不够充分,而Garbor核函数的卷积操作能抽取空间局频度特征。为此,本发明实施例采用了基于Garbor核函数的卷积神经网络。作为一种示例,该卷积层可为基于Garbor核函数的卷积神经网络。其中,在本示例中,Garbor核函数通过以下公式表示:
Figure BDA0001303805180000051
其中,guv(x,y)为Garbor核函数,x和y分别为核的中心点,i为复数的虚部,k为高斯核的幅度的比例,
Figure BDA0001303805180000052
其中,v为gabor滤波的波长,u为gabor核函数的方向,K为总的方向数,
Figure BDA0001303805180000053
并且
Figure BDA0001303805180000054
表示滤波器的高度。
由此,本发明实施例的卷积层采用Garbor核函数的卷积神经网络,一方面符合卷积操作的局部特征提取,另一方面有助于在频域上挖掘特征,有效补充问题文本的非线性特征。
S150,将第一融合特征向量样本输入至多层卷积神经网络中的全连接层,得到全局特征向量样本。
S160,根据全局特征向量样本对Softmax分类器进行训练,得到问题分类模型。
为了使得特征向量能够越来越精准地表达其语义信息,提高问题分类准确度,进一步地,在本发明的一个实施例中,上述提取问题文本样本中的特征信息样本,并根据特征信息样本生成对应的第一特征向量样本的具体实现方式可如下:基于多通道卷积神经网络,提取问题文本样本中的特征信息样本,并根据特征信息样本生成对应的第一特征向量样本。
需要说明的是,传统神经网络通常使用单通道的词嵌入层作为输入,且该嵌入层在模型训练过程中会被动态修改以更好的表达适应于场景的语义。然而,目前并不能对此改动进行定量分析,为了避免修改过度,造成语义有较大偏差,本发明实施例采用多通道嵌入层,均衡原始语义信息和动态修改的语义信息,使得优化的向量能越来越精准地表达其语义信息。作为一种示例,该通道的个数可为2个。也就是说,可基于双通道卷积神经网络,提取问题文本样本中的特征信息样本,并根据特征信息样本生成对应的第一特征向量样本。
同时考虑到传统卷积神经网络在同一隐藏层中只存在单一粒度的卷积核(即单个卷积层),而由于用户的输入问题文本字长有限性使得问题文本中所含信息较少。因此,本发明实施例采用多粒度的卷积核(即采用了多个卷积层)挖掘问题中更多的隐含特征。例如,如图2所示,通过静态嵌入层、和动态嵌入层提取问题文本样本中的特征信息样本,并根据特征信息样本生成对应的第一特征向量样本之后,可对该第一特征向量样本进行多粒度卷积核的卷积操作,进而可以挖掘到问题文本样本中更多的隐含特征。
根据本发明实施例的基于深度学习的问题分类模型训练方法,可获取问题文本样本,之后,提取问题文本样本中的特征信息样本,并根据特征信息样本生成对应的第一特征向量样本,然后,对第一特征向量样本进行空间变换,得到第二特征向量样本,之后,将第二特征向量样本输入至多层卷积神经网络中的多个卷积层和多个池化层,以通过叠加卷积操作和池化操作,得到第一融合特征向量样本,然后,将第一融合特征向量样本输入至多层卷积神经网络中的全连接层,得到全局特征向量样本,最后,根据全局特征向量样本对Softmax分类器进行训练,得到问题分类模型。即利用深度学习方法,可以自动从原始数据中抽取特征,免去了大量人工设计特征的开销,而且特征的抽取过程是模型的一部分,根据训练数据的不同,可以方便适配,使得训练出的问题分类模型更加符合实际需求,进而通过本发明实施例的问题分类模型对用户的输入问题进行预测,可以得到更加准确的分类结果,提高了标准问题与答案的定位,提升了用户体验。
图3是根据本发明一个具体实施例的基于深度学习的问题分类模型训练方法的流程图。
需要说明的是,卷积神经网络可通过叠加卷积操作、池化操作实现特征融合,然而,中间隐藏层包含的部分信息会因池化被丢弃,为了充分利用特征信息,应考虑对损失的信息进行后期融合,即在本发明的实施例中,在得到第一融合特征向量样本之后,还可分别将进行卷积操作和池化操作输出的中间隐藏层中的特征向量样本,通过加权计算进行特征融合,得到第二融合特征向量样本。具体地,如图3所示,该基于深度学习的问题分类模型训练方法可以包括:
S310,获取问题文本样本。
S320,提取问题文本样本中的特征信息样本,并根据特征信息样本生成对应的第一特征向量样本。
S330,对第一特征向量样本进行空间变换,得到第二特征向量样本。
S340,将第二特征向量样本输入至多层卷积神经网络中的多个卷积层和多个池化层,以通过叠加卷积操作和池化操作,得到第一融合特征向量样本。
作为一种示例,该卷积层可为基于Garbor核函数的卷积神经网络。其中,在本示例中,Garbor核函数通过以下公式表示:
Figure BDA0001303805180000071
其中,guv(x,y)为Garbor核函数,x和y分别为核的中心点,i为复数的虚部,k为高斯核的幅度的比例,
Figure BDA0001303805180000072
其中,v为gabor滤波的波长,u为gabor核函数的方向,K为总的方向数,
Figure BDA0001303805180000073
并且
Figure BDA0001303805180000074
表示滤波器的高度。
S350,分别将进行卷积操作和池化操作输出的中间隐藏层中的特征向量样本,通过加权计算进行特征融合,得到第二融合特征向量样本。
具体地,在得到第一融合特征向量样本之后,还可分别将卷积操作、池化操作输出的中间隐藏层通过PCA(Principal Component Analysis,主成分分析)降维,之后,对进行PCA降维后的特征向量样本进行加权平均,最终得到第二融合特征向量样本。
S360,将第一融合特征向量样本和第二融合特征向量样本输入至多层卷积神经网络中的全连接层,得到全局特征向量样本。
S370,根据全局特征向量样本对Softmax分类器进行训练,得到问题分类模型。
举例而言,假设本发明实施例可提出一种多层融合卷积神经网络模型,如图4所示,在获取到问题文本样本之后,可通过多通道卷积神经网络,提取问题文本样本中的特征信息样本,并根据特征信息样本生成对应的第一特征向量样本,之后,可对该第一特征向量样本进行空间变换,得到第二特征向量样本,然后,将该第二特征向量样本输入到多个卷积层和多个池化层,以通过叠加卷积操作和池化操作,得到第一融合特征向量样本,并分别将进行卷积操作和池化操作输出的中间隐藏层中的特征向量样本,通过加权平均计算进行特征融合,得到第二融合特征向量样本,然后,将第一融合特征向量样本和第二融合特征向量样本输入至多层卷积神经网络中的全连接层,得到全局特征向量样本,最后,根据全局特征向量样本对Softmax分类器进行训练,最终得到问题分类模型。
根据本发明实施例的基于深度学习的问题分类模型训练方法,在得到第一融合特征向量样本之后,还可分别将进行卷积操作和池化操作输出的中间隐藏层中的特征向量样本,通过加权计算进行特征融合,得到第二融合特征向量样本,由此,本发明实施例考虑了对中间隐藏层包含的信息进行后期融合,充分利用了特征信息,这样,使得训练出的问题分类模型效果更好。
与上述几种实施例提供的基于深度学习的问题分类模型训练方法相对应,本发明的一种实施例还提供一种基于深度学习的问题分类模型训练装置,由于本发明实施例提供的基于深度学习的问题分类模型训练装置与上述几种实施例提供的基于深度学习的问题分类模型训练方法相对应,因此在前述基于深度学习的问题分类模型训练方法的实施方式也适用于本实施例提供的基于深度学习的问题分类模型训练装置,在本实施例中不再详细描述。图5是根据本发明一个实施例的基于深度学习的问题分类模型训练装置的结构示意图。如图5所示,该基于深度学习的问题分类模型训练装置可以包括:获取模块510、特性向量生成模块520、空间变换模块530、第一特征融合模块540、全连接网络模块550和训练模块560。
具体地,获取模块510用于获取问题文本样本。
特性向量生成模块520用于提取问题文本样本中的特征信息样本,并根据特征信息样本生成对应的第一特征向量样本。
空间变换模块530用于对第一特征向量样本进行空间变换,得到第二特征向量样本。
第一特征融合模块540用于将第二特征向量样本输入至多层卷积神经网络中的多个卷积层和多个池化层,以通过叠加卷积操作和池化操作,得到第一融合特征向量样本。作为一种示例,该卷积层可为基于Garbor核函数的卷积神经网络。其中,在本示例中,该Garbor核函数可通过以下公式表示:
Figure BDA0001303805180000081
其中,guv(x,y)为Garbor核函数,x和y分别为核的中心点,i为复数的虚部,k为高斯核的幅度的比例,
Figure BDA0001303805180000082
其中,v为gabor滤波的波长,u为gabor核函数的方向,K为总的方向数,
Figure BDA0001303805180000083
并且
Figure BDA0001303805180000084
表示滤波器的高度。
全连接网络模块550用于将第一融合特征向量样本输入至多层卷积神经网络中的全连接层,得到全局特征向量样本。
训练模块560用于根据全局特征向量样本对Softmax分类器进行训练,得到问题分类模型。
为了使得特征向量能够越来越精准地表达其语义信息,提高问题分类准确度,进一步地,在本发明的一个实施例中,特性向量生成模块520可基于多通道卷积神经网络,提取问题文本样本中的特征信息样本,并根据特征信息样本生成对应的第一特征向量样本。作为一种示例,该通道的个数可为2个。
需要说明的是,卷积神经网络可通过叠加卷积操作、池化操作实现特征融合,然而,中间隐藏层包含的部分信息会因池化被丢弃,为了充分利用特征信息,应考虑对损失的信息进行后期融合,进一步地,在本发明的一个实施例中,如图6所示,该基于深度学习的问题分类模型训练装置还可包括:第二特征融合模块570。其中,第二特征融合模块570可用于在将第二特征向量样本输入至多层卷积神经网络中的多个卷积层和多个池化层,以通过叠加卷积操作和池化操作,得到第一融合特征向量样本之后,分别将进行卷积操作和池化操作输出的中间隐藏层中的特征向量样本,通过加权计算进行特征融合,得到第二融合特征向量样本。
其中,在本实施例中,全连接网络模块550可将第一融合特征向量样本和第二融合特征向量样本输入至多层卷积神经网络中的全连接层,得到全局特征向量样本。由此,本发明实施例考虑了对中间隐藏层包含的信息进行后期融合,充分利用了特征信息,这样,使得训练出的问题分类模型效果更好。
根据本发明实施例的基于深度学习的问题分类模型训练装置,可通过获取模块获取问题文本样本,特性向量生成模块提取问题文本样本中的特征信息样本,并根据特征信息样本生成对应的第一特征向量样本,空间变换模块对第一特征向量样本进行空间变换,得到第二特征向量样本,第一特征融合模块将第二特征向量样本输入至多层卷积神经网络中的多个卷积层和多个池化层,以通过叠加卷积操作和池化操作,得到第一融合特征向量样本,全连接网络模块将第一融合特征向量样本输入至多层卷积神经网络中的全连接层,得到全局特征向量样本,训练模块根据全局特征向量样本对Softmax分类器进行训练,得到问题分类模型。即利用深度学习方法,可以自动从原始数据中抽取特征,免去了大量人工设计特征的开销,而且特征的抽取过程是模型的一部分,根据训练数据的不同,可以方便适配,使得训练出的问题分类模型更加符合实际需求,进而通过本发明实施例的问题分类模型对用户的输入问题进行预测,可以得到更加准确的分类结果,提高了标准问题与答案的定位,提升了用户体验。
需要说明的是,本发明上述实施例介绍了一种基于深度学习的问题分类模型训练方法以及装置。在实际应用中,可将本发明实施例的问题分类模型应用到问题分类方法中,即可通过使用本发明实施例的问题分类模型进行问题分类。也就是说,本发明还提出了一种问题分类方法,该问题分类方法可通过使用本发明上述任一个实施例所述的问题分类模型进行问题分类。具体地,图7是根据本发明一个实施例的问题分类方法的流程图。
需要说明的是,本发明实施例通过使用本发明上述任一个实施例所述的问题分类模型进行问题分类。具体地,如图7所示,该问题分类方法可以包括:
S710,获取用户的输入问题。
举例而言,假设本发明实施例的问题分类方法可应用于问答系统中,该问答系统可为用户提供人机交互界面,用户可通过该人机交互界面实现提问题以及获得问题的答案等。为此,可获取用户通过该人机交互界面输入的输入问题。
需要说明的是,在本发明的实施例中,该输入问题可以是语音,还可以是文本,如果该输入问题为语音,则在对该输入问题进行分词处理之前,可先对该输入问题进行语音识别,以将该语音转换识别成对应的文本。
S720,对输入问题进行分词处理,并将分词处理后的输入问题输入至问题分类模型进行预测,确定输入问题所属的分类类别。
具体地,在获取到用户的输入问题之后,可先对该输入问题非法字符过滤,并通过语言模型进行错误自动纠正,之后,可对进行预处理后的输入问题进行分词处理,然后,将分词处理后的输入问题输入到问题分类模型中以进行预测,最终确定出该输入问题所属的分类类别,即该输入问题所属哪一种分类类别。需要说明的是,本步骤中的问题分类模型是通过本发明实施例的基于深度学习的问题分类模型训练方法得到的。
根据本发明实施例的问题分类方法,通过本发明实施例的问题分类模型对用户的输入问题进行预测,可以得到更加准确的分类结果,提高了标准问题与答案的定位,提升了用户体验。
与上述几种实施例提供的问题分类方法相对应,本发明的一种实施例还提供一种问题分类装置,由于本发明实施例提供的问题分类装置与上述几种实施例提供的问题分类方法相对应,因此在前述问题分类方法的实施方式也适用于本实施例提供的问题分类装置,在本实施例中不再详细描述。图8是根据本发明一个实施例的问题分类装置的结构示意图。
需要说明的是,本发明实施例通过使用本发明上述任一个实施例所述的问题分类模型进行问题分类。具体地,如图8所示,该问题分类装置可以包括:获取模块810、分词模块820和分类预测模块830。
具体地,获取模块810用于获取用户的输入问题。
分词模块820用于对输入问题进行分词处理。
分类预测模块830用于将分词处理后的输入问题输入至问题分类模型进行预测,确定输入问题所属的分类类别。
根据本发明实施例的问题分类装置,通过本发明实施例的问题分类模型对用户的输入问题进行预测,可以得到更加准确的分类结果,提高了标准问题与答案的定位,提升了用户体验。
在本发明的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (8)

1.一种基于深度学习的问题分类模型训练方法,其特征在于,包括以下步骤:
获取问题文本样本;
基于多通道卷积神经网络,提取所述问题文本样本中的特征信息样本,并根据所述特征信息样本生成对应的第一特征向量样本;
对所述第一特征向量样本进行空间变换,得到第二特征向量样本;
将所述第二特征向量样本输入至多层卷积神经网络中的多个卷积层和多个池化层,以通过叠加卷积操作和池化操作,得到第一融合特征向量样本;
分别将进行卷积操作和池化操作输出的中间隐藏层中的特征向量样本,通过加权计算进行特征融合,得到第二融合特征向量样本;
将所述第一融合特征向量样本和所述第二融合特征向量样本输入至所述多层卷积神经网络中的全连接层,得到全局特征向量样本;
根据所述全局特征向量样本对Softmax分类器进行训练,得到所述问题分类模型。
2.如权利要求1所述的方法,其特征在于,其中,所述通道的个数为2个。
3.如权利要求1所述的方法,其特征在于,所述卷积层为基于Garbor核函数的卷积神经网络;其中,所述Garbor核函数通过以下公式表示:
Figure FDA0002361485760000011
其中,guv(x,y)为所述Garbor核函数,x和y分别为核的中心点,i为复数的虚部,k为高斯核的幅度的比例,
Figure FDA0002361485760000012
其中,v为gabor滤波的波长,u为gabor核函数的方向,K为总的方向数,
Figure FDA0002361485760000013
并且
Figure FDA0002361485760000014
表示滤波器的高度。
4.一种通过使用如权利要求1至3中任一项所述的基于深度学习的问题分类模型训练方法中的问题分类模型进行问题分类的方法,其特征在于,包括以下步骤:
获取用户的输入问题;
对所述输入问题进行分词处理,并将分词处理后的输入问题输入至所述问题分类模型进行预测,确定所述输入问题所属的分类类别。
5.一种基于深度学习的问题分类模型训练装置,其特征在于,包括:
获取模块,用于获取问题文本样本;
特性向量生成模块,用于基于多通道卷积神经网络,提取所述问题文本样本中的特征信息样本,并根据所述特征信息样本生成对应的第一特征向量样本;
空间变换模块,用于对所述第一特征向量样本进行空间变换,得到第二特征向量样本;
第一特征融合模块,用于将所述第二特征向量样本输入至多层卷积神经网络中的多个卷积层和多个池化层,以通过叠加卷积操作和池化操作,得到第一融合特征向量样本;
第二特征融合模块,用于在将所述第二特征向量样本输入至多层卷积神经网络中的多个卷积层和多个池化层,以通过叠加卷积操作和池化操作,得到第一融合特征向量样本之后,分别将进行卷积操作和池化操作输出的中间隐藏层中的特征向量样本,通过加权计算进行特征融合,得到第二融合特征向量样本;
全连接网络模块,用于将所述第一融合特征向量样本和所述第二融合特征向量样本输入至所述多层卷积神经网络中的全连接层,得到全局特征向量样本;
训练模块,用于根据所述全局特征向量样本对Softmax分类器进行训练,得到所述问题分类模型。
6.如权利要求5所述的装置,其特征在于,其中,所述通道的个数为2个。
7.如权利要求5所述的装置,其特征在于,所述卷积层为基于Garbor核函数的卷积神经网络;其中,所述Garbor核函数通过以下公式表示:
Figure FDA0002361485760000021
其中,guv(x,y)为所述Garbor核函数,x和y分别为核的中心点,i为复数的虚部,k为高斯核的幅度的比例,
Figure FDA0002361485760000022
其中,v为gabor滤波的波长,u为gabor核函数的方向,K为总的方向数,
Figure FDA0002361485760000023
并且
Figure FDA0002361485760000024
表示滤波器的高度。
8.一种通过使用如权利要求5至7中任一项所述的基于深度学习的问题分类模型训练装置中的问题分类模型进行问题分类的装置,其特征在于,包括:
获取模块,用于获取用户的输入问题;
分词模块,用于对所述输入问题进行分词处理;
分类预测模块,用于将分词处理后的输入问题输入至所述问题分类模型进行预测,确定所述输入问题所属的分类类别。
CN201710375175.4A 2017-05-24 2017-05-24 基于深度学习的问题分类模型训练方法、分类方法及装置 Active CN107291822B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710375175.4A CN107291822B (zh) 2017-05-24 2017-05-24 基于深度学习的问题分类模型训练方法、分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710375175.4A CN107291822B (zh) 2017-05-24 2017-05-24 基于深度学习的问题分类模型训练方法、分类方法及装置

Publications (2)

Publication Number Publication Date
CN107291822A CN107291822A (zh) 2017-10-24
CN107291822B true CN107291822B (zh) 2020-03-24

Family

ID=60094034

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710375175.4A Active CN107291822B (zh) 2017-05-24 2017-05-24 基于深度学习的问题分类模型训练方法、分类方法及装置

Country Status (1)

Country Link
CN (1) CN107291822B (zh)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107943967B (zh) * 2017-11-28 2020-05-22 华南理工大学 基于多角度卷积神经网络与循环神经网络的文本分类算法
CN108052577B (zh) 2017-12-08 2022-06-14 北京百度网讯科技有限公司 一种通用文本内容挖掘方法、装置、服务器及存储介质
CN108304530B (zh) * 2018-01-26 2022-03-18 腾讯科技(深圳)有限公司 知识库词条分类方法和装置、模型训练方法和装置
CN108537773B (zh) * 2018-02-11 2022-06-17 中国科学院苏州生物医学工程技术研究所 针对胰腺癌与胰腺炎性疾病进行智能辅助鉴别的方法
CN108563951B (zh) * 2018-04-13 2023-03-24 腾讯科技(深圳)有限公司 病毒检测方法及装置
CN108628993B (zh) * 2018-04-28 2021-01-05 国家基础地理信息中心 电子地图自适应分类方法、装置、设备及存储介质
CN108846138B (zh) * 2018-07-10 2022-06-07 苏州大学 一种融合答案信息的问题分类模型构建方法、装置和介质
CN109065154B (zh) * 2018-07-27 2021-04-30 清华大学 一种决策结果确定方法、装置、设备及可读存储介质
CN109189902B (zh) * 2018-08-09 2020-10-16 珠海格力电器股份有限公司 自动应答咨询的方法及装置
CN109308319B (zh) * 2018-08-21 2022-03-01 深圳中兴网信科技有限公司 文本分类方法、文本分类装置和计算机可读存储介质
CN109284406B (zh) * 2018-09-03 2021-12-03 四川长虹电器股份有限公司 基于差异循环神经网络的意图识别方法
CN111160817B (zh) * 2018-11-07 2024-03-05 北京京东振世信息技术有限公司 货品验收方法及系统、计算机系统和计算机可读存储介质
CN109739956B (zh) * 2018-11-08 2020-04-10 第四范式(北京)技术有限公司 语料清洗方法、装置、设备及介质
CN109471944B (zh) * 2018-11-12 2021-07-16 中山大学 文本分类模型的训练方法、装置及可读存储介质
CN111259138A (zh) * 2018-11-15 2020-06-09 航天信息股份有限公司 一种税务领域短文本的情感分类方法及装置
CN109582793B (zh) * 2018-11-23 2023-05-23 深圳前海微众银行股份有限公司 模型训练方法、客服系统及数据标注系统、可读存储介质
CN109783622A (zh) * 2018-12-20 2019-05-21 出门问问信息科技有限公司 一种基于问题分类确定问题答案方法、装置及电子设备
CN109766848B (zh) * 2019-01-15 2022-05-03 四川大学 一种基于监控视频的行人视力状况调查分析方法
CN109522973A (zh) * 2019-01-17 2019-03-26 云南大学 基于生成式对抗网络与半监督学习的医疗大数据分类方法及系统
CN109871448B (zh) * 2019-03-12 2023-08-15 苏州大学 一种短文本分类的方法及系统
CN112015872A (zh) * 2019-05-29 2020-12-01 华为技术有限公司 问句识别方法及装置
CN110348299B (zh) * 2019-06-04 2022-06-10 上海交通大学 三维物体的识别方法
CN110363239B (zh) * 2019-07-04 2021-08-13 中国人民解放军国防科技大学 一种面向多模态数据的小样本机器学习方法、系统和介质
CN110543560B (zh) * 2019-08-08 2022-10-11 厦门市美亚柏科信息股份有限公司 基于卷积神经网络的长文本分类识别方法、装置及介质
CN110604572A (zh) * 2019-10-08 2019-12-24 江苏海洋大学 基于人脑特征图谱的脑活动状态识别方法
CN111429215B (zh) * 2020-03-18 2023-10-31 北京互金新融科技有限公司 数据的处理方法和装置
CN111797100A (zh) * 2020-07-03 2020-10-20 上海华客信息科技有限公司 模型训练方法和装置、问卷推送方法和装置、设备和介质
CN111723783B (zh) * 2020-07-29 2023-12-08 腾讯科技(深圳)有限公司 一种内容识别方法和相关装置
CN112685539B (zh) * 2020-12-31 2022-12-23 成都网安科技发展有限公司 基于多任务融合的文本分类模型训练方法和装置
CN113379500A (zh) * 2021-06-21 2021-09-10 北京沃东天骏信息技术有限公司 排序模型训练方法和装置、物品排序方法和装置
CN113779236B (zh) * 2021-08-11 2022-12-27 浙江义乌购电子商务有限公司 一种基于人工智能的问题分类的方法及装置
CN114768986B (zh) * 2022-06-20 2022-09-16 江苏中腾石英材料科技股份有限公司 高纯熔融石英粉的精细化研磨装置及其研磨方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于深度学习的问题分类方法研究;李超等;《计算机科学》;20161215;第115-119页 *

Also Published As

Publication number Publication date
CN107291822A (zh) 2017-10-24

Similar Documents

Publication Publication Date Title
CN107291822B (zh) 基于深度学习的问题分类模型训练方法、分类方法及装置
CN110188202B (zh) 语义关系识别模型的训练方法、装置及终端
CN110598620B (zh) 基于深度神经网络模型的推荐方法和装置
CN116629275B (zh) 一种基于大数据的智能决策支持系统及方法
CN109815938A (zh) 基于多类核典型相关分析的多模态情感特征识别方法
CN116343190B (zh) 自然场景文字识别方法、系统、设备及存储介质
CN110796171A (zh) 机器学习模型的未分类样本处理方法、装置及电子设备
CN111078881B (zh) 细粒度情感分析方法、系统、电子设备和存储介质
CN109685104B (zh) 一种识别模型的确定方法和装置
CN113360659B (zh) 一种基于半监督学习的跨领域情感分类方法及系统
CN112667803A (zh) 一种文本情感分类方法及装置
CN112732910B (zh) 跨任务文本情绪状态评估方法、系统、装置及介质
CN110275953A (zh) 人格分类方法及装置
CN113962737A (zh) 目标识别模型训练方法和装置、目标识别方法和装置
CN117275466A (zh) 一种业务意图识别方法、装置、设备及其存储介质
CN116883316A (zh) 一种芯片质量检测模型的构建方法及终端
CN112685374A (zh) 日志分类方法、装置及电子设备
CN115964484A (zh) 基于多标签分类模型实现的法律多意图识别方法和装置
CN113610080B (zh) 基于跨模态感知的敏感图像识别方法、装置、设备及介质
CN115758218A (zh) 一种基于长短时特征和决策融合的三模态情感分析方法
CN115438658A (zh) 一种实体识别方法、识别模型的训练方法和相关装置
CN113297482B (zh) 基于多模型的搜索引擎数据的用户画像刻画方法及系统
CN112329735B (zh) 人脸识别模型的训练方法及在线教育系统
US11640558B2 (en) Unbalanced sample classification method and apparatus
CN116029280A (zh) 一种文档关键信息抽取方法、装置、计算设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant