CN111461304A - 分类神经网络的训练方法、文本分类方法、装置及设备 - Google Patents

分类神经网络的训练方法、文本分类方法、装置及设备 Download PDF

Info

Publication number
CN111461304A
CN111461304A CN202010244144.7A CN202010244144A CN111461304A CN 111461304 A CN111461304 A CN 111461304A CN 202010244144 A CN202010244144 A CN 202010244144A CN 111461304 A CN111461304 A CN 111461304A
Authority
CN
China
Prior art keywords
text data
neural network
sample text
result
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010244144.7A
Other languages
English (en)
Other versions
CN111461304B (zh
Inventor
徐泽宇
孟二利
孙磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Pinecone Electronic Co Ltd
Original Assignee
Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaomi Pinecone Electronic Co Ltd filed Critical Beijing Xiaomi Pinecone Electronic Co Ltd
Priority to CN202010244144.7A priority Critical patent/CN111461304B/zh
Publication of CN111461304A publication Critical patent/CN111461304A/zh
Priority to US17/002,567 priority patent/US20210303997A1/en
Priority to EP20193247.2A priority patent/EP3889841A1/en
Application granted granted Critical
Publication of CN111461304B publication Critical patent/CN111461304B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开是关于一种分类神经网络的训练方法、文本分类方法、装置及设备,所述分类神经网络的训练方法,包括基于以下步骤训练目标神经网络:获取样本文本数据的回归结果,所述回归结果基于预先构建的第一目标神经网络确定,用于表征所述样本文本数据的分类趋势;将所述样本文本数据和对应的回归结果输入至第二目标神经网络;根据第二目标神经网络获得每个所述样本文本数据的预测分类结果;根据每个样本文本数据的预测分类结果与对应类别真实值的差异对所述第二目标卷积神经网络的参数进行调整;在网络损失的变化满足收敛条件后,得到完成训练的第二目标神经网络。本公开可以实现更好的训练第二目标神经网络,提高后续进行文本数据分类的准确性。

Description

分类神经网络的训练方法、文本分类方法、装置及设备
技术领域
本公开涉及数据处理技术领域,尤其涉及一种分类神经网络的训练方法、文本分类方法、装置及设备。
背景技术
相关技术中可以基于神经网络来实现文本分类,然而其需要遵循一个基本假设,即类别之间基本没有关联。这就导致对于一种类别之间有趋势关系的数据,比如“优、良、差”,不能实现准确的分类;另一方面,相关技术中的分类方案假设分类问题的数据之间是平等的,即不会关注某一部分数据的对错,只确保整体准确率高即可,这就会导致某些关键数据的分类准确性较低。
发明内容
为克服相关技术中存在的问题,本公开实施例提供一种分类神经网络的训练方法、文本分类方法、装置及设备,用以解决相关技术中的缺陷。
根据本公开实施例的第一方面,提供一种分类神经网络的训练方法,包括基于以下步骤训练目标神经网络:
获取样本文本数据的回归结果,所述回归结果基于预先构建的第一目标神经网络确定,用于表征所述样本文本数据的分类趋势;
将所述样本文本数据和对应的回归结果输入至第二目标神经网络;
根据所述第二目标神经网络获得每个所述样本文本数据的预测分类结果;
根据每个所述样本文本数据的预测分类结果与对应类别真实值的差异对所述第二目标卷积神经网络的参数进行调整;
在网络损失的变化满足收敛条件后,得到完成训练的第二目标神经网络。
在一实施例中,所述将所述样本文本数据和对应的回归结果输入至第二目标神经网络,包括:
将所述样本文本数据输入至第二目标神经网络,得到样本文本向量;
将所述样本文件数据对应的回归结果作为所述样本文本向量的新增维度,与所述样本文本向量进行拼接,生成新的样本文本向量;
所述根据所述第二目标神经网络获得每个所述样本文本数据的预测分类结果,包括:
基于所述新的样本文本向量,根据所述第二目标神经网络获得每个所述样本文本数据的预测分类结果。
在一实施例中,所述将所述样本文本数据和对应的回归结果输入至第二目标神经网络,包括:
确定对应回归结果为目标回归结果的第一样本文本数据;
增大所述第一样本文本数据在训练过程中的权重,以增加所述第一样本文本数据的损失对整体损失的影响;
所述根据所述第二目标神经网络获得每个所述样本文本数据的预测分类结果,包括:
基于增大所述第一样本文本数据权重后的样本文本数据,根据所述第二目标神经网络获得每个所述样本文本数据的预测分类结果。
在一实施例中,所述方法还包括基于以下步骤训练所述第一目标神经网络:
将所述样本文本数据输入至所述第一目标神经网络,所述样本数据标注有回归结果的真实值;
根据所述第一目标神经网络得到所述样本文本数据的回归结果;
根据所述回归结果与所述回归结果的真实值的差异,对所述第一目标神经网络的参数进行调整;
在网络损失函数的变化满足收敛条件后,得到完成训练的第一目标神经网络。
在一实施例中,所述方法还包括基于以下步骤训练所述第一目标神经网络:
将所述样本文本数据输入至所述第一目标神经网络,所述样本文本数据标注有类别的真实值和回归结果的真实值;
通过所述第一目标神经网络中的核心网络对所述样本文本数据进行特征提取,得到特征提取结果;
将所述特征提取结果分别输入分类网络分支和回归网络分支;
通过所述分类网络分支预测所述样本文本数据的中间分类结果,以及通过所述回归网络分支预测所述样本文本数据的回归结果;
根据所述中间分类结果与所述类别的真实值的第一差异对所述分类网络分支以及所述核心网络的参数进行调整;
根据所述回归结果与所述回归结果的真实值的第二差异,对所述回归网络分支以及所述核心网络的参数进行调整;
在所述分类网络分支的网络损失以及所述回归网络分支的网络损失的变化满足收敛条件后,得到完成训练的第一目标神经网络。
根据本公开实施例的第二方面,提供一种文本分类方法,包括:
将待分类文本数据输入第一目标神经网络,得到所述待分类文本数据的回归结果;
将所述待分类文本数据和所述回归结果输入所述第二目标神经网络,得到所述待分类文本数据的目标分类结果。
根据本公开实施例的第三方面,提供一种分类神经网络的训练装置,包括第二网络训练模块;
所述第二网络训练模块,包括:
回归结果获取单元,用于获取样本文本数据的回归结果,所述回归结果基于预先构建的第一目标神经网络确定,用于表征所述样本文本数据的分类趋势;
数据结果输入单元,用于将所述样本文本数据和对应的回归结果输入至第二目标神经网络;
预测结果获取单元,用于根据所述第二目标神经网络获得每个所述样本文本数据的预测分类结果;
第一参数调整单元,用于根据每个所述样本文本数据的预测分类结果与对应类别真实值的差异对所述第二目标卷积神经网络的参数进行调整;
第二网络获取单元,用于在网络损失的变化满足收敛条件后,得到完成训练的第二目标神经网络。
在一实施例中,所述数据结果输入单元,还用于:
将所述样本文本数据输入至第二目标神经网络,得到样本文本向量;
将所述样本文件数据对应的回归结果作为所述样本文本向量的新增维度,与所述样本文本向量进行拼接,生成新的样本文本向量;
所述预测结果获取单元还用于基于所述新的样本文本向量,根据所述第二目标神经网络获得每个所述样本文本数据的预测分类结果。
在一实施例中,所述数据结果输入单元,还用于:
确定对应回归结果为目标回归结果的第一样本文本数据;
增大所述第一样本文本数据在训练过程中的权重,以增加所述第一样本文本数据的损失对整体损失的影响;
所述预测结果获取单元还用于基于增大所述第一样本文本数据权重后的样本文本数据,根据所述第二目标神经网络获得每个所述样本文本数据的预测分类结果。
在一实施例中,所述装置还包括第一网络训练模块;
所述第一网络训练模块,包括:
样本数据输入单元,用于将所述样本文本数据输入至所述第一目标神经网络,所述样本数据标注有回归结果的真实值;
样本数据回归单元,用于根据所述第一目标神经网络得到所述样本文本数据的回归结果;
第二参数调整单元,用于根据所述回归结果与所述回归结果的真实值的差异,对所述第一目标神经网络的参数进行调整;
第一网络获取单元,用于在网络损失函数的变化满足收敛条件后,得到完成训练的第一目标神经网络。
在一实施例中,所述装置还包括第一网络训练模块;
所述第一网络训练模块,包括:
样本数据输入单元,用于将所述样本文本数据输入至所述第一目标神经网络,所述样本文本数据标注有类别的真实值和回归结果的真实值;
样本特征提取单元,用于通过所述第一目标神经网络中的核心网络对所述样本文本数据进行特征提取,得到特征提取结果;
提取结果输入单元,用于将所述特征提取结果分别输入分类网络分支和回归网络分支;
分类回归预测单元,用于通过所述分类网络分支预测所述样本文本数据的中间分类结果,以及通过所述回归网络分支预测所述样本文本数据的回归结果;
第三参数调整单元,用于根据所述中间分类结果与所述类别的真实值的第一差异对所述分类网络分支以及所述核心网络的参数进行调整;
第四参数调整单元,用于根据所述回归结果与所述回归结果的真实值的第二差异,对所述回归网络分支以及所述核心网络的参数进行调整;
第一网络获取单元,用于在所述分类网络分支的网络损失以及所述回归网络分支的网络损失的变化满足收敛条件后,得到完成训练的第一目标神经网络。
根据本公开实施例的第四方面,提供一种文本分类装置,包括:
回归结果获取模块,用于将待分类文本数据输入第一目标神经网络,得到所述待分类文本数据的回归结果;
分类结果获取模块,用于将所述待分类文本数据和所述回归结果输入所述第二目标神经网络,得到所述待分类文本数据的目标分类结果。
根据本公开实施例的第五方面,提供一种电子设备,包括:
处理器,以及用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取样本文本数据的回归结果,所述回归结果基于预先构建的第一目标神经网络确定,用于表征所述样本文本数据的分类趋势;
将所述样本文本数据和对应的回归结果输入至第二目标神经网络;
根据所述第二目标神经网络获得每个所述样本文本数据的预测分类结果;
根据每个所述样本文本数据的预测分类结果与对应类别真实值的差异对所述第二目标卷积神经网络的参数进行调整;
在网络损失的变化满足收敛条件后,得到完成训练的第二目标神经网络。
根据本公开实施例的第六方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:
获取样本文本数据的回归结果,所述回归结果基于预先构建的第一目标神经网络确定,用于表征所述样本文本数据的分类趋势;
将所述样本文本数据和对应的回归结果输入至第二目标神经网络;
根据所述第二目标神经网络获得每个所述样本文本数据的预测分类结果;
根据每个所述样本文本数据的预测分类结果与对应类别真实值的差异对所述第二目标卷积神经网络的参数进行调整;
在网络损失的变化满足收敛条件后,得到完成训练的第二目标神经网络。
本公开的实施例提供的技术方案可以包括以下有益效果:
本公开通过获取样本文本数据的回归结果,并将所述样本文本数据和对应的回归结果输入至第二目标神经网络,然后根据所述第二目标神经网络获得每个所述样本文本数据的预测分类结果,以及根据每个所述样本文本数据的预测分类结果与对应类别真实值的差异对所述第二目标卷积神经网络的参数进行调整,进而可以在网络损失的变化满足收敛条件后,得到完成训练的第二目标神经网络,由于获取了样本文本数据的回归结果,并将样本文本数据和对应的回归结果输入至第二目标神经网络进行训练,因而可以实现更好的训练第二目标神经网络,进而可以提高后续基于第二目标神经网络进行文本数据分类的准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种训练第二目标神经网络分类神经网络的方法的流程图;
图2是根据又一示例性实施例示出的一种训练第二目标神经网络分类神经网络的方法的流程图;
图3是根据另一示例性实施例示出的一种训练第二目标神经网络分类神经网络的方法的流程图;
图4是根据一示例性实施例示出的一种训练第一目标神经网络分类神经网络的方法的流程图;
图5是根据又一示例性实施例示出的一种训练第一目标神经网络分类神经网络的方法的流程图;
图6是根据一示例性实施例示出的一种文本分类方法的流程图;
图7是根据一示例性实施例示出的一种分类神经网络的训练装置中第二网络训练模块的框图;
图8是根据一示例性实施例示出的一种分类神经网络的训练装置的框图;
图9是根据又一示例性实施例示出的一种分类神经网络的训练装置的框图;
图10是根据一示例性实施例示出的一种文本分类装置的框图;
图11是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施例并不代表与本公开相一致的所有实施例。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
相关技术中可以基于神经网络来实现文本分类,然而其需要遵循一个基本假设,即类别之间基本没有关联。这就导致对于一种类别之间有趋势关系的数据,比如“优、良、差”等,相关技术中的分类方案不能很好处理这个问题,即不能实现准确的分类;另一方面,相关技术中的分类方案假设分类问题的数据之间是平等的,即不会关注某一部分数据的对错,只确保整体准确率高即可。但是在某些情况下,我们又恰恰需要某部分数据尽可能更加准确一点。在分类问题的类别较多时,相关技术中的分类方案不能很好处理这个问题。有鉴于此,本公开实施例提供一种文本分类方法、装置、电子设备及存储介质,用以解决相关技术中的缺陷。
图1是根据一示例性实施例示出的一种训练第二目标神经网络分类神经网络的方法的流程图;本实施例的方法可以应用于服务端(如,一台服务器,或多台服务器组成的服务器集群)。如图1所示,该方法包括基于以下步骤S101-S105训练第二目标神经网络:
在步骤S101中,获取样本文本数据的回归结果。
本实施例中,为了训练结合文本数据的回归结果以及文本数据本身对该文本数据进行分类的第二目标神经网络,可以获取样本文本数据的回归结果。
其中,样本文本数据的回归结果可以基于预先构建的第一目标神经网络确定,且该回归结果可以用于表征样本文本数据的分类趋势。
在一可选的实施例中,上述第一目标神经网络可以参见下述图4或图5所示实施例,在此先不进行详述。
值得说明的是,上述回归结果的获取方式除了采用第一目标神经网络之外,还可以由开发人员基于实际业务选取相关技术中的其他方案,所得的结果同样适用于本实施例的后续步骤,本实施例对此不进行限定。
在步骤S102中,将所述样本文本数据和对应的回归结果输入至第二目标神经网络。
本实施例中,当获取样本文本数据的回归结果后,可以将所述样本文本数据和对应的回归结果输入至第二目标神经网络。
举例来说,可以预先构建待训练的第二目标神经网络,进而可以当获取样本文本数据的回归结果后,可以将该样本文本数据和对应的回归结果输入至构建的第二目标神经网络。
在步骤S103中,根据所述第二目标神经网络获得每个所述样本文本数据的预测分类结果。
本实施例中,当将所述样本文本数据和对应的回归结果输入至第二目标神经网络后,可以根据该第二目标神经网络获得每个样本文本数据的预测分类结果。
举例来说,在将上述样本文本数据和对应的回归结果输入至第二目标神经网络后,可以基于该第二目标神经网络提取上述样本文本数据和对应的回归结果的特征,进而可以提取的特征获得每个样本文本数据的预测分类结果。
在步骤S104中,根据每个所述样本文本数据的预测分类结果与对应类别真实值的差异对所述第二目标卷积神经网络的参数进行调整。
本实施例中,当根据所述第二目标神经网络获得每个所述样本文本数据的预测分类结果后,可以根据每个所述样本文本数据的预测分类结果与对应类别真实值的差异对所述第二目标卷积神经网络的参数进行调整。
举例来说,当根据所述第二目标神经网络获得每个所述样本文本数据的预测分类结果后,可以获取每个所述样本文本数据的对应类别真实值,然后可以确定每个所述样本文本数据的预测分类结果与对应类别真实值的差异,进而可以基于该差异对第二目标卷积神经网络的参数进行调整。
在步骤S105中,在网络损失的变化满足收敛条件后,得到完成训练的第二目标神经网络。
本实施例中,当根据每个所述样本文本数据的预测分类结果与对应类别真实值的差异对所述第二目标卷积神经网络的参数进行调整后,可以在网络损失的变化满足收敛条件后,得到完成训练的第二目标神经网络。
举例来说,当根据上述初始第二目标神经网络获得样本文本数据的预测分类结果后,可以基于每个所述样本文本数据的预测分类结果与对应类别真实值的差异计算相应的网络损失,进而可以基于差异的大小对第二目标神经网络的参数进行调整,以使预测分类结果和真实值的差异减小,直到网络损失的变化满足收敛条件后,得到完成训练的第二目标神经网络。
由上述描述可知,本实施例通过获取样本文本数据的回归结果,并将所述样本文本数据和对应的回归结果输入至第二目标神经网络,然后根据所述第二目标神经网络获得每个所述样本文本数据的预测分类结果,以及根据每个所述样本文本数据的预测分类结果与对应类别真实值的差异对所述第二目标卷积神经网络的参数进行调整,进而可以在网络损失的变化满足收敛条件后,得到完成训练的第二目标神经网络,因而可以实现后续基于训练的第二目标神经网络对待分类文本数据进行分类,可以提高对待分类数据进行分类的准确性。
图2是根据又一示例性实施例示出的一种训练第二目标神经网络分类神经网络的方法的流程图;本实施例的方法可以应用于服务端(如,一台服务器,或多台服务器组成的服务器集群)。如图2所示,该方法包括基于以下步骤S201-S206训练第二目标神经网络:
在步骤S201中,获取样本文本数据的回归结果。
在步骤S202中,将所述样本文本数据输入至第二目标神经网络,得到样本文本向量。
本实施例中,可以将样本文本数据输入至第二目标神经网络,以基于第二目标神经网络提取样本文本数据的特征,进而可以该特征确定样本文本向量。
在步骤S203中,将所述样本文件数据对应的回归结果作为所述样本文本向量的新增维度,与所述样本文本向量进行拼接,生成新的样本文本向量。
本实施例中,当获取样本文本数据的回归结果以及将所述样本文本数据输入至第二目标神经网络,得到样本文本向量后,可以将该回归结果作为样本文本向量的新增维度,与样本文本向量进行拼接,生成新的样本文本向量。
在步骤S204中,基于所述新的样本文本向量,根据所述第二目标神经网络获得每个所述样本文本数据的预测分类结果。
本实施例中,当将所述样本文件数据对应的回归结果作为所述样本文本向量的新增维度,与所述样本文本向量进行拼接,生成新的样本文本向量后,可以基于所述新的样本文本向量,根据所述第二目标神经网络获得每个所述样本文本数据的预测分类结果。
举例来说,可以预先构建待训练的第二目标神经网络,进而可以当获取新的样本文本向量后,可以将该新的样本文本向量输入至构建的第二目标神经网络,得到每个样本文本数据的预测分类结果。
在步骤S205中,根据每个所述样本文本数据的预测分类结果与对应类别真实值的差异对所述第二目标卷积神经网络的参数进行调整。
在步骤S206中,在网络损失的变化满足收敛条件后,得到完成训练的第二目标神经网络。
其中,步骤S201、S205-S206的相关解释和说明可以参见上述实施例,在此不进行赘述。
由上述描述可知,本实施例通过获取样本文本数据的回归结果,并将所述样本文本数据输入至第二目标神经网络,得到样本文本向量,并将所述样本文件数据对应的回归结果作为所述样本文本向量的新增维度,与所述样本文本向量进行拼接,生成新的样本文本向量,以及基于所述新的样本文本向量,根据所述第二目标神经网络获得每个所述样本文本数据的预测分类结果,再根据每个所述样本文本数据的预测分类结果与对应类别真实值的差异对所述第二目标卷积神经网络的参数进行调整,进而可以在网络损失的变化满足收敛条件后,得到完成训练的第二目标神经网络,因而可以实现后续基于训练的第二目标神经网络对待分类文本数据进行分类,可以提高对待分类数据进行分类的准确性。
图3是根据另一示例性实施例示出的一种训练第二目标神经网络分类神经网络的方法的流程图;本实施例的方法可以应用于服务端(如,一台服务器,或多台服务器组成的服务器集群)。如图3所示,该方法包括基于以下步骤S301-S306训练第二目标神经网络:
在步骤S301中,获取样本文本数据的回归结果。
在步骤S302中,确定对应回归结果为目标回归结果的第一样本文本数据。
本实施例中,当获取样本文本数据的回归结果后,可以确定对应回归结果为目标回归结果的第一样本文本数据。
值得说明的是,上述目标回归结果为数值属于设定数值区间的回归结果,该数值区间可以由开发人员基于业务需求或业务经验进行设置,本实施例对此不进行限定。
举例来说,当获取样本文本数据的回归结果后,可以确定该回归结果的数值是否属于设定数值区间,若属于,则可以将该回归结果所属的样本文本数据确定为第一样本文本数据。
在步骤S303中,增大所述第一样本文本数据在训练过程中的权重,以增加所述第一样本文本数据的损失对整体损失的影响。
本实施例中,当确定对应回归结果为目标回归结果的第一样本文本数据后,可以增大所述第一样本文本数据在训练过程中的权重,以增加所述第一样本文本数据的损失对整体损失的影响。
在步骤S304中,基于增大所述第一样本文本数据权重后的样本文本数据,根据所述第二目标神经网络获得每个所述样本文本数据的预测分类结果。
本实施例中,当增大所述第一样本文本数据在训练过程中的权重后,可以基于增大所述第一样本文本数据权重后的样本文本数据,根据所述第二目标神经网络获得每个所述样本文本数据的预测分类结果。
举例来说,可以预先构建待训练的第二目标神经网络,然后调整各个样本文本数据的权重,使第一样本文本数据权重增大,使其他样本文本数据权重减小,进而可以根据所述第二目标神经网络获得每个所述样本文本数据的预测分类结果。
在步骤S305中,根据每个所述样本文本数据的预测分类结果与对应类别真实值的差异对所述第二目标卷积神经网络的参数进行调整。
在步骤S306中,在网络损失的变化满足收敛条件后,得到完成训练的第二目标神经网络。
其中,步骤S301、S305-S306的相关解释和说明可以参见上述实施例,在此不进行赘述。
由上述描述可知,本实施例通过获取样本文本数据的回归结果,并将所述样本文本数据输入至第二目标神经网络,得到样本文本向量,并将所述样本文件数据对应的回归结果作为所述样本文本向量的新增维度,与所述样本文本向量进行拼接,生成新的样本文本向量,以及基于所述新的样本文本向量,根据所述第二目标神经网络获得每个所述样本文本数据的预测分类结果,再根据每个所述样本文本数据的预测分类结果与对应类别真实值的差异对所述第二目标卷积神经网络的参数进行调整,进而可以在网络损失的变化满足收敛条件后,得到完成训练的第二目标神经网络,因而可以实现后续基于训练的第二目标神经网络对待分类文本数据进行分类,可以提高对待分类数据进行分类的准确性。
图4是根据一示例性实施例示出的一种训练第一目标神经网络分类神经网络的方法的流程图;本实施例的方法可以应用于服务端(如,一台服务器,或多台服务器组成的服务器集群)。如图4所示,该方法包括基于以下步骤S401-S404训练第一目标神经网络:
在步骤S401中,将所述样本文本数据输入至所述第一目标神经网络,所述样本数据标注有回归结果的真实值。
本实施例中,为了训练用于确定文本数据的回归结果的第一目标神经网络,可以获取用于训练第一目标神经网络的样本文本数据,并对每个样本文本数据标注回归结果的真实值。
其中,样本文本数据标注回归结果的真实值可以由开发人员根据实际业务需要进行设置,本实施例对此不进行限定。
在步骤S402中,根据所述第一目标神经网络得到所述样本文本数据的回归结果。
本实施例中,当将所述样本文本数据输入至所述第一目标神经网络后,可以根据所述第一目标神经网络得到所述样本文本数据的回归结果。
举例来说,可以预先构建初始的第一目标神经网络,然后可以将样本文本数据输入至该初始第一目标神经网络,进而可以根据该初始的第一目标神经网络获得每个样本文本数据的回归结果。
其中,上述回归结果的解释和说明可以参见上述实施例,在此不进行赘述。
在步骤S403中,根据所述回归结果与所述回归结果的真实值的差异,对所述第一目标神经网络的参数进行调整。
本实施例中,当根据所述第一目标神经网络得到所述样本文本数据的回归结果后,可以根据所述回归结果与所述回归结果的真实值的差异,对所述第一目标神经网络的参数进行调整。
举例来说,当根据所述第一目标神经网络得到所述样本文本数据的回归结果后,可以计算得到的回归结果与对应的回归结果的真实值的差异,例如可以基于该差异计算相应的网络损失函数,进而可以基于差异的大小对第一目标神经网络的参数进行调整,以使上述差异减小。
在步骤S404中,在网络损失函数的变化满足收敛条件后,得到完成训练的第一目标神经网络。
本实施例中,当根据所述回归结果与所述回归结果的真实值的差异,对所述第一目标神经网络的参数进行调整后,可以在网络损失函数的变化满足收敛条件后,得到完成训练的第一目标神经网络。
值得说明的是,上述网络损失函数的构建方式可以参见相关技术中的解释和说明,本实施例对此不进行限定。
由上述技术方案可知,本实施例通过将所述样本文本数据输入至所述第一目标神经网络,并根据所述第一目标神经网络得到所述样本文本数据的回归结果,以及根据所述回归结果与所述回归结果的真实值的差异,对所述第一目标神经网络的参数进行调整,进而在网络损失函数的变化满足收敛条件后,得到完成训练的第一目标神经网络,可以为后续基于训练的第一目标神经网络确定文本数据的回归结果奠定基础,进而可以实现后续基于文本数据的回归结果对该文本数据进行分类,可以提高文本数据分类的准确性。
图5是根据又一示例性实施例示出的一种训练第一目标神经网络分类神经网络的方法的流程图;本实施例的方法可以应用于服务端(如,一台服务器,或多台服务器组成的服务器集群)。如图5所示,该方法包括基于以下步骤S501-S507训练第一目标神经网络:
在步骤S501中,将所述样本文本数据输入至所述第一目标神经网络,所述样本文本数据标注有类别的真实值和回归结果的真实值;
在步骤S502中,通过所述第一目标神经网络中的核心网络对所述样本文本数据进行特征提取,得到特征提取结果;
在步骤S503中,将所述特征提取结果分别输入分类网络分支和回归网络分支;
在步骤S504中,通过所述分类网络分支预测所述样本文本数据的中间分类结果,以及通过所述回归网络分支预测所述样本文本数据的回归结果;
在步骤S505中,根据所述中间分类结果与所述类别的真实值的第一差异对所述分类网络分支以及所述核心网络的参数进行调整;
在步骤S506中,根据所述回归结果与所述回归结果的真实值的第二差异,对所述回归网络分支以及所述核心网络的参数进行调整;
在步骤S507中,在所述分类网络分支的网络损失以及所述回归网络分支的网络损失的变化满足收敛条件后,得到完成训练的第一目标神经网络。
本实施例中,第一目标神经网络可以包含一个核心网络和两个网络分支。
举例来说,当获取用于训练第一目标神经网络的样本数据或,可以将该样本文本数据输入至预先构建的待训练的第一目标神经网络,其中,该样本文本数据可以预先标注有类别的真实值和回归结果的真实值。然后,可以通过该第一目标神经网络中的核心网络对上述样本文本数据进行特征提取,以得到特征提取结果,进而可以将得到的特征提取结果分别输入第一目标神经网络的分类网络分支和回归网络分支。
在此基础上,可以通过上述分类网络分支预测样本文本数据的中间分类结果,以及通过上述回归网络分支预测样本文本数据的回归结果。接着,可以根据该中间分类结果与类别的真实值的第一差异对上述分类网络分支以及所述核心网络的参数进行调整;以及,可以根据上述归结果与回归结果的真实值的第二差异,对上述回归网络分支以及核心网络的参数进行调整。
如此,即可在上述分类网络分支的网络损失以及回归网络分支的网络损失的变化满足收敛条件后,得到完成训练的第一目标神经网络。
由上述技术方案可知,本实施例通过将所述样本文本数据输入至所述第一目标神经网络,所述样本文本数据标注有类别的真实值和回归结果的真实值,并通过所述第一目标神经网络中的核心网络对所述样本文本数据进行特征提取,得到特征提取结果,以及将所述特征提取结果分别输入分类网络分支和回归网络分支,并通过所述分类网络分支预测所述样本文本数据的中间分类结果,以及通过所述回归网络分支预测所述样本文本数据的回归结果,再根据所述中间分类结果与所述类别的真实值的第一差异对所述分类网络分支以及所述核心网络的参数进行调整,以及根据所述回归结果与所述回归结果的真实值的第二差异,对所述回归网络分支以及所述核心网络的参数进行调整,进而可以在所述分类网络分支的网络损失以及所述回归网络分支的网络损失的变化满足收敛条件后,得到完成训练的第一目标神经网络,可以实现准确的训练第一目标神经网络,可以为后续基于训练的第一目标神经网络确定文本数据的回归结果奠定基础,进而可以实现后续基于文本数据的回归结果对该文本数据进行分类,可以提高文本数据分类的准确性。
图6是根据一示例性实施例示出的一种文本分类方法的流程图;本实施例的方法可以应用于服务端(如,一台服务器,或多台服务器组成的服务器集群)。如图6所示,该方法包括以下步骤S601-S602:
在步骤S601中,将待分类文本数据输入第一目标神经网络,得到所述待分类文本数据的回归结果。
本实施例中,服务端可以将上述待分类文本数据输入至预先训练完成的第一目标神经网络,以基于该第一目标神经网络提取上述待分类文本数据的特征,并根据提取的特征信息确定待分类文本数据的回归结果。
值得说明书的是,上述待分类文本数据的类型可以由开发人员根据实际业务需要进行设置,如设置为自然语言文本数据,或者经过形式化处理后的自然语言文本数据(如,文本表示)等,本实施例对此不进行限定。
本实施例中,上述回归结果可以用于表征待分类文本数据的分类趋势。
在一可选的实施例中,第一目标神经网络的训练方式可以参见上述实施例,在此不进行赘述。
在步骤S602中,将所述待分类文本数据和所述回归结果输入所述第二目标神经网络,得到所述待分类文本数据的目标分类结果。
本实施例中,当将待分类文本数据输入第一目标神经网络,得到所述待分类文本数据的回归结果后,可以将该回归结果和待分类文本数据输入至预先训练的第二目标神经网络,以基于该第二目标神经网络提取上述回归结果和文本数据的特征,并根据提取的特征对该待分类文本数据的分类进行预测,得到所述待分类文本数据的目标分类结果。
在一可选的实施例中,第二目标神经网络的训练方式可以参见上述实施例,在此不进行赘述。
由上述技术方案可知,本实施例通过将待分类文本数据输入第一目标神经网络,得到所述待分类文本数据的回归结果,并将所述待分类文本数据和所述回归结果输入所述第二目标神经网络,得到所述待分类文本数据的目标分类结果,由于在提取待分类文本数据本身的特征信息的基础上还获取了该文本数据的回归结果,可以实现基于该数据的回归结果和数据本身的特征确定待分类文本数据的目标分类结果,因而可以实现提高对待分类文本数据进行分类的准确性。
图7是根据一示例性实施例示出的一种分类神经网络的训练装置中第二网络训练模块的框图;本实施例的装置可以应用于服务端(如,一台服务器,或多台服务器组成的服务器集群)。如图7所示,该第二网络训练模块110包括:回归结果获取单元111、数据结果输入单元112、预测结果获取单元113、第一参数调整单元114以及第二网络获取单元115,其中:
回归结果获取单元111,用于获取样本文本数据的回归结果,所述回归结果基于预先构建的第一目标神经网络确定,用于表征所述样本文本数据的分类趋势;
数据结果输入单元112,用于将所述样本文本数据和对应的回归结果输入至第二目标神经网络;
预测结果获取单元113,用于根据所述第二目标神经网络获得每个所述样本文本数据的预测分类结果;
第一参数调整单元114,用于根据每个所述样本文本数据的预测分类结果与对应类别真实值的差异对所述第二目标卷积神经网络的参数进行调整;
第二网络获取单元115,用于在网络损失的变化满足收敛条件后,得到完成训练的第二目标神经网络。
在一可选的实施例中,数据结果输入单元112,还可以用于:
将所述样本文本数据输入至第二目标神经网络,得到样本文本向量;
将所述样本文件数据对应的回归结果作为所述样本文本向量的新增维度,与所述样本文本向量进行拼接,生成新的样本文本向量;
预测结果获取单元213还可以用于基于所述新的样本文本向量,根据所述第二目标神经网络获得每个所述样本文本数据的预测分类结果。
在另一可选的实施例中,数据结果输入单元112,还可以用于:
确定对应回归结果为目标回归结果的第一样本文本数据;
增大所述第一样本文本数据在训练过程中的权重,以增加所述第一样本文本数据的损失对整体损失的影响;
预测结果获取单元213还可以用于基于增大所述第一样本文本数据权重后的样本文本数据,根据所述第二目标神经网络获得每个所述样本文本数据的预测分类结果。
由上述描述可知,本实施例通过获取样本文本数据的回归结果,并将所述样本文本数据和对应的回归结果输入至第二目标神经网络,然后根据所述第二目标神经网络获得每个所述样本文本数据的预测分类结果,以及根据每个所述样本文本数据的预测分类结果与对应类别真实值的差异对所述第二目标卷积神经网络的参数进行调整,进而可以在网络损失的变化满足收敛条件后,得到完成训练的第二目标神经网络,由于获取了样本文本数据的回归结果,并将样本文本数据和对应的回归结果输入至第二目标神经网络进行训练,因而可以实现更好的训练第二目标神经网络,进而可以提高后续基于第二目标神经网络进行文本数据分类的准确性。
图8是根据一示例性实施例示出的一种分类神经网络的训练装置的框图;本实施例的装置可以应用于服务端(如,一台服务器,或多台服务器组成的服务器集群)。其中,回归结果获取单元211、数据结果输入单元212、预测结果获取单元213、第一参数调整单元214以及第二网络获取单元215与前述图7所示实施例中的回归结果获取单元111、数据结果输入单元112、预测结果获取单元113、第一参数调整单元114以及第二网络获取单元115的功能相同,在此不进行赘述。如图7所示,该装置还包括第一网络训练模块220;该第一网络训练模块220,包括:
样本数据输入单元221,用于将所述样本文本数据输入至所述第一目标神经网络,所述样本数据标注有回归结果的真实值;
样本数据回归单元222,用于根据所述第一目标神经网络得到所述样本文本数据的回归结果;
第二参数调整单元223,用于根据所述回归结果与所述回归结果的真实值的差异,对所述第一目标神经网络的参数进行调整;
第一网络获取单元224,用于在网络损失函数的变化满足收敛条件后,得到完成训练的第一目标神经网络。
由上述描述可知,本实施例通过将所述样本文本数据输入至所述第一目标神经网络,并根据所述第一目标神经网络得到所述样本文本数据的回归结果,然后根据所述回归结果与所述回归结果的真实值的差异,对所述第一目标神经网络的参数进行调整,以及在网络损失函数的变化满足收敛条件后,得到完成训练的第一目标神经网络,可以实现基于样本文本数据准确的训练第一目标神经网络,进而可以实现后续基于训练得到的第一目标神经网络准确的获取样本文本数据的回归结果。
图9是根据又一示例性实施例示出的一种分类神经网络的训练装置的框图;本实施例的装置可以应用于服务端(如,一台服务器,或多台服务器组成的服务器集群)。其中,回归结果获取单元311、数据结果输入单元312、预测结果获取单元313、第一参数调整单元314以及第二网络获取单元315与前述图7所示实施例中的回归结果获取单元111、数据结果输入单元112、预测结果获取单元113、第一参数调整单元114以及第二网络获取单元115的功能相同,在此不进行赘述。如图9所示,该装置还包括第一网络训练模块320;该第一网络训练模块320,包括:
样本数据输入单元321,用于将所述样本文本数据输入至所述第一目标神经网络,所述样本文本数据标注有类别的真实值和回归结果的真实值;
样本特征提取单元322,用于通过所述第一目标神经网络中的核心网络对所述样本文本数据进行特征提取,得到特征提取结果;
提取结果输入单元323,用于将所述特征提取结果分别输入分类网络分支和回归网络分支;
分类回归预测单元324,用于通过所述分类网络分支预测所述样本文本数据的中间分类结果,以及通过所述回归网络分支预测所述样本文本数据的回归结果;
第三参数调整单元325,用于根据所述中间分类结果与所述类别的真实值的第一差异对所述分类网络分支以及所述核心网络的参数进行调整;
第四参数调整单元326,用于根据所述回归结果与所述回归结果的真实值的第二差异,对所述回归网络分支以及所述核心网络的参数进行调整;
第一网络获取单元327,用于在所述分类网络分支的网络损失以及所述回归网络分支的网络损失的变化满足收敛条件后,得到完成训练的第一目标神经网络。
由上述描述可知,本实施例通过将所述样本文本数据输入至所述第一目标神经网络,并通过所述第一目标神经网络中的核心网络对所述样本文本数据进行特征提取,得到特征提取结果,然后将所述特征提取结果分别输入分类网络分支和回归网络分支,以及通过所述分类网络分支预测所述样本文本数据的中间分类结果,以及通过所述回归网络分支预测所述样本文本数据的回归结果,并且根据所述中间分类结果与所述类别的真实值的第一差异对所述分类网络分支以及所述核心网络的参数进行调整,以及根据所述回归结果与所述回归结果的真实值的第二差异,对所述回归网络分支以及所述核心网络的参数进行调整,进而可以在所述分类网络分支的网络损失以及所述回归网络分支的网络损失的变化满足收敛条件后,得到完成训练的第一目标神经网络,可以实现基于样本文本数据准确的训练第一目标神经网络,进而可以实现后续基于训练得到的第一目标神经网络准确的获取样本文本数据的回归结果。
图10是根据一示例性实施例示出的一种文本分类装置的框图;本实施例的装置可以应用于服务端(如,一台服务器,或多台服务器组成的服务器集群)。如图10所示,该装置包括:回归结果获取模块410和分类结果获取模块420,其中:
回归结果获取模块410,用于将待分类文本数据输入第一目标神经网络,得到所述待分类文本数据的回归结果;
分类结果获取模块420,用于将所述待分类文本数据和所述回归结果输入所述第二目标神经网络,得到所述待分类文本数据的目标分类结果。
由上述技术方案可知,本实施例通过将待分类文本数据输入第一目标神经网络,得到所述待分类文本数据的回归结果,并将所述待分类文本数据和所述回归结果输入所述第二目标神经网络,得到所述待分类文本数据的目标分类结果,由于在对待分类文本数据进行分类的过程中获取了该文本数据的回归结果,并根据回归结果和待分类文本数据获取待分类文本数据的目标分类结果,因而可以实现提高对文本数据进行分类的准确性。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图11是根据一示例性实施例示出的一种电子设备的框图。例如,装置900可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图11,装置900可以包括以下一个或多个组件:处理组件902,存储器904,电源组件906,多媒体组件908,音频组件910,输入/输出(I/O)的接口912,传感器组件914,以及通信组件916。
处理组件902通常控制装置900的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件902可以包括一个或多个处理器920来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件902可以包括一个或多个模块,便于处理组件902和其他组件之间的交互。例如,处理部件902可以包括多媒体模块,以方便多媒体组件908和处理组件902之间的交互。
存储器904被配置为存储各种类型的数据以支持在设备900的操作。这些数据的示例包括用于在装置900上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件906为装置900的各种组件提供电力。电力组件906可以包括电源管理系统,一个或多个电源,及其他与为装置900生成、管理和分配电力相关联的组件。
多媒体组件908包括在所述装置900和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件908包括一个前置摄像头和/或后置摄像头。当装置900处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件910被配置为输出和/或输入音频信号。例如,音频组件910包括一个麦克风(MIC),当装置900处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中,音频组件910还包括一个扬声器,用于输出音频信号。
I/O接口912为处理组件902和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件914包括一个或多个传感器,用于为装置900提供各个方面的状态评估。例如,传感器组件914可以检测到装置900的打开/关闭状态,组件的相对定位,例如所述组件为装置900的显示器和小键盘,传感器组件914还可以检测装置900或装置900一个组件的位置改变,用户与装置900接触的存在或不存在,装置900方位或加速/减速和装置900的温度变化。传感器组件914还可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件914还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件916被配置为便于装置900和其他设备之间有线或无线方式的通信。装置900可以接入基于通信标准的无线网络,如WiFi,2G或3G,4G或5G或它们的组合。在一个示例性实施例中,通信部件916经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件916还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器904,上述指令可由装置900的处理器920执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (14)

1.一种分类神经网络的训练方法,其特征在于,包括基于以下步骤训练目标神经网络:
获取样本文本数据的回归结果,所述回归结果基于预先构建的第一目标神经网络确定,用于表征所述样本文本数据的分类趋势;
将所述样本文本数据和对应的回归结果输入至第二目标神经网络;
根据所述第二目标神经网络获得每个所述样本文本数据的预测分类结果;
根据每个所述样本文本数据的预测分类结果与对应类别真实值的差异对所述第二目标卷积神经网络的参数进行调整;
在网络损失的变化满足收敛条件后,得到完成训练的第二目标神经网络。
2.根据权利要求1所述的方法,其特征在于,所述将所述样本文本数据和对应的回归结果输入至第二目标神经网络,包括:
将所述样本文本数据输入至第二目标神经网络,得到样本文本向量;
将所述样本文件数据对应的回归结果作为所述样本文本向量的新增维度,与所述样本文本向量进行拼接,生成新的样本文本向量;
所述根据所述第二目标神经网络获得每个所述样本文本数据的预测分类结果,包括:
基于所述新的样本文本向量,根据所述第二目标神经网络获得每个所述样本文本数据的预测分类结果。
3.根据权利要求1所述的方法,其特征在于,所述将所述样本文本数据和对应的回归结果输入至第二目标神经网络,包括:
确定对应回归结果为目标回归结果的第一样本文本数据;
增大所述第一样本文本数据在训练过程中的权重,以增加所述第一样本文本数据的损失对整体损失的影响;
所述根据所述第二目标神经网络获得每个所述样本文本数据的预测分类结果,包括:
基于增大所述第一样本文本数据权重后的样本文本数据,根据所述第二目标神经网络获得每个所述样本文本数据的预测分类结果。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括基于以下步骤训练所述第一目标神经网络:
将所述样本文本数据输入至所述第一目标神经网络,所述样本数据标注有回归结果的真实值;
根据所述第一目标神经网络得到所述样本文本数据的回归结果;
根据所述回归结果与所述回归结果的真实值的差异,对所述第一目标神经网络的参数进行调整;
在网络损失函数的变化满足收敛条件后,得到完成训练的第一目标神经网络。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括基于以下步骤训练所述第一目标神经网络:
将所述样本文本数据输入至所述第一目标神经网络,所述样本文本数据标注有类别的真实值和回归结果的真实值;
通过所述第一目标神经网络中的核心网络对所述样本文本数据进行特征提取,得到特征提取结果;
将所述特征提取结果分别输入分类网络分支和回归网络分支;
通过所述分类网络分支预测所述样本文本数据的中间分类结果,以及通过所述回归网络分支预测所述样本文本数据的回归结果;
根据所述中间分类结果与所述类别的真实值的第一差异对所述分类网络分支以及所述核心网络的参数进行调整;
根据所述回归结果与所述回归结果的真实值的第二差异,对所述回归网络分支以及所述核心网络的参数进行调整;
在所述分类网络分支的网络损失以及所述回归网络分支的网络损失的变化满足收敛条件后,得到完成训练的第一目标神经网络。
6.一种文本分类方法,其特征在于,包括:
将待分类文本数据输入第一目标神经网络,得到所述待分类文本数据的回归结果;
将所述待分类文本数据和所述回归结果输入所述第二目标神经网络,得到所述待分类文本数据的目标分类结果。
7.一种分类神经网络的训练装置,其特征在于,包括第二网络训练模块;
所述第二网络训练模块,包括:
回归结果获取单元,用于获取样本文本数据的回归结果,所述回归结果基于预先构建的第一目标神经网络确定,用于表征所述样本文本数据的分类趋势;
数据结果输入单元,用于将所述样本文本数据和对应的回归结果输入至第二目标神经网络;
预测结果获取单元,用于根据所述第二目标神经网络获得每个所述样本文本数据的预测分类结果;
第一参数调整单元,用于根据每个所述样本文本数据的预测分类结果与对应类别真实值的差异对所述第二目标卷积神经网络的参数进行调整;
第二网络获取单元,用于在网络损失的变化满足收敛条件后,得到完成训练的第二目标神经网络。
8.根据权利要求7所述的装置,其特征在于,所述数据结果输入单元,还用于:
将所述样本文本数据输入至第二目标神经网络,得到样本文本向量;
将所述样本文件数据对应的回归结果作为所述样本文本向量的新增维度,与所述样本文本向量进行拼接,生成新的样本文本向量;
所述预测结果获取单元还用于基于所述新的样本文本向量,根据所述第二目标神经网络获得每个所述样本文本数据的预测分类结果。
9.根据权利要求7所述的装置,其特征在于,所述数据结果输入单元,还用于:
确定对应回归结果为目标回归结果的第一样本文本数据;
增大所述第一样本文本数据在训练过程中的权重,以增加所述第一样本文本数据的损失对整体损失的影响;
所述预测结果获取单元还用于基于增大所述第一样本文本数据权重后的样本文本数据,根据所述第二目标神经网络获得每个所述样本文本数据的预测分类结果。
10.根据权利要求7所述的装置,其特征在于,所述装置还包括第一网络训练模块;
所述第一网络训练模块,包括:
样本数据输入单元,用于将所述样本文本数据输入至所述第一目标神经网络,所述样本数据标注有回归结果的真实值;
样本数据回归单元,用于根据所述第一目标神经网络得到所述样本文本数据的回归结果;
第二参数调整单元,用于根据所述回归结果与所述回归结果的真实值的差异,对所述第一目标神经网络的参数进行调整;
第一网络获取单元,用于在网络损失函数的变化满足收敛条件后,得到完成训练的第一目标神经网络。
11.根据权利要求7所述的装置,其特征在于,所述装置还包括第一网络训练模块;
所述第一网络训练模块,包括:
样本数据输入单元,用于将所述样本文本数据输入至所述第一目标神经网络,所述样本文本数据标注有类别的真实值和回归结果的真实值;
样本特征提取单元,用于通过所述第一目标神经网络中的核心网络对所述样本文本数据进行特征提取,得到特征提取结果;
提取结果输入单元,用于将所述特征提取结果分别输入分类网络分支和回归网络分支;
分类回归预测单元,用于通过所述分类网络分支预测所述样本文本数据的中间分类结果,以及通过所述回归网络分支预测所述样本文本数据的回归结果;
第三参数调整单元,用于根据所述中间分类结果与所述类别的真实值的第一差异对所述分类网络分支以及所述核心网络的参数进行调整;
第四参数调整单元,用于根据所述回归结果与所述回归结果的真实值的第二差异,对所述回归网络分支以及所述核心网络的参数进行调整;
第一网络获取单元,用于在所述分类网络分支的网络损失以及所述回归网络分支的网络损失的变化满足收敛条件后,得到完成训练的第一目标神经网络。
12.一种文本分类装置,其特征在于,包括:
回归结果获取模块,用于将待分类文本数据输入第一目标神经网络,得到所述待分类文本数据的回归结果;
分类结果获取模块,用于将所述待分类文本数据和所述回归结果输入所述第二目标神经网络,得到所述待分类文本数据的目标分类结果。
13.一种电子设备,其特征在于,包括:
处理器,以及用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行如权利要求1~5任一项所述的分类神经网络的训练方法,或者入权利要求6所述的文本分类方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1~5任一项所述的分类神经网络的训练方法,或者入权利要求6所述的文本分类方法。
CN202010244144.7A 2020-03-31 2020-03-31 分类神经网络的训练方法、文本分类方法、装置及设备 Active CN111461304B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202010244144.7A CN111461304B (zh) 2020-03-31 2020-03-31 分类神经网络的训练方法、文本分类方法、装置及设备
US17/002,567 US20210303997A1 (en) 2020-03-31 2020-08-25 Method and apparatus for training a classification neural network, text classification method and apparatuses, and device
EP20193247.2A EP3889841A1 (en) 2020-03-31 2020-08-28 Method and apparatus for training a classification neural network, text classification method and apparatuses, and device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010244144.7A CN111461304B (zh) 2020-03-31 2020-03-31 分类神经网络的训练方法、文本分类方法、装置及设备

Publications (2)

Publication Number Publication Date
CN111461304A true CN111461304A (zh) 2020-07-28
CN111461304B CN111461304B (zh) 2023-09-15

Family

ID=71682404

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010244144.7A Active CN111461304B (zh) 2020-03-31 2020-03-31 分类神经网络的训练方法、文本分类方法、装置及设备

Country Status (3)

Country Link
US (1) US20210303997A1 (zh)
EP (1) EP3889841A1 (zh)
CN (1) CN111461304B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113688237A (zh) * 2021-08-10 2021-11-23 北京小米移动软件有限公司 文本分类方法、文本分类网络的训练方法及装置
CN113702719A (zh) * 2021-08-03 2021-11-26 北京科技大学 一种基于神经网络的宽带近场电磁定位方法及装置

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114064973B (zh) * 2022-01-11 2022-05-03 人民网科技(北京)有限公司 视频新闻分类模型建立方法、分类方法、装置及设备
CN114611634B (zh) * 2022-05-11 2023-07-28 上海闪马智能科技有限公司 一种行为类型的确定方法、装置、存储介质及电子装置
CN115557550B (zh) * 2022-08-31 2024-02-23 达斯玛环境科技(北京)有限公司 一种污水预处理方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100070441A1 (en) * 2007-03-27 2010-03-18 Fujitsu Limited Method, apparatus, and program for generating prediction model based on multiple regression analysis
WO2018054326A1 (zh) * 2016-09-22 2018-03-29 北京市商汤科技开发有限公司 文字检测方法和装置、及文字检测训练方法和装置
CN110210535A (zh) * 2019-05-21 2019-09-06 北京市商汤科技开发有限公司 神经网络训练方法及装置以及图像处理方法及装置
CN110443280A (zh) * 2019-07-05 2019-11-12 北京达佳互联信息技术有限公司 图像检测模型的训练方法、装置及存储介质

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7191150B1 (en) * 2000-02-01 2007-03-13 Fair Isaac Corporation Enhancing delinquent debt collection using statistical models of debt historical information and account events
US7127087B2 (en) * 2000-03-27 2006-10-24 Microsoft Corporation Pose-invariant face recognition system and process
US20210294172A1 (en) * 2012-04-13 2021-09-23 View, Inc. Control methods and systems using external 3d modeling and neural networks
US9852215B1 (en) * 2012-09-21 2017-12-26 Amazon Technologies, Inc. Identifying text predicted to be of interest
CN109716346A (zh) * 2016-07-18 2019-05-03 河谷生物组学有限责任公司 分布式机器学习系统、装置和方法
US11205103B2 (en) * 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
US11263523B1 (en) * 2017-01-27 2022-03-01 Manzama, Inc. System and method for organizational health analysis
US10417350B1 (en) * 2017-08-28 2019-09-17 Amazon Technologies, Inc. Artificial intelligence system for automated adaptation of text-based classification models for multiple languages
US11733780B2 (en) * 2018-03-16 2023-08-22 Veridium Ip Limited System and method for user recognition using motion sensor data
US10956787B2 (en) * 2018-05-14 2021-03-23 Quantum-Si Incorporated Systems and methods for unifying statistical models for different data modalities
US10937416B2 (en) * 2019-02-01 2021-03-02 International Business Machines Corporation Cross-domain multi-task learning for text classification
US11328221B2 (en) * 2019-04-09 2022-05-10 International Business Machines Corporation Hybrid model for short text classification with imbalanced data
US10646156B1 (en) * 2019-06-14 2020-05-12 Cycle Clarity, LLC Adaptive image processing in assisted reproductive imaging modalities
US20210089603A1 (en) * 2019-09-20 2021-03-25 Microsoft Technology Licensing, Llc Stacking model for recommendations
US10853580B1 (en) * 2019-10-30 2020-12-01 SparkCognition, Inc. Generation of text classifier training data
US20220366490A1 (en) * 2019-11-01 2022-11-17 Wells Fargo Bank, N.A. Automatic decisioning over unstructured data
US11494647B2 (en) * 2019-12-06 2022-11-08 Adobe Inc. Slot filling with contextual information
US20210279606A1 (en) * 2020-03-09 2021-09-09 Samsung Electronics Co., Ltd. Automatic detection and association of new attributes with entities in knowledge bases

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100070441A1 (en) * 2007-03-27 2010-03-18 Fujitsu Limited Method, apparatus, and program for generating prediction model based on multiple regression analysis
WO2018054326A1 (zh) * 2016-09-22 2018-03-29 北京市商汤科技开发有限公司 文字检测方法和装置、及文字检测训练方法和装置
CN110210535A (zh) * 2019-05-21 2019-09-06 北京市商汤科技开发有限公司 神经网络训练方法及装置以及图像处理方法及装置
CN110443280A (zh) * 2019-07-05 2019-11-12 北京达佳互联信息技术有限公司 图像检测模型的训练方法、装置及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王宇飞;沈红岩;: "基于改进广义回归神经网络的网络安全态势预测" *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113702719A (zh) * 2021-08-03 2021-11-26 北京科技大学 一种基于神经网络的宽带近场电磁定位方法及装置
CN113688237A (zh) * 2021-08-10 2021-11-23 北京小米移动软件有限公司 文本分类方法、文本分类网络的训练方法及装置
CN113688237B (zh) * 2021-08-10 2024-03-05 北京小米移动软件有限公司 文本分类方法、文本分类网络的训练方法及装置

Also Published As

Publication number Publication date
CN111461304B (zh) 2023-09-15
EP3889841A1 (en) 2021-10-06
US20210303997A1 (en) 2021-09-30

Similar Documents

Publication Publication Date Title
CN110782468B (zh) 图像分割模型的训练方法及装置及图像分割方法及装置
CN111461304B (zh) 分类神经网络的训练方法、文本分类方法、装置及设备
CN106202330B (zh) 垃圾信息的判断方法及装置
CN109359056B (zh) 一种应用程序测试方法及装置
CN111539443A (zh) 一种图像识别模型训练方法及装置、存储介质
CN109670077B (zh) 视频推荐方法、装置和计算机可读存储介质
CN111428032B (zh) 内容质量评价方法及装置、电子设备、存储介质
CN106990989B (zh) 控制应用程序安装的方法及装置
CN114240882A (zh) 缺陷检测方法及装置、电子设备和存储介质
EP3734472A1 (en) Method and device for text processing
CN110941727A (zh) 一种资源推荐方法、装置、电子设备及存储介质
CN112445906A (zh) 一种生成回复消息的方法及装置
CN104090915A (zh) 用户数据更新方法及装置
CN110659625A (zh) 物体识别网络的训练方法及装置、电子设备和存储介质
CN111461151A (zh) 一种多元组样本构建方法及装置
CN114462410A (zh) 实体识别方法、装置、终端及存储介质
CN113807540A (zh) 一种数据处理方法及装置
CN109711386B (zh) 获取识别模型的方法、装置、电子设备及存储介质
CN112269730A (zh) 异常日志检测方法、异常日志检测装置及存储介质
CN113742199A (zh) 功能测试方法、装置、电子设备和存储介质
CN111667827A (zh) 应用程序的语音控制方法、装置及存储介质
CN111401048B (zh) 一种意图识别方法及装置
CN114722238B (zh) 视频推荐方法、装置、电子设备、存储介质及程序产品
CN111428806B (zh) 图像标签确定方法、装置、电子设备及存储介质
CN115225702B (zh) 信息推送方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant