CN110704619A - 文本分类方法、装置及电子设备 - Google Patents

文本分类方法、装置及电子设备 Download PDF

Info

Publication number
CN110704619A
CN110704619A CN201910907408.XA CN201910907408A CN110704619A CN 110704619 A CN110704619 A CN 110704619A CN 201910907408 A CN201910907408 A CN 201910907408A CN 110704619 A CN110704619 A CN 110704619A
Authority
CN
China
Prior art keywords
target
loss function
text
training sample
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910907408.XA
Other languages
English (en)
Other versions
CN110704619B (zh
Inventor
刘晓韵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN201910907408.XA priority Critical patent/CN110704619B/zh
Publication of CN110704619A publication Critical patent/CN110704619A/zh
Application granted granted Critical
Publication of CN110704619B publication Critical patent/CN110704619B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本说明书实施例提供文本分类方法、装置及电子设备。其中一个方法包括:获取表示目标文本内容的目标文本向量;基于目标文本向量和对应目标文本所属目标任务类别的目标神经网络,生成目标文本向量对应于目标任务类别的独有特征;基于目标文本向量和对应所有任务类别的共享的神经网络,生成目标文本向量对应于所有任务类别的共享特征;基于对应目标任务类别的目标激活函数,获得与独有特征和共享特征相映射的分类,作为目标文本在目标任务类别中的下级分类。在一个实施例中,可以提高文本分类的准确性。

Description

文本分类方法、装置及电子设备
技术领域
本说明书涉及文本分类技术领域,更具体地,涉及文本分类方法、文本分类装置、及电子设备。
背景技术
随着互联网的发展,人们越来越多的使用智能终端上安装的客户端应用,来进行交易、信息查看等行为。随着客户端应用的使用量的增多,客户端应用接收到的用户投诉也越来越多。为提升用户满意度,需要在用户投诉时,尽快了解用户的投诉意图,加快投诉处理速度,减少用户的等待时间。
因此,本说明书需要提出一种根据用户的针对一个任务类别进行投诉所提交的投诉文本,确定其下级分类的方法。
发明内容
本说明书的实施例提供了一种确定文本在对应任务类别中的下级分类的新技术方案。
根据本说明书的第一方面,提供了一种文本分类方法,包括:
获取表示目标文本内容的目标文本向量;
基于所述目标文本向量和对应所述目标文本所属目标任务类别的目标神经网络,生成所述目标文本向量对应于所述目标任务类别的独有特征;
基于所述目标文本向量和对应所有任务类别的共享的神经网络,生成所述目标文本向量对应于所述所有任务类别的共享特征;
基于对应所述目标任务类别的目标激活函数,获得与所述独有特征和所述共享特征相映射的分类,作为所述目标文本在所述目标任务类别中的下级分类。
可选的,还包括:
获取每一任务类别的训练样本,所述训练样本包括文本和对应的下级分类标签;
分别获取表示每一训练样本的文本内容的文本向量;
对于每一训练样本,以所属任务类别对应的神经网络的待定参数为变量,根据文本向量确定独有特征的第一表达式;
对于每一训练样本,以共享的神经网络的待定参数为变量,根据文本向量确定共享特征的第二表达式;
对于每一训练样本,以所属任务类别对应的激活函数的待定参数为变量,根据所述第一表达式和所述第二表达式,确定在对应任务类别中的下级分类的第三表达式;
根据每一训练样本的所述第三表达式和下级分类标签,构建第一损失函数;
至少根据所述第一损失函数获得最终的损失函数;
根据所述最终的损失函数,确定所述共享的神经网络、及每一任务类别的神经网络和激活函数的待定参数的取值,完成对所述共享的神经网络、及每一任务类别的神经网络和激活函数的训练。
可选的,构建第一损失函数包括:
对于每一任务类别,根据每一训练样本的所述第三表达式和下级分类标签,采用交叉熵构建对应任务类别的损失项;
根据每一任务类别的损失项,得到所述第一损失函数。
可选的,还包括:
对于每一训练样本,以预设的用于确定样本所属的任务类别的共享的激活函数的待定参数为变量,根据所述第二表达式,确定所属任务类别的第四表达式;
根据每一训练样本的第四表达式和所属的任务类别,构建第二损失函数;以还根据所述第二损失函数获得所述最终的损失函数。
可选的,构建第二损失函数包括:
根据每一训练样本的第四表达式和所属的任务类别,采用交叉熵构建所述第二损失函数。
可选的,还包括:
根据每一训练样本的所述第一表达式和所述二表达式,构建第三损失函数,以还根据所述第三损失函数获得所述最终的损失函数。
可选的,构建第三损失函数还包括:
对于每一训练样本,确定第一表达式和第二表达式的弗罗贝尼乌斯范数;
根据每一训练样本的弗罗贝尼乌斯范数,构建所述第三损失函数。
可选的,获得所述最终的损失函数包括:
根据预设的函数权重,对所述第一损失函数、所述第二损失函数和所述第三损失函数加权求和,获得所述最终的损失函数。
可选的,确定所述待定参数的取值包括:
设置所述待定参数的初始值;
将设置初始值后的所述待定参数代入所述最终的损失函数中,进行迭代处理;
当所述迭代处理得到的所述待定参数符合收敛条件时,终止所述迭代处理,确定所述待定参数的取值;否则,继续所述迭代处理。
可选的,所述收敛条件包括:
所述迭代处理的次数达到预设的次数阈值;和/或,
将所述迭代处理得到的待定参数代入所述最终的损失函数,得到的训练结果值小于或等于预设的结果阈值。
可选的,所述获取表示目标文本内容的目标文本向量包括:
获取所述目标文本;
对所述目标文本进行分词处理,得到多个目标词语;
根据每个目标词语分别查询预设的反映词语与词向量之间对应关系的对照表,得到每个目标词语的词向量;
根据每个目标词语的词向量,得到所述目标文本向量。
可选的,还包括:
获取每一任务类别的训练样本,所述训练样本包括文本;
对每个训练样本的文本进行分词处理,得到对应训练样本的多个词语;
对于每个词语,根据对应训练样本中的其他词语,确定对应的词向量,得到所述对照表。
可选的,所述激活函数为归一化指数函数。
可选的,所述目标文本为投诉文本。
可选的,还包括:
根据所述目标文本在所述目标任务类别中的下级分类,对所述目标文本所针对的目标对象进行相应的处理。
可选的,还包括:
根据所述目标文本在所述目标任务类别中的下级分类,确定所述目标文本的回复文本,并向提交所述目标文本的用户呈现所述回复文本。
根据本说明书的第二方面,提供了一种文本分类装置,包括:
目标向量获取模块,用于获取表示目标文本内容的目标文本向量;
独有特征生成模块,用于基于所述目标文本向量和对应所述目标文本所属目标任务类别的目标神经网络,生成所述目标文本向量对应于所述目标任务类别的独有特征;
共享特征生成模块,用于基于所述目标文本向量和对应所有任务类别的共享的神经网络,生成所述目标文本向量对应于所述所有任务类别的共享特征;
下级分类确定模块,用于基于对应所述目标任务类别的目标激活函数,获得与所述独有特征和所述共享特征相映射的分类,作为所述目标文本在所述目标任务类别中的下级分类。
可选的,还包括:
训练样本获取模块,用于获取每一任务类别的训练样本,所述训练样本包括文本和对应的下级分类标签;
样本向量获取模块,用于分别获取表示每一训练样本的文本内容的文本向量;
第一表达式确定模块,用于对于每一训练样本,以所属任务类别对应的神经网络的待定参数为变量,根据文本向量确定独有特征的第一表达式;
第二表达式确定模块,用于对于每一训练样本,以共享的神经网络的待定参数为变量,根据文本向量确定共享特征的第二表达式;
第三表达式确定模块,用于对于每一训练样本,以所属任务类别对应的激活函数的待定参数为变量,根据所述第一表达式和所述第二表达式,确定在对应任务类别中的下级分类的第三表达式;
第一损失函数构建模块,用于根据每一训练样本的所述第三表达式和下级分类标签,构建第一损失函数;
最终损失函数获得模块,用于至少根据所述第一损失函数获得最终的损失函数;
网络函数训练模块,用于根据所述最终的损失函数,确定所述共享的神经网络、及每一任务类别的神经网络和激活函数的待定参数的取值,完成对所述共享的神经网络、及每一任务类别的神经网络和激活函数的训练。
可选的,所述第一损失函数构建模块还用于:
对于每一任务类别,根据每一训练样本的所述第三表达式和下级分类标签,采用交叉熵构建对应任务类别的损失项;
根据每一任务类别的损失项,得到所述第一损失函数。
可选的,还包括:
用于对于每一训练样本,以预设的用于确定样本所属的任务类别的共享的激活函数的待定参数为变量,根据所述第二表达式,确定所属任务类别的第四表达式的模块;
用于根据每一训练样本的第四表达式和所属的任务类别,构建第二损失函数的模块;所述最终损失函数获得模块还根据所述第二损失函数获得所述最终的损失函数。
可选的,构建第二损失函数包括:
根据每一训练样本的第四表达式和所属的任务类别,采用交叉熵构建所述第二损失函数。
可选的,还包括:
用于根据每一训练样本的所述第一表达式和所述二表达式,构建第三损失函数的模块,所述最终损失函数获得模块还根据所述第三损失函数获得所述最终的损失函数。
可选的,构建第三损失函数还包括:
对于每一训练样本,确定第一表达式和第二表达式的弗罗贝尼乌斯范数;
根据每一训练样本的弗罗贝尼乌斯范数,构建所述第三损失函数。
可选的,所述最终损失函数获得模块还用于:
根据预设的函数权重,对所述第一损失函数、所述第二损失函数和所述第三损失函数加权求和,获得所述最终的损失函数。
可选的,所述网络函数训练模块还用于:
设置所述待定参数的初始值;
将设置初始值后的所述待定参数代入所述最终的损失函数中,进行迭代处理;
当所述迭代处理得到的所述待定参数符合收敛条件时,终止所述迭代处理,确定所述待定参数的取值;否则,继续所述迭代处理。
可选的,所述收敛条件包括:
所述迭代处理的次数达到预设的次数阈值;和/或,
将所述迭代处理得到的待定参数代入所述最终的损失函数,得到的训练结果值小于或等于预设的结果阈值。
可选的,所述目标向量获取模块还用于:
获取所述目标文本;
对所述目标文本进行分词处理,得到多个目标词语;
根据每个目标词语分别查询预设的反映词语与词向量之间对应关系的对照表,得到每个目标词语的词向量;
根据每个目标词语的词向量,得到所述目标文本向量。
可选的,还包括:
用于获取每一任务类别的训练样本,所述训练样本包括文本的模块;
用于对每个训练样本的文本进行分词处理,得到对应训练样本的多个词语的模块;
用于对于每个词语,根据对应训练样本中的其他词语,确定对应的词向量,得到所述对照表的模块。
可选的,所述激活函数为归一化指数函数。
可选的,所述目标文本为投诉文本。
可选的,还包括:
用于根据所述目标文本在所述目标任务类别中的下级分类,对所述目标文本所针对的目标对象进行相应的处理的模块。
可选的,还包括:
用于根据所述目标文本在所述目标任务类别中的下级分类,确定所述目标文本的回复文本,并向提交所述目标文本的用户呈现所述回复文本的模块。
根据本说明书的第三方面,提供了一种电子设备,包括:处理器和存储器,所述存储器用于存储可执行的指令,所述指令用于控制所述处理器执行根据本说明书第一方面所述的方法。
通过以下参照附图对本说明书的示例性实施例的详细描述,本说明书的其它特征及其优点将会变得清楚。
附图说明
被结合在说明书中并构成说明书的一部分的附图示出了本说明书的实施例,并且连同其说明一起用于解释本说明书的原理。
图1是可用于实现一个实施例的文本分类系统的硬件配置的框图。
图2示出了一个实施例的文本分类方法的流程图。
图3示出了一个实施例的文本分类场景的示意图。
图4示出了另一个实施例的文本分类方法的流程图。
图5示出了文本分类方法的一个例子的流程图。
图6示出了一个实施例的文本分类装置的框图。
图7示出了另一个实施例的文本分类装置的框图。
图8示出了一个实施例的电子设备的框图。
具体实施方式
现在将参照附图来详细描述本说明书的各种示例性实施例。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本说明书及其应用或使用的任何限制。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
<硬件配置>
图1为可以应用根据本说明书一个实施例的文本分类方法的一种文本分类系统的组成结构示意图。
如图1所示,本实施例的文本分类系统1000包括服务器1100、终端设备1200以及网络1300。
服务器1100例如可以是刀片服务器、机架式服务器等,服务器1100也可以是部署在云端的服务器集群,在此不做限定。
如图1所示,服务器1100可以包括处理器1110、存储器1120、接口装置1130、通信装置1140、显示装置1150和输入装置1160。处理器1110例如可以是中央处理器CPU等。存储器1120例如包括ROM(只读存储器)、RAM(随机存取存储器)、诸如硬盘的非易失性存储器等。接口装置1130例如包括USB接口、串行接口等。通信装置1140例如能够进行有线或无线通信。显示装置1150例如是液晶显示屏。输入装置1160例如可以包括触摸屏、键盘等。
本实施例中,服务器1100的存储器1120用于存储指令,该指令用于控制处理器1110进行操作以执行本说明书任意实施例的文本分类方法。技术人员可以根据本说明书所公开方案设计指令。指令如何控制处理器进行操作,这是本领域公知,故在此不再详细描述。
本领域技术人员应当理解,尽管在图1中示出了服务器1100的多个装置,但是,本说明书实施例的服务器1100可以仅涉及其中的部分装置,例如,只涉及处理器1110和存储器1120。
如图1所示,终端设备1200可以包括处理器1210、存储器1220、接口装置1230、通信装置1240、显示装置1250、输入装置1260、音频输出装置1270、音频输入装置1280,等等。其中,处理器1210可以是中央处理器CPU、微处理器MCU等。存储器1220例如包括ROM(只读存储器)、RAM(随机存取存储器)、诸如硬盘的非易失性存储器等。接口装置1230例如包括USB接口、耳机接口等。通信装置1240例如能够进行有线或无线通信。显示装置1250例如是液晶显示屏、触摸显示屏等。输入装置1260例如可以包括触摸屏、键盘等。终端设备1200可以通过音频输出装置1270输出音频信息,该音频输出装置1270例如包括扬声器。终端设备1200可以通过音频拾取装置1280拾取用户输入的语音信息,该音频拾取装置1280例如包括麦克风。
终端设备1200可以是智能手机、便携式电脑、台式计算机、平板电脑等可以支持业务系统运行的任意设备。
在本实施例中,终端设备1200的存储器1220用于存储指令,所述指令用于控制所述处理器1210进行操作以支持实现根据本说明书任意实施例的文本分类方法。技术人员可以根据本说明书所公开方案设计指令。指令如何控制处理器进行操作,这是本领域公知,故在此不再详细描述。
本领域技术人员应当理解,尽管在图1中示出了终端设备1200的多个装置,但是,本说明书实施例的终端设备1200可以仅涉及其中的部分装置,例如,只涉及处理器1210、存储器1220、显示装置1250、输入装置1260等。
通信网络1300可以是无线网络也可以是有线网络,可以是局域网也可以是广域网。终端设备1200可以通过通信网络1300与服务器1100进行通信。
图1所示的文本分类系统1000仅是解释性的,并且决不是为了要限制本说明书、其应用或用途。例如,尽管图1仅示出一个服务器1100和一个终端设备1200,但不意味着限制各自的数量,风险识别系统1000中可以包含多个服务器1100和/或多个终端设备1200。
<方法实施例>
图2为一个实施例的文本分类方法的示意性流程图。
在一个例子中,图2所示的方法可以仅由服务器或终端设备单独实施,也可以是由服务器和终端设备共同实施。在一个实施例中,终端设备可以是如图1所示的终端设备1200,服务器可以是如图1所示的服务器1100。
如图2所示,本实施例的方法包括如下步骤S202~S210:
步骤S202,获取表示目标文本内容的目标文本向量。
目标文本可以是由用户通过对应的终端设备针对一个任务类型所提交的文本。文本中可以是由至少一个句子组成,而每个句子可以是由至少一个词语组成。
如图3所示,终端设备的显示界面中可以提供多个任务类型的投诉入口,例如,任务类型1可以是欺诈骗钱,任务类型2可以是账户被盗,任务类型3可以是黄赌毒,任务类型4可以是恶意网站。
用户可以是点击对应的任务类型的投诉入口,终端设备响应于该点击操作,跳转至文本输入界面,以供用户输入目标文本。其中,用户所点击的投诉入口所对应的任务类型,即为目标任务类型。因此,目标文本可以是用户针对目标任务类型所提交的文本。
文本输入界面可以提供有文本输入框和提交按钮,在用户在文本输入框内输入目标文本之后,可以是点击提交按钮,将目标文本提交至执行本实施例的电子设备,以供该电子设备获取。
在本说明书的一个或多个实施例中,获取目标文本向量可以包括如下所示的步骤S2022~S2028:
步骤S2022,获取目标文本。
在本说明书的一个或多个实施例中,终端设备将目标文本提交至执行本实施例的电子设备后,可以是电子设备即时获取目标文本;也可以是电子设备按照设定频率来获取目标文本;还可以是电子设备在接收到指定指令的情况下获取目标文本。
步骤S2024,对目标文本进行分词处理,得到多个目标词语。
在本说明书的一个或多个实施例中,可以是通过预先选定的分词算法对目标文本进行分词处理。分词算法例如可以是基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法中的一个或多个。
例如,目标文本为“这个是诈骗交易”,那么,得到的多个目标词语可以包括“这个”、“是”、“诈骗”、“交易”。
步骤S2026,根据每个目标词语分别查询预设的反映词语和词向量之间对应关系的对照表,得到每个目标词语的词向量。
本实施例中的对照表,可以是预先人为设定的,也可以是通过机器学习得到的。该对照表可以反映每个预设词语的词向量。
在本说明书的一个或多个实施例中,该方法还可以包括得到该对照表的步骤,包括:
获取多个任务类型的训练样本,每个训练样本包括文本;分别对每个训练样本的文本进行分词处理,得到对应训练样本的多个词语;对于每个词语,根据对应训练样本中的其他词语,确定对应的词向量,得到该对照表。其中,其他词语可以是该词语所对应的训练样本的多个词语中,除该词语以外的词语。
在本实施例中,多个任务类型至少包括所有任务类型中的两个任务类型,且包括目标任务类型。
具体的,在确定每个词语的词向量的情况下,可以根据该词语所对应的其他词语来设定。如果两个词语对应的多个其他词语相同,那么,可以设置这两个词语的词向量较为相似。
例如,对于训练样本A的文本中的词语A,和训练样本B的文本中的词语B,在训练样本A和训练样本B的文本中,均包含词语C、词语D和词语E,那么,可以将词语A和词语B的词向量相似。
步骤S2028,根据每个目标词语的词向量,得到目标文本向量。
在本说明书的一个或多个实施例中,可以是按照每个目标词语在目标文本中的词序,根据每个目标词语的词向量得到目标文本向量。
例如,目标文本为“这个是诈骗交易”,多个目标词语“这个”、“是”、“诈骗”、“交易”的词向量分别为A1、A2、A3、A4,那么,得到的目标文本向量可以表示为(A1,A2,A3,A4)。
再例如,目标文本为“这个交易是诈骗”,多个目标词语“这个”、“交易”、“是”、“诈骗”的词向量分别为A1、A4、A2、A3,那么,得到的目标文本向量可以表示为(A1,A4,A2,A3)。
在本说明书的一个或多个实施例中,还可以是通过预设的用来产生词向量的相关模型(word to vector,Word2vec)来得到目标文本的目标文本向量。具体的,可以包括:获取目标文本;对目标文本进行分词处理,得到多个目标词语,基于Word2vec模型得到每个目标词语的词向量;根据每个目标词语的词向量,得到目标文本向量。
具体可以参照前述实施例中根据对照表得到目标文本向量的实施例,在此不再赘述。
步骤S204,基于目标文本向量、和对应该目标文本所属目标任务类别的目标神经网络,生成目标文本向量对应于目标任务类别的独有特征。
在本说明书的一个或多个实施例中,目标文本可以是用户针对某个任务类型所提交的文本。因此,可以确定该任务类别为目标文本所属的目标任务类别。
在本说明书的一个或多个实施例中,可以预先存储有对应每一任务类别的神经网络。对于每一任务类别的神经网络,可以根据输入的该任务类别的文本向量生成对应于该任务类别的独有特征。在一个实施例中,该独有特征可以表示为向量。
在本说明书的一个或多个实施例中,神经网络可以是长短期记忆网络(LongShort-Term Memory,LSTM)、卷积神经网络(Convolutional Neural Networks,CNN)、循环神经网络(Recurrent Neural Network,RNN)中的任意一种。
根据目标文本所属的目标任务类别,可以获取对应目标任务类别的目标神经网络。
基于目标文本向量和目标神经网络,可以生成目标文本向量对应于目标任务类别的独有特征。
步骤S206,基于目标文本向量、和对应所有任务类别的共享的神经网络,生成目标文本向量对应于所有任务类别的共享特征。
在本说明书的一个或多个实施例中,可以预先存储有一个对应所有任务类别的共享的神经网络。该共享的神经网络可以根据输入的任一任务类别的文本向量生成对应于所有任务类别的共享特征。在一个实施例中,该共享特征可以表示为向量。
对于所有的任务类别具有一个共享的神经网络,该共享的神经网络所生成的共享特征中,不包含针对每个任务类别相关的信息,但又蕴藏着所有任务类别的共性。因此,基于目标文本向量和共享的神经网络,就可以生成目标文本向量对应于所有任务类别的共享特征。
步骤S208,基于对应目标任务类别的目标激活函数,获得与独有特征和共享特征相映射的分类,作为目标文本在目标任务类别中的下级分类。
在本说明书的一个或多个实施例中,可以预先存储有对应每一任务类别的激活函数。对于每一任务类别的激活函数,可以根据输入的独有特征和共享特征,得到文本对应于该任务类别的每个下级分类的预测概率。
在本说明书的一个或多个实施例中,激活函数可以是归一化指数函数(softmax函数)。
根据目标文本所属的目标任务类别,可以获取对应目标任务类别的目标激活函数。
具体的,可以是将独有特征和共享特征共同作用于目标激活函数,得到目标文本对应于目标任务类别中的每个下级分类的预测概率,根据该预测概率,可以获得与独有特征和共享特征相映射的分类,即目标文本在目标任务类别中的下级分类。
例如,目标任务类别为黄赌毒,该目标任务类别具有3个下级分类,分别为色情、赌博、毒品,如果基于目标任务类别的目标激活函数、独有特征和共享特征,可以得到目标文本对应于色情、赌博、毒品这3个下级分类的预测概率分别为(0.1,0.85,0.05),那么,可以确定与独有特征和共享特征相映射的分类为赌博,即目标文本在目标任务类别中的下级分类为赌博。
在本说明书的一个或多个实施例中,目标文本为投诉文本。具体的,目标文本是针对目标对象所提出的投诉。
在此基础上,该方法还可以包括:根据目标文本在目标任务类别中的下级分类,对目标文本所针对的目标对象进行相应的处理。
例如,目标文本所投诉的对象可以是交易订单或者是交易收款方,那么,在根据本说明书的实施例的方法得到目标文本在目标任务类别中的下级分类为诈骗的情况下,可以对目标文本所投诉的交易订单进行退款处理,或者对目标文本所投诉的交易收款方进行处罚等处理。再例如,目标文本所投诉的对象可以是文章,在根据本说明书的实施例的方法得到目标文本在目标任务类别中的下级分类为色情,可以对目标文本所投诉的文章进行下架处理。再例如,目标文本所投诉的对象可以是产品,在根据本说明书的实施例的方法得到目标文本在目标任务类别中的下级分类为产品漏洞,可以将目标文本反馈给进行产品维护的业务部门进行修复。
在本说明书的一个或多个实施例中,该方法还可以包括:
根据目标文本在目标任务类别中的下级分类,确定目标文本的回复文本,并向提交目标文本的用户呈现回复文本。例如可以是如图3所示。
在一个实施例中,该方法可以实现提高文本在对应的任务类型中的下级分类的准确性。在一个实施例中,该方法可以提高投诉处理效率。在一个实施例中,该方法可以提高文本回复的准确性。在一个实施例中,该方法可以提升用户体验。在某些实施例中,可能同时具有上述效果中的多个。
在本说明书的一个或多个实施例中,该方法还可以包括如图4所示的步骤S402~S416:
步骤S402,获取每一任务类别的训练样本,训练样本包括文本和对应的下级分类标签。
步骤S404,分别获取表示每一训练样本的文本内容的文本向量。
在本说明书的一个或多个实施例中,可以是根据步骤S402中所获取的每一任务类别的训练样本来得到前述实施例中得到对照表或者是Word2vec模型的。那么,再根据该对照表或者Word2vec模型,就可以得到表示每一训练样本的文本内容的文本向量。具体可以参照前述的实施例,在此不再赘述。
在本说明书的一个或多个实施例中,可以是预先设置有对照表或者Word2vec模型,那么,参照前述的得到目标文本向量的方式,就可以得到表示每一训练样本的文本内容的文本向量,在此不再赘述。
步骤S406,对于每一训练样本,以所属任务类别对应的神经网络的待定参数为变量,根据文本向量确定独有特征的第一表达式。
例如,任务类型的数量可以是K,第k(k∈[1,K])个任务类型的第i个训练样本的文本向量可以表示为
Figure BDA0002213684360000151
以第k个任务类别对应的神经网络的待定参数
Figure BDA0002213684360000152
Figure BDA0002213684360000153
为变量,根据第k个任务类型的第i个训练样本的文本向量,确定第k个任务类型的第i个训练样本的独有特征的第一表达式,可以表示为:
Figure BDA0002213684360000154
步骤S408,对于每一训练样本,以共享的神经网络的待定参数为变量,根据文本向量确定共享特征的第二表达式。
例如,任务类型的数量可以是K,第k(k∈[1,K])个任务类型的第i个训练样本的文本向量可以表示为
Figure BDA0002213684360000155
以共享的神经网络的待定参数
Figure BDA0002213684360000156
Figure BDA0002213684360000157
为变量,根据第k个任务类型的第i个训练样本的文本向量,确定第k个任务类型的第i个训练样本的共享特征的第二表达式,可以表示为:
步骤S410,对于每一训练样本,以所属任务类别对应的激活函数的待定参数为变量,根据第一表达式和第二表达式确定在对应任务类别中的下级分类的第三表达式。
例如,任务类型的数量可以是K,第k(k∈[1,K])个任务类型的第i个训练样本的文本向量可以表示为
Figure BDA0002213684360000159
以第k个任务类别对应的激活函数的待定参数
Figure BDA00022136843600001510
为变量,根据第k个任务类型的第i个训练样本的第一表达式和第二表达式
Figure BDA00022136843600001512
确定第k个任务类型的第i个训练样本的独有特征的第一表达式,可以表示为:
Figure BDA00022136843600001513
步骤S412,根据每一训练样本的第三表达式和下级分类标签,构建第一损失函数。
在本说明书的一个或多个实施例中,构建第一损失函数的步骤可以包括如下所示的步骤S4122~S4124:
步骤S4122,对于每一任务类别,根据每一训练样本的第三表达式和下级分类标签,采用交叉熵构建对应任务类别的损失项。
交叉熵(Cross Entropy)是Shannon信息论中一个重要概念,主要用于度量两个概率分布间的差异性信息。
例如,任务类型的数量可以是K,第k(k∈[1,K])个任务类型的训练样本的数量可以是Nk。第k个任务类型的第i个训练样本的文本向量可以表示为
Figure BDA0002213684360000161
根据第k个任务类型的第i个训练样本的第三表达式
Figure BDA0002213684360000162
和下级分类标签采用交叉熵构建第k个任务类型的损失项,可以表示为:
步骤S4124,根据每一任务类别的损失项,得到第一损失函数。
在本说明书的一个或多个实施例中,可以是根据预设的类别权重,对每个任务类别的损失项进行加权求和,得到第一损失函数。
类别权重可以是预先根据应用场景或具体需求来针对每个任务类别设定,不同任务类别所对应的类别权重可以相同,也可以不同。
例如,任务类型的数量可以是K,第k(k∈[1,K])个任务类型类别权重可以设定为αk,那么,根据每一任务类别的损失项,得到的第一损失函数可以表示为:
步骤S414,至少根据第一损失函数获得最终的损失函数。
在本说明书的一个或多个实施例中,可以将第一损失函数作为最终的损失函数。
在本说明书的一个或多个实施例中,该方法还可以包括:对于每一训练样本,以预设的用于确定样本所属的任务类别的共享的激活函数的待定参数为变量,根据第二表达式,确定所属任务类别的第四表达式;根据每一训练样本的第四表达式和所属的任务类别,构建第二损失函数,以还根据第二损失函数获得最终的损失函数。
例如,任务类型的数量可以是K,第k(k∈[1,K])个任务类型的第i个训练样本的文本向量可以表示为
Figure BDA0002213684360000166
以共享的激活函数的待定参数
Figure BDA0002213684360000167
为变量,根据第k个任务类型的第i个训练样本的第二表达式
Figure BDA0002213684360000171
确定第k个任务类型的第i个训练样本所属任务类别的第四表达式,可以表示为:
Figure BDA0002213684360000172
在本说明书的一个或多个实施例中,构建第二损失函数可以包括:根据每一训练样本的第四表达式和所属的任务类别,采用交叉熵构建第二损失函数。
进一步地,还可以根据预设的共享的神经网络的指定超参数构建第二损失函数。
共享的神经网络的指定超参数可以是预先根据应用场景或具体需求设定好的。例如,该超参数可以是λs
例如,根据第k个任务类型的第i个训练样本的第四表达式
Figure BDA0002213684360000173
所属的任务类别
Figure BDA0002213684360000174
及共享的神经网络的指定超参数λs,得到的第二损失函数可以表示为:
Figure BDA0002213684360000175
通过构建第二损失函数,可以保证文本的共享特征中不包含对应任务类型的独有信息。相当于是利用共享的激活函数和共享的神经网络进行对抗训练,使得共享的激活函数根据共享的神经网络输出的文本的共享特征,无法确定文本所属的任务类型。
在本实施例的一个例子中,可以是根据预设的函数权重,对第一损失函数L1和第二损失函数L2进行加权求和,得到最终的目标函数。其中,函数权重可以是预先根据应用场景或具体需求针对每个损失函数设定的。例如,可以设定第一损失函数的函数权重为λ1,设定第二损失函数的函数权重为λ2。那么,最终的损失函数可以表示为:L=λ1*L1+λ2*L2。
在本说明书的一个或多个实施例中,该方法还可以包括:根据每一训练样本的第一表达式和二表达式,构建第三损失函数,以还根据所述第三损失函数获得所述最终的损失函数。
在本说明书的一个或多个实施例中,构建第三损失函数可以包括:
对于每一训练样本,确定第一表达式和第二表达式的弗罗贝尼乌斯范数;根据每一训练样本的弗罗贝尼乌斯范数,构建第三损失函数。
在一个实施例中,第一表达式和第二表达式可以均表示为1*M的向量,那么,可以是确定第一表达式与第二表达式的弗罗贝尼乌斯范数。弗罗贝尼乌斯范数,简称F-范数。
例如,根据第k(k∈[1,K])个任务类型的第i个训练样本的第一表达式和第二表达式
Figure BDA0002213684360000182
确定第k个任务类型的第i个训练样本的弗罗贝尼乌斯范数可以表示为:
Figure BDA0002213684360000183
根据每一训练样本的弗罗贝尼乌斯范数,构建第三损失函数,具体可以是确定所有任务类型的所有训练样本的弗罗贝尼乌斯范数的总和,作为第三损失函数,可以表示为:
如果每一训练样本的弗罗贝尼乌斯范数结果趋向于0,则第一表达式和第二表达式的转置为正交矩阵,相互垂直,即第一表达式和第二表达式的转置相互独立,那么,第一表达式和第二表达式也相互独立。这就使得每个任务类型的神经网络输出的独有特征和共享的神经网络输出的共享特征相互独立。
在本说明书的一个或多个实施例中,获得最终的损失函数包括:
根据预设的函数权重,对第一损失函数、第二损失函数和第三损失函数加权求和,获得最终的损失函数。
在本实施例的一个例子中,可以是根据预设的函数权重,对第一损失函数L1、第二损失函数L2和第三损失函数L3进行加权求和,得到最终的目标函数。其中,函数权重可以是预先根据应用场景或具体需求针对每个损失函数设定的。例如,可以设定第一损失函数的函数权重为λ1,设定第二损失函数的函数权重为λ2,设定第三损失函数的函数权重为λ3。那么,最终的损失函数可以表示为:L=λ1*L1+λ2*L2+λ3*L3。
在本说明书的一个实施例中,根据每个文本生成的独有特征和共享特征之间所包含的相同的信息尽量少,可以减少信息冗余。
步骤S416,根据最终的损失函数,确定共享的神经网络、及每一任务类别的神经网络和激活函数的待定参数的取值,完成对共享的神经网络、及每一任务类别的神经网络和激活函数的训练。
在本说明书的一个或多个实施例中,确定待定参数的取值包括如下所示的步骤S4162~S4166:
步骤S4162,设置待定参数的初始值。
本实施例中的待定参数,可以包括对应每个任务类型的神经网络的待定参数、对应每个任务类型的激活函数的待定参数、对应共享的神经网络的待定参数和对应共享的激活函数的待定参数。
在本说明书的一个或多个实施例中,该初始值可以是根据应用场景或具体需求设置。
步骤S4164,将设置初始值后的待定参数代入最终的损失函数中,进行迭代处理。
步骤S4166,当迭代处理得到的待定参数符合收敛条件时,终止迭代处理,确定待定参数的取值;否则,继续迭代处理。
在本说明书的一个或多个实施例中,收敛条件包括:
迭代处理的次数达到预设的次数阈值;和/或,
将迭代处理得到的待定参数代入最终的损失函数,得到的训练结果值小于或等于预设的结果阈值。
在本说明书的一个或多个实施例中,结果阈值可以是根据应用场景或具体需求预先设定的。
<例子1>
下面以一个具体的例子来说明文本分类方法实施的过程。如图5所示,该方法包括:
步骤S502,获取每一任务类别的训练样本,训练样本包括文本和对应的下级分类标签。
步骤S504,分别获取表示每一训练样本的文本内容的文本向量。
步骤S506,对于每一训练样本,以所属任务类别对应的神经网络的待定参数为变量,根据文本向量确定独有特征的第一表达式。
任务类型的数量可以是K,第k(k∈[1,K])个任务类型的第i个训练样本的文本向量可以表示为
Figure BDA0002213684360000201
第k个任务类型的第i个训练样本的文本向量可以表示为
Figure BDA0002213684360000202
以第k个任务类别对应的神经网络的待定参数
Figure BDA0002213684360000203
Figure BDA0002213684360000204
为变量,根据第k个任务类型的第i个训练样本的文本向量,确定第k个任务类型的第i个训练样本的独有特征的第一表达式,可以表示为:
Figure BDA0002213684360000205
步骤S508,对于每一训练样本,以共享的神经网络的待定参数为变量,根据文本向量确定共享特征的第二表达式。
以共享的神经网络的待定参数
Figure BDA0002213684360000207
为变量,根据第k个任务类型的第i个训练样本的文本向量确定第k个任务类型的第i个训练样本的共享特征的第二表达式,可以表示为:
Figure BDA0002213684360000209
步骤S510,对于每一训练样本,以所属任务类别对应的激活函数的待定参数为变量,根据第一表达式和第二表达式确定在对应任务类别中的下级分类的第三表达式。
以第k个任务类别对应的激活函数的待定参数
Figure BDA00022136843600002010
为变量,根据第k个任务类型的第i个训练样本的第一表达式
Figure BDA00022136843600002011
和第二表达式
Figure BDA00022136843600002012
确定第k个任务类型的第i个训练样本的独有特征的第一表达式,可以表示为:
Figure BDA00022136843600002013
步骤S512,对于每一任务类别,根据每一训练样本的第三表达式和下级分类标签,采用交叉熵构建对应任务类别的损失项。
根据第k个任务类型的第i个训练样本的第三表达式
Figure BDA00022136843600002014
和下级分类标签
Figure BDA00022136843600002015
采用交叉熵构建第k个任务类型的损失项,可以表示为:
Figure BDA00022136843600002016
步骤S514,根据每一任务类别的损失项,得到第一损失函数。
第k个任务类型类别权重可以设定为αk,根据每一任务类别的损失项,得到的第一损失函数可以表示为:
Figure BDA0002213684360000211
步骤S516,对于每一训练样本,以预设的用于确定样本所属的任务类别的共享的激活函数的待定参数为变量,根据第二表达式,确定所属任务类别的第四表达式。
以共享的激活函数的待定参数
Figure BDA0002213684360000212
为变量,根据第k个任务类型的第i个训练样本的第二表达式
Figure BDA0002213684360000213
确定第k个任务类型的第i个训练样本所属任务类别的第四表达式,可以表示为:
Figure BDA0002213684360000214
步骤S518,根据每一训练样本的第四表达式和所属的任务类别,构建第二损失函数。
根据第k个任务类型的第i个训练样本的第四表达式
Figure BDA0002213684360000215
所属的任务类别
Figure BDA0002213684360000216
和共享的神经网络的指定超参数λs,得到的第二损失函数可以表示为:
Figure BDA0002213684360000217
步骤S520,对于每一训练样本,确定第一表达式和第二表达式的弗罗贝尼乌斯范数。
确定第k个任务类型的第i个训练样本的弗罗贝尼乌斯范数可以表示为:
Figure BDA0002213684360000218
步骤S522,根据每一训练样本的弗罗贝尼乌斯范数,构建第三损失函数。
第三损失函数可以表示为:
Figure BDA0002213684360000219
步骤S524,根据预设的函数权重,对第一损失函数、第二损失函数和第三损失函数加权求和,获得最终的损失函数。
例如,可以设定第一损失函数的函数权重为λ1,设定第二损失函数的函数权重为λ2,设定第三损失函数的函数权重为λ3。那么,最终的损失函数可以表示为:L=λ1*L1+λ2*L2+λ3*L3。
步骤S526,根据最终的损失函数,确定共享的神经网络、及每一任务类别的神经网络和激活函数的待定参数的取值,完成对共享的神经网络、及每一任务类别的神经网络和激活函数的训练。
<例子2>
在例子1的基础上,在获取到目标文本的情况下,就可以通过获取表示目标文本内容的目标文本向量;基于目标文本向量、和对应该目标文本所属目标任务类别的目标神经网络,生成目标文本向量对应于目标任务类别的独有特征;基于目标文本向量、和对应所有任务类别的共享的神经网络,生成目标文本向量对应于所有任务类别的共享特征;基于对应目标任务类别的目标激活函数,获得与独有特征和共享特征相映射的分类,作为目标文本在目标任务类别中的下级分类。
<装置>
在本实施例中,提供一种文本分类装置6000。如图6所示,该文本分类装置6000包括目标向量获取模块6100、独有特征生成模块6200、共享特征生成模块6300和下级分类确定模块6400。该目标向量获取模块6100用于获取表示目标文本内容的目标文本向量;该独有特征生成模块6200用于基于目标文本向量和对应目标文本所属目标任务类别的目标神经网络,生成目标文本向量对应于目标任务类别的独有特征;该共享特征生成模块6300用于基于目标文本向量和对应所有任务类别的共享的神经网络,生成目标文本向量对应于所有任务类别的共享特征;该下级分类确定模块6400用于基于对应目标任务类别的目标激活函数,获得与独有特征和共享特征相映射的分类,作为目标文本在目标任务类别中的下级分类。
在本说明书的一个或多个实施例中,文本分类装置6000还可以包括如图7所示的训练样本获取模块7100、样本向量获取模块7200、第一表达式确定模块7300、第二表达式确定模块7400、第三表达式确定模块7500、第一损失函数构建模块7600、最终损失函数获得模块7700和网络函数训练模块7800。
上述训练样本获取模块7100用于获取每一任务类别的训练样本,训练样本包括文本和对应的下级分类标签。
上述样本向量获取模块7200用于分别获取表示每一训练样本的文本内容的文本向量。
上述第一表达式确定模块7300用于对于每一训练样本,以所属任务类别对应的神经网络的待定参数为变量,根据文本向量确定独有特征的第一表达式。
上述第二表达式确定模块7400用于对于每一训练样本,以共享的神经网络的待定参数为变量,根据文本向量确定共享特征的第二表达式。
上述第三表达式确定模块7500用于对于每一训练样本,以所属任务类别对应的激活函数的待定参数为变量,根据第一表达式和第二表达式,确定在对应任务类别中的下级分类的第三表达式。
上述第一损失函数构建模块7600用于根据每一训练样本的第三表达式和下级分类标签,构建第一损失函数。
上述最终损失函数获得模块7700用于至少根据第一损失函数获得最终的损失函数。
上述网络函数训练模块7800用于根据最终的损失函数,确定共享的神经网络、及每一任务类别的神经网络和激活函数的待定参数的取值,完成对共享的神经网络、及每一任务类别的神经网络和激活函数的训练。
在本说明书的一个或多个实施例中,第一损失函数构建模块7600还可以用于:
对于每一任务类别,根据每一训练样本的第三表达式和下级分类标签,采用交叉熵构建对应任务类别的损失项;
根据每一任务类别的损失项,得到第一损失函数。
在本说明书的一个或多个实施例中,该文本训练装置6000还可以包括:
用于对于每一训练样本,以预设的用于确定样本所属的任务类别的共享的激活函数的待定参数为变量,根据第二表达式,确定所属任务类别的第四表达式的模块;
用于根据每一训练样本的第四表达式和所属的任务类别,构建第二损失函数的模块;最终损失函数获得模块还根据第二损失函数获得最终的损失函数。
在本说明书的一个或多个实施例中,构建第二损失函数包括:
根据每一训练样本的第四表达式和所属的任务类别,采用交叉熵构建第二损失函数。
在本说明书的一个或多个实施例中,该文本训练装置6000还可以包括:
用于根据每一训练样本的第一表达式和二表达式,构建第三损失函数的模块,最终损失函数获得模块还根据第三损失函数获得最终的损失函数。
在本说明书的一个或多个实施例中,构建第三损失函数还包括:
对于每一训练样本,确定第一表达式和第二表达式的弗罗贝尼乌斯范数;
根据每一训练样本的弗罗贝尼乌斯范数,构建第三损失函数。
在本说明书的一个或多个实施例中,最终损失函数获得模块7700还可以用于:
根据预设的函数权重,对第一损失函数、第二损失函数和第三损失函数加权求和,获得最终的损失函数。
在本说明书的一个或多个实施例中,网络函数训练模块7800还可以用于:
设置待定参数的初始值;
将设置初始值后的待定参数代入最终的损失函数中,进行迭代处理;
当迭代处理得到的待定参数符合收敛条件时,终止迭代处理,确定待定参数的取值;否则,继续迭代处理。
在本说明书的一个或多个实施例中,收敛条件包括:
迭代处理的次数达到预设的次数阈值;和/或,
将迭代处理得到的待定参数代入最终的损失函数,得到的训练结果值小于或等于预设的结果阈值。
在本说明书的一个或多个实施例中,目标向量获取模块6100还可以用于:
获取目标文本;
对目标文本进行分词处理,得到多个目标词语;
根据每个目标词语分别查询预设的反映词语与词向量之间对应关系的对照表,得到每个目标词语的词向量;
根据每个目标词语的词向量,得到目标文本向量。
在本说明书的一个或多个实施例中,该文本训练装置6000还可以包括:
用于获取每一任务类别的训练样本,训练样本包括文本的模块;
用于对每个训练样本的文本进行分词处理,得到对应训练样本的多个词语的模块;
用于对于每个词语,根据对应训练样本中的其他词语,确定对应的词向量,得到对照表的模块。
在本说明书的一个或多个实施例中,激活函数为归一化指数函数。
在本说明书的一个或多个实施例中,目标文本为投诉文本。
在本说明书的一个或多个实施例中,该文本训练装置6000还可以包括:
用于根据目标文本在目标任务类别中的下级分类,对目标文本所针对的目标对象进行相应的处理的模块。
在本说明书的一个或多个实施例中,该文本训练装置6000还可以包括:
用于根据目标文本在目标任务类别中的下级分类,确定目标文本的回复文本,并向提交目标文本的用户呈现回复文本的模块。
本领域技术人员应当明白,可以通过各种方式来实现文本分类装置6000。例如,可以通过指令配置处理器来实现文本分类装置6000。例如,可以将指令存储在ROM中,并且当启动设备时,将指令从ROM读取到可编程器件中来实现文本分类装置6000。例如,可以将文本分类装置6000固化到专用器件(例如ASIC)中。可以将文本分类装置6000分成相互独立的单元,或者可以将它们合并在一起实现。文本分类装置6000可以通过上述各种实现方式中的一种来实现,或者可以通过上述各种实现方式中的两种或更多种方式的组合来实现。
在本实施例中,文本分类装置6000可以具有多种实现形式,例如,文本分类装置6000可以是任何的提供文本分类功能的软件产品或者应用程序中运行的功能模块,或者是这些软件产品或者应用程序的外设嵌入件、插件、补丁件等,还可以是这些软件产品或者应用程序本身。
<电子设备>
在本实施例中,还提供一种电子设备8000。该电子设备8000可以包括如图1中所示的服务器1100,也可以是如图1中所示的终端设备1200。
如图8所示,电子设备8000还可以包括处理器8100和存储器8200,该存储器8200用于存储可执行的指令;该处理器8100用于根据指令的控制运行电子设备8000执行根据本说明书任意实施例的文本分类方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例中的说明的都是与其他实施例的不同之处。尤其,对于装置实施例和电子设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书可以是电子设备、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本说明书的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本说明书操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本说明书的各个方面。
这里参照根据本说明书实施例的方法、装置和计算机程序产品的流程图和/或框图描述了本说明书的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本说明书的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。
以上已经描述了本说明书的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本说明书的范围由所附权利要求来限定。
上述对本说明书特定实施例进行了描述。其他实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的效果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连接顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

Claims (33)

1.一种文本分类方法,包括:
获取表示目标文本内容的目标文本向量;
基于所述目标文本向量和对应所述目标文本所属目标任务类别的目标神经网络,生成所述目标文本向量对应于所述目标任务类别的独有特征;
基于所述目标文本向量和对应所有任务类别的共享的神经网络,生成所述目标文本向量对应于所述所有任务类别的共享特征;
基于对应所述目标任务类别的目标激活函数,获得与所述独有特征和所述共享特征相映射的分类,作为所述目标文本在所述目标任务类别中的下级分类。
2.根据权利要求1所述的方法,还包括:
获取每一任务类别的训练样本,所述训练样本包括文本和对应的下级分类标签;
分别获取表示每一训练样本的文本内容的文本向量;
对于每一训练样本,以所属任务类别对应的神经网络的待定参数为变量,根据文本向量确定独有特征的第一表达式;
对于每一训练样本,以共享的神经网络的待定参数为变量,根据文本向量确定共享特征的第二表达式;
对于每一训练样本,以所属任务类别对应的激活函数的待定参数为变量,根据所述第一表达式和所述第二表达式,确定在对应任务类别中的下级分类的第三表达式;
根据每一训练样本的所述第三表达式和下级分类标签,构建第一损失函数;
至少根据所述第一损失函数获得最终的损失函数;
根据所述最终的损失函数,确定所述共享的神经网络、及每一任务类别的神经网络和激活函数的待定参数的取值,完成对所述共享的神经网络、及每一任务类别的神经网络和激活函数的训练。
3.根据权利要求2所述的方法,构建第一损失函数包括:
对于每一任务类别,根据每一训练样本的所述第三表达式和下级分类标签,采用交叉熵构建对应任务类别的损失项;
根据每一任务类别的损失项,得到所述第一损失函数。
4.根据权利要求2所述的方法,还包括:
对于每一训练样本,以预设的用于确定样本所属的任务类别的共享的激活函数的待定参数为变量,根据所述第二表达式,确定所属任务类别的第四表达式;
根据每一训练样本的第四表达式和所属的任务类别,构建第二损失函数;以还根据所述第二损失函数获得所述最终的损失函数。
5.根据权利要求4所述的方法,构建第二损失函数包括:
根据每一训练样本的第四表达式和所属的任务类别,采用交叉熵构建所述第二损失函数。
6.根据权利要求4所述的方法,还包括:
根据每一训练样本的所述第一表达式和所述二表达式,构建第三损失函数,以还根据所述第三损失函数获得所述最终的损失函数。
7.根据权利要求6所述的方法,构建第三损失函数还包括:
对于每一训练样本,确定第一表达式和第二表达式的弗罗贝尼乌斯范数;
根据每一训练样本的弗罗贝尼乌斯范数,构建所述第三损失函数。
8.根据权利要求6所述的方法,获得所述最终的损失函数包括:
根据预设的函数权重,对所述第一损失函数、所述第二损失函数和所述第三损失函数加权求和,获得所述最终的损失函数。
9.根据权利要求2所述的方法,确定所述待定参数的取值包括:
设置所述待定参数的初始值;
将设置初始值后的所述待定参数代入所述最终的损失函数中,进行迭代处理;
当所述迭代处理得到的所述待定参数符合收敛条件时,终止所述迭代处理,确定所述待定参数的取值;否则,继续所述迭代处理。
10.根据权利要求9所述的方法,所述收敛条件包括:
所述迭代处理的次数达到预设的次数阈值;和/或,
将所述迭代处理得到的待定参数代入所述最终的损失函数,得到的训练结果值小于或等于预设的结果阈值。
11.根据权利要求1所述的方法,所述获取表示目标文本内容的目标文本向量包括:
获取所述目标文本;
对所述目标文本进行分词处理,得到多个目标词语;
根据每个目标词语分别查询预设的反映词语与词向量之间对应关系的对照表,得到每个目标词语的词向量;
根据每个目标词语的词向量,得到所述目标文本向量。
12.根据权利要求11所述的方法,还包括:
获取每一任务类别的训练样本,所述训练样本包括文本;
对每个训练样本的文本进行分词处理,得到对应训练样本的多个词语;
对于每个词语,根据对应训练样本中的其他词语,确定对应的词向量,得到所述对照表。
13.根据权利要求1所述的方法,所述激活函数为归一化指数函数。
14.根据权利要求1至13中任一项所述的方法,所述目标文本为投诉文本。
15.根据权利要求14所述的方法,还包括:
根据所述目标文本在所述目标任务类别中的下级分类,对所述目标文本所针对的目标对象进行相应的处理。
16.根据权利要求1至13中任一项所述的方法,还包括:
根据所述目标文本在所述目标任务类别中的下级分类,确定所述目标文本的回复文本,并向提交所述目标文本的用户呈现所述回复文本。
17.一种文本分类装置,包括:
目标向量获取模块,用于获取表示目标文本内容的目标文本向量;
独有特征生成模块,用于基于所述目标文本向量和对应所述目标文本所属目标任务类别的目标神经网络,生成所述目标文本向量对应于所述目标任务类别的独有特征;
共享特征生成模块,用于基于所述目标文本向量和对应所有任务类别的共享的神经网络,生成所述目标文本向量对应于所述所有任务类别的共享特征;
下级分类确定模块,用于基于对应所述目标任务类别的目标激活函数,获得与所述独有特征和所述共享特征相映射的分类,作为所述目标文本在所述目标任务类别中的下级分类。
18.根据权利要求17所述的装置,还包括:
训练样本获取模块,用于获取每一任务类别的训练样本,所述训练样本包括文本和对应的下级分类标签;
样本向量获取模块,用于分别获取表示每一训练样本的文本内容的文本向量;
第一表达式确定模块,用于对于每一训练样本,以所属任务类别对应的神经网络的待定参数为变量,根据文本向量确定独有特征的第一表达式;
第二表达式确定模块,用于对于每一训练样本,以共享的神经网络的待定参数为变量,根据文本向量确定共享特征的第二表达式;
第三表达式确定模块,用于对于每一训练样本,以所属任务类别对应的激活函数的待定参数为变量,根据所述第一表达式和所述第二表达式,确定在对应任务类别中的下级分类的第三表达式;
第一损失函数构建模块,用于根据每一训练样本的所述第三表达式和下级分类标签,构建第一损失函数;
最终损失函数获得模块,用于至少根据所述第一损失函数获得最终的损失函数;
网络函数训练模块,用于根据所述最终的损失函数,确定所述共享的神经网络、及每一任务类别的神经网络和激活函数的待定参数的取值,完成对所述共享的神经网络、及每一任务类别的神经网络和激活函数的训练。
19.根据权利要求18所述的装置,所述第一损失函数构建模块还用于:
对于每一任务类别,根据每一训练样本的所述第三表达式和下级分类标签,采用交叉熵构建对应任务类别的损失项;
根据每一任务类别的损失项,得到所述第一损失函数。
20.根据权利要求18所述的装置,还包括:
用于对于每一训练样本,以预设的用于确定样本所属的任务类别的共享的激活函数的待定参数为变量,根据所述第二表达式,确定所属任务类别的第四表达式的模块;
用于根据每一训练样本的第四表达式和所属的任务类别,构建第二损失函数的模块;所述最终损失函数获得模块还根据所述第二损失函数获得所述最终的损失函数。
21.根据权利要求20所述的装置,构建第二损失函数包括:
根据每一训练样本的第四表达式和所属的任务类别,采用交叉熵构建所述第二损失函数。
22.根据权利要求20所述的装置,还包括:
用于根据每一训练样本的所述第一表达式和所述二表达式,构建第三损失函数的模块,所述最终损失函数获得模块还根据所述第三损失函数获得所述最终的损失函数。
23.根据权利要求22所述的装置,构建第三损失函数还包括:
对于每一训练样本,确定第一表达式和第二表达式的弗罗贝尼乌斯范数;
根据每一训练样本的弗罗贝尼乌斯范数,构建所述第三损失函数。
24.根据权利要求22所述的装置,所述最终损失函数获得模块还用于:
根据预设的函数权重,对所述第一损失函数、所述第二损失函数和所述第三损失函数加权求和,获得所述最终的损失函数。
25.根据权利要求18所述的装置,所述网络函数训练模块还用于:
设置所述待定参数的初始值;
将设置初始值后的所述待定参数代入所述最终的损失函数中,进行迭代处理;
当所述迭代处理得到的所述待定参数符合收敛条件时,终止所述迭代处理,确定所述待定参数的取值;否则,继续所述迭代处理。
26.根据权利要求25所述的装置,所述收敛条件包括:
所述迭代处理的次数达到预设的次数阈值;和/或,
将所述迭代处理得到的待定参数代入所述最终的损失函数,得到的训练结果值小于或等于预设的结果阈值。
27.根据权利要求17所述的装置,所述目标向量获取模块还用于:
获取所述目标文本;
对所述目标文本进行分词处理,得到多个目标词语;
根据每个目标词语分别查询预设的反映词语与词向量之间对应关系的对照表,得到每个目标词语的词向量;
根据每个目标词语的词向量,得到所述目标文本向量。
28.根据权利要求18所述的装置,还包括:
用于获取每一任务类别的训练样本,所述训练样本包括文本的模块;
用于对每个训练样本的文本进行分词处理,得到对应训练样本的多个词语的模块;
用于对于每个词语,根据对应训练样本中的其他词语,确定对应的词向量,得到所述对照表的模块。
29.根据权利要求17所述的装置,所述激活函数为归一化指数函数。
30.根据权利要求17至29中任一项所述的装置,所述目标文本为投诉文本。
31.根据权利要求30所述的装置,还包括:
用于根据所述目标文本在所述目标任务类别中的下级分类,对所述目标文本所针对的目标对象进行相应的处理的模块。
32.根据权利要求17至29中任一项所述的装置,还包括:
用于根据所述目标文本在所述目标任务类别中的下级分类,确定所述目标文本的回复文本,并向提交所述目标文本的用户呈现所述回复文本的模块。
33.一种电子设备,包括:处理器和存储器,所述存储器用于存储可执行的指令,所述指令用于在所述电子设备运行时控制所述处理器执行根据权利要求1至16中任一项所述的方法。
CN201910907408.XA 2019-09-24 2019-09-24 文本分类方法、装置及电子设备 Active CN110704619B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910907408.XA CN110704619B (zh) 2019-09-24 2019-09-24 文本分类方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910907408.XA CN110704619B (zh) 2019-09-24 2019-09-24 文本分类方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN110704619A true CN110704619A (zh) 2020-01-17
CN110704619B CN110704619B (zh) 2022-06-10

Family

ID=69196290

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910907408.XA Active CN110704619B (zh) 2019-09-24 2019-09-24 文本分类方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN110704619B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111767405A (zh) * 2020-07-30 2020-10-13 腾讯科技(深圳)有限公司 文本分类模型的训练方法、装置、设备及存储介质

Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090226872A1 (en) * 2008-01-16 2009-09-10 Nicholas Langdon Gunther Electronic grading system
CN102200981A (zh) * 2010-03-25 2011-09-28 三星电子(中国)研发中心 面向多层文本分类的特征选择方法和装置
CN104281615A (zh) * 2013-07-08 2015-01-14 中国移动通信集团甘肃有限公司 一种投诉处理的方法和系统
CN105095223A (zh) * 2014-04-25 2015-11-25 阿里巴巴集团控股有限公司 文本分类方法及服务器
CN106547880A (zh) * 2016-10-26 2017-03-29 重庆邮电大学 一种融合地理区域知识的多维度地理场景识别方法
CN107423745A (zh) * 2017-03-27 2017-12-01 浙江工业大学 一种基于神经网络的鱼类活性分类方法
CN107491554A (zh) * 2017-09-01 2017-12-19 北京神州泰岳软件股份有限公司 文本分类器的构建方法、构建装置及文本分类方法
CN107679234A (zh) * 2017-10-24 2018-02-09 上海携程国际旅行社有限公司 客服信息提供方法、装置、电子设备、存储介质
CN108229582A (zh) * 2018-02-01 2018-06-29 浙江大学 一种面向医学领域的多任务命名实体识别对抗训练方法
CN108229303A (zh) * 2017-11-14 2018-06-29 北京市商汤科技开发有限公司 检测识别和检测识别网络的训练方法及装置、设备、介质
CN108460415A (zh) * 2018-02-28 2018-08-28 国信优易数据有限公司 伪标签生成模型训练方法及伪标签生成方法
CN108563791A (zh) * 2018-04-29 2018-09-21 华中科技大学 一种建筑质量投诉文本分类的方法和系统
CN108836302A (zh) * 2018-03-19 2018-11-20 武汉海星通技术股份有限公司 基于深度神经网络的心电图智能分析方法及系统
CN109213868A (zh) * 2018-11-21 2019-01-15 中国科学院自动化研究所 基于卷积注意力机制网络的实体级别情感分类方法
CN109345262A (zh) * 2017-08-01 2019-02-15 兰州大学 一种智能投诉分类与处理系统
CN109446332A (zh) * 2018-12-25 2019-03-08 银江股份有限公司 一种基于特征迁移和自适应学习的人民调解案例分类系统及方法
CN109446327A (zh) * 2018-11-01 2019-03-08 合肥工业大学 一种移动通信客户投诉的诊断方法及系统
CN109543031A (zh) * 2018-10-16 2019-03-29 华南理工大学 一种基于多任务对抗学习的文本分类方法
CN109684475A (zh) * 2018-11-21 2019-04-26 斑马网络技术有限公司 投诉的处理方法、装置、设备以及存储介质
CN110263159A (zh) * 2019-05-28 2019-09-20 电子科技大学 一种基于单分类器多任务网络的隐式句间关系分析方法

Patent Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090226872A1 (en) * 2008-01-16 2009-09-10 Nicholas Langdon Gunther Electronic grading system
CN102200981A (zh) * 2010-03-25 2011-09-28 三星电子(中国)研发中心 面向多层文本分类的特征选择方法和装置
CN104281615A (zh) * 2013-07-08 2015-01-14 中国移动通信集团甘肃有限公司 一种投诉处理的方法和系统
CN105095223A (zh) * 2014-04-25 2015-11-25 阿里巴巴集团控股有限公司 文本分类方法及服务器
CN106547880A (zh) * 2016-10-26 2017-03-29 重庆邮电大学 一种融合地理区域知识的多维度地理场景识别方法
CN107423745A (zh) * 2017-03-27 2017-12-01 浙江工业大学 一种基于神经网络的鱼类活性分类方法
CN109345262A (zh) * 2017-08-01 2019-02-15 兰州大学 一种智能投诉分类与处理系统
CN107491554A (zh) * 2017-09-01 2017-12-19 北京神州泰岳软件股份有限公司 文本分类器的构建方法、构建装置及文本分类方法
CN107679234A (zh) * 2017-10-24 2018-02-09 上海携程国际旅行社有限公司 客服信息提供方法、装置、电子设备、存储介质
CN108229303A (zh) * 2017-11-14 2018-06-29 北京市商汤科技开发有限公司 检测识别和检测识别网络的训练方法及装置、设备、介质
CN108229582A (zh) * 2018-02-01 2018-06-29 浙江大学 一种面向医学领域的多任务命名实体识别对抗训练方法
CN108460415A (zh) * 2018-02-28 2018-08-28 国信优易数据有限公司 伪标签生成模型训练方法及伪标签生成方法
CN108836302A (zh) * 2018-03-19 2018-11-20 武汉海星通技术股份有限公司 基于深度神经网络的心电图智能分析方法及系统
CN108563791A (zh) * 2018-04-29 2018-09-21 华中科技大学 一种建筑质量投诉文本分类的方法和系统
CN109543031A (zh) * 2018-10-16 2019-03-29 华南理工大学 一种基于多任务对抗学习的文本分类方法
CN109446327A (zh) * 2018-11-01 2019-03-08 合肥工业大学 一种移动通信客户投诉的诊断方法及系统
CN109213868A (zh) * 2018-11-21 2019-01-15 中国科学院自动化研究所 基于卷积注意力机制网络的实体级别情感分类方法
CN109684475A (zh) * 2018-11-21 2019-04-26 斑马网络技术有限公司 投诉的处理方法、装置、设备以及存储介质
CN109446332A (zh) * 2018-12-25 2019-03-08 银江股份有限公司 一种基于特征迁移和自适应学习的人民调解案例分类系统及方法
CN110263159A (zh) * 2019-05-28 2019-09-20 电子科技大学 一种基于单分类器多任务网络的隐式句间关系分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵云山等: "基于Attention机制的卷积神经网络文本分类模型", 《应用科学学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111767405A (zh) * 2020-07-30 2020-10-13 腾讯科技(深圳)有限公司 文本分类模型的训练方法、装置、设备及存储介质
CN111767405B (zh) * 2020-07-30 2023-12-08 腾讯科技(深圳)有限公司 文本分类模型的训练方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN110704619B (zh) 2022-06-10

Similar Documents

Publication Publication Date Title
US10937416B2 (en) Cross-domain multi-task learning for text classification
CN111428010B (zh) 人机智能问答的方法和装置
CN111667056B (zh) 用于搜索模型结构的方法和装置
CN111027707B (zh) 模型的优化方法、装置及电子设备
JP2022512065A (ja) 画像分類モデルの訓練方法、画像処理方法及び装置
CN108388563B (zh) 信息输出方法和装置
CN111400504A (zh) 企业关键人的识别方法和装置
CN116861995A (zh) 多模态预训练模型的训练及多模态数据处理方法和装置
WO2019191266A1 (en) Object classification method, apparatus, server, and storage medium
US10678821B2 (en) Evaluating theses using tree structures
US11151322B2 (en) Computer-implemented method, system and computer program product for providing an application interface
CN111310743B (zh) 人脸识别方法、装置、电子设备及可读存储介质
CN112036954A (zh) 物品推荐方法和装置、计算机可读存储介质、电子设备
CN110704619B (zh) 文本分类方法、装置及电子设备
CN113468857A (zh) 风格转换模型的训练方法、装置、电子设备以及存储介质
CN114119123A (zh) 信息推送的方法和装置
CN114581966A (zh) 用于信息处理的方法、电子设备和计算机程序产品
CN116204624A (zh) 应答方法、装置、电子设备及存储介质
CN112967044B (zh) 一种支付业务的处理方法及装置
CN114548407A (zh) 层级目标定向因果发现方法、装置及电子设备
CN110516717B (zh) 用于生成图像识别模型的方法和装置
US11327825B2 (en) Predictive analytics for failure detection
CN111274383B (zh) 一种应用于报价的分类对象方法和装置
CN111339432A (zh) 电子对象的推荐方法、装置和电子设备
CN114821801B (zh) 动作识别方法、模型训练方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant