CN113656586A - 情感分类方法、装置、电子设备及可读存储介质 - Google Patents
情感分类方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN113656586A CN113656586A CN202110964680.9A CN202110964680A CN113656586A CN 113656586 A CN113656586 A CN 113656586A CN 202110964680 A CN202110964680 A CN 202110964680A CN 113656586 A CN113656586 A CN 113656586A
- Authority
- CN
- China
- Prior art keywords
- vector
- emotion classification
- vectors
- emotion
- classification model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 202
- 238000000034 method Methods 0.000 title claims abstract description 52
- 239000013598 vector Substances 0.000 claims abstract description 448
- 238000013145 classification model Methods 0.000 claims abstract description 70
- 238000012549 training Methods 0.000 claims abstract description 45
- 238000012545 processing Methods 0.000 claims abstract description 44
- 238000006243 chemical reaction Methods 0.000 claims abstract description 10
- 238000012360 testing method Methods 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 9
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000007935 neutral effect Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数据处理及人工智能领域,揭露一种情感分类方法,包括:对样本集中每个样本执行向量转换处理,得到第一向量集,对第一向量集中的任意两个向量执行向量合并处理,得到多个新向量;将新向量添加至第一向量集中,得到扩容后的第一向量集,利用扩容后的第一向量集对情感分类模型进行训练,得到训练好的情感分类模型;将待分类文本输入训练好的情感分类模型,得到情感分类结果。本发明还提供一种情感分类装置、电子设备及可读存储介质。本发明提高了情感分类准确度。
Description
技术领域
本发明涉及人工智能领域,尤其涉及一种情感分类方法、装置、电子设备及可读存储介质。
背景技术
情感分类在现代社会的应用越来越广泛,例如,对购物平台上用户的评论信息进行情感分类,以了解用户的喜好情况,为用户推荐更合适的产品。
当前通常利用样本训练一个情感分类模型以对文本进行情感分类,然而,因情感分类相关的样本集比较缺失,现有的样本数量太少,容易出现模型过拟合,训练得到的模型情感分类准确度不高的情况。因此,亟需一种情感分类方法,以提高情感分类准确度。
发明内容
鉴于以上内容,有必要提供一种情感分类方法,旨在提高情感分类准确度。
本发明提供的情感分类方法,包括:
从预设数据库获取情感分类模型对应的样本集,判断所述样本集中样本的数量是否小于第一阈值;
当判断所述样本集中样本的数量小于第一阈值时,对所述样本集中每个样本执行向量转换处理,得到第一向量集,对所述第一向量集中的任意两个向量执行向量合并处理,得到多个新向量;
将所述新向量添加至所述第一向量集中,得到扩容后的第一向量集,利用所述扩容后的第一向量集对所述情感分类模型进行训练,得到训练好的情感分类模型;
解析用户基于客户端发出的情感分类请求,获取所述情感分类请求携带的待分类文本,将所述待分类文本输入所述训练好的情感分类模型,得到情感分类结果。
可选的,所述对所述第一向量集中的任意两个向量执行向量合并处理,得到多个新向量,包括:
组合所述第一向量集中的任意两个向量,得到多个第一向量对;
计算各个第一向量对中每个向量的语义丰富度值,基于所述语义丰富度值对各个第一向量对中的向量执行特征丢弃处理,得到多个第二向量对;
为各个第二向量对随机生成和为预设数值的两个随机数,基于所述随机数将各个第二向量对中的向量合并,得到多个新向量。
可选的,所述基于所述随机数将各个第二向量对中的向量合并,得到多个新向量,包括:
抽取一个第二向量对,将抽取的第二向量对对应的两个随机数分别作为所述抽取的第二向量对中两个向量的权重;
基于所述权重对所述抽取的第二向量对中的两个向量执行加权平均运算,得到所述抽取的第二向量对对应的新向量。
可选的,在所述得到所述抽取的第二向量对对应的新向量之后,所述方法还包括:
将所述抽取的第二向量对中两个向量的权重交换,基于交换后的权重对所述抽取的第二向量对中的两个向量执行加权平均运算,得到所述抽取的第二向量对对应的另一个新向量。
可选的,所述利用所述扩容后的第一向量集对所述情感分类模型进行训练,得到训练好的情感分类模型,包括:
按照预设比例将所述扩容后的第一向量集拆分为训练集及测试集;
利用所述训练集训练所述情感分类模型,利用所述测试集测试所述训练后的情感分类模型在每个情感类别的预测准确度;
当每个情感类别的预测准确度皆大于第二阈值时,训练结束,得到训练好的情感分类模型。
可选的,在所述利用所述测试集测试所述训练后的情感分类模型在每个情感类别的预测准确度之后,所述方法还包括:
若某一指定情感类别的预测准确度小于或等于第二阈值,则从所述扩容后的第一向量集中抽取第一数量的所述指定情感类别的向量,抽取第二数量的其它情感类别的向量,得到第二向量集;
对所述第二向量集中的任意两个向量执行向量合并处理,以对所述第二向量集进行扩容,得到第三向量集;
利用所述第三向量集继续训练所述情感分类模型,直至所述指定情感类别的预测准确度大于第二阈值。
可选的,在所述得到扩容后的第一向量集之后,所述方法还包括:
若所述扩容后的第一向量集中向量的数量小于第三阈值,则对所述扩容后的第一向量集中任意三个或三个以上的向量执行向量合并处理,以对所述扩容后的第一向量集中向量的数量进行更新。
为了解决上述问题,本发明还提供一种情感分类装置,所述装置包括:
判断模块,用于从预设数据库获取情感分类模型对应的样本集,判断所述样本集中样本的数量是否小于第一阈值;
合并模块,用于当判断所述样本集中样本的数量小于第一阈值时,对所述样本集中每个样本执行向量转换处理,得到第一向量集,对所述第一向量集中的任意两个向量执行向量合并处理,得到多个新向量;
训练模块,用于将所述新向量添加至所述第一向量集中,得到扩容后的第一向量集,利用所述扩容后的第一向量集对所述情感分类模型进行训练,得到训练好的情感分类模型;
分类模块,用于解析用户基于客户端发出的情感分类请求,获取所述情感分类请求携带的待分类文本,将所述待分类文本输入所述训练好的情感分类模型,得到情感分类结果。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的情感分类程序,所述情感分类程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述情感分类方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有情感分类程序,所述情感分类程序可被一个或者多个处理器执行,以实现上述情感分类方法。
相较现有技术,本发明首先对样本集中每个样本执行向量转换处理,得到第一向量集,对第一向量集中的任意两个向量执行向量合并处理,得到多个新向量;接着,将新向量添加至第一向量集中,得到扩容后的第一向量集,利用扩容后的第一向量集对情感分类模型进行训练,得到训练好的情感分类模型;最后,将待分类文本输入训练好的情感分类模型,得到情感分类结果。本发明对第一向量集中任意两个向量执行向量合并处理,生成了多个新向量,该操作实现了对第一向量集的大幅扩容,利用扩容后的第一向量集训练情感分类模型,提高了模型泛化能力,提升了模型情感分类准确度。因此,本发明提高了情感分类准确度。
附图说明
图1为本发明一实施例提供的情感分类方法的流程示意图;
图2为本发明一实施例提供的情感分类装置的模块示意图;
图3为本发明一实施例提供的实现情感分类方法的电子设备的结构示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
本发明提供一种情感分类方法。参照图1所示,为本发明一实施例提供的情感分类方法的流程示意图。该方法可以由一个电子设备执行,该电子设备可以由软件和/或硬件实现。
本实施例中,情感分类方法包括:
S1、从预设数据库获取情感分类模型对应的样本集,判断所述样本集中样本的数量是否小于第一阈值。
本实施例中,预设数据库中存储有情感分类模型对应的携带标注信息的样本集,所述标注信息为人工标注的情绪类别,所述情绪类别包括负面情绪、正面情绪及中立情绪,在标注信息(即标签)中,负面情绪用-1表示,正面情绪用1表示,中立情绪用0表示。
本实施例中,所述情感分类模型可以是BERT模型,判断样本集中样本的数量是否小于第一阈值的目的是确定样本的规模,本实施例适用于小规模的样本的情况,所述第一阈值可以是500条。
S2、当判断所述样本集中样本的数量小于第一阈值时,对所述样本集中每个样本执行向量转换处理,得到第一向量集,对所述第一向量集中的任意两个向量执行向量合并处理,得到多个新向量。
当样本集中样本的数量小于第一阈值时,说明情感分类模型对应的样本量较少,若直接利用现有样本集对模型进行训练,容易出现过拟合,训练得到的模型情感分类准确度不高的问题,因此,需要对样本集进行扩容。
本实施例中,先对样本集中的每个样本执行向量转换处理,得到第一向量集,再对第一向量集中的任意两个向量执行特征合并处理,可得到多个新向量,若第一向量集中共n个向量,执行特征合并处理后,可得到个新向量,该步骤的目的是对样本进行扩容。
所述对所述第一向量集中的任意两个向量执行向量合并处理,得到多个新向量,包括:
A11、组合所述第一向量集中的任意两个向量,得到多个第一向量对;
A12、计算各个第一向量对中每个向量的语义丰富度值,基于所述语义丰富度值对各个第一向量对中的向量执行特征丢弃处理,得到多个第二向量对;
本实施例中,根据语义丰富度值确定向量的特征丢弃比例,语义丰富度值较大的向量可丢弃较多的特征。
一个第一向量对进行特征丢弃处理后成为一个第二向量对,可得出,第二向量对与第一向量对的数量相同。
A13、为各个第二向量对随机生成和为预设数值的两个随机数,基于所述随机数将各个第二向量对中的向量合并,得到多个新向量。
所述预设数值可以是1,随机生成和为1的两个随机数,将这两个随机数作为两个权重,将各个第二向量对中的两个向量加权求和,实现了将各个第二向量对转换为一个新向量。
所述计算各个第一向量对中每个向量的语义丰富度值,包括:
B11、对各个第一向量对中每个向量对应的样本执行分词处理,得到各个第一向量对中每个向量对应的词语集合;
本实施例中,根据各个第一向量对中每个向量对应的样本确定其语义丰富度值,可根据预先确定的词语词典对各个向量对应的样本进行分词处理。
B12、剔除所述词语集合中预设类型的词语,得到各个第一向量对中每个向量对应的关键词集合;
本实施例中,所述预设类型的词语是不对样本的语义产生影响的词语,所述预设类型的词语包括停用词(例如,你好、再见、谢谢、哦、喂、嗯)、语气词(例如,啊、呀、哇)及其它预先设置的词语。
B13、根据所述关键词集合中关键词的数量及长度计算各个第一向量对中每个向量的语义丰富度值。
本实施例中,所述语义丰富度值的计算公式可以是:Yij=a*Mij+b*Nij,其中,Yij表示第i个第一向量对中第j个向量的语义丰富度值,Mij表示第i个第一向量对中第j个向量对应的样本的关键词的数量,Nij表示第i个第一向量对中第j个向量对应的样本的关键词的总长度,a、b分别为预先确定的关键词的数量及长度对应的权重。
例如,若第1个第一向量对中第1个向量对应的样本的关键词共有3个,3个关键词的长度(即字长)分别为2、3、3,a为0.6,b为0.4,则第1个第一向量对中第1个向量的语义丰富度值Y11=0.6*3+0.4*(2+3+3)=5。
所述基于所述语义丰富度值对各个第一向量对中的向量执行特征丢弃处理,包括:
C11、基于语义丰富度值与待丢弃维度数量之间的映射关系,确定各个第一向量对中每个向量对应的目标丢弃维度数量;
例如,语义丰富度值与待丢弃维度数量之间的映射关系可以是:
语义丰富度值小于10:待丢弃维度数量为1;
语义丰富度大于等于10且小于等于20:待丢弃维度数量为2;
……
若第1个第一向量对中两个向量的语义丰富度值分别为5和13,则两个向量对应的目标丢弃维度数量分别为1和2。
C12、从各个第一向量对的每个向量中抽取对应的目标丢弃维度数量的维度特征丢弃。
例如,对于第1个第一向量对,从第一个向量中随机抽取1个维度的特征丢弃(例如,将第2维的特征丢弃,即将第2维的特征数值变为0),从第二个向量中随机抽取2个维度的特征丢弃(例如,将第4维和第7维的特征丢弃)。
所述基于所述随机数将各个第二向量对中的向量合并,得到多个新向量,包括:
D11、抽取一个第二向量对,将抽取的第二向量对对应的两个随机数分别作为所述抽取的第二向量对中两个向量的权重;
例如,抽取的第二向量对对应的两个随机数分别为0.3和0.7,则将0.3作为抽取的第二向量对中第一个向量的权重,0.7作为第二个向量的权重。
D12、基于所述权重对所述抽取的第二向量对中的两个向量执行加权平均运算,得到所述抽取的第二向量对对应的新向量。
根据对应的权重将抽取的第二向量对中两个向量加权平均,则将抽取的第二向量对转换为一个新向量,若第二向量对的个数为9900个,则新向量的个数也为9900个。
其中,抽取的第二向量对对应的新向量的标注信息也是通过加权平均运算得到的,例如,抽取的第二向量对的两个向量的原始标注信息(即标签)分别为0和1,根据随机数确定的权重分别为0.3和0.7,则新向量对应的标注信息为0*0.3+1*0.7=0.7(根据四舍五入法则,认为其对应的情感类别为正面情绪)。
在所述得到所述抽取的第二向量对对应的新向量之后,所述方法还包括:
将所述抽取的第二向量对中两个向量的权重交换,基于交换后的权重对所述抽取的第二向量对中的两个向量执行加权平均运算,得到所述抽取的第二向量对对应的另一个新向量。
本实施例中,还可以将抽取的第二向量对中两个向量对应的权重交换,基于交换后的权重继续执行加权平均运算,为抽取的第二向量对生成另一个新向量,则每个第二向量对可生成2个新向量,共可得到9900*2=19800个新向量。
通过权重交换,可一定程度的克服权重随机可能带来的权重分配不合理,后续训练得到的模型准确度不高的问题。
S3、将所述新向量添加至所述第一向量集中,得到扩容后的第一向量集,利用所述扩容后的第一向量集对所述情感分类模型进行训练,得到训练好的情感分类模型。
得到新向量后,实现了对样本的扩容,此时可利用扩容后的第一向量集对情感分类模型进行训练。
所述利用所述扩容后的第一向量集对所述情感分类模型进行训练,得到训练好的情感分类模型,包括:
E11、按照预设比例将所述扩容后的第一向量集拆分为训练集及测试集;
本实施例中,所述预设比例可以是7:3,从扩容后的第一向量集中抽取70%的向量作为训练集,另30%的向量作为测试集。
E12、利用所述训练集训练所述情感分类模型,利用所述测试集测试所述训练后的情感分类模型在每个情感类别的预测准确度;
例如,若测试集中标注信息为正面情绪的向量的数量为5000,这5000中预测结果为正面情绪的向量的数量为4600,则正面情绪对应的预测准确度为4600/5000=92%。
E13、当每个情感类别的预测准确度皆大于第二阈值时,训练结束,得到训练好的情感分类模型。
本实施例中,所述第二阈值可以是90%,若每个情感类别的预测准确度都高于90%,则训练结束。
在所述利用所述测试集测试所述训练后的情感分类模型在每个情感类别的预测准确度之后,所述方法还包括:
F11、若某一指定情感类别的预测准确度小于或等于第二阈值,则从所述扩容后的第一向量集中抽取第一数量的所述指定情感类别的向量,抽取第二数量的其它情感类别的向量,得到第二向量集;
若中立情绪的预测准确度小于第二阈值,此时需要针对中立情绪继续训练模型,本实施例中,第一数量大于第二数量,例如,第一数量可以是500,第二数量可以是200,第二向量集中中立情绪对应的向量更多,训练时可学习到更多中立情绪相关的特征,以提高中立情绪的预测准确度。
F12、对所述第二向量集中的任意两个向量执行向量合并处理,以对所述第二向量集进行扩容,得到第三向量集;
向量合并处理的过程与步骤S2相同,在此不再赘述。
F13、利用所述第三向量集继续训练所述情感分类模型,直至所述指定情感类别的预测准确度大于第二阈值。
当指定情感类别的预测准确度也达标后,模型训练结束。
在所述得到扩容后的第一向量集之后,所述方法还包括:
若所述扩容后的第一向量集中向量的数量小于第三阈值,则对所述扩容后的第一向量集中任意三个或三个以上的向量执行向量合并处理,以对所述扩容后的第一向量集中向量的数量进行更新。
本实施例中,第三阈值为样本需求目标数量,例如,第三阈值可以是3万条,若扩容后的第一向量集中向量的总数小于3万条,可将扩容后的第一向量集中的3个向量合并成一个新向量,或4个向量合并成一个新向量,……,以达到继续扩容的目的。
当然,也可继续将两个向量合并为一个新向量,因每次产生的随机数不同,合并得到的新向量大概率会不同。
S4、解析用户基于客户端发出的情感分类请求,获取所述情感分类请求携带的待分类文本,将所述待分类文本输入所述训练好的情感分类模型,得到情感分类结果。
得到训练好的情感分类模型后,可利用其对待分类文本进行情感分类,后续可根据情感分类结果挖掘用户的喜好信息,以便针对性地对用户进行服务或产品推荐。
由上述实施例可知,本发明提出的情感分类方法,首先,对样本集中每个样本执行向量转换处理,得到第一向量集,对第一向量集中的任意两个向量执行向量合并处理,得到多个新向量;接着,将新向量添加至第一向量集中,得到扩容后的第一向量集,利用扩容后的第一向量集对情感分类模型进行训练,得到训练好的情感分类模型;最后,将待分类文本输入训练好的情感分类模型,得到情感分类结果。本发明对第一向量集中任意两个向量执行向量合并处理,生成了个新向量,n为第一向量集中向量的数量,该操作实现了对第一向量集的大幅扩容,利用扩容后的第一向量集训练情感分类模型,提高了模型泛化能力,提升了模型情感分类准确度。因此,本发明提高了情感分类准确度。
如图2所示,为本发明一实施例提供的情感分类装置的模块示意图。
本发明所述情感分类装置100可以安装于电子设备中。根据实现的功能,所述情感分类装置100可以包括判断模块110、合并模块120、训练模块130及分类模块140。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
判断模块110,用于从预设数据库获取情感分类模型对应的样本集,判断所述样本集中样本的数量是否小于第一阈值。
合并模块120,用于当判断所述样本集中样本的数量小于第一阈值时,对所述样本集中每个样本执行向量转换处理,得到第一向量集,对所述第一向量集中的任意两个向量执行向量合并处理,得到多个新向量。
所述对所述第一向量集中的任意两个向量执行向量合并处理,得到多个新向量,包括:
A21、组合所述第一向量集中的任意两个向量,得到多个第一向量对;
A22、计算各个第一向量对中每个向量的语义丰富度值,基于所述语义丰富度值对各个第一向量对中的向量执行特征丢弃处理,得到多个第二向量对;
A23、为各个第二向量对随机生成和为预设数值的两个随机数,基于所述随机数将各个第二向量对中的向量合并,得到多个新向量。
所述计算各个第一向量对中每个向量的语义丰富度值,包括:
B21、对各个第一向量对中每个向量对应的样本执行分词处理,得到各个第一向量对中每个向量对应的词语集合;
B22、剔除所述词语集合中预设类型的词语,得到各个第一向量对中每个向量对应的关键词集合;
B23、根据所述关键词集合中关键词的数量及长度计算各个第一向量对中每个向量的语义丰富度值。
所述基于所述语义丰富度值对各个第一向量对中的向量执行特征丢弃处理,包括:
C21、基于语义丰富度值与待丢弃维度数量之间的映射关系,确定各个第一向量对中每个向量对应的目标丢弃维度数量;
C22、从各个第一向量对的每个向量中抽取对应的目标丢弃维度数量的维度特征丢弃。
所述基于所述随机数将各个第二向量对中的向量合并,得到多个新向量,包括:
D21、抽取一个第二向量对,将抽取的第二向量对对应的两个随机数分别作为所述抽取的第二向量对中两个向量的权重;
D22、基于所述权重对所述抽取的第二向量对中的两个向量执行加权平均运算,得到所述抽取的第二向量对对应的新向量。
在所述得到所述抽取的第二向量对对应的新向量之后,所述合并模块120还用于:
将所述抽取的第二向量对中两个向量的权重交换,基于交换后的权重对所述抽取的第二向量对中的两个向量执行加权平均运算,得到所述抽取的第二向量对对应的另一个新向量。
训练模块130,用于将所述新向量添加至所述第一向量集中,得到扩容后的第一向量集,利用所述扩容后的第一向量集对所述情感分类模型进行训练,得到训练好的情感分类模型。
所述利用所述扩容后的第一向量集对所述情感分类模型进行训练,得到训练好的情感分类模型,包括:
E21、按照预设比例将所述扩容后的第一向量集拆分为训练集及测试集;
E22、利用所述训练集训练所述情感分类模型,利用所述测试集测试所述训练后的情感分类模型在每个情感类别的预测准确度;
E23、当每个情感类别的预测准确度皆大于第二阈值时,训练结束,得到训练好的情感分类模型。
在所述利用所述测试集测试所述训练后的情感分类模型在每个情感类别的预测准确度之后,所述训练模块130还用于:
F21、若某一指定情感类别的预测准确度小于或等于第二阈值,则从所述扩容后的第一向量集中抽取第一数量的所述指定情感类别的向量,抽取第二数量的其它情感类别的向量,得到第二向量集;
F22、对所述第二向量集中的任意两个向量执行向量合并处理,以对所述第二向量集进行扩容,得到第三向量集;
F23、利用所述第三向量集继续训练所述情感分类模型,直至所述指定情感类别的预测准确度大于第二阈值。
在所述得到扩容后的第一向量集之后,所述训练模块130还用于:
若所述扩容后的第一向量集中向量的数量小于第三阈值,则对所述扩容后的第一向量集中任意三个或三个以上的向量执行向量合并处理,以对所述扩容后的第一向量集中向量的数量进行更新。
分类模块140,用于解析用户基于客户端发出的情感分类请求,获取所述情感分类请求携带的待分类文本,将所述待分类文本输入所述训练好的情感分类模型,得到情感分类结果。
如图3所示,为本发明一实施例提供的实现情感分类方法的电子设备的结构示意图。
所述电子设备1是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。所述电子设备1可以是计算机、也可以是单个网络服务器、多个网络服务器组成的服务器组或者基于云计算的由大量主机或者网络服务器构成的云,其中云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
在本实施例中,电子设备1包括,但不仅限于,可通过系统总线相互通信连接的存储器11、处理器12、网络接口13,该存储器11中存储有情感分类程序10,所述情感分类程序10可被所述处理器12执行。图3仅示出了具有组件11-13以及情感分类程序10的电子设备1,本领域技术人员可以理解的是,图3示出的结构并不构成对电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
其中,存储器11包括内存及至少一种类型的可读存储介质。内存为电子设备1的运行提供缓存;可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等的非易失性存储介质。在一些实施例中,可读存储介质可以是电子设备1的内部存储单元,例如该电子设备1的硬盘;在另一些实施例中,该非易失性存储介质也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。本实施例中,存储器11的可读存储介质通常用于存储安装于电子设备1的操作系统和各类应用软件,例如存储本发明一实施例中的情感分类程序10的代码等。此外,存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器12在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述电子设备1的总体操作,例如执行与其他设备进行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据,例如运行情感分类程序10等。
网络接口13可包括无线网络接口或有线网络接口,该网络接口13用于在所述电子设备1与客户端(图中未画出)之间建立通信连接。
可选的,所述电子设备1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选的,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的情感分类程序10是多个指令的组合,在所述处理器12中运行时,可以实现上述情感分类方法。
具体地,所述处理器12对上述情感分类程序10的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。所述计算机可读存储介质可以是非易失性的,也可以是非易失性的。所述计算机可读存储介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
所述计算机可读存储介质上存储有情感分类程序10,所述情感分类程序10可被一个或者多个处理器执行,以实现上述情感分类方法。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种情感分类方法,其特征在于,所述方法包括:
从预设数据库获取情感分类模型对应的样本集,判断所述样本集中样本的数量是否小于第一阈值;
当判断所述样本集中样本的数量小于第一阈值时,对所述样本集中每个样本执行向量转换处理,得到第一向量集,对所述第一向量集中的任意两个向量执行向量合并处理,得到多个新向量;
将所述新向量添加至所述第一向量集中,得到扩容后的第一向量集,利用所述扩容后的第一向量集对所述情感分类模型进行训练,得到训练好的情感分类模型;
解析用户基于客户端发出的情感分类请求,获取所述情感分类请求携带的待分类文本,将所述待分类文本输入所述训练好的情感分类模型,得到情感分类结果。
2.如权利要求1所述的情感分类方法,其特征在于,所述对所述第一向量集中的任意两个向量执行向量合并处理,得到多个新向量,包括:
组合所述第一向量集中的任意两个向量,得到多个第一向量对;
计算各个第一向量对中每个向量的语义丰富度值,基于所述语义丰富度值对各个第一向量对中的向量执行特征丢弃处理,得到多个第二向量对;
为各个第二向量对随机生成和为预设数值的两个随机数,基于所述随机数将各个第二向量对中的向量合并,得到多个新向量。
3.如权利要求2所述的情感分类方法,其特征在于,所述基于所述随机数将各个第二向量对中的向量合并,得到多个新向量,包括:
抽取一个第二向量对,将抽取的第二向量对对应的两个随机数分别作为所述抽取的第二向量对中两个向量的权重;
基于所述权重对所述抽取的第二向量对中的两个向量执行加权平均运算,得到所述抽取的第二向量对对应的新向量。
4.如权利要求3所述的情感分类方法,其特征在于,在所述得到所述抽取的第二向量对对应的新向量之后,所述方法还包括:
将所述抽取的第二向量对中两个向量的权重交换,基于交换后的权重对所述抽取的第二向量对中的两个向量执行加权平均运算,得到所述抽取的第二向量对对应的另一个新向量。
5.如权利要求1所述的情感分类方法,其特征在于,所述利用所述扩容后的第一向量集对所述情感分类模型进行训练,得到训练好的情感分类模型,包括:
按照预设比例将所述扩容后的第一向量集拆分为训练集及测试集;
利用所述训练集训练所述情感分类模型,利用所述测试集测试所述训练后的情感分类模型在每个情感类别的预测准确度;
当每个情感类别的预测准确度皆大于第二阈值时,训练结束,得到训练好的情感分类模型。
6.如权利要求5所述的情感分类方法,其特征在于,在所述利用所述测试集测试所述训练后的情感分类模型在每个情感类别的预测准确度之后,所述方法还包括:
若某一指定情感类别的预测准确度小于或等于第二阈值,则从所述扩容后的第一向量集中抽取第一数量的所述指定情感类别的向量,抽取第二数量的其它情感类别的向量,得到第二向量集;
对所述第二向量集中的任意两个向量执行向量合并处理,以对所述第二向量集进行扩容,得到第三向量集;
利用所述第三向量集继续训练所述情感分类模型,直至所述指定情感类别的预测准确度大于第二阈值。
7.如权利要求1所述的情感分类方法,其特征在于,在所述得到扩容后的第一向量集之后,所述方法还包括:
若所述扩容后的第一向量集中向量的数量小于第三阈值,则对所述扩容后的第一向量集中任意三个或三个以上的向量执行向量合并处理,以对所述扩容后的第一向量集中向量的数量进行更新。
8.一种情感分类装置,其特征在于,所述装置包括:
判断模块,用于从预设数据库获取情感分类模型对应的样本集,判断所述样本集中样本的数量是否小于第一阈值;
合并模块,用于当判断所述样本集中样本的数量小于第一阈值时,对所述样本集中每个样本执行向量转换处理,得到第一向量集,对所述第一向量集中的任意两个向量执行向量合并处理,得到多个新向量;
训练模块,用于将所述新向量添加至所述第一向量集中,得到扩容后的第一向量集,利用所述扩容后的第一向量集对所述情感分类模型进行训练,得到训练好的情感分类模型;
分类模块,用于解析用户基于客户端发出的情感分类请求,获取所述情感分类请求携带的待分类文本,将所述待分类文本输入所述训练好的情感分类模型,得到情感分类结果。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的情感分类程序,所述情感分类程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一项所述的情感分类方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有情感分类程序,所述情感分类程序可被一个或者多个处理器执行,以实现如权利要求1至7任一项所述的情感分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110964680.9A CN113656586B (zh) | 2021-08-20 | 2021-08-20 | 情感分类方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110964680.9A CN113656586B (zh) | 2021-08-20 | 2021-08-20 | 情感分类方法、装置、电子设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113656586A true CN113656586A (zh) | 2021-11-16 |
CN113656586B CN113656586B (zh) | 2024-03-12 |
Family
ID=78491905
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110964680.9A Active CN113656586B (zh) | 2021-08-20 | 2021-08-20 | 情感分类方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113656586B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114519397A (zh) * | 2022-02-22 | 2022-05-20 | 平安科技(深圳)有限公司 | 基于对比学习的实体链接模型的训练方法、装置、设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108628971A (zh) * | 2018-04-24 | 2018-10-09 | 深圳前海微众银行股份有限公司 | 不均衡数据集的文本分类方法、文本分类器及存储介质 |
CN109902390A (zh) * | 2018-12-13 | 2019-06-18 | 中国石油大学(华东) | 一种基于小样本扩充的有利储层发育区预测方法 |
CN110909164A (zh) * | 2019-11-22 | 2020-03-24 | 科大国创软件股份有限公司 | 一种基于卷积神经网络的文本增强语义分类方法及系统 |
KR20200103165A (ko) * | 2019-02-12 | 2020-09-02 | 주식회사 자이냅스 | 대화 서비스 제공을 위한 문장 의미 관계 분류 프로그램 |
-
2021
- 2021-08-20 CN CN202110964680.9A patent/CN113656586B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108628971A (zh) * | 2018-04-24 | 2018-10-09 | 深圳前海微众银行股份有限公司 | 不均衡数据集的文本分类方法、文本分类器及存储介质 |
CN109902390A (zh) * | 2018-12-13 | 2019-06-18 | 中国石油大学(华东) | 一种基于小样本扩充的有利储层发育区预测方法 |
KR20200103165A (ko) * | 2019-02-12 | 2020-09-02 | 주식회사 자이냅스 | 대화 서비스 제공을 위한 문장 의미 관계 분류 프로그램 |
CN110909164A (zh) * | 2019-11-22 | 2020-03-24 | 科大国创软件股份有限公司 | 一种基于卷积神经网络的文本增强语义分类方法及系统 |
Non-Patent Citations (1)
Title |
---|
陈铁明等: "基于样本增强的网络恶意流量智能检测方法", 通信学报, vol. 41, no. 6, 25 June 2020 (2020-06-25), pages 128 - 138 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114519397A (zh) * | 2022-02-22 | 2022-05-20 | 平安科技(深圳)有限公司 | 基于对比学习的实体链接模型的训练方法、装置、设备 |
CN114519397B (zh) * | 2022-02-22 | 2024-05-28 | 平安科技(深圳)有限公司 | 基于对比学习的实体链接模型的训练方法、装置、设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113656586B (zh) | 2024-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113449187B (zh) | 基于双画像的产品推荐方法、装置、设备及存储介质 | |
CN112380859A (zh) | 舆情信息的推荐方法、装置、电子设备及计算机存储介质 | |
CN112883190A (zh) | 文本分类方法、装置、电子设备及存储介质 | |
CN113688239B (zh) | 少样本下的文本分类方法、装置、电子设备及存储介质 | |
CN112528616A (zh) | 业务表单生成方法、装置、电子设备及计算机存储介质 | |
CN112597135A (zh) | 用户分类方法、装置、电子设备及可读存储介质 | |
CN113360803A (zh) | 基于用户行为的数据缓存方法、装置、设备及存储介质 | |
CN113706252A (zh) | 产品推荐方法、装置、电子设备及存储介质 | |
CN113706253A (zh) | 实时产品推荐方法、装置、电子设备及可读存储介质 | |
CN114612194A (zh) | 产品推荐方法、装置、电子设备及存储介质 | |
CN112507230A (zh) | 基于浏览器的网页推荐方法、装置、电子设备及存储介质 | |
CN113268665A (zh) | 基于随机森林的信息推荐方法、装置、设备及存储介质 | |
CN114706985A (zh) | 文本分类方法、装置、电子设备及存储介质 | |
CN114281991A (zh) | 文本分类方法、装置、电子设备及存储介质 | |
CN113591881A (zh) | 基于模型融合的意图识别方法、装置、电子设备及介质 | |
CN113656586B (zh) | 情感分类方法、装置、电子设备及可读存储介质 | |
CN113064984A (zh) | 意图识别方法、装置、电子设备及可读存储介质 | |
CN113312482B (zh) | 问题分类方法、装置、电子设备及可读存储介质 | |
CN113515591B (zh) | 文本不良信息识别方法、装置、电子设备及存储介质 | |
CN114818685A (zh) | 关键词提取方法、装置、电子设备及存储介质 | |
CN112528183B (zh) | 基于大数据的网页组件布局方法、装置、电子设备及介质 | |
CN113705692A (zh) | 基于人工智能的情感分类方法、装置、电子设备及介质 | |
CN114139530A (zh) | 同义词提取方法、装置、电子设备及存储介质 | |
CN114398877A (zh) | 基于人工智能的主题提取方法、装置、电子设备及介质 | |
CN114518993A (zh) | 基于业务特征的系统性能监控方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |