CN113032560A - 语句分类模型训练方法、语句处理方法及设备 - Google Patents
语句分类模型训练方法、语句处理方法及设备 Download PDFInfo
- Publication number
- CN113032560A CN113032560A CN202110279651.9A CN202110279651A CN113032560A CN 113032560 A CN113032560 A CN 113032560A CN 202110279651 A CN202110279651 A CN 202110279651A CN 113032560 A CN113032560 A CN 113032560A
- Authority
- CN
- China
- Prior art keywords
- sample
- sentence
- word
- statement
- word vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013145 classification model Methods 0.000 title claims abstract description 223
- 238000000034 method Methods 0.000 title claims abstract description 98
- 238000012549 training Methods 0.000 title claims abstract description 56
- 238000003672 processing method Methods 0.000 title claims abstract description 26
- 239000013598 vector Substances 0.000 claims abstract description 318
- 238000012512 characterization method Methods 0.000 claims description 87
- 238000012545 processing Methods 0.000 claims description 79
- 238000007781 pre-processing Methods 0.000 claims description 22
- 230000015654 memory Effects 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 abstract description 40
- 230000008859 change Effects 0.000 abstract description 31
- 230000000875 corresponding effect Effects 0.000 description 36
- 239000011159 matrix material Substances 0.000 description 31
- 230000006870 function Effects 0.000 description 26
- 230000004048 modification Effects 0.000 description 26
- 238000012986 modification Methods 0.000 description 26
- 238000010586 diagram Methods 0.000 description 18
- 230000002093 peripheral effect Effects 0.000 description 10
- 230000001133 acceleration Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000008451 emotion Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000005291 magnetic effect Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 239000000919 ceramic Substances 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本公开提供了一种语句分类模型训练方法、语句处理方法及设备,涉及计算机技术领域。本公开实施例的方法及装置,一方面,对样本语句对应的字向量信息中部分字的字向量进行了更改,将更改后的字向量信息作为样本语句分类的依据,使得语句分类模型对更改的样本语句依旧能够准确进行分类,增强了该语句分类模型对语句发生不定更改的适应性和抵抗性,提高了语句分类模型的鲁棒性。另一方面,通过更改样本语句中部分字的字向量,能够改变语句分类模型的关注点,训练过程使得该语句分类模型还能够对其进行准确分类,也就使得语句分类模型关注全局特征,不会过度关注局部特征,避免出现过度拟合的情况,提高语句分类模型的预测准确性。
Description
技术领域
本公开涉及计算机技术领域,尤其涉及一种语句分类模型训练方法、语句处理方法及设备。
背景技术
随着计算机技术的发展,通过分类模型对语句进行处理,使用模型代替人工操作,能够大大减少人工操作,提高数据处理效率。该分类模型通常需要使用样本数据训练得到,该分类模型为一种语句分类模型。其中,在自然语言处理场景中,可以对语句分类模型进行训练,使得语句分类模型能够对语句进行处理。
相关技术中,语句分类模型训练方法通常是:获取样本数据,例如,样本数据为新闻标题,直接通过语句分类模型对样本数据进行处理,得到样本数据的语句表征信息,基于语句表征信息进行分类,然后基于样本数据的真实标签构造损失函数,以损失函数的值来更新模型参数。
然而在真实业务场景中,没有绝对干净的样本数据,其中,干净的数据是指数据中没有重复信息、没有任何错误的正确的数据,不干净的数据(也即是脏数据)中则可能包含有重复信息,或者存在错误。在真实业务场景中产生的数据则可能包括干净的数据和不干净的数据,用不是绝对干净的样本数据来训练模型,容易出现过度拟合训练数据,使得训练后的模型对于处理这些样本数据时效果很好,但针对和这些样本数据不同的数据则无法准确进行预测,因而出现在线上表现不好的问题,因而,上述训练方法得到的语句分类模型的预测准确性和鲁棒性较差。
发明内容
本公开提供一种语句分类模型训练方法、语句处理方法及设备,能够提高语句分类模型的鲁棒性和预测准确性。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种语句分类模型训练方法,包括:
对多个样本语句进行预处理,得到每个样本语句的字向量信息,所述字向量信息包括所述每个样本语句中每个字的字向量,所述多个样本语句中第一样本语句中部分字的字向量被更改,每个样本语句对应有目标分类结果;
基于语句分类模型和所述每个样本语句的字向量信息,对所述每个样本语句进行分类,得到所述每个样本语句的预测分类结果;
基于所述预测分类结果和所述目标分类结果,获取第一损失值;
基于所述第一损失值,对所述语句分类模型的模型参数进行调整。
在一些实施例中,所述方法还包括:
基于语句分类模型,对所述第一样本语句的字向量信息进行处理,得到所述第一样本语句中每个位置上字的表征信息;
所述基于所述第一损失值,对所述语句分类模型的模型参数进行调整,包括:
基于所述第一样本语句中被更改位置上字的表征信息和所述被更改位置上字的字向量,获取第二损失值;
基于所述第一损失值和所述第二损失值,对所述语句分类模型的模型参数进行调整。
在一些实施例中,所述基于语句分类模型和所述每个样本语句的字向量信息,对所述每个样本语句进行分类,得到所述每个样本语句的预测分类结果,包括:
基于语句分类模型,对所述每个样本语句的字向量信息进行处理,得到每个样本语句的语句表征信息;
基于所述语句分类模型和所述每个样本语句的语句表征信息,对所述每个样本语句进行分类,得到预测分类结果。
在一些实施例中,所述对多个样本语句进行预处理,得到每个样本语句的字向量信息,包括:
获取多个样本语句;
对所述多个样本语句中第一样本语句中部分字或者部分字嵌入处理得到的字向量进行更改,所述第一样本语句为所述多个样本语句中部分或全部样本语句;
基于更改后的多个样本语句或者更改后的多个样本语句中每个位置上字的字向量,获取所述多个样本语句的字向量信息。
在一些实施例中,所述对所述多个样本语句中第一样本语句中部分字或者部分字嵌入处理得到的字向量进行更改,包括下述任一项:
根据每个字的被更改概率,确定所述多个样本语句中待更改的第一样本语句以及所述第一样本语句中待更改的字;对所述第一样本语句中待更改的字或所述字嵌入处理得到的字向量进行更改;
根据每个样本语句的被更改概率以及目标长度,确定所述多个样本语句中待更改的第一样本语句以及所述第一样本语句中待更改的连续多个字;对所述第一样本语句中待更改的所述连续多个字或者所述连续多个字嵌入处理得到字向量进行更改,所述连续多个字的长度为目标长度。
在一些实施例中,所述每个字的被更改概率基于每个字的被选中概率和被替换概率确定;
所述根据每个字被更改概率,确定所述多个样本语句中待更改的第一样本语句以及所述第一样本语句中待更改的字,包括:根据每个字的被选中概率,从所述多个样本语句中,确定第一目标样本语句,所述第一目标样本语句为存在被选中字的样本语句;根据每个字的被替换概率,从所述第一目标样本语句中所述被选中字中,确定待更改的字,所述第一样本语句为存在所述待更改的字的第一目标样本语句。
在一些实施例中,所述每个样本语句的被更改概率基于每个样本语句的被替换概率或位置更改概率中的至少一项,和每个样本语句的被选中概率确定;
所述根据每个样本语句的被更改概率以及目标长度,确定所述多个样本语句中待更改的第一样本语句以及所述第一样本语句中待更改的连续多个字,包括:
根据每个样本语句的被选中概率,从所述多个样本语句中,确定第二目标样本语句,所述第二目标样本语句为被选中的样本语句;
根据每个样本语句的被替换概率或位置更改概率中的至少一项,以及所述目标长度,从所述第二目标样本语句中,确定待更改的第一样本语句,以及所述第一样本语句中待替换的连续多个字或待更改位置的连续多个字。
根据本公开实施例的第二方面,提供一种语句处理方法,包括:
获取语句;
对所述语句进行嵌入处理,得到所述语句的字向量信息,所述字向量信息包括所述语句中每个字的字向量,所述字向量为字的向量表示;
将所述语句的字向量信息输入所述语句分类模型中,由所述语句分类模型根据所述字向量信息中每个字的字向量以及所述每个字的上下文表征,确定所述语句的语句表征信息,基于所述语句表征信息对所述语句进行分类,得到所述语句的分类结果;
其中,所述语句分类模型基于更改了部分字的字向量的样本语句训练得到。
根据本公开实施例的第三方面,提供一种语句分类模型训练装置,包括:
预处理单元,被配置为执行对多个样本语句进行预处理,得到每个样本语句的字向量信息,所述字向量信息包括所述每个样本语句中每个字的字向量,所述多个样本语句中第一样本语句中部分字的字向量被更改,每个样本语句对应有目标分类结果;
分类单元,被配置为执行基于语句分类模型和所述每个样本语句的字向量信息,对所述每个样本语句进行分类,得到所述每个样本语句的预测分类结果;
获取单元,被配置为执行基于所述预测分类结果和所述目标分类结果,获取第一损失值;
调整单元,被配置为执行基于所述第一损失值,对所述语句分类模型的模型参数进行调整。
在一些实施例中,所述装置还包括:
处理单元,被配置为执行基于语句分类模型,对所述第一样本语句的字向量信息进行处理,得到所述第一样本语句中每个位置上字的表征信息;
所述调整单元包括第一获取模块和调整模块;
所述第一获取模块被配置为执行基于所述第一样本语句中被更改位置上字的表征信息和所述被更改位置上字的字向量,获取第二损失值;
所述调整模块被配置为执行基于所述第一损失值和所述第二损失值,对所述语句分类模型的模型参数进行调整。
在一些实施例中,所述分类单元包括处理模块和分类模块;
所述处理模块被配置为执行基于语句分类模型,对所述每个样本语句的字向量信息进行处理,得到每个样本语句的语句表征信息;
所述分类模块被配置为执行基于所述语句分类模型和所述每个样本语句的语句表征信息,对所述每个样本语句进行分类,得到预测分类结果。
在一些实施例中,所述预处理单元包括第二获取模块、更改模块;
所述第二获取模块被配置为执行获取多个样本语句;
所述更改模块被配置为执行对所述多个样本语句中第一样本语句中部分字或者部分字嵌入处理得到的字向量进行更改,所述第一样本语句为所述多个样本语句中部分或全部样本语句;
所述第二获取模块被配置为执行基于更改后的多个样本语句或者更改后的多个样本语句中每个位置上字的字向量,获取所述多个样本语句的字向量信息。
在一些实施例中,所述更改模块被配置为执行下述任一项:
根据每个字的被更改概率,确定所述多个样本语句中待更改的第一样本语句以及所述第一样本语句中待更改的字;对所述第一样本语句中待更改的字或所述字嵌入处理得到的字向量进行更改;
根据每个样本语句的被更改概率以及目标长度,确定所述多个样本语句中待更改的第一样本语句以及所述第一样本语句中待更改的连续多个字;对所述第一样本语句中待更改的所述连续多个字或者所述连续多个字嵌入处理得到字向量进行更改,所述连续多个字的长度为目标长度。
在一些实施例中,所述每个字的被更改概率基于每个字的被选中概率和被替换概率确定;
所述更改模块被配置为执行:
根据每个字的被选中概率,从所述多个样本语句中,确定第一目标样本语句,所述第一目标样本语句为存在被选中字的样本语句;
根据每个字的被替换概率,从所述第一目标样本语句中所述被选中字中,确定待更改的字,所述第一样本语句为存在所述待更改的字的第一目标样本语句。
在一些实施例中,所述每个样本语句的被更改概率基于每个样本语句的被替换概率或位置更改概率中的至少一项,和每个样本语句的被选中概率确定;
所述更改模块被配置为执行:
根据每个样本语句的被选中概率,从所述多个样本语句中,确定第二目标样本语句,所述第二目标样本语句为被选中的样本语句;
根据每个样本语句的被替换概率或位置更改概率中的至少一项,以及所述目标长度,从所述第二目标样本语句中,确定待更改的第一样本语句,以及所述第一样本语句中待替换的连续多个字或待更改位置的连续多个字。
根据本公开实施例的第四方面,提供一种语句处理装置,所述装置包括:
获取单元,被配置为执行获取语句;
嵌入处理单元,被配置为执行对所述语句进行嵌入处理,得到所述语句的字向量信息,所述字向量信息包括所述语句中每个字的字向量,所述字向量为字的向量表示;
分类单元,被配置为执行将所述语句的字向量信息输入所述语句分类模型中,由所述语句分类模型根据所述字向量信息中每个字的字向量以及所述每个字的上下文表征,确定所述语句的语句表征信息,基于所述语句表征信息对所述语句进行分类,得到所述语句的分类结果;
其中,所述语句分类模型基于更改了部分字的字向量的样本语句训练得到。
根据本公开实施例的第五方面,提供一种电子设备,包括:
一个或多个处理器;
用于存储所述一个或多个处理器可执行程序代码的一个或多个存储器;
其中,所述一个或多个处理器被配置为执行所述程序代码,以实现上述任一项所述的语句分类模型训练方法或语句处理方法。
根据本公开实施例的第六方面,提供一种计算机可读存储介质,当所述计算机可读存储介质中的程序代码由电子设备的一个或多个处理器执行时,使得所述电子设备能够执行上述任一项所述的语句分类模型训练方法或语句处理方法。
根据本公开实施例的第七方面,提供一种计算机程序产品,包括一条或多条程序代码,所述一条或多条程序代码由电子设备的一个或多个处理器执行时,使得所述电子设备能够执行上述任一项所述的语句分类模型训练方法或语句处理方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
本公开实施例的方法及装置,一方面,在得到样本语句对应的字向量信息时,将其中部分字的字向量进行了更改,将更改后的字向量信息作为样本语句分类的依据,使得语句分类模型对更改的样本语句依旧能够准确进行分类,增强了该语句分类模型对语句发生不定更改的适应性和抵抗性,提高了语句分类模型的鲁棒性。另一方面,通过更改样本语句中部分字的字向量,能够改变语句分类模型的关注点,由于该样本语句中部分字的字向量发生了更改,训练过程使得该语句分类模型还能够对其进行准确分类,也就使得语句分类模型关注全局特征,从全局出发进行准确分类,而不会过度关注局部特征,如果过度关注局部特征则可能获取到被更改部分的特征,也就无法完成准确分类。这样可以避免出现过度拟合的情况,提高语句分类模型的预测准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种语句分类模型训练方法或语句处理方法的实施环境示意图。
图2是根据一示例性实施例示出的一种语句分类模型训练方法的流程图。
图3是根据一示例性实施例示出的一种语句处理方法的流程图。
图4是根据一示例性实施例示出的一种语句处理方法的流程图。
图5是根据一示例性实施例示出的一种使用BERT模型得到表征信息的流程图。
图6是根据一示例性实施例示出的一种语句分类模型训练方法的流程图。
图7是根据一示例性实施例示出的一种语句分类模型训练装置的框图。
图8是根据一示例性实施例示出的一种语句处理装置的框图。
图9是根据一示例性实施例示出的一种电子设备的框图。
图10是根据一示例性实施例示出的一种终端的框图。
图11是根据一示例性实施例示出的一种服务器的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
本公开所涉及的用户信息可以为经用户授权或者经过各方充分授权的信息。
下面对本公开的实施环境进行说明。
图1是根据一示例性实施例示出的一种语句分类模型训练方法或语句处理方法的实施环境示意图,如图1所示,该实施环境包括至少一个终端101和语句处理平台110。至少一个终端101通过无线网络或有线网络与语句处理平台110相连。
语句处理平台110例如是终端、一台或多台服务器、云计算平台和虚拟化中心中的至少一种。
终端101例如是智能手机、游戏主机、台式计算机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)播放器或MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器和膝上型便携计算机中的至少一种。终端安装和运行有多媒体资源应用。该应用程序可以是客户端应用,也可以是浏览器应用。
语句处理平台102包括一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。语句处理平台102用于为支语句处理的应用程序提供后台服务。可选地,语句处理平台102承担主要处理工作,终端101承担次要处理工作;或者,语句处理平台102承担次要处理工作,终端101承担主要处理工作;或者,语句处理平台102或终端101分别能够单独承担处理工作。或者,语句处理平台102和终端101两者之间采用分布式计算架构进行协同计算。
可选地,该语句处理平台102包括至少一台服务器1021以及数据库1022,该数据库1022用于存储数据,在本公开实施例中,该数据库1022中能够存储有样本语句,为至少一台服务器1021提供数据服务。
服务器能够是独立的物理服务器,也能够是多个物理服务器构成的服务器集群或者分布式系统,还能够是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端能够是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。
本领域技术人员能够知晓,上述终端101、服务器1021的数量能够更多或更少。比如上述终端101、服务器1021能够仅为一个,或者上述终端101、服务器1021为几十个或几百个,或者更多数量,本公开实施例对终端或服务器的数量和设备类型不加以限定。
图2是根据一示例性实施例示出的一种语句分类模型训练方法的流程图,如图2所示,语句分类模型训练方法用于电子设备中,包括以下步骤。
在步骤S21中,对多个样本语句进行预处理,得到每个样本语句的字向量信息,该字向量信息包括该每个样本语句中每个字的字向量,该多个样本语句中第一样本语句中部分字的字向量被更改,每个样本语句对应有目标分类结果。
在步骤S22中,基于语句分类模型和该每个样本语句的字向量信息,对该每个样本语句进行分类,得到该每个样本语句的预测分类结果。
在步骤S23中,基于该预测分类结果和该目标分类结果,获取第一损失值。
在步骤S24中,基于该第一损失值,对该语句分类模型的模型参数进行调整。
本公开实施例的方法及装置,一方面,在得到样本语句对应的字向量信息时,将其中部分字的字向量进行了更改,将更改后的字向量信息作为样本语句分类的依据,使得语句分类模型对更改的样本语句依旧能够准确进行分类,增强了该语句分类模型对语句发生不定更改的适应性和抵抗性,提高了语句分类模型的鲁棒性。另一方面,通过更改样本语句中部分字的字向量,能够改变语句分类模型的关注点,由于该样本语句中部分字的字向量发生了更改,训练过程使得该语句分类模型还能够对其进行准确分类,也就使得语句分类模型关注全局特征,从全局出发进行准确分类,而不会过度关注局部特征,如果过度关注局部特征则可能获取到被更改部分的特征,也就无法完成准确分类。这样可以避免出现过度拟合的情况,提高语句分类模型的预测准确性。
在一些实施例中,该方法还包括:基于语句分类模型,对该第一样本语句的字向量信息进行处理,得到该第一样本语句中每个位置上字的表征信息;
该基于该第一损失值,对该语句分类模型的模型参数进行调整,包括:基于该第一样本语句中被更改位置上字的表征信息和该被更改位置上字的字向量,获取第二损失值;基于该第一损失值和该第二损失值,对该语句分类模型的模型参数进行调整。
在一些实施例中,该基于语句分类模型和该每个样本语句的字向量信息,对该每个样本语句进行分类,得到该每个样本语句的预测分类结果,包括:基于语句分类模型,对该每个样本语句的字向量信息进行处理,得到每个样本语句的语句表征信息;基于该语句分类模型和该每个样本语句的语句表征信息,对该每个样本语句进行分类,得到预测分类结果。
在一些实施例中,该对多个样本语句进行预处理,得到每个样本语句的字向量信息,包括:获取多个样本语句;对该多个样本语句中第一样本语句中部分字或者部分字嵌入处理得到的字向量进行更改,该第一样本语句为该多个样本语句中部分或全部样本语句;基于更改后的多个样本语句或者更改后的多个样本语句中每个位置上字的字向量,获取该多个样本语句的字向量信息。
在一些实施例中,该对该多个样本语句中第一样本语句中部分字或者部分字嵌入处理得到的字向量进行更改,包括下述任一项:
根据每个字的被更改概率,确定该多个样本语句中待更改的第一样本语句以及该第一样本语句中待更改的字;对该第一样本语句中待更改的字或该字嵌入处理得到的字向量进行更改;
根据每个样本语句的被更改概率以及目标长度,确定该多个样本语句中待更改的第一样本语句以及该第一样本语句中待更改的连续多个字;对该第一样本语句中待更改的该连续多个字或者该连续多个字嵌入处理得到字向量进行更改,该连续多个字的长度为目标长度。
在一些实施例中,该每个字的被更改概率基于每个字的被选中概率和被替换概率确定;该根据每个字被更改概率,确定该多个样本语句中待更改的第一样本语句以及该第一样本语句中待更改的字,包括:根据每个字的被选中概率,从该多个样本语句中,确定第一目标样本语句,该第一目标样本语句为存在被选中字的样本语句;根据每个字的被替换概率,从该第一目标样本语句中该被选中字中,确定待更改的字,该第一样本语句为存在该待更改的字的第一目标样本语句。
在一些实施例中,该每个样本语句的被更改概率基于每个样本语句的被替换概率或位置更改概率中的至少一项,和每个样本语句的被选中概率确定;该根据每个样本语句的被更改概率以及目标长度,确定该多个样本语句中待更改的第一样本语句以及该第一样本语句中待更改的连续多个字,包括:根据每个样本语句的被选中概率,从该多个样本语句中,确定第二目标样本语句,该第二目标样本语句为被选中的样本语句;根据每个样本语句的被替换概率或位置更改概率中的至少一项,以及该目标长度,从该第二目标样本语句中,确定待更改的第一样本语句,以及该第一样本语句中待替换的连续多个字或待更改位置的连续多个字。
图3是根据一示例性实施例示出的一种语句处理方法的流程图,如图3所示,语句分类模型训练方法用于电子设备中,包括以下步骤。
在步骤S31中,获取语句。
在步骤S32中,对该语句进行嵌入处理,得到该语句的字向量信息,该字向量信息包括该语句中每个字的字向量,该字向量为字的向量表示。
在步骤S33中,将该语句的字向量信息输入该语句分类模型中,由该语句分类模型根据该字向量信息中每个字的字向量以及该每个字的上下文表征,确定该语句的语句表征信息,基于该语句表征信息对该语句进行分类,得到该语句的分类结果。其中,该语句分类模型基于更改了部分字的字向量的样本语句训练得到。
图4是根据一示例性实施例示出的一种语句分类模型训练方法的流程图,如图4所示,语句分类模型训练方法用于电子设备中,包括以下步骤。
在步骤S41中,电子设备获取多个样本语句,每个样本语句对应有目标分类结果。
在本公开实施例中,语句分类模型用于对语句进行分类。因而,电子设备可以获取对应有目标分类结果的多个样本语句,对语句分类模型进行训练,提高该语句分类模型的预测准确性。
其中,该目标分类结果是样本语句真实的、正确的分类结果,也即是“真值”。该目标分类结果用于与语句分类模型预测得到的预测分类结果进行对比,以判断预测分类结果是否准确。预测分类结果也即是“预测值”。对比“真值”和“预测值”,得到二者之间的损失值,该损失值能够衡量语句分类模型的性能。模型训练的目的即在于减小损失值,使得语句分类模型能够准确分类,进而能够预测得到非常接近“真值”的“预测值”。
在一些实施例中,该多个样本语句可以存储于数据库中,电子设备在需要对语句分类模型进行训练时能够从数据库中提取该多个样本语句。
在另一些实施例中,电子设备可以接收其他设备发送的语句,将接收到的多个语句作为多个样本语句。
当然,电子设备还可以通过其他方式获取多个样本语句,例如,电子设备可以从目标网站下载样本语句。本公开实施例对该多个样本语句的获取方式不作限定。
在步骤S42中,电子设备对该多个样本语句中第一样本语句中部分字或者部分字嵌入处理得到的字向量进行更改,该第一样本语句为该多个样本语句中部分或全部样本语句。
电子设备在获取到多个样本语句后,能够对其进行预处理,将部分或全部样本语句中的部分字的字向量进行更改,将这些部分字的字向量被更改的样本语句称为第一样本语句,通过预处理后的样本语句进行模型训练,能够使得语句分类模型对这样的更改具有一定的抵抗性,因而,能够提高语句分类模型的鲁棒性。且通过对部分字进行更改,能够迫使语句分类模型更好地学习到全局pattern(模式),而不会过度关注于局部pattern,从而能够避免出现过度拟合的情况,提高语句分类模型的预测准确性。
在步骤S43中,电子设备基于更改后的多个样本语句或者更改后的多个样本语句中每个位置上字的字向量,获取该多个样本语句的字向量信息。
电子设备对样本语句进行更改或者对样本语句中字的字向量进行更改后,可以基于更改后的数据,来得到多个样本语句的字向量信息,以字向量信息作为模型的输入,后续能够将字向量信息作为分类的依据进行分类,进而确定模型的性能。
电子设备对样本语句进行预处理时,可以采用不同的预处理方式,比如电子设备更改的信息有所不同,相应地,电子设备得到每个样本语句的字向量信息的过程也即有所不同。下面提供三种可选的实现方式。
在实现方式一中,电子设备可以对第一样本语句中的部分字进行更改,得到不同于原始样本语句的语句,以此再进行嵌入处理,这样最终第一样本语句的字向量信息中部分字的字向量被更改。具体地,在步骤S42中,电子设备可以对该多个样本语句中第一样本语句中部分字进行更改,得到更改后的多个样本语句。相应地,在步骤S43中,电子设备可以对该更改后的多个样本语句进行嵌入处理,得到该多个样本语句的字向量信息。
在该实现方式一中,样本语句中包括一个或多个字,电子设备能够先对字进行更改,这样样本语句已发生了变化,再进行嵌入处理,得到的字向量信息中,被更改位置上字的字向量则是根据更改之后的字进行嵌入处理得到的,因而不同于原本这个位置上字的字向量。
在一些实施例中,修改部分字时,可以基于字进行更改,也可以基于样本语句中每个位置进行更改,每个位置对应一个字。例如,假设第一样本语句为“今天的天气为晴”,该第一样本语句包括“今”、“天”、“的”、“气”、“为”、“晴”。基于字进行更改的方式中,如果确定要更改的字为“天”,则可以对样本语句中出现的两个“天”均进行更改。在基于样本语句中每个位置进行更改的方式中,两个“天”在样本语句中的位置不同,在确定每个字是否需要更改时,这两个“天”字能够单独进行分析,例如,经过分析确定第一个“天”需要进行更改,第二个“天”不需要进行更改。
在实现方式二中,电子设备可以对第一样本语句进行嵌入处理,得到候选字向量信息,再对候选字向量信息中部分字的字向量进行更改,进而最终第一样本语句的字向量信息中部分字的字向量被更改。具体地,在步骤S42中,电子设备可以对该多个样本语句进行嵌入处理,得到该多个样本语句的候选字向量信息,对该多个样本语句中第一样本语句的候选字向量信息中部分字的字向量进行更改,得到该多个样本语句中每个位置上字的字向量。相应地,在步骤S43中,电子设备可以将该多个样本语句中每个样本语句中每个位置上字的字向量作为该每个样本语句的字向量信息。
在实现方式三中,电子设备可以在对第一样本语句进行处理得到字向量信息的过程中进行更改,使得最终第一样本语句的字向量信息中部分字的字向量被更改。具体地,上述步骤S42中,电子设备可以获取该第一样本语句中每个字对应的索引信息,对该第一样本语句中部分字的索引信息进行更改。相应地,该步骤S43中,电子设备能够基于更改后该第一样本语句中每个字对应的索引信息,从字表矩阵中,获取每个字的字向量,得到该第一样本语句的字向量信息;基于第二样本语句中每个字对应的索引信息,从字表矩阵中,获取每个字的字向量,得到该其它样本语句的字向量信息,该第二样本语句为该多个样本语句中除了该第一样本语句之外的样本语句。
在该实现方式三中,在更改和嵌入处理时,能够先根据字表矩阵中字与索引信息的对应关系,确定每个样本语句对应的索引信息矩阵,再根据上述更改过程提供的更改方式对索引信息矩阵进行更改,然后基于更改后的索引信息矩阵,以及索引信息与字向量之间的对应关系,确定更改后索引信息矩阵对应的字向量信息。其中,该索引信息可以为一种数字索引(index)。
在一些实施例中,每个字的字向量可以存储于字表矩阵中,每个数字索引与字表矩阵中字的字向量具有对应关系。对于字表矩阵,字表矩阵可以表现为一个字表矩阵,每个字在字表矩阵中会有一个index,这个index对应字表矩阵的一行,这一行表征(representation)视为这个字的向量表征(representation),也即是这个字的字向量。
通过基于字表矩阵更改索引信息的方式,来更该样本语句中的字以及对应的字向量,该索引信息为比较轻量的数据,相较于对字进行更改,更加轻便、快捷,计算量比较小。
在一些实施例中,电子设备在对样本语句中的部分字或者部分字的字向量进行更改时,可以包括多种更改方式。下面提供两种可能的更改方式。
方式一、以单个字为单位进行更改。
在该方式一中,每个字可以具有被更改概率,以每个字为单位确定每个字是否需要被更改。具体地,电子设备根据每个字的被更改概率,确定该多个样本语句中待更改的第一样本语句以及该第一样本语句中待更改的字,对该第一样本语句中待更改的字或该字嵌入处理得到的字向量进行更改。通过该被更改概率,能够使得该第一样本语句的确定以及第一样本语句中被更改的字的确定均为随机的,为该确定过程增加了不确定性,这样得到的第一样本语句更具有随机性,以此来训练语句分类模型,能够更好地提高该语句分类模型的适应性和对于更改的抵抗性,进而提高语句分类模型的鲁棒性。
在一些实施例中,上述更改过程中被更改字或字向量的部分字可以先通过一定概率选中再基于另一概率确定是否需要被替换。具体的,该每个字的被更改概率基于每个字的被选中概率和该每个字的被替换概率确定。需要说明的是,对被更改字或字向量的部分字进行替换的过程包括直接对部分字进行替换,也可以是指将对部分字的字向量进行替换,还可以是指对部分字的索引信息进行替换,本文中其他同理的内容不再过多说明。
相应地,该步骤S42中,电子设备可以根据每个字的被选中概率,从该多个样本语句中,确定第一目标样本语句,该第一目标样本语句为存在被选中字的样本语句,根据每个字的被替换概率,从该第一目标样本语句中该被选中字中,确定待更改的字,该第一样本语句为存在该待更改的字的第一目标样本语句。
其中,被选中概率、被替换概率均可以由相关技术人员根据需求进行设置,本公开实施例对此不作限定。例如,被选中概率为30%。被替换概率为90%。本公开实施例对此不作限定。
通过被选中概率,先确定出被选中的字,然后对于被选中的字,根据被替换概率,这些被选中的字可能被替换,也可能不发生任何更改,进而再进一步确定出哪些样本语句中的字的字向量需要被更改,这些样本语句中具体哪些字的字向量需要被更改。
上述通过被选中概率和被替换概率为更改部分字的字向量的过程提供了多种更改方式,能够提高更改方式的随机性,提高更改后的样本语句的多样性,能够更真实模拟真实线上数据的分布,更好地提高语句分类模型的鲁棒性。
在一些实施例中,该待更改的字或待更改位置上的字被替换为目标字符,上述替换中还可以将这部分字替换为不同的目标字符,不同的目标字符能够对应相同或不同的被替换概率。在一些实施例中,该目标字符包括第一目标字符和第二目标字符,该第一目标字符对应第一被替换概率,该第二目标字符对应第二被替换概率。
该第一被替换概率与第二被替换概率相同,或者,该第一被替换概率与第二被替换概率不同。该第一被替换概率与第二被替换概率可以由相关技术人员根据需求进行设置,本公开实施例对此不作限定。例如,上述第一目标字符为mask(掩盖)符号,第一被替换概率为75%。第二目标字符为随机字,第二被替换概率为15%。
在该实施例中,上述更改过程也即是:电子设备根据该第一被替换概率,从该第一目标样本语句中该被选中字中,确定待替换为第一目标字符的字,根据该第二被替换概率,从该第一目标样本语句中该被选中字中,确定待替换为第二目标字符的字。
在上述实施例中,能够通过被选中概率和被替换概率确定每个字是否需要被替换,以及被替换为哪种字,通过这种概率,可能还会确定某个字不需要被替换,而是保持不变。
例如,在一个具体示例中,一个句子中每个字有30%的概率被选中,对于被选中的字,可能会做以下三种可能的预处理。具体进行哪种预处理方式,能够根据被替换概率确定。三种预处理方式可以包括:75%的概率被替换成一个MASK的标签,15%的概率被替换成其他真实存在的中文字,10%的概率保持不变。
上述通过被选中概率和被替换概率为更改部分字的字向量的过程提供了多种更改方式,且通过不同的被替换概率以及被替换的不同的目标字符,能够提高更改方式的随机性,提高更改后的样本语句的多样性,能够更真实模拟真实线上数据的分布,更好地提高语句分类模型的鲁棒性。
方式二、以目标长度的连续多个字为单位进行更改。
在方式二中,每个样本语句可以具有被更改概率,可以以样本语句为准,分析其中的连续多个字是否需要被更改,以及具体哪几个字被更改。具体地,电子设备根据每个样本语句的被更改概率以及目标长度,确定该多个样本语句中待更改的第一样本语句以及该第一样本语句中待更改的连续多个字;对该第一样本语句中待更改的该连续多个字或者该连续多个字嵌入处理得到字向量进行更改,该连续多个字的长度为目标长度。通过将连续的多个字的字向量进行更改,能够更快地确定出需要被更改字或字向量的字所在位置,效率更高,且将连续多个字的字向量进行更改,对该样本语句的影响更大,这样基于这样样本语句进行训练,得到的语句分类模型的适应性更强,鲁棒性更好。
其中,该目标长度可以由相关技术人员根据需求进行设置,该目标长度可以采用不同的形式。在一些实施例中,该目标长度可以采用比例的形式。例如,该目标长度可以为样本语句的长度的5%-15%。又例如,该目标长度可以为字的绝对长度,例如,24字节(byte)。
在一些实施例中,上述更改过程中被更改字或字向量的部分字可以先通过一定概率选中再基于另一概率确定是否需要被替换。具体地,该每个样本语句的被更改概率基于每个样本语句的被替换概率或位置更改概率中的至少一项,和每个样本语句的被选中概率确定。
具体的,上述更改过程可以为:电子设备根据每个样本语句的被选中概率,从该多个样本语句中,确定第二目标样本语句,该第二目标样本语句为被选中的样本语句,然后,电子设备根据每个样本语句的被替换概率或位置更改概率中的至少一项,以及该目标长度,从该第二目标样本语句中,确定待更改的第一样本语句,以及该第一样本语句中待替换的连续多个字或待更改位置的连续多个字。
对于该目标长度的连续多个字,可以随机确定,也可以通过一定规则确定,本公开实施例对此不作限定。
通过上述先选中,再确定替换的方式,可以为样本语句提供多种连续多个字的更改方式,确定方式更佳随机,来提高更改方式的随机性,提高更改后的样本语句的多样性,能够更真实模拟真实线上数据的分布,更好地提高语句分类模型的鲁棒性。
具体的,电子设备可以将连续多个字均替换为目标字符,需要说明的是,本公开实施例中,将连续多个字均替换为目标字符,是指直接对连续多个字进行更改,将其更改为目标字符,也可以是指将连续多个字的字向量均替换为目标字符的字向量,还可以是指将连续多个字的索引信息替换为目标字符的索引信息,本文中其他同理的内容不再过多说明。也可以将连续多个字的位置打乱,重新排列组合。因而,该更改过程可以包括下述两种情况。
情况一:电子设备响应于根据每个样本语句的被替换概率以及该目标长度,确定该被选中的样本语句中任一样本语句为待替换的第一样本语句,将该第一样本语句中目标长度的多个字均替换为目标字符。
情况二:电子设备响应于根据每个样本语句的位置更改概率以及该目标长度,确定该被选中的样本语句中任一样本语句为待更改位置的第一样本语句,更改该第一样本语句中该连续多个字在该第一样本语句中的位置。
情况一和情况二中对目标长度的连续多个字分别采用了不同的更改方式,在情况一中,确定出目标长度的连续多个字之后,将其替换为了目标字符,在情况二中,该电子设备更改该连续多个字在第一样本语句中的位置。
通过该两种情况,为样本语句提供多样化的更改方式,提高了更改后的样本语句的多样性,情况一中,通过直接替换,能够快读、便捷、高效地得到更改后的第一样本语句,且得到的第一样本语句能够更真实模拟真实线上数据的分布,更好地提高语句分类模型的鲁棒性。
在一些实施例中,该情况二中,电子设备在更换位置时,能够将该连续多个字重新进行排列组合,得到不同于原始位置的新位置,这样更改后的样本语句与原始的样本语句不同。通过位置更换,即使字或字的字向量并未发生变化,但由于位置发生了变化,对其进行分析的结果则可能会不同,通过这种方式也更能够模拟真实业务场景中字符错位等错误,能够更真实的模拟真实数据的分布情况。
例如,在一个具体示例中,每个句子有15%的概率被选中,对于被选中的句子,可以进行以下三种预处理方式中任一种,具体可以根据被更改概率确定。
该三种预处理方式包括:随机选择一段输入句子长度的5%-15%的连续片段的长度进行mask(被替换概率为80%),随机选择一段输入句子长度的5%-15%的连续片段的长度这部分的语句随机的进行重新排列组合放在不同于原始字的位置(位置更改概率为15%),保持句子不变(概率为5%)。
上述已给出了两种更改方式,在此将其称为mask过程。上述方式一采用了mask机制,上述方式二采用了spanmask(范围掩盖)机制。在此提供一个具体示例,在该具体示例中,采用实现方式三来获取字向量信息,对上述两种更改方式进行具体说明。
在方式一中,假设样本语句为“沈力追悼会在京举行”,将句子(也即是样本语句)中的每一个字转化成对应的数字索引,比如[245,123,9,8,…,3],如果是输入的句子触发了mask机制,那么某个字可能会被替换成[MASK]符号,在字表矩阵中[MASK]符号对应的序号为0,那么输入的序列会从[128,237,312,…,3]变成[0,237,0,…,3]这样,否则保持原来样子不变。
在方式二中,假设转化为数字索引[123,7,9,2,3,23,43,45,56,43,…,87]后,进行spanmask,可能得到字向量信息[123,7,9,2,0,0,0,0,56,43,…,87],连续的片段被mask,而不仅仅是一个一个孤立的字。
需要说明的是,步骤S41至步骤S43为对多个样本语句进行预处理,得到每个样本语句的字向量信息的过程,通过预处理过程,将部分或全部样本语句中的部分字进行更改,这样得到不同于原始样本语句的语句进行模型训练,能够使得语句分类模型对这样的更改具有一定的抵抗性,因而,能够提高语句分类模型的鲁棒性。且通过对部分字进行更改,如果语句分类模型依然关注于局部pattern,比如关注到字更改部分的表征信息,则无法准确对其进行分类,因而上述方式能够迫使语句分类模型更好地学习到全局pattern(模式),而不会过度关注于局部pattern,从而能够避免出现过度拟合的情况,提高语句分类模型的预测准确性。
在步骤S44中,电子设备基于语句分类模型,对该多个样本语句中每个样本语句的字向量信息进行处理,得到每个样本语句的语句表征信息和该每个样本语句中每个位置上字的表征信息。
该步骤S44中,电子设备可以基于语句分类模型,对该第一样本语句的字向量信息进行处理,得到每个样本语句的语句表征信息,进而该语句表征信息可以用于在步骤S45中对该样本语句进行分类。电子设备也可以基于语句分类模型,对该第一样本语句的字向量信息进行处理,得到该第一样本语句中每个位置上字的表征信息。
也即是,电子设备可以调用语句分类模型,将多个样本语句对应的字向量信息输入该语句分类模型中,由该语句分类模型对每个样本语句的字向量信息进行处理,输出每个样本语句的语句表征信息。该语句分类模型也可以输出该每个样本语句中每个位置上字的表征信息。该语句分类模型的输出可以由相关技术人员根据需求进行设置,例如,在不需要确定第二损失值的情况下,可以只输出语句表征信息,而不输出每个位置上字的表征信息。
其中,该语句分类模型用于对字向量信息进行处理,得到语句表征信息。通过该语句分类模型也可以得到每个位置上字的表征信息。例如,该语句分类模型可以为bert模型。
在一个具体的可能实施例中,该语句分类模型的输入为每个样本语句对应的字向量信息,输出为每个样本语句的语句表征信息以及每个位置上字的表征信息。
在一些实施例中,上述语句表征信息和每个字的表征信息能够根据每个位置上字的字向量以及该字的上下文表征确定,这样每个位置上字的表征信息考虑到了该字所在位置的上下文信息对该字所在位置的影响,考虑到了该字所在位置与上下文信息之间的联系,因而,该字的表征信息不仅仅包含有该字的信息,还包括有上下文的信息。
具体的,该步骤S44中,电子设备可以将该每个样本语句对应的字向量信息输入语句分类模型中,由该语句分类模型根据每个字向量信息中每个字所在位置的字向量以及该字所在位置的上下文表征,对该每个字向量信息进行处理,得到该每个样本语句的语句表征信息。这样每个位置的保证信息充分考虑到了每个位置的上下文信息,能够更好地表征该样本语句中该位置处的语义。
对于上下文表征,该字所在位置的上下文表征是指能够体现该字所在位置前和后的字的字向量以及这些字的排列顺序(或位置信息)的特征。可以理解地,该上下文表征能够体现该字所在位置前后一定范围内字的分布情况。该上下文表征依赖一个任意长度的临近词上下文(该字所在位置前和后的内容加起来为该任意长度的临近词上下文)。比如,两个语句“我不想去上学”和“我想去上学”中,针对“想”这个字,两个语句中该“想”的上下文表征即不同。另外,对于“上”字的上下文表征,在两个语句中可能也不同,因为获取到其上下文中,“上”字前的内容不同,“上”在语句中的位置也发生了变化,“上”字前的字的排列顺序也不同,获取到的上下文表征则可能不同。
例如,在一个具体示例中,如图5所示,对于一个语句中每个字,可以先嵌入处理得到字的字向量,该字向量用E1、E2、EN表示。然后通过该语句中每个字在语句中的位置,结合该字前后一定范围内的字的字向量,也即是,结合该字的上下文表征,来获取每个字的表征信息,在此以T1、T2、TN表示。
在一些实施例中,也可以由该语句分类模型根据每个字向量信息中每个字所在位置的字向量以及该字所在位置的上下文表征,对该每个字向量信息进行处理,输出该每个样本语句中每个位置上字的表征信息。
该语句分类模型所执行的步骤可以理解为编码步骤,如果该语句分类模型为bert模型,可以将bert视为encoder(编码器),原始输入句子通过bert模型获取句子表征和每个字的双向上下文表征(bi-directional context representation)。
在一些实施例中,电子设备可以在每个样本语句对应的字向量信息前添加通用语言规范(CLS)标志,然后将添加该通用语言规范标志的字向量信息输入该语句分类模型中。对于该字向量信息中目标位置,电子设备基于该语句分类模型,对该目标位置的向量值、目标相邻位置的向量值以及该目标位置的位置信息进行处理,得到该目标位置的表征信息,该目标位置为该字向量信息中该通用语言规范标志所在位置或任一字所在位置。通过该通用语言规范标志,对整个语句进行分析,得到语句表征信息,从整个语句出发获取到表征信息,进而能够对整个语句进行分类或匹配,得到对整个语句的分析结果,将关注点放到全局,能够学习到更准确的语句表征信息。
例如,在一个具体示例中,可以在图5所示的语句前加一个CLS标志,将该CLS标志也作为语句中的一部分进行同理的处理,得到CLS标志的表征信息,该CLS标志的表征信息即为该语句表征信息。
在一些实施例中,该第一样本语句中部分字基于每个字的被更改概率更改,也即对应上述两种更改方式中的方式一,该目标相邻位置为该字向量信息中与该目标位置相邻的位置。由于以单个字为单位进行更改,因而,可能在连续的多个字中有一个字被更改,也可能出现多个字被更改,在这种情况中,在对每个字的位置分析表征信息时,可以以相邻位置的字向量以及自身的字向量进行分析,能够捕捉到该位置处的上下文信息,以获取到精确的表征信息。
在另一些实施例中,该第一样本语句中部分字基于每个样本语句的被更改概率以及目标长度更改。也即对应上述两种更改方式中的方式二,这时包括两种情况。
情况一:响应于该目标位置为该连续多个字所在位置,该目标相邻位置为该字向量信息中与该目标位置相邻的位置。
情况二:响应于该目标位置为除该连续多个字所在位置之外的位置,该目标相邻位置为该字向量信息中与被更改位置距离最小的位置,该目标位置的位置信息为该目标位置在该连续多个字中的相对位置。
在上述情况一和情况二中,在对被更改的字进行表征时,需要考虑原有内容的信息,以获取到正确的表征信息,因而,可以考虑连续多个字所在位置之外的位置上的向量,因而,其对应的目标相邻位置则可以考虑字向量信息中与被更改位置最小的位置,避免基于被更改位置处的向量,来分析被更改位置处的向量,以提高表征信息的准确性。
在步骤S45中,电子设备基于该语句分类模型和该每个样本语句的语句表征信息,对该每个样本语句进行分类,得到预测分类结果。
该语句分类模型还具有分类能力,获取到样本语句的语句表征信息后,能基于该语句表征信息进行分类,也即是确定该样本语句的语句表征信息更贴近于哪种分类结果。
该语句分类可以包括多种场景,例如,对样本语句的语句表征信息进行分类,确定该样本语句的意图,又例如,对语句表征信息进行分类,确定该样本语句的舆情指示信息等。本公开实施例对此不作限定。
需要说明的一点是,上述步骤S44和步骤S45是基于语句分类模型和该每个样本语句的字向量信息,对该每个样本语句进行分类,得到该每个样本语句的预测分类结果的过程,该过程中,电子设备能够基于字向量信息为每个样本语句确定出语句表征信息,该语句表征信息用来作为对样本语句进行分类的依据,再进行分类。该确定语句表征信息的步骤为可选步骤,电子设备也可以直接基于字向量信息对样本语句进行分类,本公开实施例对此不作限定。
在得到样本语句对应的字向量信息时,将其中部分字的字向量进行了更改,这样在得到这些字的表征信息后,能够再根据表征信息还原这些字所在位置上的字,与原始样本语句中这些位置的字进行对比,从而能够训练该语句分类模型对更改的样本语句依旧能够准确进行表征,增强了该语句分类模型对语句发生的不定更改的适应性和抵抗性,提高了语句分类模型的鲁棒性。另一方面,通过更改样本语句中部分字的字向量,能够改变语句分类模型的关注点,由于该样本语句中部分字的字向量发生了更改,训练该语句分类模型还能够对其进行准确分类,则能够使得语句分类模型能够关注全局特征,从全局出发根据语句表征信息进行准确分类,而不会过度关注局部特征,可以避免出现过度拟合的情况,提高语句分类模型的预测准确性。
需要说明的另一点是,上述步骤S44中电子设备也可以不处理得到该每个样本语句中每个位置上字的表征信息,根据语句表征信息即可进行分类,该每个样本语句中每个位置上字的表征信息是用于预测这些位置上的预测字,增加一种损失值来提高模型性能的,该步骤为可选步骤,相应地,后续电子设备也可以不执行与后续步骤S47,而是直接基于第一损失值,对该语句分类模型的模型参数进行调整。本公开实施例对具体采用哪种方式不作限定。
在步骤S46中,电子设备基于该预测分类结果和该目标分类结果,获取第一损失值。
该第一损失值用于衡量预测分类结果和目标分类结果之间的差别,可以理解地,该差别与第一损失值正相关。差别越大,第一损失值越大。模型训练过程也即是通过调整模型参数使得模型预测得到的预测分类结果无限接近于该目标分类结果,甚至等于该目标分类结果。
在一些实施例中,该第一损失值可以通过损失函数确定。具体的,电子设备可以基于多个样本语句的语句表征信息进行分类得到的预测分类结果和目标分类结果,获取目标损失函数的值,将该目标损失函数的值作为该第一损失值。
该目标损失函数可以为任一种损失函数。例如,该目标损失函数可以为交叉熵损失函数。又例如,该目标损失函数可以为KL距离。本公开实施例对此不作限定。
在步骤S47中,电子设备基于该第一样本语句中被更改位置上字的表征信息和该被更改位置上字的字向量,获取第二损失值。
上述步骤S44之后,电子设备在确定出每个位置上字的表征信息后,还可以再将被更改位置处的字进行还原,然后与被更改前进行比较,来分析该语句分类模型获取表征信息的准确性。其中,该被更改位置是指字向量被更改的字所在的位置,该字表矩阵中的每一行为一个字的字向量。
该第二损失值用于衡量预测字和第一样本语句中该被更改的字之间的差别,可以理解地,该差别与第二损失值正相关。差别越大,第二损失值越大。差别越小,第二损失值越小。如果二者差别很小,第二损失值很小,这样上述步骤S46中得到的预测字比较准确,也可以说明该第一样本语句中被更改位置的表征信息比较准确,该语句分类模型能够很好地利用上下文信息得到缺失位置(也就是被更改位置)的双向上下文表征,该语句分类模型的鲁棒性和预测准确性很好。
同理的,模型训练过程也即是通过调整模型参数使得预测字无限接近于第一样本语句中该被更改的字,甚至与第一样本语句中该被更改的字相同。
同理的,该第二损失值可以通过损失函数确定。具体的,电子设备可以基于该被更改位置处的预测字与该第一样本语句中该被更改的字,获取目标损失函数的值,将该目标损失函数的值作为该第二损失值。
同理的,该目标损失函数可以为任一种损失函数。例如,该目标损失函数可以为交叉熵损失函数。又例如,该目标损失函数可以为KL距离。本公开实施例对此不作限定。
对于上述第二损失值,该第二损失值用于体现被mask位置上得到的字的表征信息是否与未被mask之前的字的表征信息接近。在确定该第二损失值时,可以通过字表矩阵,以字向量为比较单位,来对mask前后字的字向量(其中,mask后的字向量基于表征信息还原得到)来进行比较。该比较过程也可以通过字表矩阵,以字为比较单位来对mask前后字的字进行比较。因而,该过程可以包括以下两种实现方式,本公开实施例对具体采用哪种实现方式不作限定。
实现方式一、根据字表矩阵,预测被更改位置上字的表征信息对应的字向量;根据预测的字向量与该被更改位置上字的字向量,获取第二损失值。在该实现方式一中,以字向量为比较单位,通过被更改位置上字的表征信息,预测其对应的字向量与被更改前字的字向量进行比较。
实现方式二、基于字表矩阵和该第一样本语句中被更改位置上字的表征信息,确定该被更改位置上的预测字,该被更改位置是指字向量被更改的字所在的位置,该字表矩阵中的每一行为一个字的字向量;基于该被更改位置上的预测字与该第一样本语句中该被更改位置上的字,获取第二损失值。
在该实现方式一中,以字为比较单位,通过被更改位置上字的表征信息,预测其对应的字与被更改前的字进行比较。具体的,在该步骤中,电子设备可以将该第一样本语句中被更改位置的表征信息与字表矩阵中候选字的字向量进行匹配,将匹配的候选字作为该被更改位置处的预测字。通过表征信息与字表矩阵进行匹配,能够快速、高效地确定出预测字,以该预测字也能够进一步调整语句分类模型,以提高该语句分类模型获取表征信息的准确性和鲁棒性。
该预测字的确定过程可以通过两种可选方式实现。
方式一:获取该第一样本语句中被更改位置的表征信息与字表矩阵中每一行字向量的相似度,将相似度最大的行对应的候选字确定为该预测字。
在该方式一中,能够直接将bert的字表矩阵粘贴过来,进而进行相似度计算,能够降低计算复杂度。其中,该相似度可以通过余弦相似度计算得到。
方式二:基于字表矩阵和目标映射矩阵,将该第一样本语句中被更改位置的表征信息映射为概率分布,将该概率分布中概率最大的位置对应的候选字作为该预测字,其中,该概率分布中每个概率用于指示该被更改位置处的表征信息与该概率所在位置对应的候选字之间的匹配度。
电子设备可以基于字表矩阵和该第一样本语句中每个位置上字的表征信息,确定该第一样本语句中每个字所在位置的预测字。对整个语句进行预测和对比,能够确定出预测字和原始内容的差别,进而确定表征是否准确。这样无需特别在意被更改位置,扩大了调整范围,更能够对语句分类模型获取表征信息的准确性进行提升。
对应上述步骤S47的一种可能实现方式,基于该第一样本语句中每个字所在位置的预测字与该第一样本语句,获取该第二损失值。该第二损失值可以理解为通过MLM模型(masked language model)确定预测字,对于被mask的位置,要通过输出位置的双向上下文表征来预测被mask的字。这里可以通过两种可选方式实现预测字,在此不多做赘述。
在步骤S48中,电子设备基于该第一损失值和该第二损失值,对该语句分类模型的模型参数进行调整。
该模型参数调整后,电子设备可以继续执行上述步骤S41至步骤S47的步骤,通过多次迭代,提高模型性能。
需要说明的是,上述已经说明,该第二损失值的获取为可选步骤,也即是在一些实施例中,该步骤S48中,电子设备可以基于该第一损失值对该语句分类模型的模型参数进行调整。
在训练得到语句分类模型后,该语句分类模型能够用于对待处理语句进行分类。具体的,电子设备可以响应于语句处理指令,获取待处理语句对应的字向量信息,将该字向量信息输入语句分类模型中,由语句分类模型基于该字向量信息对该待处理语句进行分类,得到该待处理语句的分类结果。在一些实施例中,该语句处理模型能够对字向量信息进行处理,输出该待处理语句的语句表征信息,基于该语句表征信息对该待处理语句进行分类,得到该待处理语句的分类结果。
其中,该分类结果用于指示该待处理语句的类型。具体地,电子设备可以获取语句,对该语句进行嵌入处理,得到该语句的字向量信息,该字向量信息包括该语句中每个字的字向量,该字向量为字的向量表示,将该语句的字向量信息输入该语句分类模型中,由该语句分类模型对该字向量信息中每个字的字向量以及该每个字的上下文表征,确定该语句的语句表征信息,对该语句表征信息进行分类,得到该语句的分类结果;其中,该语句分类模型基于更改了部分字的样本语句训练得到。
该分类场景可以为任一种语句分类场景。例如,在意图分类场景中,对待处理语句进行分类得到的分类结果用于指示该待处理语句的意图。在情感分类场景中,对待处理语句进行分类得到的分类结果用于指示该待处理语句所表达的情感,或者该待处理语句的作者的情感。本公开实施例对具体为哪种分类场景不作限定。
本公开实施例的方法及装置,一方面,在得到样本语句对应的字向量信息时,将其中部分字的字向量进行了更改,将更改后的字向量信息作为样本语句分类的依据,使得语句分类模型对更改的样本语句依旧能够准确进行分类,增强了该语句分类模型对语句发生不定更改的适应性和抵抗性,提高了语句分类模型的鲁棒性。另一方面,通过更改样本语句中部分字的字向量,能够改变语句分类模型的关注点,由于该样本语句中部分字的字向量发生了更改,训练过程使得该语句分类模型还能够对其进行准确分类,也就使得语句分类模型关注全局特征,从全局出发进行准确分类,而不会过度关注局部特征,如果过度关注局部特征则可能获取到被更改部分的特征,也就无法完成准确分类。这样可以避免出现过度拟合的情况,提高语句分类模型的预测准确性。
图6是根据一示例实施例示出的一种语句处理方法的流程图,参见图6,该方法包括以下步骤。
在步骤S51中,电子设备获取语句。
该语句可以为待处理语句,该待处理语句可以为待分类的语句或者待识别的语句。
电子设备可以响应于语句处理指令,执行该步骤S51。
在一些实施例中,该语句处理指令可以由用户的语句处理操作触发,也可以预先设置于该电子设备中,基于其他指令或者定期触发,本公开实施例对此不作限定。
在步骤S52中,电子设备对该语句进行嵌入处理,得到该语句的字向量信息,该字向量信息包括该语句中每个字的字向量。
其中,该字向量为字的向量表示。电子设备获取到语句后,可以获取该语句的字向量信息,以字向量信息来对其进行进一步分析。该字向量信息的获取过程与上述步骤S42和步骤S43同理,在此不多做赘述。
在一些实施例中,电子设备可以获取该语句中每个字对应的索引信息,基于该语句中每个字的索引信息,从字表矩阵中,获取该语句中每个字的字向量,然后电子设备在该语句中所有字的字向量之前添加通用语言规范标志,将该通用语言规范标志后以及该语句中每个字的字向量作为该语句的字向量信息。通过索引信息和字表矩阵,快速确定出每个字的字向量,然后通过通用语言规范标志为整个语句获取语句表征信息,进而对整个语句进行分析。
在步骤S53中,电子设备将该语句的字向量信息输入该语句分类模型中,由该语句分类模型对该字向量信息中每个字的字向量以及该每个字的上下文表征,确定该语句的语句表征信息,基于该语句表征信息对该语句进行分类,得到该语句的分类结果。
其中,该语句分类模型基于更改了部分字的字向量的样本语句训练得到。该语句分类模型的训练过程可以参见上述图4所示实施例,在此不多做赘述。
该语句分类模型训练时,在得到样本语句对应的字向量信息时,将其中部分字的字向量进行了更改,将更改后的字向量信息作为样本语句分类的依据,使得该语句分类模型对更改的样本语句依旧能够准确进行分类,增强了该语句分类模型对语句发生的不定更改的适应性和抵抗性,提高了语句分类模型的鲁棒性,这样训练好的语句分类模型在对语句进行处理时,如果该语句中存在错误,该语句分类模型也能够准确获取到该语句的语句表征信息,并进行准确分类。
另外,由于该语句分类模型训练时,通过更改样本语句中部分字的字向量,能够改变语句分类模型的关注点,由于该样本语句中部分字的字向量发生了更改,训练该语句分类模型还能够对其进行准确分类,则能够使得语句分类模型能够关注全局特征,从全局出发根据语句表征信息进行准确分类,而不会过度关注局部特征,可以避免出现过度拟合的情况。这样该语句分类模型训练过程避免了过拟合问题,自然在对语句进行处理时,即使该语句存在的错误,或者该语句的句式等与样本语句差异较大,该语句分类模型依然能够对其进行准确预测。
该步骤S53中,电子设备确定语句表征信息的过程可以参见上述步骤S44。
在一些实施例中,在字向量信息中添加有通用语言规范标志的实施例中,该语句表征信息也即是该通用语言规范标志对应的表征信息。该语句表征信息的确定过程可以为:电子设备由该语句后处理模型对该字向量信息中目标位置的向量值、目标相邻位置的向量值以及该目标位置的位置信息进行处理,得到该目标位置的表征信息,该目标位置为该字向量信息中该通用语言规范标志所在位置或任一字所在位置。
需要说明的是,由于对语句进行处理时不再具有对样本语句进行部分字的字向量的更改步骤,也就不再有被更改位置等先验知识,只需要针对每个位置的向量以及上下文表征,为每个位置上字的表征信息进行分析即可,上述目标相邻位置即为该字向量信息中与该目标位置相邻的位置。通过每个字的字向量以及上下文表征,能够快速联系起整个语句,获取到准确的语句表征信息。
本公开实施例的方法及装置,一方面,在得到样本语句对应的字向量信息时,将其中部分字的字向量进行了更改,将更改后的字向量信息作为分类依据,使得该语句分类模型对更改的样本语句依旧能够准确进行分类,增强了该语句分类模型对语句发生的不定更改的适应性和抵抗性,提高了语句分类模型的鲁棒性。另一方面,通过更改样本语句中部分字的字向量,能够改变语句分类模型的关注点,由于该样本语句中部分字的字向量发生了更改,训练该语句分类模型还能够对其进行准确分类,则能够使得语句分类模型能够关注全局特征,从全局出发根据语句表征信息进行准确分类,而不会过度关注局部特征,可以避免出现过度拟合的情况,提高语句分类模型的预测准确性。这样该语句分类模型训练过程避免了过拟合问题,自然在对语句进行处理时,即使该语句存在的错误,或者该语句的句式等与样本语句差异较大,该语句分类模型依然能够对其进行准确预测,该语句处理方法的准确性得到了有效提高。另一方面,训练后该语句分类模型能够对嵌入后语句的字向量信息进行处理,处理过程中能够根据每个字的字向量以及其上下文表征,获取到全局的特征来进行分类,以能够准确地对语句进行分类,有效提高了语句处理方法的准确性。
图7是根据一示例性实施例示出的一种语句分类模型训练装置的装置框图。参照图7,该装置包括:
预处理单元601,被配置为执行对多个样本语句进行预处理,得到每个样本语句的字向量信息,该字向量信息包括该每个样本语句中每个字的字向量,该多个样本语句中第一样本语句中部分字的字向量被更改,每个样本语句对应有目标分类结果;
分类单元602,被配置为执行基于语句分类模型和该每个样本语句的字向量信息,对该每个样本语句进行分类,得到该每个样本语句的预测分类结果;
损失值获取单元603,被配置为执行基于该预测分类结果和该目标分类结果,获取第一损失值;
调整单元604,被配置为执行基于该第一损失值,对该语句分类模型的模型参数进行调整。
在一些实施例中,该装置还包括:
处理单元,被配置为执行基于语句分类模型,对该第一样本语句的字向量信息进行处理,得到该第一样本语句中每个位置上字的表征信息;
该调整单元包括第一获取模块和调整模块;该第一获取模块被配置为执行基于该第一样本语句中被更改位置上字的表征信息和该被更改位置上字的字向量,获取第二损失值;该调整模块被配置为执行基于该第一损失值和该第二损失值,对该语句分类模型的模型参数进行调整。
在一些实施例中,该分类单元包括处理模块和分类模块;该处理模块被配置为执行基于语句分类模型,对该每个样本语句的字向量信息进行处理,得到每个样本语句的语句表征信息;该分类模块被配置为执行基于该语句分类模型和该每个样本语句的语句表征信息,对该每个样本语句进行分类,得到预测分类结果。
在一些实施例中,该预处理单元包括第二获取模块、更改模块;该第二获取模块被配置为执行获取多个样本语句;该更改模块被配置为执行对该多个样本语句中第一样本语句中部分字或者部分字嵌入处理得到的字向量进行更改,该第一样本语句为该多个样本语句中部分或全部样本语句;该第二获取模块被配置为执行基于更改后的多个样本语句或者更改后的多个样本语句中每个位置上字的字向量,获取该多个样本语句的字向量信息。
在一些实施例中,该更改模块被配置为执行下述任一项:
根据每个字的被更改概率,确定该多个样本语句中待更改的第一样本语句以及该第一样本语句中待更改的字;对该第一样本语句中待更改的字或该字嵌入处理得到的字向量进行更改;
根据每个样本语句的被更改概率以及目标长度,确定该多个样本语句中待更改的第一样本语句以及该第一样本语句中待更改的连续多个字;对该第一样本语句中待更改的该连续多个字或者该连续多个字嵌入处理得到字向量进行更改,该连续多个字的长度为目标长度。
在一些实施例中,该每个字的被更改概率基于每个字的被选中概率和被替换概率确定;该更改模块被配置为执行:根据每个字的被选中概率,从该多个样本语句中,确定第一目标样本语句,该第一目标样本语句为存在被选中字的样本语句;根据每个字的被替换概率,从该第一目标样本语句中该被选中字中,确定待更改的字,该第一样本语句为存在该待更改的字的第一目标样本语句。
在一些实施例中,该每个样本语句的被更改概率基于每个样本语句的被替换概率或位置更改概率中的至少一项,和每个样本语句的被选中概率确定;
该更改模块被配置为执行:根据每个样本语句的被选中概率,从该多个样本语句中,确定第二目标样本语句,该第二目标样本语句为被选中的样本语句;根据每个样本语句的被替换概率或位置更改概率中的至少一项,以及该目标长度,从该第二目标样本语句中,确定待更改的第一样本语句,以及该第一样本语句中待替换的连续多个字或待更改位置的连续多个字。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图8是根据一示例性实施例示出的一种语句处理装置的框图,参见图8,该装置包括:
获取单元701,被配置为执行获取语句;
嵌入处理单元702,被配置为执行对该语句进行嵌入处理,得到该语句的字向量信息,该字向量信息包括该语句中每个字的字向量,该字向量为字的向量表示;
分类单元703,被配置为执行将该语句的字向量信息输入该语句分类模型中,由该语句分类模型根据该字向量信息中每个字的字向量以及该每个字的上下文表征,确定该语句的语句表征信息,基于该语句表征信息对该语句进行分类,得到该语句的分类结果;
其中,该语句分类模型基于更改了部分字的字向量的样本语句训练得到。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图9是根据一示例性实施例示出的一种电子设备的框图,参见图9,该电子设备可因配置或性能不同而产生比较大的差异,能够包括一个或一个以上处理器(CentralProcessing Units,CPU)801和一个或一个以上的存储器802,其中,该存储器802中存储有至少一条程序代码,该至少一条程序代码由该处理器801加载并执行以实现上述各个方法实施例提供的语句分类模型训练方法或语句处理方法。当然,该服务器还能够具有其他部件,以实现其他功能,在此不做赘述。
上述方法实施例中的电子设备能够实现为终端。例如,图10是根据一示例性实施例示出的一种终端的结构框图。该终端900可以是便携式移动终端,比如:智能手机、平板电脑、MP3(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端900还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端900包括有:处理器901和存储器902。
处理器901可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器901可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器901也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器901可以集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器901还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器902可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器902还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器902中的非暂态的计算机可读存储介质用于存储至少一个程序代码,该至少一个程序代码用于被处理器901所执行以实现本公开中方法实施例提供的语句分类模型训练方法或语句处理方法。
在一些实施例中,终端900还可选包括有:外围设备接口903和至少一个外围设备。处理器901、存储器902和外围设备接口903之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口903相连。具体地,外围设备包括:射频电路904、显示屏905、摄像头组件906、音频电路907、定位组件908和电源909中的至少一种。
外围设备接口903可被用于将I/O相关的至少一个外围设备连接到处理器901和存储器902。在一些实施例中,处理器901、存储器902和外围设备接口903被集成在同一芯片或电路板上;在一些其他实施例中,处理器901、存储器902和外围设备接口903中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路904用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路904通过电磁信号与通信网络以及其他通信设备进行通信。射频电路904将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路904包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路904可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路904还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本公开对此不加以限定。
显示屏905用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏905是触摸显示屏时,显示屏905还具有采集在显示屏905的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器901进行处理。此时,显示屏905还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏905可以为一个,设置在终端900的前面板;在另一些实施例中,显示屏905可以为至少两个,分别设置在终端900的不同表面或呈折叠设计;在另一些实施例中,显示屏905可以是柔性显示屏,设置在终端900的弯曲表面上或折叠面上。甚至,显示屏905还可以设置成非矩形的不规则图形,也即异形屏。显示屏905可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件906用于采集图像或视频。可选地,摄像头组件906包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件906还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路907可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器901进行处理,或者输入至射频电路904以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端900的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器901或射频电路904的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路907还可以包括耳机插孔。
定位组件908用于定位终端900的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件908可以是基于美国的GPS(GlobalPositioning System,全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。
电源909用于为终端900中的各个组件进行供电。电源909可以是交流电、直流电、一次性电池或可充电电池。当电源909包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端900还包括有一个或多个传感器910。该一个或多个传感器910包括但不限于:加速度传感器911、陀螺仪传感器912、压力传感器913、指纹传感器914、光学传感器915以及接近传感器916。
加速度传感器911可以检测以终端900建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器911可以用于检测重力加速度在三个坐标轴上的分量。处理器901可以根据加速度传感器911采集的重力加速度信号,控制显示屏905以横向视图或纵向视图进行用户界面的显示。加速度传感器911还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器912可以检测终端900的机体方向及转动角度,陀螺仪传感器912可以与加速度传感器911协同采集用户对终端900的3D动作。处理器901根据陀螺仪传感器912采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器913可以设置在终端900的侧边框和/或显示屏905的下层。当压力传感器913设置在终端900的侧边框时,可以检测用户对终端900的握持信号,由处理器901根据压力传感器913采集的握持信号进行左右手识别或快捷操作。当压力传感器913设置在显示屏905的下层时,由处理器901根据用户对显示屏905的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器914用于采集用户的指纹,由处理器901根据指纹传感器914采集到的指纹识别用户的身份,或者,由指纹传感器914根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器901授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器914可以被设置在终端900的正面、背面或侧面。当终端900上设置有物理按键或厂商Logo时,指纹传感器914可以与物理按键或厂商Logo集成在一起。
光学传感器915用于采集环境光强度。在一个实施例中,处理器901可以根据光学传感器915采集的环境光强度,控制显示屏905的显示亮度。具体地,当环境光强度较高时,调高显示屏905的显示亮度;当环境光强度较低时,调低显示屏905的显示亮度。在另一个实施例中,处理器901还可以根据光学传感器915采集的环境光强度,动态调整摄像头组件906的拍摄参数。
接近传感器916,也称距离传感器,通常设置在终端900的前面板。接近传感器916用于采集用户与终端900的正面之间的距离。在一个实施例中,当接近传感器916检测到用户与终端900的正面之间的距离逐渐变小时,由处理器901控制显示屏905从亮屏状态切换为息屏状态;当接近传感器916检测到用户与终端900的正面之间的距离逐渐变大时,由处理器901控制显示屏905从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图10中示出的结构并不构成对终端900的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
上述方法实施例中的电子设备能够实现为服务器。例如,图11是根据一示例性实施例示出的一种服务器的结构示意图,该服务器1000可因配置或性能不同而产生比较大的差异,能够包括一个或一个以上处理器(Central Processing Units,CPU)1001和一个或一个以上的存储器1002,其中,该存储器1002中存储有至少一条程序代码,该至少一条程序代码由该处理器1001加载并执行以实现上述各个方法实施例提供的语句分类模型训练方法或语句处理方法。当然,该服务器还能够具有有线或无线网络接口以及输入输出接口等部件,以便进行输入输出,该服务器还能够包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括至少一条程序代码的存储器,上述至少一条程序代码由可由处理器执行以完成上述实施例中的语句分类模型训练方法或语句处理方法。例如,计算机可读存储介质能够是只读存储器(Read-OnlyMemory,简称:ROM)、随机存取存储器(Random Access Memory,简称:RAM)、只读光盘(Compact Disc Read-Only Memory,简称:CD-ROM)、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或该计算机程序包括一条或多条程序代码,该一条或多条程序代码存储在计算机可读存储介质中。电子设备的一个或多个处理器能够从计算机可读存储介质中读取该一条或多条程序代码,该一个或多个处理器执行该一条或多条程序代码,使得电子设备能够执行上述语句分类模型训练方法或语句处理方法。
应理解,在本公开的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本公开实施例的实施过程构成任何限定。应理解,根据A确定B并不意味着仅仅根据A确定B,还能够根据A和/或其它信息确定B。本领域普通技术人员能够理解实现上述实施例的全部或部分步骤能够通过硬件来完成,也能够通过程序来指令相关的硬件完成,该程序能够存储于一种计算机可读存储介质中,上述提到的存储介质能够是只读存储器,磁盘或光盘等。
以上描述仅为本公开的可选实施例,并不用以限制本公开,凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
Claims (10)
1.一种语句分类模型训练方法,其特征在于,包括:
对多个样本语句进行预处理,得到每个样本语句的字向量信息,所述字向量信息包括所述每个样本语句中每个字的字向量,所述多个样本语句中第一样本语句中部分字的字向量被更改,每个样本语句对应有目标分类结果;
基于语句分类模型和所述每个样本语句的字向量信息,对所述每个样本语句进行分类,得到所述每个样本语句的预测分类结果;
基于所述预测分类结果和所述目标分类结果,获取第一损失值;
基于所述第一损失值,对所述语句分类模型的模型参数进行调整。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于语句分类模型,对所述第一样本语句的字向量信息进行处理,得到所述第一样本语句中每个位置上字的表征信息;
所述基于所述第一损失值,对所述语句分类模型的模型参数进行调整,包括:
基于所述第一样本语句中被更改位置上字的表征信息和所述被更改位置上字的字向量,获取第二损失值;
基于所述第一损失值和所述第二损失值,对所述语句分类模型的模型参数进行调整。
3.根据权利要求1或2所述的方法,其特征在于,所述基于语句分类模型和所述每个样本语句的字向量信息,对所述每个样本语句进行分类,得到所述每个样本语句的预测分类结果,包括:
基于语句分类模型,对所述每个样本语句的字向量信息进行处理,得到每个样本语句的语句表征信息;
基于所述语句分类模型和所述每个样本语句的语句表征信息,对所述每个样本语句进行分类,得到预测分类结果。
4.根据权利要求1或2所述的方法,其特征在于,所述对多个样本语句进行预处理,得到每个样本语句的字向量信息,包括:
获取多个样本语句;
对所述多个样本语句中第一样本语句中部分字或者部分字嵌入处理得到的字向量进行更改,所述第一样本语句为所述多个样本语句中部分或全部样本语句;
基于更改后的多个样本语句或者更改后的多个样本语句中每个位置上字的字向量,获取所述多个样本语句的字向量信息。
5.一种语句处理方法,其特征在于,所述方法包括:
获取语句;
对所述语句进行嵌入处理,得到所述语句的字向量信息,所述字向量信息包括所述语句中每个字的字向量,所述字向量为字的向量表示;
将所述语句的字向量信息输入所述语句分类模型中,由所述语句分类模型根据所述字向量信息中每个字的字向量以及所述每个字的上下文表征,确定所述语句的语句表征信息,基于所述语句表征信息对所述语句进行分类,得到所述语句的分类结果;
其中,所述语句分类模型基于更改了部分字的字向量的样本语句训练得到。
6.一种语句分类模型训练装置,其特征在于,包括:
预处理单元,被配置为执行对多个样本语句进行预处理,得到每个样本语句的字向量信息,所述字向量信息包括所述每个样本语句中每个字的字向量,所述多个样本语句中第一样本语句中部分字的字向量被更改,每个样本语句对应有目标分类结果;
分类单元,被配置为执行基于语句分类模型和所述每个样本语句的字向量信息,对所述每个样本语句进行分类,得到所述每个样本语句的预测分类结果;
获取单元,被配置为执行基于所述预测分类结果和所述目标分类结果,获取第一损失值;
调整单元,被配置为执行基于所述第一损失值,对所述语句分类模型的模型参数进行调整。
7.一种语句处理装置,其特征在于,所述装置包括:
获取单元,被配置为执行获取语句;
嵌入处理单元,被配置为执行对所述语句进行嵌入处理,得到所述语句的字向量信息,所述字向量信息包括所述语句中每个字的字向量,所述字向量为字的向量表示;
分类单元,被配置为执行将所述语句的字向量信息输入所述语句分类模型中,由所述语句分类模型根据所述字向量信息中每个字的字向量以及所述每个字的上下文表征,确定所述语句的语句表征信息,基于所述语句表征信息对所述语句进行分类,得到所述语句的分类结果;
其中,所述语句分类模型基于更改了部分字的字向量的样本语句训练得到。
8.一种电子设备,其特征在于,包括:
一个或多个处理器;
用于存储所述一个或多个处理器可执行程序代码的一个或多个存储器;
其中,所述一个或多个处理器被配置为执行所述程序代码,以实现如权利要求1至4中任一项所述的语句分类模型训练方法或如权利要求5所述的语句处理方法。
9.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的程序代码由电子设备的处理器执行时,使得电子设备能够执行如权利要求1至4中任一项所述的语句分类模型训练方法或如权利要求5所述的语句处理方法。
10.一种计算机程序产品,其特征在于,所述计算机程序产品包括一条或多条程序代码,所述一条或多条程序代码由电子设备的一个或多个处理器执行时,使得所述电子设备能够执行如权利要求1至4中任一项所述的语句分类模型训练方法或如权利要求5所述的语句处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110279651.9A CN113032560B (zh) | 2021-03-16 | 2021-03-16 | 语句分类模型训练方法、语句处理方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110279651.9A CN113032560B (zh) | 2021-03-16 | 2021-03-16 | 语句分类模型训练方法、语句处理方法及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113032560A true CN113032560A (zh) | 2021-06-25 |
CN113032560B CN113032560B (zh) | 2023-10-27 |
Family
ID=76470711
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110279651.9A Active CN113032560B (zh) | 2021-03-16 | 2021-03-16 | 语句分类模型训练方法、语句处理方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113032560B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113705186A (zh) * | 2021-07-22 | 2021-11-26 | 上海原圈网络科技有限公司 | 一种留言语义分析下的自动回复方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108647207A (zh) * | 2018-05-08 | 2018-10-12 | 上海携程国际旅行社有限公司 | 自然语言修正方法、系统、设备及存储介质 |
CN110489555A (zh) * | 2019-08-21 | 2019-11-22 | 创新工场(广州)人工智能研究有限公司 | 一种结合类词信息的语言模型预训练方法 |
CN111125331A (zh) * | 2019-12-20 | 2020-05-08 | 京东方科技集团股份有限公司 | 语义识别方法、装置、电子设备及计算机可读存储介质 |
CN111737952A (zh) * | 2020-06-24 | 2020-10-02 | 深圳前海微众银行股份有限公司 | 一种序列标注模型的训练方法及装置 |
-
2021
- 2021-03-16 CN CN202110279651.9A patent/CN113032560B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108647207A (zh) * | 2018-05-08 | 2018-10-12 | 上海携程国际旅行社有限公司 | 自然语言修正方法、系统、设备及存储介质 |
CN110489555A (zh) * | 2019-08-21 | 2019-11-22 | 创新工场(广州)人工智能研究有限公司 | 一种结合类词信息的语言模型预训练方法 |
CN111125331A (zh) * | 2019-12-20 | 2020-05-08 | 京东方科技集团股份有限公司 | 语义识别方法、装置、电子设备及计算机可读存储介质 |
CN111737952A (zh) * | 2020-06-24 | 2020-10-02 | 深圳前海微众银行股份有限公司 | 一种序列标注模型的训练方法及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113705186A (zh) * | 2021-07-22 | 2021-11-26 | 上海原圈网络科技有限公司 | 一种留言语义分析下的自动回复方法和装置 |
CN113705186B (zh) * | 2021-07-22 | 2023-12-22 | 上海原圈网络科技有限公司 | 一种留言语义分析下的自动回复方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113032560B (zh) | 2023-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111091132B (zh) | 基于人工智能的图像识别方法、装置、计算机设备及介质 | |
CN111564152B (zh) | 语音转换方法、装置、电子设备及存储介质 | |
CN111104980B (zh) | 确定分类结果的方法、装置、设备及存储介质 | |
CN111737573A (zh) | 资源推荐方法、装置、设备及存储介质 | |
CN111897996A (zh) | 话题标签推荐方法、装置、设备及存储介质 | |
CN108922531B (zh) | 槽位识别方法、装置、电子设备及存储介质 | |
CN111105788B (zh) | 敏感词分数检测方法、装置、电子设备及存储介质 | |
CN111324699A (zh) | 语义匹配的方法、装置、电子设备及存储介质 | |
CN111209377A (zh) | 基于深度学习的文本处理方法、装置、设备及介质 | |
US20200389600A1 (en) | Environment-driven user feedback for image capture | |
CN110555102A (zh) | 媒体标题识别方法、装置及存储介质 | |
CN111339737A (zh) | 实体链接方法、装置、设备及存储介质 | |
CN112733970A (zh) | 图像分类模型处理方法、图像分类方法及装置 | |
CN112749531A (zh) | 文本处理方法、装置、计算机设备及计算机可读存储介质 | |
CN113822322A (zh) | 图像处理模型训练方法及文本处理模型训练方法 | |
CN114547428A (zh) | 推荐模型处理方法、装置、电子设备及存储介质 | |
CN110837557B (zh) | 摘要生成方法、装置、设备及介质 | |
CN114328815A (zh) | 文本映射模型的处理方法、装置、计算机设备及存储介质 | |
CN114154520A (zh) | 机器翻译模型的训练方法、机器翻译方法、装置及设备 | |
CN113763931A (zh) | 波形特征提取方法、装置、计算机设备及存储介质 | |
CN113032560B (zh) | 语句分类模型训练方法、语句处理方法及设备 | |
CN114691860A (zh) | 文本分类模型的训练方法、装置、电子设备及存储介质 | |
CN110232417B (zh) | 图像识别方法、装置、计算机设备及计算机可读存储介质 | |
CN109829067B (zh) | 音频数据处理方法、装置、电子设备及存储介质 | |
CN115861874A (zh) | 视频标注模型的训练方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |