语句识别方法和装置、存储介质及电子设备
技术领域
本发明涉及计算机领域,具体而言,涉及一种语句识别方法和装置、存储介质及电子设备。
背景技术
在当前进行语句识别的过程中,存在多种不同的语句数据来源,例如公众号文章、外链文章、新闻、视频、网页、小程序、用户搜索等,上述数据被综合运用到相关的产品中。其中,对于上述数据中的部分语句信息需要根据实际需求进行进一步的过滤,相关技术中对不同来源的语句数据进行检测和过滤是通过大量的标注数据作为训练样本进行有监督的语言模型训练,同时生成的语言模型大多只适用于标注样本所在的语句领域(例如文章标题),当同一语言模型迁移到其他语句领域(即数据来源)时,会由于不同领域间的数据分布差异导致语言模型迁移效果很差,同时,面对众多的领域,分别标注大量的数据也是费时费力的。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种语句识别方法和装置、存储介质及电子设备,以至少解决相关技术中存在的不同领域间的语句识别训练模型迁移效果较差,难以有效完成对目标语句识别的技术问题。
根据本发明实施例的一个方面,提供了一种语句识别方法,包括:获取待识别的第一语句,其中,所述第一语句是第一类型的语句;将所述第一语句执行分词操作,得到目标词表;将所述目标词表输入到目标语言模型,得到所述目标语言模型输出的所述第一语句的识别结果,其中,所述目标语言模型是使用未标注的第一样本语句集合和已标注的第二样本语句集合对待训练语言模型进行训练得到的模型,所述第一样本语句集合和所述第二样本语句集合均包括所述第一类型的语句和第二类型的语句,所述第一样本语句集合中的语句未被标注是否为异常状态的语句,所述第二样本语句集合中的语句已被标注是否为异常状态的语句,所述第二样本语句集合用于确定所述第一样本语句集合中的语句中的词在对所述待训练语言模型进行训练时的被遮蔽的概率,所述被遮蔽的概率包括在对所述待训练语言模型进行训练时将所述第一样本语句集合中的语句中的词替换为目标词和/或目标遮蔽符号的概率,所述第一样本语句集合中的语句和所述第二样本语句集合中的语句来自不同的数据源,所述识别结果用于表示所述第一语句是否为所述异常状态的语句。
可选地,在所述将所述目标词表输入到目标语言模型,得到所述目标语言模型输出的所述第一语句的识别结果之后,所述方法还包括:在所述识别结果表示所述第一语句为所述异常状态的语句的情况下,执行以下至少之一操作:将所述第一语句中属于所述异常状态的词语进行屏蔽;将所述第一语句中属于所述异常状态的词语替换为目标符号;将所述第一语句从目标数据库中删除,其中,所述目标数据库用于记录所述第一类型的媒体资源的语句;和/或在所述识别结果表示所述第一语句不为所述异常状态的语句的情况下,将所述第一语句传输给目标应用。
可选地,在所述将所述目标词表输入到目标语言模型,得到所述目标语言模型输出的所述第一语句的识别结果之前,所述方法还包括:对所述第一样本语句集合中包括的所述第一类型的语句和所述第二类型的语句进行合并和分词操作,得到第一样本词表,并对所述第二样本语句集合中包括的所述第一类型的语句和所述第二类型的语句进行合并和分词操作,得到第二样本词表;确定所述第二样本词表对应的目标映射序列,其中,所述目标映射序列中的每个成员用于表示所述第二样本词表中的一个词以及所述一个词的贡献度参数的排名,所述一个词的贡献度参数用于表示所述一个词对被标注为所述异常状态的语句的贡献度;根据所述目标映射序列确定所述第一样本词表中的每个词在对所述待训练语言模型进行训练时的被遮蔽的概率;使用所述第一样本词表以及所述第一样本词表中的每个词的所述概率对所述待训练语言模型进行训练,得到训练后的语言模型;根据所述训练后的语言模型确定所述目标语言模型。
可选地,所述确定所述第二样本词表对应的目标映射序列,包括:对所述第二样本词表中的词进行互信息计算,得到所述第二样本词表中的每个词的所述贡献度参数;按照所述贡献度参数的取值从大到小对所述第二样本词表中的词进行排序,得到所述第二样本词表中的每个词的排名;将所述第二样本词表中的每个词和所述每个词的排名组成所述目标映射序列中的一个成员,得到所述目标映射序列。
可选地,所述根据所述目标映射序列确定所述第一样本词表中的每个词在对所述待训练语言模型进行训练时的被遮蔽的概率,包括:确定所述第一样本词表和所述第二样本词表都包括的第一组词;将所述第一样本词表中的所述第一组词的排名设置为等于所述第一组词在所述目标映射序列中的排名,并将所述第一样本词表中的第二组词的排名设置为目标值,所述目标值大于所述目标映射序列中的最大排名,所述第二组词为所述第一样本词表中的不包括在所述第二样本词表中的词;根据所述第一样本词表中的每个词的排名确定所述第一样本词表中的每个词的所述概率。
可选地,所述根据所述第一样本词表中的每个词的排名确定所述第一样本词表中的每个词的所述概率,包括:通过如下公式确定所述第一样本词表中的每个词的所述概率:Probi=n/(Si+1),其中,Probi表示所述第一样本词表中的第i个词的所述概率、n为预设的遮蔽概率系数、Si表示所述第一样本词表中的第i个词的排名。
可选地,所述使用所述第一样本词表以及所述第一样本词表中的每个词的所述概率对所述待训练语言模型进行训练,得到训练后的语言模型,包括:根据所述第一样本词表中的每个词的所述概率,确定所述第一样本词表中的每个词需要被替换为目标词、还是不被替换、还是需要被替换为目标遮蔽符号;在确定出所述第一样本词表中的第一词需要被替换为所述目标词的情况下,将所述第一词替换为所述目标词,并使用所述目标词对所述待训练语言模型进行训练;在确定出所述第一样本词表中的第二词不被替换的情况下,使用所述第二词对所述待训练语言模型进行训练;在确定出所述第一样本词表中的第三词需要被替换为所述目标遮蔽符号的情况下,将所述第三词替换为所述目标遮蔽符号,并使用所述目标遮蔽符号对所述待训练语言模型进行训练。
可选地,所述根据所述训练后的语言模型确定所述目标语言模型,包括:将所述训练后的语言模型确定为所述目标语言模型。
可选地,所述根据所述训练后的语言模型确定所述目标语言模型,包括:使用所述第二样本语句集合中包括的所述第一类型的语句对所述训练后的语言模型进行优化处理,得到第一语言模型;使用所述第二样本语句集合中包括的所述第二类型的语句对所述第一语言模型进行优化处理,得到目标语言模型,其中,所述目标语言模型与所述第二样本语句集合中包括的所述第一类型的适配度大于所述第一语言模型与所述第二样本语句集合中包括的所述第一类型的适配度,所述第一语言模型与所述第二样本语句集合中包括的所述第一类型的适配度大于所述训练后的语言模型与所述第二样本语句集合中包括的所述第一类型的适配度。
根据本发明实施例的一个方面,提供了一种语言模型的训练方法,包括:
获取未标注的第一样本语句集合和已标注的第二样本语句集合,其中,所述第一样本语句集合和所述第二样本语句集合均包括所述第一类型的语句和第二类型的语句,所述第一样本语句集合中的语句未被标注是否为异常状态的语句,所述第二样本语句集合中的语句已被标注是否为异常状态的语句,所述第二样本语句集合用于确定所述第一样本语句集合中的语句中的词在对所述待训练语言模型进行训练时的被遮蔽的概率,所述被遮蔽的概率包括在对所述待训练语言模型进行训练时将所述第一样本语句集合中的语句中的词替换为目标词和/或目标遮蔽符号的概率,所述第一样本语句集合中的语句和所述第二样本语句集合中的语句来自不同的数据源;
使用所述未标注的第一样本语句集合和所述已标注的第二样本语句集合对待训练语言模型进行训练,得到训练后的语言模型;
根据所述训练后的语言模型确定所述目标语言模型。
可选地,所述使用所述未标注的第一样本语句集合和所述已标注的第二样本语句集合对待训练语言模型进行训练,得到训练后的语言模型,包括:对所述第一样本语句集合中包括的所述第一类型的语句和所述第二类型的语句进行合并和分词操作,得到第一样本词表,并对所述第二样本语句集合中包括的所述第一类型的语句和所述第二类型的语句进行合并和分词操作,得到第二样本词表;确定所述第二样本词表对应的目标映射序列,其中,所述目标映射序列中的每个成员用于表示所述第二样本词表中的一个词以及所述一个词的贡献度参数的排名,所述一个词的贡献度参数用于表示所述一个词对被标注为所述异常状态的语句的贡献度;
根据所述目标映射序列确定所述第一样本词表中的每个词在对所述待训练语言模型进行训练时的被遮蔽的概率;
使用所述第一样本词表以及所述第一样本词表中的每个词的所述概率对所述待训练语言模型进行训练,得到所述训练后的语言模型。
可选地,所述确定所述第二样本词表对应的目标映射序列,包括:
对所述第二样本词表中的词进行互信息计算,得到所述第二样本词表中的每个词的所述贡献度参数;
按照所述贡献度参数的取值从大到小对所述第二样本词表中的词进行排序,得到所述第二样本词表中的每个词的排名;
将所述第二样本词表中的每个词和所述每个词的排名组成所述目标映射序列中的一个成员,得到所述目标映射序列。
可选地,所述根据所述目标映射序列确定所述第一样本词表中的每个词在对所述待训练语言模型进行训练时的被遮蔽的概率,包括:
确定所述第一样本词表和所述第二样本词表都包括的第一组词;
将所述第一样本词表中的所述第一组词的排名设置为等于所述第一组词在所述目标映射序列中的排名,并将所述第一样本词表中的第二组词的排名设置为目标值,所述目标值大于所述目标映射序列中的最大排名,所述第二组词为所述第一样本词表中的不包括在所述第二样本词表中的词;
根据所述第一样本词表中的每个词的排名确定所述第一样本词表中的每个词的所述概率。
可选地,所述使用所述第一样本词表以及所述第一样本词表中的每个词的所述概率对所述待训练语言模型进行训练,得到训练后的语言模型,包括:
根据所述第一样本词表中的每个词的所述概率,确定所述第一样本词表中的每个词需要被替换为目标词、还是不被替换、还是需要被替换为目标遮蔽符号;
在确定出所述第一样本词表中的第一词需要被替换为所述目标词的情况下,将所述第一词替换为所述目标词,并使用所述目标词对所述待训练语言模型进行训练;
在确定出所述第一样本词表中的第二词不被替换的情况下,使用所述第二词对所述待训练语言模型进行训练;
在确定出所述第一样本词表中的第三词需要被替换为所述目标遮蔽符号的情况下,将所述第三词替换为所述目标遮蔽符号,并使用所述目标遮蔽符号对所述待训练语言模型进行训练。
可选地,所述根据所述训练后的语言模型确定所述目标语言模型,包括:
将所述训练后的语言模型确定为所述目标语言模型;或者
使用所述第二样本语句集合中包括的所述第一类型的语句对所述训练后的语言模型进行优化处理,得到第一语言模型;使用所述第二样本语句集合中包括的所述第二类型的语句对所述第一语言模型进行优化处理,得到目标语言模型,其中,所述目标语言模型与所述第二样本语句集合中包括的所述第一类型的适配度大于所述第一语言模型与所述第二样本语句集合中包括的所述第一类型的适配度,所述第一语言模型与所述第二样本语句集合中包括的所述第一类型的适配度大于所述训练后的语言模型与所述第二样本语句集合中包括的所述第一类型的适配度。
根据本发明实施例的另一方面,还提供了一种语句识别装置,包括:获取模块,用于获取待识别的第一语句,其中,所述第一语句是第一类型的语句;分词模块,用于将所述第一语句执行分词操作,得到目标词表;处理模块,用于将所述目标词表输入到目标语言模型,得到所述目标语言模型输出的所述第一语句的识别结果,其中,所述目标语言模型是使用未标注的第一样本语句集合和已标注的第二样本语句集合对待训练语言模型进行训练得到的模型,所述第一样本语句集合和所述第二样本语句集合均包括所述第一类型的语句和第二类型的语句,所述第一样本语句集合中的语句未被标注是否为异常状态的语句,所述第二样本语句集合中的语句已被标注是否为异常状态的语句,所述第二样本语句集合用于确定所述第一样本语句集合中的语句中的词在对所述待训练语言模型进行训练时的被遮蔽的概率,所述被遮蔽的概率包括在对所述待训练语言模型进行训练时将所述第一样本语句集合中的语句中的词替换为目标词和/或目标遮蔽符号的概率,所述第一样本语句集合中的语句和所述第二样本语句集合中的语句来自不同的数据源,所述识别结果用于表示所述第一语句是否为所述异常状态的语句。
可选地,所述装置还用于:在所述将所述目标词表输入到目标语言模型,得到所述目标语言模型输出的所述第一语句的识别结果之后,在所述识别结果表示所述第一语句为所述异常状态的语句的情况下,执行以下至少之一操作:将所述第一语句中属于所述异常状态的词语进行屏蔽;将所述第一语句中属于所述异常状态的词语替换为目标符号;将所述第一语句从目标数据库中删除,其中,所述目标数据库用于记录所述第一类型的媒体资源的语句;和/或在所述识别结果表示所述第一语句不为所述异常状态的语句的情况下,将所述第一语句传输给目标应用。
可选地,所述装置还用于:在所述将所述目标词表输入到目标语言模型,得到所述目标语言模型输出的所述第一语句的识别结果之前,对所述第一样本语句集合中包括的所述第一类型的语句和所述第二类型的语句进行合并和分词操作,得到第一样本词表,并对所述第二样本语句集合中包括的所述第一类型的语句和所述第二类型的语句进行合并和分词操作,得到第二样本词表;确定所述第二样本词表对应的目标映射序列,其中,所述目标映射序列中的每个成员用于表示所述第二样本词表中的一个词以及所述一个词的贡献度参数的排名,所述一个词的贡献度参数用于表示所述一个词对被标注为所述异常状态的语句的贡献度;根据所述目标映射序列确定所述第一样本词表中的每个词在对所述待训练语言模型进行训练时的被遮蔽的概率;使用所述第一样本词表以及所述第一样本词表中的每个词的所述概率对所述待训练语言模型进行训练,得到训练后的语言模型;根据所述训练后的语言模型确定所述目标语言模型。
可选地,所述装置用于通过如下方式确定所述第二样本词表对应的目标映射序列:对所述第二样本词表中的词进行互信息计算,得到所述第二样本词表中的每个词的所述贡献度参数;按照所述贡献度参数的取值从大到小对所述第二样本词表中的词进行排序,得到所述第二样本词表中的每个词的排名;将所述第二样本词表中的每个词和所述每个词的排名组成所述目标映射序列中的一个成员,得到所述目标映射序列。
可选地,所述装置用于通过如下方式根据所述目标映射序列确定所述第一样本词表中的每个词在对所述待训练语言模型进行训练时的被遮蔽的概率:确定所述第一样本词表和所述第二样本词表都包括的第一组词;将所述第一样本词表中的所述第一组词的排名设置为等于所述第一组词在所述目标映射序列中的排名,并将所述第一样本词表中的第二组词的排名设置为目标值,所述目标值大于所述目标映射序列中的最大排名,所述第二组词为所述第一样本词表中的不包括在所述第二样本词表中的词;根据所述第一样本词表中的每个词的排名确定所述第一样本词表中的每个词的所述概率。
可选地,所述装置用于通过如下方式根据所述第一样本词表中的每个词的排名确定所述第一样本词表中的每个词的所述概率:通过如下公式确定所述第一样本词表中的每个词的所述概率:Probi=n/(Si+1),其中,Probi表示所述第一样本词表中的第i个词的所述概率、n为预设的遮蔽概率系数、Si表示所述第一样本词表中的第i个词的排名。
可选地,所述处理模块,包括:确定单元,用于根据所述第一样本词表中的每个词的所述概率,确定所述第一样本词表中的每个词需要被替换为目标词、还是不被替换、还是需要被替换为目标遮蔽符号;第一处理单元,用于在确定出所述第一样本词表中的第一词需要被替换为所述目标词的情况下,将所述第一词替换为所述目标词,并使用所述目标词对所述待训练语言模型进行训练;第二处理单元,用于在确定出所述第一样本词表中的第二词不被替换的情况下,使用所述第二词对所述待训练语言模型进行训练;第三处理单元,用于在确定出所述第一样本词表中的第三词需要被替换为所述目标遮蔽符号的情况下,将所述第三词替换为所述目标遮蔽符号,并使用所述目标遮蔽符号对所述待训练语言模型进行训练。
可选地,所述装置用于通过如下方式根据所述训练后的语言模型确定所述目标语言模型:将所述训练后的语言模型确定为所述目标语言模型。
可选地,所述装置用于通过如下方式根据所述训练后的语言模型确定所述目标语言模型:使用所述第二样本语句集合中包括的所述第一类型的语句对所述训练后的语言模型进行优化处理,得到第一语言模型;使用所述第二样本语句集合中包括的所述第二类型的语句对所述第一语言模型进行优化处理,得到目标语言模型,其中,所述目标语言模型与所述第二样本语句集合中包括的所述第一类型的适配度大于所述第一语言模型与所述第二样本语句集合中包括的所述第一类型的适配度,所述第一语言模型与所述第二样本语句集合中包括的所述第一类型的适配度大于所述训练后的语言模型与所述第二样本语句集合中包括的所述第一类型的适配度。
根据本发明实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述语句识别方法。
根据本发明实施例的又一方面,还提供了一种电子设备,包括存储器和处理器,上述存储器中存储有计算机程序,上述处理器被设置为通过所述计算机程序执行上述的语句识别方法。
在本发明实施例中,采用获取待识别的语句数据,将语句数据执行分词操作,得到词表数据,将得到的词表数据输入到训练好语言模型得到用于表示语句数据中是否包含异常数据的识别结果,上述语言模型是使用未标注的样本语句集合和已标注的样本语句集合对待训练语言模型进行训练得到的模型,样本语句集合中包括第一样本语句集合和第二样本语句集合,第一样本语句集合中的语句和第二样本语句集合中的语句来自不同的数据源的方式,通过针对不同数据源的语句数据对语言模型进行训练,达到了不同领域间的语言模型能够实现迁移的目的,从而实现了提高语句识别效率,降低语句识别成本的技术效果,进而解决了相关技术中存在的不同领域间的语句识别训练模型迁移效果较差,难以有效完成对目标语句识别的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的语句识别方法的应用环境的示意图;
图2是根据本发明实施例的一种可选的语句识别方法的流程示意图;
图3是根据本发明实施例的另一种可选的语句识别方法的流程示意图;
图4是根据本发明实施例的又一种可选的语句识别方法的流程示意图;
图5是根据本发明实施例的一种可选的语句识别方法的示意图;
图6是根据本发明实施例的另一种可选的语句识别方法的示意图;
图7是根据本发明实施例的又一种可选的语句识别方法的流程示意图;
图8是根据本发明实施例的一种可选的语言模型的训练方法的流程示意图;
图9是根据本发明实施例的一种可选的语句识别装置的结构示意图;
图10是根据本发明实施例的另一种可选的语句识别装置的结构示意图;
图11是根据本发明实施例的一种可选的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能的自然语言处理和机器学习等技术,具体通过如下实施例进行说明:
首先,对本申请实施例中涉及的部分名词或者术语进行说明:
Domain:领域,不同的数据domain可以包括但不限于由不同数据来源获取的数据。
Source domain:源领域,具备充足标注数据的domain,通常已有训练好的模型。
Target domain:目标领域,没有充足标注数据的domain,通常无训练好的模型。
Finetune:一种模型参数调整的方法,在模型训练过程中保存模型底层部分的参数不变,只改变顶层参数的方法。
Bert:全称为Bidirectional Encoder Representation from Transformers,一种NLP(Natural Language Processing,自然语言处理)领域深度模型。
下面结合实施例对本发明进行说明:
根据本发明实施例的一个方面,提供了一种语句识别方法,可选地,在本实施例中,上述语句识别方法可以应用于如图1所示的由服务器101和用户终端103所构成的硬件环境中。如图1所示,服务器101通过网络与终端103进行连接,可用于为用户终端或用户终端上安装的客户端提供服务,目标客户端可以是视频客户端、即时通信客户端、浏览器客户端、教育客户端等。可在服务器上或独立于服务器设置数据库105,用于为服务器101提供数据存储服务,上述网络可以包括但不限于:有线网络,无线网络,其中,该有线网络包括:局域网、城域网和广域网,该无线网络包括:蓝牙、WIFI及其他实现无线通信的网络,用户终端103可以是配置有目标客户端的终端,可以包括但不限于以下至少之一:手机(如Android手机、iOS手机等)、笔记本电脑、平板电脑、掌上电脑、MID(Mobile Internet Devices,移动互联网设备)、PAD、台式电脑、智能电视等,上述服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群,或者是云服务器,语句识别应用107通过用户终端103进行显示,可通过终端上配置的语句识别应用107的入口,例如,网页、视频、小程序等使用上述语句识别服务,上述仅是一种示例,本实施例中对此不作任何限定。
可选地,作为一种可选的实施方式,如图2所示,上述语句识别方法包括:
S202,获取待识别的第一语句,其中,第一语句是第一类型的语句;
S204,将第一语句执行分词操作,得到目标词表;
S206,将目标词表输入到目标语言模型,得到目标语言模型输出的第一语句的识别结果,其中,目标语言模型是使用未标注的第一样本语句集合和已标注的第二样本语句集合对待训练语言模型进行训练得到的模型,第一样本语句集合和第二样本语句集合均包括第一类型的语句和第二类型的语句,第一样本语句集合中的语句未被标注是否为异常状态的语句,第二样本语句集合中的语句已被标注是否为异常状态的语句,第二样本语句集合用于确定第一样本语句集合中的语句中的词在对待训练语言模型进行训练时的被遮蔽的概率,所述被遮蔽的概率包括在对所述待训练语言模型进行训练时将所述第一样本语句集合中的语句中的词替换为目标词和/或目标遮蔽符号的概率,第一样本语句集合中的语句和第二样本语句集合中的语句来自不同的数据源,识别结果用于表示第一语句是否为异常状态的语句。
可选地,在本实施例中,上述语句的类型可以包括但不限于基于语句数据来源进行分类,例如,公众号文章、外链文章、新闻、视频、网页、小程序、用户搜索等。上述分词操作可以基于现有的分词方式进行,例如,基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法等。上述对样本语句集合的标注可以通过人工或者智能标注算法来实现。上述仅是一种示例,本实施例中对此不作任何限定。
可选地,在本实施例中,上述被遮蔽的概率可以包括但不限于将上述语句的状态确定为异常状态后,对于语句中异常词的遮蔽概率。上述异常状态可以包括但不限于色情、暴力、违法等敏感词,还可以包括但不限于根据实际需要设定的词汇库中需要进行遮蔽的词语,例如,公司名称、家庭住址、身份信息等,上述仅是一种示例,本实施例中对此不作任何限定。
通过本实施例,采用获取待识别的语句数据,将语句数据执行分词操作,得到词表数据,将得到的词表数据输入到训练好语言模型得到用于表示语句数据中是否包含异常数据的识别结果,上述语言模型是使用未标注的样本语句集合和已标注的样本语句集合对待训练语言模型进行训练得到的模型,样本语句集合中包括第一样本语句集合和第二样本语句集合,第一样本语句集合中的语句和第二样本语句集合中的语句来自不同的数据源的方式,通过针对不同数据源的语句数据对语言模型进行训练,达到了不同领域间的语言模型能够实现迁移的目的,从而实现了提高语句识别效率,降低语句识别成本的技术效果,进而解决了相关技术中存在的不同领域间的语句识别训练模型迁移效果较差,难以有效完成对目标语句识别的技术问题。
在一个可选的实施例中,在将目标词表输入到目标语言模型,得到目标语言模型输出的第一语句的识别结果之后,方法还包括:在识别结果表示第一语句为异常状态的语句的情况下,执行以下至少之一操作:将第一语句中属于异常状态的词语进行屏蔽;将第一语句中属于异常状态的词语替换为目标符号;将第一语句从目标数据库中删除,其中,目标数据库用于记录第一类型的媒体资源的语句;和/或在识别结果表示第一语句不为异常状态的语句的情况下,将第一语句传输给目标应用。
可选地,在本实施例中,上述将第一语句中属于异常状态的词语进行屏蔽可以包括但不限于不显示上述属于异常状态的词语,上述将第一语句中属于异常状态的词语替换为目标符号可以包括但不限于将上述词语替换为由系统或者服务器预设的用于标识异常状态词语的符号,例如,“***、xxx”等;上述将第一语句从目标数据库中删除可以包括但不限于将包括上述异常状态词语的第一语句整体删除,还可以包括但不限于将上述异常状态词语删除。图3是根据本发明实施例的另一种可选的语句识别方法的流程示意图,如图3所示,其中,该流程步骤如下:
S302,目标词表输入到目标语言模型,得到目标语言模型输出的第一语句的识别结果;
S304,确定识别结果表示第一语句为异常状态,执行步骤S306、步骤S308、步骤S310至少之一;
S306,将第一语句中属于异常状态的词语进行屏蔽;
S308,将第一语句中属于异常状态的词语替换为目标符号;
S310,将第一语句中属于异常状态的词语进行屏蔽;
S312,确定识别结果表示第一语句不为异常状态,执行步骤S314;
S314,将第一语句传输给目标应用。
通过本实施例,可以根据实际需求对属于异常状态的词语执行不同的操作,也可以执行上述一种或者多种操作的组合,能够有效的对属于异常状态的词语进行相关处理,避免在上述语句或者上述目标应用中出现处于异常状态的词语,实现对语句异常状态快速识别的技术效果,降低了语句识别的成本。
在一个可选的实施例中,在将目标词表输入到目标语言模型,得到目标语言模型输出的第一语句的识别结果之前,方法还包括:对第一样本语句集合中包括的第一类型的语句和第二类型的语句进行合并和分词操作,得到第一样本词表,并对第二样本语句集合中包括的第一类型的语句和第二类型的语句进行合并和分词操作,得到第二样本词表;确定第二样本词表对应的目标映射序列,其中,目标映射序列中的每个成员用于表示第二样本词表中的一个词以及一个词的贡献度参数的排名,一个词的贡献度参数用于表示一个词对被标注为异常状态的语句的贡献度;根据目标映射序列确定第一样本词表中的每个词在对待训练语言模型进行训练时的被遮蔽的概率;使用第一样本词表以及第一样本词表中的每个词的概率对待训练语言模型进行训练,得到训练后的语言模型;根据训练后的语言模型确定目标语言模型。
可选地,在本实施例中,上述合并和分词操作可以基于常规的合并分词操作完成,例如,对第二样本词表中的词进行互信息计算,得到第二样本词表中每个词对于类别标签的贡献度,上述类别标签在本实施例中设置为一个词被标注为异常状态或者正常状态,上述排序方式可以包括但不限于升序排列、降序排列等,图4是根据本发明实施例的又一种可选的语句识别方法的流程示意图,如图4所示,该流程步骤如下:
S402,对第一样本语句集合中包括的第一类型的语句和第二类型的语句进行合并和分词操作,得到第一样本词表,并对第二样本语句集合中包括的第一类型的语句和第二类型的语句进行合并和分词操作,得到第二样本词表;
S404,确定第二样本词表对应的目标映射序列;
S406,确根据目标映射序列确定第一样本词表中的每个词在对待训练语言模型进行训练时的被遮蔽的概率;
S408,确使用第一样本词表以及第一样本词表中的每个词的概率对待训练语言模型进行训练,得到训练后的语言模型;
S410,确根据训练后的语言模型确定目标语言模型。
通过本实施例,利用获取到的目标映射序列获知每个词对于被标注为异常状态的语句的贡献度排名,进而能够确定上述第一样本词表中每个词被遮蔽的概率,实现了对不同贡献度的词进行排序,便于将最能够影响语句状态的词汇筛选得到,进而执行后续的操作,避免了对语句中的所有词汇均进行遮蔽,丢失语句中正常状态的词汇的技术问题,达到了对影响语句状态的词汇进行遮蔽,提高识别效率,降低识别成本的技术效果。
在一个可选的实施例中,确定第二样本词表对应的目标映射序列,包括:对第二样本词表中的词进行互信息计算,得到第二样本词表中的每个词的贡献度参数;按照贡献度参数的取值从大到小对第二样本词表中的词进行排序,得到第二样本词表中的每个词的排名;将第二样本词表中的每个词和每个词的排名组成目标映射序列中的一个成员,得到目标映射序列。
可选地,在本实施例中,上述互信息计算的方式可以包括但不限于通过概率分布函数确定,上述一个成员可以通过(词,排名)的形式记录在目标映射序列中,假设第二样本词表中记录有N个词,则按照贡献度参数的取值从大到小对第二样本词表中的词进行排序即为将贡献度最高的词的序列排为1,第二高的词的序列排为2,以此类推直到N个词均完成排序,得到上述目标映射序列,图5是根据本发明实施例的一种可选的语句识别方法的示意图,如图5所示,通过将第一样本词表中的语句中的词汇按照上述贡献度进行排序,当降序排列时,贡献度越高的词的排名靠前,被遮蔽概率越高,当上述词为“情绪”时,贡献度为70%,为贡献度最高的词,则将上述内容对应序号设置为1,上述排序的方式仅是一种示例,具体本发明不做具体限定。
通过本实施例,能够有效的确定样本词表中不同词语对于语句异常状态的贡献程度,有效的将不同来源的数据进行融合,达到了对影响语句状态的词汇进行遮蔽,提高识别效率,降低识别成本的技术效果。
在一个可选的实施例中,根据目标映射序列确定第一样本词表中的每个词在对待训练语言模型进行训练时的被遮蔽的概率,包括:确定第一样本词表和第二样本词表都包括的第一组词;将第一样本词表中的第一组词的排名设置为等于第一组词在目标映射序列中的排名,并将第一样本词表中的第二组词的排名设置为目标值,目标值大于目标映射序列中的最大排名,第二组词为第一样本词表中的不包括在第二样本词表中的词;根据第一样本词表中的每个词的排名确定第一样本词表中的每个词的概率。
可选地,在本实施例中,在第一样本词表中存在与第二样本词表中词汇不一致的情况下,将第一样本词表中不存于与第二样本词表的词统一排名为目标值,例如,在最大排名为N的情况下,将目标值配置为N+1,使得在获取目标映射序列时,使得目标映射序列能够充分反映第一样本词表中所有词的排名,进而,能够充分实现对目标语言模型的训练,达到提高识别效率,降低识别成本的技术效果。
在一个可选的实施例中,根据第一样本词表中的每个词的排名确定第一样本词表中的每个词的概率,包括:通过如下公式确定第一样本词表中的每个词的概率:Probi=n/(Si+1),其中,Probi表示第一样本词表中的第i个词的概率、n为预设的遮蔽概率系数、Si表示第一样本词表中的第i个词的排名。
可选地,在本实施例中,采用如下公式得到每个词的被遮蔽的概率:Probi=n/(Si+1),其中,Probi表示第一样本词表中的第i个词的概率、n为预设的遮蔽概率系数、Si表示第一样本词表中的第i个词的排名,即排名越高,被遮蔽的概率越大。
举例说明,图6是根据本发明实施例的另一种可选的语句识别方法的示意图,如图6所示,图6中“这是个专利”这句话,假设获取到上述四个词在当前语句中的贡献度排名为4、3、2、1,则上述四个词被遮蔽的概率分别为n/(4+1),n/(3+1),n/(2+1),n/(1+1),对于样本中排名为N+1的词语,可以采用对该样本所有词都用同样概率p来进行遮蔽,其中,n的取值范围可以为0至N,p的取值范围小于排名为N的被遮蔽概率。
在一个可选的实施例中,使用第一样本词表以及第一样本词表中的每个词的概率对待训练语言模型进行训练,得到训练后的语言模型,包括:根据第一样本词表中的每个词的概率,确定第一样本词表中的每个词需要被替换为目标词、还是不被替换、还是需要被替换为目标遮蔽符号;在确定出第一样本词表中的第一词需要被替换为目标词的情况下,将第一词替换为目标词,并使用目标词对待训练语言模型进行训练;在确定出第一样本词表中的第二词不被替换的情况下,使用第二词对待训练语言模型进行训练;在确定出第一样本词表中的第三词需要被替换为目标遮蔽符号的情况下,将第三词替换为目标遮蔽符号,并使用目标遮蔽符号对待训练语言模型进行训练。
可选地,在本实施例中,可以对不同遮蔽概率的词执行不同的后续操作,例如,在被遮蔽概率为10%的情况下,不替换上述第一样本词表中的词,在被遮蔽概率为30%的情况下,将上述第一样本词表中的第一词替换为目标词,在被遮蔽概率为80%的情况下,将上述第一样本词表中的第三词替换为目标遮蔽符号。
通过本实施例,对于不同的被遮蔽概率执行不同的操作,可以增加不同被遮蔽概率词汇的区别度,进而能够将词汇的被遮蔽概率与后续执行的操作相关联,实现优化用户体验,提高识别效率的技术效果。
在一个可选的实施例中,根据训练后的语言模型确定目标语言模型,包括:将训练后的语言模型确定为目标语言模型。
可选地,在本实施例中,可以但不限于将训练后的语言模型直接确定为目标语言模型,能够降低识别成本,在数据量较小的情况下,可以有效的提升识别效率。
在一个可选的实施例中,所述根据所述训练后的语言模型确定所述目标语言模型,包括:使用所述第二样本语句集合中包括的所述第一类型的语句对所述训练后的语言模型进行优化处理,得到第一语言模型;使用所述第二样本语句集合中包括的所述第二类型的语句对所述第一语言模型进行优化处理,得到目标语言模型,其中,所述目标语言模型与所述第二样本语句集合中包括的所述第一类型的适配度大于所述第一语言模型与所述第二样本语句集合中包括的所述第一类型的适配度,所述第一语言模型与所述第二样本语句集合中包括的所述第一类型的适配度大于所述训练后的语言模型与所述第二样本语句集合中包括的所述第一类型的适配度。
可选地,在本实施例中,上述优化处理可以基于bert结构进行优化,在保证底层参数不变的情况下,通过调整上层参数来优化语言模型的识别能力。例如,通过使用两次Finetune优化,先在有大量标注数据的source domain(对应于前述的第一类型语句)上进行第一次Finetune优化,使得模型学习到通用语句识别能力;再在有少量标注数据的target domain(对应于前述的第二类型语句)上进行第二次Finetune优化,使得模型进一步学习领域特有的语句表达方式。
通过本实施例,可以通过快速少量标注数据就可以利用source domain的大量标注数据在target domain快速应用模型。
下面结合具体的实施例对本发明进行整体说明:
图7是根据本发明实施例的又一种可选的语句识别方法的示意图,如图7所示,上述实施例具体流程包括:
S702,开始;
S704,读取无标注的文章标题D1和视频标题D1;
S706,读取已标注的文章标题D1和视频标题D1;
S708,切词获取词集合;
S710,根据D2和V2通过互信息计算核心词的排序;
S712,处理D1和V1切词后的核心词排序;
S714,采用核心词遮蔽的方式进行预训练;
S716,使用D2进行第一次Finetune;
S718,使用V2进行第二次Finetune;
S720,保存最终模型;
S722,结束。
可选地,在本实施例中,具体步骤可以如下:
1.读取足量的无标注的文章标题集合D1(对应于前述的第一类型语句)和视频标题集合V1(对应于前述的第二类型语句);
2.读取已标注的文章标题集合D2和视频标题集合V2;
3.将D1和V1合并后切词,得到词表L1;将D2和V2合并后切词,得到词表L2;
4.使用已标注的D2和V2进行互信息的计算,得到D2和V2中每个词对于类别标签的贡献度,根据词的贡献度降序排列,排名依次为1,2,3…N,得到(词,排名)的映射序列;
5.根据上述得到的排序后的词表L2对L1进行处理,将L1中不存于与L2的词统一排名为N+1,得到L1中(词,排名)的映射序列;
6.采用类似bert的模型结构(即多层transformer),由于短文本通常较短,因此预训练时不需要采用预测下一句的目标任务,只采用遮蔽语言模型的目标任务即可,具体改进的遮蔽方式如下:
a)读取D1和V1的大量无标注语料进行遮蔽语言模型的预训练
b)对于D1和V1的每一个样本,根据第5步得到的L1(词,排名)的映射序列,采用如下公式得到每个词的被遮蔽的概率:prob=n/(i+1),其中n为遮蔽概率系数,可自由设定,默认0.4;i为每个词在单个样本中的排名,即排名越高,被遮蔽的概率越大;
i.举例说明,例如“这是个专利”这句话,假设根据L1的(词,排名)得到这四个词在这句话中的排名为4,2,3,1,则他们被遮蔽的概率分别为n/(4+1),n/(2+1),n/(3+1),n/(1+1)。
c)对于样本中都是排名为N+1的,可以采用对该样本所有词都用同样概率p来进行遮蔽;
d)每个被遮蔽的词的替换策略为:10%会被替代成其他单词,10%不替换,80%被替换为[MASK]遮蔽符。
7.得到预训练后的语言模型M1(对应于前述的训练后的语言模型);
8.使用大量已标注数据的D2对模型M1进行第一次Finetune,得到更适配于D2的一个优化后的模型MF1(对应于前述的第一语言模型);
9.使用少量已标注数据的V2对模型MF1进行第二次Finetune,得到最终模型MF2(对应于前述的目标语言模型);
10.保存模型M1、MF1、MF2。
通过本实施例,利用标注数据获取到核心词,引入核心词隐蔽的预训练方式,使得模型在学习的过程中重点加强对核心词的语义理解,并且通过使用两次Finetune,先在有大量标注数据的source domain上进行第一次Finetune,使得模型学习到通用低俗识别能力;再在有少量标注数据的target domain上进行第二次Finetune,使得模型进一步学习领域特有的表达方式。
根据本发明实施例的一个方面,提供了一种语言模型的训练方法,可选地,在本实施例中,上述语言模型的训练方法可以应用于如图1所示的由服务器101和用户终端103所构成的硬件环境中。如图1所示,服务器101通过网络与终端103进行连接,可用于为用户终端或用户终端上安装的客户端提供服务,目标客户端可以是视频客户端、即时通信客户端、浏览器客户端、教育客户端等。可在服务器上或独立于服务器设置数据库105,用于为服务器101提供数据存储服务,上述网络可以包括但不限于:有线网络,无线网络,其中,该有线网络包括:局域网、城域网和广域网,该无线网络包括:蓝牙、WIFI及其他实现无线通信的网络,用户终端103可以是配置有目标客户端的终端,可以包括但不限于以下至少之一:手机(如Android手机、iOS手机等)、笔记本电脑、平板电脑、掌上电脑、MID(Mobile InternetDevices,移动互联网设备)、PAD、台式电脑、智能电视等,上述服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群,或者是云服务器,通过语句识别应用107运用上述语言模型的训练方法进行模型训练,上述仅是一种示例,本实施例中对此不作任何限定。
根据本发明实施例的一个方面,提供了一种语言模型的训练方法,如图8所示,包括如下步骤:
S802,获取未标注的第一样本语句集合和已标注的第二样本语句集合,其中,所述第一样本语句集合和所述第二样本语句集合均包括所述第一类型的语句和第二类型的语句,所述第一样本语句集合中的语句未被标注是否为异常状态的语句,所述第二样本语句集合中的语句已被标注是否为异常状态的语句,所述第二样本语句集合用于确定所述第一样本语句集合中的语句中的词在对所述待训练语言模型进行训练时的被遮蔽的概率,所述被遮蔽的概率包括在对所述待训练语言模型进行训练时将所述第一样本语句集合中的语句中的词替换为目标词和/或目标遮蔽符号的概率,所述第一样本语句集合中的语句和所述第二样本语句集合中的语句来自不同的数据源;
S804,使用所述未标注的第一样本语句集合和所述已标注的第二样本语句集合对待训练语言模型进行训练,得到训练后的语言模型;
S806,根据所述训练后的语言模型确定所述目标语言模型。
可选地,在本实施例中,上述语言模型的训练方法可以应用于不同领域之间的应用场景,上述领域可以包括但不限于公众号文章、外链文章、新闻、视频、网页、小程序、用户搜索query等,例如,在上述第二样本语句集合为公众号文章、上述第一样本语句集合为视频时,通过获取公众号文章中的已被标注的语句来对待训练语言模型进行训练,将得到的训练后的语言模型可以迁移到公众号文章领域,用于识别公众号文章中是否存在异常状态的语句,上述仅是一种示例,具体的应用场景本发明不做具体限定。
通过本实施例,采用获取未标注的第一样本语句集合和已标注的第二样本语句集合,使用未标注的第一样本语句集合和已标注的第二样本语句集合对待训练语言模型进行训练,得到训练后的语言模型,根据训练后的语言模型确定目标语言模型。通过针对不同数据源的语句数据对语言模型进行训练,达到了不同领域间的语言模型能够实现迁移的目的,从而实现了提高语句识别效率,降低语句识别成本的技术效果,进而解决了相关技术中存在的不同领域间的语句识别训练模型迁移效果较差,难以有效完成对目标语句识别的技术问题。
在一个可选的实施例中,所述使用所述未标注的第一样本语句集合和所述已标注的第二样本语句集合对待训练语言模型进行训练,得到训练后的语言模型,包括:对所述第一样本语句集合中包括的所述第一类型的语句和所述第二类型的语句进行合并和分词操作,得到第一样本词表,并对所述第二样本语句集合中包括的所述第一类型的语句和所述第二类型的语句进行合并和分词操作,得到第二样本词表;确定所述第二样本词表对应的目标映射序列,其中,所述目标映射序列中的每个成员用于表示所述第二样本词表中的一个词以及所述一个词的贡献度参数的排名,所述一个词的贡献度参数用于表示所述一个词对被标注为所述异常状态的语句的贡献度;根据所述目标映射序列确定所述第一样本词表中的每个词在对所述待训练语言模型进行训练时的被遮蔽的概率;使用所述第一样本词表以及所述第一样本词表中的每个词的所述概率对所述待训练语言模型进行训练,得到所述训练后的语言模型。
可选地,在本实施例中,上述合并和分词操作可以基于常规的合并分词操作完成,例如,对第二样本词表中的词进行互信息计算,得到第二样本词表中每个词对于类别标签的贡献度,上述类别标签在本实施例中设置为一个词被标注为异常状态或者正常状态,上述排序方式可以包括但不限于升序排列、降序排列等。
在一个可选的实施例中,所述确定所述第二样本词表对应的目标映射序列,包括:对所述第二样本词表中的词进行互信息计算,得到所述第二样本词表中的每个词的所述贡献度参数;按照所述贡献度参数的取值从大到小对所述第二样本词表中的词进行排序,得到所述第二样本词表中的每个词的排名;将所述第二样本词表中的每个词和所述每个词的排名组成所述目标映射序列中的一个成员,得到所述目标映射序列。
可选地,在本实施例中,上述互信息计算的方式可以包括但不限于通过概率分布函数确定,上述一个成员可以通过(词,排名)的形式记录在目标映射序列中,假设第二样本词表中记录有N个词,则按照贡献度参数的取值从大到小对第二样本词表中的词进行排序即为将贡献度最高的词的序列排为1,第二高的词的序列排为2,以此类推直到N个词均完成排序,得到上述目标映射序列,图5是根据本发明实施例的一种可选的语句识别方法的示意图,如图5所示,通过将第一样本词表中的语句中的词汇按照上述贡献度进行排序,当降序排列时,贡献度越高的词的排名靠前,被遮蔽概率越高,当上述词为“情绪”时,贡献度为70%,为贡献度最高的词,则将上述内容对应序号设置为1,上述排序的方式仅是一种示例,具体本发明不做具体限定。
在一个可选的实施例中,所述根据所述目标映射序列确定所述第一样本词表中的每个词在对所述待训练语言模型进行训练时的被遮蔽的概率,包括:确定所述第一样本词表和所述第二样本词表都包括的第一组词;将所述第一样本词表中的所述第一组词的排名设置为等于所述第一组词在所述目标映射序列中的排名,并将所述第一样本词表中的第二组词的排名设置为目标值,所述目标值大于所述目标映射序列中的最大排名,所述第二组词为所述第一样本词表中的不包括在所述第二样本词表中的词;根据所述第一样本词表中的每个词的排名确定所述第一样本词表中的每个词的所述概率。
在一个可选的实施例中,所述使用所述第一样本词表以及所述第一样本词表中的每个词的所述概率对所述待训练语言模型进行训练,得到训练后的语言模型,包括:根据所述第一样本词表中的每个词的所述概率,确定所述第一样本词表中的每个词需要被替换为目标词、还是不被替换、还是需要被替换为目标遮蔽符号;在确定出所述第一样本词表中的第一词需要被替换为所述目标词的情况下,将所述第一词替换为所述目标词,并使用所述目标词对所述待训练语言模型进行训练;在确定出所述第一样本词表中的第二词不被替换的情况下,使用所述第二词对所述待训练语言模型进行训练;在确定出所述第一样本词表中的第三词需要被替换为所述目标遮蔽符号的情况下,将所述第三词替换为所述目标遮蔽符号,并使用所述目标遮蔽符号对所述待训练语言模型进行训练。
可选地,在本实施例中,可以对不同遮蔽概率的词执行不同的后续操作,例如,在被遮蔽概率为10%的情况下,不替换上述第一样本词表中的词,在被遮蔽概率为30%的情况下,将上述第一样本词表中的第一词替换为目标词,在被遮蔽概率为80%的情况下,将上述第一样本词表中的第三词替换为目标遮蔽符号。
通过本实施例,对于不同的被遮蔽概率执行不同的操作,可以增加不同被遮蔽概率词汇的区别度,进而能够将词汇的被遮蔽概率与后续执行的操作相关联,实现优化用户体验,提高识别效率的技术效果。
在一个可选的实施例中,所述根据所述训练后的语言模型确定所述目标语言模型,包括:将所述训练后的语言模型确定为所述目标语言模型;或者使用所述第二样本语句集合中包括的所述第一类型的语句对所述训练后的语言模型进行优化处理,得到第一语言模型;使用所述第二样本语句集合中包括的所述第二类型的语句对所述第一语言模型进行优化处理,得到目标语言模型,其中,所述目标语言模型与所述第二样本语句集合中包括的所述第一类型的适配度大于所述第一语言模型与所述第二样本语句集合中包括的所述第一类型的适配度,所述第一语言模型与所述第二样本语句集合中包括的所述第一类型的适配度大于所述训练后的语言模型与所述第二样本语句集合中包括的所述第一类型的适配度。
可选地,在本实施例中,上述优化处理可以基于bert结构进行优化,在保证底层参数不变的情况下,通过调整上层参数来优化语言模型的识别能力。例如,通过使用两次Finetune优化得到目标语言模型,先在有大量标注数据的source domain(对应于前述的第一类型语句)上进行第一次Finetune优化,使得模型学习到通用语句识别能力;再在有少量标注数据的target domain(对应于前述的第二类型语句)上进行第二次Finetune优化,使得模型进一步学习领域特有的语句表达方式。
通过本实施例,可以通过快速少量标注数据就可以利用source domain的大量标注数据在target domain快速应用模型。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
根据本发明实施例的另一个方面,还提供了一种用于实施上述语句识别方法的语句识别装置。如图9所示,该装置包括:
根据本发明实施例的另一方面,还提供了一种语句识别装置,包括:获取模块902,用于获取待识别的第一语句,其中,第一语句是第一类型的语句;分词模块904,用于将第一语句执行分词操作,得到目标词表;处理模块906,用于将目标词表输入到目标语言模型,得到目标语言模型输出的第一语句的识别结果,其中,目标语言模型是使用未标注的第一样本语句集合和已标注的第二样本语句集合对待训练语言模型进行训练得到的模型,第一样本语句集合和第二样本语句集合均包括第一类型的语句和第二类型的语句,第一样本语句集合中的语句未被标注是否为异常状态的语句,第二样本语句集合中的语句已被标注是否为异常状态的语句,第二样本语句集合用于确定第一样本语句集合中的语句中的词在对待训练语言模型进行训练时的被遮蔽的概率,所述被遮蔽的概率包括在对所述待训练语言模型进行训练时将所述第一样本语句集合中的语句中的词替换为目标词和/或目标遮蔽符号的概率,第一样本语句集合中的语句和第二样本语句集合中的语句来自不同的数据源,识别结果用于表示第一语句是否为异常状态的语句。
在一个可选的实施例中,装置还用于:在将目标词表输入到目标语言模型,得到目标语言模型输出的第一语句的识别结果之后,在识别结果表示第一语句为异常状态的语句的情况下,执行以下至少之一操作:将第一语句中属于异常状态的词语进行屏蔽;将第一语句中属于异常状态的词语替换为目标符号;将第一语句从目标数据库中删除,其中,目标数据库用于记录第一类型的媒体资源的语句;和/或在识别结果表示第一语句不为异常状态的语句的情况下,将第一语句传输给目标应用。
在一个可选的实施例中,装置还用于:在将目标词表输入到目标语言模型,得到目标语言模型输出的第一语句的识别结果之前,对第一样本语句集合中包括的第一类型的语句和第二类型的语句进行合并和分词操作,得到第一样本词表,并对第二样本语句集合中包括的第一类型的语句和第二类型的语句进行合并和分词操作,得到第二样本词表;确定第二样本词表对应的目标映射序列,其中,目标映射序列中的每个成员用于表示第二样本词表中的一个词以及一个词的贡献度参数的排名,一个词的贡献度参数用于表示一个词对被标注为异常状态的语句的贡献度;根据目标映射序列确定第一样本词表中的每个词在对待训练语言模型进行训练时的被遮蔽的概率;使用第一样本词表以及第一样本词表中的每个词的概率对待训练语言模型进行训练,得到训练后的语言模型;根据训练后的语言模型确定目标语言模型。
在一个可选的实施例中,装置用于通过如下方式确定第二样本词表对应的目标映射序列:对第二样本词表中的词进行互信息计算,得到第二样本词表中的每个词的贡献度参数;按照贡献度参数的取值从大到小对第二样本词表中的词进行排序,得到第二样本词表中的每个词的排名;将第二样本词表中的每个词和每个词的排名组成目标映射序列中的一个成员,得到目标映射序列。
在一个可选的实施例中,装置用于通过如下方式根据目标映射序列确定第一样本词表中的每个词在对待训练语言模型进行训练时的被遮蔽的概率:确定第一样本词表和第二样本词表都包括的第一组词;将第一样本词表中的第一组词的排名设置为等于第一组词在目标映射序列中的排名,并将第一样本词表中的第二组词的排名设置为目标值,目标值大于目标映射序列中的最大排名,第二组词为第一样本词表中的不包括在第二样本词表中的词;根据第一样本词表中的每个词的排名确定第一样本词表中的每个词的概率。
在一个可选的实施例中,装置用于通过如下方式根据第一样本词表中的每个词的排名确定第一样本词表中的每个词的概率:通过如下公式确定第一样本词表中的每个词的概率:Probi=n/(Si+1),其中,Probi表示第一样本词表中的第i个词的概率、n为预设的遮蔽概率系数、Si表示第一样本词表中的第i个词的排名。
在一个可选的实施例中,图10是根据本发明实施例的又一种可选的语句识别装置的结构示意图,如图10所示,上述处理模块906包括:确定单元1002,用于根据第一样本词表中的每个词的概率,确定第一样本词表中的每个词需要被替换为目标词、还是不被替换、还是需要被替换为目标遮蔽符号;第一处理单元1004,用于在确定出第一样本词表中的第一词需要被替换为目标词的情况下,将第一词替换为目标词,并使用目标词对待训练语言模型进行训练;第二处理单元1006,用于在确定出第一样本词表中的第二词不被替换的情况下,使用第二词对待训练语言模型进行训练;第三处理单元1008,用于在确定出第一样本词表中的第三词需要被替换为目标遮蔽符号的情况下,将第三词替换为目标遮蔽符号,并使用目标遮蔽符号对待训练语言模型进行训练。
在一个可选的实施例中,装置用于通过如下方式根据训练后的语言模型确定目标语言模型:将训练后的语言模型确定为目标语言模型。
在一个可选的实施例中,装置用于通过如下方式根据训练后的语言模型确定目标语言模型:使用第二样本语句集合中包括的第一类型的语句对训练后的语言模型进行优化处理,得到第一语言模型;使用第二样本语句集合中包括的第二类型的语句对第一语言模型进行优化处理,得到目标语言模型,其中,目标语言模型与第二样本语句集合中包括的第一类型的适配度大于第一语言模型与第二样本语句集合中包括的第一类型的适配度,第一语言模型与第二样本语句集合中包括的第一类型的适配度大于训练后的语言模型与第二样本语句集合中包括的第一类型的适配度。
根据本发明实施例的又一个方面,还提供了一种用于实施上述语句识别方法的电子设备,该电子设备可以是图1所示的终端设备或服务器。本实施例以该电子设备为可以放置在终端和服务器上,可以以服务器为例来说明。如图11所示,该电子设备包括存储器1102和处理器1104,该存储器1102中存储有计算机程序,该处理器1104被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取待识别的第一语句,其中,第一语句是第一类型的语句;
S2,将第一语句执行分词操作,得到目标词表;
S3,将目标词表输入到目标语言模型,得到目标语言模型输出的第一语句的识别结果,其中,目标语言模型是使用未标注的第一样本语句集合和已标注的第二样本语句集合对待训练语言模型进行训练得到的模型,第一样本语句集合和第二样本语句集合均包括第一类型的语句和第二类型的语句,第一样本语句集合中的语句未被标注是否为异常状态的语句,第二样本语句集合中的语句已被标注是否为异常状态的语句,第二样本语句集合用于确定第一样本语句集合中的语句中的词在对待训练语言模型进行训练时的被遮蔽的概率,所述被遮蔽的概率包括在对所述待训练语言模型进行训练时将所述第一样本语句集合中的语句中的词替换为目标词和/或目标遮蔽符号的概率,第一样本语句集合中的语句和第二样本语句集合中的语句来自不同的数据源,识别结果用于表示第一语句是否为异常状态的语句。
可选地,本领域普通技术人员可以理解,图11所示的结构仅为示意,电子装置电子设备也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图11其并不对上述电子装置电子设备的结构造成限定。例如,电子装置电子设备还可包括比图11中所示更多或者更少的组件(如网络接口等),或者具有与图11所示不同的配置。
其中,存储器1102可用于存储软件程序以及模块,如本发明实施例中的语句识别方法和装置对应的程序指令/模块,处理器1104通过运行存储在存储器1102内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的语句识别方法。存储器1102可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器1102可进一步包括相对于处理器1104远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中,存储器1102具体可以但不限于用于多个来源的语句数据等信息。作为一种示例,如图11所示,上述存储器1102中可以但不限于包括上述语句识别装置中的获取模块802、分词模块804、处理模块806。此外,还可以包括但不限于上述语句识别装置中的其他模块单元,本示例中不再赘述。
可选地,上述的传输装置1106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置1106包括一个网络适配器(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置1106为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
此外,上述电子设备还包括:显示器1108,用于显示上述待处理的订单信息;和连接总线1110,用于连接上述电子设备中的各个模块部件。
在其他实施例中,上述终端设备或者服务器可以是一个分布式系统中的一个节点,其中,该分布式系统可以为区块链系统,该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中,节点之间可以组成点对点(P2P,Peer To Peer)网络,任意形式的计算设备,比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。
根据本发明的实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取待识别的第一语句,其中,第一语句是第一类型的语句;
S2,将第一语句执行分词操作,得到目标词表;
S3,将目标词表输入到目标语言模型,得到目标语言模型输出的第一语句的识别结果,其中,目标语言模型是使用未标注的第一样本语句集合和已标注的第二样本语句集合对待训练语言模型进行训练得到的模型,第一样本语句集合和第二样本语句集合均包括第一类型的语句和第二类型的语句,第一样本语句集合中的语句未被标注是否为异常状态的语句,第二样本语句集合中的语句已被标注是否为异常状态的语句,第二样本语句集合用于确定第一样本语句集合中的语句中的词在对待训练语言模型进行训练时的被遮蔽的概率,所述被遮蔽的概率包括在对所述待训练语言模型进行训练时将所述第一样本语句集合中的语句中的词替换为目标词和/或目标遮蔽符号的概率,第一样本语句集合中的语句和第二样本语句集合中的语句来自不同的数据源,识别结果用于表示第一语句是否为异常状态的语句。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。