CN115688800A - 一种语义表征方法、装置、存储介质及设备 - Google Patents

一种语义表征方法、装置、存储介质及设备 Download PDF

Info

Publication number
CN115688800A
CN115688800A CN202211376168.3A CN202211376168A CN115688800A CN 115688800 A CN115688800 A CN 115688800A CN 202211376168 A CN202211376168 A CN 202211376168A CN 115688800 A CN115688800 A CN 115688800A
Authority
CN
China
Prior art keywords
vector
coding
sample
text
vectors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211376168.3A
Other languages
English (en)
Inventor
刘权
李锐
刘聪
胡国平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
iFlytek Co Ltd
Original Assignee
University of Science and Technology of China USTC
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC, iFlytek Co Ltd filed Critical University of Science and Technology of China USTC
Priority to CN202211376168.3A priority Critical patent/CN115688800A/zh
Publication of CN115688800A publication Critical patent/CN115688800A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本申请公开了一种语义表征方法、装置、存储介质及设备,该方法包括:首先获取待处理的目标文本,然后提取出目标文本的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量;接着,将目标文本的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量输入至预先构建的语义表征模型,预测得到目标文本对应的语义表征向量;其中,语义表征模型是根据相同语种的正样本文本对和负样本文本对、以及不同语种的正样本文本对和负样本文本对,利用语种标识和实体库进行对比训练得到的。从而不再需要单语种进行模型定制,仅利用预先构建的语义表征模型即可实现跨语种的语义表征,并有效提高了表征效果,有利于后续进行多语种的相关任务。

Description

一种语义表征方法、装置、存储介质及设备
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种语义表征方法、装置、存储介质及设备。
背景技术
随着人工智能技术的不断突破和各种智能终端设备的日益普及,人机交互在人们日常工作、生活中出现的频率越来越高,能够为人们带来极大的便利,而人机交互中最核心的技术就是语义理解和语义表征。
目前,对于中文、英文的语义理解和表征技术已经相对成熟,但是能够同时支撑多个语种的语义表征方法还未出现,现存的多语种的相关任务,都是需要每个单语种单场景进行模型定制,即每个语种每个场景都需要部署一套模型来进行语义表征,无论是训练环节还是真实部署环境,都比较繁琐、复杂。因此,如何实现跨语种的语义表征,并提高表征效果是目前亟待解决的技术问题。
发明内容
本申请实施例的主要目的在于提供一种语义表征方法、装置、存储介质及设备,能够实现跨语种的语义表征,并有效提高了表征效果。
本申请实施例提供了一种语义表征方法,包括:
获取待处理的目标文本;
提取所述目标文本的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量;
将所述目标文本的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量输入至预先构建的语义表征模型,预测得到所述目标文本对应的语义表征向量;
其中,所述语义表征模型是根据相同语种的正样本文本对和负样本文本对、以及不同语种的正样本文本对和负样本文本对,利用语种标识和实体库进行对比训练得到的。
一种可能的实现方式中,所述语义表征模型的构建方式如下:
获取训练样本文本对,所述训练样本文本对包括相同语种的正样本文本对和负样本文本对、以及不同语种的正样本文本对和负样本文本对;
提取所述正样本文本对和负样本文本对的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量;
将所述正样本文本对和负样本文本对的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量输入初始语义表征模型,训练得到所述语义表征模型;
其中,所述初始多模态特征提取模型包括第一初始网络模型、第二初始网络模型、拼接层、输出层;所述第一初始网络模型和第二初始网络模型均包括了输入层、trasnformer编码层、关键词掩码注意力KMA编码层、连接层;所述第一初始网络模型和第二初始网络模型的参数是共享的。
一种可能的实现方式中,所述将所述正样本文本对和负样本文本对的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量输入初始语义表征模型,训练得到所述语义表征模型,包括:
将所述正样本文本对中第一样本文本的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量输入所述第一初始网络模型的输入层,得到第一样本输入向量;并将所述正样本文本对中第二样本文本的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量输入所述第二初始网络模型的输入层,得到第二样本输入向量;
将所述第一样本输入向量输入所述第一初始网络模型的trasnformer编码层,得到第一样本整体编码向量和所述第一样本文本中每个词的样本编码向量;并将所述第二样本输入向量输入所述第二初始网络模型的trasnformer编码层,得到第二样本整体编码向量和所述第二样本文本中每个词的样本编码向量;
将所述第一样本文本中每个词的样本编码向量输入所述第一初始网络模型的KMA编码层,得到所述第一样本文本的第一样本关键词编码向量;并将所述第二样本文本中每个词的样本编码向量输入所述第二初始网络模型的KMA编码层,得到所述第二样本文本的第二样本关键词编码向量;
将所述第一样本整体编码向量和所述第一样本关键词编码向量输入所述第一初始网络模型的连接层进行连接,得到所述第一样本文本的第一样本向量;并将所述第二样本整体编码向量和所述第二样本关键词编码向量输入所述第二初始网络模型的连接层进行连接,得到所述第二样本文本的第二样本向量;
将所述第一样本向量和所述第二样本向量输入所述初始多模态特征提取模型的拼接层进行拼接,得到第一拼接向量;
利用所述第一拼接向量进行分类,并通过所述初始多模态特征提取模型的输出层输出第一分类结果;
利用所述第一分类结果以及所述正样本文本对对应的分类识别标签对所述初始多模态特征提取模型进行训练,并将训练后得到的第一初始网络模型作为所述语义表征模型。
一种可能的实现方式中,所述将所述正样本文本对和负样本文本对的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量输入初始语义表征模型,训练得到所述语义表征模型,包括:
将所述负样本文本对中第三样本文本的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量输入所述第一初始网络模型的输入层,得到第三样本输入向量;并将所述负样本文本对中第四样本文本的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量输入所述第二初始网络模型的输入层,得到第四样本输入向量;
将所述第三样本输入向量输入所述第一初始网络模型的trasnformer编码层,得到第三样本整体编码向量和所述第三样本文本中每个词的样本编码向量;并将所述第四样本输入向量输入所述第二初始网络模型的trasnformer编码层,得到第四样本整体编码向量和所述第四样本文本中每个词的样本编码向量;
将所述第三样本文本中每个词的样本编码向量输入所述第一初始网络模型的KMA编码层,得到所述第三样本文本的第三样本关键词编码向量;并将所述第四样本文本中每个词的样本编码向量输入所述第二初始网络模型的KMA编码层,得到所述第四样本文本的第四样本关键词编码向量;
将所述第三样本整体编码向量和所述第三样本关键词编码向量输入所述第一初始网络模型的连接层进行连接,得到所述第三样本文本的第三样本向量;并将所述第四样本整体编码向量和所述第四样本关键词编码向量输入所述第二初始网络模型的连接层进行连接,得到所述第四样本文本的第四样本向量;
将所述第三样本向量和所述第四样本向量输入所述初始多模态特征提取模型的拼接层进行拼接,得到第二拼接向量;
利用所述第二拼接向量进行分类,并通过所述初始多模态特征提取模型的输出层输出第二分类结果;
利用所述第二分类结果以及所述负样本文本对对应的分类识别标签对所述初始多模态特征提取模型进行训练,并将训练后得到的第一初始网络模型作为所述语义表征模型。
一种可能的实现方式中,所述方法还包括:
获取验证文本对;并提取所述验证文本对的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量;
将所述验证文本对的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量输入至所述初始语义表征模型,预测得到所述验证文本对对应的分类结果;
当所述验证文本对对应的分类结果与所述验证文本对对应的分类标签结果不一致时,将所述验证文本对重新作为所述训练样本文本对,对所述初始语义表征模型进行更新,以得到更新后的语义表征模型。
一种可能的实现方式中,所述将所述目标文本的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量输入至预先构建的语义表征模型,预测得到所述目标文本对应的语义表征向量,包括:
将所述目标文本的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量输入至预先构建的语义表征模型的输入层,得到输入向量;
将所述输入向量输入至所述语义表征模型的trasnformer编码层进行编码,得到所述目标文本的整体编码向量和每个词的编码向量;
将所述目标文本中每个词的编码向量输入至所述语义表征模型的KMA编码层,进行关键词编码,得到关键词编码向量;
将所述目标文本的整体编码向量和所述关键词编码向量输入至所述语义表征模型的连接层进行连接,并将得到的连接向量作为所述目标文本对应的语义表征向量。
一种可能的实现方式中,所述将所述目标文本中每个词的编码向量输入至所述语义表征模型的KMA编码层,进行关键词编码,得到关键词编码向量,包括:
将所述目标文本中每个词的编码向量输入至所述语义表征模型的KMA编码层,分别将每个词的编码向量与所述目标文本中各个关键词的编码向量进行点乘计算,得到所述目标文本中每个词对应的关键词编码向量;
将所述目标文本中每个词对应的关键词编码向量进行拼接,并将得到的拼接后的向量作为所述目标文本对应的关键词编码向量。
一种可能的实现方式中,所述实体词信息编码向量包括核心动词编码向量、通用实体词编码向量、人名编码向量、机构名编码向量、地名编码向量。
本申请实施例还提供了一种语义表征装置,包括:
第一获取单元,用于获取待处理的目标文本;
第一提取单元,用于提取所述目标文本的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量;
第一预测单元,用于将所述目标文本的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量输入至预先构建的语义表征模型,预测得到所述目标文本对应的语义表征向量;
其中,所述语义表征模型是根据相同语种的正样本文本对和负样本文本对、以及不同语种的正样本文本对和负样本文本对,利用语种标识和实体库进行对比训练得到的。
一种可能的实现方式中,所述装置还包括:
第二获取单元,用于获取训练样本文本对,所述训练样本文本对包括相同语种的正样本文本对和负样本文本对、以及不同语种的正样本文本对和负样本文本对;
第二提取单元,用于提取所述正样本文本对和负样本文本对的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量;
训练单元,用于将所述正样本文本对和负样本文本对的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量输入初始语义表征模型,训练得到所述语义表征模型;
其中,所述初始多模态特征提取模型包括第一初始网络模型、第二初始网络模型、拼接层、输出层;所述第一初始网络模型和第二初始网络模型均包括了输入层、trasnformer编码层、关键词掩码注意力KMA编码层、连接层;所述第一初始网络模型和第二初始网络模型的参数是共享的。
一种可能的实现方式中,所述训练单元包括:
第一输入子单元,用于将所述正样本文本对中第一样本文本的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量输入所述第一初始网络模型的输入层,得到第一样本输入向量;并将所述正样本文本对中第二样本文本的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量输入所述第二初始网络模型的输入层,得到第二样本输入向量;
第二输入子单元,用于将所述第一样本输入向量输入所述第一初始网络模型的trasnformer编码层,得到第一样本整体编码向量和所述第一样本文本中每个词的样本编码向量;并将所述第二样本输入向量输入所述第二初始网络模型的trasnformer编码层,得到第二样本整体编码向量和所述第二样本文本中每个词的样本编码向量;
第三输入子单元,用于将所述第一样本文本中每个词的样本编码向量输入所述第一初始网络模型的KMA编码层,得到所述第一样本文本的第一样本关键词编码向量;并将所述第二样本文本中每个词的样本编码向量输入所述第二初始网络模型的KMA编码层,得到所述第二样本文本的第二样本关键词编码向量;
第一连接子单元,用于将所述第一样本整体编码向量和所述第一样本关键词编码向量输入所述第一初始网络模型的连接层进行连接,得到所述第一样本文本的第一样本向量;并将所述第二样本整体编码向量和所述第二样本关键词编码向量输入所述第二初始网络模型的连接层进行连接,得到所述第二样本文本的第二样本向量;
第一拼接子单元,用于将所述第一样本向量和所述第二样本向量输入所述初始多模态特征提取模型的拼接层进行拼接,得到第一拼接向量;
第一分类子单元,用于利用所述第一拼接向量进行分类,并通过所述初始多模态特征提取模型的输出层输出第一分类结果;
第一训练子单元,用于利用所述第一分类结果以及所述正样本文本对对应的分类识别标签对所述初始多模态特征提取模型进行训练,并将训练后得到的第一初始网络模型作为所述语义表征模型。
一种可能的实现方式中,所述训练单元包括:
第四输入子单元,用于将所述负样本文本对中第三样本文本的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量输入所述第一初始网络模型的输入层,得到第三样本输入向量;并将所述负样本文本对中第四样本文本的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量输入所述第二初始网络模型的输入层,得到第四样本输入向量;
第五输入子单元,用于将所述第三样本输入向量输入所述第一初始网络模型的trasnformer编码层,得到第三样本整体编码向量和所述第三样本文本中每个词的样本编码向量;并将所述第四样本输入向量输入所述第二初始网络模型的trasnformer编码层,得到第四样本整体编码向量和所述第四样本文本中每个词的样本编码向量;
第六输入子单元,用于将所述第三样本文本中每个词的样本编码向量输入所述第一初始网络模型的KMA编码层,得到所述第三样本文本的第三样本关键词编码向量;并将所述第四样本文本中每个词的样本编码向量输入所述第二初始网络模型的KMA编码层,得到所述第四样本文本的第四样本关键词编码向量;
第二连接子单元,用于将所述第三样本整体编码向量和所述第三样本关键词编码向量输入所述第一初始网络模型的连接层进行连接,得到所述第三样本文本的第三样本向量;并将所述第四样本整体编码向量和所述第四样本关键词编码向量输入所述第二初始网络模型的连接层进行连接,得到所述第四样本文本的第四样本向量;
第二拼接子单元,用于将所述第三样本向量和所述第四样本向量输入所述初始多模态特征提取模型的拼接层进行拼接,得到第二拼接向量;
第二分类子单元,用于利用所述第二拼接向量进行分类,并通过所述初始多模态特征提取模型的输出层输出第二分类结果;
第二训练子单元,用于利用所述第二分类结果以及所述负样本文本对对应的分类识别标签对所述初始多模态特征提取模型进行训练,并将训练后得到的第一初始网络模型作为所述语义表征模型。
一种可能的实现方式中,所述装置还包括:
第三获取单元,用于获取验证文本对;并提取所述验证文本对的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量;
第二预测单元,用于将所述验证文本对的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量输入至所述初始语义表征模型,预测得到所述验证文本对对应的分类结果;
更新单元,用于当所述验证文本对对应的分类结果与所述验证文本对对应的分类标签结果不一致时,将所述验证文本对重新作为所述训练样本文本对,对所述初始语义表征模型进行更新,以得到更新后的语义表征模型。
一种可能的实现方式中,所述第一预测单元包括:
第七输入子单元,用于将所述目标文本的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量输入至预先构建的语义表征模型的输入层,得到输入向量;
第一编码子单元,用于将所述输入向量输入至所述语义表征模型的trasnformer编码层进行编码,得到所述目标文本的整体编码向量和每个词的编码向量;
第二编码子单元,用于将所述目标文本中每个词的编码向量输入至所述语义表征模型的KMA编码层,进行关键词编码,得到关键词编码向量;
第三连接子单元,用于将所述目标文本的整体编码向量和所述关键词编码向量输入至所述语义表征模型的连接层进行连接,并将得到的连接向量作为所述目标文本对应的语义表征向量。
一种可能的实现方式中,所述第二编码子单元包括:
计算子单元,用于将所述目标文本中每个词的编码向量输入至所述语义表征模型的KMA编码层,分别将每个词的编码向量与所述目标文本中各个关键词的编码向量进行点乘计算,得到所述目标文本中每个词对应的关键词编码向量;
第三拼接子单元,用于将所述目标文本中每个词对应的关键词编码向量进行拼接,并将得到的拼接后的向量作为所述目标文本对应的关键词编码向量。
一种可能的实现方式中,所述实体词信息编码向量包括核心动词编码向量、通用实体词编码向量、人名编码向量、机构名编码向量、地名编码向量。
本申请实施例还提供了一种语义表征设备,包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述语义表征方法中的任意一种实现方式。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述语义表征方法中的任意一种实现方式。
本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述语义表征方法中的任意一种实现方式。
本申请实施例提供的一种语义表征方法、装置、存储介质及设备,首先获取待处理的目标文本,然后提取出目标文本的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量;接着,将目标文本的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量输入至预先构建的语义表征模型,预测得到目标文本对应的语义表征向量;其中,语义表征模型是根据相同语种的正样本文本对和负样本文本对、以及不同语种的正样本文本对和负样本文本对,利用语种标识和实体库进行对比训练得到的。
可见,由于本申请中预先构建的语义表征模型是根据相同语种的正样本文本对和负样本文本对、以及不同语种的正样本文本对和负样本文本对,利用语种标识和实体库进行对比训练得到的,从而能够在进行语义表征时,不再需要单语种进行模型定制,利用该语义表征模型即可实现跨语种的语义表征,并有效提高了表征效果,有利于后续进行多语种的相关任务。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种语义表征方法的流程示意图;
图2为本申请实施例提供的embedding矩阵的示例图;
图3为本申请实施例提供的将目标文本的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量输入至预先构建的语义表征模型,预测得到目标文本对应的语义表征向量的示例图;
图4为本申请实施例提供的同一语种下表示不同含义的两个文本句子的示例图;
图5为本申请实施例提供的语义表征模型的网络结构示意图;
图6为本申请实施例提供的语义表征模型中KMA编码层的编码机制示意图;
图7为本申请实施例提供的一种语义表征装置的组成示意图。
具体实施方式
随着全球化的发展,国际交流的日益密切,各种国际业务层出不穷,为了更好的进行国际交流,多语种相关的人机交互得到更多人的关注。而人机交互中最核心的技术就是语义理解和语义表征,其中,语义表征是指从一句话中,提取出句子的向量表示,它是语义理解的更深层次的一种表示。
目前,对于中文、英文的语义理解和表征技术已经相对成熟,但是能够同时支撑多个语种的语义表征方法还未出现,现有的语义表征方法,基本都是针对单语种进行模型定制,针对每个语种单独训练模型,这种表征方法有两个典型的缺点:一是在将语义表征模型集成部署到人机交互系统时,需要部署大量模型,比如有N个语种,则至少需要部署N个模型,导致需要消耗大量计算资源;二是这种表征方法没有充分利用多语种的语义共性,尽管语种不同,但是一些语义相似的数据实则可以通过模型共享的方式进行充分利用,导致表征效果较差。
为解决上述缺陷,本申请提供了一种语义表征方法,首先获取待处理的目标文本,然后提取出目标文本的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量;接着,将目标文本的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量输入至预先构建的语义表征模型,预测得到目标文本对应的语义表征向量;其中,语义表征模型是根据相同语种的正样本文本对和负样本文本对、以及不同语种的正样本文本对和负样本文本对,利用语种标识和实体库进行对比训练得到的。
可见,由于本申请中预先构建的语义表征模型是根据相同语种的正样本文本对和负样本文本对、以及不同语种的正样本文本对和负样本文本对,利用语种标识和实体库进行对比训练得到的,从而能够在进行语义表征时,不再需要单语种进行模型定制,利用该语义表征模型即可实现跨语种的语义表征,并有效提高了表征效果,有利于后续进行多语种的相关任务。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
第一实施例
参见图1,为本实施例提供的一种语义表征方法的流程示意图,该方法包括以下步骤:
S101:获取待处理的目标文本。
在本实施例中,将采用本实施例进行语义表征的任一文本定义为待处理的目标文本,并且,本实施例不限制目标文本的语种类型,比如,目标文本可以是中文文本、英文文本、或日文文本等;本实施例也不限制目标文本的来源和获取方式,比如,目标文本可以是来自于语音识别的结果,也可以是从网络平台获取到的新闻文本数据等;本实施例也不限制目标文本的类型,比如,目标文本可以是人们日常对话中的问题文本,也可以是人们在银行、保险公司等场景的对话文本等。
可以理解的是,目标文本可以为一个句子文本,是各个词语的集合,在获取句子文本作为待处理的目标文本后,可按照后续步骤S102-S103对其进行处理,得到其对应的更为准确的语义表征。
S102:提取目标文本的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量。
在本实施例中,通过步骤S101获取到待处理的目标文本后,为了能够提高对于目标文本的语义表征效果,进一步可以根据预先构建的各语种对应的实体库,提取出目标文本的实体词信息编码向量,以及利用现有或为了出现的向量提取方式,提取出目标文本的语种标识编码向量、位置编码向量和词向量,用以执行后续步骤S103。
其中,目标文本的语种标识编码向量是根据已有的通用语种编码向量标识的标准来确定的,比如当目标文本为中文文本时,其对应的语种标识编码向量为“zh”、或者当目标文本为英文文本时,其对应的语种标识编码向量为“en”、或者当目标文本为日文文本时,其对应的语种标识编码向量为“ja”等。
而各个语种的实体库通常可以采用中文实体库进行对齐翻译得到。其中,一种可选的实现方式是,中文实体库中主要可以包括但不限于“核心动词”、“通用实体词”、“人名”、“机构名”、“地名”等海量的实体词,相应的,目标文本的实体词信息编码向量可以包括但不限于核心动词编码向量、通用实体词编码向量、人名编码向量、机构名编码向量、地名编码向量等。并可以对应利用“1”、“2”、“3”、“4”、“5”等表示。
目标文本的位置编码向量则可以根据目标文本中每个词语的前后位置,从前向后依次采用“0”、“1”、“2”、“3”、“4”等表示。
目标文本的词向量则可以采用Word2vec等提取词向量的方式来获取,具体提取方式本申请不做限定。
需要说明的是,对于提取出的目标文本的各种编码信息,均可以通过引入embedding矩阵进行实现,且目标文本的各种编码向量对应的“0”、“1”、“2”、“3”、“4”等数字表示,均对应于embedding矩阵上的索引(index)。例如,如图2所示,对于目标文本的语种标识编码向量(language embedding),“zh”、“en”、“ru”等对应的数字表示“0”、“1”、“2”等均为language embedding matrix上的索引。对于目标文本的实体词信息编码向量(entityType embedding),“核心动词”、“通用实体词”、“人名”、“机构名”等对应的数字表示“1”、“2”、“3”、“4”等均为entityType embedding matrix上的索引。
S103:将目标文本的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量输入至预先构建的语义表征模型,预测得到目标文本对应的语义表征向量。
在本实施例中,通过步骤S102提取出目标文本的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量后,为了能够有效提高对于目标文本的语义表征效果,进一步可以将目标文本的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量输入至预先构建的语义表征模型,预测得到目标文本对应的语义表征向量,用以进行后续多语种的相关任务。
其中,由于语义表征模型是根据相同语种的正样本文本对和负样本文本对、以及不同语种的正样本文本对和负样本文本对,利用语种标识和实体库进行对比训练得到的,所以在对目标文本进行语义表征时,不再需要根据目标文本语种类型进行单语种模型定制,而是利用该语义表征模型即可实现跨语种的语义表征,并能够有效提高对于目标文本的语义表征效果。
需要说明的是,本申请对语义表征模型的具体结构不做限定,一种优先的实现方式是,语义表征模型可以包括输入层、trasnformer编码层(encode layer)、关键词掩码注意力(key-word mask attention,简称KMA)编码层(KMA layer)、连接层(connectionlayer)。
在此基础上,一种可选的实现方式是,上述步骤S103的具体实现过程可以包括下述步骤S1031-S1034:
步骤S1031:将目标文本的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量输入至预先构建的语义表征模型的输入层,得到输入向量。
具体来讲,在本实现方式中,在获取到目标文本的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量后,进一步可以将这些向量共同输入至预先构建的语义表征模型的输入层,得到输入向量,用以执行后续步骤S1032。
举例说明:如图3所示,假设目标文本为日语的“我想去看樱花”,其中,该目标文本的语种为日语,对应的语种标识编码向量(即图3中的语种编码(language embedding))为“ja”。该目标文本中的“桜”代表通用实体词,“見”代表核心动词,二者对应的实体词信息编码向量(即图3中的实体编码(entityType embedding))可以分别标记为2和1,其他词标记为0。该目标文本的位置编码向量为图3中的实体编码位置编码(position embedding)对应的标识0至11,该目标文本的词向量为图3中的词向量(token embedding)。可以将这些向量共同输入至预先构建的语义表征模型的输入层,得到输入向量。
步骤S1032:将输入向量输入至语义表征模型的trasnformer编码层进行编码,得到所述目标文本的整体编码向量和每个词的编码向量。
在本实现方式中,通过步骤S1031将目标文本的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量输入至预先构建的语义表征模型的输入层,得到输入向量后,进一步可以将输入向量输入至语义表征模型的trasnformer编码层进行编码,如图3所示,得到目标文本的整体编码向量(此处可将其定义为h(CLS))和每个词的编码向量,其中,图3中trasnformer编码层输出的两个浅灰色方框对应的是实体词“桜”和“見”的编码向量,其他10个较深灰色方框对应的其他非实体词的编码向量,可将trasnformer编码层输出的每个词的编码向量分别定义为h1、h2…h12
步骤S1033:将目标文本中每个词的编码向量输入至语义表征模型的KMA编码层,进行关键词编码,得到关键词编码向量。
在本实现方式中,通过步骤S1032预测得到目标文本中每个词的编码向量(h1、h2…h12)后,进一步还可以将目标文本中每个词的编码向量(h1、h2…h12)输入至语义表征模型的KMA编码层,进行关键词编码,即,更多的关注目标文本中的关键词差异,得到关键词编码向量,如图3所示。
具体来讲,一种可选的实现方式是,在将目标文本中每个词的编码向量输入至语义表征模型的KMA编码层后,可以分别将每个词的编码向量(即h1、h2…h12)与目标文本中各个关键词的编码向量(即如图3中“桜”和“見”对应的编码向量h3和h5)进行点乘计算,得到目标文本中每个词对应的关键词编码向量,再将目标文本中每个词对应的关键词编码向量进行拼接,并将得到的拼接后的向量作为目标文本对应的关键词编码向量,此处可以将其定义为h(KMA),用以表征目标文本的本质核心点。
步骤S1034:将目标文本的整体编码向量和关键词编码向量输入至所述语义表征模型的连接层进行连接,并将得到的连接向量作为所述目标文本对应的语义表征向量。
在本实现方式中,通过步骤S1032预测得到目标文本的整体编码向量(h(CLS)),以及通过步骤S1033得到表征目标文本的本质核心点关键词编码向量(h(KMA))后,进一步还可以将二者输入至语义表征模型的连接层,如图3的连接层(connection layer),进行连接,得到连接向量,并将其定义为S1,如图3所示,得到的s1即为目标文本“私は桜を見に行きたいです”的语义表征。
其中,h(CLS)和h(KMA)的具体连接方式不做限定,可以是直接拼接,也可以是加权处理等。
这样,通过语种标识编码向量和实体词信息编码向量的引入以及通过语义表征模型中KMA编码层对于关键词的编码,可以增强核心词对目标文本含义的表示,从而增加了语义表征准确性,提升了语义表征效果。
接下来,本实施例将对语义表征模型的构建过程进行介绍,其中,一种可选的实现方式是,语义表征模型的构建过程具体可以包括以下步骤A-C:
步骤A:获取训练样本文本对,其中,训练样本文本对包括相同语种的正样本文本对和负样本文本对、以及不同语种的正样本文本对和负样本文本对。
需要说明的是,为了提高语义表征模型对于跨语种的文本的语义表征效果,在进行模型训练时,需要构建出相同语种的正样本文本对和负样本文本对、以及不同语种的正样本文本对和负样本文本对,共同作为训练样本文本对,用以执行后续步骤B,用以有效提升模型的语义表征能力。
具体来讲,在本实现方式中,为了构建语义表征模型,需要预先进行大量的准备工作,首先,需要收集大量的不同语种下的对齐文本pair对和相同语种下的同一含义的pair对、以及同一语种下表示不同含义的两个文本句子(如图4所示的“怎么扫码进团购群”和“如何扫码来拼团”)和不同语种下表示不同含义的两个文本句子,如分别从中文、英文、日文等各种不同语种下收集表示同一语义理解和不同语义理解的人们在日常对话中发出的语音文本等,作为正样本文本对和负样本文本对,用以构成模型的训练数据。
并且,在获取到包含正样本文本对和负样本文本对的训练样本文本对后,还需要人工标注出训练样本文本对的相似度分类标签,例如可以将正样本文本对的相似度分类标签标记为1,并将负样本文本对中的相似度分类标签标记为0等。
步骤B:提取正样本文本对和负样本文本对的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量。
在通过步骤A获取到包含正样本文本对和负样本文本对的训练样本文本对后,进一步可以提取出正样本文本对和负样本文本对的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量,具体提取方式,可以参见上述步骤S102,仅是将目标文本替换为正样本文本对和负样本文本对中的各个样本文本即可,在此不再赘述。
步骤C:将正样本文本对和负样本文本对的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量输入初始语义表征模型,训练得到语义表征模型。
其中,一种可选的实现方式是,初始多模态特征提取模型可以包括但不限于第一初始网络模型、第二初始网络模型、拼接层、输出层。其中,第一初始网络模型和第二初始网络模型均包括了输入层、trasnformer编码层、关键词掩码注意力KMA编码层、连接层;第一初始网络模型和第二初始网络模型的参数是共享的。如图5所示,第一初始网络模型和第二初始网络模型分别为图5中左右两侧的网络,二者均包含输入层、trasnformer编码层、关键词掩码注意力KMA编码层、连接层,且二者的网络参数是共享的。
在通过步骤B提取出正样本文本对和负样本文本对的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量后,进一步可以将正样本文本对和负样本文本对的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量输入初始语义表征模型,实现对输入的训练样本文本对(即正样本文本对或负样本文本对)中两个文本的相似度的预测,得到训练样本文本对对应的相似度分类结果,并将其与人工标注出的相似度分类标签进行比对,以根据比对结果(即二者的差异)调整模型参数,依次类推,可以采用对比学习方式,利用训练样本文本对(即正样本文本对和负样本文本对),通过多轮模型训练,直到满足训练结束条件为止(如到达预设训练次数等),此时,训练得到图5左侧生成语义表征向量的第一网络模型即可作为训练好的语义表征模型。
具体来讲,一种可选的实现方式是,当训练样本文本对为正样本文本对时,上述步骤C的具体实现过程可以包括下述步骤C11-C17:
步骤C11:将正样本文本对中第一样本文本的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量输入第一初始网络模型的输入层,得到第一样本输入向量;并将正样本文本对中第二样本文本的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量输入第二初始网络模型的输入层,得到第二样本输入向量。
举例说明:如图5所示,假设正样本文本对中第一样本文本为“如何扫码进居民群”,第二样本文本为“how to scan QR code into resident Group”,在将二者的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量分别输入第一初始网络模型和第二初始网络模型时,除了在每个字上添加位置编码信息(position embedding),额外添加了语种信息(language embedding),如在每个字上添加中文对应的embedding“zh”,以及添加英文对应的embedding“en”。还添加了额外的实体词信息(entityType embedding),训练时会给所有字符都添加实体类型embedding,如在原字符串上的每个字上均添加索引为“0”的embedding,如“扫码”上添加的是“1”,对应如图2的实体类型embedding矩阵的第一行,表示核心动词,“居民群”上添加的为“2”,对于如图2的实体类型embedding矩阵的第二行,表示通用实体词。
步骤C12:将第一样本输入向量输入第一初始网络模型的trasnformer编码层,得到第一样本整体编码向量和第一样本文本中每个词的样本编码向量;并将第二样本输入向量输入第二初始网络模型的trasnformer编码层,得到第二样本整体编码向量和所述第二样本文本中每个词的样本编码向量。
通过步骤C11得到第一样本输入向量和第二样本输入向量后,进一步可以将融入实体信息和语种信息的第一样本输入向量输入如图5左侧图的trasnformer编码层得到第一样本文本(如“如何扫码进居民群”)整句的一个中间表示向量(此处将其定义为第一样本整体编码向量,如图5左侧的h(CLS),该向量表征了整句的全部信息,并且靠transformer自带的attention,学习了句子中哪些字对整句的语义表示起到作用)和第一样本文本中每个词的样本编码向量(此处将其定义h1、h2…hn),并将融入实体信息和语种信息的第二样本输入向量输入如图5右侧图的trasnformer编码层得到第二样本文本(如“how to scan QRcode into resident Group”)整句的一个中间表示向量(此处将其定义为第二样本整体编码向量,如图5右侧的h(CLS),该向量表征了整句的全部信息,并且靠transformer自带的attention,学习了句子中哪些字对整句的语义表示起到作用)和第二样本文本中每个词的样本编码向量。
步骤C13:将第一样本文本中每个词的样本编码向量输入第一初始网络模型的KMA编码层,得到第一样本文本的第一样本关键词编码向量;并将第二样本文本中每个词的样本编码向量输入第二初始网络模型的KMA编码层,得到第二样本文本的第二样本关键词编码向量。
需要说明的是,即使transformer编码层有能从训练文本句子中学习哪些字对整句的语义表示起到作用的能力,然而,因为缺少额外的监督信息,深度模型往往不能够准确捕获在句子对中的关键信息,从而对训练样本文本对做准确的相似度区分;如果能显式的在模型训练中透露出哪些词是关键实体词,那么相当于给模型画了一个重点的小圈,更能方便学习到准确的句子表示,为此本实施例在模型中引入了关键词掩码注意力(KMA)编码层,如图5所示,这对于语义表征模型的训练来说是非常重要的。
在此基础上,通过步骤C12得到第一样本文本中每个词的样本编码向量和第二样本文本中每个词的样本编码向量后,进一步可以将第一样本文本中每个词的样本编码向量输入第一初始网络模型的KMA编码层,得到第一样本文本的第一样本关键词编码向量;并将第二样本文本中每个词的样本编码向量输入第二初始网络模型的KMA编码层,得到第二样本文本的第二样本关键词编码向量。
举例说明:如图6所示,对于训练文本“如何扫码进居民群”来说,当通过transformer编码层得到其对应的每个词的样本编码向量后,可分别计算每个字符的编码向量与各个关键词的编码向量(即如图6中“扫码”和“居民群”汇中每个字符对应的编码向量)进行点乘计算,如图6中的箭头指示,得到训练文本“如何扫码进居民群”中每个词对应的关键词编码向量,再进行向量拼接后,得到“如何扫码进居民群”对应的关键词编码向量,如图6中的h(KMA)。
这样,KMA机制可以强迫模型去关注训练文本的关键词差异,从而来学习到训练文本的本质核心点,最终输出关键词编码向量h(KMA),与向量h(CLS)不同的是,两者都反映出整句的语义表征,但是侧重点不同。
步骤C14:将第一样本整体编码向量和第一样本关键词编码向量输入第一初始网络模型的连接层进行连接,得到第一样本文本的第一样本向量;并将第二样本整体编码向量和第二样本关键词编码向量输入第二初始网络模型的连接层进行连接,得到第二样本文本的第二样本向量。
通过步骤C12和C13分别得到第一样本整体编码向量(如图5左侧的h(CLS))和第一样本关键词编码向量(如图5左侧的h(KMA)),以及第二样本整体编码向量(如图5右侧的h(CLS))和第二样本关键词编码向量(如图5右侧的h(KMA))后,进一步可以将第一样本整体编码向量(如图5左侧的h(CLS))和第一样本关键词编码向量(如图5左侧的h(KMA))输入如图5左侧的第一初始网络模型的连接层进行连接,得到第一样本文本的第一样本向量,并将其定义为s1,同时,可以将第二样本整体编码向量(如图5右侧的h(CLS))和第二样本关键词编码向量(如图5右侧的h(KMA))输入如图5右侧的第二初始网络模型的连接层进行连接,得到第二样本文本的第二样本向量,并将其定义为s2。
步骤C15:将第一样本向量和第二样本向量输入初始多模态特征提取模型的拼接层进行拼接,得到第一拼接向量。
通过步骤C14得到第一样本向量(如图5左侧的s1)和第二样本向量(如图5右侧的s2)后,进一步可以将二者输入初始多模态特征提取模型的拼接层进行拼接,具体拼接方式不做限定,可根据实际情况进行设定,比如可以将s1和s2进行拼接后得到第一拼接向量为[s1、s2、s1*s2、s1-s2],以便让左右的第一初始网络模型和第二初始网络模型的网络的信息进行充分融合。
步骤C16:利用第一拼接向量进行分类,并通过初始多模态特征提取模型的输出层输出第一分类结果。
通过步骤C15得到第一拼接向量(如图5所示的[s1、s2、s1*s2、s1-s2])后,进一步可以将其输入一个全连接层,以通过输出层输出表征当前输入的正样本文本对中第一样本文本和第二样本文本是否表达相同意思的分类结果(此处将其定义为第一分类结果),即为0或1,其中,0代表输入的第一样本文本和第二样本文本表达的不是相同意思,1表示输入的第一样本文本和第二样本文本表达的是相同意思。
步骤C17:利用第一分类结果以及正样本文本对对应的分类识别标签对初始多模态特征提取模型进行训练,并将训练后得到的第一初始网络模型作为语义表征模型。
通过步骤C16得到训练的正样本文本对对应的第一分类结果(即0或1)后,可以将其与人工标注出的该正样本文本对对应的相似度分类标签(即1)进行比对,以根据比对结果(即二者是否一致)调整模型参数,直到满足训练结束条件为止(如第一分类结果与人工标注的分类标签一致等),此时,训练得到的图5左侧生成语义表征向量的第一网络模型即可作为训练好的语义表征模型。
类似的,另一种可选的实现方式是,当训练样本文本对为负样本文本对时,上述步骤C的具体实现过程可以包括下述步骤C21-C27:
步骤C21:将负样本文本对中第三样本文本的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量输入第一初始网络模型的输入层,得到第三样本输入向量;并将负样本文本对中第四样本文本的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量输入第二初始网络模型的输入层,得到第四样本输入向量。
步骤C22:将第三样本输入向量输入第一初始网络模型的trasnformer编码层,得到第三样本整体编码向量和第三样本文本中每个词的样本编码向量;并将第四样本输入向量输入第二初始网络模型的trasnformer编码层,得到第四样本整体编码向量和第四样本文本中每个词的样本编码向量。
步骤C23:将第三样本文本中每个词的样本编码向量输入第一初始网络模型的KMA编码层,得到第三样本文本的第三样本关键词编码向量;并将第四样本文本中每个词的样本编码向量输入第二初始网络模型的KMA编码层,得到第四样本文本的第四样本关键词编码向量。
步骤C24:将第三样本整体编码向量和第三样本关键词编码向量输入第一初始网络模型的连接层进行连接,得到第三样本文本的第三样本向量;并将第四样本整体编码向量和第四样本关键词编码向量输入第二初始网络模型的连接层进行连接,得到第四样本文本的第四样本向量。
步骤C25:将第三样本向量和第四样本向量输入初始多模态特征提取模型的拼接层进行拼接,得到第二拼接向量。
步骤C26:利用第二拼接向量进行分类,并通过初始多模态特征提取模型的输出层输出第二分类结果。
步骤C27:利用第二分类结果以及负样本文本对对应的分类识别标签对初始多模态特征提取模型进行训练,并将训练后得到的第一初始网络模型作为语义表征模型。
需要说明的是,上述步骤C21-C27的实现原理与上述步骤C11-17的实现原理是一直的,仅是将正样本文本对替换为负样本文本对进行模型训练即可,具体训练过程可参照上述步骤C11-17的实现过程,在此不再一一赘述。
在此基础上,在根据训练样本文本对训练生成语义表征模型后,进一步的,还可以利用验证文本对对生成的语义表征模型进行验证。具体验证过程可以包括下述步骤(1)-(3):
步骤(1):获取验证文本对;并提取所述验证文本对的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量。
在本实施例中,为了实现对语义表征模型进行验证,首先需要获取验证文本对,如可以从网络页面中下载1000条不同语种的相同含义和不同含义的文本对作为验证文本对,其中,验证文本对指的是可以用来进行语义表征模型验证的文本信息,在获取到这些验证文本对后,可采用与上述步骤S102阐述的提取方式,将目标文本替换为验证文本对中的验证文本,提取出验证文本对的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量,用以执行后续步骤(2)。
步骤(2):将验证文本对的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量输入至初始语义表征模型,预测得到验证文本对对应的分类结果。
通过步骤(1)获取到获取验证文本对,并提取出验证文本对的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量后,进一步的,可以将验证文本对的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量输入至初始语义表征模型,预测得到验证文本对对应的分类结果,用以执行后续步骤(3)。
步骤(3):当验证文本对对应的分类结果与验证文本对对应的分类标签结果不一致时,将验证文本对重新作为训练样本文本对,对初始语义表征模型进行更新,以得到更新后的语义表征模型。
通过步骤(2)预测出验证文本对对应的分类结果(即0或1)后,若该预测出的分类结果与验证文本对对应的真实分类结果(即人工标注的相似度分类标签0或1)不一致时,则可以将验证文本对重新作为训练样本文本对,对初始语义表征模型进行参数更新,并将更新后的初始语义表征模型中的第一初始网络模型作为更新后的语义表征模型。
通过上述实施例,可以利用验证文本对对语义表征模型进行有效验证,当模型预测出的分类结果与验证文本对对应的真实分类结果(即人工标注的相似度分类标签0或1)不一致时,可以及时调整更新语义表征模型,进而有助于提高模型的预测精度和准确性。
综上,本实施例提供的一种语义表征方法,首先获取待处理的目标文本,然后提取出目标文本的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量;接着,将目标文本的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量输入至预先构建的语义表征模型,预测得到目标文本对应的语义表征向量;其中,语义表征模型是根据相同语种的正样本文本对和负样本文本对、以及不同语种的正样本文本对和负样本文本对,利用语种标识和实体库进行对比训练得到的。
可见,由于本申请中预先构建的语义表征模型是根据相同语种的正样本文本对和负样本文本对、以及不同语种的正样本文本对和负样本文本对,利用语种标识和实体库进行对比训练得到的,从而能够在进行语义表征时,不再需要单语种进行模型定制,利用该语义表征模型即可实现跨语种的语义表征,并有效提高了表征效果,有利于后续进行多语种的相关任务。
第二实施例
本实施例将对一种语义表征装置进行介绍,相关内容请参见上述方法实施例。
参见图7,为本实施例提供的一种语义表征装置的组成示意图,该装置700包括:
第一获取单元701,用于获取待处理的目标文本;
第一提取单元702,用于提取所述目标文本的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量;
第一预测单元703,用于将所述目标文本的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量输入至预先构建的语义表征模型,预测得到所述目标文本对应的语义表征向量;
其中,所述语义表征模型是根据相同语种的正样本文本对和负样本文本对、以及不同语种的正样本文本对和负样本文本对,利用语种标识和实体库进行对比训练得到的。
在本实施例的一种实现方式中,所述装置还包括:
第二获取单元,用于获取训练样本文本对,所述训练样本文本对包括相同语种的正样本文本对和负样本文本对、以及不同语种的正样本文本对和负样本文本对;
第二提取单元,用于提取所述正样本文本对和负样本文本对的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量;
训练单元,用于将所述正样本文本对和负样本文本对的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量输入初始语义表征模型,训练得到所述语义表征模型;
其中,所述初始多模态特征提取模型包括第一初始网络模型、第二初始网络模型、拼接层、输出层;所述第一初始网络模型和第二初始网络模型均包括了输入层、trasnformer编码层、关键词掩码注意力KMA编码层、连接层;所述第一初始网络模型和第二初始网络模型的参数是共享的。
在本实施例的一种实现方式中,所述训练单元包括:
第一输入子单元,用于将所述正样本文本对中第一样本文本的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量输入所述第一初始网络模型的输入层,得到第一样本输入向量;并将所述正样本文本对中第二样本文本的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量输入所述第二初始网络模型的输入层,得到第二样本输入向量;
第二输入子单元,用于将所述第一样本输入向量输入所述第一初始网络模型的trasnformer编码层,得到第一样本整体编码向量和所述第一样本文本中每个词的样本编码向量;并将所述第二样本输入向量输入所述第二初始网络模型的trasnformer编码层,得到第二样本整体编码向量和所述第二样本文本中每个词的样本编码向量;
第三输入子单元,用于将所述第一样本文本中每个词的样本编码向量输入所述第一初始网络模型的KMA编码层,得到所述第一样本文本的第一样本关键词编码向量;并将所述第二样本文本中每个词的样本编码向量输入所述第二初始网络模型的KMA编码层,得到所述第二样本文本的第二样本关键词编码向量;
第一连接子单元,用于将所述第一样本整体编码向量和所述第一样本关键词编码向量输入所述第一初始网络模型的连接层进行连接,得到所述第一样本文本的第一样本向量;并将所述第二样本整体编码向量和所述第二样本关键词编码向量输入所述第二初始网络模型的连接层进行连接,得到所述第二样本文本的第二样本向量;
第一拼接子单元,用于将所述第一样本向量和所述第二样本向量输入所述初始多模态特征提取模型的拼接层进行拼接,得到第一拼接向量;
第一分类子单元,用于利用所述第一拼接向量进行分类,并通过所述初始多模态特征提取模型的输出层输出第一分类结果;
第一训练子单元,用于利用所述第一分类结果以及所述正样本文本对对应的分类识别标签对所述初始多模态特征提取模型进行训练,并将训练后得到的第一初始网络模型作为所述语义表征模型。
在本实施例的一种实现方式中,所述训练单元包括:
第四输入子单元,用于将所述负样本文本对中第三样本文本的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量输入所述第一初始网络模型的输入层,得到第三样本输入向量;并将所述负样本文本对中第四样本文本的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量输入所述第二初始网络模型的输入层,得到第四样本输入向量;
第五输入子单元,用于将所述第三样本输入向量输入所述第一初始网络模型的trasnformer编码层,得到第三样本整体编码向量和所述第三样本文本中每个词的样本编码向量;并将所述第四样本输入向量输入所述第二初始网络模型的trasnformer编码层,得到第四样本整体编码向量和所述第四样本文本中每个词的样本编码向量;
第六输入子单元,用于将所述第三样本文本中每个词的样本编码向量输入所述第一初始网络模型的KMA编码层,得到所述第三样本文本的第三样本关键词编码向量;并将所述第四样本文本中每个词的样本编码向量输入所述第二初始网络模型的KMA编码层,得到所述第四样本文本的第四样本关键词编码向量;
第二连接子单元,用于将所述第三样本整体编码向量和所述第三样本关键词编码向量输入所述第一初始网络模型的连接层进行连接,得到所述第三样本文本的第三样本向量;并将所述第四样本整体编码向量和所述第四样本关键词编码向量输入所述第二初始网络模型的连接层进行连接,得到所述第四样本文本的第四样本向量;
第二拼接子单元,用于将所述第三样本向量和所述第四样本向量输入所述初始多模态特征提取模型的拼接层进行拼接,得到第二拼接向量;
第二分类子单元,用于利用所述第二拼接向量进行分类,并通过所述初始多模态特征提取模型的输出层输出第二分类结果;
第二训练子单元,用于利用所述第二分类结果以及所述负样本文本对对应的分类识别标签对所述初始多模态特征提取模型进行训练,并将训练后得到的第一初始网络模型作为所述语义表征模型。
在本实施例的一种实现方式中,所述装置还包括:
第三获取单元,用于获取验证文本对;并提取所述验证文本对的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量;
第二预测单元,用于将所述验证文本对的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量输入至所述初始语义表征模型,预测得到所述验证文本对对应的分类结果;
更新单元,用于当所述验证文本对对应的分类结果与所述验证文本对对应的分类标签结果不一致时,将所述验证文本对重新作为所述训练样本文本对,对所述初始语义表征模型进行更新,以得到更新后的语义表征模型。
在本实施例的一种实现方式中,所述第一预测单元703包括:
第七输入子单元,用于将所述目标文本的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量输入至预先构建的语义表征模型的输入层,得到输入向量;
第一编码子单元,用于将所述输入向量输入至所述语义表征模型的trasnformer编码层进行编码,得到所述目标文本的整体编码向量和每个词的编码向量;
第二编码子单元,用于将所述目标文本中每个词的编码向量输入至所述语义表征模型的KMA编码层,进行关键词编码,得到关键词编码向量;
第三连接子单元,用于将所述目标文本的整体编码向量和所述关键词编码向量输入至所述语义表征模型的连接层进行连接,并将得到的连接向量作为所述目标文本对应的语义表征向量。
在本实施例的一种实现方式中,所述第二编码子单元包括:
计算子单元,用于将所述目标文本中每个词的编码向量输入至所述语义表征模型的KMA编码层,分别将每个词的编码向量与所述目标文本中各个关键词的编码向量进行点乘计算,得到所述目标文本中每个词对应的关键词编码向量;
第三拼接子单元,用于将所述目标文本中每个词对应的关键词编码向量进行拼接,并将得到的拼接后的向量作为所述目标文本对应的关键词编码向量。
在本实施例的一种实现方式中,所述实体词信息编码向量包括核心动词编码向量、通用实体词编码向量、人名编码向量、机构名编码向量、地名编码向量。
进一步地,本申请实施例还提供了一种语义表征设备,包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述语义表征方法的任一种实现方法。
进一步地,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述语义表征方法的任一种实现方法。
进一步地,本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述语义表征方法的任一种实现方法。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如媒体网关等网络通信设备,等等)执行本申请各个实施例或者实施例的某些部分所述的方法。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (11)

1.一种语义表征方法,其特征在于,包括:
获取待处理的目标文本;
提取所述目标文本的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量;
将所述目标文本的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量输入至预先构建的语义表征模型,预测得到所述目标文本对应的语义表征向量;
其中,所述语义表征模型是根据相同语种的正样本文本对和负样本文本对、以及不同语种的正样本文本对和负样本文本对,利用语种标识和实体库进行对比训练得到的。
2.根据权利要求1所述的方法,其特征在于,所述语义表征模型的构建方式如下:
获取训练样本文本对,所述训练样本文本对包括相同语种的正样本文本对和负样本文本对、以及不同语种的正样本文本对和负样本文本对;
提取所述正样本文本对和负样本文本对的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量;
将所述正样本文本对和负样本文本对的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量输入初始语义表征模型,训练得到所述语义表征模型;
其中,所述初始多模态特征提取模型包括第一初始网络模型、第二初始网络模型、拼接层、输出层;所述第一初始网络模型和第二初始网络模型均包括了输入层、trasnformer编码层、关键词掩码注意力KMA编码层、连接层;所述第一初始网络模型和第二初始网络模型的参数是共享的。
3.根据权利要求2所述的方法,其特征在于,所述将所述正样本文本对和负样本文本对的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量输入初始语义表征模型,训练得到所述语义表征模型,包括:
将所述正样本文本对中第一样本文本的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量输入所述第一初始网络模型的输入层,得到第一样本输入向量;并将所述正样本文本对中第二样本文本的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量输入所述第二初始网络模型的输入层,得到第二样本输入向量;
将所述第一样本输入向量输入所述第一初始网络模型的trasnformer编码层,得到第一样本整体编码向量和所述第一样本文本中每个词的样本编码向量;并将所述第二样本输入向量输入所述第二初始网络模型的trasnformer编码层,得到第二样本整体编码向量和所述第二样本文本中每个词的样本编码向量;
将所述第一样本文本中每个词的样本编码向量输入所述第一初始网络模型的KMA编码层,得到所述第一样本文本的第一样本关键词编码向量;并将所述第二样本文本中每个词的样本编码向量输入所述第二初始网络模型的KMA编码层,得到所述第二样本文本的第二样本关键词编码向量;
将所述第一样本整体编码向量和所述第一样本关键词编码向量输入所述第一初始网络模型的连接层进行连接,得到所述第一样本文本的第一样本向量;并将所述第二样本整体编码向量和所述第二样本关键词编码向量输入所述第二初始网络模型的连接层进行连接,得到所述第二样本文本的第二样本向量;
将所述第一样本向量和所述第二样本向量输入所述初始多模态特征提取模型的拼接层进行拼接,得到第一拼接向量;
利用所述第一拼接向量进行分类,并通过所述初始多模态特征提取模型的输出层输出第一分类结果;
利用所述第一分类结果以及所述正样本文本对对应的分类识别标签对所述初始多模态特征提取模型进行训练,并将训练后得到的第一初始网络模型作为所述语义表征模型。
4.根据权利要求2所述的方法,其特征在于,所述将所述正样本文本对和负样本文本对的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量输入初始语义表征模型,训练得到所述语义表征模型,包括:
将所述负样本文本对中第三样本文本的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量输入所述第一初始网络模型的输入层,得到第三样本输入向量;并将所述负样本文本对中第四样本文本的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量输入所述第二初始网络模型的输入层,得到第四样本输入向量;
将所述第三样本输入向量输入所述第一初始网络模型的trasnformer编码层,得到第三样本整体编码向量和所述第三样本文本中每个词的样本编码向量;并将所述第四样本输入向量输入所述第二初始网络模型的trasnformer编码层,得到第四样本整体编码向量和所述第四样本文本中每个词的样本编码向量;
将所述第三样本文本中每个词的样本编码向量输入所述第一初始网络模型的KMA编码层,得到所述第三样本文本的第三样本关键词编码向量;并将所述第四样本文本中每个词的样本编码向量输入所述第二初始网络模型的KMA编码层,得到所述第四样本文本的第四样本关键词编码向量;
将所述第三样本整体编码向量和所述第三样本关键词编码向量输入所述第一初始网络模型的连接层进行连接,得到所述第三样本文本的第三样本向量;并将所述第四样本整体编码向量和所述第四样本关键词编码向量输入所述第二初始网络模型的连接层进行连接,得到所述第四样本文本的第四样本向量;
将所述第三样本向量和所述第四样本向量输入所述初始多模态特征提取模型的拼接层进行拼接,得到第二拼接向量;
利用所述第二拼接向量进行分类,并通过所述初始多模态特征提取模型的输出层输出第二分类结果;
利用所述第二分类结果以及所述负样本文本对对应的分类识别标签对所述初始多模态特征提取模型进行训练,并将训练后得到的第一初始网络模型作为所述语义表征模型。
5.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取验证文本对;并提取所述验证文本对的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量;
将所述验证文本对的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量输入至所述初始语义表征模型,预测得到所述验证文本对对应的分类结果;
当所述验证文本对对应的分类结果与所述验证文本对对应的分类标签结果不一致时,将所述验证文本对重新作为所述训练样本文本对,对所述初始语义表征模型进行更新,以得到更新后的语义表征模型。
6.根据权利要求2所述的方法,其特征在于,所述将所述目标文本的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量输入至预先构建的语义表征模型,预测得到所述目标文本对应的语义表征向量,包括:
将所述目标文本的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量输入至预先构建的语义表征模型的输入层,得到输入向量;
将所述输入向量输入至所述语义表征模型的trasnformer编码层进行编码,得到所述目标文本的整体编码向量和每个词的编码向量;
将所述目标文本中每个词的编码向量输入至所述语义表征模型的KMA编码层,进行关键词编码,得到关键词编码向量;
将所述目标文本的整体编码向量和所述关键词编码向量输入至所述语义表征模型的连接层进行连接,并将得到的连接向量作为所述目标文本对应的语义表征向量。
7.根据权利要求6所述的方法,其特征在于,所述将所述目标文本中每个词的编码向量输入至所述语义表征模型的KMA编码层,进行关键词编码,得到关键词编码向量,包括:
将所述目标文本中每个词的编码向量输入至所述语义表征模型的KMA编码层,分别将每个词的编码向量与所述目标文本中各个关键词的编码向量进行点乘计算,得到所述目标文本中每个词对应的关键词编码向量;
将所述目标文本中每个词对应的关键词编码向量进行拼接,并将得到的拼接后的向量作为所述目标文本对应的关键词编码向量。
8.根据权利要求1-7任一项所述的方法,其特征在于,所述实体词信息编码向量包括核心动词编码向量、通用实体词编码向量、人名编码向量、机构名编码向量、地名编码向量。
9.一种语义表征装置,其特征在于,包括:
第一获取单元,用于获取待处理的目标文本;
第一提取单元,用于提取所述目标文本的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量;
第一预测单元,用于将所述目标文本的语种标识编码向量、实体词信息编码向量、位置编码向量和词向量输入至预先构建的语义表征模型,预测得到所述目标文本对应的语义表征向量;
其中,所述语义表征模型是根据相同语种的正样本文本对和负样本文本对、以及不同语种的正样本文本对和负样本文本对,利用语种标识和实体库进行对比训练得到的。
10.一种语义表征设备,其特征在于,包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行权利要求1-8任一项所述的方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行权利要求1-8任一项所述的方法。
CN202211376168.3A 2022-11-04 2022-11-04 一种语义表征方法、装置、存储介质及设备 Pending CN115688800A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211376168.3A CN115688800A (zh) 2022-11-04 2022-11-04 一种语义表征方法、装置、存储介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211376168.3A CN115688800A (zh) 2022-11-04 2022-11-04 一种语义表征方法、装置、存储介质及设备

Publications (1)

Publication Number Publication Date
CN115688800A true CN115688800A (zh) 2023-02-03

Family

ID=85048141

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211376168.3A Pending CN115688800A (zh) 2022-11-04 2022-11-04 一种语义表征方法、装置、存储介质及设备

Country Status (1)

Country Link
CN (1) CN115688800A (zh)

Similar Documents

Publication Publication Date Title
CN110390103B (zh) 基于双编码器的短文本自动摘要方法及系统
CN108595708A (zh) 一种基于知识图谱的异常信息文本分类方法
CN114580382A (zh) 文本纠错方法以及装置
CN112633007B (zh) 一种语义理解模型构建方法及装置、语义理解方法及装置
CN113761377B (zh) 基于注意力机制多特征融合的虚假信息检测方法、装置、电子设备及存储介质
US10915756B2 (en) Method and apparatus for determining (raw) video materials for news
CN116578688A (zh) 基于多轮问答的文本处理方法、装置、设备及存储介质
CN113343706A (zh) 基于多模态特征和语义规则的文本抑郁倾向检测系统
CN112069312A (zh) 一种基于实体识别的文本分类方法及电子装置
CN117436438A (zh) 情感分析方法、大语言模型的训练方法及装置
CN114970516A (zh) 数据增强方法及装置、存储介质、电子设备
CN113095082A (zh) 一种基于多任务模型进行文本处理的方法、装置、计算机装置及计算机可读取存储介质
CN113918710A (zh) 文本数据处理方法、装置、电子设备和可读存储介质
CN113705207A (zh) 语法错误识别方法及装置
Almansor et al. Transferring informal text in arabic as low resource languages: State-of-the-art and future research directions
CN115906818A (zh) 语法知识预测方法、装置、电子设备和存储介质
Latha et al. Visual audio summarization based on NLP models
CN114911940A (zh) 文本情感识别方法及装置、电子设备、存储介质
CN115292495A (zh) 情绪分析方法、装置、电子设备及存储介质
Hodeghatta et al. Introduction to natural language processing
CN114676699A (zh) 实体情感分析方法、装置、计算机设备和存储介质
CN114154497A (zh) 语病识别方法、装置、电子设备和存储介质
Shabbir et al. Sentiment Analysis From Urdu Language-based Text using Deep Learning Techniques
CN115688800A (zh) 一种语义表征方法、装置、存储介质及设备
CN116089602B (zh) 信息处理方法、装置、电子设备、存储介质和程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination