CN115796189A - 语义确定方法、装置、电子设备及介质 - Google Patents

语义确定方法、装置、电子设备及介质 Download PDF

Info

Publication number
CN115796189A
CN115796189A CN202310046354.9A CN202310046354A CN115796189A CN 115796189 A CN115796189 A CN 115796189A CN 202310046354 A CN202310046354 A CN 202310046354A CN 115796189 A CN115796189 A CN 115796189A
Authority
CN
China
Prior art keywords
sample
character
vector
vectors
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310046354.9A
Other languages
English (en)
Other versions
CN115796189B (zh
Inventor
曾国洋
郑直
贾超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Facewall Intelligent Technology Co ltd
Original Assignee
Beijing Facewall Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Facewall Intelligent Technology Co ltd filed Critical Beijing Facewall Intelligent Technology Co ltd
Priority to CN202310046354.9A priority Critical patent/CN115796189B/zh
Publication of CN115796189A publication Critical patent/CN115796189A/zh
Application granted granted Critical
Publication of CN115796189B publication Critical patent/CN115796189B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明提供一种语义确定方法、装置、电子设备及介质,涉及自然语言处理领域,该方法包括:根据待识别文本的每一可识别字符在预设词表库中位置进行编码,获取所有可识别字符向量,根据每一未识别字符进行编码,获取所有词表外字符向量;根据所有可识别字符向量以及所有词表外字符向量确定待输入嵌入向量,输入待输入嵌入向量至语义确定模型,获取语义确定模型输出的待确定字符的语义确定结果。本发明能够对每一可识别字符向量、每一词表外字符向量单独进行特征处理,从而提高语义模型的语义确定能力,最终使得所述待识别文本的语义确定结果更为准确。

Description

语义确定方法、装置、电子设备及介质
技术领域
本发明涉及自然语言处理领域,尤其涉及一种语义确定方法、装置、电子设备及介质。
背景技术
通常,对遮蔽词汇和词表外词汇统一标识的做法,会使得所有的遮蔽词汇与词表外词汇对于训练模型而言是一致的,即训练模型对这些字符难以做精细化的区分与处理,例如,同一个句子里出现了3个遮蔽字符,模型在识别时会将其当作是同样的三个词汇在不同的上下文,而无法注意到遮蔽字符所遮蔽的词汇本身是不同的,进而不能对每个遮蔽词汇单独进行特征处理。
发明内容
本发明提供一种语义确定方法、装置、电子设备及介质,用以解决现有作业中遮蔽词汇的语义确定不够精细的技术缺陷,提供了一种根据待识别文本中字符在词表库中位置,进行旋转位置编码,自适应地标识出遮蔽词汇与词表外词汇,从而使得所述待识别文本的语义确定结果更为准确的技术方案。
第一方面,本发明提供了一种语义确定方法,包括:
根据待识别文本的每一可识别字符在预设词表库中位置进行编码,获取所有可识别字符向量,根据所述待识别文本的每一未识别字符进行编码,获取所有词表外字符向量,所述可识别字符包括待确定字符;
根据所有可识别字符向量以及所有词表外字符向量确定待输入嵌入向量,输入所述待输入嵌入向量至语义确定模型,获取所述语义确定模型输出的待确定字符的语义确定结果;
所述语义确定模型是根据如下步骤确定的:
获取样本文本所对应的样本嵌入向量,并根据所述样本嵌入向量中每一样本字符所在位置构建位置序列,所述样本嵌入向量包括待确定样本字符向量;
根据所述样本嵌入向量的维度以及所述位置序列确定基函数,并根据旋转嵌入向量以及所述基函数获取位置编码后输入向量;
根据所述位置编码后输入向量构建所述语义确定模型;
所述旋转嵌入向量是旋转位置编码所述样本嵌入向量确定的。
根据本发明提供的语义确定方法,所述获取样本文本所对应的样本嵌入向量,包括:
根据预设比例采样所述样本文本中的待确定样本字符;
根据所述样本文本的每一可识别样本字符在预设词表库中位置进行编码,获取所有可识别字符样本向量,根据所述样本文本的每一未识别样本字符进行编码,获取所有词表外字符样本向量,所述所有可识别字符样本向量包括所述待确定样本字符所对应的样本向量;
根据所有可识别字符样本向量以及所有词表外字符样本向量确定样本文本所对应的样本嵌入向量。
根据本发明提供的语义确定方法,所述根据所述样本嵌入向量中每一样本字符所在位置构建位置序列,包括:
提取所述样本嵌入向量中每一样本字符所在位置,根据每一样本字符所在顺序构建初始序列;
根据预设放缩值放缩所述初始序列,确定位置序列。
根据本发明提供的语义确定方法,所述根据所述样本嵌入向量的维度以及所述位置序列确定基函数,包括:
根据所述样本嵌入向量的维度构造指数函数序列;
根据所述指数函数序列以及所述位置序列的点乘确定基函数。
根据本发明提供的语义确定方法,所述根据旋转嵌入向量以及所述基函数获取位置编码后输入向量,包括:
在嵌入维度方向,对所述样本嵌入向量的后半部分进行取反操作,确定旋转嵌入向量;
根据所述样本嵌入向量与所述基函数的余弦函数确定第一向量值;
根据所述旋转嵌入向量与所述基函数的正弦函数确定第二向量值;
根据所述第一向量值以及所述第二向量值确定位置编码后输入向量。
根据本发明提供的语义确定方法,所述根据所述位置编码后输入向量构建所述语义确定模型,包括:
重复执行如下步骤:
输入所述位置编码后输入向量至当前语义模型,获取所述当前语义模型输出的待确定样本字符的样本确定结果;
根据待确定样本字符的实际语义结果以及所述样本确定结果,更新所述当前语义模型的模型参数;
在达到预设更新次数的情况下,确定更新后模型参数,以根据所述更新后模型参数构建所述语义确定模型。
根据本发明提供的语义确定方法,所述根据所有可识别字符向量以及所有词表外字符向量确定待输入嵌入向量,包括:
聚合所有可识别字符向量以及所有词表外字符向量,获取聚合后字符向量;
根据所述聚合后字符向量以及嵌入矩阵确定所述待输入嵌入向量。
第二方面,提供了一种语义确定装置,包括:
获取单元:用于根据待识别文本的每一可识别字符在预设词表库中位置进行编码,获取所有可识别字符向量,根据所述待识别文本的每一未识别字符进行编码,获取所有词表外字符向量,所述可识别字符包括待确定字符;
输入单元:用于根据所有可识别字符向量以及所有词表外字符向量确定待输入嵌入向量,输入所述待输入嵌入向量至语义确定模型,获取所述语义确定模型输出的待确定字符的语义确定结果;
所述语义确定模型是根据如下步骤确定的:
获取样本文本所对应的样本嵌入向量,并根据所述样本嵌入向量中每一样本字符所在位置构建位置序列,所述样本嵌入向量包括待确定样本字符向量;
根据所述样本嵌入向量的维度以及所述位置序列确定基函数,并根据旋转嵌入向量以及所述基函数获取位置编码后输入向量;
根据所述位置编码后输入向量构建所述语义确定模型;
所述旋转嵌入向量是旋转位置编码所述样本嵌入向量确定的。
第三方面,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述语义确定方法。
第四方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述语义确定方法。
本发明提供了一种语义确定方法、装置、电子设备及介质,能够确定待识别文本中待确定字符的语义,根据预设词表库,将待识别文本的所有字符区分为可识别字符以及未识别字符,而可识别字符中包括待确定字符,并分别对可识别字符以及未识别字符进行编码后确定待输入嵌入向量,根据语义确定模型,获取待确定字符的语义确定结果,而预设的语义确定模型则是根据样本嵌入向量中每一样本字符所在位置构建位置序列,根据所述样本嵌入向量的维度以及所述位置序列确定基函数,并根据旋转嵌入向量以及所述基函数获取位置编码后输入向量,最后根据所述位置编码后输入向量构建的,在输入所述待输入嵌入向量至语义确定模型的过程中,所述语义确定模型能够自适应识别所述待输入嵌入向量中的所有可识别字符向量以及所有词表外字符向量,并对每一可识别字符向量、每一词表外字符向量单独进行特征处理,从而提高语义模型的语义确定能力,最终使得所述待识别文本的语义确定结果更为准确。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的语义确定方法的流程示意图之一;
图2是本发明提供的语义确定方法的流程示意图之二;
图3是本发明提供的获取样本嵌入向量的流程示意图;
图4是本发明提供的构建位置序列的流程示意图;
图5是本发明提供的确定基函数的流程示意图;
图6是本发明提供的获取位置编码后输入向量的流程示意图;
图7是本发明提供的构建所述语义确定模型的流程示意图;
图8是本发明提供的语义确定装置的结构示意图;
图9是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
预训练语言模型本质上是一种具有上下文的词向量模型,预训练语言模型会给句子中的每一个词汇赋予一个向量,在训练过程中,这些向量会与上下文的词向量进行交互,最终可以学习到每个词在句子中的变化的词向量。通常,其具体的交互方式为:输入的句子中会有一些词汇被遮蔽,语言模型根据句子里的上下文来预测被遮蔽的词汇,将模型预测的词汇与真实词汇对比,更新语言模型的相关参数,最终达到学习的目的。
可选地,词汇的遮蔽与词表外词汇的标识一般在数据处理的过程中实现,具体实现方式是,给定一个句子,将所有需要遮蔽的词汇替换成MASK标签,将词表外词汇替换成UNK标签。以来自变换器的双向编码器表征量(Bidirectional Encoder Representationsfrom Transformers,BERT)为例,在数据预处理阶段,会随机选取15%的字符,其中,有80%的概率替换成MASK标签,10%的概率替换成其他字符,10%的概率保持不变,对于词表中没有的词汇,统一地替换成UNK标签。基于BERT使用动态的MASK策略,具体方法是,将数据复制10份,分别执行BERT中的掩码标识方法,这样每份数据中MASK所遮蔽的词汇是不同的,达到动态遮蔽的效果,同理,所有的词表外词汇,也会被统一替换成UNK标签。
然而,即使能够设置有限数量的,用于遮蔽词汇的字符:例如,<extra_id_0>,<extra_id_1>,……,<extra_id_99>,但由于这种方法能够设置的总数量是固定的,无法支持在一个句子中遮蔽更多的词汇,对于词表外词汇,统一用UNK的方式标识,或者用固定数量的UNK标识,也存在同样的问题,若同一个句子里出现了3个遮蔽字符,模型在识别时会将其当作是同样的三个词汇在不同的上下文,而无法注意到遮蔽字符所遮蔽的词汇本身是不同的,进而不能对每个遮蔽词汇单独进行特征处理,为了解决上述技术问题,本发明提高了一种预训练语言模型的遮蔽词汇与词表外词汇的动态标识方法,解决语言模型对多个遮蔽词汇与词表外词汇进行精细化处理的问题,辅助提高模型处理具有复杂上下文的文本的能力,最终使得所述待识别文本的语义确定结果更为准确。
图1是本发明提供的语义确定方法的流程示意图之一,提供了一种语义确定方法,包括:
根据待识别文本的每一可识别字符在预设词表库中位置进行编码,获取所有可识别字符向量,根据所述待识别文本的每一未识别字符进行编码,获取所有词表外字符向量,所述可识别字符包括待确定字符;
根据所有可识别字符向量以及所有词表外字符向量确定待输入嵌入向量,输入所述待输入嵌入向量至语义确定模型,获取所述语义确定模型输出的待确定字符的语义确定结果。
在步骤101中,所述待识别文本为包含有遮蔽字符,即待确定字符的输入文本,本发明可以先将所述待识别文本进行分词,分成各个词汇、词组或短句,并采用30%比例的随机采样的方式,将其中一些词汇、词组或短句作为待确定字符进行遮蔽,而这些被遮蔽的字符即为最终需要获得其真实语义的字符。
可选地,将遮蔽词汇抽出确定为待确定字符,还可以将其作为训练目标,保存在语料里,得到可用于语言模型训练的数据,以在后续的语言模型训练中作为更新模型参数的训练样本。
可选地,对于待识别文本而言,无论是被遮蔽的字符还是未被遮蔽的字符,均需要将所分词后的各个词汇、词组或短句在预设词表库中进行查询,查询每一词汇、词组或短句在预设词表库中的位置,本领域技术人员理解,预设词表库中可以提供一些自然语料中常用字词、符号的索引。
本发明采用使用字符化工具Tokenizer对待识别文本进行分词与编码,字符化工具可以是专用的工具包,如自然语言处理工具包NLTK,也可以是其他程序,具体地,将所述待识别文本从自然语言文本切分成计算机可以理解的字符Token组成的序列,每个字符可以是一个字、词、词组或短句;根据预设词表库,将这些字符编码为词表中的索引,其中,不存在于所述预设词表库中,即没有对应值的字符统一转换为UNK的索引。更为具体地,由于上述向量表示是稀疏的,以独热向量One-Hot为例,如果某个字符在所述预设词表库中的索引是5,那么它被表示为[0,0,0,0,1,0,0…,0],该向量的维度即为预设词表库的容量。
在步骤102中,根据所有可识别字符向量以及所有词表外字符向量确定待输入嵌入向量,输入所述待输入嵌入向量至语义确定模型,获取所述语义确定模型输出的待确定字符的语义确定结果。
可选地,所述根据所有可识别字符向量以及所有词表外字符向量确定待输入嵌入向量,包括:
聚合所有可识别字符向量以及所有词表外字符向量,获取聚合后字符向量;
根据所述聚合后字符向量以及嵌入矩阵确定所述待输入嵌入向量。
可选地,本发明可以先聚合所有可识别字符向量以及所有词表外字符向量,获取聚合后字符向量,再根据所述聚合后字符向量以及嵌入矩阵确定所述待输入嵌入向量,而在另一个实施例中,还可以先根据所述所有可识别字符向量以及其相对应的嵌入矩阵确定第一嵌入向量,根据所述所有词表外字符向量以及其相对应的嵌入矩阵确定第二嵌入向量,在聚合所述第一嵌入向量以及所述第二嵌入向量,并最终确定所述待输入嵌入向量。
可选地,本发明能够将所述待识别文本转换为低维、稠密的嵌入向量,本发明通过线性化的矩阵乘法将词表索引表示转换为一种低维、稠密的嵌入向量,所述待输入嵌入向量将代表字符参与模型后续的一系列计算。可选地,本发明提供一个嵌入矩阵
Figure SMS_1
Figure SMS_2
Figure SMS_3
分别表示词表索引向量的维度和嵌入向量的维度,对于一个长度为
Figure SMS_4
的字符序列,它的字符标识是一个矩阵
Figure SMS_5
,将两个矩阵相乘,即可得到所述待识别文本的嵌入向量表示
Figure SMS_6
本发明在输入所述待输入嵌入向量至语义确定模型后,能够使语义确定模型自动识别所述待输入嵌入向量中的遮蔽词汇和未识别词汇,即待确定字符向量以及词表外字符向量,并将其编码为“MASK#1”、“MASK#2”等,以及“UNK#1”、“UNK#2”等,并对每个待确定字符向量以及每个词表外字符向量单独进行特征处理,从而使得语义确定模型能够具有处理复杂上下文的文本的能力,进一步的提高语义确定精准度。
可选地,本发明最终获取是所述语义确定模型输出的,所述待确定字符的语义确定结果,所述待确定字符即为所述待识别文本中被选中的遮蔽字符,通过对遮蔽字符进行文本解读,进行确定其语义。
图2是本发明提供的语义确定方法的流程示意图之二,其对应于图1中语义确定模型的确定,为了使得本发明的语义确定模型能够具备解读动态标识位置信息后的待识别文本的能力,需要对所述语义确定模型进行不断优化迭代,使其具备处理所述待识别文本所对应的待输入嵌入向量的相应能力,具体地,所述语义确定模型是根据如下步骤确定的:
获取样本文本所对应的样本嵌入向量,并根据所述样本嵌入向量中每一样本字符所在位置构建位置序列,所述样本嵌入向量包括待确定样本字符向量;
根据所述样本嵌入向量的维度以及所述位置序列确定基函数,并根据旋转嵌入向量以及所述基函数获取位置编码后输入向量;
根据所述位置编码后输入向量构建所述语义确定模型;
所述旋转嵌入向量是旋转位置编码所述样本嵌入向量确定的。
在步骤201中,所述获取样本文本所对应的样本嵌入向量的方式可以参考根据所有可识别字符向量以及所有词表外字符向量确定待输入嵌入向量的方式,本领域技术人员理解,对所述样本文本进行随机采样,随机确定遮蔽字符作为待确定样本字符,并根据预设词表库,将所述样本文本分为了所有可识别字符样本以及所有词表外字符样本,并分别进行编码后,确定样本嵌入向量。可选地,在获取所述样本嵌入向量后,根据所述样本嵌入向量中每一向量的位置构造位置序列。
在步骤202中,根据所述样本嵌入向量的维度以及所述位置序列确定基函数,并根据旋转嵌入向量以及所述基函数获取位置编码后输入向量,所述基函数用于表示位置信息,并衰减一些相对位置较远的字符间的影响,所述旋转嵌入向量是旋转位置编码所述样本嵌入向量确定的,本发明通过位置编码的形式,将样本文本所对应的样本嵌入向量与每个字符在句子中的索引一起,进行旋转位置编码,自适应地标识出遮蔽词汇与词表外词汇,此时,所述位置编码后输入向量即为在样本文本中,在所有可识别字符样本以及所有词表外字符样本中,添加了位置信息后的编码向量。
在步骤203中,本发明需要根据所述位置编码后输入向量构建所述语义确定模型,所述语义确定模型可以根据预设迭代次数的形式,以语义确定模型输出的样本确定结果趋近于样本字符的实际语义结果作为优化目标,不断更新语义确定模型的模型参数,进而不断优化语义确定模型的识别能力。
作为一个可选地实施例中,本发明中的语义确定模型首先根据样本文本所对应的样本嵌入向量计算出语义确定模型输出的样本确定结果,并与样本字符的实际语义结果计算出交叉熵损失,根据所述交叉熵损失以及梯度回传算法,更新模型参数,进而不断优化语义确定模型。
本发明提供了一种语义确定方法、装置、电子设备及介质,能够确定待识别文本中待确定字符的语义,根据预设词表库,将待识别文本的所有字符区分为可识别字符以及未识别字符,而可识别字符中包括待确定字符,并分别对可识别字符以及未识别字符进行编码后确定待输入嵌入向量,根据语义确定模型,获取待确定字符的语义确定结果,而预设的语义确定模型则是根据样本嵌入向量中每一样本字符所在位置构建位置序列,根据所述样本嵌入向量的维度以及所述位置序列确定基函数,并根据旋转嵌入向量以及所述基函数获取位置编码后输入向量,最后根据所述位置编码后输入向量构建的,在输入所述待输入嵌入向量至语义确定模型的过程中,所述语义确定模型能够自适应识别所述待输入嵌入向量中的所有可识别字符向量以及所有词表外字符向量,并对每一可识别字符向量、每一词表外字符向量单独进行特征处理,从而提高语义模型的语义确定能力,最终使得所述待识别文本的语义确定结果更为准确。
图3是本发明提供的获取样本嵌入向量的流程示意图,所述获取样本文本所对应的样本嵌入向量,包括:
根据预设比例采样所述样本文本中的待确定样本字符;
根据所述样本文本的每一可识别样本字符在预设词表库中位置进行编码,获取所有可识别字符样本向量,根据所述样本文本的每一未识别样本字符进行编码,获取所有词表外字符样本向量,所述所有可识别字符样本向量包括所述待确定样本字符所对应的样本向量;
根据所有可识别字符样本向量以及所有词表外字符样本向量确定样本文本所对应的样本嵌入向量。
在步骤2011中,根据预设比例采样所述样本文本中的待确定样本字符,所述预设比例可以为20%、30%或40%,所述步骤2011为确定样本参数的过程,本发明的步骤2011旨在不断优化模型,故需要在样本文本中确定出遮蔽字符,即待确定样本字符,而对于这些待确定样本字符而言,由于被遮蔽之前的样本字符的实际语义结果是确定的,进而能够为模型所确定出的语义确定结果提供优化目标,并不断更新模型参数。
在步骤2012中,根据所述样本文本的每一可识别样本字符在预设词表库中位置进行编码,获取所有可识别字符样本向量,根据所述样本文本的每一未识别样本字符进行编码,获取所有词表外字符样本向量,所述所有可识别字符样本向量包括所述待确定样本字符所对应的样本向量,本发明采用与步骤101相同的预设词表库,将所述样本文本分为可识别样本字符以及未识别样本字符,而可识别字符样本包括待确定样本字符,分别对可识别样本字符以及未识别样本字符进行编码,进而获取所有可识别字符样本向量、所有词表外字符样本向量,并进一步地获取所述待确定样本字符所对应的样本向量。
在步骤2013中,根据所有可识别字符样本向量以及所有词表外字符样本向量确定样本文本所对应的样本嵌入向量,可选地,本发明可以先聚合所有可识别字符样本向量以及所有词表外字符样本向量,获取聚合后字符样本向量,再根据所述聚合后字符样本向量以及嵌入矩阵确定样本文本所对应的样本嵌入向量,而在另一个实施例中,还可以先根据所述可识别字符样本向量以及其相对应的嵌入矩阵确定第三嵌入向量,根据所有词表外字符样本向量以及其相对应的嵌入矩阵确定第四嵌入向量,在聚合所述第三嵌入向量以及所述第四嵌入向量,并最终确定所述样本文本所对应的样本嵌入向量。
图4是本发明提供的构建位置序列的流程示意图,所述根据所述样本嵌入向量中每一样本字符所在位置构建位置序列,包括:
提取所述样本嵌入向量中每一样本字符所在位置,根据每一样本字符所在顺序构建初始序列;
根据预设放缩值放缩所述初始序列,确定位置序列。
在步骤2014中,提取所述样本嵌入向量中每一样本字符所在位置,根据每一样本字符所在顺序构建初始序列,对于输入嵌入向量的序列,将每个向量在序列中的位置取出,构成一个新的序列
Figure SMS_7
,称为初始序列。
在步骤2015中,根据预设放缩值放缩所述初始序列,确定位置序列,所述预设放缩值可选地为16,为了使位置信息更加容易提取,需要对该位置序列进行放缩,记放缩后的位置序列为:
Figure SMS_8
,其中,
Figure SMS_9
为字符序列的长度。
图5是本发明提供的确定基函数的流程示意图,所述根据所述样本嵌入向量的维度以及所述位置序列确定基函数,包括:
根据所述样本嵌入向量的维度构造指数函数序列;
根据所述指数函数序列以及所述位置序列的点乘确定基函数。
在步骤2021中,本发明根据所述样本嵌入向量的维度构造一个指数函数序列,选取嵌入向量维度为该基函数所在空间的维度,并且取每两维作为一个窗口,将该序列具体表示为:
Figure SMS_10
,底数
Figure SMS_11
一般选取10000,m为嵌入向量的维度。
在步骤2022中,根据所述指数函数序列以及所述位置序列的点乘确定基函数,将位置序列和基函数直接以点乘的方式相乘,得到最终的基函数:
Figure SMS_12
(1)
式(1)中,
Figure SMS_13
为基函数,底数
Figure SMS_14
一般选取10000,m为嵌入向量的维度。
图6是本发明提供的获取位置编码后输入向量的流程示意图,所述根据旋转嵌入向量以及所述基函数获取位置编码后输入向量,包括:
在嵌入维度方向,对所述样本嵌入向量的后半部分进行取反操作,确定旋转嵌入向量;
根据所述样本嵌入向量与所述基函数的余弦函数确定第一向量值;
根据所述旋转嵌入向量与所述基函数的正弦函数确定第二向量值;
根据所述第一向量值以及所述第二向量值确定位置编码后输入向量。
在步骤2023中,在嵌入维度方向,对所述样本嵌入向量的后半部分进行取反操作,确定旋转嵌入向量,可以参考如下公式:
Figure SMS_15
(2)
式(2)中,L为所述样本嵌入向量中的每一向量,m为嵌入向量的维度,
Figure SMS_16
为字符序列的长度,
Figure SMS_17
为旋转嵌入向量。
在步骤2023中,根据所述样本嵌入向量与所述基函数的余弦函数的乘积确定第一向量值,所述基函数的余弦函数可以通过如下公式表示:
Figure SMS_18
(3)
式(3)中,
Figure SMS_19
为所述基函数的余弦函数,m为嵌入向量的维度,底数
Figure SMS_20
一般选取10000。
在步骤2024中,根据所述旋转嵌入向量与所述基函数的正弦函数的乘积确定第二向量值,所述基函数的正弦函数可以通过如下公式表示:
Figure SMS_21
(4)
式(4)中,
Figure SMS_22
为所述基函数的正弦函数,m为嵌入向量的维度,底数
Figure SMS_23
一般选取10000。
在步骤2025中,根据所述第一向量值以及所述第二向量值确定位置编码后输入向量,可以通过如下公式表示:
Figure SMS_24
(5)
式(5)中,
Figure SMS_25
为位置编码后输入向量,
Figure SMS_26
为所述样本嵌入向量,
Figure SMS_27
为所述基函数的余弦函数,
Figure SMS_28
为所述旋转嵌入向量,
Figure SMS_29
为所述基函数的正弦函数。
图7是本发明提供的构建所述语义确定模型的流程示意图,所述根据所述位置编码后输入向量构建所述语义确定模型,包括:
重复执行如下步骤:
输入所述位置编码后输入向量至当前语义模型,获取所述当前语义模型输出的待确定样本字符的样本确定结果;
根据待确定样本字符的实际语义结果以及所述样本确定结果,更新所述当前语义模型的模型参数;
在达到预设更新次数的情况下,确定更新后模型参数,以根据所述更新后模型参数构建所述语义确定模型。
可选地,图7不仅示出了所述语义确定模型的构建过程,更示出了所述语义确定模型的优化过程,即不断的通过样本文本中的遮蔽字符的样本确定结果,与待确定样本字符的实际语义结果进行比较,从而不断更新模型参数,具体地:
在步骤2031中,输入所述位置编码后输入向量至当前语义模型,获取所述当前语义模型输出的待确定样本字符的样本确定结果,所述当前语义模型可以为初始语义模型,也可以为迭代过程中的语义模型,在输入所述位置编码后输入向量至当前语义模型后,即可获取与所述当前语义模型相对应的待确定样本字符的样本确定结果。
在步骤2032中,根据待确定样本字符的实际语义结果以及所述样本确定结果,更新所述当前语义模型的模型参数,本发明可以根据待确定样本字符的实际语义结果以及所述样本确定结果中,语义之间的差异性,结合交叉熵损失的计算方法,更新所述当前语义模型的模型参数。
在步骤2033中,在达到预设更新次数的情况下,确定更新后模型参数,以根据所述更新后模型参数构建所述语义确定模型,所述预设更新次数可以为5次、10次或者更多,而在其他的实施例中,还可以根据交叉熵损失,在损失函数最小化的情况下,停止迭代,并确定更新后模型参数,以根据所述更新后模型参数构建所述语义确定模型。
图8是本发明提供的语义确定装置的结构示意图,本发明提供了一种语义确定装置,包括获取单元1:用于根据待识别文本的每一可识别字符在预设词表库中位置进行编码,获取所有可识别字符向量,根据所述待识别文本的每一未识别字符进行编码,获取所有词表外字符向量,所述可识别字符包括待确定字符,所述获取单元1的工作原理可以参考前述步骤101,在此不予赘述。
所述语义确定装置还包括输入单元2:用于根据所有可识别字符向量以及所有词表外字符向量确定待输入嵌入向量,输入所述待输入嵌入向量至语义确定模型,获取所述语义确定模型输出的待确定字符的语义确定结果,所述输入单元2的工作原理可以参考前述步骤102,在此不予赘述。
所述语义确定模型是根据如下步骤确定的:
获取样本文本所对应的样本嵌入向量,并根据所述样本嵌入向量中每一样本字符所在位置构建位置序列,所述样本嵌入向量包括待确定样本字符向量;
根据所述样本嵌入向量的维度以及所述位置序列确定基函数,并根据旋转嵌入向量以及所述基函数获取位置编码后输入向量;
根据所述位置编码后输入向量构建所述语义确定模型;
所述旋转嵌入向量是旋转位置编码所述样本嵌入向量确定的。
本发明提供了一种语义确定方法、装置、电子设备及介质,能够确定待识别文本中待确定字符的语义,根据预设词表库,将待识别文本的所有字符区分为可识别字符以及未识别字符,而可识别字符中包括待确定字符,并分别对可识别字符以及未识别字符进行编码后确定待输入嵌入向量,根据语义确定模型,获取待确定字符的语义确定结果,而预设的语义确定模型则是根据样本嵌入向量中每一样本字符所在位置构建位置序列,根据所述样本嵌入向量的维度以及所述位置序列确定基函数,并根据旋转嵌入向量以及所述基函数获取位置编码后输入向量,最后根据所述位置编码后输入向量构建的,在输入所述待输入嵌入向量至语义确定模型的过程中,所述语义确定模型能够自适应识别所述待输入嵌入向量中的所有可识别字符向量以及所有词表外字符向量,并对每一可识别字符向量、每一词表外字符向量单独进行特征处理,从而提高语义模型的语义确定能力,最终使得所述待识别文本的语义确定结果更为准确。
图9是本发明提供的电子设备的结构示意图。如图9所示,该电子设备可以包括:处理器(processor)910、通信接口(Communications Interface)920、存储器(memory)930和通信总线940,其中,处理器910,通信接口920,存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储器930中的逻辑指令,以执行语义确定方法,该方法包括:根据待识别文本的每一可识别字符在预设词表库中位置进行编码,获取所有可识别字符向量,根据所述待识别文本的每一未识别字符进行编码,获取所有词表外字符向量,所述可识别字符包括待确定字符;根据所有可识别字符向量以及所有词表外字符向量确定待输入嵌入向量,输入所述待输入嵌入向量至语义确定模型,获取所述语义确定模型输出的待确定字符的语义确定结果;所述语义确定模型是根据如下步骤确定的:获取样本文本所对应的样本嵌入向量,并根据所述样本嵌入向量中每一样本字符所在位置构建位置序列,所述样本嵌入向量包括待确定样本字符向量;根据所述样本嵌入向量的维度以及所述位置序列确定基函数,并根据旋转嵌入向量以及所述基函数获取位置编码后输入向量;根据所述位置编码后输入向量构建所述语义确定模型;所述旋转嵌入向量是旋转位置编码所述样本嵌入向量确定的。
此外,上述的存储器930中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的一种语义确定方法,该方法包括:根据待识别文本的每一可识别字符在预设词表库中位置进行编码,获取所有可识别字符向量,根据所述待识别文本的每一未识别字符进行编码,获取所有词表外字符向量,所述可识别字符包括待确定字符;根据所有可识别字符向量以及所有词表外字符向量确定待输入嵌入向量,输入所述待输入嵌入向量至语义确定模型,获取所述语义确定模型输出的待确定字符的语义确定结果;所述语义确定模型是根据如下步骤确定的:获取样本文本所对应的样本嵌入向量,并根据所述样本嵌入向量中每一样本字符所在位置构建位置序列,所述样本嵌入向量包括待确定样本字符向量;根据所述样本嵌入向量的维度以及所述位置序列确定基函数,并根据旋转嵌入向量以及所述基函数获取位置编码后输入向量;根据所述位置编码后输入向量构建所述语义确定模型;所述旋转嵌入向量是旋转位置编码所述样本嵌入向量确定的。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的语义确定方法,该方法包括:根据待识别文本的每一可识别字符在预设词表库中位置进行编码,获取所有可识别字符向量,根据所述待识别文本的每一未识别字符进行编码,获取所有词表外字符向量,所述可识别字符包括待确定字符;根据所有可识别字符向量以及所有词表外字符向量确定待输入嵌入向量,输入所述待输入嵌入向量至语义确定模型,获取所述语义确定模型输出的待确定字符的语义确定结果;所述语义确定模型是根据如下步骤确定的:获取样本文本所对应的样本嵌入向量,并根据所述样本嵌入向量中每一样本字符所在位置构建位置序列,所述样本嵌入向量包括待确定样本字符向量;根据所述样本嵌入向量的维度以及所述位置序列确定基函数,并根据旋转嵌入向量以及所述基函数获取位置编码后输入向量;根据所述位置编码后输入向量构建所述语义确定模型;所述旋转嵌入向量是旋转位置编码所述样本嵌入向量确定的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种语义确定方法,其特征在于,包括:
根据待识别文本的每一可识别字符在预设词表库中位置进行编码,获取所有可识别字符向量,根据所述待识别文本的每一未识别字符进行编码,获取所有词表外字符向量,所述可识别字符包括待确定字符;
根据所有可识别字符向量以及所有词表外字符向量确定待输入嵌入向量,输入所述待输入嵌入向量至语义确定模型,获取所述语义确定模型输出的待确定字符的语义确定结果;
所述语义确定模型是根据如下步骤确定的:
获取样本文本所对应的样本嵌入向量,并根据所述样本嵌入向量中每一样本字符所在位置构建位置序列,所述样本嵌入向量包括待确定样本字符向量;
根据所述样本嵌入向量的维度以及所述位置序列确定基函数,并根据旋转嵌入向量以及所述基函数获取位置编码后输入向量;
根据所述位置编码后输入向量构建所述语义确定模型;
所述旋转嵌入向量是旋转位置编码所述样本嵌入向量确定的。
2.根据权利要求1所述的语义确定方法,其特征在于,所述获取样本文本所对应的样本嵌入向量,包括:
根据预设比例采样所述样本文本中的待确定样本字符;
根据所述样本文本的每一可识别样本字符在预设词表库中位置进行编码,获取所有可识别字符样本向量,根据所述样本文本的每一未识别样本字符进行编码,获取所有词表外字符样本向量,所述所有可识别字符样本向量包括所述待确定样本字符所对应的样本向量;
根据所有可识别字符样本向量以及所有词表外字符样本向量确定样本文本所对应的样本嵌入向量。
3.根据权利要求1所述的语义确定方法,其特征在于,所述根据所述样本嵌入向量中每一样本字符所在位置构建位置序列,包括:
提取所述样本嵌入向量中每一样本字符所在位置,根据每一样本字符所在顺序构建初始序列;
根据预设放缩值放缩所述初始序列,确定位置序列。
4.根据权利要求1所述的语义确定方法,其特征在于,所述根据所述样本嵌入向量的维度以及所述位置序列确定基函数,包括:
根据所述样本嵌入向量的维度构造指数函数序列;
根据所述指数函数序列以及所述位置序列的点乘确定基函数。
5.根据权利要求4所述的语义确定方法,其特征在于,所述根据旋转嵌入向量以及所述基函数获取位置编码后输入向量,包括:
在嵌入维度方向,对所述样本嵌入向量的后半部分进行取反操作,确定旋转嵌入向量;
根据所述样本嵌入向量与所述基函数的余弦函数确定第一向量值;
根据所述旋转嵌入向量与所述基函数的正弦函数确定第二向量值;
根据所述第一向量值以及所述第二向量值确定位置编码后输入向量。
6.根据权利要求1所述的语义确定方法,其特征在于,所述根据所述位置编码后输入向量构建所述语义确定模型,包括:
重复执行如下步骤:
输入所述位置编码后输入向量至当前语义模型,获取所述当前语义模型输出的待确定样本字符的样本确定结果;
根据待确定样本字符的实际语义结果以及所述样本确定结果,更新所述当前语义模型的模型参数;
在达到预设更新次数的情况下,确定更新后模型参数,以根据所述更新后模型参数构建所述语义确定模型。
7.根据权利要求1所述的语义确定方法,其特征在于,所述根据所有可识别字符向量以及所有词表外字符向量确定待输入嵌入向量,包括:
聚合所有可识别字符向量以及所有词表外字符向量,获取聚合后字符向量;
根据所述聚合后字符向量以及嵌入矩阵确定所述待输入嵌入向量。
8.一种语义确定装置,其特征在于,包括:
获取单元:用于根据待识别文本的每一可识别字符在预设词表库中位置进行编码,获取所有可识别字符向量,根据所述待识别文本的每一未识别字符进行编码,获取所有词表外字符向量,所述可识别字符包括待确定字符;
输入单元:用于根据所有可识别字符向量以及所有词表外字符向量确定待输入嵌入向量,输入所述待输入嵌入向量至语义确定模型,获取所述语义确定模型输出的待确定字符的语义确定结果;
所述语义确定模型是根据如下步骤确定的:
获取样本文本所对应的样本嵌入向量,并根据所述样本嵌入向量中每一样本字符所在位置构建位置序列,所述样本嵌入向量包括待确定样本字符向量;
根据所述样本嵌入向量的维度以及所述位置序列确定基函数,并根据旋转嵌入向量以及所述基函数获取位置编码后输入向量;
根据所述位置编码后输入向量构建所述语义确定模型;
所述旋转嵌入向量是旋转位置编码所述样本嵌入向量确定的。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一项所述的语义确定方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的语义确定方法。
CN202310046354.9A 2023-01-31 2023-01-31 语义确定方法、装置、电子设备及介质 Active CN115796189B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310046354.9A CN115796189B (zh) 2023-01-31 2023-01-31 语义确定方法、装置、电子设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310046354.9A CN115796189B (zh) 2023-01-31 2023-01-31 语义确定方法、装置、电子设备及介质

Publications (2)

Publication Number Publication Date
CN115796189A true CN115796189A (zh) 2023-03-14
CN115796189B CN115796189B (zh) 2023-05-12

Family

ID=85429224

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310046354.9A Active CN115796189B (zh) 2023-01-31 2023-01-31 语义确定方法、装置、电子设备及介质

Country Status (1)

Country Link
CN (1) CN115796189B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239705A (zh) * 2021-07-12 2021-08-10 北京百度网讯科技有限公司 语义表示模型的预训练方法、装置、电子设备和存储介质
WO2021212682A1 (zh) * 2020-04-21 2021-10-28 平安国际智慧城市科技股份有限公司 知识抽取方法、装置、电子设备及存储介质
CN114218948A (zh) * 2021-12-15 2022-03-22 广州华多网络科技有限公司 关键词识别方法及其装置、设备、介质、产品
CN114398902A (zh) * 2022-01-13 2022-04-26 平安普惠企业管理有限公司 基于人工智能的中文语义提取方法及相关设备
CN114398855A (zh) * 2022-01-13 2022-04-26 北京快确信息科技有限公司 基于融合预训练的文本抽取方法、系统及介质
CN114444479A (zh) * 2022-04-11 2022-05-06 南京云问网络技术有限公司 一种端到端中文语音文本纠错方法、装置和存储介质
US20220222437A1 (en) * 2021-01-08 2022-07-14 Nice Ltd. Systems and methods for structured phrase embedding and use thereof
CN114997288A (zh) * 2022-05-19 2022-09-02 中国海洋大学 一种设计资源关联方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021212682A1 (zh) * 2020-04-21 2021-10-28 平安国际智慧城市科技股份有限公司 知识抽取方法、装置、电子设备及存储介质
US20220222437A1 (en) * 2021-01-08 2022-07-14 Nice Ltd. Systems and methods for structured phrase embedding and use thereof
CN113239705A (zh) * 2021-07-12 2021-08-10 北京百度网讯科技有限公司 语义表示模型的预训练方法、装置、电子设备和存储介质
CN114218948A (zh) * 2021-12-15 2022-03-22 广州华多网络科技有限公司 关键词识别方法及其装置、设备、介质、产品
CN114398902A (zh) * 2022-01-13 2022-04-26 平安普惠企业管理有限公司 基于人工智能的中文语义提取方法及相关设备
CN114398855A (zh) * 2022-01-13 2022-04-26 北京快确信息科技有限公司 基于融合预训练的文本抽取方法、系统及介质
CN114444479A (zh) * 2022-04-11 2022-05-06 南京云问网络技术有限公司 一种端到端中文语音文本纠错方法、装置和存储介质
CN114997288A (zh) * 2022-05-19 2022-09-02 中国海洋大学 一种设计资源关联方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨长沛 等: "基于门控空洞卷积特征融合的中文命名实体识别" *

Also Published As

Publication number Publication date
CN115796189B (zh) 2023-05-12

Similar Documents

Publication Publication Date Title
CN110737758A (zh) 用于生成模型的方法和装置
CN111931517B (zh) 文本翻译方法、装置、电子设备以及存储介质
CN110704621A (zh) 文本处理方法、装置及存储介质和电子设备
CN111599340A (zh) 一种多音字读音预测方法、装置及计算机可读存储介质
CN112507337A (zh) 基于语义分析的恶意JavaScript代码检测模型的实现方法
CN112446211A (zh) 文本处理装置、方法、设备和计算机可读存储介质
CN111881256B (zh) 文本实体关系抽取方法、装置及计算机可读存储介质设备
CN111814479A (zh) 一种企业简称生成及其模型的训练方法及装置
CN115309915A (zh) 知识图谱构建方法、装置、设备和存储介质
CN116991875B (zh) 一种基于大模型的sql语句生成、别名映射方法及设备
CN113743101A (zh) 文本纠错方法、装置、电子设备和计算机存储介质
CN113268989A (zh) 多音字处理方法及装置
CN110929532B (zh) 数据处理方法、装置、设备及存储介质
CN110852066B (zh) 一种基于对抗训练机制的多语言实体关系抽取方法及系统
CN115129826B (zh) 电力领域模型预训练方法、精调方法、装置及设备
CN113761875B (zh) 事件抽取方法、装置、电子设备及存储介质
CN115796189B (zh) 语义确定方法、装置、电子设备及介质
CN115796141A (zh) 文本数据增强方法和装置、电子设备、存储介质
CN116050425A (zh) 建立预训练语言模型的方法、文本预测方法及装置
CN115630652A (zh) 客服会话情感分析系统、方法及计算机系统
CN114936274A (zh) 模型训练方法、对话生成方法和装置、设备及存储介质
CN114398482A (zh) 一种词典构造方法、装置、电子设备及存储介质
Sharma et al. Representing contexual relations with sanskrit word embeddings
CN115114915B (zh) 短语识别方法、装置、设备和介质
CN115587589B (zh) 针对多语种的语句困惑度获取方法、系统及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant