CN113627157B

CN113627157B - 一种基于多头注意力机制的概率阈值调整方法及系统

Info

Publication number: CN113627157B
Application number: CN202111189819.3A
Authority: CN
Inventors: 蓝建敏; 申鑫
Original assignee: Excellence Information Technology Co ltd
Current assignee: Excellence Information Technology Co ltd
Priority date: 2021-10-13
Filing date: 2021-10-13
Publication date: 2022-02-11
Anticipated expiration: 2041-10-13
Also published as: CN113627157A

Abstract

本发明提供了一种基于多头注意力机制的概率阈值调整方法及系统，初始化序列步长以多个序列步长对张量序列Tensors进行划分得到多个子序列，分别计算各个子序列的局部分布，通过各个子序列的局部分布与基于多头注意力机制的预训练语言模型得到阈值，进而通过待检测的子序列的局部分布与预训练语言模型计算得到距离进行阈值比较，实现了依据计算动态的阈值比较来判断语句概率，并在大规模预料上以较低的时间成本和计算成本调整概率阈值的有益效果。

Description

一种基于多头注意力机制的概率阈值调整方法及系统

技术领域

本发明属于人工智能技术、文本信息处理领域，具体涉及一种基于多头注意力机制的概率阈值调整方法及系统。

背景技术

在自然语言处理中，定位错误位置和生成推荐词需要计算词和句子存在概率，超过预先设置的概率阈值来判断是否错误、错误位置及推荐词选择。语料大小、范围直接影响词和句子存在概率变动，也导致概率阈值需要及时调整才能达到纠错精准度目标。人工调整概率阈值存在工作量大且精准度不高的问题。在公开号为CN111859948A的专利文献中提供的语言识别、语言模型训练、字符预测方法及装置，虽然能够基于所述样本文本以及每个字符串组中每个样本字符串在所有样本文本中出现的概率来训练语言模型，获取待识别语言的语言识别结果，但仍不足以在大规模预料上以较低的时间成本和计算成本调整概率阈值。

发明内容

本发明的目的在于提出一种基于多头注意力机制的概率阈值调整方法及系统，以解决现有技术中所存在的一个或多个技术问题，至少提供一种有益的选择或创造条件。

在自然语言处理中，定位错误位置和生成推荐词需要计算词和句子存在概率，超过预先设置的概率阈值来判断是否错误、错误位置及推荐词选择，当前调整概率阈值主要靠人的经验，每次调整成本高，并且精准度低。

本发明提供了一种基于多头注意力机制的概率阈值调整方法及系统，将语料库中的预处理语料数据读取为多个分词记作Token，通过读取GloVe中文词向量把多个分词转化为多个词向量组成的序列记作张量序列Tensors，初始化序列步长以多个序列步长对张量序列Tensors进行划分得到多个子序列，分别计算各个子序列的局部分布，通过各个子序列的局部分布与基于多头注意力机制的预训练语言模型得到阈值，输入待检测的子序列计算得到待检测的子序列的局部分布，进而通过待检测的子序列的局部分布与预训练语言模型计算得到距离，若距离超出阈值则待检测的子序列被判断为存在错误。

为了实现上述目的，根据本发明的一方面，提供一种基于多头注意力机制的概率阈值调整方法，所述方法包括以下步骤：

S100，将语料库中的预处理语料数据读取为多个分词记作Token；

S200，对多个Token分词，通过读取其GloVe中文词向量，将多个分词转化为多个词向量组成的序列记作张量序列Tensors；

S300，初始化序列步长，以多个序列步长对张量序列Tensors进行划分得到多个子序列；

S400，分别计算各个子序列的局部分布；

S500，通过各个子序列的局部分布与基于多头注意力机制的预训练语言模型，得到阈值；

S600，输入待检测的子序列，计算得到待检测的子序列的局部分布，进而通过待检测的子序列的局部分布与预训练语言模型计算得到距离，若距离超出阈值则待检测的子序列被判断为存在错误。

进一步地，在S100中，将语料库中的预处理语料数据读取为多个分词记作Token的方法为：所述语料库为从互联网上获取的网页文本存储的文本文件，所述预处理语料数据为将从所述语料库中读取的字符串数据经过NLTK包处理后的字符串数组，字符串数组中的元素为字符串，将一个分词记为一个Token，所述分词为所述预处理语料数据的字符串数组中的元素。

进一步地，在S200中，对多个Token分词，通过读取GloVe中文词向量，将多个分词转化为多个词向量组成的序列记作张量序列Tensors的方法为：在多个Token分词中，对每个Token通过读取GloVe中文词向量得到各个Token的词向量，其中对非中文字符的嵌入词向量为全零的向量，将各个分词的词向量组成的序列作为张量序列，记张量序列为Tensors，Tensors为序列。

进一步地，在S300中，初始化序列步长，以多个序列步长对张量序列Tensors进行划分得到多个子序列的方法为：设置序列步长，所述序列步长为对张量序列Tensors进行划分得到的子序列的序列长度，序列步长的初始化的数值为零，通过多个序列步长将张量序列Tensors分成多个子序列，定义划分函数为对张量序列Tensors进行划分的函数记作函数Han()，其中，得到多个序列步长并将张量序列Tensors分成多个子序列的具体步骤为：

S301，设置序列步长，记序列步长为变量s，令s的初始值为0；

S302，获取张量序列Tensors，获取张量序列Tensors的序列长度为n，设置张量序列Tensors中的元素的序号为变量i，i的初始值为1，令张量序列Tensors中序号为i的元素为Tensors(i)，Tensors(i)为词向量，词向量中的维度的数量为k，词向量中的维度的序号为变量v，v∈[1,k]，有Tensors(i)中的维度的数量为k，Tensors(i)中的维度的序号为变量v，Tensors(i)中序号为v的维度记作T(i,v)，T(i,v)∈Tensors(i)；

S303，设置空集合Slist，Slist为集合；

S304，计算i+s，判断i+s是否大于或等于n，若是转到S310，若否则转到S305-1；

S305-1，获取张量序列Tensors中序号为i的元素Tensors(i)；转到S305-2；

S305-2，获取张量序列Tensors中序号为i+s的元素为Tensors(i+s)；Tensors(i+s)为词向量，Tensors(i+s)中的维度的数量为k，Tensors(i+s)中的维度的序号为变量v，Tensors(i+s)中序号为v的维度记作T(i+s,v)，T(i+s,v)∈Tensors(i+s)；

S306，根据Tensors(i)和Tensors(i+s)通过函数Han()对张量序列Tensors进行划分，使用函数Han()对Tensors(i)和Tensors(i+s)进行计算的结果可记作Han(Tensors(i), Tensors(i+s))或者记作Han(i, i+s)，计算Han(i, i+s)的计算过程为：

计算得到的Han(i, i+s)即为对张量序列Tensors进行划分的判断依据；转到S307；

S307，判断是否满足判断条件Han(i, i+s)>0，若是则将s的数值增加1再转到S304，若否则转到S308；

S308，将张量序列Tensors中的序号从i到i+s的元素即序号属于[i,i+s)的元素作为一个子序列，并将该子序列放入集合Slist中；转到S309；

S309，令变量i的数值更改，获取i+s的计算结果的数值，将i+s的计算结果的数值赋值给变量i；转到S304；

S310，将张量序列Tensors中的序号从i到n的元素即序号属于[i,n]的元素组成的序列作为一个子序列，并将该子序列放入集合Slist中；转到S311；

S311，输出集合Slist；结束程序；

输出的集合Slist中的各个子序列即为以多个序列步长对张量序列Tensors进行划分得到的多个子序列，输出的集合Slist即为多个子序列组成的集合。

进一步地，在S400中，分别计算各个子序列的局部分布的方法为：将多个子序列组成的集合记作子序列集合Slist，Slist中各个子序列的序号为变量j1，Slist中的子序列的数量为m1，j1∈[1,m1]，Slist中序号为j1的子序列记作Slist(j1)，将Slist(j1)中元素的数量记为len(j1)，Slist(j1)中元素的序号记为n(j1)，n(j1)∈[1, len(j1)]，Slist(j1)中序号为n(j1)的元素记为V(j1, n(j1))，V(j1, n(j1))∈Slist(j1)，V(j1, n(j1))为词向量，词向量中的维度的数量为k，词向量中的维度的序号为变量v，v∈[1,k]，V(j1, n(j1))中序号为v的维度记作V(j1,n(j1),v)，V(j1,n(j1),v)∈V(j1, n(j1));

定义局部分布为表示各个子序列中的各元素的分布的特征，分别计算各个子序列的局部分布，令函数Loc()为计算子序列的局部分布的函数，Loc(Slist(j1))表示通过函数Loc()计算子序列的局部分布，Loc(Slist(j1))可记作Loc(j1)，Loc(j1)的计算公式为：

其中， fr(V(j1,n(j1)),Slist(j1))的计算方法为：定义Cu()为取补集的计算函数，Cu(V(j1,n(j1)),Slist(j1))为计算V(j1,n(j1))在Slist(j1)中的补集即在Slist(j1)中除V(j1,n(j1))外的元素的集合，Cu(V(j1,n(j1)),Slist(j1))可记作Cu(j1,n(j1))，Cu(j1,n(j1))中的元素的序号为j2，Cu(j1,n(j1))中的元素的数量为m2，j2∈[1, m2]，Cu(j1,n(j1))中序号为j2的元素为V(j1,n(j1),j2)，V(j1,n(j1),j2)为词向量，V(j1,n(j1),j2)中序号为v的维度记作V(j1,n(j1),j2,v)，函数exp()为以自然常数e为底的指数函数，计算fr(V(j1,n(j1)),Slist(j1))的值的公式为：

在avg(Slist(j1))的计算过程中，函数avg()为表示输入多个维度数量相同的向量并计算各个向量在相同的序号的维度上的算术平均值再输出由各个向量在相同的序号的维度上的分别的算术平均值组成的一个向量，avg(Slist(j1))的计算公式为：

avg(Slist(j1))的计算结果为一个与词向量的维度大小相同的k维向量，avg(Slist(j1))中各序号为v的维度即可表示为：

则Loc(j1)的向量形式可表示为如下的形式：

记Loc(j1)中序号为v的维度为Loc(j1,v)，则有：

Loc(j1)即为子序列集合Slist中序号为j1的子序列的局部分布，记子序列集合中各序号的子序列的局部分布组成的集合可表示为序列Locs，有Locs=[ Loc(j1)| j1∈[1,m1]]，Locs即为各子序列的局部分布。

进一步地，在S500中，通过各个子序列的局部分布与基于多头注意力机制的预训练语言模型，得到阈值的方法为：所述基于多头注意力机制的预训练语言模型为BERT模型，BERT模型为谷歌开源的预训练中文模型，选取BERT模型中的编码器部分作为Encoder，将多个Token分词输入Encoder；将Encoder输出的由向量组成的序列作为Embedding，记Embedding中向量的数量为p，Embedding中向量的序号为q，q∈[1,p]，Embedding中序号为q的向量记作Embedding(q)，记Embedding中向量的维度的数量为d，Embedding中向量的维度的序号为t，Embedding(q)中序号为t的维度为Embedding(q,t)；

各个子序列的局部分布为序列Locs，Locs=[ Loc(j1)| j1∈[1,m1]]，以j1为Locs中元素的序号，以m1为Locs中元素的数量，Locs中的元素为向量，Loc(j1)为Locs中序号为j1的元素，Loc(j1)中维度的数量、序号与词向量中维度的数量、序号一致，Loc(j1)中维度的序号为v，Loc(j1)中维度的数量为k，v∈[1,k]，Loc(j1)中序号为v的维度为Loc(j1,v)；

定义距离函数为计算两个由向量组成的序列之间的距离的函数，将距离函数记为函数Dis()，通过函数Dis()计算序列Embedding与序列Locs之间的距离可记为Dis(Embedding, Locs)或Dis(Locs, Embedding)，Dis(Embedding, Locs)或Dis(Locs,Embedding)的值通过如下计算公式计算得到：

其中，函数exp()为以自然常数e为底的指数函数，记阈值为ρ，ρ=Dis(Embedding,Locs)，或ρ=Dis(Locs, Embedding)，计算得到的Dis(Embedding, Locs)即为所述阈值ρ。

进一步地，在S600中，输入待检测的子序列，计算得到待检测的子序列的局部分布，进而通过待检测的子序列的局部分布与预训练语言模型计算得到距离，若距离超出阈值则待检测的子序列被判断为存在错误的方法为：待检测的子序列为，对客户端输入的字符串进行分词得到的多个分词记作多个待检测分词，通过读取GloVe中文词向量，将多个待检测分词转化为多个词向量组成的序列，待检测的子序列记作Seq，Seq中元素的数量为w，Seq中元素的序号为s，s∈[1,w]，Seq中序号为s的元素为Seq(s)，Seq(s)为词向量，Seq(s)中维度的数量、序号与词向量中维度的数量、序号一致，Seq(s)中维度的数量为k，Seq(s)中维度的序号为v，Seq(s)中序号为v的维度记作Seq(s,v)，计算待检测的子序列Seq的局部分布，记通过Loc()函数计算Seq的局部分布为Loc(Seq)，Loc(Seq)为一个k维的向量，Loc(Seq)的计算公式为：

其中，fr(Seq(s),Seq)的计算方法为：定义Cu()为取补集的计算函数，Cu(Seq(s),Seq)为在Seq中除Seq(s)以外的元素组成的集合，Cu(Seq(s),Seq)中元素的序号为c，Cu(Seq(s),Seq)中序号为c的元素记作Seq(c)，Cu(Seq(s),Seq)中元素的数量为z，Seq(c)为词向量，Seq(c)中序号为v的维度记作Seq(c,v)，fr(Seq(s),Seq)的计算过程为：

选取BERT模型中的编码器部分Encoder，将多个待检测分词输入Encoder（Encoder为编码器），将Encoder输出的由向量组成的序列作为Refing，设置空序列Locseq并将Loc(Seq)作为序列Locseq的一个元素加入序列Locseq中，通过函数Dis()计算序列Refing与序列Locseq之间的距离Dis(Refing,Locseq)，若Dis(Refing,Locseq)>ρ即距离大于阈值，则待检测的子序列被判断为存在错误。

本发明还提供了一种基于多头注意力机制的概率阈值调整系统，所述一种基于多头注意力机制的概率阈值调整系统包括：处理器、存储器及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述一种基于多头注意力机制的概率阈值调整方法中的步骤，所述一种基于多头注意力机制的概率阈值调整系统可以运行于桌上型计算机、笔记本、掌上电脑及云端数据中心等计算设备中，可运行的系统可包括，但不仅限于，处理器、存储器、服务器集群，所述处理器执行所述计算机程序运行在以下系统的单元中：

分词单元，用于将语料库中的预处理语料数据读取为多个分词记作Token；

向量化单元，用于对多个Token分词通过读取其GloVe中文词向量将多个分词转化为多个词向量组成的序列记作张量序列Tensors；

序列步长单元，用于初始化序列步长，以多个序列步长对张量序列Tensors进行划分得到多个子序列；

局部分布计算单元，用于分别计算各个子序列的局部分布；

阈值计算单元，用于通过各个子序列的局部分布与基于多头注意力机制的预训练语言模型，得到阈值；

检测计算单元，用于输入待检测的子序列，计算得到待检测的子序列的局部分布，进而通过待检测的子序列的局部分布与预训练语言模型计算得到距离，若距离超出阈值则待检测的子序列被判断为存在错误。

本发明的有益效果为：本发明提供了一种基于多头注意力机制的概率阈值调整方法及系统，初始化序列步长以多个序列步长对张量序列Tensors进行划分得到多个子序列，分别计算各个子序列的局部分布，通过各个子序列的局部分布与基于多头注意力机制的预训练语言模型得到阈值，进而通过待检测的子序列的局部分布与预训练语言模型计算得到距离进行阈值比较，实现了依据计算动态的阈值比较来判断语句概率，并在大规模预料上以较低的时间成本和计算成本调整概率阈值的有益效果。

附图说明

通过对结合附图所示出的实施方式进行详细说明，本发明的上述以及其他特征将更加明显，本发明附图中相同的参考标号表示相同或相似的元素，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，在附图中：

图1所示为一种基于多头注意力机制的概率阈值调整方法的流程图；

图2所示为一种基于多头注意力机制的概率阈值调整系统的系统结构图。

具体实施方式

以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整的描述，以充分地理解本发明的目的、方案和效果。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

如图1所示为根据本发明的一种基于多头注意力机制的概率阈值调整方法的流程图，下面结合图1来阐述根据本发明的实施方式的一种基于多头注意力机制的概率阈值调整方法及系统。

本发明提出一种基于多头注意力机制的概率阈值调整方法，所述方法具体包括以下步骤：

S200，对多个Token分词，通过读取GloVe中文词向量，将多个分词转化为多个词向量组成的序列记作张量序列Tensors；

S400，分别计算各个子序列的局部分布；

进一步地，在S100中，将语料库中的预处理语料数据读取为多个分词记作Token的方法为：在S100中，将语料库中的预处理语料数据读取为多个分词记作Token的方法为：所述语料库为从互联网上获取的网页文本存储的文本文件，所述预处理语料数据为将从所述语料库中读取的字符串数据经过NLTK包处理后的字符串数组，字符串数组中的元素为字符串，将一个分词记为一个Token，所述分词为所述预处理语料数据的字符串数组中的元素，语料库即是文本文件，利用Python语言将字符串数据从文本文件里读取出来。

进一步地，在S200中，对多个Token分词，通过读取GloVe中文词向量，将多个分词转化为多个词向量组成的序列记作张量序列Tensors的方法为：在多个Token分词中，对每个Token通过读取GloVe中文词向量得到各个Token的词向量，其中对非中文字符的嵌入词向量为全零的向量，将各个分词的词向量组成的序列作为张量序列，记张量序列为Tensors，Tensors为序列；GloVe中文词向量为采用斯坦福大学开源的预训练的词向量，将预训练的词向量下载，再通过将分词输入进行读取进而输出得到分词的词向量。

S301，设置序列步长，记序列步长为变量s，令s的初始值为0；

S303，设置空集合Slist，Slist为集合；

S311，输出集合Slist；结束程序；

其中，可优选地，S300的实现代码可包括：

from utj1s import *

import random

class Slicer:

def __init__(self, j1, j2):

"""

#初始化序列步长

"""

super();

self.v_num = j2

self.l_c = len(Slist(j1))

self.tensors = set()

self.used_l_c = 0

def stride(self):

"""

序列步长为对张量序列Tensors进行划分得到的子序列的序列长度

"""

while True:

ar = utils.fr(self.used_l_c, self.l_c)

if ar not in self.tensors:

self.tensors.add(ar)

return aag_func(ar, self.v_num)

def out_func(self):

"""

得到多个序列步长并将张量序列Tensors分成多个子序列

"""

self.tensors = set();

其中，在fr(V(j1,n(j1)),Slist(j1))的计算过程中，定义Cu()为取补集的计算函数，Cu(V(j1,n(j1)),Slist(j1))为计算V(j1,n(j1))在Slist(j1)中的补集即在Slist(j1)中除V(j1,n(j1))外的元素的集合，Cu(V(j1,n(j1)),Slist(j1))可记作Cu(j1,n(j1))，Cu(j1,n(j1))中的元素的序号为j2，Cu(j1,n(j1))中的元素的数量为m2，j2∈[1, m2]，Cu(j1,n(j1))中序号为j2的元素为V(j1,n(j1),j2)，V(j1,n(j1),j2)为词向量，V(j1,n(j1),j2)中序号为v的维度记作V(j1,n(j1),j2,v)，函数exp()为以自然常数e为底的指数函数，计算fr(V(j1,n(j1)),Slist(j1))的值的公式为：

则Loc(j1)的计算结果可表示为如下向量的形式：

记Loc(j1)中序号为v的维度为Loc(j1,v)，则有：

各个子序列的局部分布为序列Locs，Locs=[ Loc(j1)| j1∈[1,m1]]，以j1为Locs中元素的序号，以m1为Locs中元素的数量，Locs中的元素为向量，Loc(j1)为Locs中序号为j1的元素，Loc(j1)中维度的序号为v，Loc(j1)中维度的数量为k，v∈[1,k]，Loc(j1)中序号为v的维度为Loc(j1,v)；

定义距离函数为计算两个由向量组成的序列之间的距离的函数，将距离函数记为函数Dis()，通过函数Dis()计算序列Embedding与序列Locs之间的距离可记为Dis(Embedding, Locs)或Dis(Locs, Embedding)，Dis(Embedding, Locs)或Dis(Locs,Embedding)的值的计算公式如下：

其中，函数exp()为以自然常数e为底的指数函数，记阈值为ρ，ρ=Dis(Embedding,Locs)，ρ=Dis(Locs, Embedding)，计算得到的Dis(Embedding, Locs)即为所述阈值ρ。

进一步地，在S600中，输入待检测的子序列，计算得到待检测的子序列的局部分布，进而通过待检测的子序列的局部分布与预训练语言模型计算得到距离，若距离超出阈值则待检测的子序列被判断为存在错误的方法为：待检测的子序列为，对客户端输入的字符串进行分词得到的多个分词记作多个待检测分词，通过读取GloVe中文词向量，将多个待检测分词转化为多个词向量组成的序列，待检测的子序列记作Seq，Seq中元素的数量为w，Seq中元素的序号为s，s∈[1,w]，Seq中序号为s的元素为Seq(s)，Seq(s)为词向量，Seq(s)中维度的数量为k，Seq(s)中维度的序号为v，（其中，k的取值范围可为300至512），Seq(s)中序号为v的维度记作Seq(s,v)，计算待检测的子序列Seq的局部分布，记通过Loc()函数计算Seq的局部分布为Loc(Seq)，Loc(Seq)为一个k维的向量，Loc(Seq)的计算公式为：

其中，Cu(Seq(s),Seq)为在Seq中除Seq(s)以外的元素组成的集合，Cu(Seq(s),Seq)中元素的序号为c，Cu(Seq(s),Seq)中序号为c的元素记作Seq(c)，Cu(Seq(s),Seq)中元素的数量为z，Seq(c)为词向量，Seq(c)中序号为v的维度记作Seq(c,v)，fr(Seq(s),Seq)的值的计算过程为以下公式：

选取BERT模型中的编码器部分Encoder，将多个待检测分词输入Encoder，将Encoder输出的由向量组成的序列作为Refing，设置空序列Locseq并将Loc(Seq)作为序列Locseq的一个元素加入序列Locseq中，通过函数Dis()计算序列Refing与序列Locseq之间的距离Dis(Refing,Locseq)，若Dis(Refing,Locseq)>ρ即距离大于阈值，则待检测的子序列被判断为存在错误。

所述一种基于多头注意力机制的概率阈值调整系统包括：处理器、存储器及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述一种基于多头注意力机制的概率阈值调整方法实施例中的步骤以此控制在大规模预料上计算调整概率阈值，所述一种基于多头注意力机制的概率阈值调整系统可以运行于桌上型计算机、笔记本、掌上电脑及云端数据中心等计算设备中，可运行的系统可包括，但不仅限于，处理器、存储器、服务器集群。

本发明的实施例提供的一种基于多头注意力机制的概率阈值调整系统，如图2所示，该实施例的一种基于多头注意力机制的概率阈值调整系统包括：处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述一种基于多头注意力机制的概率阈值调整方法实施例中的步骤用于控制在大规模预料上计算调整概率阈值，所述处理器执行所述计算机程序运行在以下系统的单元中：

向量化单元，用于对多个Token分词通过读取GloVe中文词向量将多个分词转化为多个词向量组成的序列记作张量序列Tensors；

局部分布计算单元，用于分别计算各个子序列的局部分布；

所述一种基于多头注意力机制的概率阈值调整系统可以运行于桌上型计算机、笔记本、掌上电脑及云端数据中心等计算设备中。所述一种基于多头注意力机制的概率阈值调整系统包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，所述例子仅仅是一种基于多头注意力机制的概率阈值调整方法及系统的示例，并不构成对一种基于多头注意力机制的概率阈值调整方法及系统的限定，可以包括比例子更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述一种基于多头注意力机制的概率阈值调整系统还可以包括输入输出设备、网络接入设备、总线等。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列 (Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立元器件门电路或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述一种基于多头注意力机制的概率阈值调整系统的控制中心，利用各种接口和线路连接整个一种基于多头注意力机制的概率阈值调整系统的各个分区域。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述一种基于多头注意力机制的概率阈值调整方法及系统的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据手机的使用所创建的数据（比如音频数据、电话本等）等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（Secure Digital, SD）卡，闪存卡（Flash Card）、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

尽管本发明的描述已经相当详尽且特别对几个所述实施例进行了描述，但其并非旨在局限于任何这些细节或实施例或任何特殊实施例，从而有效地涵盖本发明的预定范围。此外，上文以发明人可预见的实施例对本发明进行描述，其目的是为了提供有用的描述，而那些目前尚未预见的对本发明的非实质性改动仍可代表本发明的等效改动。

Claims

1.一种基于多头注意力机制的概率阈值调整方法，其特征在于，所述方法包括以下步骤：

S400，分别计算各个子序列的局部分布；

S600，输入待检测的子序列，计算得到待检测的子序列的局部分布，进而通过待检测的子序列的局部分布与预训练语言模型计算得到距离，若距离超出阈值则待检测的子序列被判断为存在错误；

其中，在S400中，分别计算各个子序列的局部分布的方法为：将多个子序列组成的集合记作子序列集合Slist，Slist中各个子序列的序号为变量j1，Slist中的子序列的数量为m1，j1∈[1,m1]，Slist中序号为j1的子序列记作Slist(j1)，将Slist(j1)中元素的数量记为len(j1)，Slist(j1)中元素的序号记为n(j1)，n(j1)∈[1, len(j1)]，Slist(j1)中序号为n(j1)的元素记为V(j1, n(j1))，V(j1, n(j1))∈Slist(j1)，V(j1, n(j1))为词向量，词向量中的维度的数量为k，词向量中的维度的序号为变量v，v∈[1,k]，V(j1, n(j1))中序号为v的维度记作V(j1,n(j1),v)，V(j1,n(j1),v)∈V(j1, n(j1));

定义局部分布为表示各个子序列中的各元素的分布的特征，分别计算各个子序列的局部分布，令函数Loc()为计算子序列的局部分布的函数，Loc(Slist(j1))表示通过函数Loc()计算子序列的局部分布，Loc(Slist(j1))记作Loc(j1)，Loc(j1)的计算公式为：

其中，fr(V(j1,n(j1)),Slist(j1))的计算方法为：定义Cu()为取补集的计算函数，Cu(V(j1,n(j1)),Slist(j1))为计算V(j1,n(j1))在Slist(j1)中的补集即在Slist(j1)中除V(j1,n(j1))外的元素的集合，Cu(V(j1,n(j1)),Slist(j1))记作Cu(j1,n(j1))，Cu(j1,n(j1))中的元素的序号为j2，Cu(j1,n(j1))中的元素的数量为m2，j2∈[1, m2]，Cu(j1,n(j1))中序号为j2的元素为V(j1,n(j1),j2)，V(j1,n(j1),j2)为词向量，V(j1,n(j1),j2)中序号为v的维度记作V(j1,n(j1),j2,v)，函数exp()为以自然常数e为底的指数函数，fr(V(j1,n(j1)),Slist(j1))的值通过以下计算公式得到：

avg(Slist(j1))的计算结果为一个与词向量的维度大小相同的k维向量，avg(Slist(j1))中各序号为v的维度即表示为：

则Loc(j1)的向量形式表示为如下的形式：

记Loc(j1)中序号为v的维度为Loc(j1,v)，则有：

Loc(j1)即为子序列集合Slist中序号为j1的子序列的局部分布，记子序列集合中各序号的子序列的局部分布组成的集合表示为序列Locs，有Locs=[Loc(j1)| j1∈[1,m1]]，Locs即为各子序列的局部分布；

其中，在S500中，通过各个子序列的局部分布与基于多头注意力机制的预训练语言模型，得到阈值的方法为：所述基于多头注意力机制的预训练语言模型为BERT模型，BERT模型为谷歌开源的预训练中文模型，选取BERT模型中的编码器部分作为Encoder，将多个Token分词输入Encoder；将Encoder输出的由向量组成的序列作为Embedding，记Embedding中向量的数量为p，Embedding中向量的序号为q，q∈[1,p]，Embedding中序号为q的向量记作Embedding(q)，记Embedding中向量的维度的数量为d，Embedding中向量的维度的序号为t，Embedding(q)中序号为t的维度为Embedding(q,t)；

各个子序列的局部分布为序列Locs，Locs=[ Loc(j1)| j1∈[1,m1]]，以j1为Locs中元素的序号，以m1为Locs中元素的数量，Locs中的元素为向量， Loc(j1)为Locs中序号为j1的元素，Loc(j1)中维度的数量、序号与词向量中维度的数量、序号一致，Loc(j1)中维度的序号为v，Loc(j1)中维度的数量为k，v∈[1,k]，Loc(j1)中序号为v的维度为Loc(j1,v)；

定义距离函数为计算两个由向量组成的序列之间的距离的函数，将距离函数记为函数Dis()，通过函数Dis()计算序列Embedding与序列Locs之间的距离记为Dis(Embedding,Locs)或Dis(Locs, Embedding)，Dis(Embedding, Locs)或Dis(Locs, Embedding)的值通过如下计算公式计算得到：

其中，函数exp()为以自然常数e为底的指数函数，记阈值为ρ，ρ=Dis(Embedding,Locs)，或ρ=Dis(Locs, Embedding)，计算得到的Dis(Embedding, Locs)或Dis(Locs,Embedding)即为所述阈值ρ；

其中，在S600中，输入待检测的子序列，计算得到待检测的子序列的局部分布，进而通过待检测的子序列的局部分布与预训练语言模型计算得到距离，若距离超出阈值则待检测的子序列被判断为存在错误的方法为：待检测的子序列为，对客户端输入的字符串进行分词得到的多个分词记作多个待检测分词，通过读取GloVe中文词向量，将多个待检测分词转化为多个词向量组成的序列，待检测的子序列记作Seq，Seq中元素的数量为w，Seq中元素的序号为s，s∈[1,w]，Seq中序号为s的元素为Seq(s)，Seq(s)为词向量，Seq(s)中维度的数量、序号与词向量中维度的数量、序号一致，Seq(s)中维度的数量为k，Seq(s)中维度的序号为v，Seq(s)中序号为v的维度记作Seq(s,v)，计算待检测的子序列Seq的局部分布，记通过Loc()函数计算Seq的局部分布为Loc(Seq)，Loc(Seq)为一个k维的向量，Loc(Seq)的计算公式为：

2.根据权利要求1所述的一种基于多头注意力机制的概率阈值调整方法，其特征在于，在S100中，将语料库中的预处理语料数据读取为多个分词记作Token的方法为：所述语料库为从互联网上获取的网页文本存储的文本文件，所述预处理语料数据为将从所述语料库中读取的字符串数据经过NLTK包处理后的字符串数组，字符串数组中的元素为字符串，将一个分词记为一个Token，所述分词为所述预处理语料数据的字符串数组中的元素。

3.根据权利要求1所述的一种基于多头注意力机制的概率阈值调整方法，其特征在于，在S200中，对多个Token分词，通过读取GloVe中文词向量，将多个分词转化为多个词向量组成的序列记作张量序列Tensors的方法为：在多个Token分词中，对每个Token通过读取GloVe中文词向量得到各个Token的词向量，其中对非中文字符的嵌入词向量为全零的向量，将各个分词的词向量组成的序列作为张量序列，记张量序列为Tensors。

4.根据权利要求1所述的一种基于多头注意力机制的概率阈值调整方法，其特征在于，在S300中，初始化序列步长，以多个序列步长对张量序列Tensors进行划分得到多个子序列的方法为：设置序列步长，所述序列步长为对张量序列Tensors进行划分得到的子序列的序列长度，序列步长的初始化的数值为零，通过多个序列步长将张量序列Tensors分成多个子序列，定义划分函数为对张量序列Tensors进行划分的函数记作函数Han()，其中，得到多个序列步长并将张量序列Tensors分成多个子序列的具体步骤为：

S301，设置序列步长，记序列步长为变量s，令s的初始值为0；

S303，设置空集合Slist；

S306，根据Tensors(i)和Tensors(i+s)通过函数Han()对张量序列Tensors进行划分，使用函数Han()对Tensors(i)和Tensors(i+s)进行计算的结果记作Han(Tensors(i),Tensors(i+s))或者记作Han(i, i+s)，计算Han(i, i+s)的计算过程为：

S307，判断是否满足判断条件Han(i, i+s)＞0，若是则将s的数值增加1再转到S304，若否则转到S308；

S311，输出集合Slist；结束程序；

5.一种基于多头注意力机制的概率阈值调整系统，其特征在于，所述一种基于多头注意力机制的概率阈值调整系统包括：处理器、存储器及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1中的一种基于多头注意力机制的概率阈值调整方法中的步骤，所述一种基于多头注意力机制的概率阈值调整系统运行于桌上型计算机、笔记本、掌上电脑及云端数据中心。