CN113569016A

CN113569016A - 一种基于Bert模型的专业术语提取方法及装置

Info

Publication number: CN113569016A
Application number: CN202111132931.3A
Authority: CN
Inventors: 殷晓君; 曹钢; 于淼; 徐娟
Original assignee: BEIJING LANGUAGE AND CULTURE UNIVERSITY
Current assignee: BEIJING LANGUAGE AND CULTURE UNIVERSITY
Priority date: 2021-09-27
Filing date: 2021-09-27
Publication date: 2021-10-29
Anticipated expiration: 2041-09-27
Also published as: CN113569016B

Abstract

本发明公开了一种基于Bert模型的专业术语提取方法及装置，涉及词语提取技术领域，方法包括：将待提取数据分别输入到通用Bert模型以及专业Bert模型，得到通用attention矩阵以及专业attention矩阵；在专业attention矩阵中确定出满足成词条件的最小矩阵，将最小矩阵对应的词语加入到专业术语候选集；在通用attention矩阵中确定专业术语候选集中的词语对应的关系矩阵，将不满足成词条件的词语确定为专业术语。采用本发明，可以节省成本，提高专业术语提取的准确率。

Description

一种基于Bert模型的专业术语提取方法及装置

技术领域

本发明涉及词语提取技术领域，特别是指一种基于Bert模型的专业术语提取方法及装置。

背景技术

专业术语是指在特定领域中对特定事物或者含义的称谓。如：医学领域中的“五脏六腑”；计算机领域中的“量子计算”、“云原生”。专业术语提取在知识图谱建设、信息检索、推荐系统中具有广泛的应用。

现有专业中，术语自动提取方法通常包括：

1. 通过语言特征模板进行提取，如：“所谓[x]是”，“[x]的定义是”；

2. 通过统计信息打分进行提取，如统计tf、idf、边界熵、互信息等指标，构建打分公式；

3. 通过标注问题、使用CRF模型输出标注概率进行判断；

4. 使用判别模型，使用决策树，以各类统计特征，判定专业术语的概率；

5. 使用深度学习模型，如GAN进行术语的自动生成。

但上述方法均存在不足之处：

1. 模板需要专家总结，当前使用的机器学习方法，如CRF、决策树、GAN都需要大量的样本标注准备，这些方案成本比较高。

2. 当前统计信息都是在词汇层面，没有使用深层次的语义信息进行提取，导致提取的准确率较低。

发明内容

为了解决上述提取专业术语时成本高、准确率低的问题，本发明实施例提供了一种基于Bert模型的专业术语提取方法及装置。

为解决上述技术问题，本发明提供如下所述技术方案如下：

一方面，提供了一种基于Bert模型的专业术语提取方法，该方法由电子设备实现，该方法包括：

S1、获取预先训练好的通用Bert模型和专业Bert模型，其中，所述通用Bert模型根据通用训练样本训练得到，所述专业Bert模型根据专业训练样本训练得到；

S2、获取待提取数据；

S3、将所述待提取数据分别输入到所述通用Bert模型以及所述专业Bert模型，得到所述待提取数据的通用attention矩阵以及专业attention矩阵；其中，将所述通用attention矩阵命名为att_matrix，将所述专业attention矩阵命名为pro_att_matrix；

S4、在所述pro_att_matrix中，确定出满足成词条件的最小矩阵，将最小矩阵对应的词语加入到专业术语候选集；

S5、在所述att_matrix中确定所述专业术语候选集中的每个词语对应的关系矩阵，将对应的关系矩阵不满足所述成词条件的词语确定为专业术语。

可选地，所述S4中的在所述pro_att_matrix中，确定出满足成词条件的最小矩阵，将最小矩阵对应的词语加入到专业术语候选集，包括：

S41、获取i的初始值、k的初始值以及所述pro_att_matrix的行数N，其中，所述i的初始值为1，所述k的初始值为1；

S42、判断i是否大于或等于N，如果i不大于N且不等于N，则转去执行S43；如果i大于或等于N，则转去执行S47；

S43、在所述pro_att_matrix中，确定行号以及列号均为i至i+k的预选矩阵，判断所述预选矩阵是否符合成词条件；

S44、如果所述预选矩阵符合所述成词条件，则将所述预选矩阵确定为最小矩阵，将所述最小矩阵对应的词语加入到专业术语候选集中，且i=i+k+1，k=1，转去执行S42；如果所述预选矩阵不符合所述成词条件，则转去执行S45；

S45、判断k是否等于N-i，如果所述k不等于N-i，则k=k+1，转去执行S43；如果所述k等于N-i，则转去执行S46；

S46、将i=i+1，k=1，转去执行S42；

S47、结束循环操作。

可选地，所述成词条件包括第一条件和第二条件；

所述确定出满足成词条件的最小矩阵，包括：

对于所述预选矩阵内的每一行元素，均满足下述第一条件、第二条件时，确定所述预选矩阵为最小矩阵；

所述第一条件，包括：计算所述一行元素的和值，所述和值大于或等于第一阈值；

所述第二条件，包括：计算所述一行元素中除列号为h外其他所有元素的和值，所述和值大于第二阈值，其中，h等于当前行数q。

可选地，所述将最小矩阵对应的词语加入到专业术语候选集，包括：

将最小矩阵对应的词语、以及所述最小矩阵的行号以及列号对应的存储到专业术语候选集中。

可选地，所述在所述att_matrix中确定所述专业术语候选集中的每个词语对应的关系矩阵，将对应的关系矩阵不满足所述成词条件的词语确定为专业术语，包括：

对于所述专业术语候选集中的每个词语，根据对应的行号以及列号，在所述att_matrix中确定词语对应的关系矩阵，判断所述关系矩阵是否满足所述成词条件，如果所述关系矩阵不满足所述成词条件，则将所述关系矩阵对应的词语确定为专业术语，如果所述关系矩阵满足所述成词条件，则将所述关系矩阵从所述专业术语候选集中删除。

另一方面，提供了一种基于Bert模型的专业术语提取装置，该装置应用于基于Bert模型的专业术语提取方法，该装置包括：

获取模块，用于获取预先训练好的通用Bert模型和专业Bert模型，其中，所述通用Bert模型根据通用训练样本训练得到，所述专业Bert模型根据专业训练样本训练得到；

所述获取模块，还用于获取待提取数据；

输入模块，用于将所述待提取数据分别输入到所述通用Bert模型以及所述专业Bert模型，得到所述待提取数据的通用attention矩阵以及专业attention矩阵；其中，将所述通用attention矩阵命名为att_matrix，将所述专业attention矩阵命名为pro_att_matrix；

确定模块，用于在所述pro_att_matrix中，确定出满足成词条件的最小矩阵，将最小矩阵对应的词语加入到专业术语候选集；

所述确定模块，还用于在所述att_matrix中确定所述专业术语候选集中的每个词语对应的关系矩阵，将对应的关系矩阵不满足所述成词条件的词语确定为专业术语。

可选地，所述确定模块，用于：

S46、将i=i+1，k=1，转去执行S42；

S47、结束循环操作。

可选地，所述成词条件包括第一条件和第二条件；

所述确定模块，用于：

可选地，所述确定模块，用于：

另一方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现上述基于Bert模型的专业术语提取方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现上述基于Bert模型的专业术语提取方法。

本发明实施例的上述技术方案至少具有如下有益效果：

通过专业Bert模型从待提取语句中选出专业术语号候选词语，再通过通用Bert模型筛选掉通用性较强的词语，进而提取出专业术语。Bert模型的学习只需要在无标注的文本上进行，不需要专家总结知识和高成本的样本标注，在现在的大数据时代，无标注文本可以很方便获取，成本很低。而且，Bert的优异效果来源于其独特的特征提取器能够学习到丰富的语义信息，效果更好，准确率更高，使得提取到的专业术语更准确。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于Bert模型的专业术语提取方法流程图；

图2是本发明实施例提供的一种基于Bert模型的专业术语提取方法流程图；

图3是本发明实施例提供的一种基于Bert模型的专业术语提取装置框图；

图4是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明实施例提供了一种基于Bert模型的专业术语提取方法，该方法可以由电子设备实现，该电子设备可以是终端或服务器。如图1所示的基于Bert模型的专业术语提取方法流程图，该方法的处理流程可以包括如下的步骤：

S11、获取预先训练好的通用Bert模型和专业Bert模型，其中，通用Bert模型根据通用训练样本训练得到，专业Bert模型根据专业训练样本训练得到。

S12、获取待提取数据。

S13、将待提取数据分别输入到通用Bert模型以及专业Bert模型，得到待提取数据的通用attention矩阵以及专业attention矩阵。其中，将通用attention矩阵命名为att_matrix，将专业attention矩阵命名为pro_att_matrix。

S14、在pro_att_matrix中，确定出满足成词条件的最小矩阵，将最小矩阵对应的词语加入到专业术语候选集。

S15、在att_matrix中确定专业术语候选集中的每个词语对应的关系矩阵，将对应的关系矩阵不满足成词条件的词语确定为专业术语。

可选地，S14中的在pro_att_matrix中，确定出满足成词条件的最小矩阵，将最小矩阵对应的词语加入到专业术语候选集，包括：

S141、获取i的初始值、k的初始值以及pro_att_matrix的行数N，其中，i的初始值为1，k的初始值为1；

S142、判断i是否大于或等于N，如果i不大于N且不等于N，则转去执行S143；如果i大于或等于N，则转去执行S147；

S143、在pro_att_matrix中，确定行号以及列号均为i至i+k的预选矩阵，判断预选矩阵是否符合成词条件；

S144、如果预选矩阵符合成词条件，则将预选矩阵确定为最小矩阵，将该最小矩阵对应的词语加入到专业术语候选集中，且i=i+k+1，k=1，转去执行S142；如果预选矩阵不符合成词条件，则转去执行S145；

S145、判断k是否等于N-i，如果k不等于N-i，则k=k+1，转去执行S143；如果k等于N-i，则转去执行S146；

S146、将i=i+1，k=1，转去执行S142；

S147、结束循环操作。

可选地，所述成词条件包括第一条件和第二条件；

确定出满足成词条件的最小矩阵，包括：

对于预选矩阵内的每一行元素，均满足下述第一条件、第二条件时，确定预选矩阵为最小矩阵；

第一条件，包括：计算一行元素的和值，和值大于或等于第一阈值；

第二条件，包括：计算一行元素中除列号为h外其他所有元素的和值，和值大于第二阈值，其中，h等于当前行数q。

可选地，将最小矩阵对应的词语加入到专业术语候选集，包括：

将最小矩阵对应的词语、以及最小矩阵的行号以及列号对应的存储到专业术语候选集中。

可选地，在att_matrix中确定专业术语候选集中的每个词语对应的关系矩阵，将对应的关系矩阵不满足成词条件的词语确定为专业术语，包括：

对于专业术语候选集中的每个词语，根据对应的行号以及列号，在att_matrix中确定词语对应的关系矩阵，判断关系矩阵是否满足成词条件，如果关系矩阵不满足成词条件，则将关系矩阵对应的词语确定为专业术语，如果关系矩阵满足成词条件，则将关系矩阵从专业术语候选集中删除。

本发明实施例中，通过专业Bert模型从待提取语句中选出专业术语号候选词语，再通过通用Bert模型筛选掉通用性较强的词语，进而提取出专业术语。Bert模型的学习只需要在无标注的文本上进行，不需要专家总结知识和高成本的样本标注，在现在的大数据时代，无标注文本可以很方便获取，成本很低。而且，Bert的优异效果来源于其独特的特征提取器能够学习到丰富的语义信息，效果更好，准确率更高，使得提取到的专业术语更准确。

本发明实施例提供了一种基于Bert模型的专业术语提取方法，该方法可以由电子设备实现，该电子设备可以是终端或服务器。如图2所示的基于Bert模型的专业术语提取方法流程图，该方法的处理流程可以包括如下的步骤：

S21、获取通用训练样本，根据通用训练样本对初始的通用Bert模型进行训练，得到训练好的通用Bert模型。

一种可行的实施方式中，通过互联网抓取收集得到通用语料库，通用语料库中的数据可以是多篇通用文章，对通用文章进行分句处理，制作成通用训练样本，通过通用训练样本对初始的通用Bert模型进行训练，得到训练好的通用Bert模型。具体的训练方式可以参照现有技术的训练方式，本发明对此不作赘述。

S22、获取专业训练样本，根据专业训练样本对初始的专业Bert模型进行训练，得到训练好的专业Bert模型。

一种可行的实施方式中，参照上述步骤S21获取专业语料库，并获得专业训练样本，根据专业训练样本对初始的专业Bert模型进行训练，得到训练好的专业Bert模型。

优选地，为了节省训练的计算量，可以在训练专业Bert模型时，可以通过专业训练样本在上述训练好的通用Bert模型进行fine-tuning，也即是说，可以采用上述步骤S21训练得到的通用Bert模型的参数，对初始的专业Bert模型进行初始化，再根据专业训练样本对初始化后的专业Bert模型进行训练。

S23、获取待提取数据。

一种可行的实施方式中，待提取数据的获取方式可以有多种，例如，可以是用户输入的一个语句，也可以是用户输入的、或在网上抓取的一篇文章、并对文章进行分句处理后得到的语句，本发明对此不做限定。

S24、将待提取数据输入到专业Bert模型中，得到专业attention矩阵。

一种可行的实施方式中，将待提取数据输入到专业Bert模型中后，取专业Bert模型中最上层layer的attention矩阵，作为专业attention矩阵，为了方便描述，可以将专业attention矩阵命名为pro_att_matrix。pro_att_matrix中的每个元素表示两个字之间的专业语义相关强度，例如，对于待提取数据的语句的pro_att_matrix中，第x行第y列对应的元素表示语句中第y个字对于第x个字的专业语义相关强度，当x=y时，第x行第y列对应的元素表示语句中第x个字的自相关强度。

S25、在pro_att_matrix中，确定出满足成词条件的最小矩阵，将最小矩阵对应的词语加入到专业术语候选集。

一种可行的实施方式中，在pro_att_matrix中循环筛选出符合成词条件的最小矩阵，筛选以及确定的流程可以如下步骤S251-S257：

S251、获取i的初始值、k的初始值以及pro_att_matrix的行数N。

其中，i的初始值为1，k的初始值为1。

S252、判断i是否大于或等于N，如果i不大于N且不等于N，则转去执行S253；如果i大于或等于N，则转去执行S257。

S253、在pro_att_matrix中，确定行号以及列号均为i至i+k的预选矩阵，判断预选矩阵是否符合成词条件。

S254、如果预选矩阵符合成词条件，则将预选矩阵确定为最小矩阵，将最小矩阵对应的词语加入到专业术语候选集中，且i=i+k+1，k=1，转去执行S252；如果预选矩阵不符合成词条件，则转去执行S255。

S255、判断k是否等于N-i，如果k不等于N-i，则k=k+1，转去执行S253；如果k等于N-i，则转去执行S256。

S256、将i=i+1，k=1，转去执行S252。

S257、结束循环操作。

在上述步骤中确定出预选矩阵后，判断预选矩阵是否满足成词条件时，该成词条件可以包括第一条件和第二条件，可以根据下述第一条件以及第二条件进行判断，具体地，对于预选矩阵内的每一行元素，均满足下述第一条件、第二条件时，确定预选矩阵为最小矩阵；

第二条件，包括：计算一行元素中除列号为h外其他所有元素的和值，和值大于或等于第二阈值，其中，h等于当前行数q。

下面举例对上述步骤进行具体说明：

假设待提取数据为“现在云原生火了”，第一阈值为0.85，第二阈值为0.25，将该语句输入到专业Bert模型中，得到该语句对应的pro_att_matrix，可以如下表1所示。

当i=1，k=1时，确定出行号为1-2、列号为1-2的矩阵

,计算第一行所有元素的和值0.65+0.25=0.90，满足上述第一条件；计算第一行除列号为1外的其他所有元素的和值0.25，满足上述第二条件。计算第二行所有元素的和值0.3+0.57=0.87，满足上述第一条件；计算第二行除列号为2外的其他所有元素的和值0.3，满足上述第二条件。因此，可以将行号为1-2、列号为1-2的矩阵确定为最小矩阵，并对i赋值i=1+1+1=3，k=1。确定行号3-4、列号3-4对应的矩阵

，采用上述方式判断出该预选矩阵不满足成词条件，判断k=1不大于N-i=7-3=4，则对k赋值k=1+1=2，确定行号3-5、列号3-5对应的矩阵

，判断该预选矩阵符合成词条件，将其确定为最小矩阵，并对i赋值i=3+2+1=6，k=1。确定行号6-7、列号6-7对应的矩阵

，判断该预选矩阵不满足成词条件，判断k=1等于N-i=7-6=1，则对i赋值i+6+1=7，判断i=N，符合结束成词条件，则将上述两个最小矩阵对应的词语“现在”、“云原生”以及对应的行列号对应存储到专业术语候选集，并结束循环查找操作。

S26、将待提取数据输入到通用Bert模型中，得到通用attention矩阵。

一种可行的实施方式中，将待提取数据输入到通用Bert模型中后，取通用Bert模型中最上层layer的attention矩阵，作为通用attention矩阵，为了方便描述，可以将通用attention矩阵命名为att_matrix。att_matrix中的每个元素表示两个字之间的通用语义相关强度，例如，对于待提取数据的语句的att_matrix中，第x行第y列对应的元素表示语句中第y个字对于第x个字的通用语义相关强度，当x=y时，第x行第y列对应的元素表示语句中第x个字的自相关强度。

S27、在att_matrix中确定专业术语候选集中的每个词语对应的关系矩阵，将对应的关系矩阵不满足成词条件的词语确定为专业术语。

一种可行的实施方式中，一个词语的通用性与专业性是相对的，当词语的通用性比较高时，可以说明该词语不是专业术语。因此，可以将专业术语候选集中通用性较高的词语筛掉，具体的流程可以包括下述步骤：

对于专业术语候选集中的每个词语，根据对应的行号以及列号，在att_matrix中确定词语对应的关系矩阵，判断关系矩阵是否满足成词条件，如果关系矩阵不满足成词条件，则将关系矩阵对应的词语确定为专业术语，如果关系矩阵满足成词条件，则将关系矩阵从专业术语候选集中删除。判断关系矩阵是否满足成词条件的具体操作过程可以参照上述步骤S24，本发明在此不作赘述。

依旧以待提取数据为“现在云原生火了”、第一阈值为0.85、第二阈值为0.25为例，将该语句输入到通用Bert模型中，得到该语句对应的att_matrix，可以如下表2所示。

专业术语候选集中的两个词语“现在”、“云原生”，“现在”对应的关系矩阵满足上述成词条件，说明“现在”这个词语的通用性更强，因此，不符合专业术语，将“现在”这个词语从专业术语候选集中删除。“云原生”对应的关系矩阵不满足上述成词条件，说明“云原生”这个词语的通用性较低，因此符合专业术语，将该词语确定为专业术语。

图3是根据一示例性实施例示出的一种基于Bert模型的专业术语提取装置框图，所述基于Bert模型的专业术语提取装置用于实现上述基于Bert模型的专业术语提取的方法。参照图3，该装置包括：

获取模块310，用于获取预先训练好的通用Bert模型和专业Bert模型，其中，所述通用Bert模型根据通用训练样本训练得到，所述专业Bert模型根据专业训练样本训练得到；

所述获取模块310，还用于获取待提取数据；

输入模块320，用于将所述待提取数据分别输入到所述通用Bert模型以及所述专业Bert模型，得到所述待提取数据的通用attention矩阵以及专业attention矩阵；其中，将所述通用attention矩阵命名为att_matrix，将所述专业attention矩阵命名为pro_att_matrix；

确定模块330，用于在所述pro_att_matrix中，确定出满足成词条件的最小矩阵，将最小矩阵对应的词语加入到专业术语候选集；

所述确定模块330，还用于在所述att_matrix中确定所述专业术语候选集中的每个词语对应的关系矩阵，将对应的关系矩阵不满足所述成词条件的词语确定为专业术语。

可选地，所述确定模块330，用于：

S44、如果所述预选矩阵符合所述成词条件，则将所述预选矩阵确定为最小矩阵，将最小矩阵对应的词语加入到专业术语候选集中，且i=i+k+1，k=1，转去执行S42；如果所述预选矩阵不符合所述成词条件，则转去执行S45；

S46、将i=i+1，k=1，转去执行S42；

S47、结束循环操作。

可选地，所述成词条件包括第一条件和第二条件；

所述确定模块330，用于：

可选地，所述确定模块330，用于：

图4是本发明实施例提供的一种电子设备400的结构示意图，该电子设备400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（centralprocessing units，CPU）401和一个或一个以上的存储器402，其中，所述存储器402中存储有至少一条指令，所述至少一条指令由所述处理器401加载并执行以实现上述基于Bert模型的专业术语提取方法的步骤。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述基于Bert模型的专业术语提取方法。例如，所述计算机可读存储介质可以是ROM、随机存取存储器（RAM）、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于Bert模型的专业术语提取方法，其特征在于，所述方法包括：

S2、获取待提取数据；

S4、在所述pro_att_matrix中，确定出满足成词条件的最小矩阵，将所述最小矩阵对应的词语加入到专业术语候选集；

2.根据权利要求1所述的方法，其特征在于，所述S4中的在所述pro_att_matrix中，确定出满足成词条件的最小矩阵，将最小矩阵对应的词语加入到专业术语候选集，包括：

S46、将i=i+1，k=1，转去执行S42；

S47、结束循环操作。

3.根据权利要求2所述的方法，其特征在于，所述成词条件包括第一条件和第二条件；

所述确定出满足成词条件的最小矩阵，包括：

4.根据权利要求2所述的方法，其特征在于，所述将最小矩阵对应的词语加入到专业术语候选集，包括：

5.根据权利要求4所述的方法，其特征在于，所述在所述att_matrix中确定所述专业术语候选集中的每个词语对应的关系矩阵，将对应的关系矩阵不满足所述成词条件的词语确定为专业术语，包括：

6.一种基于Bert模型的专业术语提取装置，其特征在于，所述装置包括：

所述获取模块，还用于获取待提取数据；

7.根据权利要求6所述的装置，其特征在于，所述确定模块，用于：

S46、将i=i+1，k=1，转去执行S42；

S47、结束循环操作。

8.根据权利要求7所述的装置，其特征在于，所述成词条件包括第一条件和第二条件；

所述确定模块，用于：

9.根据权利要求7所述的装置，其特征在于，所述确定模块，用于：

10.根据权利要求9所述的装置，其特征在于，所述确定模块，用于：