CN117312500B

CN117312500B - 一种基于ann和bert的语义检索模型建立方法

Info

Publication number: CN117312500B
Application number: CN202311624188.2A
Authority: CN
Inventors: 宋耀; 魏传强; 司君波; 李涛; 李玉
Original assignee: Shandong Qilu Yidian Media Co ltd
Current assignee: Shandong Qilu Yidian Media Co ltd
Priority date: 2023-11-30
Filing date: 2023-11-30
Publication date: 2024-02-27
Anticipated expiration: 2043-11-30
Also published as: CN117312500A

Abstract

一种基于ANN和BERT的语义检索模型建立方法，属于文本检索领域，包括以下步骤：S1、数据准备：准备若干个文本的训练数据和测试数据；S2、数据预处理：对所述训练数据进行预处理，包括文本清洗、文本数据预处理，以便于ANN和BERT模型的输入；S3、BERT预训练：通过BERT模型，具体采用RoBERTa模型，从文本中捕捉到丰富的语义信息，然后采用TinyBERT进行结构蒸馏，通过多次调整参数来进行训练，能够大大提高预训练知识的保留，减少流失。本发明提供了一种基于ANN和BERT的语义检索模型建立方法，基于ANN和BERT的特性，将二者相结合，建立一种准确率和效率更高的语义检索模型。

Description

一种基于ANN和BERT的语义检索模型建立方法

技术领域

本发明属于文本检索领域，具体涉及一种基于ANN和BERT的语义检索模型建立方法。

背景技术

近年来，随着大规模数据和深度学习技术的发展，文本相似性匹配在各种自然语言处理应用中变得越来越重要，如：构建搜索引擎、问答社区、客服聊天机器人、内容推荐等，但是一些搜索算法模型或在搜索效率上较低，或在搜索精度上较低，会影响到语义检索的速度和精确度，例如，模型对相关领域知识理解不够充分造成搜索召回结果存在实体偏差的问题；模型对长尾样本语义理解不充分，则部分长尾低频搜索词下召回的结果较少等问题。

为了克服现有技术中搜索算法模型在搜索效率上较低、在搜索精度上较低的问题，需要一种更好的语义检索模型，本发明针对这一技术问题进行解决。

发明内容

本发明提供了一种基于ANN和BERT的语义检索模型建立方法，基于ANN和BERT的特性，将二者相结合，建立一种准确率和效率更高的语义检索模型。

一种基于ANN和BERT的语义检索模型建立方法，包括以下步骤：

S1、数据准备：准备若干个文本的训练数据和测试数据；

S2、数据预处理：对所述训练数据进行预处理，包括文本清洗、文本数据预处理，以便于ANN和BERT模型的输入；

S3、BERT预训练：通过BERT模型，具体采用RoBERTa模型，从文本中捕捉到丰富的语义信息，然后采用TinyBERT进行结构蒸馏，通过多次调整参数来进行训练，当模型设置为316H_12L_12A，即自注意力头设置为12个，隐藏单元设置为316个，训练层仍为同一的12层时，能够大大提高预训练知识的保留，减少流失；

S4、使用预训练的BERT模型对文本数据进行特征提取：首先，使用双向Transformer模型的EncoderLayer对文本进行特征提取，然后，对文本数据进行微调，以适应特定的任务；

S5、建立索引：将所有文本特征表示存储在ANN索引中；

S6、检索阶段：当有新的检索query时，同样使用BERT模型提取其特征，然后，使用ANN索引来查找最接近查询对话的最近邻。

进一步的，所述步骤S2中的文本清洗包括以下步骤：

S21、筛选与主题相关的数据：从原始数据集中筛选出与挖掘主题相关的数据，处理无关数据和重复数据；

S22、处理缺失值：识别缺失值并通过删除、替换、插补进行处理；

S23、处理异常值：识别异常值并通过删除、视为缺失值进行处理。

进一步的，所述步骤S2中的文本数据预处理包括以下步骤：

S24、数据脱敏：对敏感数据进行变形处理，以保护数据隐私；

S25、分词：将文本分割成单个的词语、标点符号，以便更好地提取特征；

S26、去除停用词：去除常见但无意义的词语，以减少噪声；

S27、词干提取：提取词语的基本形式，以减少词汇量的冗余。

进一步的，所述步骤S3包括以下步骤：

S31、安装Transformers和PyTorch；

S32、加载所需的模型和数据集，python代码如下：

from transformers import RobertaModel

S33、准备数据加载器，将数据集转换为适合训练和评估的形式，并将其加载到PyTorch张量中；

S34、开始训练，使用Hugging Face的Trainer类来管理训练过程；

S35、使用TinyBERT对训练得到的RoBERTa模型进行结构蒸馏，并创建一个12层的TinyBERT模型；

S36、准备蒸馏数据，需要将原始的RoBERTa模型的预测结果（概率值）和TinyBERT模型的预测结果（概率值）作为蒸馏数据；

S37、开始蒸馏，Hugging Face的DistillationLoss类来计算蒸馏损失。

进一步的，所述步骤S4包括以下步骤：

S41、将输入文本映射为一系列的tokens，并添加特殊的tokens作为边界标识；

S42、将tokens转换为对应的索引序列，并将它们输入到BERT模型的EncoderLayer中；

S43、在每个EncoderLayer中，BERT使用自注意力机制对输入序列进行编码，得到每个token的表示向量；

S44、将表示向量逐层传递，直到最后一层，得到每个token的最终表示向量；

S45、将每个token的表示向量输入到全连接层中，得到每个token的预测结果。

进一步的，所述步骤S5中的ANN索引使用Locality Sensitive Hashing (LSH)技术来构建，以便快速查找近似最近邻，具体是将每个文本特征表示转换为二进制向量，并使用LSH算法将这些向量哈希为一系列桶；然后，在每个桶中维护一个最小堆，用于快速查找最近邻。

进一步的，所述步骤S6具体为：在索引中执行多次查询，每次返回最近的K个候选对话，然后合并这些候选对话并进行下一步筛选，在查询时使用近似最近邻算法来快速查找最近邻。

本发明的技术效果如下：

（1）本方案中的训练模型通过不断地调整，从4层自训练的BERT模型，逐步更新为统一12层预训练模型，采用开源RoBERTa预训练模型进行训练，同时，采用TinyBERT进行结构蒸馏，通过多次调整参数训练来调整参数达到最优，提高了预训练知识的保留，减少流失，提高了搜索的精度，并且可以快速查找近似最近邻，提高了搜索效率；

（2）采用TinyBERT结构蒸馏，TinyBERT是一种将大型预训练语言模型的知识蒸馏到较小模型的方法，以在资源受限的环境中实现高性能；

（3）BERT模型的特征提取过程是基于全局的上下文信息，同时使用了双向信息流，这样不仅可以提取当前词的前文信息，还可以提取当前词的后文信息，有助于理解语义和上下文关系；

（4）在特征提取的过程中，BERT模型将输入的文本数据转化为768维的向量表示。这些向量包含了文本的特征信息，可以用于后续的分类、聚类等任务。

附图说明

图1为本发明中语义检索模型建立的流程框图。

具体实施方式

下面将结合具体的实施例及附图，对本发明的技术方案进行清楚、完整的描述。

参见图1，一种基于ANN和BERT的语义检索模型建立方法，包括以下步骤：

S1、数据准备：准备若干个文本的训练数据和测试数据，在实验中，使用了两个大规模的语料库：WikiText-103和CNN/DailyMail，从WikiText-103和CNN/DailyMail数据集中选择训练数据和测试数据，WikiText-103包含103个主题的文本数据，每个主题包含约2000个文章和摘要，总计约200万个文本CNN/DailyMail包含约30万个问题和答案片段，从这些数据集中选择10万个文本作为训练数据，另外1万个文本作为测试数据；

S2、数据预处理：对训练数据进行预处理，包括文本清洗、文本数据预处理，以便于ANN和BERT模型的输入；

S4、使用预训练的BERT模型对文本数据进行特征提取：首先，使用双向Transformer模型的EncoderLayer对文本进行特征提取，BERT模型中没有Decoder部分，然后，对文本数据进行微调，以适应特定的任务，在这个阶段，可以使用不同的微调方法，如fine-tuning或distillation，这里采用fine-tuning；

S5、建立索引：将所有文本特征表示存储在ANN索引中；

进一步的，步骤S2中的文本清洗包括以下步骤：

S22、处理缺失值：识别缺失值并选择适当的方法进行处理，方法可以为删除、替换或插补，在WikiText-103和CNN/DailyMail数据集中，可以检查每篇文章或摘要是否存在缺失值；

S23、处理异常值：识别异常值并选择适当的方法进行处理，方法可以为删除或视为缺失值，在WikiText-103和CNN/DailyMail数据集中，可以检查是否存在异常值。

进一步的，步骤S2中的文本数据预处理包括以下步骤：

S24、数据脱敏：对敏感数据进行变形处理，以保护数据隐私，在WikiText-103和CNN/DailyMail数据集中，可以对敏感信息进行脱敏处理；

S25、分词：将文本分割成单个的词语、标点符号，以便更好地提取特征，在WikiText-103和CNN/DailyMail数据集中，可以使用分词工具将文章和摘要分割成单个的词语或标点符号；

S26、去除停用词：去除常见但无意义的词语，以减少噪声，在WikiText-103和CNN/DailyMail数据集中，可以去除停用词，如“的”、“了”等；

S27、词干提取：提取词语的基本形式，以减少词汇量的冗余，在WikiText-103和CNN/DailyMail数据集中，可以使用词干提取工具提取词语的基本形式。

进一步的，步骤S3包括以下步骤：

S31、安装Transformers和PyTorch；

S32、加载所需的模型和数据集，python代码如下：

from transformers import RobertaModel

S34、开始训练，使用Hugging Face的Trainer类来管理训练过程，训练代码如下：

rom transformers import Trainer, TrainingArguments

training_args = TrainingArguments(

output_dir="./roberta_model",

overwrite_output_dir=True,

num_train_epochs=3,

per_device_train_batch_size=16,

save_steps=1000,

)

trainer = Trainer(

model=model,

args=training_args,

train_dataset=train_dataset,

eval_dataset=eval_dataset,

)

trainer.train()

S35、使用TinyBERT对训练得到的RoBERTa模型进行结构蒸馏，并创建一个12层的TinyBERT模型：

from tinybert import TinyBERTModel, BertTokenizer, create_tinybert_model, create_training_data

# 加载预训练的RoBERTa模型和tokenizer

roberta = RobertaModel.from_pretrained('roberta-base')

tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

# 创建12层的TinyBERT模型

tinybert = create_tinybert_model(roberta, 12)

S36、准备蒸馏数据，需要将原始的RoBERTa模型的预测结果（概率值）和TinyBERT模型的预测结果（概率值）作为蒸馏数据，使用以下代码创建蒸馏数据：

# 准备原始的RoBERTa模型的预测结果（概率值）和TinyBERT模型的预测结果（概率值）作为蒸馏数据

original_predictions = ... # 原始的RoBERTa模型的预测结果（概率值）

distilled_predictions = ... # TinyBERT模型的预测结果（概率值）

S37、开始蒸馏，Hugging Face的DistillationLoss类来计算蒸馏损失：

# 开始蒸馏

# 创建DistillationLoss对象

distillation_loss = distillation.DistillationLoss()

# 计算蒸馏损失

output = distillation_loss(original_predictions.view(-1), distilled_predictions.view(-1))

进一步的，步骤S4包括以下步骤：

S41、将输入文本映射为一系列的tokens，并添加特殊的tokens作为边界标识，如[CLS]和[SEP]；

BERT模型的特征提取过程是基于全局的上下文信息，同时使用了双向信息流。这样不仅可以提取当前词的前文信息，还可以提取当前词的后文信息，有助于理解语义和上下文关系。

在特征提取的过程中，BERT模型将输入的文本数据转化为768维的向量表示。这些向量包含了文本的特征信息，可以用于后续的分类、聚类等任务。

进一步的，步骤S5中的ANN索引使用Locality Sensitive Hashing (LSH)技术来构建，以便快速查找近似最近邻，具体是将每个文本特征表示转换为二进制向量，并使用LSH算法将这些向量哈希为一系列桶；然后，在每个桶中维护一个最小堆，用于快速查找最近邻。

进一步的，步骤S6具体为：可以在索引中执行多次查询，每次返回最近的K个候选对话，然后合并这些候选对话并进行下一步筛选，为了提高效率，可以在查询时使用近似最近邻算法（例如Annoy或Faiss）来快速查找最近邻。

模型建立之后，为了评估模型的性能，这里使用常见的检索评估指标，准确率、召回率、F1得分等。

实验结果表明，结合ANN算法和BERT模型的语义检索方法在准确率和效率方面均优于单独使用BERT的方法，具体实验结果如下：

当单独使用BERT时，准确率为71.3%，召回率为84.1%，F1得分是79.8%；

当使用本方案的ANN算法和BERT模型的语义检索模型时，准确率为81.7%，召回率为87.5%，F1得分是84.5%。

ANN，近似最近邻算法是用于在高维空间中近似地查找最接近给定查询点的数据点的一类算法，在高维空间中，传统的最近邻搜索变得非常耗时，因为数据点之间的距离计算和比较复杂度增加，ANN算法的目标是通过牺牲一些精确性，来提高搜索效率，以适应大规模高维数据的情况。

BERT，是一种基于Transformer架构的预训练模型，由Google在2018年发布，它在自然语言处理（NLP）领域引起了巨大的影响，因为它在多个NLP任务上取得了非常显著的性能提升，甚至在某些任务上超越了人类表现，BERT之所以引人注目，是因为它采用了预训练-微调的策略，通过在大规模文本语料上进行预训练来学习通用的语言表示，然后在特定任务上进行微调，从而适应不同的应用。

上述实施例仅为本发明的优选实施例，本领域技术人员可以在不付出创造性劳动的前提下，从上述实施例得到其它的实施例，故本申请保护的不仅为上述实施例，而是保护与本申请的原理和特征相一致的最宽的范围。

Claims

1.一种基于ANN和BERT的语义检索模型建立方法，其特征在于，包括以下步骤：

S1、数据准备：准备若干个文本的训练数据和测试数据；

S5、建立索引：将所有文本特征表示存储在ANN索引中；

S6、检索阶段：当有新的检索query时，同样使用BERT模型提取其特征，然后，使用ANN索引来查找最接近查询对话的最近邻；

所述步骤S5中的ANN索引使用Locality Sensitive Hashing (LSH)技术来构建，以便快速查找近似最近邻，具体是将每个文本特征表示转换为二进制向量，并使用LSH算法将这些向量哈希为一系列桶；然后，在每个桶中维护一个最小堆，用于快速查找最近邻；

所述步骤S6具体为：在索引中执行多次查询，每次返回最近的K个候选对话，然后合并这些候选对话并进行下一步筛选，在查询时使用近似最近邻算法来快速查找最近邻。

2.根据权利要求1所述的基于ANN和BERT的语义检索模型建立方法，其特征在于，所述步骤S2中的文本清洗包括以下步骤：

3.根据权利要求1所述的基于ANN和BERT的语义检索模型建立方法，其特征在于，所述步骤S2中的文本数据预处理包括以下步骤：

S26、去除停用词：去除常见但无意义的词语，以减少噪声；

4.根据权利要求1所述的基于ANN和BERT的语义检索模型建立方法，其特征在于，所述步骤S3包括以下步骤：

S31、安装Transformers和PyTorch；

S32、加载所需的模型和数据集，python代码如下：

from transformers import RobertaModel

S34、开始训练，使用Hugging Face的Trainer类来管理训练过程；

S37、开始蒸馏，Hugging Face的DistillationLoss类来计算蒸馏损失。

5.根据权利要求1所述的基于ANN和BERT的语义检索模型建立方法，其特征在于，所述步骤S4包括以下步骤：