CN117131188A

CN117131188A - 一种基于语义容错的大规模勘探开发bert分类方法

Info

Publication number: CN117131188A
Application number: CN202210551651.4A
Authority: CN
Inventors: 颜世磊; 孙晓杰; 郑云拓; 张敏; 李晶晶; 李妍琛; 宋建; 史纪强; 任恩茂; 王文蔚
Original assignee: China Petroleum and Chemical Corp; Geophysical Research Institute of Sinopec Shengli Oilfield Co
Current assignee: China Petroleum and Chemical Corp; Geophysical Research Institute of Sinopec Shengli Oilfield Co
Priority date: 2022-05-20
Filing date: 2022-05-20
Publication date: 2023-11-28

Abstract

本发明提供的一种基于语义容错的大规模勘探开发BERT分类方法包括：对文献施加一定比例的随机噪声，并扩展语料；根据扩展语料采用BERT算法实现上下文相关的1阶分类，获得分类语句；对所述分类语句采用开源的结巴分词模块进行分词。通过输入文本在保持文本篇章结构不变的前提下对句子进行加错处理，扩大语料的数量，同时采用BERT算法以句子对为输入，实现了1型语法对前后文的记忆，间接实现了对篇章结构知识的理解。

Description

一种基于语义容错的大规模勘探开发BERT分类方法

技术领域

本发明涉及勘探开发技术领域，尤其涉及一种基于语义容错的大规模勘探开发BERT分类方法。

背景技术

面向勘探开发综合研究过程产生的成果报告，为了提高研究成果查询准确率、实现精准推送，对非结构化成果报告需要采取机器学习的方法，对文本进行准确的业务分类。

传统的NLP业务分类方法一般通过采集大量样本进行人工标注的方法获得标注语料，然后通过规则方法、统计学习方法如CRF或者深度学习方法LSTM建立模型。

行业应用难以获得大规模语料，虽然公共平台容易获得大量数据，如CNKI或者百度文库，但是对于某一个特定的专业应用能获得的数据是非常有限的，如石油上游业务勘探开发综合应用文献。以”勘探开发综合应用”为关键词在CNKI查查询文献的总数是73篇，包括杂志文献、学位论文；胜利油田物探院内研究用部文献将图片、表格和各种格式的文本文件算在一起只有157篇。行业应用难以获得大规模语料，因此难以开展有效的大规模分类技术研究。

传统分类方法采用0阶语法，0阶语法是上下文无关语法，将一篇文献无论多长都按句子进行打散，去掉句子之间的关联关系，将句子都标为整篇文献的类别，然后进行分类。最重要的知识是句子之间的关系，因此0阶语法抽掉了整篇文献最精华的知识框架，抛弃了文献中最重要的高层次知识，所以传统分类方法所采用的处理手段不能有效地表达整篇文献的核心内容。

发明内容

鉴于上述问题，提出了本发明以便提供克服上述问题或者至少部分地解决上述问题的一种基于语义容错的大规模勘探开发BERT分类方法。

本发明的提供了一种基于语义容错的大规模勘探开发BERT分类方法包括：

对文献施加一定比例的随机噪声，并扩展语料；

根据扩展语料采用BERT算法实现上下文相关的1阶分类，获得分类语句；

对所述分类语句采用开源的结巴分词模块进行分词。

可选的，所述对文献施加一定比例的随机噪声，并扩展语料包括：

对文献施加随机噪声，使文献出现一定比例的字、词错误；

反用搜索词纠错技术，构造一篇新文献，重复操作构建大量的标注语料。

可选的，所述根据扩展语料采用BERT算法实现上下文相关的1阶分类，获得分类语句具体包括：

将文献按顺序输入进行分类，利用BERT算法对上下文的及功能，实现对文献进行1阶语法分类；

BERT的段落重排序任务是将一篇文章的各段打乱，然后通过重新排序把原文还原出来，用于实现算法对全文的充分准确了解。

可选的，所述对所述分类语句采用开源的结巴分词模块进行分词具体包括：

对句子采用开源的结巴分词模块进行分词，得到以词为单位的句子；

在分词过程中，对于专业词汇要增加用户字典，用于提升分词的准确率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明一种基于语义容错的大规模勘探开发BERT分类方法的流程图；

图2为本发明基于语义容错的大规模勘探开发BERT分类方法路线图；

图3为本发明提供的语料存储示意图；

图4为本发明提供的同音词字典示意图；

图5为本发明提供的文献按照句子顺序排列示意图；

图6为本发明提供的用户自定义字典示意图；

图7为本发明提供的分词后的结果示意图；

图8为本发明提供的拼音选择错词示意图；

图9为本发明提供的同音加错后的文本；

图10为本发明提供的随机加错后的文本；

图11为本发明提供的BERT算法原理示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明的说明书实施例和权利要求书及附图中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元。

下面结合附图和实施例，对本发明的技术方案做进一步的详细描述。

如图1所示，一种基于语义容错的大规模勘探开发BERT分类方法包括：

步骤100：对文献施加一定比例的随机噪声，并扩展语料；

步骤200：根据扩展语料采用BERT算法实现上下文相关的1阶分类，获得分类语句；

步骤300：对所述分类语句采用开源的结巴分词模块进行分词。

首先，施加噪声扩展语料，对文献施加一定比例的随机噪声，使文献出现一定比例的字、词错误，但不影响人的阅读理解，反用搜索词纠错技术，构造一篇新文献，重复构建大量的标注语料。

比如“冀中坳陷潜山构造演化特征及其石油地质意义”出现错别字的情况“冀中凹陷潜山构造演化特征及其石油地质意义”、“冀中凹陷潜山购造演化特征及其石由地质意义”，虽然出现的错别字会影响人们的阅读体验，但是并不影响人们对这篇文献的核心内容的理解。

其次，采用BERT算法实现上下文相关的1阶分类，将文献按顺序输入进行分类，利用BERT算法对上下文的及功能，实现对文献进行1阶语法分类。BERT的“段落重排序“任务是将一篇文章的各段打乱，然后通过重新排序把原文还原出来，实现了算法对全文的充分准确的了解。

参照图2，基于语义容错的大规模勘探开发BERT分类方法的路线包括2层，1层为数据层，为算法提供字典和相应的语料；2层为数据处理层，将对输入文本扩充并构建BERT模型。

层1又由1-1原始-扩展语料库、1-2同音词字典。1-1原始-扩展语料库为一个子目录，目录名称为类名，目录下保存了原始文件，扩展文件不保存，如图3所示。

1-2同音词字典为一副同音词字典文本文件，包括开源的同音词字典和从内部知识管理平台的搜索词中收录到的业务人员使用中出现的同音词，如图4所示，其中talimu/他里木、talimu/他里目2条记录就是内部知识管理平台中通过搜索获取的同音异义词。

层2为数据处理层，包括读取文献2-1、同音错词2-2、随机错词2-3、BERT模型2-4、结果评估2-5。

读取文献2-1包括文本读取、文本类型转换和分词。

在文本读取中，根据文本的类型不同，调用不同的读取方法和文本处理方法见表1所示。对于变换后的文本首先以段落先后顺序排序，然后对于段落中的多句子以句号“。“为分隔符对文献进行句子分割最终将整个文献的文本按照先后顺序排列成为一列。如图5所示。

表1文件类型及处理方法

最后对句子采用开源的结巴分词模块进行分词，得到以词为单位的句子。在分词过程中，对于专业词汇要增加用户字典，以提升专业分词的准确率，方法增加一副用户自定义字典user.dic，然后通过如下2句对用户自定义字典进行调用。用户定义字典一般带有语义，除了专业词汇之外，很多是命名实体对象，比如滨443井、单家寺油田，如果再拆成小粒度，比如单家寺油田拆成单家寺/油田，虽然从分词角度没有问题，但是从业务上难以理解。因此，用户字典要从应用最小粒度出发来整理词汇。

分词之后的结果如图7所示。

同音错词2-2是指在中文拼英输入法输入中文的时候，经常会选错词，比如“出露”是石油领域的常用词，但不是日常中的常用词，在输入chulu的时候，出现如下的智能关联选择项，就会因为误选出现错词。

按照整篇词总数的5％的概率进行加错处理，如图8所示，例如，词总数为119，同音加错处理的词为119*0.05＝6个，同音加错的词如下：南坡/难破；出露/出路；向南/湘南；油源/有源；沉积/成绩；两套/两桃。同音加错后的文本如图9所示。

随机错词2-3为对整篇的词按照一个比例随机更改，主要描述打错键的情况，比如拼音输入法打入chulu的时候，由于u和i靠得近，有时会打错，达成了chuli，以1/1000概率来模拟这种错误。例中，总共1290个拼音字母更改1个，将si更改为su，沙四下更改为沙苏下，随机加错后的文本，如图10所示。

经过随机错词2-3之后，对文本的加错处理就结束了，最终得到一篇经过加错的新文献，作为BERT算法的输入。

从整个过程看出，基于词级的错误没有改变整个文献的篇章结构和句子的内涵，因此不影响专业人士对文献内容的整体把握，虽然5％的同音加错的比例需要调整。

BERT2-4是指采用BERT算法对输入文本进行建模，并用来对未知文献进行预测。

BERT的全称是Bidirectional Encoder Representation from Transformers，即双向Transformer的Encoder，因为纯粹的Decoder是不能获要预测的信息。模型的主要创新点都在pre-train方法上，即用了Masked LM和Next Sentence Prediction两种方法分别捕捉词语和句子级别的representation。

BERT的输入是单一的一个句子或者是句子对，实际的输入值包括了三个部分，分别是token embedding词向量，segment embedding句向量，每个句子有个句子整体的embedding项对应给每个单词，还有position embedding位置向量，这三个部分相加形成了最终的bert输入向量，如图11所示。

其中：Token Embeddings是词向量，第一个单词是CLS标志，可以用于之后的分类任务。

Segment Embeddings用来区别两种句子，因为预训练不光做LM还要做以两个句子为输入的分类任务。Position Embeddings是学习出来的。

从https://github.com/applio/python-bert上获取开源项目包，然后以句子对方式组成输入数据，运算得到BERT模型。

结果评估2-5是指通过测试结果对所采用的算法进行验证，采用准确率和召回率来进行评价。通过3个分类各篇文献进行扩展，所得到测试结果如表2所示，平均准确率为91.1％，这个结果满足工程上对分类主准确率>85％的要求。

表2测试结果

有益效果：本发明通过输入文本在保持文本篇章结构不变的前提下对句子进行加错处理，以扩大语料的数量，同时采用BERT算法以句子对为输入，实现了1型语法对前后文的记忆，间接实现了对篇章结构知识的理解，达到91.1％的分类准确率，满足了工程上对业务分类的要求。

以上的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于语义容错的大规模勘探开发BERT分类方法，其特征在于，所述分类方法包括：

对文献施加一定比例的随机噪声，并扩展语料；

对所述分类语句采用开源的结巴分词模块进行分词。

2.根据权利要求1所述的一种基于语义容错的大规模勘探开发BERT分类方法，其特征在于，所述对文献施加一定比例的随机噪声，并扩展语料包括：

对文献施加随机噪声，使文献出现一定比例的字、词错误；

3.根据权利要求1所述的一种基于语义容错的大规模勘探开发BERT分类方法，其特征在于，所述根据扩展语料采用BERT算法实现上下文相关的1阶分类，获得分类语句具体包括：

4.根据权利要求1所述的一种基于语义容错的大规模勘探开发BERT分类方法，其特征在于，所述对所述分类语句采用开源的结巴分词模块进行分词具体包括：