CN112101010A

CN112101010A - 一种基于bert的电信行业oa办公自动化文稿审核的方法

Info

Publication number: CN112101010A
Application number: CN202011316561.4A
Authority: CN
Inventors: 魏利明; 费春勇; 黄峰
Original assignee: Zhongbo Information Technology Institute Co ltd
Current assignee: Zhongbo Information Technology Institute Co ltd
Priority date: 2020-11-23
Filing date: 2020-11-23
Publication date: 2020-12-18
Anticipated expiration: 2040-11-23
Also published as: CN112101010B

Abstract

本发明公开了一种基于BERT的电信行业OA办公自动化文稿审核的方法，属于大数据领域，建立客户端模块、敏感词识别模块、词语纠错模块和语义分析模块，解决了传统人工审核的效率低的问题的技术问题，本发明采用了BERT对特定领域的文稿进行了大规模的预训练，并基于此对文稿进行审核，提高了审核的准确性，同时将文字纠错、敏感词、语义等功能进行集成，能够很好的满足用户的各种需求。

Description

一种基于BERT的电信行业OA办公自动化文稿审核的方法

技术领域

本发明属于大数据技术领域，涉及一种基于BERT的电信行业OA办公自动化文稿审核的方法。

背景技术

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。是计算机科学，人工智能，语言学关注计算机和人类（自然）语言之间的相互作用的领域。

由于传统的人工审核系统在新闻文稿过多的情况，单凭人工审核，往往会消耗大量人力资源。而且可能存在审核不准确的情形。

发明内容

本发明的目的是提供一种基于BERT的电信行业OA办公自动化文稿审核的方法，解决了传统人工审核的效率低的问题的技术问题。

为实现上述目的，本发明采用如下技术方案：

一种基于BERT的电信行业OA办公自动化文稿审核的方法，包括如下步骤：

步骤1：建立客户端模块、敏感词识别模块、词语纠错模块和语义分析模块；

客户端模块用于录入待审核文本；

敏感词识别模块用于对待审核文本进行搜索匹配；

词语纠错模块用于对待审核文本中的错别字进行识别和纠正；

语义分析模块用于对待审核文本的逻辑性进行审核，找出语句不通顺的句子；

步骤2：客户端模块接收用户录入的待审核文本，并通过客户端模块选择进行敏感词审核、纠错审核或语义分析审核；

步骤3：客户端模块将待审核文本发送给敏感词识别模块，敏感词识别模块根据电信领域的敏感词词典，对待审核文本进行最大搜索匹配，识别出待审核文本中包含的所有敏感词，并对所有敏感词进行标注，得到敏感词集合；

同时，客户端模块将待审核文本发送给词语纠错模块，词语纠错模块采用BERT模型，对待审核文本中的每个词取得分，选取得分排在前5的词作为候选词，建立候选词集合；

若候选词中没有待审核的词语说明待审核的词语可能为错误的词语，将该词的谐音词、混肴词与候选词进行取交集并降序，并将交集后出现次数最多的词作为纠错后的词语；

词语纠错模块对错误的词语进行标注，并输出纠错后的词语，生成修改文本；

步骤4：当用户选择的是进行敏感词审核时，敏感词识别模块输出敏感词集合到客户端模块，客户端模块向用户展示敏感词集合；

步骤5：当用户选择的是进行纠错审核时，词语纠错模块输出修改文本，客户端模块向用户展示修改文本；

步骤6：当用户选择的是语义分析审核时，语义分析模块调取待审核文本、候选词集合和修改文本，生成标注后文本，语义分析模块对标注后文本中的所有句子进行逻辑审核，即，利用BERT模型对任意一个句子的上下文进行预测，从而得到该句子的最大似然概率，并得到语义分析的结果：若该句子的最大似然概率值低于阈值则表明该句子存在语句不通顺，存在逻辑不当问题，标注该句子为病句；反之，则标注该句子为正常句子；

语义分析模块向客户端模块输出语义分析的结果，客户端模块向用户展示语义分析的结果。

优选的，所述客户端模块部署在客户端服务器中，所述敏感词识别模块、词语纠错模块和语义分析模块部署在中心服务器中。

优选的，在执行步骤2时，用户还可以通过客户端模块选择进行集成处理，当用户选择集成处理后，中心服务器根据步骤3和步骤6的方法，自动对所述待审核文本进行敏感词审核、纠错审核和语义分析审核，获取敏感词集合、修改文本和语义分析的结果，客户端服务器从中心服务器中调取敏感词集合、修改文本和语义分析的结果，并展示给用户。

本发明所述的一种基于BERT的电信行业OA办公自动化文稿审核的方法，解决了传统人工审核的效率低的问题的技术问题，本发明采用了BERT对特定领域的文稿进行了大规模的预训练，并基于此对文稿进行审核，提高了审核的准确性，同时将文字纠错、敏感词、语义等功能进行集成，能够很好的满足用户的各种需求。

附图说明

图1是本发明的总体结构图；

图2是本发明的电信行业OA办公自动化文稿审核流程图；

图3是本发明的敏感词分析结构图；

图4是本发明的BERT预测结果图；

图5是本发明的纠错分析结构图；

图6是本发明的BERT编码器结构图；

图7是本发明的global-attention计算结构图；

图8是本发明的语义分析结构图。

具体实施方式

如图1-图8所示的一种基于BERT的电信行业OA办公自动化文稿审核的方法，包括如下步骤：

客户端模块用于录入待审核文本；

敏感词识别模块用于对待审核文本进行搜索匹配；

例如，输入一个“这个套餐是电信这个月助推的套餐”到纠错模块中，BERT模型会对这句话中的每个词语进行预测，比如对“助推”这个词语的预测结果如图4所示，预测的结果中有“新推”，“主推”，“首推”，“力推”，“刚推”这些词语。若BERT预测的候选词中没有待审核的词语说明该待审核词可能为错误的词语，将该词的谐音词、混肴词与候选词进行取交集并降序，并将交集后出现次数最多的词作为纠错后的词语，在此例子中，候选词中并没有“助推”这个词语，说明该词语可能为错误的词语，之后将“助推”，“zhutui”这个词和其拼音分别在混肴词典和谐音词典去寻找，得到“主推”，“助推”两个候选词，最后将该词语与BERT预测出来的词语取交集，从而得到最准确的词语为“主推”，从而实现了纠错的功能，其具体流程如图5所示。

在电信领域的OA办公自动化文稿审核系统中，存在大量的以往发布的文稿，通过对这些数据进行整理，形成知识库，再引入BERT对其进行学习，从而得到电信领域的文本特征，当再次输入文稿时，BERT将会对词语和句子进行预测，从而达到纠错分析。

BERT（以Transformers为主要框架的双向编码表征模型）采用了mask（遮盖机制）、attention（自注意力机制）和muti-head（多头机制），并在transformer模型结构下进行训练，能够很好的学习大规模的垂直领域的文本特征，从而达到很好的预测效果。

在电信领域的OA办公自动化文稿审核系统中，存在大量的以往发布的文稿，通过对这些数据进行整理，形成知识库，再引入BERT对其进行学习，从而得到电信领域的文本特征，当再次输入文稿时，BERT将会对词语和句子进行预测，从而达到纠错和语义的分析。

BERT预训练的模型结构介绍如下：

BERT从下往上可以分为三层结构：输入层、隐藏层、输出层，其结构图下图6所示；

输入层：

将过往的文稿转为由字向量（BERT）表示的三维数组，并将其作为隐藏层的输入，其中，字向量由网上公开文本数据训练得到，且向量空间为768维。在已有向量的基础之上进行微调训练，可以加快训练的速度，也使得词向量具有良好的特征表示效果，其中输入层是由位置向量（Position Embedding）、字向量（Token Embedding）、句子向量（SegmentEmbedding）拼接形成输入向量（Input Embedding）。

隐藏层：

BERT的隐藏层采用的是Transformer的编码器部分，首先对文稿进行字向量，句向量，位置向量的编码，从而提取句子中每个词，每个句子的抽象特征，然后，通过global-attention将原本由每个字向量组成的句子特征表示转换为由一个768维向量表示的新的句子特征。BERT编码器的整体结构如下图6所示，一共分为6个小Encoder（编码器），其中每个Encoder包含Multi-head（多头层机制） self-attention（自注意力层）、LayerNormalization（归一化层）、Feed Forward（前馈层）、Layer Normalization（归一化层）和full-connect（全连接层）模块，global-attention(全局注意力化层)，其全局注意力层结构如图7所示。

输出层：

输出层是mask词或者mask句的概率，最后通过softmax函数把每个词和每个句子的预测的概率计算出来，并和目标词进行交叉熵计算出其损失函数，最后，通过极大似然估计，本实施例中，最小化损失函数的公式为：

；

其中，Q表示的是未进行mask的词语或者句子，S+表示的是mask的词语或者句子，在一下公式中，最终的目标就是最小化该损失函数：

残差会在表示层的Transformer中反向传播，最终通过随机梯度下降（SGD）使模型收敛，得到各网络层的参数{Wi,bi}。

若候选词中没有该词说明该词可能为错误的词语，将该词的谐音词、混肴词与候选词进行取交集并降序，并将交集后出现次数最多的词作为纠错后的词语；

本发明将自然语言处理应用到OA办公自动化文稿审核系统，一方面能够提高文稿审核的效率，另一方面也能够解决传统人工审核的准确性问题。

本发明对电信行业的文本进行了大规模的预训练，提高了垂直领域的文稿审核的精度，通过集成分析和独立分析两种模式，很好的满足了文稿审核的需求，并且通过机器学习的方式实现了自动化的文稿审核，提高了工作的效率，可用于不同垂直领域的智能文稿审核系统，在迁移时，只需要提前整理好该垂直领域的文稿审核数据存入知识库，并根据知识库中的数据对BERT模型进行训练。

Claims

1.一种基于BERT的电信行业OA办公自动化文稿审核的方法，其特征在于：包括如下步骤：

客户端模块用于录入待审核文本；

敏感词识别模块用于对待审核文本进行搜索匹配；

若候选词中没有待审核的词语说明待审核的词语为错误的词语，将错误的词语的谐音词、混肴词与候选词进行取交集并降序，并将交集后出现次数最多的词作为纠错后的词语；

2.如权利要求1所述的一种基于BERT的电信行业OA办公自动化文稿审核的方法，其特征在于：所述客户端模块部署在客户端服务器中，所述敏感词识别模块、词语纠错模块和语义分析模块部署在中心服务器中。

3.如权利要求2所述的一种基于BERT的电信行业OA办公自动化文稿审核的方法，其特征在于：在执行步骤2时，用户还可以通过客户端模块选择进行集成处理，当用户选择集成处理后，中心服务器根据步骤3和步骤6的方法，自动对所述待审核文本进行敏感词审核、纠错审核和语义分析审核，获取敏感词集合、修改文本和语义分析的结果，客户端服务器从中心服务器中调取敏感词集合、修改文本和语义分析的结果，并展示给用户。