CN116341524A

CN116341524A - 一种应用于特种设备检测的文本纠错方法

Info

Publication number: CN116341524A
Application number: CN202310294457.7A
Authority: CN
Inventors: 龚倩; 张展彬; 何南其; 彭宇辉; 陈弘毅
Original assignee: SICHUAN SPECIAL EQUIPMENT TESTING RESEARCH INSTITUTE
Current assignee: SICHUAN SPECIAL EQUIPMENT TESTING RESEARCH INSTITUTE
Priority date: 2023-03-23
Filing date: 2023-03-23
Publication date: 2023-06-27

Abstract

本发明公开了一种应用于特种设备检测的文本纠错方法，在特种设备检测行业领域创造性综合采用多种基于机器学习模型的算法进行综合语言纠错，对特种设备检测行业检验文本的识别准确率有较好的效果，进一步提高了纠错识别的准确率。同时，本发明通过构建针对特种设备检测的知识库结合文本纠错技术，解决了现有文本纠错方法只能通过模糊的规则和语言模型识别常规错误的缺点，通过知识库进行特征筛选，使文本纠错具备业务常识，能够针对垂直领域的提法、用语错误进行识别和纠正。

Description

一种应用于特种设备检测的文本纠错方法

技术领域

本发明属于自然语言处理技术领域，具体涉及一种应用于特种设备检测的文本纠错方法的设计。

背景技术

在自然语言处理领域，中文文本纠错技术比英文文本纠错具有更高的复杂性，因中文不是单词结构，字词的拆分更为复杂多变，语义具有多义性。在早期主要使用规则和概略统计方法进行错误识别；现阶段主要基于人工智能和机器学习语言模型进行识别。业界当前主流的纠错方法主要使用管道方法，主要技术方案分为以下两种路线：

(1)基于预定义规则识别：系统一般建立一套语言规则，利用规则逐个校验文本中的词语和句子，该方法逻辑清晰、不依赖大量标注的样本数据即可完成。一般实现上先对文本进行分词、查找分词后的片段是否在常用词典和混淆词典中，再计算传统语言模型概率是否低于门限，低于则判定为错误，召回候选词时利用同音字、形近字、输入法相似召回候选字词，对候选词打分并计算句子困惑度得到候选词的权重，从而对候选词排序；这种方法通常只能对通用领域使用，但是在特定领域和针对较为复杂的错误通常无法识别，不具备特种设备检测环境的可用性。

(2)基于大样本的深度学习训练出语言模型：首先利用大量的通用文本序列标注语料进行无监督的深度学习训练，再利用对齐语料(即错误句子对应正确句子)进行有监督学习；然后利用对齐模型构建字词级别的混淆字典、先利用字、音混淆字典初步召回，再利用词语级别混淆字典筛选候选词；最后利用上下文特征和人工提取的形音、词法、语义等特征一起排序。该方法依赖海量的标注语料，当标注语料有限时，该种方法很难落地，语料数量不足、质量不高时效果较差。

目前，在特种设备检测行业应用文本纠错，暂没有对该领域应用的研究，使用现有的文本纠错方法无法对特种设备检测行业的专用词汇进行有效识别和纠错，特别是报告书使用的参数、符号等。现有文本纠错方法也无法进行识别和学习，导致在使用通用的云服务的时候，无法达到正确的特检报告书纠错的效果，还会出现由于无法识别特检专用词语，进行无效纠错，增加人工核对工作量。

综上，业界识别效果较好的文本纠错方法均需使用人工智能和机器学习算法进行错误识别和召回，通常都基于通用语言领域，并且依赖海量的标注语料进行训练，否则难以获得较好的效果，海量语料的标注需要很高的成本，通常难以落地，对于特种设备检测的专业领域识别效果较差，也难以识别知识性的专业领域错误。

发明内容

本发明的目的是为了解决现有基于通用语言领域的文本纠错方法对于特种设备检测的专业领域识别效果较差，也难以识别知识性的专业领域错误的问题，提出了一种应用于特种设备检测的文本纠错方法。

本发明的技术方案为：一种应用于特种设备检测的文本纠错方法，包括以下步骤：

S1、构建针对特种设备检测的知识库。

S2、通过字音混合语言模型提取特种设备检测文本的语义特征。

S3、通过编辑距离召回候选算法获取语义特征的候选特征。

S4、通过知识库对候选特征进行特征筛选，得到筛选特征。

S5、将筛选特征输入基于决策树的文本纠错模型，得到文本纠错结果。

进一步地，步骤S1中针对特种设备检测的知识库包括特种设备检测规则库、特种设备检测专业词库和特种设备检测混淆库。

进一步地，步骤S2中字音混合语言模型的公式为：

P_s＝ANN(c_s,c_p,c_sp)

其中P_s表示提取得到的特种设备检测文本的语义特征，ANN(·)表示无激活函数的人工神经网络，c_s表示特种设备检测文本中的上下文字特征，c_p表示特种设备检测文本中的待预测字拼音，c_sp表示特种设备检测文本中的上下文字拼音。

进一步地，步骤S3包括以下分步骤：

S31、随机选择语义特征中的一个词语作为根节点。

S32、从语义特征中选择与根节点编辑距离小于第一预设阈值的词语作为根节点的子孙节点。

S33、从语义特征中选择与当前子孙节点编辑距离小于第一预设阈值的词语作为当前子孙节点的子孙节点。

S34、重复步骤S33，直到遍历完语义特征中的所有词语，构建得到查询树，将查询树中的所有词语作为候选特征。

进一步地，步骤S4包括以下分步骤：

S41、结合知识库选取出查询树中的正确词语，并将正确词语所在节点作为查询节点。

S42、将与查询节点的编辑距离大于第二预设阈值的节点剪除。

S43、将查询树剩余节点对应的词语作为筛选特征。

进一步地，编辑距离为将一个字符串转换成另一个字符串的最少编辑操作次数。

进一步地，编辑操作包括替换、插入和删除。

进一步地，步骤S5中基于决策树的文本纠错模型的公式为：

其中L表示文本纠错结果，

表示损失函数，/>

表示前t-1棵决策树对样本i的预测值，y_i表示样本i的实际值，f_t(x_i)表示第t棵决策树对样本i的预测值，Ω(f_t)表示第t棵决策树的模型复杂度，n表示筛选特征中的样本总数。

进一步地，损失函数

的公式为：

进一步地，模型复杂度Ω(f_t)的公式为：

其中T表示第t棵决策树的叶子节点数量，

表示第t棵决策树的叶子节点得分的L2模平方，α,β均为权重参数。

本发明的有益效果是：

(1)本发明在特种设备检测行业领域创造性综合采用多种基于机器学习模型的算法进行综合语言纠错，对特种设备检测行业检验文本的识别准确率有较好的效果，进一步提高了纠错识别的准确率。

(2)本发明通过构建针对特种设备检测的知识库结合文本纠错技术，解决了现有文本纠错方法只能通过模糊的规则和语言模型识别常规错误的缺点，通过知识库进行特征筛选，使文本纠错具备业务常识，能够针对垂直领域的提法、用语错误进行识别和纠正。

(3)本发明通过字音混合语言模型提取文本的语义特征，有效利用了上下文信息，使模型能够更具有针对性地提取特种设备检测领域相关文本的语义特征。

(4)本发明通过编辑距离召回候选算法获取语义特征的候选特征，基于词语之间的编辑距离构建查询树，有效减少了计算量。

(5)本发明基于决策树构建文本纠错模型，在模型中加入了正则化项，能够使得文本纠错模型更加简单，并且能防止模型过拟合。

附图说明

图1所示为本发明实施例提供的一种应用于特种设备检测的文本纠错方法流程图。

具体实施方式

现在将参考附图来详细描述本发明的示例性实施方式。应当理解，附图中示出和描述的实施方式仅仅是示例性的，意在阐释本发明的原理和精神，而并非限制本发明的范围。

本发明实施例提供了一种应用于特种设备检测的文本纠错方法，如图1所示，包括以下步骤S1～S5：

S1、构建针对特种设备检测的知识库。

本发明实施例中，针对特种设备检测的知识库包括特种设备检测规则库、特种设备检测专业词库和特种设备检测混淆库。

本发明实施例中，字音混合语言模型的公式为：

P_s＝ANN(c_s,c_p,c_sp)

本发明实施例中，采用无激活函数的人工神经网络构建字音混合语言模型，可使用含有错误的无监督语料训练，降低整个模型的错误率。同时在模型输入部分有效利用了上下文信息，使模型能够更具有针对性地提取特种设备检测领域相关文本的语义特征。

S3、通过编辑距离召回候选算法获取语义特征的候选特征。

步骤S3包括以下分步骤S31～S34：

S31、随机选择语义特征中的一个词语作为根节点。

本发明实施例中，编辑距离为将一个字符串转换成另一个字符串的最少编辑操作次数。编辑操作包括替换、插入和删除。

S4、通过知识库对候选特征进行特征筛选，得到筛选特征。

步骤S4包括以下分步骤S41～S43：

S41、结合知识库选取出查询树中的正确词语，并将正确词语所在节点作为查询节点；

S42、将与查询节点的编辑距离大于第二预设阈值的节点剪除；

S43、将查询树剩余节点对应的词语作为筛选特征。

本发明实施例中，通过知识库对候选特征进行特征筛选过后，能够有效识别出专业词汇使用错误、敏感词使用错误、组织机构名称错误等文本错误。

本发明实施例中，基于决策树的文本纠错模型的公式为：

其中L表示文本纠错结果，

表示损失函数，/>

本发明实施例中，损失函数

的公式为：

本发明实施例中，模型复杂度Ω(f_t)的公式为：

其中T表示第t棵决策树的叶子节点数量，

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种应用于特种设备检测的文本纠错方法，其特征在于，包括以下步骤：

S1、构建针对特种设备检测的知识库；

S2、通过字音混合语言模型提取特种设备检测文本的语义特征；

S3、通过编辑距离召回候选算法获取语义特征的候选特征；

S4、通过知识库对候选特征进行特征筛选，得到筛选特征；

2.根据权利要求1所述的文本纠错方法，其特征在于，所述步骤S1中针对特种设备检测的知识库包括特种设备检测规则库、特种设备检测专业词库和特种设备检测混淆库。

3.根据权利要求1所述的文本纠错方法，其特征在于，所述步骤S2中字音混合语言模型的公式为：

P_s＝ANN(c_s,c_p,c_sp)

4.根据权利要求1所述的文本纠错方法，其特征在于，所述步骤S3包括以下分步骤：

S31、随机选择语义特征中的一个词语作为根节点；

S32、从语义特征中选择与根节点编辑距离小于第一预设阈值的词语作为根节点的子孙节点；

S33、从语义特征中选择与当前子孙节点编辑距离小于第一预设阈值的词语作为当前子孙节点的子孙节点；

5.根据权利要求4所述的文本纠错方法，其特征在于，所述步骤S4包括以下分步骤：

S43、将查询树剩余节点对应的词语作为筛选特征。

6.根据权利要求5所述的文本纠错方法，其特征在于，所述编辑距离为将一个字符串转换成另一个字符串的最少编辑操作次数。

7.根据权利要求6所述的文本纠错方法，其特征在于，所述编辑操作包括替换、插入和删除。

8.根据权利要求7所述的文本纠错方法，其特征在于，所述步骤S5中基于决策树的文本纠错模型的公式为：

其中L表示文本纠错结果，

表示损失函数，/>

9.根据权利要求8所述的文本纠错方法，其特征在于，所述损失函数

的公式为：

10.根据权利要求8所述的文本纠错方法，其特征在于，所述模型复杂度Ω(f_t)的公式为：

其中T表示第t棵决策树的叶子节点数量，