CN116341524A - 一种应用于特种设备检测的文本纠错方法 - Google Patents

一种应用于特种设备检测的文本纠错方法 Download PDF

Info

Publication number
CN116341524A
CN116341524A CN202310294457.7A CN202310294457A CN116341524A CN 116341524 A CN116341524 A CN 116341524A CN 202310294457 A CN202310294457 A CN 202310294457A CN 116341524 A CN116341524 A CN 116341524A
Authority
CN
China
Prior art keywords
error correction
text
special equipment
correction method
equipment detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310294457.7A
Other languages
English (en)
Inventor
龚倩
张展彬
何南其
彭宇辉
陈弘毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SICHUAN SPECIAL EQUIPMENT TESTING RESEARCH INSTITUTE
Original Assignee
SICHUAN SPECIAL EQUIPMENT TESTING RESEARCH INSTITUTE
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SICHUAN SPECIAL EQUIPMENT TESTING RESEARCH INSTITUTE filed Critical SICHUAN SPECIAL EQUIPMENT TESTING RESEARCH INSTITUTE
Priority to CN202310294457.7A priority Critical patent/CN116341524A/zh
Publication of CN116341524A publication Critical patent/CN116341524A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种应用于特种设备检测的文本纠错方法,在特种设备检测行业领域创造性综合采用多种基于机器学习模型的算法进行综合语言纠错,对特种设备检测行业检验文本的识别准确率有较好的效果,进一步提高了纠错识别的准确率。同时,本发明通过构建针对特种设备检测的知识库结合文本纠错技术,解决了现有文本纠错方法只能通过模糊的规则和语言模型识别常规错误的缺点,通过知识库进行特征筛选,使文本纠错具备业务常识,能够针对垂直领域的提法、用语错误进行识别和纠正。

Description

一种应用于特种设备检测的文本纠错方法
技术领域
本发明属于自然语言处理技术领域,具体涉及一种应用于特种设备检测的文本纠错方法的设计。
背景技术
在自然语言处理领域,中文文本纠错技术比英文文本纠错具有更高的复杂性,因中文不是单词结构,字词的拆分更为复杂多变,语义具有多义性。在早期主要使用规则和概略统计方法进行错误识别;现阶段主要基于人工智能和机器学习语言模型进行识别。业界当前主流的纠错方法主要使用管道方法,主要技术方案分为以下两种路线:
(1)基于预定义规则识别:系统一般建立一套语言规则,利用规则逐个校验文本中的词语和句子,该方法逻辑清晰、不依赖大量标注的样本数据即可完成。一般实现上先对文本进行分词、查找分词后的片段是否在常用词典和混淆词典中,再计算传统语言模型概率是否低于门限,低于则判定为错误,召回候选词时利用同音字、形近字、输入法相似召回候选字词,对候选词打分并计算句子困惑度得到候选词的权重,从而对候选词排序;这种方法通常只能对通用领域使用,但是在特定领域和针对较为复杂的错误通常无法识别,不具备特种设备检测环境的可用性。
(2)基于大样本的深度学习训练出语言模型:首先利用大量的通用文本序列标注语料进行无监督的深度学习训练,再利用对齐语料(即错误句子对应正确句子)进行有监督学习;然后利用对齐模型构建字词级别的混淆字典、先利用字、音混淆字典初步召回,再利用词语级别混淆字典筛选候选词;最后利用上下文特征和人工提取的形音、词法、语义等特征一起排序。该方法依赖海量的标注语料,当标注语料有限时,该种方法很难落地,语料数量不足、质量不高时效果较差。
目前,在特种设备检测行业应用文本纠错,暂没有对该领域应用的研究,使用现有的文本纠错方法无法对特种设备检测行业的专用词汇进行有效识别和纠错,特别是报告书使用的参数、符号等。现有文本纠错方法也无法进行识别和学习,导致在使用通用的云服务的时候,无法达到正确的特检报告书纠错的效果,还会出现由于无法识别特检专用词语,进行无效纠错,增加人工核对工作量。
综上,业界识别效果较好的文本纠错方法均需使用人工智能和机器学习算法进行错误识别和召回,通常都基于通用语言领域,并且依赖海量的标注语料进行训练,否则难以获得较好的效果,海量语料的标注需要很高的成本,通常难以落地,对于特种设备检测的专业领域识别效果较差,也难以识别知识性的专业领域错误。
发明内容
本发明的目的是为了解决现有基于通用语言领域的文本纠错方法对于特种设备检测的专业领域识别效果较差,也难以识别知识性的专业领域错误的问题,提出了一种应用于特种设备检测的文本纠错方法。
本发明的技术方案为:一种应用于特种设备检测的文本纠错方法,包括以下步骤:
S1、构建针对特种设备检测的知识库。
S2、通过字音混合语言模型提取特种设备检测文本的语义特征。
S3、通过编辑距离召回候选算法获取语义特征的候选特征。
S4、通过知识库对候选特征进行特征筛选,得到筛选特征。
S5、将筛选特征输入基于决策树的文本纠错模型,得到文本纠错结果。
进一步地,步骤S1中针对特种设备检测的知识库包括特种设备检测规则库、特种设备检测专业词库和特种设备检测混淆库。
进一步地,步骤S2中字音混合语言模型的公式为:
Ps=ANN(cs,cp,csp)
其中Ps表示提取得到的特种设备检测文本的语义特征,ANN(·)表示无激活函数的人工神经网络,cs表示特种设备检测文本中的上下文字特征,cp表示特种设备检测文本中的待预测字拼音,csp表示特种设备检测文本中的上下文字拼音。
进一步地,步骤S3包括以下分步骤:
S31、随机选择语义特征中的一个词语作为根节点。
S32、从语义特征中选择与根节点编辑距离小于第一预设阈值的词语作为根节点的子孙节点。
S33、从语义特征中选择与当前子孙节点编辑距离小于第一预设阈值的词语作为当前子孙节点的子孙节点。
S34、重复步骤S33,直到遍历完语义特征中的所有词语,构建得到查询树,将查询树中的所有词语作为候选特征。
进一步地,步骤S4包括以下分步骤:
S41、结合知识库选取出查询树中的正确词语,并将正确词语所在节点作为查询节点。
S42、将与查询节点的编辑距离大于第二预设阈值的节点剪除。
S43、将查询树剩余节点对应的词语作为筛选特征。
进一步地,编辑距离为将一个字符串转换成另一个字符串的最少编辑操作次数。
进一步地,编辑操作包括替换、插入和删除。
进一步地,步骤S5中基于决策树的文本纠错模型的公式为:
Figure BDA0004142733860000031
其中L表示文本纠错结果,
Figure BDA0004142733860000032
表示损失函数,/>
Figure BDA0004142733860000033
表示前t-1棵决策树对样本i的预测值,yi表示样本i的实际值,ft(xi)表示第t棵决策树对样本i的预测值,Ω(ft)表示第t棵决策树的模型复杂度,n表示筛选特征中的样本总数。
进一步地,损失函数
Figure BDA0004142733860000034
的公式为:
Figure BDA0004142733860000035
进一步地,模型复杂度Ω(ft)的公式为:
Figure BDA0004142733860000036
其中T表示第t棵决策树的叶子节点数量,
Figure BDA0004142733860000037
表示第t棵决策树的叶子节点得分的L2模平方,α,β均为权重参数。
本发明的有益效果是:
(1)本发明在特种设备检测行业领域创造性综合采用多种基于机器学习模型的算法进行综合语言纠错,对特种设备检测行业检验文本的识别准确率有较好的效果,进一步提高了纠错识别的准确率。
(2)本发明通过构建针对特种设备检测的知识库结合文本纠错技术,解决了现有文本纠错方法只能通过模糊的规则和语言模型识别常规错误的缺点,通过知识库进行特征筛选,使文本纠错具备业务常识,能够针对垂直领域的提法、用语错误进行识别和纠正。
(3)本发明通过字音混合语言模型提取文本的语义特征,有效利用了上下文信息,使模型能够更具有针对性地提取特种设备检测领域相关文本的语义特征。
(4)本发明通过编辑距离召回候选算法获取语义特征的候选特征,基于词语之间的编辑距离构建查询树,有效减少了计算量。
(5)本发明基于决策树构建文本纠错模型,在模型中加入了正则化项,能够使得文本纠错模型更加简单,并且能防止模型过拟合。
附图说明
图1所示为本发明实施例提供的一种应用于特种设备检测的文本纠错方法流程图。
具体实施方式
现在将参考附图来详细描述本发明的示例性实施方式。应当理解,附图中示出和描述的实施方式仅仅是示例性的,意在阐释本发明的原理和精神,而并非限制本发明的范围。
本发明实施例提供了一种应用于特种设备检测的文本纠错方法,如图1所示,包括以下步骤S1~S5:
S1、构建针对特种设备检测的知识库。
本发明实施例中,针对特种设备检测的知识库包括特种设备检测规则库、特种设备检测专业词库和特种设备检测混淆库。
S2、通过字音混合语言模型提取特种设备检测文本的语义特征。
本发明实施例中,字音混合语言模型的公式为:
Ps=ANN(cs,cp,csp)
其中Ps表示提取得到的特种设备检测文本的语义特征,ANN(·)表示无激活函数的人工神经网络,cs表示特种设备检测文本中的上下文字特征,cp表示特种设备检测文本中的待预测字拼音,csp表示特种设备检测文本中的上下文字拼音。
本发明实施例中,采用无激活函数的人工神经网络构建字音混合语言模型,可使用含有错误的无监督语料训练,降低整个模型的错误率。同时在模型输入部分有效利用了上下文信息,使模型能够更具有针对性地提取特种设备检测领域相关文本的语义特征。
S3、通过编辑距离召回候选算法获取语义特征的候选特征。
步骤S3包括以下分步骤S31~S34:
S31、随机选择语义特征中的一个词语作为根节点。
S32、从语义特征中选择与根节点编辑距离小于第一预设阈值的词语作为根节点的子孙节点。
本发明实施例中,编辑距离为将一个字符串转换成另一个字符串的最少编辑操作次数。编辑操作包括替换、插入和删除。
S33、从语义特征中选择与当前子孙节点编辑距离小于第一预设阈值的词语作为当前子孙节点的子孙节点。
S34、重复步骤S33,直到遍历完语义特征中的所有词语,构建得到查询树,将查询树中的所有词语作为候选特征。
S4、通过知识库对候选特征进行特征筛选,得到筛选特征。
步骤S4包括以下分步骤S41~S43:
S41、结合知识库选取出查询树中的正确词语,并将正确词语所在节点作为查询节点;
S42、将与查询节点的编辑距离大于第二预设阈值的节点剪除;
S43、将查询树剩余节点对应的词语作为筛选特征。
本发明实施例中,通过知识库对候选特征进行特征筛选过后,能够有效识别出专业词汇使用错误、敏感词使用错误、组织机构名称错误等文本错误。
S5、将筛选特征输入基于决策树的文本纠错模型,得到文本纠错结果。
本发明实施例中,基于决策树的文本纠错模型的公式为:
Figure BDA0004142733860000051
其中L表示文本纠错结果,
Figure BDA0004142733860000052
表示损失函数,/>
Figure BDA0004142733860000053
表示前t-1棵决策树对样本i的预测值,yi表示样本i的实际值,ft(xi)表示第t棵决策树对样本i的预测值,Ω(ft)表示第t棵决策树的模型复杂度,n表示筛选特征中的样本总数。
本发明实施例中,损失函数
Figure BDA0004142733860000054
的公式为:
Figure BDA0004142733860000055
本发明实施例中,模型复杂度Ω(ft)的公式为:
Figure BDA0004142733860000056
其中T表示第t棵决策树的叶子节点数量,
Figure BDA0004142733860000057
表示第t棵决策树的叶子节点得分的L2模平方,α,β均为权重参数。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (10)

1.一种应用于特种设备检测的文本纠错方法,其特征在于,包括以下步骤:
S1、构建针对特种设备检测的知识库;
S2、通过字音混合语言模型提取特种设备检测文本的语义特征;
S3、通过编辑距离召回候选算法获取语义特征的候选特征;
S4、通过知识库对候选特征进行特征筛选,得到筛选特征;
S5、将筛选特征输入基于决策树的文本纠错模型,得到文本纠错结果。
2.根据权利要求1所述的文本纠错方法,其特征在于,所述步骤S1中针对特种设备检测的知识库包括特种设备检测规则库、特种设备检测专业词库和特种设备检测混淆库。
3.根据权利要求1所述的文本纠错方法,其特征在于,所述步骤S2中字音混合语言模型的公式为:
Ps=ANN(cs,cp,csp)
其中Ps表示提取得到的特种设备检测文本的语义特征,ANN(·)表示无激活函数的人工神经网络,cs表示特种设备检测文本中的上下文字特征,cp表示特种设备检测文本中的待预测字拼音,csp表示特种设备检测文本中的上下文字拼音。
4.根据权利要求1所述的文本纠错方法,其特征在于,所述步骤S3包括以下分步骤:
S31、随机选择语义特征中的一个词语作为根节点;
S32、从语义特征中选择与根节点编辑距离小于第一预设阈值的词语作为根节点的子孙节点;
S33、从语义特征中选择与当前子孙节点编辑距离小于第一预设阈值的词语作为当前子孙节点的子孙节点;
S34、重复步骤S33,直到遍历完语义特征中的所有词语,构建得到查询树,将查询树中的所有词语作为候选特征。
5.根据权利要求4所述的文本纠错方法,其特征在于,所述步骤S4包括以下分步骤:
S41、结合知识库选取出查询树中的正确词语,并将正确词语所在节点作为查询节点;
S42、将与查询节点的编辑距离大于第二预设阈值的节点剪除;
S43、将查询树剩余节点对应的词语作为筛选特征。
6.根据权利要求5所述的文本纠错方法,其特征在于,所述编辑距离为将一个字符串转换成另一个字符串的最少编辑操作次数。
7.根据权利要求6所述的文本纠错方法,其特征在于,所述编辑操作包括替换、插入和删除。
8.根据权利要求7所述的文本纠错方法,其特征在于,所述步骤S5中基于决策树的文本纠错模型的公式为:
Figure FDA0004142733850000021
其中L表示文本纠错结果,
Figure FDA0004142733850000022
表示损失函数,/>
Figure FDA0004142733850000023
表示前t-1棵决策树对样本i的预测值,yi表示样本i的实际值,ft(xi)表示第t棵决策树对样本i的预测值,Ω(ft)表示第t棵决策树的模型复杂度,n表示筛选特征中的样本总数。
9.根据权利要求8所述的文本纠错方法,其特征在于,所述损失函数
Figure FDA0004142733850000024
的公式为:
Figure FDA0004142733850000025
10.根据权利要求8所述的文本纠错方法,其特征在于,所述模型复杂度Ω(ft)的公式为:
Figure FDA0004142733850000026
其中T表示第t棵决策树的叶子节点数量,
Figure FDA0004142733850000027
表示第t棵决策树的叶子节点得分的L2模平方,α,β均为权重参数。
CN202310294457.7A 2023-03-23 2023-03-23 一种应用于特种设备检测的文本纠错方法 Pending CN116341524A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310294457.7A CN116341524A (zh) 2023-03-23 2023-03-23 一种应用于特种设备检测的文本纠错方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310294457.7A CN116341524A (zh) 2023-03-23 2023-03-23 一种应用于特种设备检测的文本纠错方法

Publications (1)

Publication Number Publication Date
CN116341524A true CN116341524A (zh) 2023-06-27

Family

ID=86894413

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310294457.7A Pending CN116341524A (zh) 2023-03-23 2023-03-23 一种应用于特种设备检测的文本纠错方法

Country Status (1)

Country Link
CN (1) CN116341524A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111814455A (zh) * 2020-06-29 2020-10-23 平安国际智慧城市科技股份有限公司 搜索词纠错对构建方法、终端及存储介质
CN112231480A (zh) * 2020-10-23 2021-01-15 中电科大数据研究院有限公司 一种基于bert的字音混合纠错模型
CN112541076A (zh) * 2020-11-09 2021-03-23 北京百度网讯科技有限公司 目标领域的扩充语料生成方法、装置和电子设备
CN112784581A (zh) * 2020-11-20 2021-05-11 网易(杭州)网络有限公司 文本纠错方法、装置、介质及电子设备
CN112989806A (zh) * 2021-04-07 2021-06-18 广州伟宏智能科技有限公司 一种智能化文本纠错模型训练方法
CN113836935A (zh) * 2021-09-09 2021-12-24 海信视像科技股份有限公司 服务器及文本纠错方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111814455A (zh) * 2020-06-29 2020-10-23 平安国际智慧城市科技股份有限公司 搜索词纠错对构建方法、终端及存储介质
CN112231480A (zh) * 2020-10-23 2021-01-15 中电科大数据研究院有限公司 一种基于bert的字音混合纠错模型
CN112541076A (zh) * 2020-11-09 2021-03-23 北京百度网讯科技有限公司 目标领域的扩充语料生成方法、装置和电子设备
CN112784581A (zh) * 2020-11-20 2021-05-11 网易(杭州)网络有限公司 文本纠错方法、装置、介质及电子设备
CN112989806A (zh) * 2021-04-07 2021-06-18 广州伟宏智能科技有限公司 一种智能化文本纠错模型训练方法
CN113836935A (zh) * 2021-09-09 2021-12-24 海信视像科技股份有限公司 服务器及文本纠错方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CLVSIT: "基于BK树的中文拼写纠错候选召回", pages 1 - 9, Retrieved from the Internet <URL:https://zhuanlan.zhihu.com/p/15910186> *
最AI的小PAI: "N LP上层应用的关键一环—中文纠错技术简述", pages 1 - 9, Retrieved from the Internet <URL:https://zhuanlan.zhihu.com/p/82807092> *

Similar Documents

Publication Publication Date Title
CN108304372B (zh) 实体提取方法和装置、计算机设备和存储介质
CN109284400B (zh) 一种基于Lattice LSTM和语言模型的命名实体识别方法
CN111209401A (zh) 网络舆情文本信息情感极性分类处理系统及方法
CN112560478B (zh) 一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法
CN110276069B (zh) 一种中国盲文错误自动检测方法、系统及存储介质
CN108647191B (zh) 一种基于有监督情感文本和词向量的情感词典构建方法
CN109271524B (zh) 知识库问答系统中的实体链接方法
CN111274804A (zh) 基于命名实体识别的案件信息提取方法
CN105095196B (zh) 文本中新词发现的方法和装置
CN107688630B (zh) 一种基于语义的弱监督微博多情感词典扩充方法
CN111897917B (zh) 基于多模态自然语言特征的轨道交通行业术语提取方法
CN110110334B (zh) 一种基于自然语言处理的远程会诊记录文本纠错方法
CN114282527A (zh) 多语言文本检测与纠错方法、系统、电子设备及存储介质
CN110941720A (zh) 一种基于知识库的特定人员信息纠错方法
CN113505200A (zh) 一种结合文档关键信息的句子级中文事件检测的方法
CN111046660B (zh) 一种识别文本专业术语的方法及装置
CN113420766B (zh) 一种融合语言信息的低资源语种ocr方法
CN111898337B (zh) 一种基于深度学习的单句摘要缺陷报告标题自动生成方法
CN113160917A (zh) 一种电子病历实体关系抽取方法
CN107783958B (zh) 一种目标语句识别方法及装置
CN115906835B (zh) 一种基于聚类和对比学习的中文问句文本表示学习的方法
CN111368547A (zh) 基于语义解析的实体识别方法、装置、设备和存储介质
CN115858733A (zh) 跨语言实体词检索方法、装置、设备及存储介质
CN116341524A (zh) 一种应用于特种设备检测的文本纠错方法
Mohapatra et al. Spell checker for OCR

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination