CN113869047A

CN113869047A - 一种用于金融长文本复核系统的错别字审核模块

Info

Publication number: CN113869047A
Application number: CN202111157575.0A
Authority: CN
Inventors: 马文翔; 朱乐为; 崔子锋
Original assignee: Guangzhou Guxin Intelligent Technology Co ltd
Current assignee: Guangzhou Guxin Intelligent Technology Co ltd
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2021-12-31

Abstract

一种用于金融长文本复核系统的错别字审核模块，应用于金融长文本复核中错别字审核、文字合规与合理性审核，该模块中包括预处理模块、NLP模型、领域字典及结果处理模块，通过预处理模块清洗待检测文本，提取出其中的敏感文本，缩小需要审核的目标文本范围，提高审核的效率；使用NLP模型获取所述被测字的错别字模型；判断所述被测字的正确性，并提供纠正建议，再经过领域字典的汉字关联验证机制复查NLP模型结果的正确性；最后经由结果处理模块将错别字及纠正建议按规定格式进行输出。

Description

一种用于金融长文本复核系统的错别字审核模块

技术领域

本发明属于金融文本分析领域，具体涉及一种用于金融长文本复核系统的错别字审核模块。

背景技术

金融长文本主要是指记录评估企业一段时间内财务状况或向外展示公司经营状况的一系列包括年度报告、招股说明书、审计报告等在内的财务数据文本。此类文本通常由专业金融方面的人员结合公司实际情况撰写完成，主要由文本段落、财务指标和表格数据等复杂元素组成。因为金融长文本隐含企业实际经营状况，所以金融机构或企业本身在发布金融长文本时，需要对金融长文本在用字正确及格式合规等方面进行审核。目前该些金融长文本主要依靠人工审核，由于文本内容之大及文本涉及专业程度之高，使得人工审核的效率以及精准度较低，为了提高金融长文本用字正确及格式合规等方面的审核效率和精度，基于计算机强大的计算能力，结合人工智能对自然语言处理技术的兴起，现提出一种金融长文本复核系统的错别字审核模块，以解决金融长文本错别字审核效率低以及精准度低的问题。

发明内容

针对上述存在现象问题，本发明提出一种用于金融长文本复核系统的错别字审核模块，通过解析处理金融长文本的文本内容，结合人工智能对文本内容的对比分析，实现金融长文本的精准高效的错别字审核。

为实现上述目的，本发明提供一种用于金融长文本复核系统的错别字审核模块，应用于金融长文本复核中错别字审核、文字合规与合理性审核，其特征在于，该模块包括一预处理模块、一NLP模型、一领域字典及一结果处理模块；

所述预处理模块对输入的待检测文本进行清洗，将其中不存在易错字的文本数据，定为非敏感文本，其中存在易错字的文本数据，定为敏感文本；

所述NLP模型对所述敏感文本进行特征提取，获取其中被测字的基本表征，得到对应的候选字符及候选字符概率，依次得出所述被测字的错别字模型，结合所述候选字符信息与所述错别字模型，预测所述被测字在所述敏感文本处的正确字符，若所述正确字符与所述被测字不一致，则被测字为错别字，并将所述正确字符作为纠正建议提出；

所述领域字典存在汉字关联验证机制，所述汉字关联验证机制结合NLP模型得出的错别字结果，在领域字典内验证敏感文本中的错别字结果准确性；

所述结果处理模块将经过上述三个步骤处理得到的信息综合处理，将其按规定格式进行输出。

优选的，所述待检测文本为金融长文本在进行数据信息清洗后得到的符合所述用于金融长文本复核系统的错别字审核模块输入格式要求的段落及标题数据。

优选的，所述的金融长文本进行数据信息清洗的过程包括以下任意一个或多个步骤:

将所述金融长文本语句切割、提取处理；

将所述金融长文本中的字符串转换为预定格式。

优选的，所述NLP模型具体为经由大规模通用语料和金融语料进行训练获得的预训练模型。

优选的，所述领域字典包括现有通用词典以及金融领域字典。

优选的，将所述NLP模型判断为错别字的被测字定为疑错字，将其在NLP模型中得到的对应正确字符定为纠正字；将所述疑错字与其在该自然句中的前一个字及后一个字分别组成被测词组A，将所述纠正字与其在该自然句中的前一个字及后一个字分别组成被测词组B；在所述领域字典筛选存在包含所述疑错字的词组作为对比词组，利用所述汉字关联验证机制，将所述被测词组A及被测词组B分别与所述对比词组进行对比验证，若所述对比词组不存在所述被测词组A，则确认所述疑错字为错别字，若所述对比词组存在所述被测词组B，则确认所述纠正字为正确的纠正建议。

优选的，所述错别字包括汉字、字母及标点符号。

同时，本发明提供一种用于金融长文本复核系统的错别字审核方法，所述错别字审核模块的错别字查找具体步骤为：S10：输入待检测文本S11：对待检测文本进行预处理，包括：数据清洗，非敏感文本数据提取；S12：根据NLP模型检测被测字得到候选字符以及候选字符概率并输出错别字模型；S13：根据领域字典的领域字典以及错别字模型，筛选错别字以及提出纠正建议并输出；S14：将输出数据处理为预定义格式数据并展示。

相比于现有技术，本发明的有益效果：本发明提供的一种用于金融长文本复核系统的错别字审核模块，通过预处理模块清洗待检测文本，提取出其中的敏感文本，缩小需要审核的目标文本范围，提高审核的效率；使用NLP模型获取所述被测字的错别字模型；判断所述被测字的正确性，并提供纠正建议，再经过领域字典的汉字关联验证机制复查NLP模型结果的正确性；最后经由结果处理模块将错别字及纠正建议按规定格式进行输出。经过上述模块配合，基于自然语言处理领域知识，利用计算机人工智能完成金融长文本错别字审核，只需通过最终输出结果便可得知金融长文本的错别字情况，提高了错别字审核方面的效率和精度，也避免了在这方面人力资源的浪费。

附图说明

图1是本发明提供的金融长文本复核系统的错别字审核模块的功能逻辑结构图；

图2是本发明提供的金融长文本复核系统的错别字审核模块的模块及错别字查找流程图。

具体实施方式

为进一步详细介绍本发明，接下来结合附图进行说明。特别指出，下面所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参阅图1，一种用于金融长文本复核系统的错别字审核模块，应用于金融长文本复核中错别字审核、文字合规与合理性审核，其特征在于，该模块包括一预处理模块、一NLP模型、一领域字典及一结果处理模块；

可以理解的，由于各企业及金融机构生产的金融长文本的书写要求及文本格式不尽相同，因此需对金融长文本进行数据信息清洗得到待检测文本，即一种符合金融长文本复核系统的错别字审核模块输入格式的段落及标题数据。

又由于各金融长文本实际情况不同，在进行的数据信息清洗，根据输入格式自主删选金融长文本语句切割、提取处理及字符串格式转换等步骤。

所述NLP模型具体为经由大规模通用语料和金融语料进行训练获得的预训练模型。可以理解的，所谓预训练模型则是利用大量在人们生活中出现过的文本来训练，使模型在这些文本中，学习到每一个词或字出现的概率分布，以此来建模出符合这些文本分布的模型。在本实施例中使用的文本是多个通用语料和金融语料，这些通用语料和金融语料，使预训练模型获得了强大的通用与金融方面语言模型判断的能力。

可以理解的，所述错别字不是特指错误使用的中文汉字，其他语言相关字母及标点符号的错用也是错别字的一种，因此对汉字、字母及标点符号的使用错误进行纠正，才能改善标点符号错用、标点符号不匹配、文字书写笔误及文字使用场景不宜等错别字造成的影响。

参阅图2本发明提供一种用于金融长文本复核系统的错别字审核方法，所述错别字审核模块的错别字查找具体步骤为：S10：输入待检测文本S11：对待检测文本进行预处理，包括：数据清洗，非敏感文本数据提取；S12：根据NLP模型检测被测字得到候选字符以及候选字符概率并输出错别字模型；S13：根据领域字典的领域字典以及错别字模型，筛选错别字以及提出纠正建议并输出；S14：将输出数据处理为预定义格式数据并展示。

本发明提供的一种用于金融长文本复核系统的错别字审核模块，通过预处理模块清洗待检测文本，提取出其中的敏感文本，缩小需要审核的目标文本范围，提高审核的效率；使用NLP模型获取所述被测字的错别字模型；判断所述被测字的正确性，并提供纠正建议，再经过领域字典的汉字关联验证机制复查NLP模型结果的正确性；最后经由结果处理模块将错别字及纠正建议按规定格式进行输出。经过上述模块配合，基于自然语言处理领域知识，利用计算机人工智能完成金融长文本错别字审核，只需通过最终输出结果便可得知金融长文本的错别字情况，提高了错别字审核方面的效率和精度，也避免了在这方面人力资源的浪费。

以上公开的实施例仅为详细说明介绍本发明，不能以此来限定本发明之范围，因此依本发明权利要求申请范围所作简单改进变化，仍属本发明保护的范围。

本发明的保护范围应当以所限定的范围为准。对于本技术领域的普通技术人员来说，在不脱离本发明的精神和范围内，还可以做出若干改进和润饰，这些和润饰也应视为本发明的保护范围。

Claims

1.一种用于金融长文本复核系统的错别字审核模块，应用于金融长文本复核中错别字审核、文字合规与合理性审核，其特征在于，该模块包括一预处理模块、一NLP模型、一领域字典及一结果处理模块；

2.根据权利要求1所述的一种用于金融长文本复核系统的错别字审核模块，其特征在于：所述待检测文本为金融长文本在进行数据信息清洗后，得到的符合所述用于金融长文本复核系统的错别字审核模块输入格式要求的段落及标题数据。

3.根据权利要求2所述的一种用于金融长文本复核系统的错别字审核模块，其特征在于：所述的金融长文本进行数据信息清洗的过程包括以下任意一个或多个步骤:

将所述金融长文本语句切割、提取处理；

将所述金融长文本中的字符串转换为预定格式。

4.根据权利要求1所述的一种用于金融长文本复核系统的错别字审核模块，其特征在于：所述NLP模型具体为经由大规模通用语料和金融语料进行训练获得的预训练模型。

5.根据权利要求4所述的一种用于金融长文本复核系统的错别字审核模块，其特征在于：所述领域字典包括现有通用词典以及金融领域字典。

6.根据权利要求5所述的一种用于金融长文本复核系统的错别字审核模块，其特征在于：将所述NLP模型判断为错别字的被测字定为疑错字，将其在NLP模型中得到的对应正确字符定为纠正字；将所述疑错字与其在该自然句中的前一个字及后一个字分别组成被测词组A，将所述纠正字与其在该自然句中的前一个字及后一个字分别组成被测词组B；在所述领域字典筛选存在包含所述疑错字的词组作为对比词组，利用所述汉字关联验证机制，将所述被测词组A及被测词组B分别与所述对比词组进行对比验证，若所述对比词组不存在所述被测词组A，则确认所述疑错字为错别字，若所述对比词组存在所述被测词组B，则确认所述纠正字为正确的纠正建议。

7.根据权利要求6所述的一种用于金融长文本复核系统的错别字审核模块，其特征在于：所述错别字包括汉字、字母及标点符号。

8.一种用于金融长文本复核系统的错别字审核方法，其特征在于：所述错别字审核模块的错别字查找具体步骤为：S10：输入待检测文本S11：对待检测文本进行预处理，包括：数据清洗，非敏感文本数据提取；S12：根据NLP模型检测被测字得到候选字符以及候选字符概率并输出错别字模型；S13：根据领域字典的领域字典以及错别字模型，筛选错别字以及提出纠正建议并输出；S14：将输出数据处理为预定义格式数据并展示。