CN113869047A - 一种用于金融长文本复核系统的错别字审核模块 - Google Patents
一种用于金融长文本复核系统的错别字审核模块 Download PDFInfo
- Publication number
- CN113869047A CN113869047A CN202111157575.0A CN202111157575A CN113869047A CN 113869047 A CN113869047 A CN 113869047A CN 202111157575 A CN202111157575 A CN 202111157575A CN 113869047 A CN113869047 A CN 113869047A
- Authority
- CN
- China
- Prior art keywords
- character
- text
- wrongly written
- financial
- wrongly
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012937 correction Methods 0.000 claims abstract description 15
- 238000012545 processing Methods 0.000 claims abstract description 15
- 238000007781 pre-processing Methods 0.000 claims abstract description 13
- 238000012795 verification Methods 0.000 claims abstract description 12
- 238000004140 cleaning Methods 0.000 claims abstract description 11
- 238000012552 review Methods 0.000 claims description 24
- 238000000034 method Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 6
- 238000013075 data extraction Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 description 21
- 238000012550 audit Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
一种用于金融长文本复核系统的错别字审核模块,应用于金融长文本复核中错别字审核、文字合规与合理性审核,该模块中包括预处理模块、NLP模型、领域字典及结果处理模块,通过预处理模块清洗待检测文本,提取出其中的敏感文本,缩小需要审核的目标文本范围,提高审核的效率;使用NLP模型获取所述被测字的错别字模型;判断所述被测字的正确性,并提供纠正建议,再经过领域字典的汉字关联验证机制复查NLP模型结果的正确性;最后经由结果处理模块将错别字及纠正建议按规定格式进行输出。
Description
技术领域
本发明属于金融文本分析领域,具体涉及一种用于金融长文本复核系统的错别字审核模块。
背景技术
金融长文本主要是指记录评估企业一段时间内财务状况或向外展示公司经营状况的一系列包括年度报告、招股说明书、审计报告等在内的财务数据文本。此类文本通常由专业金融方面的人员结合公司实际情况撰写完成,主要由文本段落、财务指标和表格数据等复杂元素组成。因为金融长文本隐含企业实际经营状况,所以金融机构或企业本身在发布金融长文本时,需要对金融长文本在用字正确及格式合规等方面进行审核。目前该些金融长文本主要依靠人工审核,由于文本内容之大及文本涉及专业程度之高,使得人工审核的效率以及精准度较低,为了提高金融长文本用字正确及格式合规等方面的审核效率和精度,基于计算机强大的计算能力,结合人工智能对自然语言处理技术的兴起,现提出一种金融长文本复核系统的错别字审核模块,以解决金融长文本错别字审核效率低以及精准度低的问题。
发明内容
针对上述存在现象问题,本发明提出一种用于金融长文本复核系统的错别字审核模块,通过解析处理金融长文本的文本内容,结合人工智能对文本内容的对比分析,实现金融长文本的精准高效的错别字审核。
为实现上述目的,本发明提供一种用于金融长文本复核系统的错别字审核模块,应用于金融长文本复核中错别字审核、文字合规与合理性审核,其特征在于,该模块包括一预处理模块、一NLP模型、一领域字典及一结果处理模块;
所述预处理模块对输入的待检测文本进行清洗,将其中不存在易错字的文本数据,定为非敏感文本,其中存在易错字的文本数据,定为敏感文本;
所述NLP模型对所述敏感文本进行特征提取,获取其中被测字的基本表征,得到对应的候选字符及候选字符概率,依次得出所述被测字的错别字模型,结合所述候选字符信息与所述错别字模型,预测所述被测字在所述敏感文本处的正确字符,若所述正确字符与所述被测字不一致,则被测字为错别字,并将所述正确字符作为纠正建议提出;
所述领域字典存在汉字关联验证机制,所述汉字关联验证机制结合NLP模型得出的错别字结果,在领域字典内验证敏感文本中的错别字结果准确性;
所述结果处理模块将经过上述三个步骤处理得到的信息综合处理,将其按规定格式进行输出。
优选的,所述待检测文本为金融长文本在进行数据信息清洗后得到的符合所述用于金融长文本复核系统的错别字审核模块输入格式要求的段落及标题数据。
优选的,所述的金融长文本进行数据信息清洗的过程包括以下任意一个或多个步骤:
将所述金融长文本语句切割、提取处理;
将所述金融长文本中的字符串转换为预定格式。
优选的,所述NLP模型具体为经由大规模通用语料和金融语料进行训练获得的预训练模型。
优选的,所述领域字典包括现有通用词典以及金融领域字典。
优选的,将所述NLP模型判断为错别字的被测字定为疑错字,将其在NLP模型中得到的对应正确字符定为纠正字;将所述疑错字与其在该自然句中的前一个字及后一个字分别组成被测词组A,将所述纠正字与其在该自然句中的前一个字及后一个字分别组成被测词组B;在所述领域字典筛选存在包含所述疑错字的词组作为对比词组,利用所述汉字关联验证机制,将所述被测词组A及被测词组B分别与所述对比词组进行对比验证,若所述对比词组不存在所述被测词组A,则确认所述疑错字为错别字,若所述对比词组存在所述被测词组B,则确认所述纠正字为正确的纠正建议。
优选的,所述错别字包括汉字、字母及标点符号。
同时,本发明提供一种用于金融长文本复核系统的错别字审核方法,所述错别字审核模块的错别字查找具体步骤为:S10:输入待检测文本S11:对待检测文本进行预处理,包括:数据清洗,非敏感文本数据提取;S12:根据NLP模型检测被测字得到候选字符以及候选字符概率并输出错别字模型;S13:根据领域字典的领域字典以及错别字模型,筛选错别字以及提出纠正建议并输出;S14:将输出数据处理为预定义格式数据并展示。
相比于现有技术,本发明的有益效果:本发明提供的一种用于金融长文本复核系统的错别字审核模块,通过预处理模块清洗待检测文本,提取出其中的敏感文本,缩小需要审核的目标文本范围,提高审核的效率;使用NLP模型获取所述被测字的错别字模型;判断所述被测字的正确性,并提供纠正建议,再经过领域字典的汉字关联验证机制复查NLP模型结果的正确性;最后经由结果处理模块将错别字及纠正建议按规定格式进行输出。经过上述模块配合,基于自然语言处理领域知识,利用计算机人工智能完成金融长文本错别字审核,只需通过最终输出结果便可得知金融长文本的错别字情况,提高了错别字审核方面的效率和精度,也避免了在这方面人力资源的浪费。
附图说明
图1是本发明提供的金融长文本复核系统的错别字审核模块的功能逻辑结构图;
图2是本发明提供的金融长文本复核系统的错别字审核模块的模块及错别字查找流程图。
具体实施方式
为进一步详细介绍本发明,接下来结合附图进行说明。特别指出,下面所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参阅图1,一种用于金融长文本复核系统的错别字审核模块,应用于金融长文本复核中错别字审核、文字合规与合理性审核,其特征在于,该模块包括一预处理模块、一NLP模型、一领域字典及一结果处理模块;
所述预处理模块对输入的待检测文本进行清洗,将其中不存在易错字的文本数据,定为非敏感文本,其中存在易错字的文本数据,定为敏感文本;
所述NLP模型对所述敏感文本进行特征提取,获取其中被测字的基本表征,得到对应的候选字符及候选字符概率,依次得出所述被测字的错别字模型,结合所述候选字符信息与所述错别字模型,预测所述被测字在所述敏感文本处的正确字符,若所述正确字符与所述被测字不一致,则被测字为错别字,并将所述正确字符作为纠正建议提出;
所述领域字典存在汉字关联验证机制,所述汉字关联验证机制结合NLP模型得出的错别字结果,在领域字典内验证敏感文本中的错别字结果准确性;
所述结果处理模块将经过上述三个步骤处理得到的信息综合处理,将其按规定格式进行输出。
可以理解的,由于各企业及金融机构生产的金融长文本的书写要求及文本格式不尽相同,因此需对金融长文本进行数据信息清洗得到待检测文本,即一种符合金融长文本复核系统的错别字审核模块输入格式的段落及标题数据。
又由于各金融长文本实际情况不同,在进行的数据信息清洗,根据输入格式自主删选金融长文本语句切割、提取处理及字符串格式转换等步骤。
所述NLP模型具体为经由大规模通用语料和金融语料进行训练获得的预训练模型。可以理解的,所谓预训练模型则是利用大量在人们生活中出现过的文本来训练,使模型在这些文本中,学习到每一个词或字出现的概率分布,以此来建模出符合这些文本分布的模型。在本实施例中使用的文本是多个通用语料和金融语料,这些通用语料和金融语料,使预训练模型获得了强大的通用与金融方面语言模型判断的能力。
优选的,所述领域字典包括现有通用词典以及金融领域字典。
优选的,将所述NLP模型判断为错别字的被测字定为疑错字,将其在NLP模型中得到的对应正确字符定为纠正字;将所述疑错字与其在该自然句中的前一个字及后一个字分别组成被测词组A,将所述纠正字与其在该自然句中的前一个字及后一个字分别组成被测词组B;在所述领域字典筛选存在包含所述疑错字的词组作为对比词组,利用所述汉字关联验证机制,将所述被测词组A及被测词组B分别与所述对比词组进行对比验证,若所述对比词组不存在所述被测词组A,则确认所述疑错字为错别字,若所述对比词组存在所述被测词组B,则确认所述纠正字为正确的纠正建议。
可以理解的,所述错别字不是特指错误使用的中文汉字,其他语言相关字母及标点符号的错用也是错别字的一种,因此对汉字、字母及标点符号的使用错误进行纠正,才能改善标点符号错用、标点符号不匹配、文字书写笔误及文字使用场景不宜等错别字造成的影响。
参阅图2本发明提供一种用于金融长文本复核系统的错别字审核方法,所述错别字审核模块的错别字查找具体步骤为:S10:输入待检测文本S11:对待检测文本进行预处理,包括:数据清洗,非敏感文本数据提取;S12:根据NLP模型检测被测字得到候选字符以及候选字符概率并输出错别字模型;S13:根据领域字典的领域字典以及错别字模型,筛选错别字以及提出纠正建议并输出;S14:将输出数据处理为预定义格式数据并展示。
本发明提供的一种用于金融长文本复核系统的错别字审核模块,通过预处理模块清洗待检测文本,提取出其中的敏感文本,缩小需要审核的目标文本范围,提高审核的效率;使用NLP模型获取所述被测字的错别字模型;判断所述被测字的正确性,并提供纠正建议,再经过领域字典的汉字关联验证机制复查NLP模型结果的正确性;最后经由结果处理模块将错别字及纠正建议按规定格式进行输出。经过上述模块配合,基于自然语言处理领域知识,利用计算机人工智能完成金融长文本错别字审核,只需通过最终输出结果便可得知金融长文本的错别字情况,提高了错别字审核方面的效率和精度,也避免了在这方面人力资源的浪费。
以上公开的实施例仅为详细说明介绍本发明,不能以此来限定本发明之范围,因此依本发明权利要求申请范围所作简单改进变化,仍属本发明保护的范围。
本发明的保护范围应当以所限定的范围为准。对于本技术领域的普通技术人员来说,在不脱离本发明的精神和范围内,还可以做出若干改进和润饰,这些和润饰也应视为本发明的保护范围。
Claims (8)
1.一种用于金融长文本复核系统的错别字审核模块,应用于金融长文本复核中错别字审核、文字合规与合理性审核,其特征在于,该模块包括一预处理模块、一NLP模型、一领域字典及一结果处理模块;
所述预处理模块对输入的待检测文本进行清洗,将其中不存在易错字的文本数据,定为非敏感文本,其中存在易错字的文本数据,定为敏感文本;
所述NLP模型对所述敏感文本进行特征提取,获取其中被测字的基本表征,得到对应的候选字符及候选字符概率,依次得出所述被测字的错别字模型,结合所述候选字符信息与所述错别字模型,预测所述被测字在所述敏感文本处的正确字符,若所述正确字符与所述被测字不一致,则被测字为错别字,并将所述正确字符作为纠正建议提出;
所述领域字典存在汉字关联验证机制,所述汉字关联验证机制结合NLP模型得出的错别字结果,在领域字典内验证敏感文本中的错别字结果准确性;
所述结果处理模块将经过上述三个步骤处理得到的信息综合处理,将其按规定格式进行输出。
2.根据权利要求1所述的一种用于金融长文本复核系统的错别字审核模块,其特征在于:所述待检测文本为金融长文本在进行数据信息清洗后,得到的符合所述用于金融长文本复核系统的错别字审核模块输入格式要求的段落及标题数据。
3.根据权利要求2所述的一种用于金融长文本复核系统的错别字审核模块,其特征在于:所述的金融长文本进行数据信息清洗的过程包括以下任意一个或多个步骤:
将所述金融长文本语句切割、提取处理;
将所述金融长文本中的字符串转换为预定格式。
4.根据权利要求1所述的一种用于金融长文本复核系统的错别字审核模块,其特征在于:所述NLP模型具体为经由大规模通用语料和金融语料进行训练获得的预训练模型。
5.根据权利要求4所述的一种用于金融长文本复核系统的错别字审核模块,其特征在于:所述领域字典包括现有通用词典以及金融领域字典。
6.根据权利要求5所述的一种用于金融长文本复核系统的错别字审核模块,其特征在于:将所述NLP模型判断为错别字的被测字定为疑错字,将其在NLP模型中得到的对应正确字符定为纠正字;将所述疑错字与其在该自然句中的前一个字及后一个字分别组成被测词组A,将所述纠正字与其在该自然句中的前一个字及后一个字分别组成被测词组B;在所述领域字典筛选存在包含所述疑错字的词组作为对比词组,利用所述汉字关联验证机制,将所述被测词组A及被测词组B分别与所述对比词组进行对比验证,若所述对比词组不存在所述被测词组A,则确认所述疑错字为错别字,若所述对比词组存在所述被测词组B,则确认所述纠正字为正确的纠正建议。
7.根据权利要求6所述的一种用于金融长文本复核系统的错别字审核模块,其特征在于:所述错别字包括汉字、字母及标点符号。
8.一种用于金融长文本复核系统的错别字审核方法,其特征在于:所述错别字审核模块的错别字查找具体步骤为:S10:输入待检测文本S11:对待检测文本进行预处理,包括:数据清洗,非敏感文本数据提取;S12:根据NLP模型检测被测字得到候选字符以及候选字符概率并输出错别字模型;S13:根据领域字典的领域字典以及错别字模型,筛选错别字以及提出纠正建议并输出;S14:将输出数据处理为预定义格式数据并展示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111157575.0A CN113869047A (zh) | 2021-09-30 | 2021-09-30 | 一种用于金融长文本复核系统的错别字审核模块 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111157575.0A CN113869047A (zh) | 2021-09-30 | 2021-09-30 | 一种用于金融长文本复核系统的错别字审核模块 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113869047A true CN113869047A (zh) | 2021-12-31 |
Family
ID=79000901
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111157575.0A Pending CN113869047A (zh) | 2021-09-30 | 2021-09-30 | 一种用于金融长文本复核系统的错别字审核模块 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113869047A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014117549A1 (en) * | 2013-01-29 | 2014-08-07 | Tencent Technology (Shenzhen) Company Limited | Method and device for error correction model training and text error correction |
CN107506413A (zh) * | 2017-08-11 | 2017-12-22 | 江苏科技大学 | 一种基于Lucene错别字的查询方法 |
CN111090986A (zh) * | 2019-11-29 | 2020-05-01 | 福建亿榕信息技术有限公司 | 一种公文文档纠错的方法 |
WO2021135444A1 (zh) * | 2020-06-28 | 2021-07-08 | 平安科技(深圳)有限公司 | 一种基于人工智能的文本纠错方法、装置、计算机设备及存储介质 |
CN113159969A (zh) * | 2021-05-17 | 2021-07-23 | 广州故新智能科技有限责任公司 | 一种金融长文本复核系统 |
-
2021
- 2021-09-30 CN CN202111157575.0A patent/CN113869047A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014117549A1 (en) * | 2013-01-29 | 2014-08-07 | Tencent Technology (Shenzhen) Company Limited | Method and device for error correction model training and text error correction |
CN107506413A (zh) * | 2017-08-11 | 2017-12-22 | 江苏科技大学 | 一种基于Lucene错别字的查询方法 |
CN111090986A (zh) * | 2019-11-29 | 2020-05-01 | 福建亿榕信息技术有限公司 | 一种公文文档纠错的方法 |
WO2021135444A1 (zh) * | 2020-06-28 | 2021-07-08 | 平安科技(深圳)有限公司 | 一种基于人工智能的文本纠错方法、装置、计算机设备及存储介质 |
CN113159969A (zh) * | 2021-05-17 | 2021-07-23 | 广州故新智能科技有限责任公司 | 一种金融长文本复核系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109947836B (zh) | 英语试卷结构化方法和装置 | |
US9342499B2 (en) | Round-trip translation for automated grammatical error correction | |
CN110276077A (zh) | 中文纠错的方法、装置及设备 | |
Sukkarieh et al. | Automarking: using computational linguistics to score short ‚free− text responses | |
US9443513B2 (en) | System and method for automated detection of plagiarized spoken responses | |
US20060015320A1 (en) | Selection and use of nonstatistical translation components in a statistical machine translation framework | |
CN110276069A (zh) | 一种中国盲文错误自动检测方法、系统及存储介质 | |
CN115034218A (zh) | 一种基于多阶段训练和编辑级别投票的中文语法错误诊断方法 | |
CN113159969A (zh) | 一种金融长文本复核系统 | |
François et al. | On the contribution of MWE-based features to a readability formula for French as a foreign language | |
Hassan et al. | Arabic spelling correction using supervised learning | |
JP2019185754A (ja) | 記述式試験採点プログラム及び記述式試験採点方法 | |
Daðason | Post-correction of Icelandic OCR text | |
Duran et al. | Some issues on the normalization of a corpus of products reviews in Portuguese | |
Juan et al. | Handwritten text recognition for ancient documents | |
Etxeberria et al. | Weighted finite-state transducers for normalization of historical texts | |
CN116451646A (zh) | 一种标准草案检测方法、系统、电子设备及存储介质 | |
Kutuzov et al. | Semi-automated typical error annotation for learner English essays: Integrating frameworks | |
Rosen | Building and Using Corpora of Non-Native Czech. | |
Chiu et al. | Chinese spell checking based on noisy channel model | |
CN113869047A (zh) | 一种用于金融长文本复核系统的错别字审核模块 | |
CN115908027A (zh) | 一种金融长文本复核系统的金融数据一致性审核模块 | |
Wibowo et al. | Spelling checker of words in rejang language using the n-gram and euclidean distance methods | |
Mandal et al. | A systematic literature review on spell checkers for bangla language | |
Darģis et al. | The use of text alignment in semi-automatic error analysis: use case in the development of the corpus of the Latvian language learners |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |