CN113869047A - 一种用于金融长文本复核系统的错别字审核模块 - Google Patents

一种用于金融长文本复核系统的错别字审核模块 Download PDF

Info

Publication number
CN113869047A
CN113869047A CN202111157575.0A CN202111157575A CN113869047A CN 113869047 A CN113869047 A CN 113869047A CN 202111157575 A CN202111157575 A CN 202111157575A CN 113869047 A CN113869047 A CN 113869047A
Authority
CN
China
Prior art keywords
character
text
wrongly written
financial
wrongly
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111157575.0A
Other languages
English (en)
Inventor
马文翔
朱乐为
崔子锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Guxin Intelligent Technology Co ltd
Original Assignee
Guangzhou Guxin Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Guxin Intelligent Technology Co ltd filed Critical Guangzhou Guxin Intelligent Technology Co ltd
Priority to CN202111157575.0A priority Critical patent/CN113869047A/zh
Publication of CN113869047A publication Critical patent/CN113869047A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

一种用于金融长文本复核系统的错别字审核模块,应用于金融长文本复核中错别字审核、文字合规与合理性审核,该模块中包括预处理模块、NLP模型、领域字典及结果处理模块,通过预处理模块清洗待检测文本,提取出其中的敏感文本,缩小需要审核的目标文本范围,提高审核的效率;使用NLP模型获取所述被测字的错别字模型;判断所述被测字的正确性,并提供纠正建议,再经过领域字典的汉字关联验证机制复查NLP模型结果的正确性;最后经由结果处理模块将错别字及纠正建议按规定格式进行输出。

Description

一种用于金融长文本复核系统的错别字审核模块
技术领域
本发明属于金融文本分析领域,具体涉及一种用于金融长文本复核系统的错别字审核模块。
背景技术
金融长文本主要是指记录评估企业一段时间内财务状况或向外展示公司经营状况的一系列包括年度报告、招股说明书、审计报告等在内的财务数据文本。此类文本通常由专业金融方面的人员结合公司实际情况撰写完成,主要由文本段落、财务指标和表格数据等复杂元素组成。因为金融长文本隐含企业实际经营状况,所以金融机构或企业本身在发布金融长文本时,需要对金融长文本在用字正确及格式合规等方面进行审核。目前该些金融长文本主要依靠人工审核,由于文本内容之大及文本涉及专业程度之高,使得人工审核的效率以及精准度较低,为了提高金融长文本用字正确及格式合规等方面的审核效率和精度,基于计算机强大的计算能力,结合人工智能对自然语言处理技术的兴起,现提出一种金融长文本复核系统的错别字审核模块,以解决金融长文本错别字审核效率低以及精准度低的问题。
发明内容
针对上述存在现象问题,本发明提出一种用于金融长文本复核系统的错别字审核模块,通过解析处理金融长文本的文本内容,结合人工智能对文本内容的对比分析,实现金融长文本的精准高效的错别字审核。
为实现上述目的,本发明提供一种用于金融长文本复核系统的错别字审核模块,应用于金融长文本复核中错别字审核、文字合规与合理性审核,其特征在于,该模块包括一预处理模块、一NLP模型、一领域字典及一结果处理模块;
所述预处理模块对输入的待检测文本进行清洗,将其中不存在易错字的文本数据,定为非敏感文本,其中存在易错字的文本数据,定为敏感文本;
所述NLP模型对所述敏感文本进行特征提取,获取其中被测字的基本表征,得到对应的候选字符及候选字符概率,依次得出所述被测字的错别字模型,结合所述候选字符信息与所述错别字模型,预测所述被测字在所述敏感文本处的正确字符,若所述正确字符与所述被测字不一致,则被测字为错别字,并将所述正确字符作为纠正建议提出;
所述领域字典存在汉字关联验证机制,所述汉字关联验证机制结合NLP模型得出的错别字结果,在领域字典内验证敏感文本中的错别字结果准确性;
所述结果处理模块将经过上述三个步骤处理得到的信息综合处理,将其按规定格式进行输出。
优选的,所述待检测文本为金融长文本在进行数据信息清洗后得到的符合所述用于金融长文本复核系统的错别字审核模块输入格式要求的段落及标题数据。
优选的,所述的金融长文本进行数据信息清洗的过程包括以下任意一个或多个步骤:
将所述金融长文本语句切割、提取处理;
将所述金融长文本中的字符串转换为预定格式。
优选的,所述NLP模型具体为经由大规模通用语料和金融语料进行训练获得的预训练模型。
优选的,所述领域字典包括现有通用词典以及金融领域字典。
优选的,将所述NLP模型判断为错别字的被测字定为疑错字,将其在NLP模型中得到的对应正确字符定为纠正字;将所述疑错字与其在该自然句中的前一个字及后一个字分别组成被测词组A,将所述纠正字与其在该自然句中的前一个字及后一个字分别组成被测词组B;在所述领域字典筛选存在包含所述疑错字的词组作为对比词组,利用所述汉字关联验证机制,将所述被测词组A及被测词组B分别与所述对比词组进行对比验证,若所述对比词组不存在所述被测词组A,则确认所述疑错字为错别字,若所述对比词组存在所述被测词组B,则确认所述纠正字为正确的纠正建议。
优选的,所述错别字包括汉字、字母及标点符号。
同时,本发明提供一种用于金融长文本复核系统的错别字审核方法,所述错别字审核模块的错别字查找具体步骤为:S10:输入待检测文本S11:对待检测文本进行预处理,包括:数据清洗,非敏感文本数据提取;S12:根据NLP模型检测被测字得到候选字符以及候选字符概率并输出错别字模型;S13:根据领域字典的领域字典以及错别字模型,筛选错别字以及提出纠正建议并输出;S14:将输出数据处理为预定义格式数据并展示。
相比于现有技术,本发明的有益效果:本发明提供的一种用于金融长文本复核系统的错别字审核模块,通过预处理模块清洗待检测文本,提取出其中的敏感文本,缩小需要审核的目标文本范围,提高审核的效率;使用NLP模型获取所述被测字的错别字模型;判断所述被测字的正确性,并提供纠正建议,再经过领域字典的汉字关联验证机制复查NLP模型结果的正确性;最后经由结果处理模块将错别字及纠正建议按规定格式进行输出。经过上述模块配合,基于自然语言处理领域知识,利用计算机人工智能完成金融长文本错别字审核,只需通过最终输出结果便可得知金融长文本的错别字情况,提高了错别字审核方面的效率和精度,也避免了在这方面人力资源的浪费。
附图说明
图1是本发明提供的金融长文本复核系统的错别字审核模块的功能逻辑结构图;
图2是本发明提供的金融长文本复核系统的错别字审核模块的模块及错别字查找流程图。
具体实施方式
为进一步详细介绍本发明,接下来结合附图进行说明。特别指出,下面所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参阅图1,一种用于金融长文本复核系统的错别字审核模块,应用于金融长文本复核中错别字审核、文字合规与合理性审核,其特征在于,该模块包括一预处理模块、一NLP模型、一领域字典及一结果处理模块;
所述预处理模块对输入的待检测文本进行清洗,将其中不存在易错字的文本数据,定为非敏感文本,其中存在易错字的文本数据,定为敏感文本;
所述NLP模型对所述敏感文本进行特征提取,获取其中被测字的基本表征,得到对应的候选字符及候选字符概率,依次得出所述被测字的错别字模型,结合所述候选字符信息与所述错别字模型,预测所述被测字在所述敏感文本处的正确字符,若所述正确字符与所述被测字不一致,则被测字为错别字,并将所述正确字符作为纠正建议提出;
所述领域字典存在汉字关联验证机制,所述汉字关联验证机制结合NLP模型得出的错别字结果,在领域字典内验证敏感文本中的错别字结果准确性;
所述结果处理模块将经过上述三个步骤处理得到的信息综合处理,将其按规定格式进行输出。
可以理解的,由于各企业及金融机构生产的金融长文本的书写要求及文本格式不尽相同,因此需对金融长文本进行数据信息清洗得到待检测文本,即一种符合金融长文本复核系统的错别字审核模块输入格式的段落及标题数据。
又由于各金融长文本实际情况不同,在进行的数据信息清洗,根据输入格式自主删选金融长文本语句切割、提取处理及字符串格式转换等步骤。
所述NLP模型具体为经由大规模通用语料和金融语料进行训练获得的预训练模型。可以理解的,所谓预训练模型则是利用大量在人们生活中出现过的文本来训练,使模型在这些文本中,学习到每一个词或字出现的概率分布,以此来建模出符合这些文本分布的模型。在本实施例中使用的文本是多个通用语料和金融语料,这些通用语料和金融语料,使预训练模型获得了强大的通用与金融方面语言模型判断的能力。
优选的,所述领域字典包括现有通用词典以及金融领域字典。
优选的,将所述NLP模型判断为错别字的被测字定为疑错字,将其在NLP模型中得到的对应正确字符定为纠正字;将所述疑错字与其在该自然句中的前一个字及后一个字分别组成被测词组A,将所述纠正字与其在该自然句中的前一个字及后一个字分别组成被测词组B;在所述领域字典筛选存在包含所述疑错字的词组作为对比词组,利用所述汉字关联验证机制,将所述被测词组A及被测词组B分别与所述对比词组进行对比验证,若所述对比词组不存在所述被测词组A,则确认所述疑错字为错别字,若所述对比词组存在所述被测词组B,则确认所述纠正字为正确的纠正建议。
可以理解的,所述错别字不是特指错误使用的中文汉字,其他语言相关字母及标点符号的错用也是错别字的一种,因此对汉字、字母及标点符号的使用错误进行纠正,才能改善标点符号错用、标点符号不匹配、文字书写笔误及文字使用场景不宜等错别字造成的影响。
参阅图2本发明提供一种用于金融长文本复核系统的错别字审核方法,所述错别字审核模块的错别字查找具体步骤为:S10:输入待检测文本S11:对待检测文本进行预处理,包括:数据清洗,非敏感文本数据提取;S12:根据NLP模型检测被测字得到候选字符以及候选字符概率并输出错别字模型;S13:根据领域字典的领域字典以及错别字模型,筛选错别字以及提出纠正建议并输出;S14:将输出数据处理为预定义格式数据并展示。
本发明提供的一种用于金融长文本复核系统的错别字审核模块,通过预处理模块清洗待检测文本,提取出其中的敏感文本,缩小需要审核的目标文本范围,提高审核的效率;使用NLP模型获取所述被测字的错别字模型;判断所述被测字的正确性,并提供纠正建议,再经过领域字典的汉字关联验证机制复查NLP模型结果的正确性;最后经由结果处理模块将错别字及纠正建议按规定格式进行输出。经过上述模块配合,基于自然语言处理领域知识,利用计算机人工智能完成金融长文本错别字审核,只需通过最终输出结果便可得知金融长文本的错别字情况,提高了错别字审核方面的效率和精度,也避免了在这方面人力资源的浪费。
以上公开的实施例仅为详细说明介绍本发明,不能以此来限定本发明之范围,因此依本发明权利要求申请范围所作简单改进变化,仍属本发明保护的范围。
本发明的保护范围应当以所限定的范围为准。对于本技术领域的普通技术人员来说,在不脱离本发明的精神和范围内,还可以做出若干改进和润饰,这些和润饰也应视为本发明的保护范围。

Claims (8)

1.一种用于金融长文本复核系统的错别字审核模块,应用于金融长文本复核中错别字审核、文字合规与合理性审核,其特征在于,该模块包括一预处理模块、一NLP模型、一领域字典及一结果处理模块;
所述预处理模块对输入的待检测文本进行清洗,将其中不存在易错字的文本数据,定为非敏感文本,其中存在易错字的文本数据,定为敏感文本;
所述NLP模型对所述敏感文本进行特征提取,获取其中被测字的基本表征,得到对应的候选字符及候选字符概率,依次得出所述被测字的错别字模型,结合所述候选字符信息与所述错别字模型,预测所述被测字在所述敏感文本处的正确字符,若所述正确字符与所述被测字不一致,则被测字为错别字,并将所述正确字符作为纠正建议提出;
所述领域字典存在汉字关联验证机制,所述汉字关联验证机制结合NLP模型得出的错别字结果,在领域字典内验证敏感文本中的错别字结果准确性;
所述结果处理模块将经过上述三个步骤处理得到的信息综合处理,将其按规定格式进行输出。
2.根据权利要求1所述的一种用于金融长文本复核系统的错别字审核模块,其特征在于:所述待检测文本为金融长文本在进行数据信息清洗后,得到的符合所述用于金融长文本复核系统的错别字审核模块输入格式要求的段落及标题数据。
3.根据权利要求2所述的一种用于金融长文本复核系统的错别字审核模块,其特征在于:所述的金融长文本进行数据信息清洗的过程包括以下任意一个或多个步骤:
将所述金融长文本语句切割、提取处理;
将所述金融长文本中的字符串转换为预定格式。
4.根据权利要求1所述的一种用于金融长文本复核系统的错别字审核模块,其特征在于:所述NLP模型具体为经由大规模通用语料和金融语料进行训练获得的预训练模型。
5.根据权利要求4所述的一种用于金融长文本复核系统的错别字审核模块,其特征在于:所述领域字典包括现有通用词典以及金融领域字典。
6.根据权利要求5所述的一种用于金融长文本复核系统的错别字审核模块,其特征在于:将所述NLP模型判断为错别字的被测字定为疑错字,将其在NLP模型中得到的对应正确字符定为纠正字;将所述疑错字与其在该自然句中的前一个字及后一个字分别组成被测词组A,将所述纠正字与其在该自然句中的前一个字及后一个字分别组成被测词组B;在所述领域字典筛选存在包含所述疑错字的词组作为对比词组,利用所述汉字关联验证机制,将所述被测词组A及被测词组B分别与所述对比词组进行对比验证,若所述对比词组不存在所述被测词组A,则确认所述疑错字为错别字,若所述对比词组存在所述被测词组B,则确认所述纠正字为正确的纠正建议。
7.根据权利要求6所述的一种用于金融长文本复核系统的错别字审核模块,其特征在于:所述错别字包括汉字、字母及标点符号。
8.一种用于金融长文本复核系统的错别字审核方法,其特征在于:所述错别字审核模块的错别字查找具体步骤为:S10:输入待检测文本S11:对待检测文本进行预处理,包括:数据清洗,非敏感文本数据提取;S12:根据NLP模型检测被测字得到候选字符以及候选字符概率并输出错别字模型;S13:根据领域字典的领域字典以及错别字模型,筛选错别字以及提出纠正建议并输出;S14:将输出数据处理为预定义格式数据并展示。
CN202111157575.0A 2021-09-30 2021-09-30 一种用于金融长文本复核系统的错别字审核模块 Pending CN113869047A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111157575.0A CN113869047A (zh) 2021-09-30 2021-09-30 一种用于金融长文本复核系统的错别字审核模块

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111157575.0A CN113869047A (zh) 2021-09-30 2021-09-30 一种用于金融长文本复核系统的错别字审核模块

Publications (1)

Publication Number Publication Date
CN113869047A true CN113869047A (zh) 2021-12-31

Family

ID=79000901

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111157575.0A Pending CN113869047A (zh) 2021-09-30 2021-09-30 一种用于金融长文本复核系统的错别字审核模块

Country Status (1)

Country Link
CN (1) CN113869047A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014117549A1 (en) * 2013-01-29 2014-08-07 Tencent Technology (Shenzhen) Company Limited Method and device for error correction model training and text error correction
CN107506413A (zh) * 2017-08-11 2017-12-22 江苏科技大学 一种基于Lucene错别字的查询方法
CN111090986A (zh) * 2019-11-29 2020-05-01 福建亿榕信息技术有限公司 一种公文文档纠错的方法
WO2021135444A1 (zh) * 2020-06-28 2021-07-08 平安科技(深圳)有限公司 一种基于人工智能的文本纠错方法、装置、计算机设备及存储介质
CN113159969A (zh) * 2021-05-17 2021-07-23 广州故新智能科技有限责任公司 一种金融长文本复核系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014117549A1 (en) * 2013-01-29 2014-08-07 Tencent Technology (Shenzhen) Company Limited Method and device for error correction model training and text error correction
CN107506413A (zh) * 2017-08-11 2017-12-22 江苏科技大学 一种基于Lucene错别字的查询方法
CN111090986A (zh) * 2019-11-29 2020-05-01 福建亿榕信息技术有限公司 一种公文文档纠错的方法
WO2021135444A1 (zh) * 2020-06-28 2021-07-08 平安科技(深圳)有限公司 一种基于人工智能的文本纠错方法、装置、计算机设备及存储介质
CN113159969A (zh) * 2021-05-17 2021-07-23 广州故新智能科技有限责任公司 一种金融长文本复核系统

Similar Documents

Publication Publication Date Title
CN109947836B (zh) 英语试卷结构化方法和装置
US9342499B2 (en) Round-trip translation for automated grammatical error correction
CN110276077A (zh) 中文纠错的方法、装置及设备
Sukkarieh et al. Automarking: using computational linguistics to score short ‚free− text responses
US9443513B2 (en) System and method for automated detection of plagiarized spoken responses
US20060015320A1 (en) Selection and use of nonstatistical translation components in a statistical machine translation framework
CN110276069A (zh) 一种中国盲文错误自动检测方法、系统及存储介质
CN115034218A (zh) 一种基于多阶段训练和编辑级别投票的中文语法错误诊断方法
CN113159969A (zh) 一种金融长文本复核系统
François et al. On the contribution of MWE-based features to a readability formula for French as a foreign language
Hassan et al. Arabic spelling correction using supervised learning
JP2019185754A (ja) 記述式試験採点プログラム及び記述式試験採点方法
Daðason Post-correction of Icelandic OCR text
Duran et al. Some issues on the normalization of a corpus of products reviews in Portuguese
Juan et al. Handwritten text recognition for ancient documents
Etxeberria et al. Weighted finite-state transducers for normalization of historical texts
CN116451646A (zh) 一种标准草案检测方法、系统、电子设备及存储介质
Kutuzov et al. Semi-automated typical error annotation for learner English essays: Integrating frameworks
Rosen Building and Using Corpora of Non-Native Czech.
Chiu et al. Chinese spell checking based on noisy channel model
CN113869047A (zh) 一种用于金融长文本复核系统的错别字审核模块
CN115908027A (zh) 一种金融长文本复核系统的金融数据一致性审核模块
Wibowo et al. Spelling checker of words in rejang language using the n-gram and euclidean distance methods
Mandal et al. A systematic literature review on spell checkers for bangla language
Darģis et al. The use of text alignment in semi-automatic error analysis: use case in the development of the corpus of the Latvian language learners

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination