CN117058679A - 文本纠错处理方法、装置、设备及存储介质 - Google Patents

文本纠错处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN117058679A
CN117058679A CN202310891076.7A CN202310891076A CN117058679A CN 117058679 A CN117058679 A CN 117058679A CN 202310891076 A CN202310891076 A CN 202310891076A CN 117058679 A CN117058679 A CN 117058679A
Authority
CN
China
Prior art keywords
text
character
error
characters
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310891076.7A
Other languages
English (en)
Inventor
刘东煜
周坤胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202310891076.7A priority Critical patent/CN117058679A/zh
Publication of CN117058679A publication Critical patent/CN117058679A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/12Detection or correction of errors, e.g. by rescanning the pattern
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/19007Matching; Proximity measures
    • G06V30/19093Proximity measures, i.e. similarity or distance measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/1914Determining representative reference patterns, e.g. averaging or distorting patterns; Generating dictionaries, e.g. user dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Character Discrimination (AREA)

Abstract

本发明涉及自然语言技术领域,公开了一种文本纠错处理方法,该方法获取待纠错文本;通过文本纠错模型的特征层对待纠错文本进行特征提取,得到位置特征、图像特征和字形特征;通过文本纠错模型的标注层,根据位置特征、图像特征和字形特征对待纠错文本中的文本文字进行错误标注,得到错误文字;对各错误文字进行笔画拆解,得到文字笔画;通过预设形近字字典对各错误文字的文字笔画进行文字匹配,得到候选文字;从所有候选文字中筛选出目标文字,并根据目标文字对错误文字进行文字替换,得到目标文本。本发明通过对各错误文字的文字笔画进行文字匹配,实现了采用笔画信息的文字匹配,提高了保险领域信息录入过程中文本纠错的准确率。

Description

文本纠错处理方法、装置、设备及存储介质
技术领域
本发明涉及自然语言技术领域,尤其涉及一种文本纠错处理方法、装置、设备及存储介质。
背景技术
光学字符识别(OCR)技术在文本处理系统中是非常重要的一部分,该技术的目的是通过采样,照相等光学输入手段获取纸质文档的文字信息,再利用各种识别算法转换为计算机可操作的文字。例如,在保险理赔场景中,对客户上传的证明材料进行文字识别,并基于文字判断是否理赔。
现有技术中,基于深度神经网络的OCR技术已经能够达到较为显著的准确率,然而,当应用于真实场景时,如在金融领域应用时,会出现的许多问题,比如图片信息丢失部分重要数据、图片倾斜造成的整体信息偏差、图片质量差导致的噪声问题等,导致仅基于深度神经网络的OCR系统无法正确工作。因此,许多OCR识别后处理纠错技术也应运而生。但是目前大多数金融机构的OCR纠错工作仅在以字符为基本组成的数据进行,现有金融机构的语言模型只考虑到字符之间的关联信息,却没有用到字符的笔画信息,导致文字纠错的准确率较低。
发明内容
本发明实施例提供一种文本纠错处理方法、装置、设备及存储介质,以改善现有技术中没有充分利用字符信息导致文字纠错准确率较低的问题。
一种文本纠错处理方法,包括:
获取待纠错文本;所述待纠错文本是指扫描得到的图像;
获取文本纠错模型,通过所述文本纠错模型的特征层对所述待纠错文本进行特征提取,得到位置特征、图像特征和字形特征;
通过所述文本纠错模型的标注层,根据所述位置特征、所述图像特征和所述字形特征对所述待纠错文本中的文本文字进行错误标注,得到与所述待纠错文本对应的至少一个错误文字;
对各所述错误文字进行笔画拆解,得到与各所述错误文字对应的文字笔画;
通过预设形近字字典对各所述错误文字的文字笔画进行文字匹配,得到与各所述错误文字对应的候选文字;
从与各所述错误文字对应的所有所述候选文字中筛选出目标文字,并根据所述目标文字对所述错误文字进行文字替换,得到目标文本。
一种文本纠错处理装置,包括:
文本获取模块,用于获取待纠错文本;所述待纠错文本是指扫描得到的图像;
特征提取模块,用于获取文本纠错模型,通过所述文本纠错模型的特征层对所述待纠错文本进行特征提取,得到位置特征、图像特征和字形特征;
错误标注模块,用于通过所述文本纠错模型的标注层,根据所述位置特征、所述图像特征和所述字形特征对所述待纠错文本中的文本文字进行错误标注,得到与所述待纠错文本对应的至少一个错误文字;
笔画拆解模块,用于对各所述错误文字进行笔画拆解,得到与各所述错误文字对应的文字笔画;
文字匹配模块,用于通过预设形近字字典对各所述错误文字的文字笔画进行文字匹配,得到与各所述错误文字对应的候选文字;
文字替换模块,用于从与各所述错误文字对应的所有所述候选文字中筛选出目标文字,并根据所述目标文字对所述错误文字进行文字替换,得到目标文本。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述文本纠错处理方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述文本纠错处理方法。
本发明提供一种文本纠错处理方法、装置、设备及存储介质,该方法通过文本纠错模型的特征层对扫描得到的待纠错文本进行特征提取,实现了对位置特征、图像特征和字形特征的提取。通过文本纠错模型的标注层,根据位置特征、图像特征和字形特征对待纠错文本中的文本文字进行错误标注,实现了对待纠错文本中错误文字的标注,进而实现了对错误文字的文字笔画的拆解。通过预设形近字字典对各所述错误文字的文字笔画进行文字匹配,实现了对候选文字的确定,进而实现了对目标文字的筛选。根据目标文字对所述文字进行文字替换,实现了对目标文本的获取,进而确保了保险领域录入信息的准确性。进一步地,通过预设形近字字典对各错误文字的文字笔画进行文字匹配,实现了采用笔画信息的文字匹配,提高了保险领域信息录入过程中文本纠错的准确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中文本纠错处理方法的应用环境示意图;
图2是本发明一实施例中文本纠错处理方法的流程图;
图3是本发明一实施例中文本纠错处理方法步骤S20的流程图;
图4是本发明一实施例中文本纠错处理方法步骤S50的流程图;
图5是本发明一实施例中文本纠错处理装置的原理框图;
图6是本发明一实施例中计算机设备的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的文本纠错处理方法,该文本纠错处理方法可应用如图1所示的应用环境中。具体地,该文本纠错处理方法应用在文本纠错处理装置中,该文本纠错处理装置包括如图1所示的客户端和服务器,客户端与服务器通过网络进行通信,用于改善现有技术中没有充分利用字符信息导致文字纠错准确率较低的问题。其中,该服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。客户端又称为用户端,是指与服务器相对应,为客户提供分类服务的程序。客户端可安装在但不限于各种计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。
在一实施例中,如图2所示,提供一种文本纠错处理方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:
S10,获取待纠错文本;所述待纠错文本是指扫描得到的图像。
可理解地,待纠错文本为OCR识别技术对纸质文档识别得到的。待纠错文本可以从不同的数据库中获取得到的,也即对用户上传的资料进行分类并存储在不同的数据库中,也即可以是从可以客户端发送到服务端的。例如,从保险公司的理赔系统中获取用户上传的理赔证明资料,该证明资料是通过OCR识别技术对纸质文档扫描得到的图像。
S20,获取文本纠错模型,通过所述文本纠错模型的特征层对所述待纠错文本进行特征提取,得到位置特征、图像特征和字形特征。
可理解地,文本纠错模型的模型结构使用chinese-bert-base结构结合layoutlm结构构建训练得到的。
具体地,调取训练完成的文本纠错模型,并将待纠错文本输入到文本纠错模型中,然后,通过文本纠错模型的特征层对待纠错文本进行特征提取,先使用OCR识别结果中每个单词的边界框,将文本图像分成几部分,并且分割的图像与单词具有一一对应的关系。再使用Faster R-CNN模型来生成图像区域特征作为每个文本文字的图像特征。通过layoutlm方法对文本纠错模型中的位置特征进行提取,也即通过定义每个单词的边界框的左上角和右下角的坐标位置,从而得到待纠错文本中每个文本文字的位置特征。通过Embedding层对待纠错文本中每个文本文字进行嵌入,从而得到与各文本文字对应的字形特征。
S30,通过所述文本纠错模型的标注层,根据所述位置特征、所述图像特征和所述字形特征对所述待纠错文本中的原始文字进行错误标注,得到与所述待纠错文本对应的至少一个错误文字。
可理解地,错误文字为标注出识别错误的文本文字。文本文字为待纠错文本中的文字。
具体地,在得到位置特征、图像特征和字形特征之后,将每个文本文字对应的位置特征、图像特征和字形特征均输入到标注层,文本纠错模型的标注层根据掩码预测功能和每个文本文字对应的位置特征、图像特征和字形特征进行错误预测,也即通过掩码功能对文本文字进行预测,并将预测的文字和每个文本文字对应的位置特征、图像特征和字形特征进行比较,从而得到与待纠错文本对应的至少一个错误文字。例如,在保险场景中,将上传的证明材料识别后的结果,通过文本纠错模型的标注层进行错误标注,即可得到证明材料中的错误文字及其对应的错误位置。
S40,对各所述错误文字进行笔画拆解,得到与各所述错误文字对应的文字笔画。
S50,通过预设形近字字典对各所述错误文字的文字笔画进行文字匹配,得到与各所述错误文字对应的候选文字。
具体地,对各错误文字进行笔画拆解,也即使用爱奇艺字形笔画拆解方式对每个错误文字进行笔画拆解,即将每个文字的每个笔画作为一个特征进行拆解,从而得到与各所述错误文字对应的文字笔画。进而,调取预设形近字字典,通过预设形近字字典对各错误文字的文字笔画进行文字匹配,也即先将预设形近字字典中的形近字和错误文字进行相似度匹配,并将相似度较高的预设数量个形近字进行笔画拆解,得到对应的形近笔画。接着,将每个形近字的形近笔画和错误文字的文字笔画进行相似度匹配,从而得到与各形近字对应的文字相似值。对所有文字相似值和预设相似阈值进行比较,当所述文字相似值大于或等于预设相似阈值时,将与所述文字相似值对应的形近字确定为与所述错误文字对应的候选文字。
S60,从与各所述错误文字对应的所有所述候选文字中筛选出目标文字,并根据所述目标文字对所述错误文字进行文字替换,得到目标文本。
进一步地,获取与各候选文字对应的概率值,也即通过各候选文字和错误文字的相似度值对所有候选文字进行排序,并按照排序结果将候选文字依次带入错误文字的位置进行语义预测,从而得到概率值。基于所有概率值对所有候选文字进行筛选,也即将概率值最大的候选文字确定为目标文字,如此即可得到与错误文字对应的目标文字。
在本发明实施例中的一种文本纠错处理方法,该方法通过文本纠错模型的特征层对扫描得到的待纠错文本进行特征提取,实现了对位置特征、图像特征和字形特征的提取。通过文本纠错模型的标注层,根据位置特征、图像特征和字形特征对待纠错文本中的文本文字进行错误标注,实现了对待纠错文本中错误文字的标注,进而实现了对错误文字的文字笔画的拆解。通过预设形近字字典对各所述错误文字的文字笔画进行文字匹配,实现了对候选文字的确定,进而实现了对目标文字的筛选。根据目标文字对所述文字进行文字替换,实现了对目标文本的获取,进而确保了保险领域录入信息的准确性。进一步地,通过预设形近字字典对各错误文字的文字笔画进行文字匹配,实现了采用笔画信息的文字匹配,提高了保险领域信息录入过程中文本纠错的准确率。
在一实施例中,步骤S50之前,也即通过预设形近字字典对各所述错误文字的文字笔画进行文字匹配之前,包括:
S701,通过字形笔画拆解法对预设字表中的所有预设文字进行笔画拆解标注,得到标注文字,对所述标注文字进行文字召回,得到至少一个第一召回文字。
可理解地,标注文字为被标记的文字,可以通过第三方平台进行人工标注。第一召回文字为通过第一种方式召回的相似文字。预设字表为提前设置的,包括预设数量个(例如2万个)文字。
具体的,在获取预设形近字字典之前,调取数据库中的预设字表,然后将预设字表发送至第三方平台,由工作人员从第三方平台获取预设字表,并通过字形笔画拆解法对预设字表中的所有预设文字进行笔画拆解标注,也即先按照偏旁部首进行分类,或者对预设文字的图像特征进行聚类等方法进行类别划分,然后,通过字形笔画拆解法对每个类别中的形似文字进行标注,即可得到与各预设文字对应的标注文字,并将标注文字反馈至服务器的数据库中。从数据库中提取标注文字,对所有标注文字进行文字召回,也即通过标注文字进行相似文字召回,从召回与各标注文字对应的相似文字,如此即可得到至少一个第一召回文字。
S702,获取预设分类模型对相似文字的图像特征处理的输出值。
S703,当各所述输出值大于或等于预设阈值时,将与各所述输出值的图像特征对应的相似文字确定为第二召回文字。
S704,获取常用错误混淆集,根据所有所述第一召回文字、所有所述第二召回文字和所述常用错误混淆集,构建预设形近字字典。
可理解地,第二召回文字为通过第二种方式召回的相似文字。常用错误混淆集为人工挖掘ocr常见的错误混淆集。
具体的,获取预设分类模型对相似文字的图像特征处理的输出值,也即获取cnn分类模型logit层对各个相似文字分类预测的输出值。将各个预设文字的输出值和预设阈值进行比较,当输出值小于预设阈值时,则对该输出值的图像特征对应的相似文字进行删除。当输出值大于或等于预设阈值时,将与该输出值的图像特征对应的相似文字确定为第二召回文字,如此,即可得到所有第二召回文字。进一步地,从数据库中获取有人工挖掘的常用错误混淆集,然后,将所有第一召回文字、所有第二召回文字和常用错误混淆集的文字进行去重,也即将通过三种方法获取的所有文字中的重复文字进行删除,即可构建预设形近字字典。例如,第一召回文字是对“不”字召回的,第二召回文字是对“还”字召回的,可能会产生重复的文字,如下、丕、坏、怀、坯等相似字,从而需要去重后构建预设形近字字典。
本发明实施例中通过字形笔画拆解法对进行笔画拆解标注,实现了对标注文字的确定。通过对标注文字进行文字召回,实现了第一召回文字的召回。通过将与各输出值的图像特征对应的相似文字确定为第二召回文字,实现了对第二召回文字的的召回,进而实现了对预设形近字字典的构建。
在一实施例中,如图3所示,步骤S20之前,也即获取文本纠错模型之前,包括:
S201:获取至少一个初始文字,通过预设训练模型对所有所述初始文字进行错误标注,确定样本错误文字及其对应的样本错误位置。
可理解地,初始文字为对纸质文档进行OCR识别得到的,例如,在保险场景中,初始文字可以是事故认定责任书,或者住院费用清单及住院病历等。错误文字为OCR识别错误的初始文字,例如止和上等形近文字。样本错误位置为借鉴layoutlm方法,将文字的横纵坐标分别标注化至0-1000上,本实施例中为错误文字的中心点坐标。
具体地,获取上传的纸质文档,并对纸质文档进行OCR识别,也即先对纸质文档进行扫描,得到每页对应的图像,对图像进行二值化,即将图像的前景和背景分开,再对图像去噪。然后,对去噪后的图像进行倾斜校正,得到校正图像。对校正图像进行分析,即该步骤是为每个文字的坐标进行确定,先将校正图像中的文档划分段落,也即二维位置嵌入先对文档中的相对空间位置进行建模,将文档页面视为具有左上角原点的坐标系。因此,可以通过(x0,y0,x1,y1)定义边界框,其中(x0,y0)对应于边界框左上角的位置,而(x 1,y1)代表边界框的右下角位置。使用2个嵌入标签用于4个位置嵌入层,相同维度的嵌入层使用相同维度的嵌入标签,嵌入标签可以查看tensorflow或者pyorch中的定义。例如,2个嵌入标签名字为X和Y,在X中查找x0和x1的位置嵌入,并在Y中查找y0和y1的位置嵌入,确定每个文字的文字坐标。然后,通过边界框对每个段落的字符进行切割,也即将每个文字划分为独立的矩形框,即可得到图像特征。使用字的四点坐标在图片中将对应的矩形框内的子图扣出来,即可得到初始文字。通过Embedding层对初始文字进行向量化,得到文字向量,如此,即可得到文字向量、图像特征和文字坐标。通过预设训练模型对所有初始文字进行错误标注,也即对初始文字、文字向量、图像特征和文字坐标进行错误标注,即采用中文bert-base模型中掩码预测功能进行错误预测,即可得到样本错误文字及其对应的样本错误位置。例如,在保险场景中,将上传的证明材料识别后的结果,通过预设训练模型进行错误标注,即可得到证明材料中的样本错误文字及其对应的样本错误位置。
S202:获取预设形近字字典,通过所述预设形近字字典对各所述样本错误文字进行文字匹配,得到与各所述样本错误文字对应的样本候选文字;一个所述样本错误文字对应至少一个所述样本候选文字。
可理解地,样本候选文字为与每个样本错误文字的相似的形近字,例如,不、丕、还等形近字。每一个样本错误文字对应至少一个样本候选文字。预设形近字字典为根据预设字表进行文字召回得到的。
具体地,从数据库中调取预设的形近字字典,并通过预设形近字字典对各样本错误文字进行文字匹配,也即对预设形近字字典中的各形近字的笔画和各样本错误文字的文字笔画进行相似匹配,从而得到与各形近字对应的样本文字相似值。将所有样本文字相似值和预设样本相似阈值分别进行比较,当样本文字相似值小于预设样本相似阈值时,则对样本文字相似值对应的形近字进行删除。当样本文字相似值大于或等于预设样本相似阈值时,将与样本文字相似值对应的形近字确定为与样本错误文字对应的样本候选文字。例如,在金融场景中,需要识别纸质文档时,“且”字的样本候选文字包括旦相似度为0.89,早相似度为0.82,日相似度为0.78,曰相似度为0.78等等。
S203,从与各所述样本错误文字对应的所有所述样本候选文字中筛选出样本目标文字;每一个所述样本错误文字对应一个所述样本目标文字。
可理解地,样本目标文字为通过预设训练模型选择出最接近的文字。
具体地,从与各错误文字对应的所有候选文字中筛选出目标文字,即通过候选文字和错误文字之间的相似度值筛选出预设数量个候选文字,再基于候选文字和上下文之间的关联,计算与各候选文字对应的概率值。然后,基于概率值从与各错误文字对应的所有候选文字中筛选出目标文字,即将概率值最大的候选文字确定为样本目标文字。每一个样本错误文字对应一个样本目标文字。例如,在保险领域中,证明材料为事故责任认定书时,其中不承担责任的“不”字,识别为“丕”字,通过筛选出候选文字,再根据相似度值和上下文的关联,确定“不”字的概率值为99%,“还”字的概率值为88%,“怀”字的概率值为60%,“坏”字的概率值为30%等等,即可确定目标文字为“不”字。
S204:根据预设替换文字、所述样本目标文字、所述样本错误位置和预设替换位置,确定所述预设训练模型的预测损失值。
可理解地,预测损失值为文字纠错过程中产生的。预设替换文字和预设替换位置可以是由人工确定或者其它纠错方式得到的。
具体地,在得到样本目标文字之后,将与同一样本错误文字对应的预设替换文字和样本目标文字进行损失计算,得到该样本错误文字的文字损失值,进而对每个样本错误文字的文字损失值进行计算,并将所有样本错误文字的文字损失值进行求和,得到第一损失值。进而,将与同一样本错误文字对应的样本错误位置和预设替换位置进行损失计算,得到该样本错误文字的位置损失值,进而对每个样本错误文字的位置损失值进行计算,并将所有样本错误文字的位置损失值进行求和,得到第二损失值。进而,根据第一损失值和第二损失值计算出预测损失值。例如,在保险理赔场景中,在上传的资料进行OCR识别后,对资料中所有样本错误文字对应的样本目标文字和预设替换文字进行损失值计算,如通过计算止和上之间的相似度,从而确定该样本错误文字的损失值,对所有损失值加权求和即可得到第一损失值。对资料中与各样本错误文字对应的样本错误位置和预设替换位置进行损失值计算,也即判断所有样本错误位置是否与对应预设替换位置相同,即可计算第二损失值。
S205:在所述预测损失值达到预设收敛条件时,将收敛之后的所述预设训练模型记录为文本纠错模型。
可理解地,收敛条件可以为预测损失值小于设定阈值的条件,还可以为预测损失值经过了500次计算后值为很小且不会再下降的条件,停止训练。
具体地,在得到预测损失值之后,在预测损失值未达到预设的收敛条件时,通过预测损失值调整预设训练模型的初始参数,并将所有初始文字、预设替换文字和预设替换位置重新输入至调整初始参数的预设训练模型中,对调整初始参数的预设训练模型进行迭代训练,即可得到与调整初始参数的预设训练模型对应的预测损失值。进而在该预测损失值未达到预设收敛条件时,根据该预测损失值再次调整预设训练模型的初始参数,使得再次调整初始参数的预设训练模型的预测损失值达到预设的收敛条件。如此,让预设训练模型纠错结果不断的向正确结果靠拢,使得准确率越来越高,直至预测损失值达到预设收敛条件时,将收敛后的预设训练模型确定为文本纠错模型。
在一实施例中,步骤SS204中,也即根据预设替换文字、所述样本目标文字、所述样本错误位置和预设替换位置,确定所述预设训练模型的预测损失值,包括:
S2041,根据与同一所述样本错误文字对应的所述预设替换位置和所述样本错误位置,确定第一损失值。
可理解地,第一损失值为对初始文字的样本错误位置预测过程中产生的。
具体的,在得到样本目标文字之后,将与同一样本错误文字对应的所有样本错误位置按照样本错误文字的文字坐标的顺序进行排列,进而将预设替换位置,与序列相同的样本错误位置进行比较;也即按照样本错误文字的排序,将位于第一的预设替换位置,与位于第一的样本错误位置进行比较,通过损失函数计算预设替换位置与样本错误位置之间的损失值;进而将位于第二的预设替换位置,与位于第二的样本错误位置进行比较,直至所有预设替换位置和所有样本错误位置均比较完成,将所有样本错误文字的位置损失值相加,即可得到第一损失值。例如,在保险场景中,预设替换位置分别为第5行第8列、第8行第11列、第13行第2列、第18行第6列、第23行第25列的字的中心坐标,模型预测的错误位置分别为第5行第8列、第9行第15列、第13行第2列、第18行第6列、第22行第24列的字的中心坐标,如此,计算所有预设替换位置和所有错误位置之间的差距,即可计算出第一损失值。
S2042,根据与同一所述样本错误文字对应的所述预设替换文字和所述样本目标文字,确定第二损失值。
可理解地,第二损失值为对初始文字中样本错误文字预测过程中产生的。
具体的,将与同一样本错误文字对应的所有样本目标文字按照样本错误文字的文字坐标的顺序进行排列,进而将预设替换文字,与序列相同的样本目标文字进行比较;也即按照样本错误文字的排序,将位于第一的预设替换文字,与位于第一的样本目标文字进行比较,通过损失函数计算预设替换文字与样本目标文字之间的损失值;进而将位于第二的预设替换文字,与位于第二的样本目标文字进行比较,直至所有预设替换文字和所有样本目标文字均比较完成,将所有样本错误文字的文字损失值相加,即可得到第二损失值。例如,在保险场景中,预设替换文字为不、与、专、且和世,目标文字为丕、与、专、旦和世,如此,根据所有预设替换文字和所有目标文字之间的差距,即可计算出第二损失值。
S2043,基于所述第一损失值和所述第二损失值,确定所述预设训练模型的预测损失值。
具体地,基于第一损失值和第二损失值,确定预设训练模型的预测损失值,也即可以通过直接将第一损失值和第二损失值相加计算预测损失值。或者,获取预设的第一权重和第二权重,将第一损失值和第一权重相乘,第二损失值和第二权重相乘,并将两个相乘结果相加,即可得到预测损失值。
本发明实施例中通过对所有与同一样本错误文字对应的预设替换位置和样本错误位置进行损失值计算,实现了对第一损失值的确定。通过对所有与同一样本错误文字对应的预设替换文字和样本目标文字,实现了对第二损失值的确定。通过第一损失值和第二损失值,实现了对预设训练模型的预测损失值的确定。
在一实施例中,如图4所示,步骤S50中,也即通过预设形近字字典对各所述错误文字的文字笔画进行文字匹配,得到与各所述错误文字对应的候选文字,包括:
S501,对所述预设形近字字典中的各形近字的笔画和各所述错误文字的文字笔画进行相似匹配,得到与各形近字对应的文字相似值。
S502,当所述文字相似值大于或等于预设相似阈值时,将与所述文字相似值对应的形近字确定为与所述错误文字对应的候选文字。
具体地,在得到文字笔画之后,从数据库中调取预设形近字字典,并对预设形近字字典中的各形近字的笔画和各错误文字的文字笔画进行相似匹配,也即先通过字形特征和图像特征从预设形近字字典中的形近字中匹配到与错误文字相似度较高的预设数量个形近字。然后,将匹配到的所有形近字的笔画和各所述错误文字的文字笔画进行匹配,也即通过计算两个字符所有笔画之间的相似度,从而得到与各形近字对应的文字相似值。获取预设相似阈值,并将所有文字相似值和预设相似阈值之间依次进行比较,当文字相似值小于预设相似阈值时,则将与该文字相似值对应的匹配到的形近字进行删除。当文字相似值大于或等于预设相似阈值时,则将与该文字相似值对应的匹配到的形近字进行保留,并将与文字相似值对应的形近字确定为与错误文字对应的候选文字,从而在匹配到的所有形近字中筛选出与各错误文字对应的至少一个候选文字。
本发明实施例中通过对预设形近字字典中的各形近字的笔画和各错误文字的文字笔画进行相似匹配,实现了对与各形近字对应的文字相似值的计算。通过对文字相似值和预设相似阈值的比较,实现了对候选文字的确定。
在一实施例中,步骤S60中,也即从与各所述错误文字对应的所有所述候选文字中筛选出目标文字,包括:
S601,获取与各所述候选文字对应的概率值。
S602,基于所有所述概率值对所有所述候选文字进行筛选,得到与所述错误文字对应的目标文字。
可理解地,概率值是通过与形近字匹配时得到的。
具体的,在得到候选文字之后,获取与每个候选文字对应的相似度值,并按照相似度值的大小对所有候选文字排序,选择前预设数量个相似度较高的候选文字,将每个筛选出的候选文字带入错误文字对应的位置的上下文中进行概率预测,如此,即可得到与各候选文字对应的概率值。然后,基于所有所述概率值对所有所述候选文字进行筛选,也即将所有概率值进行比较大小,并按照从大到小的顺序依次排序,并将与各概率值对应的候选文字按照概率值大小排序,选择概率值最大的候选文字为与错误文字对应的目标文字。如此,通过上述方法依次确定所有目标文字。例如,在保险理赔场景中,对证明材料识别结果的纠错,与错误文字“丕”对应的候选文字为“不”、“怀”、“坏”、“还”等,通过上下文概率预测,得到“不”的概率值为0.95、“怀”的概率值为0.83、“坏”的概率值为0.76、“还”的概率值为0.68,如此,即可得到候选排序结果,并从候选排序结果中选择“不”为目标文字。
本发明实施例中通过基于与各候选文字对应的概率值,实现了从与各错误文字对应的所有候选文字中筛选出与错误位置对应的目标文字,进而提高了目标文字的准确率。
应理解,上述实施例中各步骤的序号的大小并不意味着执的行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种文本纠错处理装置,该文本纠错处理装置与上述实施例中文本纠错处理方法一一对应。如图5所示,该文本纠错处理装置包括文本获取模块10、特征提取模块20、错误标注模块30、笔画拆解模块40、文字匹配模块50和文字替换模块60。各功能模块详细说明如下:
文本获取模块10,用于获取待纠错文本;所述待纠错文本是指扫描得到的图像;
特征提取模块20,用于获取文本纠错模型,通过所述文本纠错模型的特征层对所述待纠错文本进行特征提取,得到位置特征、图像特征和字形特征;
错误标注模块30,用于通过所述文本纠错模型的标注层,根据所述位置特征、所述图像特征和所述字形特征对所述待纠错文本中的文本文字进行错误标注,得到与所述待纠错文本对应的至少一个错误文字;
笔画拆解模块40,用于对各所述错误文字进行笔画拆解,得到与各所述错误文字对应的文字笔画;
文字匹配模块50,用于通过预设形近字字典对各所述错误文字的文字笔画进行文字匹配,得到与各所述错误文字对应的候选文字;
文字替换模块60,用于从与各所述错误文字对应的所有所述候选文字中筛选出目标文字,并根据所述目标文字对所述错误文字进行文字替换,得到目标文本。
在一实施例中,所述特征提取模块20包括:
错误标注单元,用于获取至少一个初始文字,通过预设训练模型对所有所述初始文字进行错误标注,确定样本错误文字及其对应的样本错误位置;
文字匹配单元,用于获取预设形近字字典,通过所述预设形近字字典对各所述样本错误文字进行文字匹配,得到与各所述样本错误文字对应的样本候选文字;一个所述样本错误文字对应至少一个所述样本候选文字;
文字筛选单元,用于从与各所述样本错误文字对应的所有所述样本候选文字中筛选出样本目标文字;每一个所述样本错误文字对应一个所述样本目标文字;
损失预测单元,用于根据预设替换文字、所述样本目标文字、所述样本错误位置和预设替换位置,确定所述预设训练模型的预测损失值;
模型收敛单元,用于在所述预测损失值达到预设收敛条件时,将收敛之后的所述预设训练模型记录为文本纠错模型。
在一实施例中,所述损失预测单元还包括:
第一损失单元,用于根据与同一所述样本错误文字对应的所述预设替换位置和所述样本错误位置,确定第一损失值;
第二损失单元,用于根据与同一所述样本错误文字对应的所述预设替换文字和所述样本目标文字,确定第二损失值;
损失预测单元,用于基于所述第一损失值和所述第二损失值,确定所述预设训练模型的预测损失值。
在一实施例中,所述文字替换模块60包括:
概率值单元,用于获取与各所述候选文字对应的概率值;
文字筛选单元,用于基于所有所述概率值对所有所述候选文字进行筛选,得到与所述错误文字对应的目标文字。
在一实施例中,所述文字匹配模块50包括:
第一召回单元,用于通过字形笔画拆解法对预设字表中的所有预设文字进行笔画拆解标注,得到标注文字,对所述标注文字进行文字召回,得到至少一个第一召回文字;
输出值单元,用于获取预设分类模型对相似文字的图像特征处理的输出值;
第二召回单元,用于当各所述输出值大于或等于预设阈值时,将与各所述输出值的图像特征对应的相似文字确定为第二召回文字;
字典构建单元,用于获取常用错误混淆集,根据所有所述第一召回文字、所有所述第二召回文字和所述常用错误混淆集,构建预设形近字字典。
在一实施例中,所述文字匹配模块50还包括:
相似匹配单元,用于对所述预设形近字字典中的各形近字的笔画和各所述错误文字的文字笔画进行相似匹配,得到与各形近字对应的文字相似值;
候选文字单元,用于当所述文字相似值大于或等于预设相似阈值时,将与所述文字相似值对应的形近字确定为与所述错误文字对应的候选文字。
关于文本纠错处理装置的具体限定可以参见上文中对于文本纠错处理方法的限定,在此不再赘述。上述文本纠错处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储上述实施例中文本纠错处理方法所用到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本纠错处理方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述文本纠错处理方法。
在一个实施例中,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述文本纠错处理方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围内。

Claims (10)

1.一种文本纠错处理方法,其特征在于,包括:
获取待纠错文本;所述待纠错文本是指扫描得到的图像;
获取文本纠错模型,通过所述文本纠错模型的特征层对所述待纠错文本进行特征提取,得到位置特征、图像特征和字形特征;
通过所述文本纠错模型的标注层,根据所述位置特征、所述图像特征和所述字形特征对所述待纠错文本中的文本文字进行错误标注,得到与所述待纠错文本对应的至少一个错误文字;
对各所述错误文字进行笔画拆解,得到与各所述错误文字对应的文字笔画;
通过预设形近字字典对各所述错误文字的文字笔画进行文字匹配,得到与各所述错误文字对应的候选文字;
从与各所述错误文字对应的所有所述候选文字中筛选出目标文字,并根据所述目标文字对所述错误文字进行文字替换,得到目标文本。
2.如权利要求1所述的文本纠错处理方法,其特征在于,所述通过预设形近字字典对各所述错误文字的文字笔画进行文字匹配,得到与各所述错误文字对应的候选文字,包括:
对所述预设形近字字典中的各形近字的笔画和各所述错误文字的文字笔画进行相似匹配,得到与各形近字对应的文字相似值;
当所述文字相似值大于或等于预设相似阈值时,将与所述文字相似值对应的形近字确定为与所述错误文字对应的候选文字。
3.如权利要求1所述的文本纠错处理方法,其特征在于,所述通过预设形近字字典对各所述错误文字的文字笔画进行文字匹配之前,包括:
通过字形笔画拆解法对预设字表中的所有预设文字进行笔画拆解标注,得到标注文字,对所述标注文字进行文字召回,得到至少一个第一召回文字;
获取预设分类模型对相似文字的图像特征处理的输出值;
当各所述输出值大于或等于预设阈值时,将与各所述输出值的图像特征对应的相似文字确定为第二召回文字;
获取常用错误混淆集,根据所有所述第一召回文字、所有所述第二召回文字和所述常用错误混淆集,构建预设形近字字典。
4.如权利要求1所述的文本纠错处理方法,其特征在于,所述从与各所述错误文字对应的所有所述候选文字中筛选出目标文字,包括:
获取与各所述候选文字对应的概率值;
基于所有所述概率值对所有所述候选文字进行筛选,得到与所述错误文字对应的目标文字。
5.如权利要求1所述的文本纠错处理方法,其特征在于,所述获取文本纠错模型之前,还包括:
获取至少一个初始文字,通过预设训练模型对所有所述初始文字进行错误标注,确定样本错误文字及其对应的样本错误位置;
获取预设形近字字典,通过所述预设形近字字典对各所述样本错误文字进行文字匹配,得到与各所述样本错误文字对应的样本候选文字;一个所述样本错误文字对应至少一个所述样本候选文字;
从与各所述样本错误文字对应的所有所述样本候选文字中筛选出样本目标文字;每一个所述样本错误文字对应一个所述样本目标文字;
根据预设替换文字、所述样本目标文字、所述样本错误位置和预设替换位置,确定所述预设训练模型的预测损失值;
在所述预测损失值达到预设收敛条件时,将收敛之后的所述预设训练模型记录为文本纠错模型。
6.如权利要求5所述的文本纠错处理方法,其特征在于,所述根据预设替换文字、所述样本目标文字、所述样本错误位置和预设替换位置,确定所述预设训练模型的预测损失值,包括:
根据与同一所述样本错误文字对应的所述预设替换位置和所述样本错误位置,确定第一损失值;
根据与同一所述样本错误文字对应的所述预设替换文字和所述样本目标文字,确定第二损失值;
基于所述第一损失值和所述第二损失值,确定所述预设训练模型的预测损失值。
7.一种文本纠错处理装置,其特征在于,包括:
文本获取模块,用于获取待纠错文本;所述待纠错文本是指扫描得到的图像;
特征提取模块,用于获取文本纠错模型,通过所述文本纠错模型的特征层对所述待纠错文本进行特征提取,得到位置特征、图像特征和字形特征;
错误标注模块,用于通过所述文本纠错模型的标注层,根据所述位置特征、所述图像特征和所述字形特征对所述待纠错文本中的文本文字进行错误标注,得到与所述待纠错文本对应的至少一个错误文字;
笔画拆解模块,用于对各所述错误文字进行笔画拆解,得到与各所述错误文字对应的文字笔画;
文字匹配模块,用于通过预设形近字字典对各所述错误文字的文字笔画进行文字匹配,得到与各所述错误文字对应的候选文字;
文字替换模块,用于从与各所述错误文字对应的所有所述候选文字中筛选出目标文字,并根据所述目标文字对所述错误文字进行文字替换,得到目标文本。
8.如权利要求7所述的文本纠错处理装置,其特征在于,所述特征提取模块,还包括:
错误标注单元,用于获取至少一个初始文字,通过预设训练模型对所有所述初始文字进行错误标注,确定样本错误文字及其对应的样本错误位置;
文字匹配单元,用于获取预设形近字字典,通过所述预设形近字字典对各所述样本错误文字进行文字匹配,得到与各所述样本错误文字对应的样本候选文字;一个所述样本错误文字对应至少一个所述样本候选文字;
文字筛选单元,用于从与各所述样本错误文字对应的所有所述样本候选文字中筛选出样本目标文字;每一个所述样本错误文字对应一个所述样本目标文字;
损失预测单元,用于根据预设替换文字、所述样本目标文字、所述样本错误位置和预设替换位置,确定所述预设训练模型的预测损失值;
模型收敛单元,用于在所述预测损失值达到预设收敛条件时,将收敛之后的所述预设训练模型记录为文本纠错模型。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述文本纠错处理方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述文本纠错处理方法。
CN202310891076.7A 2023-07-19 2023-07-19 文本纠错处理方法、装置、设备及存储介质 Pending CN117058679A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310891076.7A CN117058679A (zh) 2023-07-19 2023-07-19 文本纠错处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310891076.7A CN117058679A (zh) 2023-07-19 2023-07-19 文本纠错处理方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN117058679A true CN117058679A (zh) 2023-11-14

Family

ID=88656289

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310891076.7A Pending CN117058679A (zh) 2023-07-19 2023-07-19 文本纠错处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN117058679A (zh)

Similar Documents

Publication Publication Date Title
CN109241904B (zh) 文字识别模型训练、文字识别方法、装置、设备及介质
CN110569341B (zh) 配置聊天机器人的方法、装置、计算机设备和存储介质
CN109344830B (zh) 语句输出、模型训练方法、装置、计算机设备及存储介质
CN110705233B (zh) 基于文字识别技术的笔记生成方法、装置和计算机设备
CN111666932B (zh) 单据审核方法、装置、计算机设备及存储介质
CN110362798B (zh) 裁决信息检索分析方法、装置、计算机设备和存储介质
CN114596566B (zh) 文本识别方法及相关装置
CN112183296B (zh) 模拟票据图像生成、票据图像识别方法和装置
CN112699923A (zh) 文档分类预测方法、装置、计算机设备及存储介质
CN114092938B (zh) 图像的识别处理方法、装置、电子设备及存储介质
CN114357174B (zh) 基于ocr和机器学习的代码分类系统及方法
CN113159013A (zh) 基于机器学习的段落识别方法、装置、计算机设备和介质
CN113806613B (zh) 训练图像集生成方法、装置、计算机设备及存储介质
CN113673528B (zh) 文本处理方法、装置、电子设备和可读存储介质
CN113420116B (zh) 医疗文档的分析方法、装置、设备及介质
CN112749639B (zh) 模型训练方法、装置、计算机设备和存储介质
CN112307749A (zh) 文本检错方法、装置、计算机设备和存储介质
CN115984886A (zh) 表格信息抽取方法、装置、设备及存储介质
CN115880702A (zh) 数据处理方法、装置、设备、程序产品及存储介质
CN115759758A (zh) 风险评估方法、装置、设备及存储介质
CN114743204A (zh) 针对表格的自动问答方法、系统、设备及存储介质
CN117058679A (zh) 文本纠错处理方法、装置、设备及存储介质
CN117351501A (zh) 信息录入方法、装置、设备及存储介质
CN115116060B (zh) 键值文件处理方法、装置、设备、介质
CN113780131B (zh) 文本图像朝向识别方法和文本内容识别方法、装置、设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination