CN113420546A - 文本纠错方法、装置、电子设备及可读存储介质 - Google Patents
文本纠错方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN113420546A CN113420546A CN202110702630.3A CN202110702630A CN113420546A CN 113420546 A CN113420546 A CN 113420546A CN 202110702630 A CN202110702630 A CN 202110702630A CN 113420546 A CN113420546 A CN 113420546A
- Authority
- CN
- China
- Prior art keywords
- character
- text
- characters
- candidate
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012937 correction Methods 0.000 title claims abstract description 40
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000012216 screening Methods 0.000 claims abstract description 11
- 239000013598 vector Substances 0.000 claims description 160
- 239000011159 matrix material Substances 0.000 claims description 149
- 238000006243 chemical reaction Methods 0.000 claims description 30
- 230000006870 function Effects 0.000 claims description 23
- 230000009466 transformation Effects 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 15
- 238000013528 artificial neural network Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 12
- 238000005516 engineering process Methods 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 11
- 230000000873 masking effect Effects 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000012015 optical character recognition Methods 0.000 description 12
- 240000006394 Sorghum bicolor Species 0.000 description 11
- 235000011684 Sorghum saccharatum Nutrition 0.000 description 11
- 238000004891 communication Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000007726 management method Methods 0.000 description 5
- 238000010606 normalization Methods 0.000 description 5
- 244000046109 Sorghum vulgare var. nervosum Species 0.000 description 4
- 239000004973 liquid crystal related substance Substances 0.000 description 4
- 238000006467 substitution reaction Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 240000000233 Melia azedarach Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Pure & Applied Mathematics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Character Discrimination (AREA)
Abstract
本发明涉及自然语言处理领域,揭露一种文本纠错方法,包括:识别文本图像中的文本文字,利用计算出来的所述文本文字的文字置信度,从所述文本文字中筛选得到文本错字;利用文字预测模型,预测所述文本错字的候选替换文字,并计算每个所述候选替换文字的候选置信度;计算所述文本错字和每个所述候选替换文字之间的字音字形相似度;根据所述候选置信度及所述字音字形相似度,从所述一个或者多个候选替换文字中选择目标替换文字,并利用所述目标替换文字替换所述文本错字。本发明还涉及区块链技术,所述文本图像可存储于区块链节点中。本发明还揭露一种文本纠错装置、电子设备及存储介质。本发明可以解决文字识别准确率低的问题。
Description
技术领域
本发明涉及自然语言处理领域,尤其涉及一种文本纠错方法、装置、电子设备及计算机可读存储介质。
背景技术
光学字符识别(Optical Character Recognition,简称OCR)目前被广泛利用在手写识别、打印识别及文本图像识别等相关领域。小到识别文档、银行卡和身份证,大到识别广告、海报。因为OCR技术的发明,极大地简化了处理数据的方式。
OCR技术可以识别文本中的文字。但当前经OCR识别技术所识别出来的文字文本,依然具有较高的识别错误率,且进一步地,需人工校正,导致文字识别准确率低,人工校正耗费人力物力。
发明内容
本发明提供一种文本纠错方法、装置、电子设备及计算机可读存储介质,目的在于提高文字识别准确率。
为实现上述目的,本发明提供的一种文本纠错方法,包括:
获取文本图像,识别所述文本图像中的文字,得到文本文字以及每个文本文字的文字置信度,利用所述文字置信度,从所述文本文字中筛选得到文本错字;
利用训练完成的文字预测模型,预测所述文本错字的一个或者多个候选替换文字,并计算每个所述候选替换文字的候选置信度;
计算所述文本错字和每个所述候选替换文字之间的字音字形编辑距离,根据所述字音字形编辑距离计算所述文本错字和每个所述候选替换文字的字音字形相似度;
根据所述候选置信度及所述字音字形相似度,从所述一个或者多个候选替换文字中选择目标替换文字,并利用所述目标替换文字替换所述文本错字。
可选的,所述识别所述文本图像中的文字,得到文本文字以及每个文本文字的文字置信度,包括:
利用OCR文本识别技术,提取所述文本图像中的每一个文字结构;
将所述文字结构与预构建的结构匹配字库中的每个文字的字形结构进行匹配,得到所述文字结构与所述结构匹配字库中的每个文字的匹配相似度,汇总所有所述匹配相似度,得到匹配相似度集;
从所述匹配相似度集中选择最大的匹配相似度,并获取所述最大的匹配相似度对应的文字,得到所述文字结构对应的文本文字,并将所述最大的匹配相似度作为文本文字的文字置信度。
可选的,所述利用训练完成的文字预测模型,预测所述文本错字的一个或者多个候选替换文字,并计算每个所述候选替换文字的候选置信度之前,该方法还包括:
步骤A:获取训练文本,从所述训练文本中提取待掩码语句,对所述待掩码语句执行掩码操作,得到已掩码语句;
步骤B:将所述已掩码语句中的每个文字转换为字向量,得到字向量集,并对所述字向量集执行位置编码,得到定位字向量集;
步骤C:将所述定位字向量集转换为定位向量矩阵,根据所述定位向量矩阵的维度,生成分类迭代转换矩阵;
步骤D:利用预构建的Softmax函数和所述定位向量矩阵、分类迭代转换矩阵,计算得到与所述定位字向量集对应的原始向量相关矩阵;
步骤E:利用所述原始向量相关矩阵和所述定位向量矩阵,调节预构建的前馈神经网络中的迭代权重因子,得到目标向量相关矩阵;
步骤F:在所述定位向量矩阵中,提取所述已掩码语句中的掩码文字的定位字向量,得到定位掩码向量,利用所述目标向量相关矩阵,提取所述定位掩码向量与所述定位向量矩阵中其它定位字向量的相关度,根据所述相关度生成一个或者多个候选替换文字和所述候选替换文字的候选置信度;
步骤G:利用所述一个或者多个候选替换文字,替换所述掩码文字,得到候选替换语句集,利用预构建的结巴分词算法对所述候选替换语句集进行切分,得到所述一个或者多个候选替换文字的切分状态;
步骤H:提取所述切分状态为组成候选替换词语的候选替换文字,提取候选替换词语中未被替换的文字,得到索引文字;
步骤I:利用所述索引文字与预构建的索引文字词库,索引得到待匹配词集;
步骤J:利用所述候选替换词集与所述待匹配词集进行匹配,得到词语重合率;
步骤K:判断所述词语重合率是否小于预设的重合阈值;
若是,则执行步骤L:更新所述分类迭代转换矩阵,并返回步骤D;
若否,则执行步骤M:停止训练,得到所述文字预测模型。
可选的,所述利用预构建的Softmax函数和所述定位向量矩阵、分类迭代转换矩阵,计算得到与所述定位字向量集对应的原始向量相关矩阵,包括:
将所述分类迭代转换矩阵拆分为中心转换矩阵、关联转换矩阵和权重转换矩阵;
利用所述定位向量矩阵和所述中心转换矩阵、关联转换矩阵以及权重转换矩阵分别进行点乘,得到中心向量矩阵、关联向量矩阵以及权重向量矩阵;
将所述中心向量矩阵、关联向量矩阵以及权重向量矩阵作为所述Softmax函数的输入参数,计算得到所述原始向量相关矩阵。
可选的,所述利用所述原始向量相关矩阵和所述定位向量矩阵,调节预构建的前馈神经网络中的迭代权重因子,得到目标向量相关矩阵,包括:
将所述原始向量相关矩阵和所述定位向量矩阵进行求和归一,得到归一向量相关矩阵;
将所述归一向量相关矩阵输入预构建的前馈神经网络,利用所述前馈神经网络中的迭代权重因子对所述归一向量相关矩阵进行权重调节,得到目标向量相关矩阵。
可选的,所述计算所述文本错字和每个所述候选替换文字之间的字音字形编辑距离,包括:
将所述文本错字和所述候选替换文字的笔画进行拆分,得到所述文本错字与所述候选替换文字的笔画结构;
利用所述笔画结构,计算所述文本错字和所述候选替换文字的字形编辑距离;
建立字音编辑距离对应表,利用所述字音编辑距离对应表,计算所述文本错字与所述候选替换文字的字音编辑距离;
根据所述字形编辑距离与所述字音编辑距离,计算所述字音字形编辑距离。
可选的,所述根据所述候选置信度和所述字音字形相似度,从所述一个或者多个候选替换文字中选择目标替换文字,包括:
从所述一个或者多个候选替换文字中选择与文本错字之间的候选置信度大于第一预设阈值的候选替换文字,得到第一候选替换文字;
从所述第一候选替换文字中选择与所述文本错字之间的字音字形相似度大于第二预设阈值的候选替换文字,得到第二候选替换文字;
根据所述候选置信度和所述字音字形相似度,生成综合可替代度,根据所述综合可替换度,在所述第二候选替换文字中提取目标替换文字。
为了解决上述问题,本发明还提供一种文本纠错装置,所述装置包括:
文本识别模块,用于获取文本图像,识别所述文本图像中的文字,得到文本文字以及每个文本文字的文字置信度,利用所述文字置信度,从所述文本文字中筛选得到文本错字;
文本预测模块,用于利用训练完成的文字预测模型,预测所述文本错字的一个或者多个候选替换文字,并计算每个所述候选替换文字的候选置信度;
文本相似度计算模块,用于计算所述文本错字和每个所述候选替换文字之间的字音字形编辑距离,根据所述字音字形编辑距离计算所述文本错字和每个所述候选替换文字的字音字形相似度;
文本文字替换模块,用于根据所述候选置信度及所述字音字形相似度,从所述一个或者多个候选替换文字中选择目标替换文字,并利用所述目标替换文字替换所述文本错字。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序指令,所述计算机程序指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述所述的文本纠错方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,包括存储数据区和存储程序区,存储数据区存储创建的数据,存储程序区存储有计算机程序;其中,所述计算机程序被处理器执行时实现上述所述的文本纠错方法。
本发明实施例所述文本纠错方法、装置、电子设备及计算机可读存储介质首先识别出可能存在的文本错字,并利用预先训练好的文字预测模型,预测所述文本错字的一个或多个候选替换文字以及所述候选替换文字的候选置信度,再计算所述候选替换文字与所述文本错字的字音字形相似度,进一步地,利用候选置信度和字音字形相似度得到目标替换文字,并利用所述目标替换文字替换上述文本错字,因此,可以对从文本图像中识别出来文本文字进行纠错,从而解决了传统的通过OCR技术进行文字识别时准确率低的问题。
附图说明
图1为本发明一实施例提供的文本纠错的流程示意图;
图2为本发明一实施例提供的文字预测模型训练的流程示意图;
图3为本发明一实施例提供的文本纠错的模块示意图;
图4为本发明一实施例提供的文本纠错的电子设备的内部结构示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本申请实施例提供一种文本纠错方法。所述文本纠错方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述文本纠错程序可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。
参照图1所示,为本发明一实施例提供的文本纠错的流程示意图。在本实施例中,所述文本纠错方法,包括:
S1、获取文本图像,识别所述文本图像中的文字,得到文本文字以及每个文本文字的文字置信度,利用所述文字置信度,从所述文本文字中筛选得到文本错字;
本发明实施例中,所述文本图像是包含文字的图像,如文档、单据、银行卡、身份证、广告、海报等。本发明实施例可以利用OCR文本识别技术识别所述文本图像中的文字。所述OCR文本识别技术指利用电子设备识别文本图像内的字符,然后将所述字符翻译成计算机文字。
详细地,本发明实施例所述识别所述文本图像中的文字,得到文本文字以及每个文本文字的文字置信度,包括:。
利用OCR文本识别技术,提取所述文本图像中的每一个文字结构;
将所述文字结构与预构建的结构匹配字库中的每个文字的字形结构进行匹配,得到所述文字结构与所述结构匹配字库中的每个文字的匹配相似度,汇总所有所述匹配相似度,得到匹配相似度集;
从所述匹配相似度集中选择最大的匹配相似度,并获取所述最大的匹配相似度对应的文字,得到所述文字结构对应的文本文字,并将所述最大的匹配相似度作为文本文字的文字置信度。
例如:利用OCR文本识别技术对文本图像中某一个字型进行识别后,得到的文字结构为“丶丶丿一丨丿”,将“丶丶丿一丨丿”与结构匹配字库中的所有文字结构执行匹配,发现与文字结构“丶丶丿一丨丿”相似的文字结构包括由“丶丶丿丶丶一丨丿”组成的“梁”和由“丶丶丿丶丶丶丶一丨丿”组成的“粱”以及由“一丨丿丶丶丿丶丶一丨丿”组成的“樑”等,且通过结构的相似度可发现,“梁”、“粱”、“樑”与文字结构集“丶丶丿丶丶一丨丿”的匹配相似度是依次为8.999122、7.999123及6.882933,则本发明实施例选择匹配相似度为8.999122的“梁”作为识别出来的文本文字,并将所述8.999122作为所述“梁”的文字置信度。
进一步地,本发明实施例中,所述利用所述文字置信度,从所述文本文字中筛选得到文本错字,包括:
设置文字置信度阈值;
当所述文本文字的文字置信度低于所述文字置信度阈值时,判断所述文本文字为文本错字。
S2.利用训练完成的文字预测模型,预测所述文本错字的一个或者多个候选替换文字,并计算每个所述候选替换文字的候选置信度;
本发明实施例中,所述文字预测模型是基于BERT语言模型构建的,当输入包含文本错字的语句时,模型可直接输出候选置信度排名前几种的候选替换文字。
其中所述候选置信度指所述候选替换文字是所述文本错字应更正的文字的可信程度。
本发明实施例中,参阅图2所示,所述利用训练完成的文字预测模型,预测所述文本错字的一个或者多个候选替换文字,并计算每个所述候选替换文字的候选置信度之前,该方法还包括:
S21、获取训练文本,从所述训练文本中提取待掩码语句,对所述待掩码语句执行掩码操作,得到已掩码语句;
本发明实施例中,所述训练文本指对所述文字预测模型进行训练的文字文本。
进一步地,本发明实施例中,所述对所述待掩码语句执行掩码操作,得到已掩码语句,包括:
根据预设的掩码概率,从所述待掩码语句中提取关键字,对所述关键字执行掩码操作,得到已掩码字;
在所述待掩码语句中,用所述已掩码字替换所述关键字,得到所述已掩码语句。
详细地,所述预设的掩码概率是指随机在所述训练文本中挑选的关键字的字数占所述训练文本总字数的比例,所述掩码概率可设定为25%。例如:所述训练文本为一百个字,那么按照25%的概率进行掩码,就是随机对其中的二十五个关键字进行掩码。
本发明实施例中,所述掩码包括MASK掩码、随机掩码,MASK掩码指用mask符号对关键字进行遮掩、所述随机掩码指用其他词语对关键字进行遮掩。
S22、将所述已掩码语句中的每个文字转换为字向量,得到字向量集,并对所述字向量集执行位置编码,得到定位字向量集;
本发明实施例中,可采用Word2vec算法,将所述已掩码语句中的每个文字转换为字向量。
本发明实施例中,所述对所述字向量集执行位置编码,包括:提取所述字向量集中所述已掩码字对应的字向量,将所述已掩码字对应的字向量的位置作为坐标原点;
根据所述坐标原点,建立所述字向量集中每个字向量的位置向量,利用所述位置向量对所述字向量集执行位置编码。
本发明实施例中,所述字向量离所述已编码字对应的字向量越远,则所述字向量对应的位置向量的模越大。例如文本文字为:“由于技术创新,使高梁得以增产”,“梁”是所述已编码字,“得”的位置向量比“以”的向量的要小。
S23、将所述定位字向量集转换为定位向量矩阵,根据所述定位向量矩阵的维度,生成分类迭代转换矩阵;
本发明实施例中,所述分类迭代转换矩阵与所述定位向量矩阵的维度一样,例如定位向量矩阵的维度为m×m,则生成的分类迭代矩阵的维度也为m×n,本发明实施例中,可采用随机方法,生成分类迭代矩阵。
S24、利用预构建的Softmax函数和所述定位向量矩阵、分类迭代转换矩阵,计算得到与所述定位字向量集对应的原始向量相关矩阵;
本发明实施例中,所述利用预构建的Softmax函数和所述定位向量矩阵、分类迭代转换矩阵,计算得到与所述定位字向量集对应的原始向量相关矩阵,包括:
将所述分类迭代转换矩阵拆分为中心转换矩阵、关联转换矩阵和权重转换矩阵;
利用所述定位向量矩阵和所述中心转换矩阵、关联转换矩阵以及权重转换矩阵分别进行点乘,得到中心向量矩阵、关联向量矩阵以及权重向量矩阵;
将所述中心向量矩阵、关联向量矩阵以及权重向量矩阵作为所述Softmax函数的输入参数,计算得到所述原始向量相关矩阵。
本发明实施例中,利用所述分类迭代转换矩阵的维度,将分类迭代转换矩阵拆分成中心转换矩阵、关联转换矩阵和权重转换矩阵,如上述分类迭代转换矩阵为m×n,则可按照m×s、s×t、t×n执行拆分,分别得到m×s维度的中心转换矩阵、s×t维度的关联转换矩阵及t×n维度的权重转换矩阵。
本发明实施例中,所述原始向量相关矩阵的计算过程如下:
其中,Q是指所述中心转换矩阵,KT是指所述关联转换矩阵,dk是指所述关联转换矩阵的维度,V是指所述权重转换矩阵,Z是指所述原始向量相关矩阵。
S25、利用所述原始向量相关矩阵和所述定位向量矩阵,调节预构建的前馈神经网络中的迭代权重因子,得到目标向量相关矩阵;
本发明实施例中,所述利用所述原始向量相关矩阵和所述定位向量矩阵,调节预构建的前馈神经网络中的迭代权重因子,并得到目标向量相关矩阵,包括:
将所述原始向量相关矩阵和所述定位向量矩阵进行求和归一,得到归一向量相关矩阵;
将所述归一向量相关矩阵输入预构建的前馈神经网络,利用所述前馈神经网络中的迭代权重因子对所述归一向量相关矩阵进行权重调节,得到所述目标向量相关矩阵。
本发明实施例中,所述求和归一是指将所述原始向量相关矩阵和所述定位向量矩阵进行叠加,并对叠加后的向量矩阵执行归一化处理,将向量矩阵中的数值映射到0-1的区间,方便所述前馈神经网络进行调节。
本发明实施例中,所述归一向量相关矩阵是将所述原始向量相关矩阵和所述定位向量矩阵,进行求和后再进行归一化,可采用Layer Normalization函数进行所述归一化操作。
S26、在所述定位向量矩阵中,提取所述已掩码语句中的掩码文字的定位字向量,得到定位掩码向量,利用所述目标向量相关矩阵,提取所述定位掩码向量与所述定位向量矩阵中其它定位字向量的相关度,根据所述相关度生成一个或者多个候选替换文字和所述候选替换文字的候选置信度;
本发明实施例中,所述利用所述目标向量相关矩阵,提取所述定位掩码向量与所述定位向量矩阵中其它定位字向量的相关度,根据所述相关度生成一个或者多个候选替换文字和所述候选替换文字的候选置信度,包括:
对所述目标向量相关矩阵进行线性化处理,得到原始线性向量;
对所述原始线性向量进行特征压缩,得到目标线性向量,在所述目标线性向量中,提取所述定位掩码向量与所述目标线性向量中其它字向量的相关度,将所述相关度输入预构建的概率输出函数,得到一个或者多个候选替换文字和所述候选替换文字的候选置信度。
例如文本文字为:“由于技术创新,使高梁得以增产”,通过目标线性向量中“梁”的线性向量,与其它文字的线性向量进行相关度计算,得到所述相关度,并将所述相关度输入所述概率输出函数中,得到候选替换文字为“粱”,候选置信度为9.999472;候选替换文字为“樑”,候选置信度为3.672712;候选替换文字为“度”,候选置信度为7.398229。
本发明实施例中,所述概率输出函数可采用Softmax函数根据所述相关度进行概率计算,得到所述候选替换文字和对应的候选置信度。
S27、利用所述一个或者多个候选替换文字,替换所述掩码文字,得到候选替换语句集,利用预构建的结巴分词算法对所述候选替换语句集进行切分,得到所述一个或者多个候选替换文字的切分状态;
S28、提取所述切分状态为组成候选替换词语的候选替换文字,提取候选替换词语中未被替换的文字,得到索引文字;
本发明实施例中,利用所述结巴分词算法文本文字:“由于技术创新,使高梁得以增产”,进行切分,得到所述切分状态为所述候选替换文字“粱”组成候选替换词语“高梁”,所述索引文字为“高”。
S29、利用所述索引文字与预构建的索引文字词库,索引得到待匹配词集;
本发明实施例中,所述待匹配词集,包含所述索引文字组成的所有正确词语。
S30、利用所述候选替换词集与所述待匹配词集进行匹配,得到词语重合率;
本发明实施例中,所述词语重合率指所述候选替换词集与所述待匹配词集中的相同词语个数,占所述候选替换词集中词语总数的比例。
例如:所述候选替换词集为“高粱”“高梁”“高度”“高樑”“高原”,所述待匹配词集为“高粱”、“高矮”、“高低”、“高度”、“高原”等包含“高”的词语。所述相同词语为“高粱”、“高度”和“高原”,则所述词语重合率为0.6。
S31、判断所述词语重合率是否小于预设的重合阈值;
本发明实施例中,所述重合阈值可以设置为0.9,所述词语重合率为0.6,小于所述重合阈值。
若所述词语重合率小于预设的重合阈值,则执行S32、更新所述分类迭代转换矩阵,并返回S24;
若所述词语重合率不小于预设的重合阈值,则执行S33、停止训练,得到所述文字预测模型。
本发明实施例中,通过对所述文本错字进行掩码,得到掩码文本,再将所述掩码文本输入训练好的所述文字预测模型,通过训练好的所述文字预测模型即可预测出所述文本错字的一个或多个候选替换文字和所述候选替换文字的候选置信度。
S3、计算所述文本错字和每个所述候选替换文字之间的字音字形编辑距离,根据所述字音字形编辑距离计算所述文本错字和每个所述候选替换文字的字音字形相似度;
本发明实施例中,所述字音字形编辑距离指所述候选替换文字与所述文本错字的字形结构和字音的差异度。
本发明实施例中,所述计算所述文本错字和每个所述候选替换文字之间的字音字形编辑距离,包括:
将所述文本错字和所述候选替换文字的笔画进行拆分,得到所述文本错字与所述候选替换文字的笔画结构;
利用所述笔画结构,计算所述文本错字和所述候选替换文字的字形编辑距离;
建立字音编辑距离对应表,利用所述字音编辑距离对应表,计算所述文本错字与所述候选替换文字的字音编辑距离;
根据所述字形编辑距离与所述字音编辑距离,计算所述字音字形编辑距离。
所述字音编辑距离对应表指根据相似字音,建立的字音表。
所述字音编辑距离指通过去掉前后鼻音和混淆音的区别得到的音宽范围。所述音宽范围指字音的相似范围。所述去掉前后鼻音是指去掉前后鼻音的区分,扩大音近字的候选范围。例如:“梁”和“连”的拼音为“liang”,“lian”,“哎”和“阿”的拼音为“ai”,“a”通过查寻所述字音编辑距离对应表{‘an’:[‘an’,‘ang’],‘ai’:[‘ai’,‘a’]},确定“梁”和“粱”的字音属于同一相似范围,“哎”和“阿”的字音属于同一相似范围。
本发明实施例中,所述根据所述字形编辑距离与所述字音编辑距离,计算所述字音字形编辑距离,包括:
设置所述字形编辑距离与所述字音编辑距离的权重系数;
利用所述权重系数构建字音字形编辑距离的距离计算公式,利用所述距离计算公式和所述字形编辑距离与字音编辑距离,计算所述字音字形编辑距离。
本发明实施例中,所述距离计算公式为:
其中,J是指所述字音字形编辑距离,X是指所述字形编辑距离,X权重是指所述字形编辑距离的权重系数,Y是指所述字音编辑距离,Y权重是指所述字音编辑距离的权重系数。其中,X权重和Y权重的取值范围为0-1。
本发明实施例中,在针对不同任务的处理时可以对字音和字形相似度做一定的取舍,例如语音识别的文字更多的是由于拼音引起的错误,在计算时可以适当增加所述字音编辑距离的权重系数,或者完全抛弃字形相似度。
S4、根据所述候选置信度和所述字音字形相似度,从所述一个或者多个候选替换文字中选择目标替换文字,并利用所述目标替换文字替换所述文本错字。
本发明实施例中,所述根据所述候选置信度和所述字音字形相似度,从所述一个或者多个候选替换文字中选择目标替换文字,包括:
从所述一个或者多个候选替换文字中选择与文本错字之间的候选置信度大于第一预设阈值的候选替换文字,得到第一候选替换文字;
从所述第一候选替换文字中选择与所述文本错字之间的字音字形相似度大于第二预设阈值的候选替换文字,得到第二候选替换文字;
根据所述候选置信度和所述字音字形相似度,生成综合可替代度,根据所述综合可替换度,在所述第二候选替换文字中提取目标替换文字。
详细地,所述第一预设阈值是指所述候选置信度的最低阈值,所述第二预设阈值指所述字音字形相似度的最低阈值,所述综合可替代度指综合考虑所述候选置信度和所述字音字形相似度,得到的最优筛选标准。
例如:文本文字为:“由于技术创新,使高梁得以增产”,将所述文本文字输入所述文字预测模型中,得到“梁”的三个候选替换文字:“度”,“粱”,“量”。候选替换文字“度”的候选置信度为C=6.898229,字音字形相似度为S=1.538001;候选替换文字“粱”的候选置信度为C=9.999472,字音字形相似度为S=9.927273。候选替换文字“量”的候选置信度为C=7.098462,字音字形相似度S=8.169740。所述第一预设阈值为C≥7,经过筛选,所述第一候选替换文字为“粱”和“量”。所述第二预设阈值为S≥8,经过筛选,“粱”和“量”都满足所述第二预设阈值,得到所述第二候选替换文字为“粱”和“量”。“粱”的综合可替换度为19.926745,“量”的综合可替换度为15.268202,则所述目标替换文字为“粱”。利用“粱”替换文本文字中的“梁”,实现对所述文本纠错。
本发明实施例首先识别出可能存在的文本错字,并利用预先训练好的文字预测模型,预测所述文本错字的一个或多个候选替换文字以及所述候选替换文字的候选置信度,再计算所述候选替换文字与所述文本错字的字音字形相似度,进一步地,利用候选置信度和字音字形相似度得到目标替换文字,并利用所述目标替换文字替换上述文本错字,因此,可以对从文本图像中识别出来文本文字进行纠错,从而解决了传统的通过OCR技术进行文字识别时准确率低的问题。
如图3所示,是本发明文本纠错装置的模块示意图。
本发明所述文本纠错装置100可以安装于电子设备中。根据实现的功能,所述文本纠错装置100可以包括文本识别模块101、文本预测模块102、文本相似度计算模块103、文本文字替换模块104。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
所述文本识别模块101,用于获取文本图像,识别所述文本图像中的文字,得到文本文字以及每个文本文字的文字置信度,利用所述文字置信度,从所述文本文字中筛选得到文本错字;
所述文本预测模块102,用于利用训练完成的文字预测模型,预测所述文本错字的一个或者多个候选替换文字,并计算每个所述候选替换文字的候选置信度;
所述文本相似度计算模块103,用于计算所述文本错字和每个所述候选替换文字之间的字音字形编辑距离,根据所述字音字形编辑距离计算所述文本错字和每个所述候选替换文字的字音字形相似度;
所述文本文字替换模块104,用于根据所述候选置信度及所述字音字形相似度,从所述一个或者多个候选替换文字中选择目标替换文字,并利用所述目标替换文字替换所述文本错字。
本发明实施例所提供的文本纠错装置100中的各个模块能够在使用时基于与上述的文本纠错的处理方法采用相同的手段,具体地实施步骤在此不再赘述,关于各模块/单元的功能所产生技术效果与上述的投诉文本的处理方法的技术效果相同的。
如图4所示,是本发明实现文本纠错的电子设备的结构示意图。
所述电子设备可以包括处理器10、存储器11、通信总线12以及通信接口13,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如文本纠错程序。
其中,所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(ControlUnit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如文本纠错程序等),以及调用存储在所述存储器11内的数据,以执行电子设备的各种功能和处理数据。
其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备的内部存储单元,例如该电子设备的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备的外部存储设备,例如电子设备上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(SecureDigital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备的应用软件及各类数据,例如点评数据排序程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述通信总线12可以是外设部件互连标准(peripheral componentinterconnect,简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
所述通信接口13用于上述电子设备与其他设备之间的通信,包括网络接口和用户接口。可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备与其他电子设备之间建立通信连接。所述用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。
图4仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图4示出的结构并不构成对所述电子设备的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
进一步地,所述电子设备还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备与其他电子设备之间建立通信连接。
可选地,该电子设备还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备中的所述存储器11存储的文本纠错程序是多个计算机程序的组合,在所述处理器10中运行时,可以实现:
获取文本图像,识别所述文本图像中的文字,得到文本文字以及每个文本文字的文字置信度,利用所述文字置信度,从所述文本文字中筛选得到文本错字;
利用训练完成的文字预测模型,预测所述文本错字的一个或者多个候选替换文字,并计算每个所述候选替换文字的候选置信度;
计算所述文本错字和每个所述候选替换文字之间的字音字形编辑距离,根据所述字音字形编辑距离计算所述文本错字和每个所述候选替换文字的字音字形相似度;
根据所述候选置信度及所述字音字形相似度,从所述一个或者多个候选替换文字中选择目标替换文字,并利用所述目标替换文字替换所述文本错字。
具体地,所述处理器10对上述计算机程序的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。所述计算机可读存储介质可以是易失性的,也可以是非易失性的。例如,所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
进一步地,所述计算机可用存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本发明还提供一种计算机可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序在被电子设备的处理器所执行时,可以实现:
获取文本图像,识别所述文本图像中的文字,得到文本文字以及每个文本文字的文字置信度,利用所述文字置信度,从所述文本文字中筛选得到文本错字;
利用训练完成的文字预测模型,预测所述文本错字的一个或者多个候选替换文字,并计算每个所述候选替换文字的候选置信度;
计算所述文本错字和每个所述候选替换文字之间的字音字形编辑距离,根据所述字音字形编辑距离计算所述文本错字和每个所述候选替换文字的字音字形相似度;
根据所述候选置信度及所述字音字形相似度,从所述一个或者多个候选替换文字中选择目标替换文字,并利用所述目标替换文字替换所述文本错字。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图表记视为限制所涉及的权利要求。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种文本纠错方法,其特征在于,所述文本纠错方法包括:
获取文本图像,识别所述文本图像中的文字,得到文本文字以及每个文本文字的文字置信度,利用所述文字置信度,从所述文本文字中筛选得到文本错字;
利用训练完成的文字预测模型,预测所述文本错字的一个或者多个候选替换文字,并计算每个所述候选替换文字的候选置信度;
计算所述文本错字和每个所述候选替换文字之间的字音字形编辑距离,根据所述字音字形编辑距离计算所述文本错字和每个所述候选替换文字的字音字形相似度;
根据所述候选置信度及所述字音字形相似度,从所述一个或者多个候选替换文字中选择目标替换文字,并利用所述目标替换文字替换所述文本错字。
2.如权利要求1所述的文本纠错方法,其特征在于,所述识别所述文本图像中的文字,得到文本文字以及每个文本文字的文字置信度,包括:
利用OCR文本识别技术,提取所述文本图像中的每一个文字结构;
将所述文字结构与预构建的结构匹配字库中的每个文字的字形结构进行匹配,得到所述文字结构与所述结构匹配字库中的每个文字的匹配相似度,汇总所有所述匹配相似度,得到匹配相似度集;
从所述匹配相似度集中选择最大的匹配相似度,并获取所述最大的匹配相似度对应的文字,得到所述文字结构对应的文本文字,并将所述最大的匹配相似度作为文本文字的文字置信度。
3.如权利要求1所述的文本纠错方法,其特征在于,所述利用训练完成的文字预测模型,预测所述文本错字的一个或者多个候选替换文字,并计算每个所述候选替换文字的候选置信度之前,该方法还包括:
步骤A:获取训练文本,从所述训练文本中提取待掩码语句,对所述待掩码语句执行掩码操作,得到已掩码语句;
步骤B:将所述已掩码语句中的每个文字转换为字向量,得到字向量集,并对所述字向量集执行位置编码,得到定位字向量集;
步骤C:将所述定位字向量集转换为定位向量矩阵,根据所述定位向量矩阵的维度,生成分类迭代转换矩阵;
步骤D:利用预构建的Softmax函数和所述定位向量矩阵、分类迭代转换矩阵,计算得到与所述定位字向量集对应的原始向量相关矩阵;
步骤E:利用所述原始向量相关矩阵和所述定位向量矩阵,调节预构建的前馈神经网络中的迭代权重因子,得到目标向量相关矩阵;
步骤F:在所述定位向量矩阵中,提取所述已掩码语句中的掩码文字的定位字向量,得到定位掩码向量,利用所述目标向量相关矩阵,提取所述定位掩码向量与所述定位向量矩阵中其它定位字向量的相关度,根据所述相关度生成一个或者多个候选替换文字和所述候选替换文字的候选置信度;
步骤G:利用所述一个或者多个候选替换文字,替换所述掩码文字,得到候选替换语句集,利用预构建的结巴分词算法对所述候选替换语句集进行切分,得到所述一个或者多个候选替换文字的切分状态;
步骤H:提取所述切分状态为组成候选替换词语的候选替换文字,提取候选替换词语中未被替换的文字,得到索引文字;
步骤I:利用所述索引文字与预构建的索引文字词库,索引得到待匹配词集;
步骤J:利用所述候选替换词集与所述待匹配词集进行匹配,得到词语重合率;
步骤K:判断所述词语重合率是否小于预设的重合阈值;
若所述词语重合率小于预设的重合阈值,则执行步骤L:更新所述分类迭代转换矩阵,并返回步骤D;
若所述词语重合率不小于预设的重合阈值,则执行步骤M:停止训练,得到所述文字预测模型。
4.如权利要求3所述的文本纠错方法,其特征在于,所述利用预构建的Softmax函数和所述定位向量矩阵、分类迭代转换矩阵,计算得到与所述定位字向量集对应的原始向量相关矩阵,包括:
将所述分类迭代转换矩阵拆分为中心转换矩阵、关联转换矩阵和权重转换矩阵;
利用所述定位向量矩阵和所述中心转换矩阵、关联转换矩阵以及权重转换矩阵分别进行点乘,得到中心向量矩阵、关联向量矩阵以及权重向量矩阵;
将所述中心向量矩阵、关联向量矩阵以及权重向量矩阵作为所述Softmax函数的输入参数,计算得到所述原始向量相关矩阵。
5.如权利要求3所述的文本纠错方法,其特征在于,所述利用所述原始向量相关矩阵和所述定位向量矩阵,调节预构建的前馈神经网络中的迭代权重因子,得到目标向量相关矩阵,包括:
将所述原始向量相关矩阵和所述定位向量矩阵进行求和归一,得到归一向量相关矩阵;
将所述归一向量相关矩阵输入预构建的前馈神经网络,利用所述前馈神经网络中的迭代权重因子对所述归一向量相关矩阵进行权重调节,得到目标向量相关矩阵。
6.如权利要求1所述的文本纠错方法,其特征在于,所述计算所述文本错字和每个所述候选替换文字之间的字音字形编辑距离,包括:
将所述文本错字和所述候选替换文字的笔画进行拆分,得到所述文本错字与所述候选替换文字的笔画结构;
利用所述笔画结构,计算所述文本错字和所述候选替换文字的字形编辑距离;
建立字音编辑距离对应表,利用所述字音编辑距离对应表,计算所述文本错字与所述候选替换文字的字音编辑距离;
根据所述字形编辑距离与所述字音编辑距离,计算所述字音字形编辑距离。
7.如权利要求1所述的文本纠错方法,其特征在于,所述根据所述候选置信度和所述字音字形相似度,从所述一个或者多个候选替换文字中选择目标替换文字,包括:
从所述一个或者多个候选替换文字中选择与文本错字之间的候选置信度大于第一预设阈值的候选替换文字,得到第一候选替换文字;
从所述第一候选替换文字中选择与所述文本错字之间的字音字形相似度大于第二预设阈值的候选替换文字,得到第二候选替换文字;
根据所述候选置信度和所述字音字形相似度,生成综合可替代度,根据所述综合可替换度,在所述第二候选替换文字中提取目标替换文字。
8.一种文本纠错装置,其特征在于,所述装置包括:
文本识别模块,用于获取文本图像,识别所述文本图像中的文字,得到文本文字以及每个文本文字的文字置信度,利用所述文字置信度,从所述文本文字中筛选得到文本错字;
文本预测模块,用于利用训练完成的文字预测模型,预测所述文本错字的一个或者多个候选替换文字,并计算每个所述候选替换文字的候选置信度;
文本相似度计算模块,用于计算所述文本错字和每个所述候选替换文字之间的字音字形编辑距离,根据所述字音字形编辑距离计算所述文本错字和每个所述候选替换文字的字音字形相似度;
文本文字替换模块,用于根据所述候选置信度及所述字音字形相似度,从所述一个或者多个候选替换文字中选择目标替换文字,并利用所述目标替换文字替换所述文本错字。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;
以及与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序指令,所述计算机程序指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一项所述的文本纠错方法。
10.一种计算机可读存储介质,包括存储数据区和存储程序区,存储数据区存储创建的数据,存储程序区存储有计算机程序;其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的文本纠错方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110702630.3A CN113420546A (zh) | 2021-06-24 | 2021-06-24 | 文本纠错方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110702630.3A CN113420546A (zh) | 2021-06-24 | 2021-06-24 | 文本纠错方法、装置、电子设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113420546A true CN113420546A (zh) | 2021-09-21 |
Family
ID=77716559
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110702630.3A Pending CN113420546A (zh) | 2021-06-24 | 2021-06-24 | 文本纠错方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113420546A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114328831A (zh) * | 2021-12-24 | 2022-04-12 | 江苏银承网络科技股份有限公司 | 票据信息识别与纠错方法及装置 |
CN114820398A (zh) * | 2022-07-01 | 2022-07-29 | 北京汉仪创新科技股份有限公司 | 基于扩散模型的图片字体替换方法、系统、设备和介质 |
CN114970554A (zh) * | 2022-08-02 | 2022-08-30 | 国网浙江省电力有限公司宁波供电公司 | 一种基于自然语言处理的文档校验方法 |
CN116186325A (zh) * | 2023-04-26 | 2023-05-30 | 深圳市小彼恩文教科技有限公司 | 一种基于数据处理的点读笔信息识别与管理方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111310443A (zh) * | 2020-02-12 | 2020-06-19 | 新华智云科技有限公司 | 一种文本纠错方法和系统 |
CN111582169A (zh) * | 2020-05-08 | 2020-08-25 | 腾讯科技(深圳)有限公司 | 图像识别数据纠错方法、装置、计算机设备和存储介质 |
US20200380286A1 (en) * | 2019-05-28 | 2020-12-03 | Alibaba Group Holding Limited | Automatic optical character recognition (ocr) correction |
CN112528894A (zh) * | 2020-12-17 | 2021-03-19 | 科大讯飞股份有限公司 | 一种差异项判别方法及装置 |
-
2021
- 2021-06-24 CN CN202110702630.3A patent/CN113420546A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200380286A1 (en) * | 2019-05-28 | 2020-12-03 | Alibaba Group Holding Limited | Automatic optical character recognition (ocr) correction |
CN111310443A (zh) * | 2020-02-12 | 2020-06-19 | 新华智云科技有限公司 | 一种文本纠错方法和系统 |
CN111582169A (zh) * | 2020-05-08 | 2020-08-25 | 腾讯科技(深圳)有限公司 | 图像识别数据纠错方法、装置、计算机设备和存储介质 |
CN112528894A (zh) * | 2020-12-17 | 2021-03-19 | 科大讯飞股份有限公司 | 一种差异项判别方法及装置 |
Non-Patent Citations (1)
Title |
---|
郝亚男 等: "面向OCR文本识别词错误自动校对方法研究", 《计算机仿真》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114328831A (zh) * | 2021-12-24 | 2022-04-12 | 江苏银承网络科技股份有限公司 | 票据信息识别与纠错方法及装置 |
CN114820398A (zh) * | 2022-07-01 | 2022-07-29 | 北京汉仪创新科技股份有限公司 | 基于扩散模型的图片字体替换方法、系统、设备和介质 |
CN114970554A (zh) * | 2022-08-02 | 2022-08-30 | 国网浙江省电力有限公司宁波供电公司 | 一种基于自然语言处理的文档校验方法 |
CN114970554B (zh) * | 2022-08-02 | 2022-10-21 | 国网浙江省电力有限公司宁波供电公司 | 一种基于自然语言处理的文档校验方法 |
CN116186325A (zh) * | 2023-04-26 | 2023-05-30 | 深圳市小彼恩文教科技有限公司 | 一种基于数据处理的点读笔信息识别与管理方法及系统 |
CN116186325B (zh) * | 2023-04-26 | 2023-06-30 | 深圳市小彼恩文教科技有限公司 | 一种基于数据处理的点读笔信息识别与管理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113420546A (zh) | 文本纠错方法、装置、电子设备及可读存储介质 | |
CN112016304A (zh) | 文本纠错方法、装置、电子设备及存储介质 | |
CN112597312A (zh) | 文本分类方法、装置、电子设备及可读存储介质 | |
CN113033198B (zh) | 相似文本推送方法、装置、电子设备及计算机存储介质 | |
CN113449187A (zh) | 基于双画像的产品推荐方法、装置、设备及存储介质 | |
CN107526721B (zh) | 一种对电商产品评论词汇的歧义消除方法及装置 | |
CN112988963A (zh) | 基于多流程节点的用户意图预测方法、装置、设备及介质 | |
CN113704429A (zh) | 基于半监督学习的意图识别方法、装置、设备及介质 | |
CN115392237B (zh) | 情感分析模型训练方法、装置、设备及存储介质 | |
CN113268615A (zh) | 资源标签生成方法、装置、电子设备及存储介质 | |
CN112667775A (zh) | 基于关键词提示的检索方法、装置、电子设备及存储介质 | |
CN113360768A (zh) | 基于用户画像的产品推荐方法、装置、设备及存储介质 | |
CN113344125B (zh) | 长文本匹配识别方法、装置、电子设备及存储介质 | |
CN114399775A (zh) | 文档标题生成方法、装置、设备及存储介质 | |
CN113704474A (zh) | 银行网点设备操作指引生成方法、装置、设备及存储介质 | |
CN113658002A (zh) | 基于决策树的交易结果生成方法、装置、电子设备及介质 | |
CN112801222A (zh) | 基于二分类模型的多分类方法、装置、电子设备及介质 | |
CN114708073B (zh) | 一种围标串标智能检测方法、装置、电子设备及存储介质 | |
CN114943306A (zh) | 意图分类方法、装置、设备及存储介质 | |
CN115146064A (zh) | 意图识别模型优化方法、装置、设备及存储介质 | |
CN114757154A (zh) | 基于深度学习的作业生成方法、装置、设备及存储介质 | |
CN114219367A (zh) | 用户评分方法、装置、设备及存储介质 | |
CN114610854A (zh) | 智能问答方法、装置、设备及存储介质 | |
JP2003331214A (ja) | 文字認識誤り訂正方法、装置及びプログラム | |
CN111680513B (zh) | 特征信息的识别方法、装置及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210921 |