CN114611495A - 文本比对方法、装置、设备及介质 - Google Patents

文本比对方法、装置、设备及介质 Download PDF

Info

Publication number
CN114611495A
CN114611495A CN202210283527.4A CN202210283527A CN114611495A CN 114611495 A CN114611495 A CN 114611495A CN 202210283527 A CN202210283527 A CN 202210283527A CN 114611495 A CN114611495 A CN 114611495A
Authority
CN
China
Prior art keywords
text
error correction
editing
proofreading
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210283527.4A
Other languages
English (en)
Inventor
林莉芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Securities Co Ltd
Original Assignee
Ping An Securities Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Securities Co Ltd filed Critical Ping An Securities Co Ltd
Priority to CN202210283527.4A priority Critical patent/CN114611495A/zh
Publication of CN114611495A publication Critical patent/CN114611495A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Character Discrimination (AREA)

Abstract

本发明涉及人工智能技术领域,提供了一种文本比对方法、装置、设备及介质。该方法包括:将图片文本进行光学字符识别得到识别文本,将识别文本输入预设语言模型组进行纠错得到纠错文本;对校对文本与识别文本进行计算得到校对文本与纠错文本在不同位置的字符串的第一编辑次数;当字符串的第一编辑次数大于预设值时,计算校对文本与纠错文本在该字符串的第二编辑次数;根据第二编辑次数与预设值的大小关系,判断该字符串在识别文本中为被改动过的内容或识别错误的内容,将字符串在校对文本与识别文本中进行定位标记并反馈至用户。本发明还涉及区块链技术领域,上述第一编辑次数、第二编辑次数还可以存储于一区块链的节点中。

Description

文本比对方法、装置、设备及介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种文本比对方法、装置、设备及介质。
背景技术
由于互联网具有数据传输速度快,信息交互效率高等优点,因此越来越多的企业或个人使用互联网传输文本,例如,企业甲将撰写好的电子版或PDF版的文本,通过互联网的方式发送给企业乙,企业乙将接收到的文本打印出来签名和盖章,企业乙通过扫描上传或邮寄等方式将签名和盖章后的文本发送给企业甲。
在接收到对方签署返回的文本后,企业甲需要花费大量的人力物力对签署文本与原文件内容对比,校验文本内容是否被改动过,尤其对于一些页数、条款数量较多的文本,难以做到准确校验,不仅效率低下,且存在漏查风险。
发明内容
鉴于以上内容,本发明提供一种文本比对方法、装置、设备及介质,其目的在于解决现有技术中校验文本的效率低且存在漏查风险的技术问题。
为实现上述目的,本发明提供一种文本比对方法,该方法包括:
接收用户输入的图片文本和校对文本,将所述图片文本进行光学字符识别得到识别文本,再将识别文本输入预设语言模型组进行纠错得到纠错文本;
根据第一预设编辑距离公式对所述校对文本与所述识别文本进行计算,得到所述校对文本与所述识别文本中的不同位置的字符串的第一编辑次数;
当所述不同位置的字符串的第一编辑次数大于预设值时,根据第二预设编辑距离公式计算所述校对文本与所述纠错文本在所述不同位置的字符串的第二编辑次数;
根据所述第二编辑次数与所述预设值的大小关系,判断所述不同位置的字符串在识别文本中为被改动过的内容或识别错误的内容,将所述不同位置的字符串在所述校对文本与所述识别文本中进行定位标记,将定位标记后的所述校对文本与所述识别文本反馈至所述用户。
优选的,所述预设语言模型组包括第一预训练语言模型与第二预训练语言模型,所述第一预训练语言模型为bert4csc预训练语言模型,所述第二预训练语言模型为macbert预训练语言模型,所述再将识别文本输入预设语言模型组进行纠错得到纠错文本,包括:
将所述识别文本分别输入所述第一预训练语言模型、所述第二预训练语言模型进行分词得到多个词,根据所述预设语言模型组的预设纠错文本公式对每个词进行计算,得到所述每个词对应的所有预测词的目标概率;
从所述每个词对应的所有预测词中选取最大目标概率的预测词,根据所述最大目标概率的预测词将所述每个词进行替换得到所述纠错文本。
优选的,所述预设纠错文本公式包括:
text_A=α×softmax(bert4 csc(text))+β×softmax(macbert(text))
其中,text_A为所述纠错文本,bert4 csc(text)为所述第一预训练语言模型中的识别文本,macbert(text)为所述第二预训练语言模型中的识别文本,α、β为加权系数,softmax为归一化函数。
优选的,在所述根据第一预设编辑距离公式对所述校对文本与所述识别文本进行计算之前,还包括:
根据预先构建好的特殊字符词典对所述校对文本、所述识别文本及所述纠错文本的所有特殊字符进行统一的标准化格式。
优选的,所述根据第二预设编辑距离公式计算所述校对文本与所述纠错文本在所述不同位置的字符串的第二编辑次数,包括:
读取所述校对文本与所述纠错文本在所述不同位置的字符串进行长度比对;
根据所述第二预设编辑距离公式计算所述纠错文本的字符串的长度变换成所述校对文本的字符串的长度,得到不同操作方式的编辑次数;
选取所述不同操作方式中最小的编辑次数作为所述校对文本与所述纠错文本在所述不同位置的字符串的第二编辑次数。
优选的,所述第二预设编辑距离公式包括:
Figure BDA0003559090980000031
其中,ED(i,j)为所述校对文本的第i个字符与所述识别文本、所述纠错文本的第j个字符的编辑次数,a(i)为所述校对文本的第i个字符,b(j)为所述识别文本的第j个字符,c(j)为所述纠错文本的第j个字符,if a(i)=b(j)or a(i)=c(j)为第二条件语句。
优选的,所述将所述不同位置的字符串在所述校对文本与所述识别文本中进行定位标记,包括:
当所述第二编辑次数小于或等于所述预设值时,根据预设标记方法将所述不同位置的字符串在所述校对文本与所述识别文本中进行第一标记;
当所述第二编辑次数大于所述预设值时,根据预设标记方法将所述不同位置的字符串在所述校对文本与所述识别文本中进行第二标记。
为实现上述目的,本发明还提供一种文本比对装置,所述装置包括:
纠错模块:用于接收用户输入的图片文本和校对文本,将所述图片文本进行光学字符识别得到识别文本,再将识别文本输入预设语言模型组进行纠错得到纠错文本;
计算模块:用于根据第一预设编辑距离公式对所述校对文本与所述识别文本进行计算,得到所述校对文本与所述识别文本中的不同位置的字符串的第一编辑次数;
输出模块:用于当所述不同位置的字符串的第一编辑次数大于预设值时,根据第二预设编辑距离公式计算所述校对文本与所述纠错文本在所述不同位置的字符串的第二编辑次数;
反馈模块:用于根据所述第二编辑次数与所述预设值的大小关系,判断所述不同位置的字符串在识别文本中为被改动过的内容或识别错误的内容,将所述不同位置的字符串在所述校对文本与所述识别文本中进行定位标记,将定位标记后的所述校对文本与所述识别文本反馈至所述用户。
为实现上述目的,本发明还提供一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的程序,所述程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一项所述文本比对方法。
为实现上述目的,本发明还提供一种计算机可读介质,所述计算机可读介质存储有文本比对程序,所述文本比对程序被处理器执行时,实现如权利要求1至7中任一项所述文本比对方法的步骤。
本发明通过光学字符识别将对方签署后的扫描文本转换成识别文本,再将识别文本输入预设语言模型组进行纠错得到准确率比较高的纠错文本。当第一预设编辑距离公式计算出校对文本与识别文本中的不同位置的字符串的第一编辑距离大于预设值时,将纠错文本作为辅助判断文本计算校对文本与纠错文本在该不同位置的字符串的第二编辑距离,根据第二编辑距离小于或等于预设值的关系,确定识别文本的字符串为识别错误的内容。根据第二编辑距离大于预设值的关系,确定识别文本的字符串为被改动过的内容。根据第二编辑次数与预设值的大小关系,将校对文本与识别文本中的该不同位置的字符串进行定位标记并反馈至用户。
本发明将识别文本输入预设语言模型组得到准确率比较高的纠错文本,根据纠错文本作为辅助判断文本,利用纠错文本判断在校对文本对识别文本的校验过程中,根据第二编辑次数与预设值的大小关系,判断识别文本的字符串是否存在识别错误或被改动过的问题,提高了校验文本的准确率。
附图说明
图1为本发明文本比对方法较佳实施例的流程图示意图;
图2为本发明文本比对装置较佳实施例的模块示意图;
图3为本发明电子设备较佳实施例的示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本发明提供一种文本比对方法。参照图1所示,为本发明文本比对方法的实施例的方法流程示意图。该方法可以由一个电子设备执行,该电子设备可以由软件和/或硬件实现。文本比对方法包括:
步骤S10:接收用户输入的图片文本和校对文本,将所述图片文本进行光学字符识别得到识别文本,再将识别文本输入预设语言模型组进行纠错得到纠错文本。
本实施例,图片文本是指发送端(例如企业甲)收到的另一方(例如企业乙)签署后的文本(例如签字、盖章后的纸质合同或扫描文本)。校对文本是指发送端(例如企业甲)发送给另一方(例如企业乙)要签署文本的备份文本(例如企业甲将文本A发送给企业乙时,企业甲将文本A保留一份存储作为备份文件),该备份文本采用电子文档格式存储,也称为原始文件。企业甲的用户在接收到企业乙签署后的图片文本,将图片文本和校对文本输入校验系统,校验系统的光学字符识别模块(OCR模块)对图片文本的文字进行识别得到识别文本,识别文本是指通过光学识别的方式将影印文档的文字转换成文本格式。由于光学字符识别技术对文字的识别有一定误差,容易造成识别文本出现错别字,因此将识别文本输入预设语言模型组,根据预设语言模型组的预设纠错文本公式将识别文本中识别错误的字检测出来,并根据预设语言模型组的词库的预测词对该识别错误的字进行替换,得到准确率比较高的纠错文本。
在一个实施例中,所述预设语言模型组包括第一预训练语言模型与第二预训练语言模型,所述第一预训练语言模型为bert4csc预训练语言模型,所述第二预训练语言模型为macbert预训练语言模型,所述再将识别文本输入预设语言模型组进行纠错得到纠错文本,包括:
将所述识别文本分别输入所述第一预训练语言模型、所述第二预训练语言模型进行分词得到多个词,根据所述预设语言模型组的预设纠错文本公式对每个词进行计算,得到所述每个词对应的所有预测词的目标概率;
从所述每个词对应的所有预测词中选取最大目标概率的预测词,根据所述最大目标概率的预测词将所述每个词进行替换得到所述纠错文本。
在一个实施例中,所述预设纠错文本公式包括:
text_A=α×softmax(bert 4csc(text))+β×softmax(macbert(text))
其中,text_A为所述纠错文本,bert4 csc(text)为所述第一预训练语言模型中的识别文本,macbert(text)为所述第二预训练语言模型中的识别文本,α、β为加权系数,softmax为归一化函数。
预语言模型组的预设中文分词工具包括但不限于LTP或BPE等分词工具。预设语言模型组包括第一预训练语言模型与第二预训练语言模型,第一预训练语言模型与第二预训练语言模型分别为bert4csc和macbert的预训练语言模型。bert4csc预训练语言模型是通过掩码策略计算输入文本的文本序列的前后双向字符串的相似度来预测下一个词的概率的模型。macbert预训练语言模型是通过掩码策略计算输入文本的词义程度(例如同义词、反义词)出现下一个词的概率的模型。将两种预训练语言模型相结合有效解决在初始阶段的识别文本的错误识别字,这也是本发明对现有技术中OCR对文本识别后进一步改进,提升了对识别文本的纠错率。
在模型的训练阶段加入掩码策略的目的是预测输入模型的输入词会出现哪些预测词的概率,输入时需要将该输入词替换成[mask]。在模型的推理阶段,将含有错别字的文本序列输入模型,输出是预测文本序列中每个词对应的多个预测词的概率,若输出的最大概率的预测词的概率大于词的概率时,则判别词是错别字。
例如,识别文本的文本序列为“择日进场施工”,将该文本序列分别本输入bert4csc和macbert的预训练语言模型中,得到文本序列中每个词对应的所有预测词(例如输入词为“场”,得到“场”对应的所有预测词为“厂”、“场”、“长”、“矿”等),根据预设纠错文本公式对文本序列中每个词对应的所有预测词进行归一化函数处理,得到所有预测词的初始概率(例如在bert4csc的预训练语言模型中的“场”对应的多个预测词及预测词的初始概率为“厂”为73.01%、“场”为21.21%、“长”为2.01%、“矿”为0.51%等,“场”对应的所有预测词的初始概率相加的总和为1)。
将从bert4csc和macbert的预训练语言模型得到每个词对应的所有预测词的初始概率进行加权平均,得到每个词对应的所有预测词的目标概率。例如对“场”对应的多个预测词的初始概率加权平均后,得到所有预测词的目标概率为“厂”为59.82%、“场”为37.12%、“长”为1.01%、“矿”为0.31%等,由于“厂”的目标概率大于输入词“场”的目标概率时,说明“场”是错别字,因此从所有预测词中选取最大目标概率的预测词“厂”将文本序列中的“场”进行替换。若最大目标概率的预测词为输入文本序列的词,则说明输入文本序列的词不是错别字。根据上述方法,将文本序列每个词与该词对应的所有预测词的目标概率进行比对,得到纠错文本。
步骤S20:根据第一预设编辑距离公式对所述校对文本与所述识别文本进行计算,得到所述校对文本与所述识别文本中的不同位置的字符串的第一编辑次数。
具体地,步骤S20包括:
读取所述校对文本与所述识别文本中的不同位置的字符串进行长度比对;
根据第一预设编辑距离公式计算所述识别文本的字符串的长度变换成所述校对文本的字符串的长度,得到不同操作方式的编辑次数;
选取所述不同操作方式中最小的编辑次数作为所述校对文本与所述识别文本中的不同位置的字符串的第一编辑次数。
在一个实施例中,所述第一预设编辑距离公式包括:
Figure BDA0003559090980000071
其中,ED(i,j)为所述校对文本的第i个字符与所述识别文本、所述纠错文本的第j个字符的编辑次数,a(i)为所述校对文本的第i个字符,b(j)为所述识别文本的第j个字符,if a(i)=b(j)为第一条件语句。
根据第一预设编辑距离公式创建校对文本与识别文本的第一编辑距离矩阵,若校对文本的字符串为M,识别文本的字符串为N,则第一编辑距离矩阵的维度为(M+1)*(N+1),先给矩阵数列的第一行第一列赋值,从0开始递增赋值,计算第一列,第二列,依次类推对所有位置的字符比对算完整个矩阵,计算规则为:min(ED(i-1,j)+1,ED(i,j-1)+1,ED(i-1,j-1)+1),其中,ED(i-1,j)表示为增加操作,ED(i,j-1)表示为删除操作,ED(i-1,j-1)表示为替换操作,计算得到这三种操作方式的编辑次数,选取这三种操作方式的编辑次数中的最小编辑次数作为校对文本与识别文本中的所有位置的字符串的第一编辑次数。编辑次数是指两个字符之间,由一个字符转成另一个字符所需的最少编辑操作次数,如果它们的距离或操作次数越大,说明该两个字符越是不相同,反之,如果它们的距离或操作次数越小,说明该两个字符越是相同。
在一个实施例中,在所述根据第一预设编辑距离公式对所述校对文本与所述识别文本进行计算之前,还包括:
根据预先构建好的特殊字符词典对所述校对文本、所述识别文本及所述纠错文本的所有特殊字符进行统一的标准化格式。
特殊字符词典是一种纠正文本可能存在错误的特殊字符的词典。将校对文本、识别文本及纠错文本的所有特殊字符(例如¥、;、!等特殊字符)进行统一的标准化格式,使得这三个文本的特殊字符统一格式,能够提高文本之间编辑距离的计算效率。
例如,识别文本及纠错文本中相同位置的特殊字符为“¥”,校对文本该相同位置的特殊字符为“¥”,根据特殊字符词典将识别文本及纠错文本相同位置的特殊字符“¥”进行统一转换为“¥”,将特殊字符统一格式后,可以减小文本距离之间的操作次数,有利于计算除了特殊字符以外的字符的编辑距离。
步骤S30:当所述不同位置的字符串的第一编辑次数大于预设值时,根据第二预设编辑距离公式计算所述校对文本与所述纠错文本在所述不同位置的字符串的第二编辑次数。
本实施例,当校对文本与识别文本中的不同位置的字符串的第一编辑次数大于预设值(例如预设值为1)时,说明该不同位置的字符串的相似度差距比较大,需要多次编辑操作后才能得到相同的字符串的长度(相似度),也代表着在该不同位置的识别文本的字符串可能存在识别错误或被改动过,因此这些内容没有通过校验。
在没有通过校验的情况下,读取所有位置的校对文本与纠错文本的字符串进行长度比对,根据第二预设编辑距离公式计算得到校对文本与纠错文本的字符串的第二编辑次数。本发明在第一编辑次数大于预设值时,引入纠错文本作为辅助判断文本,去判断识别文本的字符串是否存在识别错误,若第二编辑次数大于预设值,则说明识别文本的字符串不存在识别错误,而是识别文本的字符串可能存在被改动过。
此外,当校对文本与识别文本中的不同位置的字符串的第一编辑次数小于预设值(例如预设值为1)时,说明该不同位置的字符串的相似度很接近,也代表着在该不同位置的识别文本与校对文本的内容是相同,是没有识别错误或被改动过,因此这些内容通过了校验。
在一个实施例中,所述根据第二预设编辑距离公式计算所述校对文本与所述纠错文本在所述不同位置的字符串的第二编辑次数,包括:
读取所述校对文本与所述纠错文本在所述不同位置的字符串进行长度比对;
根据所述第二预设编辑距离公式计算所述纠错文本的字符串的长度变换成所述校对文本的字符串的长度,得到不同操作方式的编辑次数;
选取所述不同操作方式中最小的编辑次数作为所述校对文本与所述纠错文本在所述不同位置的字符串的第二编辑次数。
在一个实施例中,所述第二预设编辑距离公式包括:
Figure BDA0003559090980000091
其中,ED(i,j)为所述校对文本的第i个字符与所述识别文本、所述纠错文本的第j个字符的编辑次数,a(i)为所述校对文本的第i个字符,b(j)为所述识别文本的第j个字符,c(j)为所述纠错文本的第j个字符,if a(i)=b(j)or a(i)=c(j)为第二条件语句。
在本实施中,在计算第二编辑次数的过程中,若a(i)与b(j)为相同时,则说明识别文本与校对文本的内容是相同,是没有识别错误或被改动过,因此这些内容通过了校验,不用考虑运用a(i)=c(j)。若a(i)与b(j)为不相同时,则说明发现识别文本中某处的词不相同或不一致而被校验出来,但是我们还不能确定是光学字符识别的错误或该词被改动过的原因造成的,因此引入纠错文本作为辅助判断文本,去判断识别文本的字符串是否存在识别错误或被改动过。
在其他实施中,本发明不需要第一预设编辑距离公式来计算第一编辑次数,而根据第二预设编辑距离公式的第二条件语句,直接计算校对文本分别与识别文本、纠错文本之间的编辑次数,提高了系统运算的时间,更快地得到不同文本之间编辑次数。
根据第二预设编辑距离公式创建校对文本与纠错文本的第二编辑距离矩阵,若校对文本的字符串为M,纠错文本的字符串为K,则第二编辑距离矩阵的维度为(M+1)*(K+1),先给矩阵数列的第一行第一列赋值,从0开始递增赋值,计算第一列,第二列,依次类推对所有位置的字符比对算完整个矩阵,计算规则为:min(ED(i-1,j)+1,ED(i,j-1)+1,ED(i-1,j-1)+1),其中,ED(i-1,j)表示为增加操作,ED(i,j-1)表示为删除操作,ED(i-1,j-1)表示为替换操作,计算得到这三种操作方式的编辑次数,选取这三种操作方式的编辑次数中的最小编辑次数作为校对文本与纠错文本中的所有位置的字符串的第二编辑次数。
步骤S40:根据所述第二编辑次数与所述预设值的大小关系,判断所述不同位置的字符串在识别文本中为被改动过的内容或识别错误的内容,将所述不同位置的字符串在所述校对文本与所述识别文本中进行定位标记,将定位标记后的所述校对文本与所述识别文本反馈至所述用户。
本实施例,当第二编辑次数小于或等于预设值时,说明校对文本与纠错文本中的不同位置的字符串的相似度差距很小,需要1次编辑操作或者不需要编辑操作就能得到相同的字符长度(相似度),同时也证明在该不同位置的识别文本的字符串存在着识别错误,根据预设标记方法将该识别错误的字符串在校对文本与识别文本中进行定位标记(例如将识别错误的内容在校对文本与识别文本中进行字体变粗)。
当第二编辑次数大于预设值时,说明校对文本与纠错文本中的不同位置的字符串的相似度差距很大,需要多次编辑操作才能得到相同的字符长度,也代表着在该不同位置的识别文本、纠错文本与校对文本的字符串都不相同,说明用户输入的图片文本可能存在被改动过,根据预设标记方法将该可能存在被改动过的字符串在校对文本与识别文本中进行定位标记(例如将可能存在被改动过的内容在校对文本与识别文本中进行其它颜色突现或加上下划线或),提醒用户对定位标记的内容要重点校验。
在一个实施例中,所述将所述不同位置的字符串在所述校对文本与所述识别文本中进行定位标记,包括:
当所述第二编辑次数小于或等于所述预设值时,根据预设标记方法将所述不同位置的字符串在所述校对文本与所述识别文本中进行第一标记;
当所述第二编辑次数大于所述预设值时,根据预设标记方法将所述不同位置的字符串在所述校对文本与所述识别文本中进行第二标记。
第一标记将字符串的字体加粗、以浅颜色突出显示等,第二标记将字符串的以深颜色突出显示、以加下划线、加阴影或发光效果等。根据不同的标记,用户清楚知道在校对文本与识别文本中被标记的内容发生哪些问题,从而快速从图片文本找出哪些内容被改动过。
在本发明中可能还会出现的情况:在相同位置的识别文本、纠错文本与校对文本的字符串都不相同时,如果用户校验过图片文本后,发现相同位置的图片文本与校对文本的内容是相同的,没有被改动,则说明识别文本与纠错文本的字符串都是错误的,也代表着文本纠错模型效果不理想,需要优化文本纠错预训练模型或增加其他文本纠错模型,达到集成学习的目的,以提高文本纠错的准确率,但引入其他文本纠错模型同时会增加计算量,推理时间增加。
参照图2所示,为本发明文本比对装置100的功能模块示意图。
本发明所述文本比对装置100可以安装于电子设备中。根据实现的功能,所述文本比对装置100可以包括纠错模块110、计算模块120、输出模块130及反馈模块140。本发所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
本实施例,关于各模块/单元的功能如下:
纠错模块:用于接收用户输入的图片文本和校对文本,将所述图片文本进行光学字符识别得到识别文本,再将识别文本输入预设语言模型组进行纠错得到纠错文本;
计算模块:用于根据第一预设编辑距离公式对所述校对文本与所述识别文本进行计算,得到所述校对文本与所述识别文本中的不同位置的字符串的第一编辑次数;
输出模块:用于当所述不同位置的字符串的第一编辑次数大于预设值时,根据第二预设编辑距离公式计算所述校对文本与所述纠错文本在所述不同位置的字符串的第二编辑次数;
反馈模块:用于根据所述第二编辑次数与所述预设值的大小关系,判断所述不同位置的字符串在识别文本中为被改动过的内容或识别错误的内容,将所述不同位置的字符串在所述校对文本与所述识别文本中进行定位标记,将定位标记后的所述校对文本与所述识别文本反馈至所述用户。
在一个实施例中,所述预设语言模型组包括第一预训练语言模型与第二预训练语言模型,所述第一预训练语言模型为bert4csc预训练语言模型,所述第二预训练语言模型为macbert预训练语言模型,所述再将识别文本输入预设语言模型组进行纠错得到纠错文本,包括:
将所述识别文本分别输入所述第一预训练语言模型、所述第二预训练语言模型进行分词得到多个词,根据所述预设语言模型组的预设纠错文本公式对每个词进行计算,得到所述每个词对应的所有预测词的目标概率;
从所述每个词对应的所有预测词中选取最大目标概率的预测词,根据所述最大目标概率的预测词将所述每个词进行替换得到所述纠错文本。
在一个实施例中,所述预设纠错文本公式包括:
text_A=α×softmax(bert4 csc(text))+β×softmax(macbert(text))
其中,text_A为所述纠错文本,bert4 csc(text)为所述第一预训练语言模型中的识别文本,macbert(text)为所述第二预训练语言模型中的识别文本,α、β为加权系数,softmax为归一化函数。
在一个实施例中,在所述根据第一预设编辑距离公式对所述校对文本与所述识别文本进行计算之前,还包括:
根据预先构建好的特殊字符词典对所述校对文本、所述识别文本及所述纠错文本的所有特殊字符进行统一的标准化格式。
在一个实施例中,所述根据第二预设编辑距离公式计算所述校对文本与所述纠错文本在所述不同位置的字符串的第二编辑次数,包括:
读取所述校对文本与所述纠错文本在所述不同位置的字符串进行长度比对;
根据所述第二预设编辑距离公式计算所述纠错文本的字符串的长度变换成所述校对文本的字符串的长度,得到不同操作方式的编辑次数;
选取所述不同操作方式中最小的编辑次数作为所述校对文本与所述纠错文本在所述不同位置的字符串的第二编辑次数。
在一个实施例中,所述第二预设编辑距离公式包括:
Figure BDA0003559090980000131
其中,ED(i,j)为所述校对文本的第i个字符与所述识别文本、所述纠错文本的第j个字符的编辑次数,a(i)为所述校对文本的第i个字符,b(j)为所述识别文本的第j个字符,c(j)为所述纠错文本的第j个字符,if a(i)=b(j)or a(i)=c(j)为第二条件语句。
在一个实施例中,所述将所述不同位置的字符串在所述校对文本与所述识别文本中进行定位标记,包括:
当所述第二编辑次数小于或等于所述预设值时,根据预设标记方法将所述不同位置的字符串在所述校对文本与所述识别文本中进行第一标记;
当所述第二编辑次数大于所述预设值时,根据预设标记方法将所述不同位置的字符串在所述校对文本与所述识别文本中进行第二标记。
参照图3所示,为本发明电子设备1较佳实施例的示意图。
该电子设备1包括但不限于:存储器11、处理器12、显示器13及网络接口14。所述电子设备1通过网络接口14连接网络,获取原始数据。其中,所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(GlobalSystemofMobilecommunication,GSM)、宽带码分多址(WidebandCodeDivisionMultipleAccess,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi、通话网络等无线或有线网络。
其中,存储器11至少包括一种类型的可读介质,所述可读介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器11可以是所述电子设备1的内部存储单元,例如该电子设备1的硬盘或内存。在另一些实施例中,所述存储器11也可以是所述电子设备1的外部存储设备,例如该电子设备1配备的插接式硬盘,智能存储卡(SmartMediaCard,SMC),安全数字(SecureDigital,SD)卡,闪存卡(FlashCard)等。当然,所述存储器11还可以既包括所述电子设备1的内部存储单元也包括其外部存储设备。本实施例中,存储器11通常用于存储安装于所述电子设备1的操作系统和各类应用软件,例如文本比对程序10的程序代码等。此外,存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器12在一些实施例中可以是中央处理器(CentralProcessingUnit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述电子设备1的总体操作,例如执行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据,例如运行文本比对程序10的程序代码等。
显示器13可以称为显示屏或显示单元。在一些实施例中显示器13可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(OrganicLight-EmittingDiode,OLED)触摸器等。显示器13用于显示在电子设备1中处理的信息以及用于显示可视化的工作界面,例如显示数据统计的结果。
网络接口14可选地可以包括标准的有线接口、无线接口(如WI-FI接口),该网络接口14通常用于在所述电子设备1与其它电子设备之间建立通信连接。
图3仅示出了具有组件11-14以及文本比对程序10的电子设备1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
可选地,所述电子设备1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(OrganicLight-EmittingDiode,OLED)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
该电子设备1还可以包括射频(RadioFrequency,RF)电路、传感器和音频电路等等,在此不再赘述。
在上述实施例中,处理器12执行存储器11中存储的文本比对程序10时可以实现如下步骤:
接收用户输入的图片文本和校对文本,将所述图片文本进行光学字符识别得到识别文本,再将识别文本输入预设语言模型组进行纠错得到纠错文本;
根据第一预设编辑距离公式对所述校对文本与所述识别文本进行计算,得到所述校对文本与所述识别文本中的不同位置的字符串的第一编辑次数;
当所述不同位置的字符串的第一编辑次数大于预设值时,根据第二预设编辑距离公式计算所述校对文本与所述纠错文本在所述不同位置的字符串的第二编辑次数;
根据所述第二编辑次数与所述预设值的大小关系,判断所述不同位置的字符串在识别文本中为被改动过的内容或识别错误的内容,将所述不同位置的字符串在所述校对文本与所述识别文本中进行定位标记,将定位标记后的所述校对文本与所述识别文本反馈至所述用户。
所述存储设备可以为电子设备1的存储器11,也可以为与电子设备1通讯连接的其它存储设备。
关于上述步骤的详细介绍,请参照上述图2关于文本比对装置100实施例的功能模块图以及图1关于文本比对方法实施例的流程图的说明。
此外,本发明实施例还提出一种计算机可读介质,所述计算机可读介质可以是非易失性的,也可以是易失性的。该计算机可读介质可以是硬盘、多媒体卡、SD卡、闪存卡、SMC、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器等等中的任意一种或者几种的任意组合。所述计算机可读介质中包括存储数据区和存储程序区,存储数据区存储根据区块链节点的使用所创建的数据,存储程序区存储有文本比对程序10,所述文本比对程序10被处理器执行时实现如下操作:
接收用户输入的图片文本和校对文本,将所述图片文本进行光学字符识别得到识别文本,再将识别文本输入预设语言模型组进行纠错得到纠错文本;
根据第一预设编辑距离公式对所述校对文本与所述识别文本进行计算,得到所述校对文本与所述识别文本中的不同位置的字符串的第一编辑次数;
当所述不同位置的字符串的第一编辑次数大于预设值时,根据第二预设编辑距离公式计算所述校对文本与所述纠错文本在所述不同位置的字符串的第二编辑次数;
根据所述第二编辑次数与所述预设值的大小关系,判断所述不同位置的字符串在识别文本中为被改动过的内容或识别错误的内容,将所述不同位置的字符串在所述校对文本与所述识别文本中进行定位标记,将定位标记后的所述校对文本与所述识别文本反馈至所述用户。
本发明之计算机可读介质的具体实施方式与上述文本比对方法的具体实施方式大致相同,在此不再赘述。
在另一个实施例中,本发明所提供的文本比对方法,为进一步保证上述所有出现的数据的私密和安全性,上述所有数据还可以存储于一区块链的节点中。例如第一编辑次数、第二编辑次数,这些数据均可存储在区块链节点中。
需要说明的是,本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,电子装置,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种文本比对方法,其特征在于,所述方法包括:
接收用户输入的图片文本和校对文本,将所述图片文本进行光学字符识别得到识别文本,再将识别文本输入预设语言模型组进行纠错得到纠错文本;
根据第一预设编辑距离公式对所述校对文本与所述识别文本进行计算,得到所述校对文本与所述识别文本中的不同位置的字符串的第一编辑次数;
当所述不同位置的字符串的第一编辑次数大于预设值时,根据第二预设编辑距离公式计算所述校对文本与所述纠错文本在所述不同位置的字符串的第二编辑次数;
根据所述第二编辑次数与所述预设值的大小关系,判断所述不同位置的字符串在识别文本中为被改动过的内容或识别错误的内容,将所述不同位置的字符串在所述校对文本与所述识别文本中进行定位标记,将定位标记后的所述校对文本与所述识别文本反馈至所述用户。
2.如权利要求1所述的文本比对方法,其特征在于,所述预设语言模型组包括第一预训练语言模型与第二预训练语言模型,所述第一预训练语言模型为bert4csc预训练语言模型,所述第二预训练语言模型为macbert预训练语言模型,所述再将识别文本输入预设语言模型组进行纠错得到纠错文本,包括:
将所述识别文本分别输入所述第一预训练语言模型、所述第二预训练语言模型进行分词得到多个词,根据所述预设语言模型组的预设纠错文本公式对每个词进行计算,得到所述每个词对应的所有预测词的目标概率;
从所述每个词对应的所有预测词中选取最大目标概率的预测词,根据所述最大目标概率的预测词将所述每个词进行替换得到所述纠错文本。
3.如权利要求2所述的文本比对方法,其特征在于,所述预设纠错文本公式包括:
text_A=α×softmax(bert4 csc(text))+β×softmax(macbert(text))
其中,text_A为所述纠错文本,bert4csc(text)为所述第一预训练语言模型中的识别文本,macbert(text)为所述第二预训练语言模型中的识别文本,α、β为加权系数,softmax为归一化函数。
4.如权利要求1所述的文本比对方法,其特征在于,在所述根据第一预设编辑距离公式对所述校对文本与所述识别文本进行计算之前,还包括:
根据预先构建好的特殊字符词典对所述校对文本、所述识别文本及所述纠错文本的所有特殊字符进行统一的标准化格式。
5.如权利要求1所述的文本比对方法,其特征在于,所述根据第二预设编辑距离公式计算所述校对文本与所述纠错文本在所述不同位置的字符串的第二编辑次数,包括:
读取所述校对文本与所述纠错文本在所述不同位置的字符串进行长度比对;
根据所述第二预设编辑距离公式计算所述纠错文本的字符串的长度变换成所述校对文本的字符串的长度,得到不同操作方式的编辑次数;
选取所述不同操作方式中最小的编辑次数作为所述校对文本与所述纠错文本在所述不同位置的字符串的第二编辑次数。
6.如权利要求1或5所述的文本比对方法,其特征在于,所述第二预设编辑距离公式包括:
Figure FDA0003559090970000021
其中,ED(i,j)为所述校对文本的第i个字符与所述识别文本、所述纠错文本的第j个字符的编辑次数,a(i)为所述校对文本的第i个字符,b(j)为所述识别文本的第j个字符,c(j)为所述纠错文本的第j个字符,if a(i)=b(j)or a(i)=c(j)为第二条件语句。
7.如权利要求1所述的文本比对方法,其特征在于,所述将所述不同位置的字符串在所述校对文本与所述识别文本中进行定位标记,包括:
当所述第二编辑次数小于或等于所述预设值时,根据预设标记方法将所述不同位置的字符串在所述校对文本与所述识别文本中进行第一标记;
当所述第二编辑次数大于所述预设值时,根据预设标记方法将所述不同位置的字符串在所述校对文本与所述识别文本中进行第二标记。
8.一种文本比对装置,其特征在于,所述装置包括:
纠错模块:用于接收用户输入的图片文本和校对文本,将所述图片文本进行光学字符识别得到识别文本,再将识别文本输入预设语言模型组进行纠错得到纠错文本;
计算模块:用于根据第一预设编辑距离公式对所述校对文本与所述识别文本进行计算,得到所述校对文本与所述识别文本中的不同位置的字符串的第一编辑次数;
输出模块:用于当所述不同位置的字符串的第一编辑次数大于预设值时,根据第二预设编辑距离公式计算所述校对文本与所述纠错文本在所述不同位置的字符串的第二编辑次数;
反馈模块:用于根据所述第二编辑次数与所述预设值的大小关系,判断所述不同位置的字符串在识别文本中为被改动过的内容或识别错误的内容,将所述不同位置的字符串在所述校对文本与所述识别文本中进行定位标记,将定位标记后的所述校对文本与所述识别文本反馈至所述用户。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的程序,所述程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一项所述文本比对方法。
10.一种计算机可读介质,其特征在于,所述计算机可读介质存储有文本比对程序,所述文本比对程序被处理器执行时,实现如权利要求1至7中任一项所述文本比对方法的步骤。
CN202210283527.4A 2022-03-22 2022-03-22 文本比对方法、装置、设备及介质 Pending CN114611495A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210283527.4A CN114611495A (zh) 2022-03-22 2022-03-22 文本比对方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210283527.4A CN114611495A (zh) 2022-03-22 2022-03-22 文本比对方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN114611495A true CN114611495A (zh) 2022-06-10

Family

ID=81865548

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210283527.4A Pending CN114611495A (zh) 2022-03-22 2022-03-22 文本比对方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN114611495A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116704523A (zh) * 2023-08-07 2023-09-05 山东成信彩印有限公司 一种用于出版印刷设备的文字排版图像识别系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116704523A (zh) * 2023-08-07 2023-09-05 山东成信彩印有限公司 一种用于出版印刷设备的文字排版图像识别系统
CN116704523B (zh) * 2023-08-07 2023-10-20 山东成信彩印有限公司 一种用于出版印刷设备的文字排版图像识别系统

Similar Documents

Publication Publication Date Title
CN111695439B (zh) 图像结构化数据提取方法、电子装置及存储介质
CN112016310A (zh) 文本纠错方法、系统、设备及可读存储介质
US10956673B1 (en) Method and system for identifying citations within regulatory content
US10133965B2 (en) Method for text recognition and computer program product
CN110795938B (zh) 文本序列分词方法、装置及存储介质
US9754176B2 (en) Method and system for data extraction from images of semi-structured documents
CN100492392C (zh) 手写字符识别方法及识别装置
CN112396049A (zh) 文本纠错方法、装置、计算机设备及存储介质
CN113255294B (zh) 命名实体识别模型训练方法、识别方法及装置
CN114818721B (zh) 一种结合序列标注的事件联合抽取模型与方法
CN111695343A (zh) 错词纠正方法、装置、设备及存储介质
CN111832382A (zh) 基于视觉和文本内容的光学字符识别错误校正
CN112052305A (zh) 信息提取方法、装置、计算机设备及可读存储介质
CN114580424B (zh) 一种用于法律文书的命名实体识别的标注方法和装置
CN111783710B (zh) 医药影印件的信息提取方法和系统
TW201544976A (zh) 自然語言處理系統、自然語言處理方法、及自然語言處理程式
CN113420546A (zh) 文本纠错方法、装置、电子设备及可读存储介质
CN111401012B (zh) 文本纠错方法、电子设备及计算机可读存储介质
CN114611495A (zh) 文本比对方法、装置、设备及介质
CN113837113A (zh) 基于人工智能的文档校验方法、装置、设备及介质
CN111539414A (zh) 一种ocr图像字符识别和字符校正的方法及系统
KR102468975B1 (ko) 인공지능 기반의 판례 인식의 정확도 향상 방법 및 장치
CN112307749A (zh) 文本检错方法、装置、计算机设备和存储介质
CN114372441B (zh) 一种中文文本自动纠错方法及装置
CN112989820B (zh) 法律文书定位方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination