CN117373037A - 基于语言模型的字符识别方法、计算设备及存储介质 - Google Patents
基于语言模型的字符识别方法、计算设备及存储介质 Download PDFInfo
- Publication number
- CN117373037A CN117373037A CN202311386552.6A CN202311386552A CN117373037A CN 117373037 A CN117373037 A CN 117373037A CN 202311386552 A CN202311386552 A CN 202311386552A CN 117373037 A CN117373037 A CN 117373037A
- Authority
- CN
- China
- Prior art keywords
- recognition
- text
- tools
- character
- language model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000012937 correction Methods 0.000 claims abstract description 110
- 239000012634 fragment Substances 0.000 claims description 33
- 238000004891 communication Methods 0.000 claims description 21
- 238000012986 modification Methods 0.000 claims 1
- 230000004048 modification Effects 0.000 claims 1
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 9
- 238000012015 optical character recognition Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 2
- 239000002989 correction material Substances 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 230000001915 proofreading effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/1918—Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/24—Character recognition characterised by the processing or recognition method
- G06V30/242—Division of the character sequences into groups prior to recognition; Selection of dictionaries
- G06V30/246—Division of the character sequences into groups prior to recognition; Selection of dictionaries using linguistic properties, e.g. specific for English or German language
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种基于语言模型的字符识别方法、计算设备及存储介质,其中,基于语言模型的字符识别方法包括:利用至少两个文本识别工具对待识别的文本图像进行文本识别,得到至少两个文本识别工具对应的识别结果;根据修正需求数据,构建识别结果修正指令;将识别结果修正指令以及至少两个文本识别工具对应的全部或部分识别结果提供给语言模型,由语言模型响应于识别结果修正指令,根据全部或部分识别结果中的上下文字符对全部或部分识别结果进行修正处理,得到修正后的识别结果。本发明基于语言模型的语义理解能力,从语义方面对文本识别工具的识别结果自动结合上下文进行分析与修正,有效提升了识别结果准确度。
Description
技术领域
本发明涉及信息处理技术领域,具体涉及一种基于语言模型的字符识别方法、计算设备及存储介质。
背景技术
现有技术中,经常会对于一些图像类型的文档(例如扫描版本PDF、含文字等字符的图像等)有转码提取其中字符的需求,针对图像中字符信息的提取,目前比较常用的方式是使用光学字符识别(Optical Character Recognition,OCR)等文本识别工具进行文本识别以实现字符提取,但其对于一些含有手写字符、某些字体等特殊元素的图像的识别效果不佳,存在着识别结果准确度较低的问题。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的基于语言模型的字符识别方法、计算设备及存储介质。
根据本发明的一个方面,提供了一种基于语言模型的字符识别方法,包括:
利用至少两个文本识别工具对待识别的文本图像进行文本识别,得到至少两个文本识别工具对应的识别结果;
根据修正需求数据,构建识别结果修正指令;
将识别结果修正指令以及至少两个文本识别工具对应的全部或部分识别结果提供给语言模型,由语言模型响应于识别结果修正指令,根据全部或部分识别结果中的上下文字符对全部或部分识别结果进行修正处理,得到修正后的识别结果。
根据本发明的另一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;
存储器用于存放至少一可执行指令,可执行指令使处理器执行以下操作:
利用至少两个文本识别工具对待识别的文本图像进行文本识别,得到至少两个文本识别工具对应的识别结果;
根据修正需求数据,构建识别结果修正指令;
将识别结果修正指令以及至少两个文本识别工具对应的全部或部分识别结果提供给语言模型,由语言模型响应于识别结果修正指令,根据全部或部分识别结果中的上下文字符对全部或部分识别结果进行修正处理,得到修正后的识别结果。
根据本发明实施例的又一方面,提供了一种计算机存储介质,存储介质中存储有至少一可执行指令,可执行指令使处理器执行如上述基于语言模型的字符识别方法对应的操作。
根据本发明提供的技术方案,利用至少两个文本识别工具对待识别的文本图像进行文本识别,得到至少两个文本识别工具对应的识别结果;根据修正需求数据,构建识别结果修正指令;将识别结果修正指令以及至少两个文本识别工具对应的全部或部分识别结果提供给语言模型,由语言模型响应于识别结果修正指令,根据全部或部分识别结果中的上下文字符对全部或部分识别结果进行修正处理,得到修正后的识别结果。本发明通过利用至少两个文本识别工具对待识别的文本图像进行文本识别,得到至少两个文本识别工具对应的识别结果,基于语言模型的语义理解能力,从语义方面对至少两个文本识别工具对应的识别结果自动结合上下文进行分析并对其存在识别差异的字符进行修正,从而有效地避免了一些特殊元素在识别后产生的识别错误情况,有效地提升了识别结果准确度。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明实施例一的一种基于语言模型的字符识别方法的流程示意图;
图2示出了根据本发明实施例二的一种基于语言模型的字符识别方法的流程示意图;
图3示出了根据本发明实施例四的一种计算设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
实施例一
图1示出了根据本发明实施例一的一种基于语言模型的字符识别方法的流程示意图,如图1所示,该方法包括如下步骤:
步骤S101:利用至少两个文本识别工具对待识别的文本图像进行文本识别,得到至少两个文本识别工具对应的识别结果。
考虑到若只依据一个文本识别工具对应的识别结果进行修正,校对素材较少,可能导致不利于语言模型进行精准修正,那么在本步骤中,利用至少两个文本识别工具对待识别的文本图像进行文本识别,得到至少两个文本识别工具对应的识别结果,以便语言模型根据多个识别结果中的上下文字符对识别结果进行修正,有助于确保修正的准确度。另外,在得到至少两个文本识别工具对应的识别结果之后,还可通过比对多个识别结果,查找并标记出识别结果存在识别差异之处,以便语言模型可以针对存在识别差异之处更为快速地根据识别结果中的上下文字符对其进行修正,进一步提高修正效率。其中,待识别的文本图像可以为从PDF文档或其他图像文档等中提取得到的包含有文本内容的图像。
步骤S102:根据修正需求数据,构建识别结果修正指令。
为了便于语言模型获知其所要做的工作,需要根据修正需求数据,构建识别结果修正指令。其中,修正需求数据具体可为用于描述针对识别结果的修正需求的数据,例如限定语言模型所要做的具体工作、范围、目的等;识别结果修正指令能够被语言模型进行识别与执行,具体可为自然语言等形式的指令。
步骤S103:将识别结果修正指令以及至少两个文本识别工具对应的全部或部分识别结果提供给语言模型,由语言模型响应于识别结果修正指令,根据全部或部分识别结果中的上下文字符对全部或部分识别结果进行修正处理,得到修正后的识别结果。
其中,语言模型具体可为通过大量语言数据对神经网络结构进行训练,得到的一种AI(Artificial Intelligence)模型,该语言模型具有自然语言处理(NLP)能力,能够很好地理解自然语言,并输出符合自然语言指令的相关结果。
在一种可选的实施方式中,可将识别结果修正指令以及至少两个文本识别工具对应的全部的识别结果都提供给语言模型,使得语言模型基于其语义理解能力,理解识别结果修正指令和识别结果中的上下文字符的语义,从而响应于识别结果修正指令,通过上下文学习,自动进行文本间的比较,从而对全部的识别结果中需要修正的字符进行修正,得到修正后的识别结果。
在另一种可选的实施方式中,可将识别结果修正指令以及至少两个文本识别工具对应的识别结果中存在识别差异的部分识别结果提供给语言模型,使得语言模型基于其语义理解能力,理解识别结果修正指令和部分识别结果中的上下文字符的语义,从而响应于识别结果修正指令,通过上下文学习,有针对性的、更为快捷地对存在识别差异的字符进行修正,得到修正后的识别结果。
利用本实施例提供的基于语言模型的字符识别方法,通过利用至少两个文本识别工具对待识别的文本图像进行文本识别,得到至少两个文本识别工具对应的识别结果,基于语言模型的语义理解能力,从语义方面对至少两个文本识别工具对应的识别结果自动结合上下文进行分析并对其存在识别差异的字符进行修正,从而有效地避免了一些特殊元素在识别后产生的识别错误情况,有效地提升了识别结果准确度。
实施例二
图2示出了根据本发明实施例二的一种基于语言模型的字符识别方法的流程示意图,如图2所示,该方法包括如下步骤:
步骤S201:从待识别文档中提取包含有文本内容的图像作为待识别的文本图像。
一般来说,待识别文档可以是具有字符提取需求的例如PDF文档或其他包含有文本内容的图像文档等,在本步骤中,从待识别文档中提取出包含有文本内容的图像作为待识别的文本图像。
步骤S202:利用至少两个文本识别工具对待识别的文本图像进行文本识别,得到至少两个文本识别工具对应的识别结果。
考虑到若只依据一个文本识别工具对应的识别结果进行修正,校对素材较少,可能导致不利于语言模型进行精准修正,为了较为全面地查找出识别结果的不同之处,在本步骤中,可选择至少两个文本识别工具对待识别的文本图像进行文本识别,得到至少两个文本识别工具对应的识别结果。
步骤S203:将至少两个文本识别工具对应的识别结果进行比对,从至少两个文本识别工具中查找存在识别差异的字符。
其中,可按照字符排列顺序,比对任一文本识别工具对应的识别结果中的每个字符是否与至少两个文本识别工具中其他文本识别工具对应的识别结果中对应字符一致;若任一文本识别工具对应的识别结果中的任一字符与其他文本识别工具对应的识别结果中对应字符不一致,则将任一字符和对应字符确定为存在识别差异的字符。
例如,以文本识别工具为OCR工具为例,选取3个OCR工具对待识别的文本图像进行文本识别,若在3个识别结果中都显示某个位置对应的识别结果为字符“的”,则可认为这个位置对应的实际字符即为字符“的”,可认为针对该位置的字符识别是一致的、准确的,则不需要对该位置对应的字符进行校对与修正;若在3个识别结果中显示某个位置对应的识别结果分别为字符“平”、字符“屏”、字符“展”,则可认为针对该位置的字符识别是存在差异的,是不准确的,则为查找到的存在识别差异的字符,需要结合上下文对该位置对应的字符进行语义分析与修正。
通过按照字符排列顺序,对多个识别结果中的字符一一进行比对,能够便捷、全面地从多个识别结果中查找到存在识别差异的字符。另外,在查找到存在识别差异的字符后,为了方便语言模型对存在识别差异的字符进行修正处理,可以为存在识别差异的字符添加第一预设标记;第一预设标记可以是括号、下划线等标记。
例如,文本识别工具1对应的识别结果中的识别结果片段1为:
肯定是“月亮”!或者“红月”!埃姆林思绪一转,有了答案,至于是不是正确的,亻也也并不在意,反正亻也觉得这肯定很接近真宝情况。
文本识别工具2对应的识别结果中的识别结果片段2为:
肯定是“月亮”!或者“红月”i埃姆林思绪一转,有了答案,至于是不是正确的,他也并不在意,反正他觉得这肯定很接近真实情况。
文本识别工具3对应的识别结果中的识别结果片段3为:
肯定是“月亮”!或者“红月”l埃姆林思绪一转,有了嗒案,至于是不是正确的,也也并不在意,反正也觉得这肯定很接近真实情况。
若针对存在识别差异的字符通过“()”这一第一预设标记进行标出,则标记后的识别结果片段1为:
肯定是“月亮”!或者“红月”(!)埃姆林思绪一转,有了(答)案,至于是不是正确的,(亻)(也)也并不在意,反正(亻)(也)觉得这肯定很接近真(宝)情况。
标记后的识别结果片段2为:
肯定是“月亮”!或者“红月”(i)埃姆林思绪一转,有了(答)案,至于是不是正确的,(他)也并不在意,反正(他)觉得这肯定很接近真(实)情况。
标记后的识别结果片段3为:
肯定是“月亮”!或者“红月”(l)埃姆林思绪一转,有了(嗒)案,至于是不是正确的,(也)也并不在意,反正(也)觉得这肯定很接近真(实)情况。
步骤S204:针对每个文本识别工具对应的识别结果中的存在识别差异的字符,从该文本识别工具对应的识别结果中为存在识别差异的字符选取识别结果片段。
其中,识别结果片段包含有存在识别差异的字符以及在存在识别差异的字符的预设上下文范围内的上下文字符,以便语义模型通过上下文学习自动对存在识别差异的字符进行修正。本领域技术人员可根据实际需要对预设上下文范围进行设置,例如,预设上下文范围可为包含有存在识别差异的字符的整句范围等。
步骤S205:对所有识别结果片段进行整合,生成待修正文档。
为了有效缩减语言模型的数据处理量、提高修正效率,可通过对所有识别结果片段进行整合以生成待修正文档,用于提供给语言模型,而不是将至少两个文本识别工具对应的全部识别结果都提供给语言模型。具体地,在待修正文档中,针对识别结果片段中的存在识别差异的字符,可以利用第一预设标记进行标记,也可以不进行标记,此处不做具体限定。本领域技术人员还可根据实际需要确定整合形式。
以上述识别结果片段1至识别结果片段3为例,可以整合为形式1的待修正文档:
肯定是“月亮”!或者“红月”(!)/(i)/(l)埃姆林思绪一转,有了(答)/(嗒)案,至于是不是正确的,(亻)(也)/(他)/(也)也并不在意,反正(亻)(也)/(他)/(也)觉得这肯定很接近真(宝)/(实)情况。
或者,也可以整合为形式2的待修正文档:
肯定是“月亮”!或者“红月”(1)埃姆林思绪一转,有了(2)案,至于是不是正确的,(3)也并不在意,反正(4)觉得这肯定很接近真(5)情况。
步骤S206:根据修正需求数据生成指令语句,并依据指令语句,构建识别结果修正指令。
其中,修正需求数据可用于限定语言模型所要做的具体工作、范围、目的等,例如修正需求数据为:结合上下文,从这些具有第一预设标记的字符中进行选择、拆分、合并或使用相近的字符来对字符进行修正。根据修正需求数据,还可结合待修正文档,生成指令语句,指令语句可包含有第一预设标记和/或存在识别差异的字符。指令语句还可限定了待修正范围、修正规则、目的等。例如修正规则可包括:不能丢失、增加或修改任何第一预设标记和/或存在识别差异的字符之外的内容;返回的识别结果不需要包括第一预设标记;在返回的识别结果中通过第二预设标记来标记修正后的目标字符。
在生成了指令语句之后,即可依据指令语句,构建识别结果修正指令。以上述识别结果片段1至识别结果片段3为例,针对形式2的待修正文档,所构建的识别结果修正指令可为:
以下每个id是多个文本识别工具的识别结果,
id1:(!),(i),(l);
id2:(答),(嗒);
id3:(亻)(也),(他),(也);
id4:(亻)(也),(他),(也);
id5:(宝),(实);
每个括号对应一个内容组,例如(1)对应id1,不同结果的内容用逗号分隔,每个括号对应的id包含多个可选项;根据id选择内容,把括号内的id替换为id对应的选项,结合上下文选择、拆分或合并,可以使用相近形象的文字,并返回全文结果;返回的结果不需要包括括号;不要丢失、增加或修改任何括号外的内容。
步骤S207:将识别结果修正指令以及待修正文档提供给语言模型,由语言模型响应于识别结果修正指令,根据待修正文档中的上下文字符对待修正文档中的存在识别差异的字符进行修正处理,得到修正后的识别结果。
其中,语言模型可以为ChatGPT(Chat Generative Pre-trained Transformer)模型,BERT(Bidirectional Encoder Representation from Transformers)模型,或ERNIE(Enhanced Representation through Knowledge Integration)模型等等。
具体地,由语言模型基于其语义理解能力,理解识别结果修正指令和待修正文档中的上下文字符的语义,响应于识别结果修正指令,通过上下文学习,有针对性的、更为快捷地对待修正文档中存在识别差异的字符进行修正处理,得到修正后的识别结果。其中,对于语言模型的参数设置方面,可以将语言模型的的随机度设置为0,以保证修正处理后能够输出唯一确定结果,避免语言模型所输出的修正后的识别结果与原文不匹配,不便于后续校对。
以上述识别结果片段1至识别结果片段3为例,针对形式2的待修正文档以及步骤S206中所示例的识别结果修正指令,所得到的修正后的识别结果可为:
肯定是“月亮”!或者“红月”!埃姆林思绪一转,有了答案,至于是不是正确的,他也并不在意,反正他觉得这肯定很接近真实情况。
可选地,修正后的识别结果中还可包含有第二预设标记,第二预设标记用于标记修正后的目标字符,以便对修正后的识别结果进行再次校对。
利用本实施例提供的基于语言模型的字符识别方法,从待识别文档中提取包含有文本内容的图像作为待识别的文本图像,并利用至少两个文本识别工具对待识别的文本图像进行文本识别,有助于为语言模型修正过程提供丰富的校对素材,且能够较为全面地查找出存在识别差异的字符;从识别结果中为存在识别差异的字符选取识别结果片段并整合为待修正文档,以提供给语言模型,与将全部识别结果都提供给语言模型相比,能够有效地缩减语言模型的数据处理量,极大提升修正效率;充分利用语言模型的语义理解能力,响应于识别结果修正指令,通过上下文学习,有针对性的、更为快捷地对待修正文档中存在识别差异的字符进行修正处理,有效地提升了识别结果准确度。
实施例三
本发明实施例三提供了一种非易失性存储介质,存储介质存储有至少一可执行指令,该可执行指令可执行上述任意方法实施例中的基于语言模型的字符识别方法。
可执行指令具体可以用于使得处理器执行以下操作:利用至少两个文本识别工具对待识别的文本图像进行文本识别,得到至少两个文本识别工具对应的识别结果;根据修正需求数据,构建识别结果修正指令;将识别结果修正指令以及至少两个文本识别工具对应的全部或部分识别结果提供给语言模型,由语言模型响应于识别结果修正指令,根据全部或部分识别结果中的上下文字符对全部或部分识别结果进行修正处理,得到修正后的识别结果。
在一种可选的实施方式中,可执行指令进一步使处理器执行以下操作:从待识别文档中提取包含有文本内容的图像作为待识别的文本图像。
在一种可选的实施方式中,可执行指令进一步使处理器执行以下操作:根据修正需求数据生成指令语句;依据指令语句,构建识别结果修正指令。
在一种可选的实施方式中,可执行指令进一步使处理器执行以下操作:将至少两个文本识别工具对应的识别结果进行比对,从至少两个文本识别工具中查找存在识别差异的字符,并为存在识别差异的字符添加第一预设标记。
在一种可选的实施方式中,可执行指令进一步使处理器执行以下操作:按照字符排列顺序,比对任一文本识别工具对应的识别结果中的每个字符是否与至少两个文本识别工具中其他文本识别工具对应的识别结果中对应字符一致;若任一文本识别工具对应的识别结果中的任一字符与其他文本识别工具对应的识别结果中对应字符不一致,则将任一字符和对应字符确定为存在识别差异的字符。
在一种可选的实施方式中,指令语句包含有第一预设标记和/或存在识别差异的字符。
在一种可选的实施方式中,可执行指令进一步使处理器执行以下操作:针对每个文本识别工具对应的识别结果中的存在识别差异的字符,从该文本识别工具对应的识别结果中为存在识别差异的字符选取识别结果片段;其中,识别结果片段包含有存在识别差异的字符以及在存在识别差异的字符的预设上下文范围内的上下文字符;对所有识别结果片段进行整合,生成待修正文档。
在一种可选的实施方式中,可执行指令进一步使处理器执行以下操作:将识别结果修正指令以及待修正文档提供给语言模型,由语言模型响应于识别结果修正指令,根据待修正文档中的上下文字符对待修正文档中的存在识别差异的字符进行修正处理。
在一种可选的实施方式中,修正后的识别结果中包含有第二预设标记,第二预设标记用于标记修正后的目标字符。
实施例四
图3示出了根据本发明实施例四的一种计算设备的结构示意图,本发明具体实施例并不对计算设备的具体实现做限定。
如图3所示,该计算设备可以包括:处理器(processor)302、通信接口(Communications Interface)304、存储器(memory)306、以及通信总线308。
其中:
处理器302、通信接口304、以及存储器306通过通信总线308完成相互间的通信。
通信接口304,用于与其它设备比如客户端或其它服务器等的网元通信。
处理器302,用于执行程序310,具体可以执行上述基于语言模型的字符识别方法实施例中的相关步骤。
具体地,程序310可以包括程序代码,该程序代码包括计算机操作指令。
处理器302可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器306,用于存放程序310。存储器306可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序310具体可以用于使得处理器302执行以下操作:利用至少两个文本识别工具对待识别的文本图像进行文本识别,得到至少两个文本识别工具对应的识别结果;根据修正需求数据,构建识别结果修正指令;将识别结果修正指令以及至少两个文本识别工具对应的全部或部分识别结果提供给语言模型,由语言模型响应于识别结果修正指令,根据全部或部分识别结果中的上下文字符对全部或部分识别结果进行修正处理,得到修正后的识别结果。
在一种可选的实施方式中,程序310进一步使得处理器302执行以下操作:从待识别文档中提取包含有文本内容的图像作为待识别的文本图像。
在一种可选的实施方式中,程序310进一步使得处理器302执行以下操作:根据修正需求数据生成指令语句;依据指令语句,构建识别结果修正指令。
在一种可选的实施方式中,程序310进一步使得处理器302执行以下操作:将至少两个文本识别工具对应的识别结果进行比对,从至少两个文本识别工具中查找存在识别差异的字符,并为存在识别差异的字符添加第一预设标记。
在一种可选的实施方式中,程序310进一步使得处理器302执行以下操作:按照字符排列顺序,比对任一文本识别工具对应的识别结果中的每个字符是否与至少两个文本识别工具中其他文本识别工具对应的识别结果中对应字符一致;若任一文本识别工具对应的识别结果中的任一字符与其他文本识别工具对应的识别结果中对应字符不一致,则将任一字符和对应字符确定为存在识别差异的字符。
在一种可选的实施方式中,指令语句包含有第一预设标记和/或存在识别差异的字符。
在一种可选的实施方式中,程序310进一步使得处理器302执行以下操作:针对每个文本识别工具对应的识别结果中的存在识别差异的字符,从该文本识别工具对应的识别结果中为存在识别差异的字符选取识别结果片段;其中,识别结果片段包含有存在识别差异的字符以及在存在识别差异的字符的预设上下文范围内的上下文字符;对所有识别结果片段进行整合,生成待修正文档。
在一种可选的实施方式中,程序310进一步使得处理器302执行以下操作:将识别结果修正指令以及待修正文档提供给语言模型,由语言模型响应于识别结果修正指令,根据待修正文档中的上下文字符对待修正文档中的存在识别差异的字符进行修正处理。
在一种可选的实施方式中,修正后的识别结果中包含有第二预设标记,第二预设标记用于标记修正后的目标字符。
程序310中各步骤的具体实现可以参见上述基于语言模型的字符识别实施例中的相应步骤对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
通过本实施例提供的方案,基于语言模型的语义理解能力,从语义方面对至少两个文本识别工具对应的识别结果自动结合上下文进行分析并对其存在识别差异的字符进行修正,从而有效地避免了一些特殊元素在识别后产生的识别错误情况,有效地提升了识别结果准确度。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
本发明公开了:
A1.一种基于语言模型的字符识别方法,包括:
利用至少两个文本识别工具对待识别的文本图像进行文本识别,得到至少两个文本识别工具对应的识别结果;
根据修正需求数据,构建识别结果修正指令;
将所述识别结果修正指令以及至少两个文本识别工具对应的全部或部分识别结果提供给语言模型,由所述语言模型响应于所述识别结果修正指令,根据全部或部分识别结果中的上下文字符对全部或部分识别结果进行修正处理,得到修正后的识别结果。
A2.根据A1所述的方法,在所述利用至少两个文本识别工具对待识别的文本图像进行文本识别,得到至少两个文本识别工具对应的识别结果之前,所述方法还包括:
从待识别文档中提取包含有文本内容的图像作为待识别的文本图像。
A3.根据A1所述的方法,所述根据修正需求数据,构建识别结果修正指令进一步包括:
根据所述修正需求数据生成指令语句;
依据所述指令语句,构建所述识别结果修正指令。
A4.根据A3所述的方法,在所述利用至少两个文本识别工具对待识别的文本图像进行文本识别,得到至少两个文本识别工具对应的识别结果之后,所述方法还包括:
将至少两个文本识别工具对应的识别结果进行比对,从至少两个文本识别工具中查找存在识别差异的字符,并为所述存在识别差异的字符添加第一预设标记。
A5.根据A4所述的方法,所述将至少两个文本识别工具对应的识别结果进行比对,从至少两个文本识别工具中查找存在识别差异的字符进一步包括:
按照字符排列顺序,比对任一文本识别工具对应的识别结果中的每个字符是否与至少两个文本识别工具中其他文本识别工具对应的识别结果中对应字符一致;
若任一文本识别工具对应的识别结果中的任一字符与其他文本识别工具对应的识别结果中对应字符不一致,则将所述任一字符和对应字符确定为存在识别差异的字符。
A6.根据A4所述的方法,其中,所述指令语句包含有所述第一预设标记和/或所述存在识别差异的字符。
A7.根据A4-A6任一项中所述的方法,在所述从至少两个文本识别工具中查找存在识别差异的字符之后,所述方法还包括:
针对每个文本识别工具对应的识别结果中的所述存在识别差异的字符,从该文本识别工具对应的识别结果中为所述存在识别差异的字符选取识别结果片段;其中,所述识别结果片段包含有所述存在识别差异的字符以及在所述存在识别差异的字符的预设上下文范围内的上下文字符;
对所有识别结果片段进行整合,生成待修正文档。
A8.根据A7所述的方法,将所述识别结果修正指令以及至少两个文本识别工具对应的部分识别结果提供给语言模型进一步包括:
将所述识别结果修正指令以及所述待修正文档提供给所述语言模型,由所述语言模型响应于所述识别结果修正指令,根据所述待修正文档中的上下文字符对所述待修正文档中的所述存在识别差异的字符进行修正处理。
A9.根据A1-A8任一项中所述的方法,所述修正后的识别结果中包含有第二预设标记,所述第二预设标记用于标记修正后的目标字符。
B10.一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行以下操作:
利用至少两个文本识别工具对待识别的文本图像进行文本识别,得到至少两个文本识别工具对应的识别结果;
根据修正需求数据,构建识别结果修正指令;
将所述识别结果修正指令以及至少两个文本识别工具对应的全部或部分识别结果提供给语言模型,由所述语言模型响应于所述识别结果修正指令,根据全部或部分识别结果中的上下文字符对全部或部分识别结果进行修正处理,得到修正后的识别结果。
B11.根据B10所述的计算设备,所述可执行指令进一步使所述处理器执行以下操作:
从待识别文档中提取包含有文本内容的图像作为待识别的文本图像。
B12.根据B10所述的计算设备,所述可执行指令进一步使所述处理器执行以下操作:
根据所述修正需求数据生成指令语句;
依据所述指令语句,构建所述识别结果修正指令。
B13.根据B12所述的计算设备,所述可执行指令进一步使所述处理器执行以下操作:
将至少两个文本识别工具对应的识别结果进行比对,从至少两个文本识别工具中查找存在识别差异的字符,并为所述存在识别差异的字符添加第一预设标记。
B14.根据B13所述的计算设备,所述可执行指令进一步使所述处理器执行以下操作:
按照字符排列顺序,比对任一文本识别工具对应的识别结果中的每个字符是否与至少两个文本识别工具中其他文本识别工具对应的识别结果中对应字符一致;
若任一文本识别工具对应的识别结果中的任一字符与其他文本识别工具对应的识别结果中对应字符不一致,则将所述任一字符和对应字符确定为存在识别差异的字符。
B15.根据B13所述的计算设备,所述指令语句包含有所述第一预设标记和/或所述存在识别差异的字符。
B16.根据B13-B15任一项中所述的计算设备,所述可执行指令进一步使所述处理器执行以下操作:
针对每个文本识别工具对应的识别结果中的所述存在识别差异的字符,从该文本识别工具对应的识别结果中为所述存在识别差异的字符选取识别结果片段;其中,所述识别结果片段包含有所述存在识别差异的字符以及在所述存在识别差异的字符的预设上下文范围内的上下文字符;
对所有识别结果片段进行整合,生成待修正文档。
B17.根据B16所述的计算设备,所述可执行指令进一步使所述处理器执行以下操作:
将所述识别结果修正指令以及所述待修正文档提供给所述语言模型,由所述语言模型响应于所述识别结果修正指令,根据所述待修正文档中的上下文字符对所述待修正文档中的所述存在识别差异的字符进行修正处理。
B18.根据B10-B17任一项中所述的计算设备,所述修正后的识别结果中包含有第二预设标记,所述第二预设标记用于标记修正后的目标字符。
C19.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如A1-A9中任一项所述的一种基于语言模型的字符识别方法对应的操作。
Claims (10)
1.一种基于语言模型的字符识别方法,包括:
利用至少两个文本识别工具对待识别的文本图像进行文本识别,得到至少两个文本识别工具对应的识别结果;
根据修正需求数据,构建识别结果修正指令;
将所述识别结果修正指令以及至少两个文本识别工具对应的全部或部分识别结果提供给语言模型,由所述语言模型响应于所述识别结果修正指令,根据全部或部分识别结果中的上下文字符对全部或部分识别结果进行修正处理,得到修正后的识别结果。
2.根据权利要求1所述的方法,在所述利用至少两个文本识别工具对待识别的文本图像进行文本识别,得到至少两个文本识别工具对应的识别结果之前,所述方法还包括:
从待识别文档中提取包含有文本内容的图像作为待识别的文本图像。
3.根据权利要求1所述的方法,所述根据修正需求数据,构建识别结果修正指令进一步包括:
根据所述修正需求数据生成指令语句;
依据所述指令语句,构建所述识别结果修正指令。
4.根据权利要求3所述的方法,在所述利用至少两个文本识别工具对待识别的文本图像进行文本识别,得到至少两个文本识别工具对应的识别结果之后,所述方法还包括:
将至少两个文本识别工具对应的识别结果进行比对,从至少两个文本识别工具中查找存在识别差异的字符,并为所述存在识别差异的字符添加第一预设标记。
5.根据权利要求4所述的方法,所述将至少两个文本识别工具对应的识别结果进行比对,从至少两个文本识别工具中查找存在识别差异的字符进一步包括:
按照字符排列顺序,比对任一文本识别工具对应的识别结果中的每个字符是否与至少两个文本识别工具中其他文本识别工具对应的识别结果中对应字符一致;
若任一文本识别工具对应的识别结果中的任一字符与其他文本识别工具对应的识别结果中对应字符不一致,则将所述任一字符和对应字符确定为存在识别差异的字符。
6.根据权利要求4所述的方法,其中,所述指令语句包含有所述第一预设标记和/或所述存在识别差异的字符。
7.根据权利要求4-6任一项中所述的方法,在所述从至少两个文本识别工具中查找存在识别差异的字符之后,所述方法还包括:
针对每个文本识别工具对应的识别结果中的所述存在识别差异的字符,从该文本识别工具对应的识别结果中为所述存在识别差异的字符选取识别结果片段;其中,所述识别结果片段包含有所述存在识别差异的字符以及在所述存在识别差异的字符的预设上下文范围内的上下文字符;
对所有识别结果片段进行整合,生成待修正文档。
8.根据权利要求7所述的方法,将所述识别结果修正指令以及至少两个文本识别工具对应的部分识别结果提供给语言模型进一步包括:
将所述识别结果修正指令以及所述待修正文档提供给所述语言模型,由所述语言模型响应于所述识别结果修正指令,根据所述待修正文档中的上下文字符对所述待修正文档中的所述存在识别差异的字符进行修正处理。
9.一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行以下操作:
利用至少两个文本识别工具对待识别的文本图像进行文本识别,得到至少两个文本识别工具对应的识别结果;
根据修正需求数据,构建识别结果修正指令;
将所述识别结果修正指令以及至少两个文本识别工具对应的全部或部分识别结果提供给语言模型,由所述语言模型响应于所述识别结果修正指令,根据全部或部分识别结果中的上下文字符对全部或部分识别结果进行修正处理,得到修正后的识别结果。
10.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-8中任一项所述的一种基于语言模型的字符识别方法对应的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311386552.6A CN117373037A (zh) | 2023-10-24 | 2023-10-24 | 基于语言模型的字符识别方法、计算设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311386552.6A CN117373037A (zh) | 2023-10-24 | 2023-10-24 | 基于语言模型的字符识别方法、计算设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117373037A true CN117373037A (zh) | 2024-01-09 |
Family
ID=89394249
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311386552.6A Pending CN117373037A (zh) | 2023-10-24 | 2023-10-24 | 基于语言模型的字符识别方法、计算设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117373037A (zh) |
-
2023
- 2023-10-24 CN CN202311386552.6A patent/CN117373037A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200159755A1 (en) | Summary generating apparatus, summary generating method and computer program | |
CN111444320B (zh) | 文本检索方法、装置、计算机设备和存储介质 | |
CN107273356B (zh) | 基于人工智能的分词方法、装置、服务器和存储介质 | |
CN111695439A (zh) | 图像结构化数据提取方法、电子装置及存储介质 | |
US9286526B1 (en) | Cohort-based learning from user edits | |
US10963717B1 (en) | Auto-correction of pattern defined strings | |
CN107608951B (zh) | 报表生成方法和系统 | |
CN116860949B (zh) | 问答处理方法、装置、系统、计算设备及计算机存储介质 | |
CN110472701B (zh) | 文字纠错方法、装置、电子设备和存储介质 | |
US20180260376A1 (en) | System and method to create searchable electronic documents | |
CN112966685B (zh) | 用于场景文本识别的攻击网络训练方法、装置及相关设备 | |
CN106547743B (zh) | 一种进行翻译的方法及其系统 | |
CN111222368A (zh) | 一种识别文档段落的方法、装置及电子设备 | |
CN111950240A (zh) | 一种数据批改方法、装置及系统 | |
CN115393625A (zh) | 从粗略标记进行图像分段的半监督式训练 | |
CN112989829B (zh) | 一种命名实体识别方法、装置、设备及存储介质 | |
CN114139537A (zh) | 词向量的生成方法及装置 | |
KR102468975B1 (ko) | 인공지능 기반의 판례 인식의 정확도 향상 방법 및 장치 | |
CN117373037A (zh) | 基于语言模型的字符识别方法、计算设备及存储介质 | |
Hocking et al. | Optical character recognition for South African languages | |
CN110569401A (zh) | 阅卷方法、装置、计算机设备和存储介质 | |
Steenhuis et al. | Weaving Pathways for Justice with GPT: LLM-driven automated drafting of interactive legal applications | |
CN115130437A (zh) | 一种文档智能填写方法、装置及存储介质 | |
CN113033178B (zh) | 用于商业计划书的文本评估方法、装置及计算机 | |
CN111566665B (zh) | 在自然语言处理中应用图像编码识别的装置和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |