CN113704403A - 基于词库的ocr语义校正方法、系统、介质、设备、终端 - Google Patents

基于词库的ocr语义校正方法、系统、介质、设备、终端 Download PDF

Info

Publication number
CN113704403A
CN113704403A CN202110984517.9A CN202110984517A CN113704403A CN 113704403 A CN113704403 A CN 113704403A CN 202110984517 A CN202110984517 A CN 202110984517A CN 113704403 A CN113704403 A CN 113704403A
Authority
CN
China
Prior art keywords
words
suspicion
result
character
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110984517.9A
Other languages
English (en)
Inventor
廖伟
石珺
李志鹏
郭认飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Wanglian Anrui Network Technology Co ltd
Original Assignee
Shenzhen Wanglian Anrui Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Wanglian Anrui Network Technology Co ltd filed Critical Shenzhen Wanglian Anrui Network Technology Co ltd
Priority to CN202110984517.9A priority Critical patent/CN113704403A/zh
Publication of CN113704403A publication Critical patent/CN113704403A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开一种基于词库的OCR语义校正方法、系统、介质、设备、终端,涉及语义网络技术领域。过滤出所有字符识别置信度小于阈值0.4的字符,每个字符记录前5的结果;分别对置信度小于阈值0.4的字符的5种结果提取嫌疑词,最终对应得到5组嫌疑词,每组嫌疑词会有1个或多个嫌疑词;按照置信度顺序从高到低的顺序,分别对5组嫌疑词和词库进行匹配,分别计算匹配距离,匹配距离采用编辑距离评估;以匹配距离最小的结果作为结果输出。本发明结合字符识别结果top5和词库,精准定位识别错误字符,有针对性地对识别错误字符进行高效率纠错,保证识别结果的语义正确性。

Description

基于词库的OCR语义校正方法、系统、介质、设备、终端
技术领域
本发明属于语义网络技术领域,尤其涉及一种基于词库的OCR语义校正方法、系统、接收用户输入程序存储介质、计算机设备、信息数据处理终端,可应用于人工智能、深度学习、计算机图像视觉。
背景技术
OCR(Optical Character Recognition)技术在对印刷质量较好的文本的识别上已经基本成熟,市面上有些软件对这些文本的单字识别率可以达到非常高。但对于一些印刷质量较低或字迹模糊的文本,OCR的单字识别率则会明显下降,必须依靠后处理技术来提高全文的整体识别率。目前后处理技术中的较为常用并且有效的主要有两种方式,一种方式是基于词库的匹配技术,这种技术对于双字词或多字词的识别有良好的效果,但无法对错误词的精准定位及纠错,导致效率低。另一种方式是基于自然语言处理(NaturalLanguange Process简称NLP)技术,适用于检测错误词,但难于预测正确词容易出现误纠错。
目前,在自然语言处理领域,现有的语言模型通常依赖于机器学习算法。机器学习的本质是预测;在通过大量的训练数据集对机器学习模型进行训练,得到自然语言处理模型后,就能够将待处理数据输入至训练好的自然语言处理模型,获得与待处理数据对应的预测结果。
字符分割和字符识别是光学字符识别(英文全称:Optical CharacterRecognition,英文缩写:OCR)技术中最重要的两个方面,这两部分直接影响到字符识别的效果和结果,在OCR技术中需要将分割好的字符进行行方向上的排序后呈现给用户,因此字符的行方向排序技术会直接影响到呈现给用户观看的识别效果。但是当前对于OCR的分行技术主要是基于分割后字符间距来对字符进行简单的分行。
现有技术中依据分割后的字符间距来进行字符的合并和拆分,当不同格式的字符进行排版后,拍摄到的每行字符在页面中有很大倾斜等情况发生时,对页面上中的字符识别存在较大的误差,并且在后续利用识别结果进行语义分析时也很难达到很高的准确性。另外,现有技术中对字符分行是根据字符间距实现的,但随着环境变化在把字符块组合成行时有很大可能会被其它字符所影响,从而会影响最终所给出的识别效果。
再者现有技术公开:基于自然语言处理技术的语义校正方法;基于上下文语义词库的OCR识别方法。
通过上述分析,现有技术存在的问题及缺陷为:
(1)常见的词匹配技术需要对识别的句子种所有的词汇进行匹配,没有针对性盲目纠错效率低;
(2)基于自然语言处理技术的语义校正方法适合于检测错误词,难于预测正确词容易出现误纠错;
(3)基于自然语言处理技术的语义校正方法需要大量标注预料,难于实现。
解决以上问题及缺陷的难度为:
需要保证一份完整的中文词汇库。
解决以上问题及缺陷的意义为:意义在于对识别出来的文字进行错别字过滤后,能利用完整的中文词汇库对错别字的上下文组合的嫌疑词进行匹配,匹配出最合适的词汇,达到纠错的功能。
发明内容
为克服相关技术中存在的问题,本发明公开实施例提供了一种基于词库的OCR语义校正方法、系统、接收用户输入程序存储介质、计算机设备、信息数据处理终端。所述技术方案如下:
根据本发明公开实施例的第一方面,提供一种基于词库的OCR语义校正方法,包括:
使用字符识别结果置信度识别字符错误位置,然后结合字符识别结果和词库进行精准纠错。
在本发明一实施例中,所述使用字符识别结果置信度识别字符错误位置包括:
C1、C2…Cn为待识别字符序列,定义字符识别置信度阈值0.4,当字符Ci识别置信度小于阈值0.4时,判定该字符错误。
在本发明一实施例中,所述结合字符预测结果和词库进行精准纠错包括:
取该字符置信度前5的结果,分别提取5种结果和上下文组成的嫌疑词,按置信度从高到低的顺序分别与词库进行匹配,匹配距离最小的结果作为字符Ci的识别结果输出。
在本发明一实施例中,所述基于词库的OCR语义校正方法具体包括:
步骤一,根据字符识别模型预测的字符置信度过滤出所有字符识别置信度小于阈值0.4的字符,每个字符记录前5的结果,即置信度前5的字符。这里的作用是可以辅助定位出可能(大概率)错误的字符,有针对性的纠错;
步骤二,分别对置信度小于阈值0.4的字符的5种结果提取嫌疑词,嫌疑词的提取是结合上下文,提取单字词或多字词,最终对应得到5组嫌疑词,每组嫌疑词会有1个或多个嫌疑词;
步骤三,按照置信度顺序从高到低的顺序,分别对5组嫌疑词和词库进行匹配,分别计算匹配距离,匹配距离采用编辑距离评估,对每组嫌疑词的每个嫌疑词在词汇库里查找最小编辑距离的词,然后对该组词所有词的最小编辑距离求和作为改组词的匹配距离;
步骤四,以匹配距离最小的结果作为结果输出,如果匹配距离相同,则以置信度高的结果作为输出。
在本发明一实施例中,所述步骤二中,嫌疑词由置信度小于阈值0.4的字符和上下文组成。
在本发明一实施例中,所述步骤四后,重复步骤二~步骤四,直至置信度小于阈值0.4的所有字符都纠正一遍。
根据本发明公开实施例的第二方面,提供一种基于词库的OCR语义校正系统包括:
过滤模块,用于过滤出所有字符识别置信度小于阈值0.4的字符,每个字符记录前5的结果;
提取嫌疑词模块,用于分别对置信度小于阈值0.4的字符的5种结果提取嫌疑词,嫌疑词是由该字符和上下文组成,最终对应得到5组嫌疑词,每组嫌疑词会有1个或多个嫌疑词;
匹配模块,用于按照置信度顺序从高到低的顺序,分别对5组嫌疑词和词库进行匹配,分别计算匹配距离,匹配距离采用编辑距离评估;
输出模块,用于以匹配距离最小的结果作为结果输出,如果匹配距离相同,则以置信度高的结果作为输出;
字符循环纠正模块,用于重复校正,直至置信度小于阈值0.4的所有字符都纠正一遍。
根据本发明公开实施例的第三方面,提供一种接收用户输入程序存储介质,所存储的计算机程序使电子设备执行所述基于词库的OCR语义校正方法。
根据本发明公开实施例的第四方面,提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
步骤1,过滤出所有字符识别置信度小于阈值0.4的字符,每个字符记录前5的结果;
步骤2,分别对置信度小于阈值0.4的字符的5种结果提取嫌疑词,最终对应得到5组嫌疑词,每组嫌疑词会有1个或多个嫌疑词;
步骤3,按照置信度顺序从高到低的顺序,分别对5组嫌疑词和词库进行匹配,分别计算匹配距离,匹配距离采用编辑距离评估;
步骤4,以匹配距离最小的结果作为结果输出,如果匹配距离相同,则以置信度高的结果作为输出;
步骤5,重复步骤2~步骤4,直至置信度小于阈值0.4的所有字符都纠正一遍。
根据本发明公开实施例的第五方面,提供一种存储在计算机可读介质上的计算机程序产品,包括计算机可读程序,供于电子装置上执行时,提供用户输入接口以实施所述基于词库的OCR语义校正方法。
本发明公开的实施例提供的技术方案可以包括以下有益效果:
本发明结合字符预测结果top5和词库,精准定位识别错误字符,有针对性地对识别错误字符进行高效率纠错,保证识别结果的语义正确性。如下表1。
表1对识别错误字符进行纠错
Figure BDA0003230151720000051
当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是本发明实施例提供的基于词库的OCR语义校正方法流程图。
图2是本发明实施例提供的基于词库的OCR语义校正系统示意图。
图中:1、过滤模块;2、提取嫌疑词模块;3、匹配模块;4、输出模块;5、字符循环纠正模块。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
本发明公开实施例所提供的基于词库的OCR语义校正方法包括:
使用字符识别结果置信度(即预测是哪个字符时softmax输出的概率值,下同)来辅助定位并识别字符错误位置,然后结合字符预测结果top5和词库进行精准纠错。
假设C1、C2…Cn为待识别字符序列,定义字符识别置信度阈值0.4,当字符Ci识别置信度(置信度top1)小于阈值0.4时,判定该字符错误,然后取该字符置信度前5的结果,分别提取5种结果和上下文组成的嫌疑词,按置信度从高到低的顺序分别与词库进行匹配,匹配距离最小的结果作为字符Ci的识别结果输出。
具体地,如图1所示,本发明公开实施例所提供的基于词库的OCR语义校正方法包括:
S101,过滤出所有字符识别置信度小于阈值0.4的字符,每个字符记录前5的结果;
S102,分别对置信度小于阈值0.4的字符的5种结果提取嫌疑词,嫌疑词是由该字符和上下文组成,最终对应得到5组嫌疑词,每组嫌疑词会有1个或多个嫌疑词;
S103,按照置信度顺序从高到低的顺序,分别对5组嫌疑词和词库进行匹配,分别计算匹配距离,匹配距离采用编辑距离评估;
S104,以匹配距离最小的结果作为结果输出,如果匹配距离相同,则以置信度高的结果作为输出;
S105,重复步骤S102、S103、S104,直至置信度小于阈值0.4的所有字符都纠正一遍。
如图2所示,本发明公开实施例所提供的基于词库的OCR语义校正系统包括:
过滤模块1,用于过滤出所有字符识别置信度小于阈值0.4的字符,每个字符记录前5的结果;
提取嫌疑词模块2,用于分别对置信度小于阈值0.4的字符的5种结果提取嫌疑词,嫌疑词是由该字符和上下文组成,最终对应得到5组嫌疑词,每组嫌疑词会有1个或多个嫌疑词;
匹配模块3,用于按照置信度顺序从高到低的顺序,分别对5组嫌疑词和词库进行匹配,分别计算匹配距离,匹配距离采用编辑距离评估;
输出模块4,用于以匹配距离最小的结果作为结果输出,如果匹配距离相同,则以置信度高的结果作为输出;
字符循环纠正模块5,用于重复校正,直至置信度小于阈值0.4的所有字符都纠正一遍。
通过上述方案,本发明精准定位出错位置,有针对性的进行词库匹配,提升了纠错准确率和效率,降低了误纠错率。
下面结合实验对比数据对本发明的积极效果作进一步描述。
本发明与现有技术对比具有以下优点,如下表2。
表2本发明与现有技术效率、误纠率、正确率对比
效率(FPS) 误纠率 正确率
本方法 1.45 0.48% 97.23%
NLP方法 0.83 1.55% 95.88%
词匹配方法 1.38 0.78% 96.68
本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由所附的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围应由所附的权利要求来限制。

Claims (10)

1.一种基于词库的OCR语义校正方法,其特征在于,所述基于词库的OCR语义校正方法包括:
使用字符识别结果置信度识别字符错误位置,然后结合字符识别结果和词库进行精准纠错。
2.根据权利要求1所述的基于词库的OCR语义校正方法,其特征在于,所述使用字符识别结果置信度识别字符错误位置包括:
C1、C2…Cn为待识别字符序列,定义字符识别置信度阈值0.4,当字符Ci识别置信度小于阈值0.4时,判定该字符错误。
3.根据权利要求1所述的基于词库的OCR语义校正方法,其特征在于,所述结合字符识别结果和词库进行精准纠错包括:
取该字符置信度前5的结果,分别提取5种结果和上下文组成嫌疑词,按置信度从高到低的顺序分别与词库进行匹配,匹配距离最小的结果作为字符Ci的识别结果输出。
4.根据权利要求1所述的基于词库的OCR语义校正方法,其特征在于,所述基于词库的OCR语义校正方法具体包括:
步骤一,根据字符识别模型预测的字符置信度过滤出所有字符识别置信度小于阈值0.4的字符,每个字符记录前5的结果,所述前5的结果为置信度前5的字符;
步骤二,分别对置信度小于阈值0.4的字符的5种结果提取嫌疑词,嫌疑词的提取是结合上下文,提取单字词或多字词,最终对应得到5组嫌疑词,每组嫌疑词会有1个或多个嫌疑词;
步骤三,按照置信度顺序从高到低的顺序,分别对5组嫌疑词和词库进行匹配,分别计算匹配距离,匹配距离采用编辑距离评估,对每组嫌疑词的每个嫌疑词在词汇库里查找最小编辑距离的词,然后对该组词所有词的最小编辑距离求和作为改组词的匹配距离;
步骤四,以匹配距离最小的结果作为结果输出,如果匹配距离相同,则以置信度高的结果作为输出。
5.根据权利要求4所述的基于词库的OCR语义校正方法,其特征在于,所述步骤二中,嫌疑词由置信度小于阈值0.4的字符和上下文组成。
6.根据权利要求4所述的基于词库的OCR语义校正方法,其特征在于,所述步骤四后,重复步骤二~步骤四,直至置信度小于阈值0.4的所有字符都纠正一遍。
7.一种实施权利要求1~6任意一项所述基于词库的OCR语义校正方法的基于词库的OCR语义校正系统,其特征在于,所述基于词库的OCR语义校正系统包括:
过滤模块,用于过滤出所有字符识别置信度小于阈值0.4的字符,每个字符记录前5的结果;
提取嫌疑词模块,用于分别对置信度小于阈值0.4的字符的5种结果提取嫌疑词,嫌疑词是由该字符和上下文组成,最终对应得到5组嫌疑词,每组嫌疑词会有1个或多个嫌疑词;
匹配模块,用于按照置信度顺序从高到低的顺序,分别对5组嫌疑词和词库进行匹配,分别计算匹配距离,匹配距离采用编辑距离评估;
输出模块,用于以匹配距离最小的结果作为结果输出,如果匹配距离相同,则以置信度高的结果作为输出;
字符循环纠正模块,用于重复校正,直至置信度小于阈值0.4的所有字符都纠正一遍。
8.一种接收用户输入程序存储介质,所存储的计算机程序使电子设备执行所述权利要求1~6任意一项所述基于词库的OCR语义校正方法。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
步骤1,过滤出所有字符识别置信度小于阈值0.4的字符,每个字符记录前5的结果;
步骤2,分别对置信度小于阈值0.4的字符的5种结果提取嫌疑词,最终对应得到5组嫌疑词,每组嫌疑词会有1个或多个嫌疑词;
步骤3,按照置信度顺序从高到低的顺序,分别对5组嫌疑词和词库进行匹配,分别计算匹配距离,匹配距离采用编辑距离评估;
步骤4,以匹配距离最小的结果作为结果输出,如果匹配距离相同,则以置信度高的结果作为输出;
步骤5,重复步骤2~步骤4,直至置信度小于阈值0.4的所有字符都纠正一遍。
10.一种信息数据处理终端,其特征在于,所述信息数据处理终端用于实现如权利要求1~6任意一项所述基于词库的OCR语义校正方法。
CN202110984517.9A 2021-08-25 2021-08-25 基于词库的ocr语义校正方法、系统、介质、设备、终端 Pending CN113704403A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110984517.9A CN113704403A (zh) 2021-08-25 2021-08-25 基于词库的ocr语义校正方法、系统、介质、设备、终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110984517.9A CN113704403A (zh) 2021-08-25 2021-08-25 基于词库的ocr语义校正方法、系统、介质、设备、终端

Publications (1)

Publication Number Publication Date
CN113704403A true CN113704403A (zh) 2021-11-26

Family

ID=78654815

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110984517.9A Pending CN113704403A (zh) 2021-08-25 2021-08-25 基于词库的ocr语义校正方法、系统、介质、设备、终端

Country Status (1)

Country Link
CN (1) CN113704403A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959250A (zh) * 2018-06-27 2018-12-07 众安信息技术服务有限公司 一种基于语言模型和词特征的纠错方法及其系统
CN111582169A (zh) * 2020-05-08 2020-08-25 腾讯科技(深圳)有限公司 图像识别数据纠错方法、装置、计算机设备和存储介质
US20200380286A1 (en) * 2019-05-28 2020-12-03 Alibaba Group Holding Limited Automatic optical character recognition (ocr) correction
CN112085011A (zh) * 2020-09-27 2020-12-15 中国建设银行股份有限公司 一种ocr识别结果纠错方法、装置及存储介质
CN112084947A (zh) * 2020-09-09 2020-12-15 上海肇观电子科技有限公司 光学字符识别结果的处理方法、电路、设备及存储介质
CN112396049A (zh) * 2020-11-19 2021-02-23 平安普惠企业管理有限公司 文本纠错方法、装置、计算机设备及存储介质
US20210081729A1 (en) * 2019-09-16 2021-03-18 Beijing Baidu Netcom Science Technology Co., Ltd. Method for image text recognition, apparatus, device and storage medium

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959250A (zh) * 2018-06-27 2018-12-07 众安信息技术服务有限公司 一种基于语言模型和词特征的纠错方法及其系统
US20200380286A1 (en) * 2019-05-28 2020-12-03 Alibaba Group Holding Limited Automatic optical character recognition (ocr) correction
US20210081729A1 (en) * 2019-09-16 2021-03-18 Beijing Baidu Netcom Science Technology Co., Ltd. Method for image text recognition, apparatus, device and storage medium
CN111582169A (zh) * 2020-05-08 2020-08-25 腾讯科技(深圳)有限公司 图像识别数据纠错方法、装置、计算机设备和存储介质
CN112084947A (zh) * 2020-09-09 2020-12-15 上海肇观电子科技有限公司 光学字符识别结果的处理方法、电路、设备及存储介质
CN112085011A (zh) * 2020-09-27 2020-12-15 中国建设银行股份有限公司 一种ocr识别结果纠错方法、装置及存储介质
CN112396049A (zh) * 2020-11-19 2021-02-23 平安普惠企业管理有限公司 文本纠错方法、装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郝亚男;乔钢柱;谭瑛;: "面向OCR文本识别词错误自动校对方法研究", 计算机仿真, no. 09 *

Similar Documents

Publication Publication Date Title
US9195646B2 (en) Training data generation apparatus, characteristic expression extraction system, training data generation method, and computer-readable storage medium
CN109800414B (zh) 语病修正推荐方法及系统
Singh Optical character recognition techniques: a survey
CN111062376A (zh) 基于光学字符识别与纠错紧耦合处理的文本识别方法
WO2023093525A1 (zh) 模型训练方法、中文文本纠错方法、电子设备和存储介质
CN111914558A (zh) 基于句袋注意力远程监督的课程知识关系抽取方法及系统
CN111062397A (zh) 一种智能票据处理系统
CN107729865A (zh) 一种手写体数学公式离线识别方法及系统
CN111680684B (zh) 一种基于深度学习的书脊文本识别方法、设备及存储介质
CN112766255A (zh) 一种光学文字识别方法、装置、设备及存储介质
US20240119743A1 (en) Pre-training for scene text detection
CN115545041B (zh) 一种增强医疗语句语义向量表示的模型构造方法及系统
CN112464845A (zh) 票据识别方法、设备及计算机存储介质
CN112613293A (zh) 摘要生成方法、装置、电子设备及存储介质
CN111340032A (zh) 一种基于金融领域应用场景的字符识别方法
CN114357206A (zh) 基于语义分析的教育类视频彩色字幕生成方法及系统
CN116127015A (zh) 基于人工智能自适应的nlp大模型分析系统
CN111461108A (zh) 一种医疗单据识别方法
CN113095319B (zh) 基于全卷积角点修正网络的多向场景文字检测方法及装置
Romero et al. The HisClima database: historical weather logs for automatic transcription and information extraction
Wshah et al. Multilingual word spotting in offline handwritten documents
CN116912832A (zh) 一种图像文字识别的纠错方法、纠错装置、设备及介质
CN110929013A (zh) 一种基于bottom-up attention和定位信息融合的图片问答实现方法
CN113704403A (zh) 基于词库的ocr语义校正方法、系统、介质、设备、终端
CN116450781A (zh) 问答的处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination