CN111582169A - 图像识别数据纠错方法、装置、计算机设备和存储介质 - Google Patents

图像识别数据纠错方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN111582169A
CN111582169A CN202010382159.XA CN202010382159A CN111582169A CN 111582169 A CN111582169 A CN 111582169A CN 202010382159 A CN202010382159 A CN 202010382159A CN 111582169 A CN111582169 A CN 111582169A
Authority
CN
China
Prior art keywords
data
error correction
knowledge base
image
image recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010382159.XA
Other languages
English (en)
Other versions
CN111582169B (zh
Inventor
王斌
康安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010382159.XA priority Critical patent/CN111582169B/zh
Publication of CN111582169A publication Critical patent/CN111582169A/zh
Application granted granted Critical
Publication of CN111582169B publication Critical patent/CN111582169B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Character Discrimination (AREA)

Abstract

本申请涉及一种图像识别数据纠错方法、装置、计算机设备和存储介质。方法包括:获取图像识别数据,提取图像识别数据中各字符的置信度,获取图像识别数据对应的结构化的文本数据,根据文本数据,确定对应的目标知识库,根据结构化的文本数据的对应字段在目标知识库中对应的参考数据,确定文本数据与参考数据的相异字符和编辑距离,根据编辑距离以及相异字符的置信度,进行纠错处理。采用本方法能够应用在人工智能技术领域,实现对图像识别数据进行准确可靠的纠错处理,从而能够提高图像数据识别结果的准确性。

Description

图像识别数据纠错方法、装置、计算机设备和存储介质
技术领域
本申请涉及人工智能技术领域,特别是涉及一种图像识别数据纠错方法、装置、计算机设备和存储介质。
背景技术
随着人工智能技术的发展,深度学习发挥了越来越重要的作用,越来越多的人工领域被自动化取代。
图像数据识别人工智能发展过程中的一项重要产物,对于图像数据,能够通过OCR(Optical Character Recognition,光学字符识别)处理,识别出图像数据中的文字信息,但光学文字识别的处理过程会受到扫描效果、纸质文件本身的字体清晰度,文字的排列情况等外部因素的干扰,从而导致OCR的识别效果准确性较低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够通过解决识别错误问题来提高识别准确性的图像识别数据纠错方法、装置、计算机设备和存储介质。
一种图像识别数据纠错方法,方法包括:
获取图像识别数据;
提取图像识别数据中各字符的置信度,并获取图像识别数据对应的结构化的文本数据;
获取图像识别数据对应的目标知识库,根据结构化的文本数据的对应字段在目标知识库中对应的参考数据,确定文本数据与参考数据的相异字符和编辑距离;
根据编辑距离以及相异字符的置信度,对图像识别数据进行纠错处理。
在其中一个实施例中,根据所述结构化的文本数据的对应字段在所述目标知识库中对应的参考数据,确定所述文本数据与所述参考数据的相异字符和编辑距离包括:
根据所述结构化的文本数据对应的字段属性,从所述目标知识库中查找与所述字段属性对应的参考数据;
确定所述参考数据与所述文本数据的相异字符;
根据所述相异字符的数量,得到所述参考数据与所述文本数据的编辑距离。
一种图像识别数据纠错方法,方法包括:
发送携带有待识别图像的纠错处理请求至服务器;
接收服务器通过上述任一种图像识别数据纠错方法对待识别图像的图像识别数据进行纠错处理后反馈的更新图像识别数据;
将更新图像识别数据叠加至对应图像;
在显示界面展示叠加有更新图像识别数据的图像。
一种图像识别数据纠错装置,装置包括:
图像识别数据获取模块,用于获取图像识别数据;
结构化文本数据获取模块,用于提取图像识别数据中各字符的置信度,并获取图像识别数据对应的结构化的文本数据;
目标知识库确定模块,用于获取图像识别数据对应的目标知识库,根据结构化的文本数据的对应字段在目标知识库中对应的参考数据,确定文本数据与参考数据的相异字符和编辑距离;
纠错处理模块,用于根据编辑距离以及相异字符的置信度,对图像识别数据进行纠错处理。
一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现以下步骤:
获取图像识别数据;
提取图像识别数据中各字符的置信度,并获取图像识别数据对应的结构化的文本数据;
获取图像识别数据对应的目标知识库,根据结构化的文本数据的对应字段在目标知识库中对应的参考数据,确定文本数据与参考数据的相异字符和编辑距离;
根据编辑距离以及相异字符的置信度,对图像识别数据进行纠错处理。
一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取图像识别数据;
提取图像识别数据中各字符的置信度,并获取图像识别数据对应的结构化的文本数据;
获取图像识别数据对应的目标知识库,根据结构化的文本数据的对应字段在目标知识库中对应的参考数据,确定文本数据与参考数据的相异字符和编辑距离;
根据编辑距离以及相异字符的置信度,对图像识别数据进行纠错处理。
上述图像识别数据纠错方法、装置、计算机设备和存储介质,通过对图像识别数据中的字符进行置信度的提取,获取每个字符的置信度,从图像识别出的文字的源头,保留识别结果的可能性,为后续纠错处理提供参考基础,通过对图像识别数据对应的文本数据,能够基于文本数据的识别确定用于纠错处理的目标知识库,并根据进行结构化处理后的文本数据,按字段确定参考数据,并得到文本数据与参考数据的相异字符和编辑距离,进而根据结合编辑距离以及相异字符的置信度两方面数据,实现准确可靠的纠错处理,从而能够提高图像数据识别结果的准确性。
附图说明
图1为一个实施例中图像识别数据纠错方法的应用环境图;
图2为一个实施例中图像识别数据纠错方法的流程示意图;
图3为一个实施例中图像识别数据纠错方法的字符置信度Top5信息示意图;
图4为另一个实施例中图像识别数据纠错方法的流程示意图;
图5为再一个实施例中图像识别数据纠错方法的流程示意图;
图6为一个实施例中图像识别数据纠错方法的流程示意图;
图7为又一个实施例中图像识别数据纠错方法的流程示意图;
图8为还一个实施例中图像识别数据纠错方法的流程示意图;
图9为再一个实施例中图像识别数据纠错方法的流程示意图;
图10为另一个实施例中图像识别数据纠错方法的流程示意图;
图11为其中一个实施例中图像识别数据纠错方法的流程示意图;
图12为一个实施例中图像识别数据纠错方法在图像识别过程中的应用示意图;
图13为一个实施例中图像识别数据纠错方法的图像识别结果示意图;
图14为一个实施例中图像识别数据纠错装置的结构框图;
图15为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。对于图像中的文字识别,自然语言处理起着重要的作用。
本申请提供的图像识别数据纠错方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。终端102对待识别的图像进行扫描或图像信息采集,并将图像信息发送至服务器104,服务器104对接收的图像进行光学字符识别,得到图像识别数据,并提取图像识别数据中各字符的置信度;获取图像识别数据对应的结构化的文本数据,根据文本数据,确定对应的目标知识库;根据结构化的文本数据的对应字段在目标知识库中对应的参考数据,确定文本数据与参考数据的相异字符和编辑距离;根据编辑距离以及相异字符的置信度,进行纠错处理,得到纠错后的图像识别结果,并将图像识别结果反馈至终端。其中,终端102可以但不限于是扫描仪、数码相机、各种具有图像信息采集功能的个人计算机、笔记本电脑、智能手机、平板电脑、智能穿戴设备等电子设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群或者分布式系统来实现,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
在其他实施例中,上述图像的光学字符识别过程也可以在终端实现,将得到的图像识别数据发送至服务器进行纠错处理。在其他实施例中,上述方案也可以在终端实现。
在一个实施例中,如图2所示,提供了一种图像识别数据纠错方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤202至步骤208。
步骤202,获取图像识别数据。
图像识别数据是指对图像进行光学字符识别后得到的数据,光学字符识别是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程,即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。
步骤204,提取图像识别数据中各字符的置信度,并获取图像识别数据对应的结构化的文本数据。
在进行光学字符识别的过程中,对于每个形状对应的文字,会存在多个对应的候选字符,在传统的识别过程中,在经过光学字符识别处理之后,直接确定置信度最大的候选字符为对应的文字,对于其他候选字符采用的是舍弃处理。在本方案中,对于每一个字符,将其候选字符按置信度从大到小的顺序进行排列,然后筛选出排序靠前的N个字符,例如,置信度Top5的字符,在处理过程中,除了作为初始识别结果的字符的置信度,还包括除该初始字符以外的其余字符的置信度。置信度用于判断是否需要对初始字符就行纠错处理,在实施例中,设置有置信度阈值,若初始字符的置信度小于置信度阈值,则需要对该字符进行纠错处理。
在实施例中,对于图像识别数据中识别出来的每一个字符,都携带有置信度Top5信息,可以理解,在其他实施例中,也可以配置为其他数量的字符置信度信息,例如提取置信度Top3、Top4的字符。如图3所示,对于OCR识别结果中的90-139里面的第一个字符“9”为例,识别结果的Top5信息分别为“9”“0”“、”“%”“2”,其中,对应的置信度如图3中所示,其中为“9”的置信度最高,将“9”作为初始的识别结果,该字符的置信度包括初始字符的置信度以及其余四个字符的置信度。通过提取每个字符对应的Top5信息,解决OCR算法天生的识别准确度的缺陷,通过提供携带有置信度的备选字符,实现可靠纠错。
通过对图像识别结果进行NLP(Natural Language Processing,自然语言处理)处理,经过字段信息抽取得到结构化的文本数据。结构化是指对数据进行整理归纳的过程,结构化的文本数据是指按照字段对图像识别数据中的字符进行划分得到的结果,结构化的文本数据中,每一个文本数据都有对应的归属字段。
步骤206,获取图像识别数据对应的目标知识库,根据结构化的文本数据的对应字段在目标知识库中对应的参考数据,确定文本数据与参考数据的相异字符和编辑距离。
在经过NLP处理,可以识别出图像识别数据中的每一个字符的语义,基于语义信息,能够确定用于表征图像识别数据的身份信息的字符,例如标题信息等。在一个实施例中,以图像为医院体检单为例,通过识别图像识别数据中的医院名称的文本数据,可以确定该医院体检单对应的医院,然后从与各医院对应的知识库中获取到与该医院对应的目标知识库。在其他实施例中,在NLP处理过程中,还可以通过结构化和关键字识别的方式获取到医院名称对应的文本数据。
在另一个实施例中,以图像为设备检测记录图表为例,通过图像识别技术,得到设备检测记录图表对应的图像识别数据,然后通过NLP识别出图像识别数据中设备名称对应的文本数据,可以确定该设备检测记录图表对应的设备,进而以该设备对应的目标知识库为依据,对该图像识别数据进行纠错处理。
在其他实施例中,图像可以是各类检测记录图表,该图表具体可以是包括表征图像类型的文字或标识、检测项目名称、各类检测数值(例如测定值、参考值等)的图像。基于表征图像类型的文字或标识,通过该文字或标识匹配到预先配置的目标知识库,进而对该图像的图像识别数据中的检测项目名称和各类数值进行纠错处理。
在一个实施例中,如图4所示,获取图像识别数据对应的目标知识库,根据结构化的文本数据的对应字段在目标知识库中对应的参考数据,确定文本数据与参考数据的相异字符和编辑距离包括步骤402至步骤410。
步骤402,识别图像识别数据对应文本数据中的目标标识字符。
步骤404,根据预设的专用知识库携带的标识字符,通过模糊匹配得到与目标标识字符对应的专用知识库匹配结果。
步骤406,若专用知识库匹配结果为存在匹配的专用知识库,则将匹配的专用知识库标记为目标知识库。
步骤408,若专用知识库匹配结果为不存在匹配的专用知识库,则将预设的通用知识库标记为目标知识库。
步骤410,根据结构化的文本数据的对应字段在目标知识库中对应的参考数据,确定文本数据与参考数据的相异字符和编辑距离。
目标标识字符是指用于表征该图像识别数据的身份的特定字符,该字符用于与各预设的专用知识库进行匹配,确定对应的目标知识库。距离来说,对于各大医院的体检单,通过自然语言处理,识别通过OCR处理后的字符的语义,按字段进行结构化处理,划分为不同的字段。通过实体识别或关键字识别等方式,获取字段中用于标识医疗机构信息的目标标识字符,然后采用模糊匹配的方式,基于各预设的专用知识库携带的标识字符,确定匹配程度最高的专用知识库,将该专用知识库标记为目标知识库。
具体来说,由于OCR的识别结果存在不确定性,并不能保证识别的初始字符一定正确,因此通过模糊匹配的方式能够匹配到适合的专用知识库,选用的专用知识库数量只有1个,在获取到匹配结果之后,需要对匹配结果中的匹配程度进行分析,若匹配程度小于设定的匹配阈值,则将匹配结果标记为不存在匹配的专用知识库,并将预设的通用知识库标记为目标知识库。如若匹配程度不小于设定的匹配阈值的专用知识库数量为多个,则使用匹配程度最高的专用知识库数量为目标知识库。
举例来说,通过OCR识别和NLP处理,得到目标标识字符为“XX省八民医院”,通过对标识字符的模糊匹配,得到匹配度最高的专用知识库为“XX省人民医院”,且识别出来的字符“八”的置信度为0.532,根据Top5信息,可以查询到“人”的置信度为“0.445”,这两个字符的置信度都偏低且置信度差异小,因此两者的匹配程度较高,故,将XX省人民医院对应的专用知识库作为目标知识库。
在其他实施例中,为了避免出现专用知识库纠错出现OCR对医疗机构信息检测有误、医院知识库更新不及时等原因导致的大范围误纠情况,使用纠错比率来检测并解决这种误纠现象。即在完成专用知识库纠错后,统计纠错条目数占总条目数的比值,如果比值大于所设阈值R,将放弃专用知识库的纠错结果,转而使用通用知识库再次纠错处理。
结构化的文本数据是被划分为多个字段的文本数据,在确定目标指示数据库后,按照字段,确定各个文本数据在目标知识库中对应的参考数据。一个字段包括一个或多个字符,相异字符是指每个字段的文本数据字符与参考数据字符的差异。例如,对于体检单中项目名称为‘红细胞计数’的体检条目,原图为“3.50-5.50”,OCR识别结果为“3.60-5.50”,目标知识库中为“3.50-5.50”,则相异字符串为第三位的“6”。编辑距离是指将一个字符串变成另一个字符串的编辑次数,编辑方式包括删除、增加、替换字符串中的任何一个字元。编辑距离可以根据相异字符的数量来确定,相异字符数量越多,编辑距离越大。将“3.60-5.50”变成“3.50-5.50”,只需要将第三位的“6”修改为“5”即可,只需要进行一次编辑,因此,编辑距离为1。再例如,将“3.69-5.50”变成“3.50-5.50”,需要将第三位的“6”修改为“5”、将第四位的“9”修改为“0”,需要进行两次编辑,因此,编辑距离为2。
在一个实施例中,如图5所示,获取图像识别数据对应的目标知识库,根据结构化的文本数据的对应字段在目标知识库中对应的参考数据,确定文本数据与参考数据的相异字符和编辑距离包括步骤502至步骤506。
步骤502,获取图像识别数据对应的目标知识库,根据结构化的文本数据对应的字段属性,从目标知识库中查找与字段属性对应的参考数据。
步骤504,确定参考数据与文本数据的相异字符。
步骤506,根据相异字符的数量,得到参考数据与文本数据的编辑距离。
字段属性是对文本进行结构化处理后用于表征文本特征的信息。例如,医院体检单中四个主要字段是:Key(数据名称)、V(测定值)、U(参考单位)、R(参考范围)。再例如,电力设备检测记录图表中的主要字段包括检测项目、测定值(电压值、电流值、电感等)、参考范围、参考单位等。又例如,流量监控记录图表中的主要字段包括监控对象名称、监控数据、数据参考范围以及参考单位等。在对图像识别数据进行结构化处理的时候,会依据这四个主要字段对识别出的数据进行文本数据的结构化处理,在结构化处理结束之后,各个文本数据会对应一个字段,该字段的特征即为文本数据的字段属性,具体来说,这四个字段的内容可以构成一个数据组,字段属性可以包括属于哪个数据组、以及属于该数据组的具体哪个字段。
在目标知识库中,为了实现准确的数据纠错处理,对于能够提供标准参考数据的字段,例如体检单中的数据名称、参考单位以及参考范围,为了获取每个字段准确的对应参考数据,以字段属性为依据,实现在目标知识库中的字段准确定位。例如,体检单中每一数据组以数据名称(即体检项目名称)为Key,对于“红细胞计数”这一项,对于结构化的文本数据中的“3.60-5.50”,其所在的数据组的数据名称为“红细胞计数”,其在该数据组对应的字段为“参考范围”,因此,通过从目标知识库中查找数据名称为“红细胞计数”的数据组的“参考范围”,即可得到“3.60-5.50”对应的参考数据。再例如,从目标知识库中查找得到的参考数据为“3.50-5.50”,相异字符为第三个字符“6”,相异字符只有1个,编辑距离为1。
步骤208,根据编辑距离以及相异字符的置信度,对图像识别数据进行纠错处理。
同时考虑编辑距离和相异字符的置信度,来进行纠错处理,能够有效避免误纠的情况发生。
在实施例中,目标知识库包括专用知识库和通用知识库。在通过专用知识库进行纠错时,若编辑距离为不大于预设编辑距离阈值(例如预设编辑距离阈值为1),则利用Top5字段及其对应的置信度和专用知识库中相应字段决定是否对相异字符纠错。由于Top5字段中字符的置信度越高,说明此字符的识别结果越准确,因此若相异字符的置信度大于或等于设定阈值时,不对其纠错。反之则用专用知识库中的参考数据替换掉相异字符对应的字符串;对于编辑距离大于预设编辑距离阈值的参考范围,直接利用专用知识库对其强行替换。
在通过通用知识库进行纠错时,由于通用知识库中的数据针对性不如专用知识库强,因此需要先对结构化的文本数据进行预处理和通用纠错处理,然后计算经过预处理和通用纠错后的字段与通用知识库中对应的字段之间的编辑距离。具体的纠错过程和专用知识库纠错中的使用的纠错过程类似,但删除了在编辑距离大于预设编辑距离阈值时的强行替换逻辑。
上述图像识别数据纠错方法,通过对图像识别数据中的字符进行置信度的提取,获取每个字符的置信度,从图像识别出的文字的源头,保留识别结果的可能性,为后续纠错处理提供参考基础,通过对图像识别数据对应的文本数据,能够基于文本数据的识别确定用于纠错处理的目标知识库,并根据进行结构化处理后的文本数据,按字段确定参考数据,并得到文本数据与参考数据的相异字符和编辑距离,进而根据结合编辑距离以及相异字符的置信度两方面数据,实现准确可靠的纠错处理,从而能够提高图像数据识别结果的准确性。
参见图6,在纠错处理过程存在三种处理情况,第一种是直接通过专用知识库进行纠错处理,第二种是直接通过通用知识库进行纠错处理,这两种情况的判断根据专用知识库匹配结果来实现。第三种是当通过专用知识库进行纠错处理的纠错率超过预设的纠错率阈值时,舍弃原有的纠错结果,改用通用知识库重新进行纠错处理。
在一个实施例中,以目标知识库为专用知识库为例,根据编辑距离以及相异字符的置信度,进行纠错处理包括:若编辑距离大于预设编辑距离阈值,将相异字符替换为专用知识库中对应的参考数据。若编辑距离不大于预设编辑距离阈值且相异字符的置信度小于预设置信度阈值,将相异字符替换为专用知识库中的参考数据。若编辑距离不大于预设编辑距离阈值且相异字符的置信度不小于预设置信度阈值,则不进行纠错处理。在实施例中,预设置信度阈值可以为1或是其他设定数值,通过将编辑距离和置信度这两类信息作为是否进行纠错的评判依据,能够通过信息平衡,综合多方面因素,避免单一因素的绝对性,造成文本数据的误纠现象。
在实施例中,专用知识库纠错对于知识库的准确性要求极高,只适用于特定类型的图像识别数据,例如医疗机构信息具有对应的专用知识库。为了避免出现专用知识库匹配不准确、专用知识库更新不及时等问题造成的大范围误纠情况,通过纠错比率来解决这一问题。
在一个实施例中,如图7所示,根据编辑距离以及相异字符的置信度,对图像识别数据进行纠错处理之后,还包括步骤702至步骤704。
步骤702,获取图像识别数据中文本数据的总条目数量以及进行了纠错处理的纠错条目数量。
步骤704,若纠错条目数量占总条目数量的比值大于预设纠错比率,舍弃纠错处理结果,并将图像识别数据对应的目标知识库由专用知识库替换为通用知识库。
文本数据的总条目数量是指通过OCR识别出来并进行了是否需要进行纠错判断处理的字段数量,进行了纠错处理的纠错条目数量是指更改了原有的初始识别数据,并进行了纠错更新的处理的字段数量。比如,一个字段进行了多个字符的纠错处理,但由于该多个字符处于同一个字段,因此进行了纠错处理的数量记为1。预设纠错比率是指根据历史数据得到的用于评估纠错准确性的阈值数据,若对于精确度要求越高,可以将预设纠错比率设置为数值较小的数据,反正,可以设置为数值稍大的数据,可以根据实际应用需要进行调整。
通用知识库是能够用于对各个图像识别数据的纠错处理具有通用性的知识库,但其针对性相对于专用知识库较弱,因此,将专用知识库作为先验条件,通过两类知识库的配合使用,能够扩大对图像识别数据的纠错的适用范围,达到比较好的纠错效果。在使用通用知识库进行纠错处理时,基于其针对性相对较弱的问题,例如,不同医院的体检单的数据标准形式存在一定的差异,不能强行根据通用知识库的标准对所有数据进行无差别的纠错处理。在使用通用知识库处理前,需要先对结构化的文本数据进行预处理和通用纠错处理。下面以目标知识库为通用知识库为例对预处理过程和通用纠错处理过程进行说明。
首先,预处理过程是解决识别的基础错误问题,例如字段划分错误、某个字段有噪音字符,使用的数据名称不一致等。在一个实施例中,如图8所示,根据编辑距离以及相异字符的置信度,进行纠错处理之前,还包括纠错预处理过程,具体包括步骤802至步骤804。
步骤802,根据结构化的文本数据,确定字段构成的数据组。
步骤804,对数据组中的字段进行纠错预处理,得到预处理数据。
纠错预处理包括数据名称标准化、字段重划分以及噪音字符处理中的至少一种。
根据编辑距离以及相异字符的置信度,对图像识别数据进行纠错处理包括步骤806。
步骤806,根据预处理数据对应的文本数据与参考数据的编辑距离以及相异字符的置信度,对图像识别数据进行纠错处理。
其中,数据名称标准化是指若数据组的数据名称字段为记录在通用知识库的别称,则将数据名称字段有别称替换为通用知识库中的标准名称的纠错过程。
字段重划分是指若数据组存在单个内容缺失的字段,则根据数据组中内容缺失的字段和存在多余字符的字段,重新进行字段划分的纠错过程。
噪音字符删除是指若数据组的字段内容包含在预设噪音字符列表中存在的噪音符号,则舍弃噪音字符的纠错过程。
将预处理数据对应的文本数据与通用数据库中对应字段的参考数据进行对比,得到相异字符以及编辑距离,然后确定得到的相异字符的置信度,最后根据编辑距离以及相异字符的置信度,对图像识别数据进行纠错处理。
以医院体检单为例,每一体检项目对应的数据组包括Key(字段名称)、V(测定值)、U(参考单位)、R(参考范围)四个字段,通过预处理,能够识别如NLP将体检单中的U和R连接到一起导致U(或R)字段缺失、OCR识别的U中含有大量噪音字符等,并进行纠错处理。同时,通过预处理,还能解决各家医院对同一体检项目使用的名称不同问题:如名称为BMI和体重指数BMI的体检项目均属于体重指数这一项,因此通过预处理可以将指向同一体检项目的key标准化。
在实施例中,如图9所示,对于数据名称标准化处理,首先,判断数据名称是否为通用知识库的标准名称,若不是,则通过对应的别名数据库中进行匹配,若匹配失败,则跳过这一字段,若匹配成功,则确定该别名对应的标准名称的数量,若对应的标准名称的数量为1,则将该数据名称由别名更新为对应的标准名称,若对应的标准名称的数量大于1,则保留原有的数据名称,不进行替换处理。
对于字段识别错误的情况,具体分为两种,一种是字段内容有噪音,另一种是字段内容缺失。
对于字段内容有噪音的情况,需要进行噪音字符处理。利用预设的噪音符号列表进行噪音字符检测,并舍弃在预设的噪音符号列表中存在的噪音字符,其中噪音符号列表中的噪音字符包括各种标点符号。
对于内容缺失的情况,需要进行字段重划分处理,当缺失的数据为数据名称时,由于体检项目中的数据名称一般为汉字或其他字符,其他项目为数字,因此,通过查找相邻字段中的是否存在数据名称对应的内容,并重新进行字段划分。在数据名称对应的字段进行了标准化处理或者无需纠错时,参考单位和参考范围这两项字段的内容缺失是主要的纠错难点,由于这两项都以数字或字母形式记录的内容居多,极易造成字段划分错误,对于参考单位字段内容缺失的情况,若参考范围对应字段的数据内容存在多余的字符,则根据通用知识库,对参考范围对应字段的数据内容重新进行切分。同理,对于参考范围字段内容缺失的情况,若参考单位对应字段的数据内容存在多余的字符,则根据通用知识库,对参考单位对应字段的数据内容重新进行切分。
在一个实施例中,在使用通用知识库进行纠错处理时,以数据组中的参数范围字段的纠错处理为例。如图10所示,根据编辑距离以及相异字符的置信度,进行纠错处理之前还包括通用纠错即字段格式纠错过程,具体包括步骤1002至步骤1006。
步骤1002,根据结构化的文本数据,确定字段构成的数据组。
步骤1004,根据数据组,从通用数据库中获取数据组中字段的参考字段格式。
步骤1006,根据参考字段格式,对字段对应的文本数据进行字段格式纠错处理,得到字段格式纠错处理数据。
字段格式纠错处理包括连接符缺少时的添加处理、噪音连接符的删除处理以及全角字符的半角化处理中的至少一种;
根据编辑距离以及相异字符的置信度,对图像识别数据进行纠错处理包括步骤1008。
步骤1008,根据字段格式纠错处理数据对应的文本数据与参考数据的编辑距离以及相异字符的置信度,对图像识别数据进行纠错处理。
其中,连接符缺少时的添加处理是指若格式比较结果为缺少连接符,将数据划分为两个数据,并在两个数据之间添加连接符。其中,这划分的两个数据需要满足按数值从小到大排列且数值大小相差不超过一个量级。
噪音连接符的删除处理是指若格式比较结果为存在重复或无意义的噪音符号,舍弃重复或无意义的噪音符号的处理。
全角字符的半角化处理是指若格式比较结果为存在字符占用位置错误,将全角字符替换为半角字符。
将字段格式纠错处理数据对应的文本数据与通用数据库中对应字段的参考数据进行对比,得到相异字符以及编辑距离,然后确定得到的相异字符的置信度,最后根据编辑距离以及相异字符的置信度,对图像识别数据进行纠错处理。
具体来说,通用纠错处理的主要任务是:根据参考范围的固定格式,对结构化后的字符进行适当的增加、删除和替换处理。如为结构化的参考范围“60.1080.40”增加一个连接符‘-’,修改为“60.10-80.40”。再比如,删除参考范围字段中的噪音字符,包括无意义的字符如“、”“,”“:”“/”等。还包括重复的连接符如“;”“~”“-”等。再比如,通过字符占用位置检测,将全角字符替换为半角字符。还有OCR识别处理过程中的bug的处理,如删除参考范围字段内容的词首或词尾出现的“/”等。
在实施例中,在使用通用数据库进行纠错处理之前,可以包括纠错预处理和字段格式纠错处理中的一项或两项处理,若包括纠错预处理和字段格式纠错处理这两项处理,可以先进行纠错预处理,再进行字段格式纠错处理,将纠错预处理的处理结果作为字段格式纠错处理的待处理数据。
在一个实施例中,如图11所示,图像识别数据纠错方法包括以下步骤1102至步骤1138。
步骤1102,对图像进行光学字符识别处理,得到图像识别数据。
步骤1104,提取图像识别数据中各字符的置信度,对图像识别数据进行自然语言处理,获得结构化的文本数据。
步骤1106,识别图像识别数据对应文本数据中的目标标识字符。
步骤1108,根据预设的专用知识库携带的标识字符,通过模糊匹配得到与目标标识字符对应的专用知识库匹配结果。
步骤1110,若专用知识库匹配结果为存在匹配的专用知识库,则将匹配的专用知识库标记为目标知识库。
步骤1112,根据结构化的文本数据对应的字段属性,从目标知识库中查找与字段属性对应的参考数据。
步骤1114,确定参考数据与文本数据的相异字符。
步骤1116,根据相异字符的数量,得到参考数据与文本数据的编辑距离。
步骤1118,若编辑距离大于预设编辑距离阈值,将相异字符替换为专用知识库中对应的参考数据。
步骤1120,若编辑距离不大于预设编辑距离阈值且相异字符的置信度小于预设置信度阈值,将相异字符替换为专用知识库中的参考数据。
步骤1122,获取图像识别数据中文本数据的总条目数量以及进行了纠错处理的纠错条目数量。
步骤1124,若纠错条目数量占总条目数量的比值大于预设纠错比率,舍弃纠错处理结果,并将图像识别数据对应的目标知识库由专用知识库替换为通用知识库。
步骤1126,若专用知识库匹配结果为不存在匹配的专用知识库,则将预设的通用知识库标记为目标知识库。
步骤1128,根据结构化的文本数据,确定字段构成的数据组。
步骤1130,对数据组中的字段进行纠错预处理,得到预处理数据。
步骤1132,根据预处理数据中各字段构成的数据组,从通用数据库中获取数据组中字段的参考字段格式。
步骤1134,根据参考字段格式,对字段对应的文本数据进行字段格式纠错处理,得到字段格式纠错处理数据。
步骤1136,根据字段格式纠错处理数据对应的文本数据的对应字段在通用知识库中对应的参考数据,确定相异字符和编辑距离。
步骤1138,若编辑距离不大于预设编辑距离阈值且相异字符的置信度小于预设置信度阈值,根据通用知识库中的参考数据对相异字符进行替换。
本申请还提供一种应用场景,具体为医院的体检单的识别纠错,在智能核保中可以得到应用,该应用场景应用上述的图像识别数据纠错方法。具体地,该图像识别数据纠错方法在该应用场景的应用如下:
如图12所示,对于每一张体检单,其整体的处理流程包括,首先,对图片进行OCR识别,得到携带有Top5信息的文字信息,然后通过NLP处理,通过字段划分,得到结构化的文本数据,然后利用专用知识库和通用知识库对结构化的文本数据进行纠错处理,通过设计两个知识库作为纠错的基础,两个知识库配合达到比较好的纠错效果。
在处理过程中,可以通过配置先验信息来迅速提升纠错水平。具体来说,通过对体检单的NLP识别结果进行分类确定对应的医院,例如,利用模糊匹配技术得到该体检单的对应医院,并查看该医院是否在专用医学知识库列表中,专用医学知识库列表中存储有构建有专用知识库的医院信息。如果在则可以根据对应医院的专用知识库进行高精度专用纠错,如果不在则进行一般泛化纠错。在算法垂直落地过程中,往往需要高精度的纠错,来提高系统稳定性。此时客户只要给一张特定医院的单据,并将通过OCR处理得到的信息录入该纠错系统,该系统即可进行高精度纠错。
为了防止误纠(某些情况下,收集到的特定医院的知识库可能不是全面的,此时如果进入该医院的专用纠错,很可能产生误纠),设置了一些判断条件,例如纠错比率(假设为γ),当纠正条目除以进入系统的总条目数对应的纠错比率大于γ时,纠错系统此时不再使用专用知识库进行纠错,转为使用通用知识库纠错。
通过知识库设置有多种纠错类型,具体来说:
(1)对于OCR固有单字检测缺陷的问题,比如某个体检项仅可能有一个单位,此时,若检测到该体检项目的参考单位字段缺失,则根据该体检项目的名称,从知识库中查找对应的参考单位并进行字符补充。例如,检测到“淋巴细胞百分比”这一体检项目的参考单位字段是缺失的,通过知识库中查找对应且唯一的单位为“%”,则将“%”写入该字段对应的内容。
(2)对于OCR形近字识别错误的问题,比如某个体检项的参考单位字段出现形近字错误,根据该体检项目的名称从知识库中查找对应的参考单位并进行更新,例如将“10^97L”修改为“10^9/L”。
(3)对于某些扫描件中段横线很淡,识别不到的情况,比如参考范围字段的识别结果中缺少连接符,由于参考范围不具有唯一性,在对应知识库数据不够全面时,参考范围字段的内容识别结果为某些浮点数组合(参考范围字段的字符串不可以出现汉字),通过将字段内容分割为左小右大,大小相差不过一个量级的两个浮点数,并在切分后的两个数据之间添加段横线作为连接符。例如,将“3.010.0”更新为“3.0-10.0”。
(4)对于参考单位字段的两端出现噪音字符的情况,首先检测该字段的相邻字段的内容是否检测完毕,且检测结果为准确无误时,删除该字段的噪音字符。例如,将“x10^12/L”x更新为“10^12/L”。
(5)对于参考单位字段的出现部分字符缺失的情况,通过体检项目的名称,在知识库中查询到对应的参考单位,并进行更新。例如,将“红细胞数量”的参考单位“10^12/”更新为“10^12/L”。
(6)对于参考单位字段内容的单位量级错误的情况,通过体检项目的名称,在知识库中查询到对应的量级,并进行更新。例如,将“空腹血糖”的参考单位“mol/L”更新为“mmol/L”。
(7)对于参考单位字段或参考范围字段不属于合法字符,即在其对应的合法字符库中不存在时,将该字段的字段内容删除。
此外,对于通用知识库纠错中部分体检条目难以处理的问题:如乙肝类体检的参考范围常常为‘阴性’、‘阴性(-)’,通过为特定体检条目定制特定的纠错方案并更新至通用知识库来完成纠错处理。
在一个实施例中,提供了一种图像识别数据纠错方法,应用于终端,方法包括:发送携带有待识别图像的纠错处理请求至服务器;接收服务器通过上述任一种图像识别数据纠错方法对待识别图像的图像识别数据进行纠错处理后反馈的更新图像识别数据;将更新图像识别数据叠加至对应图像;在显示界面展示叠加有更新图像识别数据的图像。
在其中一个实施例中,将更新图像识别数据叠加至对应图像之前,还包括:获取待识别图像的初始图像识别数据。将更新图像识别数据叠加至对应图像包括:将初始图像识别数据和更新图像识别数据分别叠加至对应图像。在显示界面展示叠加有更新图像识别数据的图像包括:在显示界面展示叠加有初始图像识别数据和更新图像识别数据的图像。
通过将初始图像识别数据和纠错处理后的更新图像识别数据,能够使工作人员了解进行了纠错的数据具体包括哪些,还能便捷快速地进行数据的核验。
如图13所示,其中第一列、第二列和第四列为图像中实际存在的打印数据,第三列的数据表示对体检条目的OCR识别结果,第五列的数据表示程序对相应的OCR识别结果纠错后的更新值。在实施例中,可以通过不同颜色或不同底纹等方式,以区别图像中的数据、纠错前的数据以及纠错后的数据。
由图可知,对于项目名称为‘红细胞计数’的体检条目,原图为“3.50-5.50”,OCR识别结果为“3.60-5.50”,知识库中的参考数据为['3.5-5.00','3.5-5.5']。纠错处理过程中检测到OCR字符串与知识库库中的'3.5-5.00'最接近且相异字符串为第三位的“6”,通过查询第三位字符的Top5信息可知,“6”的置信度为0.654,“5”的置信度为0.341,均小于预设的阈值0.95,因此以知识库中的参考数据为准,将“3.60-5.50”纠正为“3.50-5.50”。类似的,对于项目名称为“平均红细胞血红蛋白含量”的体检条目,OCR识别结果中多了噪音字符“↓”,该噪音字符在纠错处理过程中被检测到并进行了删除处理。
通过将上述方案应用于智能核保方案中,能够显著提升字段输出水平,提升通用测试集纠错字段平均大约5%、专用测试集大约10%的指标。通过解决OCR识别以及NLP结构化带来的一些问题,极大的提升了用户体验,保证了核保产品落地。
在其他实施例中,本方案还可以应用与其他场景,例如在各类数据图表的识别纠错分析等,比如电力行业或是其他工业生产中的数据图表的图像识别。
应该理解的是,虽然图2、图4-5、图7-8、图10-11的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2、图4-5、图7-8、图10-11中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图14所示,提供了一种图像识别数据纠错装置1400,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:图像识别数据获取模块1402、结构化文本数据获取模块1404、目标知识库确定模块1406和纠错处理模块1408,其中:
图像识别数据获取模块1402,用于获取图像识别数据。
结构化文本数据获取模块1404,用于提取图像识别数据中各字符的置信度,并获取图像识别数据对应的结构化的文本数据。
目标知识库确定模块1406,用于获取图像识别数据对应的目标知识库,根据结构化的文本数据的对应字段在目标知识库中对应的参考数据,确定文本数据与参考数据的相异字符和编辑距离。
纠错处理模块1408,用于根据编辑距离以及相异字符的置信度,对图像识别数据进行纠错处理。
在一个实施例中,目标知识库确定模块,还用于识别图像识别数据对应文本数据中的目标标识字符;根据预设的专用知识库携带的标识字符,通过模糊匹配得到与目标标识字符对应的专用知识库匹配结果;若专用知识库匹配结果为存在匹配的专用知识库,则将匹配的专用知识库标记为目标知识库;若专用知识库匹配结果为不存在匹配的专用知识库,则将预设的通用知识库标记为目标知识库。
在一个实施例中,目标知识库确定模块包括相异字符和编辑距离确定单元,用于根据结构化的文本数据对应的字段属性,从目标知识库中查找与字段属性对应的参考数据;确定参考数据与文本数据的相异字符;根据相异字符的数量,得到参考数据与文本数据的编辑距离。
在一个实施例中,目标知识库为通用知识库;图像识别数据纠错装置还包括预处理模块,用于根据所述结构化的文本数据,确定字段构成的数据组;
对所述数据组中的字段进行纠错预处理,得到预处理数据,所述纠错预处理包括数据名称标准化、字段重划分以及噪音字符处理中的至少一种。纠错处理模块还用于根据所述预处理数据对应的文本数据与所述参考数据的编辑距离以及相异字符的置信度,对所述图像识别数据进行纠错处理。
在一个实施例中,目标知识库为通用知识库;图像识别数据纠错装置还包括字段格式纠错处理模块,用于根据所述结构化的文本数据,确定字段构成的数据组;根据所述数据组,从所述通用数据库中获取所述数据组中字段的参考字段格式;根据所述参考字段格式,对所述字段对应文本数据进行字段格式纠错处理,得到字段格式纠错处理数据,所述字段格式纠错处理包括连接符缺少时的添加处理、噪音连接符的删除处理以及全角字符的半角化处理中的至少一种;纠错处理模块还用于根据所述字段格式纠错处理数据对应的文本数据与所述参考数据的编辑距离以及相异字符的置信度,对所述图像识别数据进行纠错处理。
在一个实施例中,目标知识库为专用知识库;纠错处理模块用于若编辑距离大于预设编辑距离阈值,将相异字符替换为专用知识库中对应的参考数据;若编辑距离不大于预设编辑距离阈值且相异字符的置信度小于预设置信度阈值,将相异字符替换为专用知识库中的参考数据。
在一个实施例中,图像识别数据纠错装置还包括知识库切换模块用于获取图像识别数据中文本数据的总条目数量以及进行了纠错处理的纠错条目数量;若纠错条目数量占总条目数量的比值大于预设纠错比率,舍弃纠错处理结果,并将图像识别数据对应的目标知识库由专用知识库替换为通用知识库。
在一个实施例中,提供了一种图像识别数据纠错装置,装置包括:纠错处理请求发送模块、纠错数据接收模块、数据叠加模块、图像展示模块,其中:
纠错处理请求发送模块,用于发送携带有待识别图像的纠错处理请求至服务器。
纠错数据接收模块,用于接收服务器通过上述任一种图像识别数据纠错方法对待识别图像的图像识别数据进行纠错处理后反馈的更新图像识别数据。
数据叠加模块,用于将更新图像识别数据叠加至对应图像。
图像展示模块,用于在显示界面展示叠加有更新图像识别数据的图像。
关于图像识别数据纠错装置的具体限定可以参见上文中对于图像识别数据纠错方法的限定,在此不再赘述。上述图像识别数据纠错装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图15所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储图像识别数据纠错数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图像识别数据纠错方法。
本领域技术人员可以理解,图15中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种图像识别数据纠错方法,其特征在于,所述方法包括:
获取图像识别数据;
提取所述图像识别数据中各字符的置信度,并获取所述图像识别数据对应的结构化的文本数据;
获取所述图像识别数据对应的目标知识库,根据所述结构化的文本数据的对应字段在所述目标知识库中对应的参考数据,确定所述文本数据与所述参考数据的相异字符和编辑距离;
根据所述编辑距离以及所述相异字符的置信度,对所述图像识别数据进行纠错处理。
2.根据权利要求1所述的方法,其特征在于,所述获取所述图像识别数据对应的目标知识库包括:
识别所述图像识别数据对应文本数据中的目标标识字符;
根据预设的专用知识库携带的标识字符,通过模糊匹配得到与所述目标标识字符对应的专用知识库匹配结果;
若专用知识库匹配结果为存在匹配的专用知识库,则将匹配的专用知识库标记为目标知识库;
若专用知识库匹配结果为不存在匹配的专用知识库,则将预设的通用知识库标记为目标知识库。
3.根据权利要求1所述的方法,其特征在于,所述目标知识库为专用知识库;
所述根据所述编辑距离以及所述相异字符的置信度,对所述图像识别数据进行纠错处理包括:
若所述编辑距离大于预设编辑距离阈值,将所述相异字符替换为所述专用知识库中对应的参考数据;
若所述编辑距离不大于预设编辑距离阈值且所述相异字符的置信度小于预设置信度阈值,将所述相异字符替换为所述专用知识库中的参考数据。
4.根据权利要求1所述的方法,其特征在于,所述目标知识库为专用知识库;
所述根据所述编辑距离以及所述相异字符的置信度,对所述图像识别数据进行纠错处理之后,还包括:
获取所述图像识别数据中文本数据的总条目数量以及进行了纠错处理的纠错条目数量;
若所述纠错条目数量占所述总条目数量的比值大于预设纠错比率,舍弃纠错处理结果,并将所述图像识别数据对应的目标知识库由专用知识库替换为通用知识库。
5.根据权利要求1所述的方法,其特征在于,所述目标知识库为通用知识库;
所述根据所述编辑距离以及所述相异字符的置信度,对所述图像识别数据进行纠错处理之前,还包括:
根据所述结构化的文本数据,确定字段构成的数据组;
对所述数据组中的字段进行纠错预处理,得到预处理数据,所述纠错预处理包括数据名称标准化、字段重划分以及噪音字符处理中的至少一种;
所述根据所述编辑距离以及所述相异字符的置信度,对所述图像识别数据进行纠错处理包括:
根据所述预处理数据对应的文本数据与所述参考数据的编辑距离以及相异字符的置信度,对所述图像识别数据进行纠错处理。
6.根据权利要求1所述的方法,其特征在于,所述目标知识库为通用知识库;
所述根据所述编辑距离以及所述相异字符的置信度,对所述图像识别数据进行纠错处理之前,还包括:
根据所述结构化的文本数据,确定字段构成的数据组;
根据所述数据组,从所述通用数据库中获取所述数据组中字段的参考字段格式;
根据所述参考字段格式,对所述字段对应文本数据进行字段格式纠错处理,得到字段格式纠错处理数据,所述字段格式纠错处理包括连接符缺少时的添加处理、噪音连接符的删除处理以及全角字符的半角化处理中的至少一种;
所述根据所述编辑距离以及所述相异字符的置信度,对所述图像识别数据进行纠错处理包括:
根据所述字段格式纠错处理数据对应的文本数据与所述参考数据的编辑距离以及相异字符的置信度,对所述图像识别数据进行纠错处理。
7.一种图像识别数据纠错方法,其特征在于,所述方法包括:
发送携带有待识别图像的纠错处理请求至服务器;
接收所述服务器通过权利要求1-6中任一项所述的方法对所述待识别图像的图像识别数据进行纠错处理后反馈的更新图像识别数据;
将所述更新图像识别数据叠加至对应图像;
在显示界面展示叠加有所述更新图像识别数据的图像。
8.一种图像识别数据纠错装置,其特征在于,所述装置包括:
图像识别数据获取模块,用于获取图像识别数据;
结构化文本数据获取模块,用于提取所述图像识别数据中各字符的置信度,并获取所述图像识别数据对应的结构化的文本数据;
目标知识库确定模块,用于获取所述图像识别数据对应的目标知识库,根据所述结构化的文本数据的对应字段在所述目标知识库中对应的参考数据,确定所述文本数据与所述参考数据的相异字符和编辑距离;
纠错处理模块,用于根据所述编辑距离以及所述相异字符的置信度,对所述图像识别数据进行纠错处理。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6、或权利要求7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6、或权利要求7中任一项所述的方法的步骤。
CN202010382159.XA 2020-05-08 2020-05-08 图像识别数据纠错方法、装置、计算机设备和存储介质 Active CN111582169B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010382159.XA CN111582169B (zh) 2020-05-08 2020-05-08 图像识别数据纠错方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010382159.XA CN111582169B (zh) 2020-05-08 2020-05-08 图像识别数据纠错方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN111582169A true CN111582169A (zh) 2020-08-25
CN111582169B CN111582169B (zh) 2023-10-10

Family

ID=72117242

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010382159.XA Active CN111582169B (zh) 2020-05-08 2020-05-08 图像识别数据纠错方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN111582169B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112085011A (zh) * 2020-09-27 2020-12-15 中国建设银行股份有限公司 一种ocr识别结果纠错方法、装置及存储介质
CN112185520A (zh) * 2020-09-27 2021-01-05 志诺维思(北京)基因科技有限公司 一种医疗病理报告图片的文本结构化处理系统和方法
CN113408536A (zh) * 2021-06-23 2021-09-17 平安健康保险股份有限公司 票据的金额识别方法、装置、计算机设备及存储介质
CN113420546A (zh) * 2021-06-24 2021-09-21 平安国际智慧城市科技股份有限公司 文本纠错方法、装置、电子设备及可读存储介质
CN113688837A (zh) * 2021-09-29 2021-11-23 平安科技(深圳)有限公司 图像脱敏方法、装置、电子设备及计算机可读存储介质
CN113704403A (zh) * 2021-08-25 2021-11-26 深圳市网联安瑞网络科技有限公司 基于词库的ocr语义校正方法、系统、介质、设备、终端
CN113780285A (zh) * 2021-09-27 2021-12-10 常州市公共资源交易中心 证照分析方法、装置和存储介质
CN114241487A (zh) * 2021-12-20 2022-03-25 北京妙医佳健康科技集团有限公司 一种ocr识别方法
CN117523570A (zh) * 2023-11-10 2024-02-06 广州方舟信息科技有限公司 一种药品标题的修正方法、装置、设备及存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103488983A (zh) * 2013-09-13 2014-01-01 复旦大学 一种基于知识库的名片ocr数据修正方法和系统
CN103927352A (zh) * 2014-04-10 2014-07-16 江苏唯实科技有限公司 利用知识库海量关联信息的中文名片ocr数据修正系统
CN106485243A (zh) * 2016-10-31 2017-03-08 用友网络科技股份有限公司 一种票据识别纠错方法及装置
CN106847288A (zh) * 2017-02-17 2017-06-13 上海创米科技有限公司 语音识别文本的纠错方法与装置
CN107622263A (zh) * 2017-02-20 2018-01-23 平安科技(深圳)有限公司 单据图像的字符识别方法和装置
CN108874174A (zh) * 2018-05-29 2018-11-23 腾讯科技(深圳)有限公司 一种文本纠错方法、装置以及相关设备
CN109344730A (zh) * 2018-09-06 2019-02-15 康美健康云服务有限公司 数据提取方法、装置及计算机可读存储介质
CN109598265A (zh) * 2017-09-30 2019-04-09 顺丰科技有限公司 一种文字识别方法、系统、设备、计算机可读存储介质
CN109657738A (zh) * 2018-10-25 2019-04-19 平安科技(深圳)有限公司 字符识别方法、装置、设备及存储介质
CN110442870A (zh) * 2019-08-02 2019-11-12 深圳市珍爱捷云信息技术有限公司 文本纠错方法、装置、计算机设备和存储介质
CN110674396A (zh) * 2019-08-28 2020-01-10 北京三快在线科技有限公司 文本信息处理方法、装置、电子设备及可读存储介质
CN110941720A (zh) * 2019-09-12 2020-03-31 贵州耕云科技有限公司 一种基于知识库的特定人员信息纠错方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103488983A (zh) * 2013-09-13 2014-01-01 复旦大学 一种基于知识库的名片ocr数据修正方法和系统
CN103927352A (zh) * 2014-04-10 2014-07-16 江苏唯实科技有限公司 利用知识库海量关联信息的中文名片ocr数据修正系统
CN106485243A (zh) * 2016-10-31 2017-03-08 用友网络科技股份有限公司 一种票据识别纠错方法及装置
CN106847288A (zh) * 2017-02-17 2017-06-13 上海创米科技有限公司 语音识别文本的纠错方法与装置
CN107622263A (zh) * 2017-02-20 2018-01-23 平安科技(深圳)有限公司 单据图像的字符识别方法和装置
CN109598265A (zh) * 2017-09-30 2019-04-09 顺丰科技有限公司 一种文字识别方法、系统、设备、计算机可读存储介质
CN108874174A (zh) * 2018-05-29 2018-11-23 腾讯科技(深圳)有限公司 一种文本纠错方法、装置以及相关设备
CN109344730A (zh) * 2018-09-06 2019-02-15 康美健康云服务有限公司 数据提取方法、装置及计算机可读存储介质
CN109657738A (zh) * 2018-10-25 2019-04-19 平安科技(深圳)有限公司 字符识别方法、装置、设备及存储介质
WO2020082562A1 (zh) * 2018-10-25 2020-04-30 平安科技(深圳)有限公司 字符识别方法、装置、设备及存储介质
CN110442870A (zh) * 2019-08-02 2019-11-12 深圳市珍爱捷云信息技术有限公司 文本纠错方法、装置、计算机设备和存储介质
CN110674396A (zh) * 2019-08-28 2020-01-10 北京三快在线科技有限公司 文本信息处理方法、装置、电子设备及可读存储介质
CN110941720A (zh) * 2019-09-12 2020-03-31 贵州耕云科技有限公司 一种基于知识库的特定人员信息纠错方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
WANG D,ET AL.: "Confusionset-guided Pointer Networks for Chinese Spelling Check", PROCEEDINGS OF THE 57TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS, pages 5780 *
张仰森: "中文校对系统中纠错知识库的构造及纠错建议的产生算法", 中文信息学报, no. 05, pages 34 - 40 *
陈翔;徐平先;张玉志;: "面向文本数字化的自动纠错方法", 计算机应用研究, no. 05, pages 160 - 162 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112085011A (zh) * 2020-09-27 2020-12-15 中国建设银行股份有限公司 一种ocr识别结果纠错方法、装置及存储介质
CN112185520A (zh) * 2020-09-27 2021-01-05 志诺维思(北京)基因科技有限公司 一种医疗病理报告图片的文本结构化处理系统和方法
CN113408536A (zh) * 2021-06-23 2021-09-17 平安健康保险股份有限公司 票据的金额识别方法、装置、计算机设备及存储介质
CN113420546A (zh) * 2021-06-24 2021-09-21 平安国际智慧城市科技股份有限公司 文本纠错方法、装置、电子设备及可读存储介质
CN113704403A (zh) * 2021-08-25 2021-11-26 深圳市网联安瑞网络科技有限公司 基于词库的ocr语义校正方法、系统、介质、设备、终端
CN113780285A (zh) * 2021-09-27 2021-12-10 常州市公共资源交易中心 证照分析方法、装置和存储介质
CN113780285B (zh) * 2021-09-27 2024-03-15 常州市公共资源交易中心 证照分析方法、装置和存储介质
CN113688837A (zh) * 2021-09-29 2021-11-23 平安科技(深圳)有限公司 图像脱敏方法、装置、电子设备及计算机可读存储介质
CN114241487A (zh) * 2021-12-20 2022-03-25 北京妙医佳健康科技集团有限公司 一种ocr识别方法
CN117523570A (zh) * 2023-11-10 2024-02-06 广州方舟信息科技有限公司 一种药品标题的修正方法、装置、设备及存储介质
CN117523570B (zh) * 2023-11-10 2024-05-14 广州方舟信息科技有限公司 一种药品标题的修正方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN111582169B (zh) 2023-10-10

Similar Documents

Publication Publication Date Title
CN111582169B (zh) 图像识别数据纠错方法、装置、计算机设备和存储介质
US10860848B2 (en) Multi-page document recognition in document capture
JP4829920B2 (ja) フォーム自動埋込方法及び装置、グラフィカルユーザインターフェース装置
US10120537B2 (en) Page-independent multi-field validation in document capture
US11232300B2 (en) System and method for automatic detection and verification of optical character recognition data
US10489645B2 (en) System and method for automatic detection and verification of optical character recognition data
CN110990390B (zh) 数据协同处理方法、装置、计算机设备和存储介质
JP2019502979A (ja) 構造化されたマルチフィールドファイルのレイアウトの自動解釈
CN106709032A (zh) 抽取电子表格文档中结构化信息的方法及装置
CN113536771B (zh) 基于文本识别的要素信息提取方法、装置、设备及介质
CN111506608B (zh) 一种结构化文本的比较方法和装置
CN112036295B (zh) 票据图像处理方法、装置、存储介质及电子设备
US20090148049A1 (en) Recording medium for recording logical structure model creation assistance program, logical structure model creation assistance device and logical structure model creation assistance method
CN115546809A (zh) 基于单元格约束的表格结构识别方法及其应用
CN113936764A (zh) 一种医疗报告单照片中敏感信息脱敏方法及系统
CN111597336B (zh) 训练文本的处理方法、装置、电子设备及可读存储介质
US20190172171A1 (en) Automatically attaching optical character recognition data to images
CN113326363A (zh) 搜索方法及装置、预测模型训练方法及装置、电子设备
CN109960707B (zh) 一种基于人工智能的高校招生数据采集方法及系统
CN114579796B (zh) 机器阅读理解方法及装置
CN113642291B (zh) 上市公司报告的逻辑结构树构建方法、系统、存储介质及终端
JP2004171316A (ja) Ocr装置及び文書検索システム及び文書検索プログラム
CN112560849B (zh) 基于神经网络算法的文理分割方法及系统
CN114220113A (zh) 一种论文质量检测方法、装置和设备
CN114495138A (zh) 一种智能文档识别与特征提取方法、装置平台和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant